Text Vectorization이란?
텍스트 데이터를 수치 벡터 (numerical vector) 형태로 변환하는 과정입니다.
자연어 처리에서 중요한 단계로써, 컴퓨터가 텍스트 데이터를 이해하고 처리할 수 있도록 도와줍니다.
(컴퓨터가 이해할수 있게 숫자 형식으로 변환!)
1. Integer Encoding
- 사람의 언어인 텍스트를 컴퓨터한테 인식 시켜주기 위해 컴퓨터가 이해할수 있는 단어 사전(vocabulary)을 먼저 만들어 준다.
- 단어 집합(단어사전) 은 집합이기 떄문에 중복을 허용하지 않는다. 물론 순서도 없다.
- 정수 인코딩은 단어 집합에 있는 단어들에게 정수를 부여하여 컴퓨터에게 알려주는 방법입니다.
2. BOW ( Bag Of Words )
쉽게 가방 속의 단어들 이라는 뜻인데
즉, 단어들을 가방에 하나씩 넣어놓고 가방을 흔들면 문장을 구성하는 순서는 의미가 없어지고,
오로지 단어 자체에만 집중하게 됩니다.
일반적으로 빈도수(Frequency)와 단어가 문장에서 얼마만큼 영향을 미치는지에 집중한다.
3. One Hot Encoding
먼저 문장으로부터 단어집합(Vocabulary)를 만들어내고, 문장내에 단어가 들어있으면 1, 단어가 없으면 0으로 표기합니다.
'한국경제신문(toss bank)' 카테고리의 다른 글
K-Means 군집 (0) | 2024.08.05 |
---|---|
데이터 전처리 ( Preprocessing ) (0) | 2024.08.01 |
데이터 세트 훈련 교차 검증 (KFold, Stratified, cross_val_score,GridSearchCV) (0) | 2024.08.01 |
데이터 세트 분리, 모델 학습(fit), 예측 수행(predict), 평가(evaluate) (0) | 2024.07.31 |
머신러닝 모델링 프로세스 iris dataset 활용 (0) | 2024.07.31 |