Text Vectorization ( 데이터 -> 수치변환)

한국경제신문(toss bank)

다시초심으로 2024. 9. 4. 09:20

텍스트 데이터를 수치 벡터 (numerical vector) 형태로 변환하는 과정입니다.
자연어 처리에서 중요한 단계로써, 컴퓨터가 텍스트 데이터를 이해하고 처리할 수 있도록 도와줍니다.
(컴퓨터가 이해할수 있게 숫자 형식으로 변환!)

쉽게 가방 속의 단어들 이라는 뜻인데
즉, 단어들을 가방에 하나씩 넣어놓고 가방을 흔들면 문장을 구성하는 순서는 의미가 없어지고,
오로지 단어 자체에만 집중하게 됩니다.

일반적으로 빈도수(Frequency)와 단어가 문장에서 얼마만큼 영향을 미치는지에 집중한다.

먼저 문장으로부터 단어집합(Vocabulary)를 만들어내고, 문장내에 단어가 들어있으면 1, 단어가 없으면 0으로 표기합니다.

K-Means 군집 (0)	2024.08.05
데이터 전처리 ( Preprocessing ) (0)	2024.08.01
데이터 세트 훈련 교차 검증 (KFold, Stratified, cross_val_score,GridSearchCV) (0)	2024.08.01
데이터 세트 분리, 모델 학습(fit), 예측 수행(predict), 평가(evaluate) (0)	2024.07.31
머신러닝 모델링 프로세스 iris dataset 활용 (0)	2024.07.31

1년차 블로그

1년차 블로그