한국경제신문(toss bank)

Text Vectorization ( 데이터 -> 수치변환)

다시초심으로 2024. 9. 4. 09:20

Text Vectorization이란?

텍스트 데이터를 수치 벡터 (numerical vector) 형태로 변환하는 과정입니다.
자연어 처리에서 중요한 단계로써, 컴퓨터가 텍스트 데이터를 이해하고 처리할 수 있도록 도와줍니다.
(컴퓨터가 이해할수 있게 숫자 형식으로 변환!)

1. Integer Encoding

  • 사람의 언어인 텍스트를 컴퓨터한테 인식 시켜주기 위해 컴퓨터가 이해할수 있는 단어 사전(vocabulary)을 먼저 만들어 준다.
  • 단어 집합(단어사전) 은 집합이기 떄문에 중복을 허용하지 않는다. 물론 순서도 없다.
  • 정수 인코딩은 단어 집합에 있는 단어들에게 정수를 부여하여 컴퓨터에게 알려주는 방법입니다.

 

이렇게 단어사전을 만든다음에 고유정수를 부여한다.
정수 부여는 많이 등장한 단어가 낮은 고유 정수를 갖는다.

2.  BOW ( Bag Of Words )

쉽게 가방 속의 단어들 이라는 뜻인데
즉, 단어들을 가방에 하나씩 넣어놓고 가방을 흔들면 문장을 구성하는 순서는 의미가 없어지고,
오로지 단어 자체에만 집중하게 됩니다.

일반적으로 빈도수(Frequency)와 단어가 문장에서 얼마만큼 영향을 미치는지에 집중한다.

3. One Hot Encoding

먼저 문장으로부터 단어집합(Vocabulary)를 만들어내고, 문장내에 단어가 들어있으면 1, 단어가 없으면 0으로 표기합니다.