2.1 자연어 계산과 이해
컴퓨터는 자연어를 사람처럼 이해할 수 없다. 그러나 임베딩을 활용하면 컴퓨터가 자연어를 계산하는 것이 가능해진다.
임베딩은 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과이기 때문이다. 컴퓨터는 임베딩을 계산/처리해 사람이 알아들을 수 있는 형태의 자연어로 출력한다.
자연어의 통계적 패턴 ** statistical pattern** 정보를 통째로 임베딩에 넣는다.
임베딩을 만들 때 쓰는 통계 정보는 3가지가 있다.
- 문장에 어떤 단어가 많이 쓰였는지
- 단어가 어떤 순서로 등장하는지
- 문장에 어떤 단어가 같이 나타났는지
구분 | 백오프워즈 가정 | 언어 모델 | 분포가정 |
---|---|---|---|
내용 | 어떤 단어가 많이 쓰였는가 | 단어가 어떤 순으로 쓰였는가 | 어떤 단어가 같이 쓰였는가 |
대표 통계량 | TF-IDF | - | PMI |
대표 모델 | Deep Averaging Network | ELMo, GPT | Word2Vec |
언어 모델에서는 단어의 등장 순서를, 분포 가정에서는 이웃 단어를 우선시한다. 어떤 단어가 문장에서 주로 나타나는 순서는 해당 단어의 주변 문맥과 뗄래야 뗄 수 없는 관계를 가진다.
한편, 분포 가정에서는 어떤 쌍이 얼마나 자주 나타나는지와 관련한 정보를 수치화하기 위해 개별 단어 그리고 단어 쌍의 빈도 정보를 적극 활용한다.
백오브워즈 가정, 언어 모델, 분포 가정은 말뭉치의 통계적 패턴을 서로 다른 각도에서 분석하는 것이며 상호 보완적이다.