2.4 어떤 단어가 같이 쓰였느가
2.4.1 분포 가정
자연어 처리에서 분포 distribution란 특정 범위, 즉 윈도우 내에 동시에 등장하는 이웃 단어 또는 문맥의 집합을 가리킨다. 개별 단어의 분포는 그 단어가 문장 내에서 주로 어느 위치에 나타나는지, 이웃한 위치에 어떤 단어가 자주 나타나는지에 따라 달라진다. 어떤 쌍이 비슷한 문맥 환경에서 자주 등장한다면 그 의미 도한 유사할 것이라는 게 분포 가정 ** distributional hypothesis**의 전제다.
예컨데 한국어의 빨래
, 세탁
이라는 단어의 의미를 전혀 모른다고 하자. 두 단어의 의미를 파악하기 위해서는 이들 단어가 실제 어떻게 쓰이고 있는지 관찰을 해야한다. 두 단어는 타깃 단어 ** target word**이고 청소
, 물
등은 그 주위에 등장한 문맥 단어가 된다
특기는 자칭 청소와 빨래지만 요리는 절망적
재를 우려낸 물로 빨래 할 때 나
찬 물로 옷을 세탁한다.
세탁, 청소, 요리와 기사는
이웃한 단어들이 서로 비슷하기 때문이다. 빨래
가 청소
물
과 같이 등장하는 경향을 미루어 짐작해볼 때 이들끼리도 직간접적으로 관계를 지닐 가능성이 낮아보이지는 않는다. 그럼에도 개별 단어의 분포 정보와 그 의미 사이에는 논리적으로 직접적인 연관성은 사실 낮다. 다시 말해 분포 정보가 곧 의미라는 분포 가정에 의문접이 발생한다.
2.4.2 분포와 의미(1) : 형태소
형태소** morpheme란 의미를 가지는 최소 단위를 말한다. 더 쪼개면 의미를 잃어버리는 것이다.
예를 들어 철수가 밥을 먹었다
라고 한다면 형태소 후보는 철수
, 밥
, 이다.
조금 더 깊게 분석해보자. 계열관계 ** paradigmatic relation가 있다.
계열 관계는 해당 형태소 자리에 다른 형태소가 '대치’되어 쓰일 수 있는 가를 따지는 것이다. 예컨데 철수
대신에 영희
가 올 수 있고 밥
대신 빵
을 쓸 수 있다. 이를 근거로 형태소 자격을 부여한다.
특정 타깃 단어 주변의 문맥 정보를 바탕으로 형태소를 확인한다는 이야기와 일맥상통한다.
말뭉치의 분포 정보와 형태소가 밀접한 관계를 이루고 있다.
2.4.3 분포와 의미(2) : 품사
품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것이다.
- 기능
- 의미
- 형식
위 세가지를 기준으로 분류한다.
- 기능
한 단어가 문장 가운데서 다른 단어와 맺는 관계를 가르킨다.
깊이
높이
는 문장에서 주어로 쓰이고깊다
높다
는 서술어로 사용되고 있다. - 의미
단어의 형식적 의미를 나타낸다. ``깊이높이
를 하나로 묶고
깊다높다`를 같은 군집으로 넣을 수 있다. 품사에서는 어휘적 의미보다 형식적 의미가 중요하다. 다시말해 어떤 단어가 사물의 이름을 나타내는가, 그렇지 않으면 움직임이나 성실, 상태를 나타내느냐 하는 것이다.
- 형식
단어의 형태적 특징을 의미한다.깊이
높이
는 변화하지 않는다.깊었다
높았다
깊겠다
높겠따
따위와 같이 어미가 붙어 여러 가지 모습으로 변화를 일으킬 수 있다.
그러나 예외가 있다.공부
공부하다
두 개를 분류하려면공부
는 명사이지만 우리는 동작이라는 여지를 알고 있다.
품사 분류에서 가장 중요한 기준은 기능이다. 해당 단어가 문장 내에서 점하는 역할에 초점을 맞춰 품사를 분류한다는 것이다.
형태소의 경계를 정하거나 품사를 나누는 것과 같은 다양한 언어학적 문제는 말뭉치의 분포 정보와 깊은 관계를 갖고 있다. 이로인하여 분포 정보를 함축한다면 해당 벡터에 해당 단어의 의미를 자연스레 내재시킬 수 있는 것이다.
2.4.4 점별 상호 정보량
점별 상호 정보량은 두 확률변수사이의 상관성을 계량화하는 단위다. 두 확률변수가 완전히 독립인 경우 그 값이 0이 된다. 독립이라고 하면 A가 나타나는 것이 단어 B의 등장할 확률에 전혀 영향을 주지 않고, 단어 B등장이 단어 A에 영향을 주지 않는 경우를 가리킨다.
두 단어의 등장이 독립일 때 대비해 얼마나 자주 같이 등장하는지를 수치화한 것이다
PMI 행렬의 행 벡터 자체를 해당 단어의 임베딩으로 사용할 수도 있다.