한국어임베딩github
한국어 임베딩
서적을 공부하며 정리하는 글이 되겠습니다.
1.1 임베딩이란?
기계의 자연어 이해와 생성은 연산 Computation 과 처리 Processing의 영역이다
자연어처리분야에서의 임베딩이란
사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터 vector로 바꾼 결과 혹은 그 일련의 과정 전체를 의미한다. 단어나 문장 각각을 벡테로 변환해 벡터공간 vector space으로 '끼워 넣는다embed 는 의미에서 임베딩이라고 지었다.
단어-문서 행렬 Term-Document Matrix
구분 | 메밀꽃 필 무렵 | 운수좋은 날 | 사랑 손님과 어머니 | 삼포 가는길 |
---|---|---|---|---|
기차 | 0 | 2 | 10 | 7 |
막걸리 | 0 | 1 | 0 | 0 |
선술집 | 0 | 1 | 0 | 0 |
위 와 같은 빈도표를 단어-문서 행렬이라고 부른다.
row는 단어, column은 문서(작품)에 대응한다.
운수좋은 날의 문서의 임베딩은 [2,1,1]이다. 막걸리라는 단어의 임베딩은 [0,1,0,0] 이다.
표를 보면 ‘사랑 손님과 어머니’, '삼포 가는 길’이 사용하는 단어 목록이 상대적으로 많이 겹침을 알 수 있다.
일르 바탕으로 '사랑 손님과 어머니’는 ''삼포 가는 길’과 '기차’라는 소재를 공유한다는 점에서 비슷한 작품임을 추정할 수 있다.