1.5 이 책이 다루는 데이터와 주요 용어
-
텍스트(text)
-
말뭉치(corpus) : 텍스트 데이터
-
표본(Sample) : 특정한 목적을 가지고 수집한 말뭉치
-
컬렉션(collection) : 말뭉치에 속한 각각의 집합
-
문장(sentence) : 이 책에서 다루는 데이터의 기본 단위, 마침표나 느낌표, 물음표와 같은 기호로 구분된 문자열
-
문서(document), 단락(paragraph)의 집합 : 생각이나, 감정, 정보를 공유하는 문장의 집합, 줄바꿈(\n) 문자로 구분된 문자열
-
토큰(token), 단어(word), 형태소(morpheme), 서브워드(subword) : 이 책에서 다루는 가장 작은 단위
-
토크나이즈(tokenize) : 문장을 토큰 시쿼스로 분석하는 과정, 토큰 시퀀스는 문장을 토큰으로 나누는 것, 토큰 구분자는 쉼표를 주로 사용
-
어휘 집합(vocabulary) : 말뭉치에 있는 모든 문서를 문장으로 나누고 여기에 토크나이즈를 실시한 후 중복을 제거한 토큰들의 집합
-
미등록 단어(unknown word) : 어휘 집합에 없는 토큰