챗봇만들기(3) - 데이터분석(2)

챗봇만들기(3)

데이터 분석(2)

질문, 답변 각각에 대한 문장 길이 분포 분석

  • 형태소를 기준으로 길이 분석
1
2
3
4
5
6
7
8
query_sentences = list(data['Q'])
answer_sentences = list(data['A'])

query_morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in query_sentences]
query_sent_len_by_morph = [len(t) for t in query_morph_tokenized_sentences]

answer_morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in answer_sentences]
answer_sent_len_by_morph = [len(t) for t in answer_morph_tokenized_sentences]
  • 질문 열과 답변 열을 각각 리스트로 정의
  • KoNLpy의 Okt 형태소 분석기를 이용해 토크나이저 구분
  • 구분된 데이터의 길이를 하나의 변수로 만듬

질문 응답 데이터 길이에 대한 히스토그램

질문 응답 데이터 길이에 대한 히스토그램

  • 질문 문장 길이가 응답 문장 길이보다 상대적으로 짧음
  • y 값의 크기를 조정
1
2
3
4
5
6
7
8
plt.figure(figsize=(12, 5))
plt.hist(query_sent_len_by_morph, bins=50, range=[0,50], color='g', label='Query')
plt.hist(answer_sent_len_by_morph, bins=50, range=[0,50], color='r', alpha=0.5, label='Answer')
plt.legend()
plt.yscale('log', nonposy='clip')
plt.title('Query Length Log Histogram by Morph Token')
plt.xlabel('Query Length')
plt.ylabel('Number of Queries')
  • plt.yscale(‘log’, nonposy=‘clip’) 추가
    질문 응답 데이터 길이에 대한 히스토그램2

  • 답변 데이터가 질문 데이터 보다 이상치 값이 많음

  • 상대적으로 질문의 경우 평균 주변에 잘 분포

통곗값 확인하기

1
2
3
4
5
6
7
print('형태소 최대길이: {}'.format(np.max(query_sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(query_sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(query_sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(query_sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(query_sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(query_sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(query_sent_len_by_morph, 75)))

형태소 최대길이: 20
형태소 최소길이: 1
형태소 평균길이: 4.95
형태소 길이 표준편차: 2.48
형태소 중간길이: 4.0
형태소 1/4 퍼센타일 길이: 3.0
형태소 3/4 퍼센타일 길이: 6.0

1
2
3
4
5
6
7
print('형태소 최대길이: {}'.format(np.max(answer_sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(answer_sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(answer_sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(answer_sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(answer_sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(answer_sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(answer_sent_len_by_morph, 75)))

형태소 최대길이: 31
형태소 최소길이: 1
형태소 평균길이: 5.87
형태소 길이 표준편차: 2.55
형태소 중간길이: 5.0
형태소 1/4 퍼센타일 길이: 4.0
형태소 3/4 퍼센타일 길이: 7.0

  • 최댓값의 경우 답변 데이터가 더 큼
  • 평균의 경우 질문 데이터가 좀 더 작음

박스플롯그리기

1
2
plt.figure(figsize=(12, 5))
plt.boxplot([query_sent_len_by_morph, answer_sent_len_by_morph], labels=['Query', 'Anser'])

질문 응답 데이터 길이에 대한 박스 플롯

  • 통계값과는 다소 다름
  • 통계값 : 답변 데이터에 대한 평균 길이가 질문 데이터보다 길었음
  • 박스플롯 : 질문 데이터가 더 큼
    -> 답변 데이터의 경우 길이가 긴 이상치 데이터가 많아서 평균값이 더욱 크게 측정됨
  • 길이 값을 통해 모델에 적용될 문장의 최대 길이를 결정한다

데이터 어휘 빈도 분석

  • 형태소 단위로 토크나이징한 데이터를 사용해 자주 사용하는 단어 파악
  • ‘이’, ‘가’ 등의 조사보다는 의미상 중요한 명사, 형용사, 동사를 따로 모은 후 파악
  • KoNPy의 품사분류 POS-tagging 모듈
1
2
okt.pos('나는학생입니다')
okt.pos('지금은5월여름입니다')

[(‘나’, ‘Noun’), (‘는’, ‘Josa’), (‘학생’, ‘Noun’), (‘입니다’, ‘Adjective’)]
[(‘지금’, ‘Noun’), (‘은’, ‘Josa’), (‘5월’, ‘Number’), (‘여름입니다’, ‘Foreign’)]

  • 문장에서 명사, 형용사, 동사를 제외한 단어를 모두 제거한 문자열 만들기
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
query_NVA_token_sentences = list()
answer_NVA_token_sentences = list()

for s in query_sentences:
for token, tag in okt.pos(s.replace(' ', '')):
if tag == 'Noun' or tag == 'Verb' or tag == 'Adjective':
query_NVA_token_sentences.append(token)

for s in answer_sentences:
temp_token_bucket = list()
for token, tag in okt.pos(s.replace(' ', '')):
if tag == 'Noun' or tag == 'Verb' or tag == 'Adjective':
answer_NVA_token_sentences.append(token)

query_NVA_token_sentences = ' '.join(query_NVA_token_sentences)
answer_NVA_token_sentences = ' '.join(answer_NVA_token_sentences)

워드클라우드 활용해 어휘 빈도 분석

  • NanumGothic.ttf 한글 폰트 설정
  • 질문
1
2
3
4
5
6
from wordcloud import WordCloud
query_wordcloud = WordCloud(font_path= DATA_IN_PATH + 'NanumGothic.ttf').generate(query_NVA_token_sentences)

plt.imshow(query_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

질문어휘빈도에 대한 워드클라우드

  • 답변
1
2
3
4
5
query_wordcloud = WordCloud(font_path= DATA_IN_PATH + 'NanumGothic.ttf').generate(answer_NVA_token_sentences)

plt.imshow(query_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

답변어휘빈도에 대한 워드클라우드

챗봇만들기(2) - 데이터분석(1)

챗봇만들기(2)

데이터 분석(1)

  • 데이터 분석
  • 데이터 전처리와 모델 생성

데이터 불러오기

1
2
3
4
5
6
7
import pandas as pd

DATA_IN_PATH = './data_in/'

data = pd.read_csv(DATA_IN_PATH + 'ChatBotData.csv', encoding='utf-8')

print(data.head())
Q A label
0 12시 땡! 하루가 또 가네요.
1 1지망 학교 떨어졌어 위로해 드립니다.
2 3박4일 놀러가고 싶다 여행은 언제나 좋죠.
3 3박4일 정도 놀러가고 싶다 여행은 언제나 좋죠.
4 PPL 심하네 눈살이 찌푸려지죠.

문장 전체에 대한 분석

  1. 데이터 길이를 분석
  • 질문과 답변 모두 길이에 대해 분석하기 위해 두 데이터를 하나의 리스트로 만들기
1
sentences = list(data['Q']) + list(data['A'])
  • 세 가지 기준으로 분석을 진행
    • 문자 단위의 길이 분석 (음절)
      • 문자 하나하나를 생각하자
    • 단어 단위의 길이 분석 (어절)
      • 띄어쓰기 단위로 생각하자
    • 형태소 단위의 길이 분석
      • 어절과 음절 사이로 생각하자
      • 최소 단위를 의미
        ex) 나는 학생이다.
    • 음절 : “나”, “는”, “학”, “생”, “이”, “다”
    • 어절 : “나는”, “학생이다”
    • 형태소 : “나”, “는”, 학생", “이다”

토크나이징

  • KoNLPy 사용
1
2
3
4
5
6
7
8
tokenized_sentences = [s.split() for s in sentences]
sent_len_by_token = [len(t) for t in tokenized_sentences]
sent_len_by_eumjeol = [len(s.replace(' ', '')) for s in sentences]

okt = Okt()

morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in sentences]
sent_len_by_morph = [len(t) for t in morph_tokenized_sentences]
  • 띄어쓰기 기준으로 문장 분류 -> 어절의 길이 측정
  • 위 값을 붙이기 -> 음절의 길이
  • KoNLPy에 Okt 형태소 분석기 사용해서 나눈 후 길이 측정

그래프그리기

  • matplot사용
1
2
3
4
5
6
7
8
9
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))
plt.hist(sent_len_by_token, bins=50, range=[0,50], alpha=0.5, color= 'r', label='eojeol')
plt.hist(sent_len_by_morph, bins=50, range=[0,50], alpha=0.5, color='g', label='morph')
plt.hist(sent_len_by_eumjeol, bins=50, range=[0,50], alpha=0.5, color='b', label='eumjeol')
plt.title('Sentence Length Histogram')
plt.xlabel('Sentence Length')
plt.ylabel('Number of Sentences')

데이터 길이에 대한 히스토그램

  • 빨간색 : 어절 단위 히스토그램
  • 초록색 : 형태소
  • 파란색 : 음절

그래프 해석

  • 어절이 가장 낮은 길이 그다음 형태소, 가장 긴 길이는 음절
  • 히스토그램을 통해 각 길이가 어느 쪽으로 치우쳐 있는지 혹은 각 데이터에 이상치는 없는지 확인하자
  • 이 그래프는 직관적으로는 어렵다
    • y값 분포가 다르기 때문
    • 수정을 해보자
1
2
3
4
5
6
7
8
plt.figure(figsize=(12, 5))
plt.hist(sent_len_by_token, bins=50, range=[0,50], alpha=0.5, color= 'r', label='eojeol')
plt.hist(sent_len_by_morph, bins=50, range=[0,50], alpha=0.5, color='g', label='morph')
plt.hist(sent_len_by_eumjeol, bins=50, range=[0,50], alpha=0.5, color='b', label='eumjeol')
plt.yscale('log')
plt.title('Sentence Length Histogram by Eojeol Token')
plt.xlabel('Sentence Length')
plt.ylabel('Number of Sentences')
  • plt.yscale(‘log’) 사용
    • 각 그래프가 커지는 y값의 스케일을 조정함으로써 차이가 큰 데이터에서도 함께 비교 가능
      데이터 길이에 대한 히스토그램2
  • 꼬리부분의 분포가 보임
  • 어절의 경우 길이가 20인 경우가 이상치 데이터로 존재
  • 형태소는 30, 음절은 45정도 길이에 이상치가 존재
  • 이러한 길이 분포에 대한 분석 내용을 바탕으로 입력 문장의 길이를 어떻게 설정할지 정의하면 됨

통계값출력

  • 정확한 수치 확인을 위해 각 기준별 길이에 대한 여러가지 통곗값 비교
어절
1
2
3
4
5
6
7
8
import numpy as np
print('어절 최대길이: {}'.format(np.max(sent_len_by_token)))
print('어절 최소길이: {}'.format(np.min(sent_len_by_token)))
print('어절 평균길이: {:.2f}'.format(np.mean(sent_len_by_token)))
print('어절 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_token)))
print('어절 중간길이: {}'.format(np.median(sent_len_by_token)))
print('제 1 사분위 길이: {}'.format(np.percentile(sent_len_by_token, 25)))
print('제 3 사분위 길이: {}'.format(np.percentile(sent_len_by_token, 75)))

어절 최대길이: 21
어절 최소길이: 1
어절 평균길이: 3.64
어절 길이 표준편차: 1.74
어절 중간길이: 3.0
제 1 사분위 길이: 2.0
제 3 사분위 길이: 5.0

형태소
1
2
3
4
5
6
7
print('형태소 최대길이: {}'.format(np.max(sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_morph, 75)))

형태소 최대길이: 31
형태소 최소길이: 1
형태소 평균길이: 5.41
형태소 길이 표준편차: 2.56
형태소 중간길이: 5.0
형태소 1/4 퍼센타일 길이: 4.0
형태소 3/4 퍼센타일 길이: 7.0

음절
1
2
3
4
5
6
7
print('음절 최대길이: {}'.format(np.max(sent_len_by_eumjeol)))
print('음절 최소길이: {}'.format(np.min(sent_len_by_eumjeol)))
print('음절 평균길이: {:.2f}'.format(np.mean(sent_len_by_eumjeol)))
print('음절 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_eumjeol)))
print('음절 중간길이: {}'.format(np.median(sent_len_by_eumjeol)))
print('음절 1/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_eumjeol, 25)))
print('음절 3/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_eumjeol, 75)))

음절 최대길이: 57
음절 최소길이: 1
음절 평균길이: 11.31
음절 길이 표준편차: 4.98
음절 중간길이: 10.0
음절 1/4 퍼센타일 길이: 8.0
음절 3/4 퍼센타일 길이: 14.0


  • 전체 문자 수는 11개 정도의 평균값을 갖고 있음
  • 띄어쓰기로 구분한 어절의 경우 3~4 정도의 평균
  • 형태소로 분석시 6~7 정도의 평균

박스플롯그리기

1
2
3
4
plt.figure(figsize=(12, 5))
plt.boxplot([sent_len_by_token, sent_len_by_morph, sent_len_by_eumjeol],
labels=['Eojeol', 'Morph', 'Eumjeol'],
showmeans=True)

박스플롯

  • 꼬리가 긴 형태로 분포됨
  • 5~15의 길이를 중심으로 분포를 이루고 있음
  • 음절은 어절과 형태소에 비해 분포가 큼

챗봇만들기(1) - 데이터소개

챗봇만들기(1)

  • 딥러닝 모델(sequence to sequence)을 활용한 챗봇 만들기

데이터 소개

분류 설명
데이터 이름 Chatbot data
데이터 용도 한국어 챗봇 학습
데이터 권한 MIT 라이선스
데이터 출처 http://github.com/songys/Chatbot_data
  • 총 11,876개의 데이터
  • 데이터 설명
    • 질문과 대답
    • 주제에 대한 라벨값
      • 0 : 일상 대화
      • 1 : 긍정
      • 2 : 부정

한글챗봇데이터샘플

Machine Translation

Neural Machine Translation

  • 기계번역
  • Sequence to Sequence
    • Encoder
    • Decoder
    • From English to Korean
    • From German to Korean
    • Speech to Text
    • Text to Speech

Process

  • Sequence to Sequence
    s2s
    인코더와 디코더의 구조. 인코더는 이용하고자 하는 대상 즉 소스. 한글에서 영어로 번역하는 태스크 일때, 인코더는 한글데이터 디코더는 영어데이터. 한글문장을 바꾸어보자.
    한글 형태소 토크나이저를 이용해 나누기. 그게 x1, x2, x3 … xj가 된다. 그다음 corpus(단어사전)를 만든다. 해당단어를 인덱스로 바꾸어준다. x1은 넘버링이 들어가고 넘버링을 원-핫 벡터로 치환해서 들어간다. 파란색이 임베딩 벡터를 가져옴 RNN input으로 들어감 그전에 weight 매트릭스를 곱하고 바이어스가 더해진 값이 들어간다.
    Encoder의 output 값이 Decoder의 input 값이 된다.
    SOS는 Start of Sentence
    EOS는 End of Sentence
    y1는 영어딕셔너리에서 뽑힌 값이다.
    y1은 softmax를 통해서 가장 큰 값을 뽑아준다.

  • with Attention
    attention
    hidden state만으로 y2가 부족하다고 판단할 수 있다. Encoder의 hidden state 값과 y2의 hidden state 값을 전부 내적한다. 어떤 스칼라의 값을 Attention Weight를 계산한다. 전부 0~1사이의 값으로 각각 바뀐다. 총 합이 1이 된다. 그리고 context vector로 만들어준다. 각 hidden state 별로 얼마나 가중있게 보아야하는지 척도를 알 수 있다.

Transformer

transformer

  • Attention is all you need(Ashishi Vaswani et al, 2017)
  • 기존에는 RNN구조를 이용해서 Seq2Seq을 풀어냈다면 이 논문에서는 Attention 매커니즘만 이용하겠다. 훨씬 더 기계번역이 좋다.
  • Using Only Attention Mechanism for Seq2Seq
  • Basic concept of BERT

Sequence_Tagging

Tagging

  • Make Label about the sentences

  • 레이블을 붙이는 과정

    • This moive is so nice -> Positive
    • This moive is so boring -> Negative
  • Pair of Sentence and Label

  • 문장과 레이블에 대해 쌍관계를 유지하는걸 태깅

    • It can use other Machine Learning Model’s Input Data
    • 이것을 바탕으로 데이터를 input할 수 수 있음

Sentiment Analysis

  • 감성분석데이터
  • 어떤 문장에 대해서 긍정/부정, 평점등으로 평가하는데 이걸 예측하는 것
  • Benchmark Dataset 논문에서 많이 이용됨
    • IMDB (Internet Moive DataBase)
    • Yelp (음식점평)
    • Amazon Review (도서평)
  • Crawling
    • 네이버 영화 평
    • yes24 도서 평

Question Answering

특정한 문단과 질문을 넣었을 때 딥러닝 모델이 답변을 주는 것

  • Benchmark Dataset
    • SQuAD.(1.1,2.0) 스탠퍼드 QnA
    • WikiQA
    • CoQA

POS

  • Part-of-Speech Tagging
    • 문장에서 해당 단어들이 어떤 역할을 하는지
    • 주어, 목적어, 서술어 등
  • Benchmark Dataset
    • Penn Treebank
    • UD

Process

빨간색 Input
파란색 Output
초록색 RNN, LSTM, GRU
숫자는 시점

빨간색에 문장을 넣으면
파란색에는 Postive

  • RNN

  • hideen state를 바탕으로 태깅

    • 기본 RNN
      RNN1
    • Stack RNN
      • Hidden state 결과를 새로운 input으로 받음
        RNN2
    • Bidirectional RNN
      • forward
      • backward
      • 같은 시점에는 Concat 진행
        RNN3
  • CNN

  • Convolutional Neural Networks for Sentence Classification(Yoon Kim et al, 2014)

  • 문장에 대해서 filter size(2,3,4,5)에 대해 합성곱을 하여 진행

  • 스트라이딩을 돌면서 feature maps을 만듬

  • 같은 레벨의 feature map에 max pooling을 진행

  • 문장특징을 뽑음

  • 해당 결과값에 대해 Fully connected layer를 통해 최종 결과를 낸다
    CNN1

Recurrent Neural Network

Deep Learning

  • Neural Network with Many Hidden Layers
  • Learning through Back-Propagation from Objective Function (Loss Function)
    신경망
  • 인간의 뇌와 흡사

Type of RNN

빨간색은 input
초록색은 hidden state
파란색은 output

해석하는 형태도 존재
이어져서 뭔가를 한다고 이해하자

Vanilla RNN


xt와 ht-1을 같이 받는다
Wh는 가중치행렬

  • Need to Refine Long Term Dependency
    문장길이가 토큰기준 3개정도인데
    만약 길이가 길게 되면 최종적 output값에 대해 발생하는 그레디언트 값이 앞쪽까지 전달되는데 문제가 있다.

LSTM (Long Short Term Memory)


12개의 term이 학습이 된다
Cell state가 있다
xt는 현재시점
t-1은 이전시점
ft는 현재시점에 대한 input과 이전시점에대한 ht-1에 각각 가중치행렬을 곱해주고 b를 더함 이것을 시그모드취해준다.
tanh는 -1 ~ 1 까지임 -> 현재 위치에서 어느정도 정보를 반영할지에 대한 결과

  • forget gate : 현재시점 입력값과 이전시점의 hidden state의 결과에 시그모이드를 취한 값을 이용해서 몇퍼센트 기억할건지 하는 역할

  • input gate : 현재시점 입력값과 이전시점의 hidden state를 tanh를 해서 원소 곱 그리고 forget에서 나온 값과 더한다 -> cell state 업데이트를 함

  • output gate : 업데이트한 cell state를 정보를 바탕으로 output을 통과한 결과에 cell state를 tanh를 해주고 원소 곱 -> ht 와 yt로 내보내줌

GRU(Gated recurrent unit)


  • lstm의 많은 학습을 9개로 줄인 것

Vector for NLP

라이브러리 소개

Representation Vector

Background

원-핫 인코딩을 표현한 벡터, 트레인 데이터 셋 안에 전체 문장들의 합을 코퍼스라고 했을 때, 코퍼스 안에서 어떤 토크나이저를 거쳐서 딕셔너리를 만든다 -> v가 된다

  • Make several tokens from sentences

  • Build a Dictionary of words by indexing each token

  • Make a Vector(Dimension : Number of Words)

  • 1 for the corresponding index with the remaining 0

  • Orthogonal Vector -> Lose of Context Information
    Rome Paris는 역할이 비슷하지만 표현할 수 없다

  • Sparse Vector -> Curse of Dimensionality
    벡터를 내적했을 때 값이 크면 유사도가 높지만 원-핫 인코딩 벡터는 1개 빼고 0 이 된다

두 가지 이유로 적합하지 않음 -> 토크나이저를 쓰자

Tokenizer

English -> SPACY, NLTK
한국어는 형태소라는 것이 있기 때문에 띄어쓰기로는 애매할 수 있다.
이러한 것을 보완해서 한국어토큰이 별도 있다.
Korean -> KoNLPy(Hannanum, Kkma, Komoran, Twitter), MECAB, KHAIII

한국어의 사전에 따라 모델의 성능이 다르기 때문에 중요하다.

넘버링이 되어 있는 단어를 어떻게 표현할 것인지 알아보자

Word2Vec

  • Efficient Estimation of Word Representations in Vector Space(Tomas Mikolov et al, 2013)
  1. CBOW 방식
    w(t-2) ~ w(t+2)바탕으로 w(t)를 유추할 수 있도록 한다.
    주변 단어들을 이용해서 중심단어를 학습한다.
    w(t-2) : The
    w(t-1) : quick
    w(t) : brown -> output
    w(t+1) : fox
    w(t+2) : jumps
    w(t-2)가 들어갔을 때 brown이 나올 수 있도록 학습하는 것.
    중심단어를 이용해서 주변 단어를 학습한다.

    네모를 window라고 하고 중심단어로부터 주변단어까지의 사이즈를 window size라고한다

  2. Skip-gram 방식
    w(t)를 바탕으로 w(t-2) ~ w(t+2)를 유추할 수 있도록 한다.

  • Objective Function : Learn to reflect similarity between two vectors

The의 경우 빈도수가 높아서 과적합이 일어날 수 있다.
-> Subsampling to get : Regularize

전체 단어에 대한 대상으로 softmax를 계산하는 것이 아닌 window size 안에 있는 단어와 밖에 있는 단어는 샘플링하여 해당되는 내용을 바탕으로 softmax 계산을 한다.
-> Negative Sampling to get Speed Up

Glove

  • Global Vectors for Word Representation (Jeffrey Pennington et al, 2014)
    co-occurrence 개념을 제시
    window 밖에 있는 단어는 학습이 진행되지 않는 단점을 지적했다.
  • Objective Function : Learn to reflect co-occurrence between two vectors
    가정 : 한 문장안에 동시 출연된 단어는 연관성이 있을 것이다.

연관성이 높으면 값이 높을 것이다

FastText

  • Bag of Tricks for Efficient Text Classification (Armand Joulin et al, 2016)
  • Objective Function : Learn to reflect similarity between two vectors
    코퍼스를 형성하는 단어를 적게두자.
    Unigrams
    Bigrams
    Trigrams
    4-grams

Background of NLP

Basic Concept of Machine Learning

  • 예를 들어 호랑이와 고양이를 예측하는 인공지능을 만들고 싶다라고 한다면 모델입장에서는 두가지가 필요하다

    • 호랑이이미지 = 호랑이레이블
    • 고양이이미지 = 고양이레이블
  • 이렇게 레이블 정보(With Labels)를 활용해서 학습하는 것을 Supervised Learning 지도학습 이라고 한다

  • 반면, 레이블 정보 없이(No Labels) 이미지만을 활용해서 하는 것을 Unsupervised Learning 비지도학습 이라고 한다

  • 레이블정보가 아니라 입력이미지에 대해서 잘 분류하였으면 +1점, 잘 분류하지 못했으면 -1점 처럼 리워드를 주는 방식(With Rewards)을 Reinforcement Learning 강화학습 이라고 한다

  • Machine Learning

    • Supervised Learning
      • Regression : 수치형, 회기, 아파트가격/주가예측
      • Classification : 카테고리컬 variable, 클래스로 예측하는 것, 분류, 남성/여성, 양성/음성
    • Unsupervise Learning
      • Clustering : 레이블이 없는 입력이미지를 바탕으로 학습할 때 유사하다고 계산이 되는 것을 군집화 하는 것
      • Dimensionality Reduction : 데이터가 엄청나게 큰 벡터로 표현될 때 적은차원의 벡터로 표현 하는 것, 차원축소의 기법
    • Reinforcement Learning
      • Decision Process : 의사결정
      • Game Ai : 게임 ai

Process of Machine Learning

데이터 수집 -> 해당 데이터를 전처리(해당 모델에 대해서 잘 이용할 수 있게 작업) -> 모델링 -> 학습한 모델의 성능을 평가

  • Data Collection

    • Database
    • Server
    • API
  • Preprocessing

    • Not Available : 정형데이터의 경우 변수에 없는 값이 발생할 수 있다
    • Scaling : 변수 간의 정보 반영이 단위 값에 따라 다를 수 있다
      • ex) 사람의 키는 cm 몸무게는 kg 인데 남자/여자 판별할 때 영향력이 1cm와 1kg은 다르다
    • Derived Variables : 파생변수(각 변수를 조합)를 만든다
  • Modeling

    • ML Model
    • DL Model
    • RL Model
  • Performance Measure

    • Accuracy : 얼마나 잘 분류했는지
    • Mean Squared Error : 얼마나 잘 예측했는지 오차 계산
    • Similarity : 얼마나 유사한지

Role of Train, Valid, Test Dataset

잘 활용하기 위해서는 3가지의 Dataset이 필요하다

  • Train

    • 학습을 하는데 이용한다
    • 학습이 완료되고 예측을 해본다
    • Using for Training Model
  • Valid

    • 학습을 하지 않고
    • 예측만 진행한다
    • 만약 예측시 valid보다 train이 좋지 않으면 다시 학습한다
    • 모니터링의 역할만 한다
    • Using for Training Direction
  • Test

    • 모델이 한 번도 보지 못한 것을 평가
    • Using for Measure Performance
  • 10000의 dataset이 있을 경우 train : 6000, valid : 2000, test : 2000 으로 한다

  • 8 : 1 : 1 도 한다

Process of NLP with Deep Learning

자연어처리 딥러닝을 이해하자

  • Data Collection

    • Crawling : html에서 데이터를 직접 가져오기
    • ex) 영화평을 크롤링해서 분석
  • Preprocessing

    • Tokenizer
    • Make Corpus
    • Representation
  • Modeling

    • ML Model
    • DL Model
    • RL Model
  • Performance Measure

    • Accuracy
    • Mean Squared Error
    • Similarity

Make Corpus with Train Dataset

  • Make Number to Input Natural Language into Computer
    자연어를 숫자 값으로 변경하기

  • Make Token to Make a Dictionary
    토큰을 만들기

    • ‘I am a boy’ -> ‘I’, ‘am’, ‘a’, ‘boy’ 띄어쓰기를 바탕으로 단어 분리
    • ‘I am a girl’ -> ‘I’, ‘am’, ‘a’, girl’
    • 각 단어는 토큰을 의미
  • Make a Dictionary out of the Tokens in the Train Dataset
    트레인 데이터셋 안에 있는 토큰으로만 단어사전을 만든다

  • Replace Words with Numbers using a Dictionary
    숫자를 붙여주기

    • ‘I’ : 0, ‘am’ : 1, ‘a’ : 2, ‘boy’ : 3, ‘girl’ : 4
    • ‘I am a boy’ -> [0,1,2,3]
    • ‘I am a girl’ -> [0,1,2,4]
    • 겹치지 않는다

Representation Vector

  • ‘boy’ : 3 , ‘girl’ : 4
  • boy and girl have similar roles in sentence
    남자와 여자는 문장에서 비슷한 역할을 수행할 것이다
  • But 3,4 can’t represent their role enough
    하지만 3,4만으로는 비슷하다는 것을 나타낼 수 없다
  • Represent Natural Language with Vectors not scalars
    원-핫벡터도 어떠한 인덱스만 1이기 때문에 스칼라로 보자
    다양한 숫자로 채워진 벡터로 만들어보자
    • Word2Vec, Glove, FastTest(Word)
  • Sentence, Document, Sentence Piece
    단어 뿐만아니라 문장, 문서 등으로 토큰을 만들 수 있다

2장요약

2.5 2장 요약

벡터가 어떻게 의미를 가지게 되는가

  • 임베딩에 자연어의 통계적 패턴 정보를 주면 자연어의 의미를 함축할 수 있다.
  • 백오브워즈 가정에서는 어떤 단어의 등장 여부 혹은 그 빈도 정보를 중시한다.
  • 백오브워즈 가정의 대척점에는 언어 모델이 있다. 언어 모델은 단어의 등장 순서를 학습해 주어진 단어 스퀀스가 얼마나 자연스러운지 확률을 부여한다.
  • 분포 가정에서는 문장에서 어떤 단어가 같이 쓰였는지를 중요하게 따진다.
  • 말뭉치의 통계적 패턴을 서로 다른 각도에서 분석하는 것이며 상호 보완적이다.

어떤단어가같이쓰였는가

2.4 어떤 단어가 같이 쓰였느가

2.4.1 분포 가정

자연어 처리에서 분포 distribution란 특정 범위, 즉 윈도우 내에 동시에 등장하는 이웃 단어 또는 문맥의 집합을 가리킨다. 개별 단어의 분포는 그 단어가 문장 내에서 주로 어느 위치에 나타나는지, 이웃한 위치에 어떤 단어가 자주 나타나는지에 따라 달라진다. 어떤 쌍이 비슷한 문맥 환경에서 자주 등장한다면 그 의미 도한 유사할 것이라는 게 분포 가정 ** distributional hypothesis**의 전제다.

예컨데 한국어의 빨래, 세탁이라는 단어의 의미를 전혀 모른다고 하자. 두 단어의 의미를 파악하기 위해서는 이들 단어가 실제 어떻게 쓰이고 있는지 관찰을 해야한다. 두 단어는 타깃 단어 ** target word**이고 청소, 등은 그 주위에 등장한 문맥 단어가 된다

특기는 자칭 청소와 빨래지만 요리는 절망적
재를 우려낸 물로 빨래 할 때 나
찬 물로 옷을 세탁한다.
세탁, 청소, 요리와 기사는

이웃한 단어들이 서로 비슷하기 때문이다. 빨래청소 과 같이 등장하는 경향을 미루어 짐작해볼 때 이들끼리도 직간접적으로 관계를 지닐 가능성이 낮아보이지는 않는다. 그럼에도 개별 단어의 분포 정보와 그 의미 사이에는 논리적으로 직접적인 연관성은 사실 낮다. 다시 말해 분포 정보가 곧 의미라는 분포 가정에 의문접이 발생한다.

2.4.2 분포와 의미(1) : 형태소

형태소** morpheme란 의미를 가지는 최소 단위를 말한다. 더 쪼개면 의미를 잃어버리는 것이다.
예를 들어 철수가 밥을 먹었다 라고 한다면 형태소 후보는 철수, , 이다.
조금 더 깊게 분석해보자. 계열관계 ** paradigmatic relation
가 있다.

계열 관계는 해당 형태소 자리에 다른 형태소가 '대치’되어 쓰일 수 있는 가를 따지는 것이다. 예컨데 철수 대신에 영희가 올 수 있고 대신 을 쓸 수 있다. 이를 근거로 형태소 자격을 부여한다.

특정 타깃 단어 주변의 문맥 정보를 바탕으로 형태소를 확인한다는 이야기와 일맥상통한다.

말뭉치의 분포 정보와 형태소가 밀접한 관계를 이루고 있다.

2.4.3 분포와 의미(2) : 품사

품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것이다.

  • 기능
  • 의미
  • 형식
    위 세가지를 기준으로 분류한다.
  1. 기능
    한 단어가 문장 가운데서 다른 단어와 맺는 관계를 가르킨다.
    깊이 높이는 문장에서 주어로 쓰이고 깊다 높다는 서술어로 사용되고 있다.
  2. 의미
    단어의 형식적 의미를 나타낸다. ``깊이높이를 하나로 묶고깊다높다`를 같은 군집으로 넣을 수 있다. 품사에서는 어휘적 의미보다 형식적 의미가 중요하다. 다시말해 어떤 단어가 사물의 이름을 나타내는가, 그렇지 않으면 움직임이나 성실, 상태를 나타내느냐 하는 것이다.
  3. 형식
    단어의 형태적 특징을 의미한다. 깊이 높이는 변화하지 않는다. 깊었다 높았다 깊겠다 높겠따 따위와 같이 어미가 붙어 여러 가지 모습으로 변화를 일으킬 수 있다.
    그러나 예외가 있다. 공부 공부하다 두 개를 분류하려면 공부는 명사이지만 우리는 동작이라는 여지를 알고 있다.

품사 분류에서 가장 중요한 기준은 기능이다. 해당 단어가 문장 내에서 점하는 역할에 초점을 맞춰 품사를 분류한다는 것이다.
형태소의 경계를 정하거나 품사를 나누는 것과 같은 다양한 언어학적 문제는 말뭉치의 분포 정보와 깊은 관계를 갖고 있다. 이로인하여 분포 정보를 함축한다면 해당 벡터에 해당 단어의 의미를 자연스레 내재시킬 수 있는 것이다.

2.4.4 점별 상호 정보량

점별 상호 정보량은 두 확률변수사이의 상관성을 계량화하는 단위다. 두 확률변수가 완전히 독립인 경우 그 값이 0이 된다. 독립이라고 하면 A가 나타나는 것이 단어 B의 등장할 확률에 전혀 영향을 주지 않고, 단어 B등장이 단어 A에 영향을 주지 않는 경우를 가리킨다.
두 단어의 등장이 독립일 때 대비해 얼마나 자주 같이 등장하는지를 수치화한 것이다

PMI(A,B)=logP(A,B)P(A)P(B)PMI(A,B) = log{P(A,B) \over P(A)*P(B)}

PMI 행렬의 행 벡터 자체를 해당 단어의 임베딩으로 사용할 수도 있다.

API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×