2020-05-04

자연어처리 / ChatBot

8분 읽기 (대략 1245 단어)

챗봇만들기(3) - 데이터분석(2)

챗봇만들기(3)

데이터 분석(2)

질문, 답변 각각에 대한 문장 길이 분포 분석

형태소를 기준으로 길이 분석

query_sentences = list(data['Q'])
answer_sentences = list(data['A'])

query_morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in query_sentences]
query_sent_len_by_morph = [len(t) for t in query_morph_tokenized_sentences]

answer_morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in answer_sentences]
answer_sent_len_by_morph = [len(t) for t in answer_morph_tokenized_sentences]

질문 열과 답변 열을 각각 리스트로 정의
KoNLpy의 Okt 형태소 분석기를 이용해 토크나이저 구분
구분된 데이터의 길이를 하나의 변수로 만듬

질문 응답 데이터 길이에 대한 히스토그램

질문 문장 길이가 응답 문장 길이보다 상대적으로 짧음
y 값의 크기를 조정

plt.figure(figsize=(12, 5))
plt.hist(query_sent_len_by_morph, bins=50, range=[0,50], color='g', label='Query')
plt.hist(answer_sent_len_by_morph, bins=50, range=[0,50], color='r', alpha=0.5, label='Answer')
plt.legend()
plt.yscale('log', nonposy='clip')
plt.title('Query Length Log Histogram by Morph Token')
plt.xlabel('Query Length')
plt.ylabel('Number of Queries')

plt.yscale(‘log’, nonposy=‘clip’) 추가
답변 데이터가 질문 데이터 보다 이상치 값이 많음
상대적으로 질문의 경우 평균 주변에 잘 분포

통곗값 확인하기

print('형태소 최대길이: {}'.format(np.max(query_sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(query_sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(query_sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(query_sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(query_sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(query_sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(query_sent_len_by_morph, 75)))

형태소 최대길이: 20
형태소 최소길이: 1
형태소 평균길이: 4.95
형태소 길이 표준편차: 2.48
형태소 중간길이: 4.0
형태소 1/4 퍼센타일 길이: 3.0
형태소 3/4 퍼센타일 길이: 6.0

print('형태소 최대길이: {}'.format(np.max(answer_sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(answer_sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(answer_sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(answer_sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(answer_sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(answer_sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(answer_sent_len_by_morph, 75)))

형태소 최대길이: 31
형태소 최소길이: 1
형태소 평균길이: 5.87
형태소 길이 표준편차: 2.55
형태소 중간길이: 5.0
형태소 1/4 퍼센타일 길이: 4.0
형태소 3/4 퍼센타일 길이: 7.0

최댓값의 경우 답변 데이터가 더 큼
평균의 경우 질문 데이터가 좀 더 작음

박스플롯그리기

1 2	plt.figure(figsize=(12, 5)) plt.boxplot([query_sent_len_by_morph, answer_sent_len_by_morph], labels=['Query', 'Anser'])

질문 응답 데이터 길이에 대한 박스 플롯

통계값과는 다소 다름
통계값 : 답변 데이터에 대한 평균 길이가 질문 데이터보다 길었음
박스플롯 : 질문 데이터가 더 큼
-> 답변 데이터의 경우 길이가 긴 이상치 데이터가 많아서 평균값이 더욱 크게 측정됨
길이 값을 통해 모델에 적용될 문장의 최대 길이를 결정한다

데이터 어휘 빈도 분석

형태소 단위로 토크나이징한 데이터를 사용해 자주 사용하는 단어 파악
‘이’, ‘가’ 등의 조사보다는 의미상 중요한 명사, 형용사, 동사를 따로 모은 후 파악
KoNPy의 품사분류 POS-tagging 모듈

1 2	okt.pos('나는학생입니다') okt.pos('지금은5월여름입니다')

[(‘나’, ‘Noun’), (‘는’, ‘Josa’), (‘학생’, ‘Noun’), (‘입니다’, ‘Adjective’)]
[(‘지금’, ‘Noun’), (‘은’, ‘Josa’), (‘5월’, ‘Number’), (‘여름입니다’, ‘Foreign’)]

문장에서 명사, 형용사, 동사를 제외한 단어를 모두 제거한 문자열 만들기

query_NVA_token_sentences = list()
answer_NVA_token_sentences = list()

for s in query_sentences:
    for token, tag in okt.pos(s.replace(' ', '')):
        if tag == 'Noun' or tag == 'Verb' or tag == 'Adjective':
            query_NVA_token_sentences.append(token)

for s in answer_sentences:
    temp_token_bucket = list()
    for token, tag in okt.pos(s.replace(' ', '')):
        if tag == 'Noun' or tag == 'Verb' or tag == 'Adjective':
            answer_NVA_token_sentences.append(token)
            
query_NVA_token_sentences = ' '.join(query_NVA_token_sentences)
answer_NVA_token_sentences = ' '.join(answer_NVA_token_sentences)

워드클라우드 활용해 어휘 빈도 분석

NanumGothic.ttf 한글 폰트 설정
질문

from wordcloud import WordCloud
query_wordcloud = WordCloud(font_path= DATA_IN_PATH + 'NanumGothic.ttf').generate(query_NVA_token_sentences)

plt.imshow(query_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

질문어휘빈도에 대한 워드클라우드

답변

query_wordcloud = WordCloud(font_path= DATA_IN_PATH + 'NanumGothic.ttf').generate(answer_NVA_token_sentences)

plt.imshow(query_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

답변어휘빈도에 대한 워드클라우드

2020-05-03

자연어처리 / ChatBot

10분 읽기 (대략 1480 단어)

챗봇만들기(2) - 데이터분석(1)

챗봇만들기(2)

데이터 분석(1)

데이터 분석
데이터 전처리와 모델 생성

데이터 불러오기

import pandas as pd

DATA_IN_PATH = './data_in/'

data = pd.read_csv(DATA_IN_PATH + 'ChatBotData.csv', encoding='utf-8')

print(data.head())

Q	A	label
0	12시 땡!	하루가 또 가네요.
1	1지망 학교 떨어졌어	위로해 드립니다.
2	3박4일 놀러가고 싶다	여행은 언제나 좋죠.
3	3박4일 정도 놀러가고 싶다	여행은 언제나 좋죠.
4	PPL 심하네	눈살이 찌푸려지죠.

문장 전체에 대한 분석

데이터 길이를 분석

질문과 답변 모두 길이에 대해 분석하기 위해 두 데이터를 하나의 리스트로 만들기

1	sentences = list(data['Q']) + list(data['A'])

세 가지 기준으로 분석을 진행
- 문자 단위의 길이 분석 (음절)
  - 문자 하나하나를 생각하자
- 단어 단위의 길이 분석 (어절)
  - 띄어쓰기 단위로 생각하자
- 형태소 단위의 길이 분석
  - 어절과 음절 사이로 생각하자
  - 최소 단위를 의미
    ex) 나는 학생이다.
- 음절 : “나”, “는”, “학”, “생”, “이”, “다”
- 어절 : “나는”, “학생이다”
- 형태소 : “나”, “는”, 학생", “이다”

토크나이징

KoNLPy 사용

tokenized_sentences = [s.split() for s in sentences]
sent_len_by_token = [len(t) for t in tokenized_sentences]
sent_len_by_eumjeol = [len(s.replace(' ', '')) for s in sentences]

okt = Okt()

morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in sentences]
sent_len_by_morph = [len(t) for t in morph_tokenized_sentences]

띄어쓰기 기준으로 문장 분류 -> 어절의 길이 측정
위 값을 붙이기 -> 음절의 길이
KoNLPy에 Okt 형태소 분석기 사용해서 나눈 후 길이 측정

그래프그리기

matplot사용

import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))
plt.hist(sent_len_by_token, bins=50, range=[0,50], alpha=0.5, color= 'r', label='eojeol')
plt.hist(sent_len_by_morph, bins=50, range=[0,50], alpha=0.5, color='g', label='morph')
plt.hist(sent_len_by_eumjeol, bins=50, range=[0,50], alpha=0.5, color='b', label='eumjeol')
plt.title('Sentence Length Histogram')
plt.xlabel('Sentence Length')
plt.ylabel('Number of Sentences')

데이터 길이에 대한 히스토그램

빨간색 : 어절 단위 히스토그램
초록색 : 형태소
파란색 : 음절

그래프 해석

어절이 가장 낮은 길이 그다음 형태소, 가장 긴 길이는 음절
히스토그램을 통해 각 길이가 어느 쪽으로 치우쳐 있는지 혹은 각 데이터에 이상치는 없는지 확인하자
이 그래프는 직관적으로는 어렵다
- y값 분포가 다르기 때문
- 수정을 해보자

plt.figure(figsize=(12, 5))
plt.hist(sent_len_by_token, bins=50, range=[0,50], alpha=0.5, color= 'r', label='eojeol')
plt.hist(sent_len_by_morph, bins=50, range=[0,50], alpha=0.5, color='g', label='morph')
plt.hist(sent_len_by_eumjeol, bins=50, range=[0,50], alpha=0.5, color='b', label='eumjeol')
plt.yscale('log')
plt.title('Sentence Length Histogram by Eojeol Token')
plt.xlabel('Sentence Length')
plt.ylabel('Number of Sentences')

plt.yscale(‘log’) 사용
- 각 그래프가 커지는 y값의 스케일을 조정함으로써 차이가 큰 데이터에서도 함께 비교 가능
꼬리부분의 분포가 보임
어절의 경우 길이가 20인 경우가 이상치 데이터로 존재
형태소는 30, 음절은 45정도 길이에 이상치가 존재
이러한 길이 분포에 대한 분석 내용을 바탕으로 입력 문장의 길이를 어떻게 설정할지 정의하면 됨

통계값출력

정확한 수치 확인을 위해 각 기준별 길이에 대한 여러가지 통곗값 비교

어절

import numpy as np
print('어절 최대길이: {}'.format(np.max(sent_len_by_token)))
print('어절 최소길이: {}'.format(np.min(sent_len_by_token)))
print('어절 평균길이: {:.2f}'.format(np.mean(sent_len_by_token)))
print('어절 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_token)))
print('어절 중간길이: {}'.format(np.median(sent_len_by_token)))
print('제 1 사분위 길이: {}'.format(np.percentile(sent_len_by_token, 25)))
print('제 3 사분위 길이: {}'.format(np.percentile(sent_len_by_token, 75)))

어절 최대길이: 21
어절 최소길이: 1
어절 평균길이: 3.64
어절 길이 표준편차: 1.74
어절 중간길이: 3.0
제 1 사분위 길이: 2.0
제 3 사분위 길이: 5.0

형태소

print('형태소 최대길이: {}'.format(np.max(sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_morph, 75)))

형태소 최대길이: 31
형태소 최소길이: 1
형태소 평균길이: 5.41
형태소 길이 표준편차: 2.56
형태소 중간길이: 5.0
형태소 1/4 퍼센타일 길이: 4.0
형태소 3/4 퍼센타일 길이: 7.0

음절

print('음절 최대길이: {}'.format(np.max(sent_len_by_eumjeol)))
print('음절 최소길이: {}'.format(np.min(sent_len_by_eumjeol)))
print('음절 평균길이: {:.2f}'.format(np.mean(sent_len_by_eumjeol)))
print('음절 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_eumjeol)))
print('음절 중간길이: {}'.format(np.median(sent_len_by_eumjeol)))
print('음절 1/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_eumjeol, 25)))
print('음절 3/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_eumjeol, 75)))

음절 최대길이: 57
음절 최소길이: 1
음절 평균길이: 11.31
음절 길이 표준편차: 4.98
음절 중간길이: 10.0
음절 1/4 퍼센타일 길이: 8.0
음절 3/4 퍼센타일 길이: 14.0

전체 문자 수는 11개 정도의 평균값을 갖고 있음
띄어쓰기로 구분한 어절의 경우 3~4 정도의 평균
형태소로 분석시 6~7 정도의 평균

박스플롯그리기

plt.figure(figsize=(12, 5))
plt.boxplot([sent_len_by_token, sent_len_by_morph, sent_len_by_eumjeol],
            labels=['Eojeol', 'Morph', 'Eumjeol'], 
            showmeans=True)

박스플롯

꼬리가 긴 형태로 분포됨
5~15의 길이를 중심으로 분포를 이루고 있음
음절은 어절과 형태소에 비해 분포가 큼

2020-05-03

자연어처리 / ChatBot

1분 읽기 (대략 122 단어)

챗봇만들기(1) - 데이터소개

챗봇만들기(1)

딥러닝 모델(sequence to sequence)을 활용한 챗봇 만들기

데이터 소개

분류	설명
데이터 이름	Chatbot data
데이터 용도	한국어 챗봇 학습
데이터 권한	MIT 라이선스
데이터 출처	http://github.com/songys/Chatbot_data

총 11,876개의 데이터
데이터 설명
- 질문과 대답
- 주제에 대한 라벨값
  - 0 : 일상 대화
  - 1 : 긍정
  - 2 : 부정

한글챗봇데이터샘플

2020-04-26

자연어처리 / NLP

3분 읽기 (대략 467 단어)

Machine Translation

Neural Machine Translation

기계번역
Sequence to Sequence
- Encoder
- Decoder
- From English to Korean
- From German to Korean
- Speech to Text
- Text to Speech

Process

Sequence to Sequence

인코더와 디코더의 구조. 인코더는 이용하고자 하는 대상 즉 소스. 한글에서 영어로 번역하는 태스크 일때, 인코더는 한글데이터 디코더는 영어데이터. 한글문장을 바꾸어보자.
한글 형태소 토크나이저를 이용해 나누기. 그게 x1, x2, x3 … xj가 된다. 그다음 corpus(단어사전)를 만든다. 해당단어를 인덱스로 바꾸어준다. x1은 넘버링이 들어가고 넘버링을 원-핫 벡터로 치환해서 들어간다. 파란색이 임베딩 벡터를 가져옴 RNN input으로 들어감 그전에 weight 매트릭스를 곱하고 바이어스가 더해진 값이 들어간다.
Encoder의 output 값이 Decoder의 input 값이 된다.
SOS는 Start of Sentence
EOS는 End of Sentence
y1는 영어딕셔너리에서 뽑힌 값이다.
y1은 softmax를 통해서 가장 큰 값을 뽑아준다.
with Attention

hidden state만으로 y2가 부족하다고 판단할 수 있다. Encoder의 hidden state 값과 y2의 hidden state 값을 전부 내적한다. 어떤 스칼라의 값을 Attention Weight를 계산한다. 전부 0~1사이의 값으로 각각 바뀐다. 총 합이 1이 된다. 그리고 context vector로 만들어준다. 각 hidden state 별로 얼마나 가중있게 보아야하는지 척도를 알 수 있다.

Transformer

transformer

Attention is all you need(Ashishi Vaswani et al, 2017)
기존에는 RNN구조를 이용해서 Seq2Seq을 풀어냈다면 이 논문에서는 Attention 매커니즘만 이용하겠다. 훨씬 더 기계번역이 좋다.
Using Only Attention Mechanism for Seq2Seq
Basic concept of BERT

2020-04-26

자연어처리 / NLP

3분 읽기 (대략 405 단어)

Sequence_Tagging

Tagging

Make Label about the sentences
레이블을 붙이는 과정
- This moive is so nice -> Positive
- This moive is so boring -> Negative
Pair of Sentence and Label
문장과 레이블에 대해 쌍관계를 유지하는걸 태깅
- It can use other Machine Learning Model’s Input Data
- 이것을 바탕으로 데이터를 input할 수 수 있음

Sentiment Analysis

감성분석데이터
어떤 문장에 대해서 긍정/부정, 평점등으로 평가하는데 이걸 예측하는 것
Benchmark Dataset 논문에서 많이 이용됨
- IMDB (Internet Moive DataBase)
- Yelp (음식점평)
- Amazon Review (도서평)
Crawling
- 네이버 영화 평
- yes24 도서 평

Question Answering

특정한 문단과 질문을 넣었을 때 딥러닝 모델이 답변을 주는 것

Benchmark Dataset
- SQuAD.(1.1,2.0) 스탠퍼드 QnA
- WikiQA
- CoQA

POS

Part-of-Speech Tagging
- 문장에서 해당 단어들이 어떤 역할을 하는지
- 주어, 목적어, 서술어 등
Benchmark Dataset
- Penn Treebank
- UD

Process

빨간색 Input
파란색 Output
초록색 RNN, LSTM, GRU
숫자는 시점

빨간색에 문장을 넣으면
파란색에는 Postive

RNN
hideen state를 바탕으로 태깅
- 기본 RNN
- Stack RNN
  - Hidden state 결과를 새로운 input으로 받음
- Bidirectional RNN
  - forward
  - backward
  - 같은 시점에는 Concat 진행
CNN
Convolutional Neural Networks for Sentence Classification(Yoon Kim et al, 2014)
문장에 대해서 filter size(2,3,4,5)에 대해 합성곱을 하여 진행
스트라이딩을 돌면서 feature maps을 만듬
같은 레벨의 feature map에 max pooling을 진행
문장특징을 뽑음
해당 결과값에 대해 Fully connected layer를 통해 최종 결과를 낸다

2020-04-25

자연어처리 / NLP

3분 읽기 (대략 440 단어)

Recurrent Neural Network

Deep Learning

Neural Network with Many Hidden Layers
Learning through Back-Propagation from Objective Function (Loss Function)
인간의 뇌와 흡사

Type of RNN

빨간색은 input
초록색은 hidden state
파란색은 output

해석하는 형태도 존재
이어져서 뭔가를 한다고 이해하자

Vanilla RNN

xt와 ht-1을 같이 받는다
Wh는 가중치행렬

Need to Refine Long Term Dependency
문장길이가 토큰기준 3개정도인데
만약 길이가 길게 되면 최종적 output값에 대해 발생하는 그레디언트 값이 앞쪽까지 전달되는데 문제가 있다.

LSTM (Long Short Term Memory)

12개의 term이 학습이 된다
Cell state가 있다
xt는 현재시점
t-1은 이전시점
ft는 현재시점에 대한 input과 이전시점에대한 ht-1에 각각 가중치행렬을 곱해주고 b를 더함 이것을 시그모드취해준다.
tanh는 -1 ~ 1 까지임 -> 현재 위치에서 어느정도 정보를 반영할지에 대한 결과

forget gate : 현재시점 입력값과 이전시점의 hidden state의 결과에 시그모이드를 취한 값을 이용해서 몇퍼센트 기억할건지 하는 역할
input gate : 현재시점 입력값과 이전시점의 hidden state를 tanh를 해서 원소 곱 그리고 forget에서 나온 값과 더한다 -> cell state 업데이트를 함
output gate : 업데이트한 cell state를 정보를 바탕으로 output을 통과한 결과에 cell state를 tanh를 해주고 원소 곱 -> ht 와 yt로 내보내줌

GRU(Gated recurrent unit)

lstm의 많은 학습을 9개로 줄인 것

2020-04-25

자연어처리 / NLP

5분 읽기 (대략 688 단어)

Vector for NLP

라이브러리 소개

Representation Vector

Background

원-핫 인코딩을 표현한 벡터, 트레인 데이터 셋 안에 전체 문장들의 합을 코퍼스라고 했을 때, 코퍼스 안에서 어떤 토크나이저를 거쳐서 딕셔너리를 만든다 -> v가 된다

Make several tokens from sentences
Build a Dictionary of words by indexing each token
Make a Vector(Dimension : Number of Words)
1 for the corresponding index with the remaining 0
Orthogonal Vector -> Lose of Context Information
Rome Paris는 역할이 비슷하지만 표현할 수 없다
Sparse Vector -> Curse of Dimensionality
벡터를 내적했을 때 값이 크면 유사도가 높지만 원-핫 인코딩 벡터는 1개 빼고 0 이 된다

두 가지 이유로 적합하지 않음 -> 토크나이저를 쓰자

Tokenizer

English -> SPACY, NLTK
한국어는 형태소라는 것이 있기 때문에 띄어쓰기로는 애매할 수 있다.
이러한 것을 보완해서 한국어토큰이 별도 있다.
Korean -> KoNLPy(Hannanum, Kkma, Komoran, Twitter), MECAB, KHAIII

한국어의 사전에 따라 모델의 성능이 다르기 때문에 중요하다.

넘버링이 되어 있는 단어를 어떻게 표현할 것인지 알아보자

Word2Vec

Efficient Estimation of Word Representations in Vector Space(Tomas Mikolov et al, 2013)

CBOW 방식
w(t-2) ~ w(t+2)바탕으로 w(t)를 유추할 수 있도록 한다.
주변 단어들을 이용해서 중심단어를 학습한다.
w(t-2) : The
w(t-1) : quick
w(t) : brown -> output
w(t+1) : fox
w(t+2) : jumps
w(t-2)가 들어갔을 때 brown이 나올 수 있도록 학습하는 것.
중심단어를 이용해서 주변 단어를 학습한다.

네모를 window라고 하고 중심단어로부터 주변단어까지의 사이즈를 window size라고한다
Skip-gram 방식
w(t)를 바탕으로 w(t-2) ~ w(t+2)를 유추할 수 있도록 한다.

Objective Function : Learn to reflect similarity between two vectors

The의 경우 빈도수가 높아서 과적합이 일어날 수 있다.
-> Subsampling to get : Regularize

전체 단어에 대한 대상으로 softmax를 계산하는 것이 아닌 window size 안에 있는 단어와 밖에 있는 단어는 샘플링하여 해당되는 내용을 바탕으로 softmax 계산을 한다.
-> Negative Sampling to get Speed Up

Glove

Global Vectors for Word Representation (Jeffrey Pennington et al, 2014)
co-occurrence 개념을 제시
window 밖에 있는 단어는 학습이 진행되지 않는 단점을 지적했다.
Objective Function : Learn to reflect co-occurrence between two vectors
가정 : 한 문장안에 동시 출연된 단어는 연관성이 있을 것이다.

연관성이 높으면 값이 높을 것이다

FastText

Bag of Tricks for Efficient Text Classification (Armand Joulin et al, 2016)
Objective Function : Learn to reflect similarity between two vectors
코퍼스를 형성하는 단어를 적게두자.
Unigrams
Bigrams
Trigrams
4-grams

2020-04-25

자연어처리 / NLP

7분 읽기 (대략 1018 단어)

Background of NLP

Basic Concept of Machine Learning

예를 들어 호랑이와 고양이를 예측하는 인공지능을 만들고 싶다라고 한다면 모델입장에서는 두가지가 필요하다
- 호랑이이미지 = 호랑이레이블
- 고양이이미지 = 고양이레이블
이렇게 레이블 정보(With Labels)를 활용해서 학습하는 것을 Supervised Learning 지도학습 이라고 한다
반면, 레이블 정보 없이(No Labels) 이미지만을 활용해서 하는 것을 Unsupervised Learning 비지도학습 이라고 한다
레이블정보가 아니라 입력이미지에 대해서 잘 분류하였으면 +1점, 잘 분류하지 못했으면 -1점 처럼 리워드를 주는 방식(With Rewards)을 Reinforcement Learning 강화학습 이라고 한다
Machine Learning
- Supervised Learning
  - Regression : 수치형, 회기, 아파트가격/주가예측
  - Classification : 카테고리컬 variable, 클래스로 예측하는 것, 분류, 남성/여성, 양성/음성
- Unsupervise Learning
  - Clustering : 레이블이 없는 입력이미지를 바탕으로 학습할 때 유사하다고 계산이 되는 것을 군집화 하는 것
  - Dimensionality Reduction : 데이터가 엄청나게 큰 벡터로 표현될 때 적은차원의 벡터로 표현 하는 것, 차원축소의 기법
- Reinforcement Learning
  - Decision Process : 의사결정
  - Game Ai : 게임 ai

Process of Machine Learning

데이터 수집 -> 해당 데이터를 전처리(해당 모델에 대해서 잘 이용할 수 있게 작업) -> 모델링 -> 학습한 모델의 성능을 평가

Data Collection
- Database
- Server
- API
Preprocessing
- Not Available : 정형데이터의 경우 변수에 없는 값이 발생할 수 있다
- Scaling : 변수 간의 정보 반영이 단위 값에 따라 다를 수 있다
  - ex) 사람의 키는 cm 몸무게는 kg 인데 남자/여자 판별할 때 영향력이 1cm와 1kg은 다르다
- Derived Variables : 파생변수(각 변수를 조합)를 만든다
Modeling
- ML Model
- DL Model
- RL Model
Performance Measure
- Accuracy : 얼마나 잘 분류했는지
- Mean Squared Error : 얼마나 잘 예측했는지 오차 계산
- Similarity : 얼마나 유사한지

Role of Train, Valid, Test Dataset

잘 활용하기 위해서는 3가지의 Dataset이 필요하다

Train
- 학습을 하는데 이용한다
- 학습이 완료되고 예측을 해본다
- Using for Training Model
Valid
- 학습을 하지 않고
- 예측만 진행한다
- 만약 예측시 valid보다 train이 좋지 않으면 다시 학습한다
- 모니터링의 역할만 한다
- Using for Training Direction
Test
- 모델이 한 번도 보지 못한 것을 평가
- Using for Measure Performance
10000의 dataset이 있을 경우 train : 6000, valid : 2000, test : 2000 으로 한다
8 : 1 : 1 도 한다

Process of NLP with Deep Learning

자연어처리 딥러닝을 이해하자

Data Collection
- Crawling : html에서 데이터를 직접 가져오기
- ex) 영화평을 크롤링해서 분석
Preprocessing
- Tokenizer
- Make Corpus
- Representation
Modeling
- ML Model
- DL Model
- RL Model
Performance Measure
- Accuracy
- Mean Squared Error
- Similarity

Make Corpus with Train Dataset

Make Number to Input Natural Language into Computer
자연어를 숫자 값으로 변경하기
Make Token to Make a Dictionary
토큰을 만들기
- ‘I am a boy’ -> ‘I’, ‘am’, ‘a’, ‘boy’ 띄어쓰기를 바탕으로 단어 분리
- ‘I am a girl’ -> ‘I’, ‘am’, ‘a’, girl’
- 각 단어는 토큰을 의미
Make a Dictionary out of the Tokens in the Train Dataset
트레인 데이터셋 안에 있는 토큰으로만 단어사전을 만든다
Replace Words with Numbers using a Dictionary
숫자를 붙여주기
- ‘I’ : 0, ‘am’ : 1, ‘a’ : 2, ‘boy’ : 3, ‘girl’ : 4
- ‘I am a boy’ -> [0,1,2,3]
- ‘I am a girl’ -> [0,1,2,4]
- 겹치지 않는다

Representation Vector

‘boy’ : 3 , ‘girl’ : 4
boy and girl have similar roles in sentence
남자와 여자는 문장에서 비슷한 역할을 수행할 것이다
But 3,4 can’t represent their role enough
하지만 3,4만으로는 비슷하다는 것을 나타낼 수 없다
Represent Natural Language with Vectors not scalars
원-핫벡터도 어떠한 인덱스만 1이기 때문에 스칼라로 보자
다양한 숫자로 채워진 벡터로 만들어보자
- Word2Vec, Glove, FastTest(Word)
Sentence, Document, Sentence Piece
단어 뿐만아니라 문장, 문서 등으로 토큰을 만들 수 있다

2020-04-02

자연어처리 / 임베딩

1분 읽기 (대략 203 단어)

2장요약

2.5 2장 요약

벡터가 어떻게 의미를 가지게 되는가

임베딩에 자연어의 통계적 패턴 정보를 주면 자연어의 의미를 함축할 수 있다.
백오브워즈 가정에서는 어떤 단어의 등장 여부 혹은 그 빈도 정보를 중시한다.
백오브워즈 가정의 대척점에는 언어 모델이 있다. 언어 모델은 단어의 등장 순서를 학습해 주어진 단어 스퀀스가 얼마나 자연스러운지 확률을 부여한다.
분포 가정에서는 문장에서 어떤 단어가 같이 쓰였는지를 중요하게 따진다.
말뭉치의 통계적 패턴을 서로 다른 각도에서 분석하는 것이며 상호 보완적이다.

2020-04-02

자연어처리 / 임베딩

9분 읽기 (대략 1326 단어)

어떤단어가같이쓰였는가

2.4 어떤 단어가 같이 쓰였느가

2.4.1 분포 가정

자연어 처리에서 분포 distribution란 특정 범위, 즉 윈도우 내에 동시에 등장하는 이웃 단어 또는 문맥의 집합을 가리킨다. 개별 단어의 분포는 그 단어가 문장 내에서 주로 어느 위치에 나타나는지, 이웃한 위치에 어떤 단어가 자주 나타나는지에 따라 달라진다. 어떤 쌍이 비슷한 문맥 환경에서 자주 등장한다면 그 의미 도한 유사할 것이라는 게 분포 가정 ** distributional hypothesis**의 전제다.

예컨데 한국어의 빨래, 세탁이라는 단어의 의미를 전혀 모른다고 하자. 두 단어의 의미를 파악하기 위해서는 이들 단어가 실제 어떻게 쓰이고 있는지 관찰을 해야한다. 두 단어는 타깃 단어 ** target word**이고 청소, 물 등은 그 주위에 등장한 문맥 단어가 된다

특기는 자칭 청소와 빨래지만 요리는 절망적
재를 우려낸 물로 빨래 할 때 나
찬 물로 옷을 세탁한다.
세탁, 청소, 요리와 기사는

이웃한 단어들이 서로 비슷하기 때문이다. 빨래가 청소 물 과 같이 등장하는 경향을 미루어 짐작해볼 때 이들끼리도 직간접적으로 관계를 지닐 가능성이 낮아보이지는 않는다. 그럼에도 개별 단어의 분포 정보와 그 의미 사이에는 논리적으로 직접적인 연관성은 사실 낮다. 다시 말해 분포 정보가 곧 의미라는 분포 가정에 의문접이 발생한다.

2.4.2 분포와 의미(1) : 형태소

형태소** morpheme란 의미를 가지는 최소 단위를 말한다. 더 쪼개면 의미를 잃어버리는 것이다.
예를 들어 철수가 밥을 먹었다 라고 한다면 형태소 후보는 철수, 밥, 이다.
조금 더 깊게 분석해보자. 계열관계 ** paradigmatic relation가 있다.

계열 관계는 해당 형태소 자리에 다른 형태소가 '대치’되어 쓰일 수 있는 가를 따지는 것이다. 예컨데 철수 대신에 영희가 올 수 있고 밥대신 빵을 쓸 수 있다. 이를 근거로 형태소 자격을 부여한다.

특정 타깃 단어 주변의 문맥 정보를 바탕으로 형태소를 확인한다는 이야기와 일맥상통한다.

말뭉치의 분포 정보와 형태소가 밀접한 관계를 이루고 있다.

2.4.3 분포와 의미(2) : 품사

품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것이다.

기능
의미
형식
위 세가지를 기준으로 분류한다.

기능
한 단어가 문장 가운데서 다른 단어와 맺는 관계를 가르킨다.
깊이 높이는 문장에서 주어로 쓰이고 깊다 높다는 서술어로 사용되고 있다.
의미
단어의 형식적 의미를 나타낸다. ``깊이높이를 하나로 묶고깊다높다`를 같은 군집으로 넣을 수 있다. 품사에서는 어휘적 의미보다 형식적 의미가 중요하다. 다시말해 어떤 단어가 사물의 이름을 나타내는가, 그렇지 않으면 움직임이나 성실, 상태를 나타내느냐 하는 것이다.
형식
단어의 형태적 특징을 의미한다. 깊이 높이는 변화하지 않는다. 깊었다 높았다 깊겠다 높겠따 따위와 같이 어미가 붙어 여러 가지 모습으로 변화를 일으킬 수 있다.
그러나 예외가 있다. 공부 공부하다 두 개를 분류하려면 공부는 명사이지만 우리는 동작이라는 여지를 알고 있다.

품사 분류에서 가장 중요한 기준은 기능이다. 해당 단어가 문장 내에서 점하는 역할에 초점을 맞춰 품사를 분류한다는 것이다.
형태소의 경계를 정하거나 품사를 나누는 것과 같은 다양한 언어학적 문제는 말뭉치의 분포 정보와 깊은 관계를 갖고 있다. 이로인하여 분포 정보를 함축한다면 해당 벡터에 해당 단어의 의미를 자연스레 내재시킬 수 있는 것이다.

2.4.4 점별 상호 정보량

점별 상호 정보량은 두 확률변수사이의 상관성을 계량화하는 단위다. 두 확률변수가 완전히 독립인 경우 그 값이 0이 된다. 독립이라고 하면 A가 나타나는 것이 단어 B의 등장할 확률에 전혀 영향을 주지 않고, 단어 B등장이 단어 A에 영향을 주지 않는 경우를 가리킨다.
두 단어의 등장이 독립일 때 대비해 얼마나 자주 같이 등장하는지를 수치화한 것이다

PMI(A,B) = log{P(A,B) \over P(A)*P(B)}

PMI 행렬의 행 벡터 자체를 해당 단어의 임베딩으로 사용할 수도 있다.

챗봇만들기(3)

데이터 분석(2)

질문, 답변 각각에 대한 문장 길이 분포 분석

질문 응답 데이터 길이에 대한 히스토그램

통곗값 확인하기

박스플롯그리기

데이터 어휘 빈도 분석

워드클라우드 활용해 어휘 빈도 분석

챗봇만들기(2)

데이터 분석(1)

데이터 불러오기

문장 전체에 대한 분석

토크나이징

그래프그리기

통계값출력

어절

형태소

음절

박스플롯그리기

챗봇만들기(1)

데이터 소개

Neural Machine Translation

Process

Transformer

Tagging

Sentiment Analysis

Question Answering

POS

Process

Deep Learning

Type of RNN

Vanilla RNN

LSTM (Long Short Term Memory)

GRU(Gated recurrent unit)

라이브러리 소개

Representation Vector

Background

Tokenizer

Word2Vec

Glove

FastText

Basic Concept of Machine Learning

Process of Machine Learning

Role of Train, Valid, Test Dataset

Process of NLP with Deep Learning

Make Corpus with Train Dataset

Representation Vector

2.5 2장 요약

2.4 어떤 단어가 같이 쓰였느가

2.4.1 분포 가정

2.4.2 분포와 의미(1) : 형태소

2.4.3 분포와 의미(2) : 품사

2.4.4 점별 상호 정보량

카테고리

태그 클라우드

최근 글

아카이브

태그

최근 글

아카이브

태그

Your browser is out-of-date!