챗봇만들기(3) - 데이터분석(2)

챗봇만들기(3)

데이터 분석(2)

질문, 답변 각각에 대한 문장 길이 분포 분석

  • 형태소를 기준으로 길이 분석
1
2
3
4
5
6
7
8
query_sentences = list(data['Q'])
answer_sentences = list(data['A'])

query_morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in query_sentences]
query_sent_len_by_morph = [len(t) for t in query_morph_tokenized_sentences]

answer_morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in answer_sentences]
answer_sent_len_by_morph = [len(t) for t in answer_morph_tokenized_sentences]
  • 질문 열과 답변 열을 각각 리스트로 정의
  • KoNLpy의 Okt 형태소 분석기를 이용해 토크나이저 구분
  • 구분된 데이터의 길이를 하나의 변수로 만듬

질문 응답 데이터 길이에 대한 히스토그램

질문 응답 데이터 길이에 대한 히스토그램

  • 질문 문장 길이가 응답 문장 길이보다 상대적으로 짧음
  • y 값의 크기를 조정
1
2
3
4
5
6
7
8
plt.figure(figsize=(12, 5))
plt.hist(query_sent_len_by_morph, bins=50, range=[0,50], color='g', label='Query')
plt.hist(answer_sent_len_by_morph, bins=50, range=[0,50], color='r', alpha=0.5, label='Answer')
plt.legend()
plt.yscale('log', nonposy='clip')
plt.title('Query Length Log Histogram by Morph Token')
plt.xlabel('Query Length')
plt.ylabel('Number of Queries')
  • plt.yscale(‘log’, nonposy=‘clip’) 추가
    질문 응답 데이터 길이에 대한 히스토그램2

  • 답변 데이터가 질문 데이터 보다 이상치 값이 많음

  • 상대적으로 질문의 경우 평균 주변에 잘 분포

통곗값 확인하기

1
2
3
4
5
6
7
print('형태소 최대길이: {}'.format(np.max(query_sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(query_sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(query_sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(query_sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(query_sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(query_sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(query_sent_len_by_morph, 75)))

형태소 최대길이: 20
형태소 최소길이: 1
형태소 평균길이: 4.95
형태소 길이 표준편차: 2.48
형태소 중간길이: 4.0
형태소 1/4 퍼센타일 길이: 3.0
형태소 3/4 퍼센타일 길이: 6.0

1
2
3
4
5
6
7
print('형태소 최대길이: {}'.format(np.max(answer_sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(answer_sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(answer_sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(answer_sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(answer_sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(answer_sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(answer_sent_len_by_morph, 75)))

형태소 최대길이: 31
형태소 최소길이: 1
형태소 평균길이: 5.87
형태소 길이 표준편차: 2.55
형태소 중간길이: 5.0
형태소 1/4 퍼센타일 길이: 4.0
형태소 3/4 퍼센타일 길이: 7.0

  • 최댓값의 경우 답변 데이터가 더 큼
  • 평균의 경우 질문 데이터가 좀 더 작음

박스플롯그리기

1
2
plt.figure(figsize=(12, 5))
plt.boxplot([query_sent_len_by_morph, answer_sent_len_by_morph], labels=['Query', 'Anser'])

질문 응답 데이터 길이에 대한 박스 플롯

  • 통계값과는 다소 다름
  • 통계값 : 답변 데이터에 대한 평균 길이가 질문 데이터보다 길었음
  • 박스플롯 : 질문 데이터가 더 큼
    -> 답변 데이터의 경우 길이가 긴 이상치 데이터가 많아서 평균값이 더욱 크게 측정됨
  • 길이 값을 통해 모델에 적용될 문장의 최대 길이를 결정한다

데이터 어휘 빈도 분석

  • 형태소 단위로 토크나이징한 데이터를 사용해 자주 사용하는 단어 파악
  • ‘이’, ‘가’ 등의 조사보다는 의미상 중요한 명사, 형용사, 동사를 따로 모은 후 파악
  • KoNPy의 품사분류 POS-tagging 모듈
1
2
okt.pos('나는학생입니다')
okt.pos('지금은5월여름입니다')

[(‘나’, ‘Noun’), (‘는’, ‘Josa’), (‘학생’, ‘Noun’), (‘입니다’, ‘Adjective’)]
[(‘지금’, ‘Noun’), (‘은’, ‘Josa’), (‘5월’, ‘Number’), (‘여름입니다’, ‘Foreign’)]

  • 문장에서 명사, 형용사, 동사를 제외한 단어를 모두 제거한 문자열 만들기
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
query_NVA_token_sentences = list()
answer_NVA_token_sentences = list()

for s in query_sentences:
for token, tag in okt.pos(s.replace(' ', '')):
if tag == 'Noun' or tag == 'Verb' or tag == 'Adjective':
query_NVA_token_sentences.append(token)

for s in answer_sentences:
temp_token_bucket = list()
for token, tag in okt.pos(s.replace(' ', '')):
if tag == 'Noun' or tag == 'Verb' or tag == 'Adjective':
answer_NVA_token_sentences.append(token)

query_NVA_token_sentences = ' '.join(query_NVA_token_sentences)
answer_NVA_token_sentences = ' '.join(answer_NVA_token_sentences)

워드클라우드 활용해 어휘 빈도 분석

  • NanumGothic.ttf 한글 폰트 설정
  • 질문
1
2
3
4
5
6
from wordcloud import WordCloud
query_wordcloud = WordCloud(font_path= DATA_IN_PATH + 'NanumGothic.ttf').generate(query_NVA_token_sentences)

plt.imshow(query_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

질문어휘빈도에 대한 워드클라우드

  • 답변
1
2
3
4
5
query_wordcloud = WordCloud(font_path= DATA_IN_PATH + 'NanumGothic.ttf').generate(answer_NVA_token_sentences)

plt.imshow(query_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

답변어휘빈도에 대한 워드클라우드

No module named 'konlpy'

윈도우에 설치

  1. ava 1.7+이 설치되어 있나요?
  2. JAVA_HOME 설정하기
  3. JPype1 (>=0.5.7)을 다운로드 받고 설치. 다운 받은 .whl 파일을 설치하기 위해서는 pip 을 업그레이드 해야할 수 있습니다.
1
2
3
> pip install --upgrade pip
> pip install JPype1-0.5.7-cp27-none-win_amd64.whl
> pip install konlpy

챗봇만들기(2) - 데이터분석(1)

챗봇만들기(2)

데이터 분석(1)

  • 데이터 분석
  • 데이터 전처리와 모델 생성

데이터 불러오기

1
2
3
4
5
6
7
import pandas as pd

DATA_IN_PATH = './data_in/'

data = pd.read_csv(DATA_IN_PATH + 'ChatBotData.csv', encoding='utf-8')

print(data.head())
Q A label
0 12시 땡! 하루가 또 가네요.
1 1지망 학교 떨어졌어 위로해 드립니다.
2 3박4일 놀러가고 싶다 여행은 언제나 좋죠.
3 3박4일 정도 놀러가고 싶다 여행은 언제나 좋죠.
4 PPL 심하네 눈살이 찌푸려지죠.

문장 전체에 대한 분석

  1. 데이터 길이를 분석
  • 질문과 답변 모두 길이에 대해 분석하기 위해 두 데이터를 하나의 리스트로 만들기
1
sentences = list(data['Q']) + list(data['A'])
  • 세 가지 기준으로 분석을 진행
    • 문자 단위의 길이 분석 (음절)
      • 문자 하나하나를 생각하자
    • 단어 단위의 길이 분석 (어절)
      • 띄어쓰기 단위로 생각하자
    • 형태소 단위의 길이 분석
      • 어절과 음절 사이로 생각하자
      • 최소 단위를 의미
        ex) 나는 학생이다.
    • 음절 : “나”, “는”, “학”, “생”, “이”, “다”
    • 어절 : “나는”, “학생이다”
    • 형태소 : “나”, “는”, 학생", “이다”

토크나이징

  • KoNLPy 사용
1
2
3
4
5
6
7
8
tokenized_sentences = [s.split() for s in sentences]
sent_len_by_token = [len(t) for t in tokenized_sentences]
sent_len_by_eumjeol = [len(s.replace(' ', '')) for s in sentences]

okt = Okt()

morph_tokenized_sentences = [okt.morphs(s.replace(' ', '')) for s in sentences]
sent_len_by_morph = [len(t) for t in morph_tokenized_sentences]
  • 띄어쓰기 기준으로 문장 분류 -> 어절의 길이 측정
  • 위 값을 붙이기 -> 음절의 길이
  • KoNLPy에 Okt 형태소 분석기 사용해서 나눈 후 길이 측정

그래프그리기

  • matplot사용
1
2
3
4
5
6
7
8
9
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))
plt.hist(sent_len_by_token, bins=50, range=[0,50], alpha=0.5, color= 'r', label='eojeol')
plt.hist(sent_len_by_morph, bins=50, range=[0,50], alpha=0.5, color='g', label='morph')
plt.hist(sent_len_by_eumjeol, bins=50, range=[0,50], alpha=0.5, color='b', label='eumjeol')
plt.title('Sentence Length Histogram')
plt.xlabel('Sentence Length')
plt.ylabel('Number of Sentences')

데이터 길이에 대한 히스토그램

  • 빨간색 : 어절 단위 히스토그램
  • 초록색 : 형태소
  • 파란색 : 음절

그래프 해석

  • 어절이 가장 낮은 길이 그다음 형태소, 가장 긴 길이는 음절
  • 히스토그램을 통해 각 길이가 어느 쪽으로 치우쳐 있는지 혹은 각 데이터에 이상치는 없는지 확인하자
  • 이 그래프는 직관적으로는 어렵다
    • y값 분포가 다르기 때문
    • 수정을 해보자
1
2
3
4
5
6
7
8
plt.figure(figsize=(12, 5))
plt.hist(sent_len_by_token, bins=50, range=[0,50], alpha=0.5, color= 'r', label='eojeol')
plt.hist(sent_len_by_morph, bins=50, range=[0,50], alpha=0.5, color='g', label='morph')
plt.hist(sent_len_by_eumjeol, bins=50, range=[0,50], alpha=0.5, color='b', label='eumjeol')
plt.yscale('log')
plt.title('Sentence Length Histogram by Eojeol Token')
plt.xlabel('Sentence Length')
plt.ylabel('Number of Sentences')
  • plt.yscale(‘log’) 사용
    • 각 그래프가 커지는 y값의 스케일을 조정함으로써 차이가 큰 데이터에서도 함께 비교 가능
      데이터 길이에 대한 히스토그램2
  • 꼬리부분의 분포가 보임
  • 어절의 경우 길이가 20인 경우가 이상치 데이터로 존재
  • 형태소는 30, 음절은 45정도 길이에 이상치가 존재
  • 이러한 길이 분포에 대한 분석 내용을 바탕으로 입력 문장의 길이를 어떻게 설정할지 정의하면 됨

통계값출력

  • 정확한 수치 확인을 위해 각 기준별 길이에 대한 여러가지 통곗값 비교
어절
1
2
3
4
5
6
7
8
import numpy as np
print('어절 최대길이: {}'.format(np.max(sent_len_by_token)))
print('어절 최소길이: {}'.format(np.min(sent_len_by_token)))
print('어절 평균길이: {:.2f}'.format(np.mean(sent_len_by_token)))
print('어절 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_token)))
print('어절 중간길이: {}'.format(np.median(sent_len_by_token)))
print('제 1 사분위 길이: {}'.format(np.percentile(sent_len_by_token, 25)))
print('제 3 사분위 길이: {}'.format(np.percentile(sent_len_by_token, 75)))

어절 최대길이: 21
어절 최소길이: 1
어절 평균길이: 3.64
어절 길이 표준편차: 1.74
어절 중간길이: 3.0
제 1 사분위 길이: 2.0
제 3 사분위 길이: 5.0

형태소
1
2
3
4
5
6
7
print('형태소 최대길이: {}'.format(np.max(sent_len_by_morph)))
print('형태소 최소길이: {}'.format(np.min(sent_len_by_morph)))
print('형태소 평균길이: {:.2f}'.format(np.mean(sent_len_by_morph)))
print('형태소 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_morph)))
print('형태소 중간길이: {}'.format(np.median(sent_len_by_morph)))
print('형태소 1/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_morph, 25)))
print('형태소 3/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_morph, 75)))

형태소 최대길이: 31
형태소 최소길이: 1
형태소 평균길이: 5.41
형태소 길이 표준편차: 2.56
형태소 중간길이: 5.0
형태소 1/4 퍼센타일 길이: 4.0
형태소 3/4 퍼센타일 길이: 7.0

음절
1
2
3
4
5
6
7
print('음절 최대길이: {}'.format(np.max(sent_len_by_eumjeol)))
print('음절 최소길이: {}'.format(np.min(sent_len_by_eumjeol)))
print('음절 평균길이: {:.2f}'.format(np.mean(sent_len_by_eumjeol)))
print('음절 길이 표준편차: {:.2f}'.format(np.std(sent_len_by_eumjeol)))
print('음절 중간길이: {}'.format(np.median(sent_len_by_eumjeol)))
print('음절 1/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_eumjeol, 25)))
print('음절 3/4 퍼센타일 길이: {}'.format(np.percentile(sent_len_by_eumjeol, 75)))

음절 최대길이: 57
음절 최소길이: 1
음절 평균길이: 11.31
음절 길이 표준편차: 4.98
음절 중간길이: 10.0
음절 1/4 퍼센타일 길이: 8.0
음절 3/4 퍼센타일 길이: 14.0


  • 전체 문자 수는 11개 정도의 평균값을 갖고 있음
  • 띄어쓰기로 구분한 어절의 경우 3~4 정도의 평균
  • 형태소로 분석시 6~7 정도의 평균

박스플롯그리기

1
2
3
4
plt.figure(figsize=(12, 5))
plt.boxplot([sent_len_by_token, sent_len_by_morph, sent_len_by_eumjeol],
labels=['Eojeol', 'Morph', 'Eumjeol'],
showmeans=True)

박스플롯

  • 꼬리가 긴 형태로 분포됨
  • 5~15의 길이를 중심으로 분포를 이루고 있음
  • 음절은 어절과 형태소에 비해 분포가 큼
API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×