어떤단어가같이쓰였는가

2.4 어떤 단어가 같이 쓰였느가

2.4.1 분포 가정

자연어 처리에서 분포 distribution란 특정 범위, 즉 윈도우 내에 동시에 등장하는 이웃 단어 또는 문맥의 집합을 가리킨다. 개별 단어의 분포는 그 단어가 문장 내에서 주로 어느 위치에 나타나는지, 이웃한 위치에 어떤 단어가 자주 나타나는지에 따라 달라진다. 어떤 쌍이 비슷한 문맥 환경에서 자주 등장한다면 그 의미 도한 유사할 것이라는 게 분포 가정 ** distributional hypothesis**의 전제다.

예컨데 한국어의 빨래, 세탁이라는 단어의 의미를 전혀 모른다고 하자. 두 단어의 의미를 파악하기 위해서는 이들 단어가 실제 어떻게 쓰이고 있는지 관찰을 해야한다. 두 단어는 타깃 단어 ** target word**이고 청소, 등은 그 주위에 등장한 문맥 단어가 된다

특기는 자칭 청소와 빨래지만 요리는 절망적
재를 우려낸 물로 빨래 할 때 나
찬 물로 옷을 세탁한다.
세탁, 청소, 요리와 기사는

이웃한 단어들이 서로 비슷하기 때문이다. 빨래청소 과 같이 등장하는 경향을 미루어 짐작해볼 때 이들끼리도 직간접적으로 관계를 지닐 가능성이 낮아보이지는 않는다. 그럼에도 개별 단어의 분포 정보와 그 의미 사이에는 논리적으로 직접적인 연관성은 사실 낮다. 다시 말해 분포 정보가 곧 의미라는 분포 가정에 의문접이 발생한다.

2.4.2 분포와 의미(1) : 형태소

형태소** morpheme란 의미를 가지는 최소 단위를 말한다. 더 쪼개면 의미를 잃어버리는 것이다.
예를 들어 철수가 밥을 먹었다 라고 한다면 형태소 후보는 철수, , 이다.
조금 더 깊게 분석해보자. 계열관계 ** paradigmatic relation
가 있다.

계열 관계는 해당 형태소 자리에 다른 형태소가 '대치’되어 쓰일 수 있는 가를 따지는 것이다. 예컨데 철수 대신에 영희가 올 수 있고 대신 을 쓸 수 있다. 이를 근거로 형태소 자격을 부여한다.

특정 타깃 단어 주변의 문맥 정보를 바탕으로 형태소를 확인한다는 이야기와 일맥상통한다.

말뭉치의 분포 정보와 형태소가 밀접한 관계를 이루고 있다.

2.4.3 분포와 의미(2) : 품사

품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것이다.

  • 기능
  • 의미
  • 형식
    위 세가지를 기준으로 분류한다.
  1. 기능
    한 단어가 문장 가운데서 다른 단어와 맺는 관계를 가르킨다.
    깊이 높이는 문장에서 주어로 쓰이고 깊다 높다는 서술어로 사용되고 있다.
  2. 의미
    단어의 형식적 의미를 나타낸다. ``깊이높이를 하나로 묶고깊다높다`를 같은 군집으로 넣을 수 있다. 품사에서는 어휘적 의미보다 형식적 의미가 중요하다. 다시말해 어떤 단어가 사물의 이름을 나타내는가, 그렇지 않으면 움직임이나 성실, 상태를 나타내느냐 하는 것이다.
  3. 형식
    단어의 형태적 특징을 의미한다. 깊이 높이는 변화하지 않는다. 깊었다 높았다 깊겠다 높겠따 따위와 같이 어미가 붙어 여러 가지 모습으로 변화를 일으킬 수 있다.
    그러나 예외가 있다. 공부 공부하다 두 개를 분류하려면 공부는 명사이지만 우리는 동작이라는 여지를 알고 있다.

품사 분류에서 가장 중요한 기준은 기능이다. 해당 단어가 문장 내에서 점하는 역할에 초점을 맞춰 품사를 분류한다는 것이다.
형태소의 경계를 정하거나 품사를 나누는 것과 같은 다양한 언어학적 문제는 말뭉치의 분포 정보와 깊은 관계를 갖고 있다. 이로인하여 분포 정보를 함축한다면 해당 벡터에 해당 단어의 의미를 자연스레 내재시킬 수 있는 것이다.

2.4.4 점별 상호 정보량

점별 상호 정보량은 두 확률변수사이의 상관성을 계량화하는 단위다. 두 확률변수가 완전히 독립인 경우 그 값이 0이 된다. 독립이라고 하면 A가 나타나는 것이 단어 B의 등장할 확률에 전혀 영향을 주지 않고, 단어 B등장이 단어 A에 영향을 주지 않는 경우를 가리킨다.
두 단어의 등장이 독립일 때 대비해 얼마나 자주 같이 등장하는지를 수치화한 것이다

PMI(A,B)=logP(A,B)P(A)P(B)PMI(A,B) = log{P(A,B) \over P(A)*P(B)}

PMI 행렬의 행 벡터 자체를 해당 단어의 임베딩으로 사용할 수도 있다.

단어가어떤순서로쓰였는가

2.3 단어가 어떤 순서로 쓰였는가

2.3.1 통계 기반 언어 모델

언어 모델 ** language model**이란 단어 시퀀스에 확률을 부여하는 모델이다.
단어의 등장 순서를 무시하는 백오브워즈와 달리 언어 모델은 시퀀스 정보를 명시적으로 학습한다.

단어가 n개 주어진 상황이라면 언어 모델은 n개 단어가 동시에 나타날 확률, 즉 P라는 것을 반환한다. 통계 기반의 언어 모델은 말뭉치에서 해당 단어 시퀀스가 얼마나 자주 등장하는지 빈도를 세어 학습한다. 이렇게 되면 주어진 단어 시퀀스 다음 단어는 무엇이 오는게 자연스러운지 알 수 있다.

n-gram이란 n개 단어를 뜻하는 용어이다. 난폭,운전 눈_뜨다 등은 2-gram 또는 bigram이라는 말을 쓴다. 누명, 을, 쓰다 는 3-gram 혹은 trigram이라고 쓴다. 경우에 따라서 n-gram은 n-gram에 기반한 언어 모델을 의미하기도 한다. 말뭉치 내 단어들을 n개씩 묶어서 그 빈도를 학습했다는 뜻이다.

예컨데 , 내_마음 말뭉치는 빈도가 많지만 내_마음_속에_영원히_기억될_최고의_명작이다 라는 말뭉치가 한 번도 없을 수 있다. 이럴 때에는 말뭉치로 학습한 언어 모델은 해당 표현이 나타날 확률을 0으로 부여하게 된다.

문법적으로나 의미적으로 결함이 없는 훌륭한 한국어 문장임에도 해당 표현을 말이 되지 않는 문장으로 취급할 수 있다는 것이다.

내_마음_속에_영원히_기억될_최고의 라는 표현 다음에 명작이다라는 단어가 나타날 확률은 조건부확률 ** conditional probability**의 정의를 활용해 최대우도추정법 으로 유도한다.

P(,,,,,)=Freq(,,,,,,)Freq(,,,,,)P(명작이다|내, 마음, 속에, 영원히, 기억될, 최고의) = { Freq(내, 마음, 속에, 영원히, 기억될, 최고의, 명작이다) \over Freq(내, 마음, 속에, 영원히, 기억될, 최고의)}

그러나 우변의 분자가 0이라서 전체 값은 0이된다.

앞에서 배운 n-gram을 사용해보자. 직전 n-1개 단어의 등장 확률로 전체 단어 시퀀스 등장 확률을 근사하는 것이다. 이말을 다시 해석하면 한 상태** state**의 확률은 그 직전 상태에만 영향을 받는 것이다. 마코프 가정 Markov assumption에 기반한 것이다.

P(,,,,,)P()=Freq(,)Freq()P(명작이다|내, 마음, 속에, 영원히, 기억될, 최고의) ≈ P(명작이다|최고의)={ Freq(최고의, 명작이다) \over Freq(최고의)}

처럼 전 상황에 대해서만 영향을 주는 것이다. 다시말해 명작이다 라는 직전의 1개 단어만 보고 전체 단어 시퀀스 등장 확률을 근사한 것이다.

좀 더 늘려서 끝까지 계산하게 되면 다음과 같다.

P(,,,,,,)P()P()P()P()P()P()P()P(내, 마음, 속에, 영원히, 기억될, 최고의, 명작이다) ≈ P(내)*P(마음|내)*P(속에|마음)*P(영원히|속에)*P(기억될|영원히)*P(최고의|기억될)*P(명작이다|최고의)

일반화를 시킨다면 다음과 같다. 바이그램모델에서는 1개만 참고하지만 일반화를 시키면 전체 단어 시퀀스 등장 확률 계산시 직전 n-1개 단어의 히스토리를 본다

P(WnW(n1)=Freq(W(n1,W(n))Freq(W(n1))P(Wn|W(n-1) = { Freq(W(n-1,W(n)) \over Freq(W(n-1))}

그러나 데이터에 한 번도 등장하지 않는 n-gram이 존재할 때 예측 문제가 발생할 수 있다. 처음 보는 단어를 본다면 그 확률은 0으로 보기 때문이다.

이를 위해서 백오프** back-off**, 스무딩 ** smoothing**등의 방식이 제안된다.
백오프란 n-gram등장 빈도를 n보다 작은 범위의 단어 시퀀스 빈도로 근사하는 방식인데, n을 크게 하면 할 수록 등장하지 않은 케이스가 많아질 가능성이 높기 때문이다.
내_마음_속에_영원히_기억될_최고의_명작이다는 7-gram에서는 0이지만 N을 4로 내린다면 달라진다.
스무딩이란 등장 빈도 표에 모두 K만큼 더하는 것이다. 높은 빈도를 가진 문자열 등장 확률을 일부 깎고 학습 데이터에 전혀 등장하지 않은 케이스들에는 일부 확률을 부여하게 된다.


2.3.2 뉴럴 네트워크 기반 언어 모델

뉴럴 네트워크는 입력과 출력 사이의 관계를 유연하게 포착해낼 수 있고, 그 자체로 확률 모델로 기능이 가능하기 때문에 뉴럴 네트워크로 사용한다.

1
발 없는 말이 -> [언어모델] -> 천리

뉴럴 네트워크 기반 언어 모델은 위 그림처럼 단어 시퀀스를 가지고 다음 단어를 맞추는 과정에서 학습된다. 학습이 완료되면 이들 모델의 중간 혹은 말단 계산 결과물을 단어나 문장의 임베딩으로 활용한다. 대표적인 모델은 다음과 같다.

  • ELMo
  • GPT

마스크 언어 모델 ** masked language model**은 언어 모델 기반 기법과 큰 틀에서 유사하지만 디테일에서 차이가 잇다. 문장 중간에 '마스크’를 씌워 놓고 해당 위치에 어떤 단어가 올지 예측하는 과정을 학습한다.

대게 언어 모델 기반 기법은 단어를 순차적으로 입력받아 다음 단어를 맞춰야하기 때문에 태생적으로 일방향 ** uni-directional이다. 하지만 마스크 언어 모델 기반 기법은 문장 전체를 보고 중간을 예측하기 때문에 양방향 ** bi-directional학습이 가능하다. 대표적인 모델은 다음과 같다.

  • BERT

논문읽는 방법

논문의 구조

  • 논문은 표현의 간결성(conciseness)과 명료성(clarity)이 매우 중요

-영어 논문의 구조

나는 이런 문제를 풀거야 (abstract)

사실 이 문제는 이런 동기에서 연구가 시작된건데 (introduction)

관련해서 이런저런 접근들이 있었지 (related works)

난 이런 새로운 방식으로 접근해보려고 하는데 (method)

정말 이게 잘 먹히는지 실험도 해봤어 (experiment)

이를 통해 이런 사실도 알아냈지만 한계점도 있지 (discussion)

마지막으로 귀찮은 너를 위해 요약 (conclusion)

  • 논문의 핵심은 ‘내가 주어진 문제에서 이러한 기여(contribution)를 했다’

논문 고르기

  • 구글스칼라 이용

  • 관심있는 키워드를 넣고 논문을 검색

  • 그 분야의 개략적인 연구들을 훑어보려면 관련 키워드와 함께 ‘review’, ‘survey’, ‘tutorial’ 등을 넣고 검색

  • 이들은 특정 문제를 푸는 일반 논문들과 달리, 관련 연구들을 종합하거나 (review), 조사하거나 (survey), 쉽게 설명하고 있다. (tutorial)

Abstract 초록읽기

  • 하이라이트 같은 거

  • 개요 -> In this paper -> 방법 -> 결과 순으로 적힘

  • 이 논문이 ‘무슨 문제’를 풀려고 했고, ‘어떠한 새로운 기여’를 담고 있는지 파악

Conclusion 결론 읽기

  • 내가 제대로 이해했는지 확인하기 위해 결론 먼저 읽음

  • 논문이 무슨 문제를 풀려했고, 어떠한 기여를 했는지 아는게 중요

Instroduction 서론 읽기

  • 본론은 지엽적인 문제해결만을 다룸

  • 서론에서는 주요 연구들을 한줄 요약들과 함께 친절히 소개해줌

  • 소개되는 논문들은 꼭 읽어야하는 논문 위주

  • (1) 내가 어떤 문제를 풀고 있는지

  • (2) 관련 연구들은 이 문제를 어떻게 풀어왔는지

  • (3) 마지막으로 나는 그들과 달리 어떤 입장에서 문제를 해결했는지

표/그림 보기

영어 독해를 쉽게하는 방법 중 하나는 ‘앞에 나올 내용을 예상하며 읽는 것’이다. 이제까지 초록, 결론, 서론을 읽었던 것은 모두 본론에 어떤 내용이 나올지 잘 예측할 수 있기 위해서였다. 여기에 또 한가지 본문 이해에 도움을 주는 소재가 있다면 바로 표와 그림들

Methods & Experiments

  • 이전까지는 무엇을 왜 에 대한 내용

  • 방법 및 실험은 어떻게 에 대한 본연구의 자세한 설명

  • 수식의 역할만 이해한다면 디테일은 일단 패스

중요한건 그 수식이 인풋으로 무엇을 받아 아웃풋으로 무엇을 내놓는지 이해하는 것이다. 그리고 왜 이 수식이 필요한지, 없으면 어떤 일이 벌어지는지를 이해하는 것 역시 중요하다.

중요한건 수식이 아니라 ‘내가 뭘 읽고 있는지’와 ‘내가 왜 읽고 있는지’의 능동적 이해 자세이다. 혼미해지는 정신 꽉 부여잡고 이 논문의 핵심스토리에 집중하자.


출처 http://gradschoolstory.net/terry/readingpapers/

영어 못해도 논문 잘 읽는 법
‘그 발번역 정말 못읽겠더라. 차라리 원서 읽어.’ ‘맞아맞아~ 어떻게 한글이 영어보다 어렵니? 원서가 훨씬 쉬운 듯’ 대학생 초년 시절, 영어가 너무 벅찬던 내가 운좋게 번역본이라도 구해 들고 있을지면 친구들은 항상 내게 이런 말을 건냈다. 번역본이 훨씬 어렵지 않냐면서 말이다. ‘당연하지&#82…

gradschoolstory.net

API API오용 Anaconda Beacon Bluetooth CRUD분석 Camera ChatBot DB관련신기술 DB관리기능 DB서버 DB표준화 ER다이어그램 ER모델 ETL Flask HW관련신기술 IDE도구 IP IoT Machine_Translation NLP배경 ORM프레임워크 Package Recurrent Neural Network SDLC SW개발방법론 SW개발방법론선정 SW개발보안정책 SW개발표준 SW관련신기술 Sequence_Tagging ShellScript TCP_UDP Vector WordCloud c 자료형 class embedding konlpy python python 자료형 가설검증 개발환경구축 객체지향프로그래밍언어 관계데이터베이스모델 관계데이터언어 국제표준제품품질특성 네트워크7계층 네트워크관련신기술 네트워크장비 네트워크침해공격용어 논리데이터모델개요 논리데이터모델품질검증 논리적데이터모델링 논문 단위모듈구현 단위모듈테스트 데이터검증 데이터모델개념 데이터베이스무결성 데이터베이스백업 데이터베이스암호화 데이터베이스용량설계 데이터베이스이중화구성 데이터베이스정규화 데이터분석 데이터분석 - 순열 - 조합 데이터분석 - 정규분포 데이터분석 - 통계기초 데이터사이언스개념 데이터입출력 데이터전환수행계획 데이터정제 데이터조작프로시저작성 데이터조작프로시저최적화 데이터조작프로시저테스트 데이터지역화 데이터타입 데이터표준확인 데이터품질분석 라이브러리 로그분석 메모리관리 모델화 몬테카를로 물리데이터모델설계 물리데이터모델품질기준 물리데이터저장소구성 물리요소조사분석 반정규화 배치프로그램 변수 보안기능 보안솔루션 보안아키텍처 보안취약성식별 분산데이터베이스 분산분석 비용산정모델 빌드자동화도구 사용자정의함수 상관분석 서버개발프레임워크 서버인증 서버장비운영 서버접근통제 서비스공격유형 선언형언어 세션통제 소스코드인스펙션 소프트스킬 소프트웨어개발프레임워크 소프트웨어버전관리도구 소프트웨어연계테스트 슈퍼디엠지 스크립트언어 시스템카탈로그와뷰 암호알고리즘 애플리케이션모니터링도구 애플리케이션배포도구 애플리케이션성능개선 애플리케이션테스트결과분석 애플리케이션테스트시나리오작성 애플리케이션테스트케이스작성 애플리케이션통합테스트수행 애플리케이션패키징 연산자 예외처리 오답노트 오류데이터측정 오류처리 오류처리확인및보고서작성 요구공학방법론 운영체제 웹서버 이벤트 인터넷구성의개념 인터페이스구현검증 인터페이스기능확인 인터페이스보안 입력데이터검증및표현 자료구조 자연어처리 재사용 절차적프로그래밍언어 정보보안침해공격용어 정보처리기사 제품소프트웨어매뉴얼작성 집계성DCL작성 체크리스트 초기데이터구축 취약점분석 칼럼속성 캡슐화 코드오류 클러스터링 키종류 테일러링기준 트랜잭션인터페이스 트리거 파일처리기술 파티셔닝 패키지 포트포워딩 프로세스스케줄링 프로토타입 한국어임베딩 핵심정리 현업도구 형상관리도구 환경변수 회귀분석
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×