NLP(Natural Language Processing) : 컴퓨터가 사람의 언어를 처리하는 것을 말함.
NLP Apllications
Text Classfication : ex. Spam Detection, Sentiment Analysis, ...
Question Answering, Search Engine
Machine Translation : ex. 파파고, 구글번역기
Chatbot : ex. 채널톡
Personal Assistant : ex. Siri
Text Summarization
Academic Disciplines related to NLP
Major Conferences : ACL, EMNLP, NAACL 등의 학회
Low-level parsing
Tokenization : 주어진 문장을 단어 단위로 쪼개는 과정을 말함.
Stemming : 어미를 추출하는 것을 말함.
영어 : study, studying, studied => study
한국 : 맑다, 맑은데, 맑아 => 맑다
Word and phrase level
Named Entity Recognition(NER) : 단일 단어 혹은 고유 명사를 인식하는 Task
NewYork Times를 New, York, Times로 인식하는 것을 방지하기 위한 Task
Part-Of-Speech(POS) tagging : 단어들이 문장내에서의 품사나 성분을 알아내기 위한 Task
noun-phrase chucking
dependency parsing :
coreference resolution :
Semantic relation extraction :
Sentence level
Sentiment analysis(감성분석), Machine translation(기계번역)
Multi-sentence and paragraph level
Entailment prediction(두 문장간의 논리적인 내포 혹은 모순을 예측), Question Answering(독해기반의 질의 응답), Dialog systems(챗봇), Summarization(요약)
Text mining
빅데이터 분석? 트렌드 분석, 키워드분석기반?
토픽모델링, 문장 군집화
사회과학과 밀접한 관계
정보검색
텍스트마이닝 관련 학회 : SIGIR, WSDM, CIKM, RecSys
추천시스템
NLP 트렌드
텍스트데이터는 단어의 시퀀스로 이해할 수 있음. 각 단어는 모델의 입력으로 사용되기 위해 숫자로 표현하는데 이때 스칼라 값이 아닌 벡터 형태로 표현. 이때 이 벡터를 embedding vector이고 예시로는 Word2Vec와 GloVe가 존재.
시퀀스를 다룰 수 있는 모델로는 RNN, LSTM, GRU와 같은 RNN계열의 모델이 있음.
attention과 Transformers가 등장하면서 RNN은 self-attention으로 대체됨.
최근에는 BERT와 같은 self-supervised 모델, 즉 정답이 없이도 모델의 input으로 사용되는 데이터만을 가지고 스스로 학습하는 모델을 먼저 많은 양의 데이터로 사전학습(Pre-training)하고 필요한 테스크에 맞게 파인튜닝(Fine-Tuning)하는 발전하게 되었음.
Course Overview
Bag-of-Words
Topic Modeling
Word Embedding
RNN
LSTM, GRU
RNNs with Attention
Pre-tokenization
Tokenization
Transformer
Transformer with Huggingface
GPT-1, GPT-2, GPT-3
BERT
Text Classification (Encoder)
Text Generation (Decoder)
Machine Translation
Receive promotional offers?