새소식

NLP

[DAY 1] 자연어처리 Intro

  • -
반응형

 

 

  • NLP(Natural Language Processing) : 컴퓨터가 사람의 언어를 처리하는 것을 말함.
  • NLP Apllications
    • Text Classfication : ex. Spam Detection, Sentiment Analysis, ...
    • Question Answering, Search Engine
    • Machine Translation : ex. 파파고, 구글번역기
    • Chatbot : ex. 채널톡
    • Personal Assistant : ex. Siri
    • Text Summarization
  • Academic Disciplines related to NLP
    1. Major Conferences : ACL, EMNLP, NAACL 등의 학회
    2. Low-level parsing
      • Tokenization : 주어진 문장을 단어 단위로 쪼개는 과정을 말함.
      • Stemming : 어미를 추출하는 것을 말함.
        • 영어 : study, studying, studied => study
        • 한국 : 맑다, 맑은데, 맑아 => 맑다
    3. Word and phrase level
      • Named Entity Recognition(NER) : 단일 단어 혹은 고유 명사를 인식하는 Task
        • NewYork Times를 New, York, Times로 인식하는 것을 방지하기 위한 Task
      • Part-Of-Speech(POS) tagging : 단어들이 문장내에서의 품사나 성분을 알아내기 위한 Task 
      • noun-phrase chucking
      • dependency parsing :
      • coreference resolution : 
      • Semantic relation extraction : 
    4. Sentence level
      • Sentiment analysis(감성분석), Machine translation(기계번역)
    5. Multi-sentence and paragraph level
      • Entailment prediction(두 문장간의 논리적인 내포 혹은 모순을 예측), Question Answering(독해기반의 질의 응답), Dialog systems(챗봇), Summarization(요약)
    6. Text mining
      • 빅데이터 분석? 트렌드 분석,  키워드분석기반?
      • 토픽모델링, 문장 군집화
      • 사회과학과 밀접한 관계
    7.  정보검색
      • 텍스트마이닝 관련 학회 : SIGIR, WSDM, CIKM, RecSys
      • 추천시스템
    8. NLP 트렌드
      • 텍스트데이터는 단어의 시퀀스로 이해할 수 있음. 각 단어는 모델의 입력으로 사용되기 위해 숫자로 표현하는데 이때 스칼라 값이 아닌 벡터 형태로 표현. 이때 이 벡터를 embedding vector이고 예시로는 Word2Vec와 GloVe가 존재.
      • 시퀀스를 다룰 수 있는 모델로는 RNN, LSTM, GRU와 같은 RNN계열의 모델이 있음.
      • attention과 Transformers가 등장하면서 RNN은 self-attention으로 대체됨.
      • 최근에는 BERT와 같은 self-supervised 모델, 즉 정답이 없이도 모델의 input으로 사용되는 데이터만을 가지고 스스로 학습하는 모델을 먼저 많은 양의 데이터로 사전학습(Pre-training)하고 필요한 테스크에 맞게 파인튜닝(Fine-Tuning)하는 발전하게 되었음.

 

 


  • Course Overview
    1. Bag-of-Words
    2. Topic Modeling
    3. Word Embedding
    4. RNN
    5. LSTM, GRU
    6. RNNs with Attention
    7. Pre-tokenization
    8. Tokenization
    9. Transformer
    10. Transformer with Huggingface
    11. GPT-1, GPT-2, GPT-3
    12. BERT
    13. Text Classification (Encoder)
    14. Text Generation (Decoder)
    15. Machine Translation

 

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.