새소식

NLP

[DAY2] Topic Modeling

  • -
반응형

Day2의 Topic Modeling 강의를 듣고 정리한 내용의 포스팅입니다. 

Topic Modeling은 Text Mining 기법 중에서 가장 많이 활용되고 있음. Topic Modeling은 Unsupervised Learning 기반 방법 중 하나로 말 그대로 여러 문서들에서 주제를 찾아내는 데에 사용하는 알고리즘 중 하나임. 아주 많은 문서의 주제들을 추출할 수 있고, 시간별로 이 방법을 적용하여 대중의 트렌드를 파악하는 등 다양하게 활용되고 있음.

 

 

1. Bag-of-Words Encoding of Text Documents


- Bag-of-words vector

  • 텍스트 데이터나 이미지 데이터는 비정형 데이터! 이를 정형 데이터(환자 정보인 나이,성별,몸무게 등이 테이블 형태로 되어있는 데이터)로 만드는 것이 Bag-of-Words vector임.
  • Document 1 = "John likes movies. Mary likes too."
  • Document 2 = "John also likes football."
Vocabulary Doc1 Doc2
John 1 1
likes 2 1
movies 1 0
also 0 1
football 0 1
Mary 1 0
too 1 0

Term-document Matrix

 

 

 

 

 

 

2. What is a Topic Modeling 


- Topic : 가상의 Bag-of-Words vector / 단어들의 조합의 가중치

- What is topic modeling?

  • Topic modeling은 documnet 말뭉치에서 일련의 topic들을 추출하는 기술임.
  • 게다가, Topic modeling은 topic들 전반에 걸쳐 확률 분산과 같은 document를 표현한다.
  • 더욱 일반적으로, Topic modeling은 topics의 가중 평균과 같은 document를 표현한다.

 

 

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.