Day2의 Topic Modeling 강의를 듣고 정리한 내용의 포스팅입니다.
Topic Modeling은 Text Mining 기법 중에서 가장 많이 활용되고 있음. Topic Modeling은 Unsupervised Learning 기반 방법 중 하나로 말 그대로 여러 문서들에서 주제를 찾아내는 데에 사용하는 알고리즘 중 하나임. 아주 많은 문서의 주제들을 추출할 수 있고, 시간별로 이 방법을 적용하여 대중의 트렌드를 파악하는 등 다양하게 활용되고 있음.
1. Bag-of-Words Encoding of Text Documents
- Bag-of-words vector
- 텍스트 데이터나 이미지 데이터는 비정형 데이터! 이를 정형 데이터(환자 정보인 나이,성별,몸무게 등이 테이블 형태로 되어있는 데이터)로 만드는 것이 Bag-of-Words vector임.
- Document 1 = "John likes movies. Mary likes too."
- Document 2 = "John also likes football."
Vocabulary |
Doc1 |
Doc2 |
John |
1 |
1 |
likes |
2 |
1 |
movies |
1 |
0 |
also |
0 |
1 |
football |
0 |
1 |
Mary |
1 |
0 |
too |
1 |
0 |
Term-document Matrix
2. What is a Topic Modeling
- Topic : 가상의 Bag-of-Words vector / 단어들의 조합의 가중치
- What is topic modeling?
- Topic modeling은 documnet 말뭉치에서 일련의 topic들을 추출하는 기술임.
- 게다가, Topic modeling은 topic들 전반에 걸쳐 확률 분산과 같은 document를 표현한다.
- 더욱 일반적으로, Topic modeling은 topics의 가중 평균과 같은 document를 표현한다.