카테고리 없음

[DAY1] Bag-of-Words

NLP [DAY1]에서 NLP Intro와 Bag-of-Words강의까지 같이 있어서 분리해서 포스팅함.

1. Word Embedding

- 벡터가 어떻게 의미를 가지게 되는가

임베딩을 만드는 세 가지 철학

- 백오브워즈 가정 : 저자의 의도가 단어 사용 여부나 그 빈도에서 드러난다고 보는 가정.

TF-IDF(Term Frequency-Inverse Document Frequency) : 어떤 단어의 주제 에측 능력이 강할수록 가중치가 커지고, 그 반대의 경우 작아짐

$$TF - IDF(w) = TF(w)*log(\frac{N}{DF(w)})$$

- 언어모델 : 단어의 등장 순서를 학습해 주어진 단어 시퀀스가 얼마나 자연스러운지 확률을 부여함.

- 분포가정 : 단어의 의미는 주변 문맥을 통해 유추해볼 수 있다고 보는 가정

$$PMI(A,B) = log\frac{P(A,B)}{P(A) * P(B)}$$

- Bag-of-Word(BoW) : 문법적인 정보나 단어의 등장순서는 고려하지 않고 단어의 등장 빈도만을 고려하는 임베딩 기법.

- Modeling BoW

- Naive Bayes Classifier : 베이즈 이론을 적용한 간단한 확률을 기반으로한 분류기임.

- Bayes' theorem

$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

$$P(c|d) = \frac{P(d|c)P(c)}{P(d)}$$

$$P(c|d) = P(d|c)P(c)$$

Contents