open:tf-idf [EL]

This page is read only. You can view the source, but not change it. Ask your administrator if you think this is wrong.
# TF-IDF (term frequency-inverse document frequency)


<code py>
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(sample)
X.toarray()
</code>


tf(w) = 문서에서 w라는 단어가 출현하는 횟수 / 문서에 있는 전체 단어 개수

tdf(w) = log(문서 개수 / w라는 단어를 담은 문서 개수)


### 자연어 처리를 위한 1D CNN

많은 [[NLP]] 문제에서, [[CNN]]이 잘 작동할 뿐만 아니라 [[LSTM]]보다 빠르다는 점이 밝혀졌다. [[RNN]]/[[LSTM]]을 언제 사용하고 CNN을 언제 사용할지에 대한 정확한 규칙을 제시하기는 어렵다. 일반적으로 문제에 어떤 상태가 필요하거나 시쿼스 중 한참 지나온 부분에서 무언가를 학습해야 한다면 LSTM을 사용하는 편이 더 나을 수 있다. 문제가 텍스트를 설명하는 특정 단어 집합을 감지해야 한다거나 문서에 대한 의미론적 정서를 감지해야 하는 경우라면 CNN을 사용해야 문제를 더 빠르고 효과적으로 해결할 수 있다.



## 출처

- https://github.com/graykode/nlp-tutorial?fbclid=IwAR3_DRc1-fcWQjumjDTM6e8xCpwZ09kYcXKOLBaS3AC2zbVeGvXKJOz4voo
- https://m.blog.naver.com/horajjan/221458347064