Show pageOld revisionsBacklinksBack to top This page is read only. You can view the source, but not change it. Ask your administrator if you think this is wrong. # TF-IDF (term frequency-inverse document frequency) <code py> from sklearn.feature_extraction.text import TfidfVectorizer vec = TfidfVectorizer() X = vec.fit_transform(sample) X.toarray() </code> tf(w) = 문서에서 w라는 단어가 출현하는 횟수 / 문서에 있는 전체 단어 개수 tdf(w) = log(문서 개수 / w라는 단어를 담은 문서 개수) ### 자연어 처리를 위한 1D CNN 많은 [[NLP]] 문제에서, [[CNN]]이 잘 작동할 뿐만 아니라 [[LSTM]]보다 빠르다는 점이 밝혀졌다. [[RNN]]/[[LSTM]]을 언제 사용하고 CNN을 언제 사용할지에 대한 정확한 규칙을 제시하기는 어렵다. 일반적으로 문제에 어떤 상태가 필요하거나 시쿼스 중 한참 지나온 부분에서 무언가를 학습해야 한다면 LSTM을 사용하는 편이 더 나을 수 있다. 문제가 텍스트를 설명하는 특정 단어 집합을 감지해야 한다거나 문서에 대한 의미론적 정서를 감지해야 하는 경우라면 CNN을 사용해야 문제를 더 빠르고 효과적으로 해결할 수 있다. ## 출처 - https://github.com/graykode/nlp-tutorial?fbclid=IwAR3_DRc1-fcWQjumjDTM6e8xCpwZ09kYcXKOLBaS3AC2zbVeGvXKJOz4voo - https://m.blog.naver.com/horajjan/221458347064 open/tf-idf.txt Last modified: 2024/10/05 06:15by 127.0.0.1