Table of Contents
BERT
Bert
BERT의 WordPiece tokenizing
BERT 적용 실험 - 감성 분석
BERT 성능에 영향을 미치는 요인
출처
BERT
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Attention Is All You Need
인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가
딥러닝 기반 자연어 언어모델 BERT
Bert
Bi-directional Encoder Representations from Transformers
BERT는 bi-directional
Transformer
로 이루어진 언어모델
잘 만들어진 BERT 언어모델 위에 1개의 classification layer만 부착하여 다양한
NLP
task를 수행
영어권에서 11개의 NLP task에 대해 state-of-art (SOTA) 달성
BERT의 WordPiece tokenizing
Byte Pair Encoding (
BPE
) 알고리즘 이용
빈도수
에 기반해 단어를 의미 있는 패턴(Subword)으로 잘라서 tokenizing
W2V vocabs
-
-
-
BPE vocabs
고양경찰서
고양
##경찰
##서
고양
고양시
##시
##경찰
종로경찰서
종로
##경찰
##서
##서
경찰
경찰
##시
경찰서
경찰
##서
경찰
BERT 적용 실험 - 감성 분석
네이버 영화 리뷰 코퍼스 (
https://github.com/e9t/nsmc
)로 감성 분석 진행
학습 : 150,000 문장 / 평가 : 50,000 문장 (긍정: 1, 부정: 0)
BERT 성능에 영향을 미치는 요인
Corpus 사이즈
Corpus 도메인
Corpus tokenizing (어절, BPE, 형태소)
Vocal 사이즈
출처
인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가
https://github.com/eagle705/pytorch-bert-crf-ner
https://www.youtube.com/watch?v=riGc8z3YIgQ
https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=164
https://github.com/graykode/toeicbert?fbclid=IwAR2hoCQE02CaR00m-RZCHwQM_kYd1LgxxMSrucYSTtA52ZUhtvq5i_G2tFk