NLP

    Week1-4. NLP의 Transfer Learning의 학습 방식

    Transfer Learning 리뷰 데이터를 긍정과 부정으로 이진 분류하는 긍부정 판별 모델을 만들어야 한다고 가정해보자. 그런데 이 때 모델 학습에 쓸 수 있는 수집된 데이터가 1,000개 미만이라면 어떻게 해야할까? 적은 양의 데이터로는 당연히 성능 좋은 모델을 만들 수 없다. 이렇게 데이터가 적을 때 고려해야할 사항이 바로 Pre-trained 모델(사전 학습 모델)을 활용하는 Transfer Learning(전이 학습)이다. 많은 데이터로 미리 학습된 모델을 사전 학습 모델이라 한다. 구글이나 페이스북과 같은 대기업에서 엄청난 양의 데이터를 학습한 사전 학습 모델들을(ex. BERT) 오픈 소스로 공개하고 있다. 또한 이렇게 공개된 사전 학습 모델을 기반으로 더 개선된 사전 학습 모델들이 나오고..

    NLP와 벤치마크 데이터셋

    NLP와 벤치마크 데이터셋 NLP(Natural Language Processing, 자연어 처리) NLP는 여러가지 자연어 관련 테스크들로 이루어져 있다. 크게는 NLU(자연어의 의미적/문법적 이해), NLG(자연어 생성) 등으로 이루어져 있으며 각 테스크들은 완전히 독립되어 있지 않고 서로 연관되어 있다. 벤치마크 데이터셋 자연어 처리 테스크를 분류한 교집합 이미지에서 알 수 있듯, 각 NLP task 산하에는 여러가지 sub task들이 존재한다. 그리고 각 sub-task를 가장 잘 해결하는( =성능이 잘 나오는) Language Model(LM)을 가려내기 위한 task별 대표적 데이터 모음을 벤치마크 데이터셋이라고 부른다. 테스크 별로 SOTA(State-Of-The-Art)인 LM을 가려내기..