벤치마크
NLP와 벤치마크 데이터셋
NLP와 벤치마크 데이터셋 NLP(Natural Language Processing, 자연어 처리) NLP는 여러가지 자연어 관련 테스크들로 이루어져 있다. 크게는 NLU(자연어의 의미적/문법적 이해), NLG(자연어 생성) 등으로 이루어져 있으며 각 테스크들은 완전히 독립되어 있지 않고 서로 연관되어 있다. 벤치마크 데이터셋 자연어 처리 테스크를 분류한 교집합 이미지에서 알 수 있듯, 각 NLP task 산하에는 여러가지 sub task들이 존재한다. 그리고 각 sub-task를 가장 잘 해결하는( =성능이 잘 나오는) Language Model(LM)을 가려내기 위한 task별 대표적 데이터 모음을 벤치마크 데이터셋이라고 부른다. 테스크 별로 SOTA(State-Of-The-Art)인 LM을 가려내기..