원티드 프리온보딩 AI•ML (NLP)

NLP와 벤치마크 데이터셋

hyunzzzzzz 2022. 2. 22. 16:36

NLP와 벤치마크 데이터셋

NLP(Natural Language Processing, 자연어 처리)

자연어처리는 크게 자연어이해와 자연어생성으로 나눠볼 수 있다. (출처: 카카오브레인 블로그)

NLP는 여러가지 자연어 관련 테스크들로 이루어져 있다. 크게는 NLU(자연어의 의미적/문법적 이해), NLG(자연어 생성) 등으로 이루어져 있으며 각 테스크들은 완전히 독립되어 있지 않고 서로 연관되어 있다. 

 

벤치마크 데이터셋

자연어 처리 테스크를 분류한 교집합 이미지에서 알 수 있듯, 각 NLP task 산하에는 여러가지 sub task들이 존재한다. 그리고 각 sub-task를 가장 잘 해결하는( =성능이 잘 나오는) Language Model(LM)을 가려내기 위한 task별 대표적 데이터 모음을 벤치마크 데이터셋이라고 부른다. 테스크 별로 SOTA(State-Of-The-Art)인 LM을 가려내기 위한 일종의 시험문제(대회) 같은 개념이다. 이 시험을 잘 봐서 점수를 잘 받으면 해당 테스크/ 해당 벤치마크의 SOTA 모델이 된다.

NLP 분야에서 유명한 벤치마크 데이터셋은  GLUE (자연어 이해 테스크), SqUAD (독해 테스크), SST (감성 분석 테스크), KLUE(한국어 벤치마크 데이터셋) 등이 존재한다. 그리고 각 벤치마크 데이터셋은 각 NLP sub task에 맞는 여러 데이터셋을 갖고있다. 따라서 풀어야할 테스크와 벤치마크 데이터셋을 잘 선택(mapping)하여 사용해야 한다.

 

Reference

018-2020 NLU 연구 동향을 소개합니다

2018-2020 NLU 연구 동향을 소개합니다

2018-2020 NLU 연구 동향을 소개합니다