hyunzzzzzz
자신의 속도로 꾸준히
hyunzzzzzz
전체 방문자
오늘
어제
  • 분류 전체보기 (18)
    • 개발 (3)
      • Linux (1)
      • Python (1)
      • Git, Gitlab (0)
      • gRPC (1)
      • DVC (0)
      • Docker (0)
    • 딥러닝 (0)
    • 원티드 프리온보딩 AI•ML (NLP) (6)
    • 학습 기록 (9)
      • 선형 대수 & 통계 (0)
      • 논문 리뷰 (1)
      • 데이터 엔지니어링 (3)
      • 딥러닝 (1)
      • 데이터 처리 (1)
      • 태블로 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 분산/편향
  • dl
  • API
  • 프로젝트
  • 막대 차트
  • pre trained
  • 비선형 활성화 함수
  • 은닉층
  • 기준모델
  • 객체 인식
  • 데이터 증강
  • http
  • NLP
  • 프로젝트 기획
  • 프로젝트 목표
  • 태블로 기본
  • 과/소적합
  • weight decay
  • 딥러닝
  • 머신러닝

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
hyunzzzzzz

자신의 속도로 꾸준히

NLP와 벤치마크 데이터셋
원티드 프리온보딩 AI•ML (NLP)

NLP와 벤치마크 데이터셋

2022. 2. 22. 16:36

NLP와 벤치마크 데이터셋

NLP(Natural Language Processing, 자연어 처리)

자연어처리는 크게 자연어이해와 자연어생성으로 나눠볼 수 있다. (출처: 카카오브레인 블로그)

NLP는 여러가지 자연어 관련 테스크들로 이루어져 있다. 크게는 NLU(자연어의 의미적/문법적 이해), NLG(자연어 생성) 등으로 이루어져 있으며 각 테스크들은 완전히 독립되어 있지 않고 서로 연관되어 있다. 

 

벤치마크 데이터셋

자연어 처리 테스크를 분류한 교집합 이미지에서 알 수 있듯, 각 NLP task 산하에는 여러가지 sub task들이 존재한다. 그리고 각 sub-task를 가장 잘 해결하는( =성능이 잘 나오는) Language Model(LM)을 가려내기 위한 task별 대표적 데이터 모음을 벤치마크 데이터셋이라고 부른다. 테스크 별로 SOTA(State-Of-The-Art)인 LM을 가려내기 위한 일종의 시험문제(대회) 같은 개념이다. 이 시험을 잘 봐서 점수를 잘 받으면 해당 테스크/ 해당 벤치마크의 SOTA 모델이 된다.

NLP 분야에서 유명한 벤치마크 데이터셋은  GLUE (자연어 이해 테스크), SqUAD (독해 테스크), SST (감성 분석 테스크), KLUE(한국어 벤치마크 데이터셋) 등이 존재한다. 그리고 각 벤치마크 데이터셋은 각 NLP sub task에 맞는 여러 데이터셋을 갖고있다. 따라서 풀어야할 테스크와 벤치마크 데이터셋을 잘 선택(mapping)하여 사용해야 한다.

 

Reference

  • Week 43 - 벤치마크 데이터 셋 그리고 KLUE (https://jiho-ml.com/weekly-nlp-43/)
    • 머신러닝 분야에서 벤치마크 데이터셋이 갖는 의의에 대해 알아볼 수 있다.
  • 2018 - 2020 NLU 연구 동양을 소개합니다 (카카오브레인) (https://www.kakaobrain.com/blog/118)

018-2020 NLU 연구 동향을 소개합니다

2018-2020 NLU 연구 동향을 소개합니다

2018-2020 NLU 연구 동향을 소개합니다

 

저작자표시 비영리 변경금지 (새창열림)

'원티드 프리온보딩 AI•ML (NLP)' 카테고리의 다른 글

Week2-1. Pytorch tutorial (1) - Tensor  (0) 2022.04.07
Week1-4. NLP의 Transfer Learning의 학습 방식  (0) 2022.02.25
Week1-3. NLG와 extractive summarization task  (4) 2022.02.23
Week1-2. NLU와 Semantic Textual Similarity  (5) 2022.02.22
Week1-1. NLP Sub-Task 탐색  (3) 2022.02.21
    '원티드 프리온보딩 AI•ML (NLP)' 카테고리의 다른 글
    • Week1-4. NLP의 Transfer Learning의 학습 방식
    • Week1-3. NLG와 extractive summarization task
    • Week1-2. NLU와 Semantic Textual Similarity
    • Week1-1. NLP Sub-Task 탐색
    hyunzzzzzz
    hyunzzzzzz
    천천히 자신의 속도에 맞춰 가되, 후퇴하거나 멈추지 않고 꾸준히 나아가는 신입 AI 엔지니어의 기록 공간입니다. 즐겁게 일하며 원하는 서비스를 만드는데 기여하는 것, 그래서 서비스와 제가 함께 과정에서 성장하는 것을 목표합니다. 이를 위해 매일매일 상승과 하강 곡선을 그리는 마음을 다독이고 행복하게 일하기 위한 마인드셋을 세우려 노력합니다.

    티스토리툴바