Paperswithcode에 제시된 NLP sub task 중에 2개를 선택해 정리했습니다.
(Document Classification, Toxic Comment Classification)
수강 목적
자연어를 처리에 관한 기술에 관심이 많이 있었습니다. 실생활에서 흔히 볼 수 있는 데이터인 텍스트를 가지고 개인의 취향을 알아내고, 텍스트 만으로도 비슷한 데이터들을 추려내는 등의 테스크를 수행함으로써 실생활에 직접적으로 도움이 될 수 있는 서비스를 만들어낼 수 있다는 점에 매료되었습니다.
AI 부트캠프를 이수한 후, NLP에 관련된 개념은 얕게나마 배웠는데, 제대로 프로젝트를 진행해봐야겠다는 생각으로 프리온보딩 AI/ML 코스 수강을 결심했습니다. AI/ML 관련 학습을 한 이후로 팀을 구성해서 프로젝트를 하는 기회가 처음인데 이 기회에 팀원들과 의미있는 프로젝트를 만들어보고자 수강하게 되었습니다.
Document Classification
1.문제 정의 (task가 해결하고자 하는 문제가 무엇인가?)
- 미리 결정된 레이블 집합에서 문서에 하나 이상의 레이블을 지정하는 테스크
- 문서 ⇒ 문장의 집합
2.데이터 소개(대표적인 데이터 1개)
- task를 해결하기 위해 사용할 수 있는데 데이터가 무엇이고, 구조는 어떠한가?
- Reuters-2157 dataset
Reuters-21578 데이터세트는 뉴스 기사가 포함된 문서 모음이다.
원본 코퍼스는 10,369개의 문서와 29,930개의 단어로 구성된 어휘로 구성되어 있다.
3.SOTA 모델 소개(대표적인 모델 1개)
- task의 SOTA 모델은 무엇인가?
- MPAD-path (Message Passing Attention Networks for Document Understanding)
- 해당 모델 논문의 요약에서 주요 키워드는 무엇인가?
Graph neural networks have recently emerged as a very effective framework for processing graph-structured data.
These models have achieved state-of-the-art performance in many tasks.
Most graph neural networks can be described in terms of message passing, vertex update, and readout functions. In this paper, we represent documents as word co-occurrence networks and propose an application of the message passing framework to NLP, the Message Passing Attention network for Document understanding (MPAD).
We also propose several hierarchical variants of MPAD. Experiments conducted on 10 standard text classification datasets show that our architectures are competitive with the state-of-the-art. Ablation studies reveal further insights about the impact of the different components on performance.
Toxic Comment Classification
1.문제 정의
- task가 해결하고자 하는 문제가 무엇인가?
- 데이터셋 comments를 toxic (subtask 1) / engaging (subtask 2) / fact-claiming comments (subtask 3)로 다중 분류
- German BERT 모델과 German ELECTRA 모델을 파인 튜닝
2.데이터 소개(대표적인 데이터 1개)
- task를 해결하기 위해 사용할 수 있는데 데이터가 무엇인가?
- GermEval 2021 - Toxic Comments test set
(GermEval 2021 대회에서 제공한 Facebook 데이터)
- 데이터 구조는 어떻게 생겼는가?
3. SOTA 모델 소개(대표적인 모델 1개)
- task의 SOTA 모델은 무엇인가?
- GBERT/GELECTRA Ensemble 모델
- 해당 모델 논문의 요약에서 주요 키워드는 무엇인가?
사전 훈련된 대규모 신경망 모델**(예: BERT 및 ELECTRA)에 의해 학습된 언어 표현의 가용성은 최근 몇 년 동안 많은 다운스트림 자연어 처리 작업의 개선으로 이어졌다.
사전 훈련된 모델은 일반적으로 목표, 아키텍처 및 데이터 세트를 사전 훈련하는 데 차이가 있으며, 이는 다운스트림 성능에 영향을 미칠 수 있다.
이 기고문에서 **독일 BERT와 독일 ELECTRA 모델을 미세 조정**하여 **GermEval 2021 대회에서 제공하는 페이스북 데이터**에서 **Toxic**(하위 작업 1), **Engaging**(하위 작업 2) 및 **Fact-Claiming**(하위 작업 3)을 식별했다.
우리는 이러한 모델의 **앙상블**을 만들고 **분류 성능이 앙상블 멤버 수와 구성 요소에 따라 달라지는지 여부와 그 방법을 조사**했다.
샘플 외 데이터에서 우리의 최고 앙상블은 모든 하위 작업에 대해 0.73의 macro-F1 점수와
하위 작업 1, 2 및 3에 대해 각각 0.72, 0.70 및 0.76의 F1 점수를 달성했다.
References
'원티드 프리온보딩 AI•ML (NLP)' 카테고리의 다른 글
Week2-1. Pytorch tutorial (1) - Tensor (0) | 2022.04.07 |
---|---|
Week1-4. NLP의 Transfer Learning의 학습 방식 (0) | 2022.02.25 |
Week1-3. NLG와 extractive summarization task (4) | 2022.02.23 |
Week1-2. NLU와 Semantic Textual Similarity (5) | 2022.02.22 |
NLP와 벤치마크 데이터셋 (0) | 2022.02.22 |