전체 글
NLP와 벤치마크 데이터셋
NLP와 벤치마크 데이터셋 NLP(Natural Language Processing, 자연어 처리) NLP는 여러가지 자연어 관련 테스크들로 이루어져 있다. 크게는 NLU(자연어의 의미적/문법적 이해), NLG(자연어 생성) 등으로 이루어져 있으며 각 테스크들은 완전히 독립되어 있지 않고 서로 연관되어 있다. 벤치마크 데이터셋 자연어 처리 테스크를 분류한 교집합 이미지에서 알 수 있듯, 각 NLP task 산하에는 여러가지 sub task들이 존재한다. 그리고 각 sub-task를 가장 잘 해결하는( =성능이 잘 나오는) Language Model(LM)을 가려내기 위한 task별 대표적 데이터 모음을 벤치마크 데이터셋이라고 부른다. 테스크 별로 SOTA(State-Of-The-Art)인 LM을 가려내기..
Week1-1. NLP Sub-Task 탐색
Paperswithcode에 제시된 NLP sub task 중에 2개를 선택해 정리했습니다. (Document Classification, Toxic Comment Classification) 수강 목적 자연어를 처리에 관한 기술에 관심이 많이 있었습니다. 실생활에서 흔히 볼 수 있는 데이터인 텍스트를 가지고 개인의 취향을 알아내고, 텍스트 만으로도 비슷한 데이터들을 추려내는 등의 테스크를 수행함으로써 실생활에 직접적으로 도움이 될 수 있는 서비스를 만들어낼 수 있다는 점에 매료되었습니다. AI 부트캠프를 이수한 후, NLP에 관련된 개념은 얕게나마 배웠는데, 제대로 프로젝트를 진행해봐야겠다는 생각으로 프리온보딩 AI/ML 코스 수강을 결심했습니다. AI/ML 관련 학습을 한 이후로 팀을 구성해서 프로젝..
태블로(Tableau) 기본 컨셉 - 측정값, 차원, 막대 차트
👀 해당 내용은 강승일 선생님의 boostcourse의 데이터 시각화를 위한 태블로 강의를 공부하며 정리한 내용입니다. 해당 포스팅 부분 : Chapter1. 태블로 이해하기 / Ep3. 태블로 기본 컨셉 이해하기_1 측정값 (Measures) 아래 태블로 사이드바 그림에서 노란선 아래에 위치한 데이터 1. 기본적으로 숫자 형식 2. 액션(drag-drop 또는 double-click)을 통해 3. 설정된 집계에 따라 4. 하나의 차트를 만들게 된다. 차원 (Dimensions) 아래 태블로 사이드바 그림에서 노란선 위에 위치한 데이터 1. 그 숫자들로 만들어진 하나의 차트를 2. 어떻게 세부적으로 나눠서 볼 것인지를 결정한다. (나누는 기준) 태블로 실습 - 측정값과 차원 살펴보기 막대 차트 (Bar ..
왜 은닉층에 비선형 활성화 함수를 사용해야할까? ( + 기울기 소실 문제)
1. 선형함수가 무엇인가? y=x , y=ax , y=ax+b 와 같은 함수 출력이 입력의 상수배만큼 변하는 함수 2. 신경망의 구조 가장 기본적인 신경망인 (다층) 퍼셉트론은 입력층, 은닉층, 출력층으로 구성되어 있다. 여기서 딥러닝의 성능을 더 향상시키기 위해서는 은닉층을 계속 추가해야한다. 은닉층과 출력층은 현재 노드에서 다음 노드로 가중치를 곱한 합인 출력값을 넘기는데, 이 때 사용되는 것이 활성화 함수이다 . 활성화 함수에 따라 현재 노드에서 출력된 값이 다음 층의 노드로 넘어가느냐 마냐를 결정한다. 3. 여러 은닉층을 가진 신경망 딥러닝 모델의 성능 향상을 위해 여러 은닉층을 쌓는데, 이 때 이 은닉층이 선형 활성화 함수를 가질 경우 선형 함수는 아무리 많은 은닉층을 쌓아도, 그 결과가 하나의..
[REST API]
1. REST - REpresentational State of Transfer 소프트웨어의 아키텍쳐를 어떻게 형성할 지에 대한 가이드라인 6개의 가이드라인이 존재하는데, 이를 다 따르게 된다면 해당 소프트웨어 아키텍쳐를 RESTful하다고 한다. cf. REST 외에도 SOAP같은 다른 가이드라인이 존재한다. 이 중 보통 많이 사용하는 것이 REST! 2. API와 REST - RESTful API Web에서 활용하게 되는 API가 REST 가이드라인을 다 따른다면, 해당 API를 RESTful API 라고 할 수 있다. REST의 6개 가이드라인을 전부 따르지 않더라도, 어느정도 REST 제약(가이드라인)을 지킨다면 REST API라 불린다. API 간 원활한 이해, 활용 등을 위해 필요에 의해서 만..
[API]
1. API Application Programming Interface의 약자 다른 어플리케이션들 끼리 소통할 수 있는 규약 같은 것 'Web'에 국한되어 사용되지 않고 넓은 범위에서 사용되고 있다. Interface(인터페이스) : 다른 사람 혹은 장치와 연동하기 위해 사용하는 '규칙' 2. API와 HTTP '범위'의 개념에서 접근하기 API가 좀 더 넓은 개념 HTML, Hypertext를 주고받는 API가 바로 HTTP(API) HTTP (API) 뒤에는 API라는 단어가 생략되어 있음 추상화 레벨에서 해당 규칙이 대상으로 하는 범위의 개념으로 생각하기 추상화 레벨(아래로 내려갈수록 점점 한정된 범위) : 1) 최상위 인터페이스 (다른 사람 혹은 장치와..
[HTTP]
1. HTTP HyperText Transfer Protocol HyperText => HTML(Web) Protocol => 하나의 컴퓨터가 다른 컴퓨터와 소통할 때(파일을 주고 받는 등) 정해진 규칙과 틀을 준수해야 원활한 소통이 가능. 여기서 정해진 규칙이 바로 'Protocol' 즉 'Web'에서 HTML문서 데이터를 클라이언트와 서버가 주고 받을 때 사용되는 컴퓨터들 간의 통신 규칙 및 규약 HTTP Request(요청)과 HTTP Response(응답)으로 나뉘어져 있다. 2. HTTP Request client와 server client : 보통 요청을 하는 컴퓨터를 가리킨다. sever : 보통 요청을 받는 컴퓨터를 가리킨다. client에서 server에 요청..
[colab] google colab에서 자주 쓰는 method
로컬 파일 불러오기 컴퓨터에 저장된 파일을 colab으로 가져오고 싶을 때 from google.colab import files uploaded = files.upload() df.to_csv () : 데이터프레임을 csv 파일로 colab 내부에 저장 df.to_csv('file name.csv') df.to_csv('file name.csv', index=False) # df의 index 삭제하고 csv 파일로 저장 로컬에 파일 저장: 데이터프레임을 csv 파일로 colab 내부에 저장 colab 내부에 저장된 csv 파일을 나의 컴퓨터에 저장하고 싶을 때 files.download('file name.csv') Colab에서 python 패키지를 영구적(permanently)으로 설치 필요한 라이..