분류 전체보기

    태블로(Tableau) 기본 컨셉 - 측정값, 차원, 막대 차트

    👀 해당 내용은 강승일 선생님의 boostcourse의 데이터 시각화를 위한 태블로 강의를 공부하며 정리한 내용입니다. 해당 포스팅 부분 : Chapter1. 태블로 이해하기 / Ep3. 태블로 기본 컨셉 이해하기_1 측정값 (Measures) 아래 태블로 사이드바 그림에서 노란선 아래에 위치한 데이터 1. 기본적으로 숫자 형식 2. 액션(drag-drop 또는 double-click)을 통해 3. 설정된 집계에 따라 4. 하나의 차트를 만들게 된다. 차원 (Dimensions) 아래 태블로 사이드바 그림에서 노란선 위에 위치한 데이터 1. 그 숫자들로 만들어진 하나의 차트를 2. 어떻게 세부적으로 나눠서 볼 것인지를 결정한다. (나누는 기준) 태블로 실습 - 측정값과 차원 살펴보기 막대 차트 (Bar ..

    왜 은닉층에 비선형 활성화 함수를 사용해야할까? ( + 기울기 소실 문제)

    1. 선형함수가 무엇인가? y=x , y=ax , y=ax+b 와 같은 함수 출력이 입력의 상수배만큼 변하는 함수 2. 신경망의 구조 가장 기본적인 신경망인 (다층) 퍼셉트론은 입력층, 은닉층, 출력층으로 구성되어 있다. 여기서 딥러닝의 성능을 더 향상시키기 위해서는 은닉층을 계속 추가해야한다. 은닉층과 출력층은 현재 노드에서 다음 노드로 가중치를 곱한 합인 출력값을 넘기는데, 이 때 사용되는 것이 활성화 함수이다 . 활성화 함수에 따라 현재 노드에서 출력된 값이 다음 층의 노드로 넘어가느냐 마냐를 결정한다. 3. 여러 은닉층을 가진 신경망 딥러닝 모델의 성능 향상을 위해 여러 은닉층을 쌓는데, 이 때 이 은닉층이 선형 활성화 함수를 가질 경우 선형 함수는 아무리 많은 은닉층을 쌓아도, 그 결과가 하나의..

    [REST API]

    1. REST - REpresentational State of Transfer 소프트웨어의 아키텍쳐를 어떻게 형성할 지에 대한 가이드라인 6개의 가이드라인이 존재하는데, 이를 다 따르게 된다면 해당 소프트웨어 아키텍쳐를 RESTful하다고 한다. cf. REST 외에도 SOAP같은 다른 가이드라인이 존재한다. 이 중 보통 많이 사용하는 것이 REST! 2. API와 REST - RESTful API Web에서 활용하게 되는 API가 REST 가이드라인을 다 따른다면, 해당 API를 RESTful API 라고 할 수 있다. REST의 6개 가이드라인을 전부 따르지 않더라도, 어느정도 REST 제약(가이드라인)을 지킨다면 REST API라 불린다. API 간 원활한 이해, 활용 등을 위해 필요에 의해서 만..

    [API]

    1. API Application Programming Interface의 약자 다른 어플리케이션들 끼리 소통할 수 있는 규약 같은 것 'Web'에 국한되어 사용되지 않고 넓은 범위에서 사용되고 있다. Interface(인터페이스) : 다른 사람 혹은 장치와 연동하기 위해 사용하는 '규칙' 2. API와 HTTP '범위'의 개념에서 접근하기 API가 좀 더 넓은 개념 HTML, Hypertext를 주고받는 API가 바로 HTTP(API) HTTP (API) 뒤에는 API라는 단어가 생략되어 있음 추상화 레벨에서 해당 규칙이 대상으로 하는 범위의 개념으로 생각하기 추상화 레벨(아래로 내려갈수록 점점 한정된 범위) : 1) 최상위 인터페이스 (다른 사람 혹은 장치와..

    [HTTP]

    1. HTTP HyperText Transfer Protocol HyperText => HTML(Web) Protocol => 하나의 컴퓨터가 다른 컴퓨터와 소통할 때(파일을 주고 받는 등) 정해진 규칙과 틀을 준수해야 원활한 소통이 가능. 여기서 정해진 규칙이 바로 'Protocol' 즉 'Web'에서 HTML문서 데이터를 클라이언트와 서버가 주고 받을 때 사용되는 컴퓨터들 간의 통신 규칙 및 규약 HTTP Request(요청)과 HTTP Response(응답)으로 나뉘어져 있다. 2. HTTP Request client와 server client : 보통 요청을 하는 컴퓨터를 가리킨다. sever : 보통 요청을 받는 컴퓨터를 가리킨다. client에서 server에 요청..

    [colab] google colab에서 자주 쓰는 method

    로컬 파일 불러오기 컴퓨터에 저장된 파일을 colab으로 가져오고 싶을 때 from google.colab import files uploaded = files.upload() df.to_csv () : 데이터프레임을 csv 파일로 colab 내부에 저장 df.to_csv('file name.csv') df.to_csv('file name.csv', index=False) # df의 index 삭제하고 csv 파일로 저장 로컬에 파일 저장: 데이터프레임을 csv 파일로 colab 내부에 저장 colab 내부에 저장된 csv 파일을 나의 컴퓨터에 저장하고 싶을 때 files.download('file name.csv') Colab에서 python 패키지를 영구적(permanently)으로 설치 필요한 라이..

    [TIL] Cardinality / Encoding / Multicollinearity

    cardinality와 다중공선성의 관계에 대해 착각을 하고 있었다. 오늘 아주 대략적으로만 이해가 되었지만, 미래의 나를 위해 자세하진 않더라도 생각의 흐름을 간략하게 적어둔다. Cardinality : 전체 행에 대한 특정 컬럼의 중복 수치를 나타내는 지표이다. 하나의 feature 안에 있는 범주형 값들 간 중복도가 낮으면 > cardinality가 높다. 반대로, 하나의 feature 안에 있는 범주형 값들 간 중복도가 높으면 > cardinality가 낮다. Ex) column 'A' 은 0과 1로 이루어진 범주형 데이터이다. 컬럼 'A' 내 0과 1의 비율이 50대 50이다 > high cardinality 0이 80%, 1은 20% 의 비율을 차지한다 > "상대적으로" low cardinal..

    [Data] 결측치 처리 방식

    1. 결측치 접근 방식 1) 미가공 데이터(raw data) > 바로 결측치 처리 2) 미가공 데이터 > 필요한 feature만 따로 뽑기 > 그 후 결측치 처리 2. 결측치 처리 방식 : 데이터에 대한 이해( + 해당 데이터의 도메인에 대한 이해) & 데이터의 분포 확인 & 작업의 목적( 구하고자 하는 바가 무엇인가) 고려하여 결측치 처리 방식을 선택해야한다. 1) drop (삭제) - 결측치가 적은 경우 - 결측치가 있는 행 또는 열을 삭제해도 전체 데이터에 영향을 크게 안 미칠 것 같은 경우 - BUT 결측치가 들어있는 데이터(행/열)을 아예 삭제하는 것이므로, 전체 데이터에 영향 끼칠 수 있어 위험 - 따라서 drop할 땐 신중하게 선택 - dropna DataFrame.dropna(axis=0,..