전체 글

자신의 속도로 꾸준히

    [TIL] Cardinality / Encoding / Multicollinearity

    cardinality와 다중공선성의 관계에 대해 착각을 하고 있었다. 오늘 아주 대략적으로만 이해가 되었지만, 미래의 나를 위해 자세하진 않더라도 생각의 흐름을 간략하게 적어둔다. Cardinality : 전체 행에 대한 특정 컬럼의 중복 수치를 나타내는 지표이다. 하나의 feature 안에 있는 범주형 값들 간 중복도가 낮으면 > cardinality가 높다. 반대로, 하나의 feature 안에 있는 범주형 값들 간 중복도가 높으면 > cardinality가 낮다. Ex) column 'A' 은 0과 1로 이루어진 범주형 데이터이다. 컬럼 'A' 내 0과 1의 비율이 50대 50이다 > high cardinality 0이 80%, 1은 20% 의 비율을 차지한다 > "상대적으로" low cardinal..

    [Data] 결측치 처리 방식

    1. 결측치 접근 방식 1) 미가공 데이터(raw data) > 바로 결측치 처리 2) 미가공 데이터 > 필요한 feature만 따로 뽑기 > 그 후 결측치 처리 2. 결측치 처리 방식 : 데이터에 대한 이해( + 해당 데이터의 도메인에 대한 이해) & 데이터의 분포 확인 & 작업의 목적( 구하고자 하는 바가 무엇인가) 고려하여 결측치 처리 방식을 선택해야한다. 1) drop (삭제) - 결측치가 적은 경우 - 결측치가 있는 행 또는 열을 삭제해도 전체 데이터에 영향을 크게 안 미칠 것 같은 경우 - BUT 결측치가 들어있는 데이터(행/열)을 아예 삭제하는 것이므로, 전체 데이터에 영향 끼칠 수 있어 위험 - 따라서 drop할 땐 신중하게 선택 - dropna DataFrame.dropna(axis=0,..