안녕하세요,
재재입니다.

이번 포스팅에서는,
머신러닝 및 데이터 분석의 데이터의 전처리에 사용 되는,
데이터 결측치 처리방법에 대해 설명 드릴게요.

(1) 데이터 결측치 처리방법 (Data Imputation)

1. Mean & Median Imputation

결측치를 해당 변수의 평균 또는 중앙값으로 대체하는 방법입니다.

가장 간단하고 빠르게 적용할 수 있는 방법이나,
데이터의 분산이 줄어들 수 있고 실제 데이터의 분포를 왜곡할 수 있기 때문에
권장되지는 않습니다.

2. Hot Deck Method

결측치가 있는 관측치와 유사한 다른 관측치의 값을 사용해서 결측치를 대체합니다.
유사한 관측치는 예를 들면 유클리드 거리 (Euclidean Distance) 등 으로 결정됩니다.

3. Regression Method

결측치가 있는 변수를 종속변수로 다른 변수들을 독립변수로 사용하여,
회귀 모델을 구축하고 이를 통해 결측치를 예측하고 대체합니다.

선형성 등과 같은 모델의 가정이 만족되지 않으면,
대체한 값이 의미없는 값일 가능성이 있습니다.

4. EM Algorithm

Expectation-Maximization Algorithm 으로 알려져 있으며,
결측치가 있는 데이터에 대해 최대우도 추정방법을 사용하여 파라미터를 추정합니다.
기대값 (E-step)과 최대화 (M-step) 두 단계를 반복하여 결측치를 대체 할 수 있습니다.

5. Multiple Imputation

여러 번의 대체를 통해 여러 개의 완전한 데이터 세트를 생성합니다.
각 데이터 세트에서 분석을 수행한 후, 결과를 통합한 다음 최종 결과를 얻습니다.
비교적 안전한 형태의 대체 방식입니다.

6. Interpolation

결측치의 앞뒤 데이터를 사용하여 그 값을 추정하는 방법입니다.
주로 시계열 데이터와 같이 순서나 연속성이 있는 데이터에 사용되는 방식입니다.

(2) 결론

각 방법은 그 특성과 장단점이 있으므로,
데이터의 특성과 결측치가 발생되는 원인을 분석한 이후
적절한 방법을 선택하는게 중요합니다.

추후, IPython 을 활용한 실습도 다룰예정입니다.

ML 데이터 결측치 처리방법
태그:                             

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다