K-means Clustering in Machine Learning
K-means clustering은 주어진 데이터셋을 k개로 군집화하는 알고리즘입니다. k-means라는 이름은 반복되는 군집화 과정에서 각 군집이 자신이 가지고 있는 샘플들의 평균(mean)에서 가장 가까운 유클리드거리에 위치한 외부의 샘플을 군집에 편입하기 때문이다. 이때 모든 변수를 나타낸 다차원 공간에서 각 군집의 평균을 나타내는 지점을 해당 군집의 centeroid라고 한다.
Feature Rescaling의 필요성
모든 변수들을 나타낸 다차원 공간에서 각 변수들은 그들의 상대적인 크기 차이때문에 유클리드 거리를 구하는데 있어서 서로다른 가중치를 부여받게 됩니다. 따라서 변수에 따른 가중치 부여가 없는 올바른 군집화를 수행하기 위해 서로 크기 차이가 나는 변수들의 rescaling이 필요합니다.
댓글
댓글 쓰기