군집화란?
데이터 분석에서 비지도 학습 기법중 하나로, 주어진 데이터셋을 유사한 특성을 가진
그룹으로 나누는 방법을 말합니다.
군집화의 목적 = 데이터의 구조를 파악, 비슷한 데이터 포인트들을 같은 그룹에 묶어 새로운 통찰을 얻음.
K-Means란 비지도 학습에서 사용되는 군집화 알고리즘으로,
주어진 데이터를 K개의 클러스터(cluster)로 나누는 방법이다.
K-Means 군집에서는 클러스터의 개수를 미리 알고 있는것이 좋다.
이 알고리즘은 각 군집의 중심(센트로이드)을 반복적으로 계산하여 데이터 포인트를 가장 가까운 군집으로 할당합니다.
cluster란?
비지도 학습에서 데이터 포인트들이 유사한 특성을 가진 그룹으로 나누어진 것이다.
클러스터링은 데이터를 사전 레이블 없이 그룹화하는 작업입니다.
예를 들어, 고객 세분화에서 고객을 유사한 구매 행동을 보이는 그룹으로 나누는 것입니다
KMeans 군비의 속성(Propeorty) 확인
훈련이 끝난 KMeans 군집 객체에서는 클러스터를 확인할수 있다.
- labels_ : 훈련된 (fit) 데이터에 대한 군집 레이블을 확인
- 지도학습에서 사용하는 label과는 다릅니다
- 랜덤하게 label이 부여된다. 따라서 사람이 해석 해도된다.
각 데이터 포인트의 군집상의 좌표 보이기
irisDF 는 iris.data에서 컬럼들을 dataframe으로 만든것.
PCA란?
고차원 데이터를 저차원으로 변환하여 데이터의 구조를 단순화한다.
( 4차원 --> 2차원)
centroid --> 군집의 중앙
centers_ : n번째 군집의 center 좌표
'한국경제신문(toss bank)' 카테고리의 다른 글
Text Vectorization ( 데이터 -> 수치변환) (0) | 2024.09.04 |
---|---|
데이터 전처리 ( Preprocessing ) (0) | 2024.08.01 |
데이터 세트 훈련 교차 검증 (KFold, Stratified, cross_val_score,GridSearchCV) (0) | 2024.08.01 |
데이터 세트 분리, 모델 학습(fit), 예측 수행(predict), 평가(evaluate) (0) | 2024.07.31 |
머신러닝 모델링 프로세스 iris dataset 활용 (0) | 2024.07.31 |