머신러닝 사이킷런 ( sklearn )

한국경제신문(toss bank)

다시초심으로 2024. 7. 30. 15:21

광범위한 알고리즘 지원:
- 분류 ( Classification) = 로지스틱 회귀, 서포트 벡터 머신, 결정트리, 랜덤 포레스트 등
- 회귀 ( Regression ) = 선형 회귀, 리지 회귀, 라쏘 회귀
- 클러스터링 ( Clustering ) = K-평균, 계층적 클러스터링, DBSCAN 등
- 차우너 축소 ( Dimensionality Reduction) = PCA, LDA 등
데이터 전처리:
- 스케일링 (Scaling ) = 데이터 정규화, 표준화 등
- 인코딩 ( Encoding) = 범주화 데이터의 레이블 인코딩, 원-핫 인코딩 등
- 결측값 처리 ( Imputation ) = 결측값 대체 등
모델 평가 및 선택 :
- 교차 검증 ( Cross-validation ) = 모델의 성능을 평가하기 위한 다양한 방법 제공
- 하이퍼파라미터 튜닝 ( Hyperparameter Tuning ) = GridSearchCV, RandomizedSearchCV 등
사용하기 쉬운 API :
- 일관된 API 설계로, 다양한 모델을 쉽게 교체하고 비교할 수 있음
- 풍부한 문서와 예쩨로 학습 곡선을 줄일 수 있음

Feature는 데이터 세트의 일반 속성 ( 컬럼 )
머신러닝은 2차원 이상의 다차원 데이터에서도 많이 사용되므로 타겟값을 제외한 나머지 속성을 모두 Feature로 지칭
( 그냥 테이블을 생각했을때 target컬럼을 제외한 나머지 컬럼을 feature라고 생각하면 된다.)

Label, Class, Target ( y )

Train Data (학습 데이터)

Test Data ( 테스트 데이터 )

데이터 세트 분리, 모델 학습(fit), 예측 수행(predict), 평가(evaluate) (0)	2024.07.31
머신러닝 모델링 프로세스 iris dataset 활용 (0)	2024.07.31
머신러닝의 유형 및 단점 (0)	2024.07.29
머신러닝의 개념 Machine Learning (0)	2024.07.29
MySQL 정규 표현식 Regular Expression (0)	2024.07.09

1년차 블로그

1년차 블로그