사이킷런이란?
- 파이썬 프로그래밍 언어를 위한 머신러닝 라이브러리 입니다.
- 오픈 소스 프로젝트로, 많은 개발자와 데이터 과학자들에의해 널리 사용되고 있습니다.
- 다양한 머신러닝 알고리즘과 도구들을 제공하여 데이터 분석, 데이터 전처리, 모델 훈련 및 평가를 쉽게 하도록 도와줍니다.
사이킷런의 특징
- 광범위한 알고리즘 지원:
- 분류 ( Classification) = 로지스틱 회귀, 서포트 벡터 머신, 결정트리, 랜덤 포레스트 등
- 회귀 ( Regression ) = 선형 회귀, 리지 회귀, 라쏘 회귀
- 클러스터링 ( Clustering ) = K-평균, 계층적 클러스터링, DBSCAN 등
- 차우너 축소 ( Dimensionality Reduction) = PCA, LDA 등
- 데이터 전처리:
- 스케일링 (Scaling ) = 데이터 정규화, 표준화 등
- 인코딩 ( Encoding) = 범주화 데이터의 레이블 인코딩, 원-핫 인코딩 등
- 결측값 처리 ( Imputation ) = 결측값 대체 등
- 모델 평가 및 선택 :
- 교차 검증 ( Cross-validation ) = 모델의 성능을 평가하기 위한 다양한 방법 제공
- 하이퍼파라미터 튜닝 ( Hyperparameter Tuning ) = GridSearchCV, RandomizedSearchCV 등
- 사용하기 쉬운 API :
- 일관된 API 설계로, 다양한 모델을 쉽게 교체하고 비교할 수 있음
- 풍부한 문서와 예쩨로 학습 곡선을 줄일 수 있음
머신러닝을 위한 용어 정리!
Feature (X)
- Feature는 데이터 세트의 일반 속성 ( 컬럼 )
- 머신러닝은 2차원 이상의 다차원 데이터에서도 많이 사용되므로 타겟값을 제외한 나머지 속성을 모두 Feature로 지칭
( 그냥 테이블을 생각했을때 target컬럼을 제외한 나머지 컬럼을 feature라고 생각하면 된다.)
Label, Class, Target ( y )
- 모델이 예측하고자 하는 출력 변수
- X 데이터에 따라서 나오는 모델의 예측값
Train Data (학습 데이터)
- 모델을 학습시키기 위해 사용되는 데이터
- 보통 전체 데이터의 80%를 학습 데이터로 사용합니다.
Test Data ( 테스트 데이터 )
- 학습된 모델을 평가하기 위해 사용되는 데이터
- 전체 데이터의 20%를 테스트 데이터로 사용합니다.
- Train데이터를 학습시키고 나온 target값과 비교합니다.
'한국경제신문(toss bank)' 카테고리의 다른 글
데이터 세트 분리, 모델 학습(fit), 예측 수행(predict), 평가(evaluate) (0) | 2024.07.31 |
---|---|
머신러닝 모델링 프로세스 iris dataset 활용 (0) | 2024.07.31 |
머신러닝의 유형 및 단점 (0) | 2024.07.29 |
머신러닝의 개념 Machine Learning (0) | 2024.07.29 |
MySQL 정규 표현식 Regular Expression (0) | 2024.07.09 |