한국경제신문(toss bank)

머신러닝 사이킷런 ( sklearn )

다시초심으로 2024. 7. 30. 15:21

사이킷런이란?

  • 파이썬 프로그래밍 언어를 위한 머신러닝 라이브러리 입니다.
  • 오픈 소스 프로젝트로, 많은 개발자와 데이터 과학자들에의해 널리 사용되고 있습니다.
  • 다양한 머신러닝 알고리즘과 도구들을 제공하여 데이터 분석, 데이터 전처리, 모델 훈련 및 평가를 쉽게 하도록 도와줍니다.

사이킷런의 특징

  1. 광범위한 알고리즘 지원:
    • 분류 ( Classification) = 로지스틱 회귀, 서포트 벡터 머신, 결정트리, 랜덤 포레스트 등
    • 회귀 ( Regression ) = 선형 회귀, 리지 회귀, 라쏘 회귀
    • 클러스터링 ( Clustering ) = K-평균, 계층적 클러스터링, DBSCAN 등
    • 차우너 축소 ( Dimensionality Reduction) = PCA, LDA 등
  2. 데이터 전처리:
    • 스케일링 (Scaling ) = 데이터 정규화, 표준화 등
    • 인코딩 ( Encoding) = 범주화 데이터의 레이블 인코딩, 원-핫 인코딩 등
    • 결측값 처리 ( Imputation ) = 결측값 대체 등
  3. 모델 평가 및 선택 :
    • 교차 검증 ( Cross-validation ) = 모델의 성능을 평가하기 위한 다양한 방법 제공
    • 하이퍼파라미터 튜닝 ( Hyperparameter Tuning ) = GridSearchCV, RandomizedSearchCV 등
  4. 사용하기 쉬운 API :
    • 일관된 API 설계로, 다양한 모델을 쉽게 교체하고 비교할 수 있음
    • 풍부한 문서와 예쩨로 학습 곡선을 줄일 수 있음

머신러닝을 위한 용어 정리!

Feature (X) 

  • Feature는 데이터 세트의 일반 속성 ( 컬럼 )
  • 머신러닝은 2차원 이상의 다차원 데이터에서도 많이 사용되므로 타겟값을 제외한 나머지 속성을 모두 Feature로 지칭
    ( 그냥 테이블을 생각했을때 target컬럼을 제외한 나머지 컬럼을 feature라고 생각하면 된다.)

Label, Class, Target ( y ) 

  • 모델이 예측하고자 하는 출력 변수
  • X 데이터에 따라서 나오는 모델의 예측값

 

Train Data (학습 데이터)

  • 모델을 학습시키기 위해 사용되는 데이터
  • 보통 전체 데이터의 80%를 학습 데이터로 사용합니다.

Test Data ( 테스트 데이터 )

  • 학습된 모델을 평가하기 위해 사용되는 데이터
  • 전체 데이터의 20%를 테스트 데이터로 사용합니다.
  • Train데이터를 학습시키고 나온 target값과 비교합니다.

 

iris데이터의 feature의 이름과 data들 그리고 target을 추가