한국경제신문(toss bank)

2024-07-03

다시초심으로 2024. 7. 3. 11:13

python 변수의 종류

==> 변수의 종류는 크게 범주형 변수와 수치형 변수로 구분
        - 각 변수의 종류에 따라 분석하는 방법도 다릅니다.

 

Count 데이터들의 표

apply 함수란?

pandas의 apply 함수는 DataFrame이나 Series에 대해서 특정 함수를 일괄적으로 적용할수 있게 해주는 메소드입니다.
이 함수는 데이터 전처리, 변환, 계산 등의 작업을 간단하게 수행할 수 있도록 해줍니다.

적용 대상 ==>
1. DataFrame 과 Series 모두 사용가능
2. 각 행(row)이나 열(column)에 대해 함수 적용 가능

축(axis) 지정 ==>
1. axis = 0 : 각 열(column)에 함수를 적용 (기본값)
2. axis = 1 : 각 행(row)에 함수를 적용

 

lambda 함수

Python에서 익명 함수를 만들기 위한 문법입니다.
한줄로 간단하게 작성되며, 이름이 없는 함수로도 불립니다.

import pandas as pd

df = pd.DataFrame({
		'A': [1,2,3]
        'B': [10,20,30]
})

df = df.apply(lambda x: x+2)
print(df)

출력:

    A    B
0   3   12
1   4   22
2   5   32

새로운 열을 추가하면서 연산

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [10, 20, 30]
})


df['Sum'] = df.apply(lambda row: row['A'] + row['B'], axis=1)

# axis = 1 이므로 각 열에 대해서 적용합니다.

출력:

   A   B  Sum
0  1  10   11
1  2  20   22
2  3  30   33

 

apply()와 lambda를 함께 사용

예를들어, train이라는 데이터셋에 Age라는 컬럼이 있을때,
Age_Group이라는 컬럼을 새로운 열을 추가 하려고합니다.
Young, Middle-Aged, Senior로  ( 30이하 Young, 50이하 Middle_Aged, 그 외는 Senior) 분류합니다.

train['Age_Group'] = train['Age'].apply(lambda x: 'Young' if x <= 30 else ('Middle-Aged' if x <= 50 else 'Senior'))
train.head()

groupby

데이터셋.groupby(컬럼명).집계함수 + 해당 컬럼은 범주 형태 (범주란? -> 성별, 지역, 혈액형 etc)

이러한 데이터가 있습니다.

흡연자들과 비흡연자들중 평균적으로 누가 팁을 많이 내는지 출력

tips.groupby('smoker',observed = True)['tip'].mean()

#tips라는 데이터셋을 smoker라는 컬럼으로 묶어서 tip의 mean(평균)을 구합니다

 

 

'한국경제신문(toss bank)' 카테고리의 다른 글

통계  (0) 2024.07.05
pandas, matplotlib 데이터 시각화  (0) 2024.07.04
Numpy, Pandas, Series : DataFrame, iloc : loc  (0) 2024.07.01
Docstring (함수 문서화)  (0) 2024.06.28
Python while(반복문) 함수(def)  (0) 2024.06.28