python 변수의 종류
==> 변수의 종류는 크게 범주형 변수와 수치형 변수로 구분
- 각 변수의 종류에 따라 분석하는 방법도 다릅니다.
Count 데이터들의 표
apply 함수란?
pandas의 apply 함수는 DataFrame이나 Series에 대해서 특정 함수를 일괄적으로 적용할수 있게 해주는 메소드입니다.
이 함수는 데이터 전처리, 변환, 계산 등의 작업을 간단하게 수행할 수 있도록 해줍니다.
적용 대상 ==>
1. DataFrame 과 Series 모두 사용가능
2. 각 행(row)이나 열(column)에 대해 함수 적용 가능
축(axis) 지정 ==>
1. axis = 0 : 각 열(column)에 함수를 적용 (기본값)
2. axis = 1 : 각 행(row)에 함수를 적용
lambda 함수
Python에서 익명 함수를 만들기 위한 문법입니다.
한줄로 간단하게 작성되며, 이름이 없는 함수로도 불립니다.
import pandas as pd
df = pd.DataFrame({
'A': [1,2,3]
'B': [10,20,30]
})
df = df.apply(lambda x: x+2)
print(df)
출력:
A B
0 3 12
1 4 22
2 5 32
새로운 열을 추가하면서 연산
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [10, 20, 30]
})
df['Sum'] = df.apply(lambda row: row['A'] + row['B'], axis=1)
# axis = 1 이므로 각 열에 대해서 적용합니다.
출력:
A B Sum
0 1 10 11
1 2 20 22
2 3 30 33
apply()와 lambda를 함께 사용
예를들어, train이라는 데이터셋에 Age라는 컬럼이 있을때,
Age_Group이라는 컬럼을 새로운 열을 추가 하려고합니다.
Young, Middle-Aged, Senior로 ( 30이하 Young, 50이하 Middle_Aged, 그 외는 Senior) 분류합니다.
train['Age_Group'] = train['Age'].apply(lambda x: 'Young' if x <= 30 else ('Middle-Aged' if x <= 50 else 'Senior'))
train.head()
groupby
데이터셋.groupby(컬럼명).집계함수 + 해당 컬럼은 범주 형태 (범주란? -> 성별, 지역, 혈액형 etc)
흡연자들과 비흡연자들중 평균적으로 누가 팁을 많이 내는지 출력
tips.groupby('smoker',observed = True)['tip'].mean()
#tips라는 데이터셋을 smoker라는 컬럼으로 묶어서 tip의 mean(평균)을 구합니다
'한국경제신문(toss bank)' 카테고리의 다른 글
통계 (0) | 2024.07.05 |
---|---|
pandas, matplotlib 데이터 시각화 (0) | 2024.07.04 |
Numpy, Pandas, Series : DataFrame, iloc : loc (0) | 2024.07.01 |
Docstring (함수 문서화) (0) | 2024.06.28 |
Python while(반복문) 함수(def) (0) | 2024.06.28 |