데이터 변형은 적재한 데이터가 분석에 용이한 형태로 자료형이나 구조를 바꾸는 방법이다. wide format을 long format으로 변형하거나 범주형 변수를 원핫 인코딩을 통해 수치형 변수로 바꾸는 등이 이에 해당한다.
실습 코드는 Palmer Penguins 데이터셋을 이용한다.
import pandas as pdfrom palmerpenguins import load_penguinsdf = load_penguins()df.head()
species
island
bill_length_mm
bill_depth_mm
flipper_length_mm
body_mass_g
sex
year
0
Adelie
Torgersen
39.1
18.7
181.0
3750.0
male
2007
1
Adelie
Torgersen
39.5
17.4
186.0
3800.0
female
2007
2
Adelie
Torgersen
40.3
18.0
195.0
3250.0
female
2007
3
Adelie
Torgersen
NaN
NaN
NaN
NaN
NaN
2007
4
Adelie
Torgersen
36.7
19.3
193.0
3450.0
female
2007
자료형 처리
df.dtypes
species object
island object
bill_length_mm float64
bill_depth_mm float64
flipper_length_mm float64
body_mass_g float64
sex object
year int64
dtype: object
species, island, sex는 문자열 자료형인 object로 적재되었다. 이 자료형을 범주 자료형으로 변환한다.
species category
island category
bill_length_mm float64
bill_depth_mm float64
flipper_length_mm float64
body_mass_g float64
sex category
year int64
dtype: object
astype() 함수는 넘파이 배열이나 판단스 데이터프레임에 있는 컬럼 요소의 자료형을 변환하는 함수이다.