파생변수란 기존의 데이터로부터 새로운 변수를 생성하는 것이다. 기존 데이터의 정보를 보다 유용하거나 분석하기 쉬운 형태로 변환하기 위하여 파생변수를 생성한다.
파생변수를 사용하는 이유는 다음과 같다.
예를 들어 키와 몸무게가 수집된 데이터셋에서 몸무게(kg)를 키(m)의 제곱으로 나누어 bmi 지수라는 새로운 파생변수를 생성할 수 있다. 이를 통해 비만 정도를 나타낼 수 있는 새로운 정보를 얻은 것이다.
데이터 프레임을 다루면서 파생변수는 loc
, iloc
를 통해 접근하여 applly(),assign()
함수등을 활용하여 생성할 수 있다.
다음과 같은 판매일, 구매고객의 나이, 구매량을 수집한 데이터셋을 통해 파생변수를 만들어보자.
# 예시 데이터셋
data = {
'sales_date': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04'],
'customer_age': [25, 45, 35, 50],
'purchase_amount': [75, 150, 100, 200]
}
df = pd.DataFrame(data)
# sales_date를 날짜 형식으로 변환
df['sales_date'] = pd.to_datetime(df['sales_date'])
sales_date
를 통해 요일을 생성할 수 있고, customer_age
를 통해 고객의 나이를 구간화하거나 purchase_amount
를 활용하여 많은 양의 물품을 구매한 고객을 나눠볼 수 있을 것이다.