728x90
반응형
Pandas에서 groupby는 데이터를 이해하고 분석할 때 굉장히 편리하고 좋은 도구입니다!
굉장히 많이 쓰이는 기능임에도 의외로 사용법이 쉽게 이해가 되지는 않습니다.
최근 부스트캠프에서 groupby를 굉장히 이해하기 쉽게 설명해주신 것이 있어 정리 및 공유해보려고 합니다!
우선 groupby의 가장 기본적인 사용법은 다음과 같습니다.
(데이터프레임).groupby(분리할KEY).agg({합치고싶은특성: 어떻게합칠지, ...})
예를 들어보자면,
만약 어떤 고객이 어떤 물건을 구매했는지에 대한 구매이력 데이터프레임이 우리에게 있다고 가정해봅시다.
여기서 각 고객 별로 몇 개의 물건을 구매했는지 살펴보고 싶다면,
df.groupby("userID").agg({"buy": "count"})
이렇게 되는 것이죠!
즉, userID로 묶어볼거야!
그런데 이때 userID 별 값을 다 가져오고 그 중에 buy라는 속성에 대해 세어볼거야! 라고 생각하면 이해하기 쉬울 것 같습니다!
count외에도 pandas에서 제공하는 여러 집계 함수를 사용해볼 수 있습니다.
예를 들면, sum, mean 등이 있겠죠?
그 외에도 groupby에는 정말 다양한 기능을 제공하고 있으니 꼭 한 번 공식문서를 살펴보시기를 권장합니다!
728x90
반응형