본문 바로가기

Programming/Etc

[Pandas] groupby 사용법 이해하기

728x90
반응형

Pandas에서 groupby는 데이터를 이해하고 분석할 때 굉장히 편리하고 좋은 도구입니다!

굉장히 많이 쓰이는 기능임에도 의외로 사용법이 쉽게 이해가 되지는 않습니다.

 

최근 부스트캠프에서 groupby를 굉장히 이해하기 쉽게 설명해주신 것이 있어 정리 및 공유해보려고 합니다!

 

 

우선 groupby의 가장 기본적인 사용법은 다음과 같습니다.

 

(데이터프레임).groupby(분리할KEY).agg({합치고싶은특성: 어떻게합칠지, ...})

 

예를 들어보자면,

만약 어떤 고객이 어떤 물건을 구매했는지에 대한 구매이력 데이터프레임이 우리에게 있다고 가정해봅시다.

여기서 각 고객 별로 몇 개의 물건을 구매했는지 살펴보고 싶다면,

 

df.groupby("userID").agg({"buy": "count"})

 

이렇게 되는 것이죠!

즉, userID로 묶어볼거야!

그런데 이때 userID 별 값을 다 가져오고 그 중에 buy라는 속성에 대해 세어볼거야! 라고 생각하면 이해하기 쉬울 것 같습니다!

count외에도 pandas에서 제공하는 여러 집계 함수를 사용해볼 수 있습니다.

예를 들면, sum, mean 등이 있겠죠?

 

그 외에도 groupby에는 정말 다양한 기능을 제공하고 있으니 꼭 한 번 공식문서를 살펴보시기를 권장합니다!

 

 

 

pandas.DataFrame.groupby — pandas 1.4.2 documentation

Used to determine the groups for the groupby. If by is a function, it’s called on each value of the object’s index. If a dict or Series is passed, the Series or dict VALUES will be used to determine the groups (the Series’ values are first aligned; s

pandas.pydata.org

 

728x90
반응형