[Pandas] groupby 사용법 이해하기

728x90

Pandas에서 groupby는 데이터를 이해하고 분석할 때 굉장히 편리하고 좋은 도구입니다!

굉장히 많이 쓰이는 기능임에도 의외로 사용법이 쉽게 이해가 되지는 않습니다.

최근 부스트캠프에서 groupby를 굉장히 이해하기 쉽게 설명해주신 것이 있어 정리 및 공유해보려고 합니다!

우선 groupby의 가장 기본적인 사용법은 다음과 같습니다.

(데이터프레임).groupby(분리할KEY).agg({합치고싶은특성: 어떻게합칠지, ...})

예를 들어보자면,

만약 어떤 고객이 어떤 물건을 구매했는지에 대한 구매이력 데이터프레임이 우리에게 있다고 가정해봅시다.

여기서 각 고객 별로 몇 개의 물건을 구매했는지 살펴보고 싶다면,

df.groupby("userID").agg({"buy": "count"})

이렇게 되는 것이죠!

즉, userID로 묶어볼거야!

그런데 이때 userID 별 값을 다 가져오고 그 중에 buy라는 속성에 대해 세어볼거야! 라고 생각하면 이해하기 쉬울 것 같습니다!

count외에도 pandas에서 제공하는 여러 집계 함수를 사용해볼 수 있습니다.

예를 들면, sum, mean 등이 있겠죠?

그 외에도 groupby에는 정말 다양한 기능을 제공하고 있으니 꼭 한 번 공식문서를 살펴보시기를 권장합니다!

pandas.DataFrame.groupby — pandas 1.4.2 documentation

Used to determine the groups for the groupby. If by is a function, it’s called on each value of the object’s index. If a dict or Series is passed, the Series or dict VALUES will be used to determine the groups (the Series’ values are first aligned; s

pandas.pydata.org

728x90

저작자표시 (새창열림)

'Programming > Etc' 카테고리의 다른 글

[Pandas] shift란? (0)	2022.04.27
예상치 못한 (또는 이유를 모르는) GPU 에러 정리 참고 사이트 (0)	2022.01.26
[Tensorboard] tensorboard를 찾지 못하는 경우 / 서버 원격 접속 시 tensorboard 사용 못하는 경우 (ERROR: Could not find `tensorboard`. Please ensure that your PATH contains an executable `tensorboard` program) (0)	2022.01.26
[Git] Git Repository 일부(하위) 폴더만 clone하기 (예제 포함) (0)	2021.12.23

자윰이의 성장일기

[Pandas] groupby 사용법 이해하기

'Programming > Etc' 카테고리의 다른 글

티스토리툴바

[Pandas] groupby 사용법 이해하기

'Programming > Etc' 카테고리의 다른 글

'Programming/Etc' Related Articles

티스토리툴바