본문 바로가기

DL & ML/Recommender System

추천시스템을 위한 데이터셋

728x90
반응형

추천 시스템 연구용으로 사용하기 좋은 데이터셋 또는 추천 논문에서 주로 사용이 되는 데이터셋에 대해 소개하겠습니다.

자신의 목적에 맞는 추천 데이터셋을 찾아서 활용하면 좋을 것 같아 정리할겸 간략하게 설명해봅니다.

기초부터 시작해서 꾸준히 업데이트해가도록 하겠습니다.

저도 전부 사용해본 것이 아니기 때문에 잘못된 정보, 또는 다른 좋은 데이터셋이 있다면 댓글로 알려주세요!

 

<연구용 데이터셋>

1. MovieLens

추천 시스템 하면 가장 대표적으로 생각나는 데이터셋은 개인적으로 무비렌즈인 것 같습니다.

무비렌즈의 장점은 비교적 많은 예제 자료를 찾을 수 있다는 점, 그리고 다양한 사이즈의 데이터셋을 제공해준다는 점입니다.

데이터셋의 구성은 크게 1) 유저, 2) 아이템(영화), 3) rating(1~5)로 이루어져있습니다.

 

* 데이터셋 내부 구성은 사이즈 별로 약간의 차이가 있으니 대략적으로만 참고해주시고 ReadMe 파일을 읽어보시길 권장합니다.

1) 유저

UserID, Gender, Age, Occupation, Zip-code

2) 아이템(영화)

MovieID, Title, (Year), Genres(19가지)

3) 평점

UserID, MovieID, Rating(1~5), TimeStam

 

MovieLens

GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. …

grouplens.org

 

2. Yahoo Music

Yahoo Music은 아이템(음악)에 대한 트랙, 앨범, 아티스트, 장르 등의 정보를 제공하고, user와 item의 rating 정보를 제공하는 데이터셋입니다.

Yahoo Labs 공식 사이트에서 사용 목적에 대한 승인을 받아야 다운로드가 가능한 것으로 보입니다.

현재 신청을 해둔 상태니 승인이 나서 데이터셋을 받게 되면 조금 더 상세하게 추가 정리하도록 하겠습니다.

 

Webscope | Yahoo Labs

Outreach > Datasets > Competition Data C15 - Yahoo! Music user ratings of musical tracks, albums, artists and genres, v 1.0 (1.5 Gbyte) Yahoo! Music offers a wealth of information and services related to many aspects of music. This dataset represents a sna

webscope.sandbox.yahoo.com

 

3. Yelp

Yelp는 레스토랑에 대한 리뷰를 제공하는 데이터셋입니다.

Json 형태로 데이터를 제공하므로 csv로 변환 과정을 거쳐야합니다.

아래 Github에서 Yelp 데이터셋을 다루는 예제 또는 csv 변환 코드가 있으니 참고하시면 되겠습니다. 

 

GitHub - Yelp/dataset-examples: Samples for users of the Yelp Academic Dataset

Samples for users of the Yelp Academic Dataset. Contribute to Yelp/dataset-examples development by creating an account on GitHub.

github.com

데이터셋 구성은 다음과 같습니다.

 

1) Business.json - 레스토랑의 위치, 카테고리 및 등급 등 레스토랑 데이터
2) Review.json - 사용자가 작성한 특정 기업 평가에 대한 리뷰 데이터
3) User.json - 사용자 이름, 리뷰 수 등의 사용자 정보 데이터
4) Checkin.json - 업무 시간 및 해당 시간에 들어오는 인원 수 데이터
5) Tip.json - 짧은 리뷰 데이터
6) Photos.json - 사진, 업체 ID, 사진의 캡션 및 해당 카테고리 데이터

 

* 다운로드 링크

 

Yelp Dataset

Download Yelp Dataset Please fill out your information to download the dataset. We do not store this data nor will we use this data to email you, we need it to ensure you've read and have agreed to the Dataset License.

www.yelp.com

* 데이터셋 상세 설명

 

Yelp Dataset

Yelp Dataset JSON Each file is composed of a single object type, one JSON-object per-line. Take a look at some examples to get you started: https://github.com/Yelp/dataset-examples. Note: the follow examples contain inline comments, which are technically n

www.yelp.com

 

4. MIND : Microsoft News Dataset

MIND는 뉴스 추천 연구를 위한 데이터셋으로 마이크로소프트 뉴스 웹 사이트 로그를 수집한 데이터 입니다.

데이터셋은 기사(제목, 요약, 내용, 카테고리 등의 풍부한 텍스트 정보, 사용자의 클릭 여부 등으로 구성되어있습니다.

또한 대용량과 작은 사이즈의 데이터셋이 나누어져있으니 필요에 따라 사용하시면 될 것 같습니다.

 

MIND

About MIND

msnews.github.io

 

5. Book-Crossing

Book-Crossing 데이터셋은 책정보(제목, 작가 연도 등), 평점, 유저 정보(유저 id, age)로 구성된 책 추천 데이터셋입니다.

kaggle에서 쉽게 다운로드가 가능합니다.

 

Book-Crossing Dataset

 

www.kaggle.com

 

6. Twitter (RecSys Challenge)

트윗 정보(트윗 id, 작성 시간, engager, engagee, 팔로우 여부, 등등)와 해당 유저가 해당 트윗에 어떠한 반응(like, reply, retweet, comment, none)을 했는가에 대한 데이터셋입니다.

데이터셋의 목적은 특정 유저의 트윗에 대한 반응을 예측하여 추천해주는 것입니다.

ACM RecSys Challenge에서 20, 21년도 모두 트윗 데이터로 경진대회가 열렸습니다.

20년도의 데이터셋은 약 50GB로 알고있고, 21년도의 경우 약 300GB의 대용량 데이터셋이므로 대용량 데이터셋을 다루고, 데이터를 분석하는 단계부터 시작하기 좋은 데이터셋입니다.

또한 경진대회에서 상위권에 올라간 팀들의 코드를 깃헙에서 쉽게 찾아볼 수 있으니 참고해도 좋을 것같습니다.

(재밌는 사실은 우승팀은 20, 21년도 모두 NVIDIA 연구팀으로 XGBoost 모델을 사용했다는 것..)

 

RecSys Challenge 2021

About The RecSys Challenge 2021 will be organized by Politecnico di Bari, ETH Zürich, Jönköping University, and the data set will be provided by Twitter. The challenge focuses on a real-world task of tweet engagement prediction in a dynamic environment.

www.recsyschallenge.com

 

7. Kakao Arena (Brunch, Melon)

우리나라에서도 카카오 아레나에서 추천 관련 경진대회를 하고 있습니다.

매년 열렸었는데 올해는 11월이 지나가는데 열리지 않았더라구요(!)

여튼 트위터 데이터처럼 데이터 분석에서부터 시작해서 실제 추천 시스템을 제작하는 경험을 해보기에 적합한 데이터셋이라고 보입니다.

 

카카오 아레나

카카오 아레나에서 머신 러닝을 이용해 흥미로운 문제들을 풀어보세요.

arena.kakao.com

 

 

<참고하면 좋은 사이트>

 

Recommender Systems Datasets

--> Recommender Systems and Personalization Datasets Julian McAuley, UCSD Description This page contains a collection of datasets that have been collected for research by our lab. Datasets contain the following features: user/item interactions star ratings

cseweb.ucsd.edu

 

728x90
반응형