추천 시스템 연구용으로 사용하기 좋은 데이터셋 또는 추천 논문에서 주로 사용이 되는 데이터셋에 대해 소개하겠습니다.
자신의 목적에 맞는 추천 데이터셋을 찾아서 활용하면 좋을 것 같아 정리할겸 간략하게 설명해봅니다.
기초부터 시작해서 꾸준히 업데이트해가도록 하겠습니다.
저도 전부 사용해본 것이 아니기 때문에 잘못된 정보, 또는 다른 좋은 데이터셋이 있다면 댓글로 알려주세요!
<연구용 데이터셋>
1. MovieLens
추천 시스템 하면 가장 대표적으로 생각나는 데이터셋은 개인적으로 무비렌즈인 것 같습니다.
무비렌즈의 장점은 비교적 많은 예제 자료를 찾을 수 있다는 점, 그리고 다양한 사이즈의 데이터셋을 제공해준다는 점입니다.
데이터셋의 구성은 크게 1) 유저, 2) 아이템(영화), 3) rating(1~5)로 이루어져있습니다.
* 데이터셋 내부 구성은 사이즈 별로 약간의 차이가 있으니 대략적으로만 참고해주시고 ReadMe 파일을 읽어보시길 권장합니다.
1) 유저
UserID, Gender, Age, Occupation, Zip-code
2) 아이템(영화)
MovieID, Title, (Year), Genres(19가지)
3) 평점
UserID, MovieID, Rating(1~5), TimeStam
2. Yahoo Music
Yahoo Music은 아이템(음악)에 대한 트랙, 앨범, 아티스트, 장르 등의 정보를 제공하고, user와 item의 rating 정보를 제공하는 데이터셋입니다.
Yahoo Labs 공식 사이트에서 사용 목적에 대한 승인을 받아야 다운로드가 가능한 것으로 보입니다.
현재 신청을 해둔 상태니 승인이 나서 데이터셋을 받게 되면 조금 더 상세하게 추가 정리하도록 하겠습니다.
3. Yelp
Yelp는 레스토랑에 대한 리뷰를 제공하는 데이터셋입니다.
Json 형태로 데이터를 제공하므로 csv로 변환 과정을 거쳐야합니다.
아래 Github에서 Yelp 데이터셋을 다루는 예제 또는 csv 변환 코드가 있으니 참고하시면 되겠습니다.
데이터셋 구성은 다음과 같습니다.
1) Business.json - 레스토랑의 위치, 카테고리 및 등급 등 레스토랑 데이터
2) Review.json - 사용자가 작성한 특정 기업 평가에 대한 리뷰 데이터
3) User.json - 사용자 이름, 리뷰 수 등의 사용자 정보 데이터
4) Checkin.json - 업무 시간 및 해당 시간에 들어오는 인원 수 데이터
5) Tip.json - 짧은 리뷰 데이터
6) Photos.json - 사진, 업체 ID, 사진의 캡션 및 해당 카테고리 데이터
* 다운로드 링크
* 데이터셋 상세 설명
4. MIND : Microsoft News Dataset
MIND는 뉴스 추천 연구를 위한 데이터셋으로 마이크로소프트 뉴스 웹 사이트 로그를 수집한 데이터 입니다.
데이터셋은 기사(제목, 요약, 내용, 카테고리 등의 풍부한 텍스트 정보, 사용자의 클릭 여부 등으로 구성되어있습니다.
또한 대용량과 작은 사이즈의 데이터셋이 나누어져있으니 필요에 따라 사용하시면 될 것 같습니다.
5. Book-Crossing
Book-Crossing 데이터셋은 책정보(제목, 작가 연도 등), 평점, 유저 정보(유저 id, age)로 구성된 책 추천 데이터셋입니다.
kaggle에서 쉽게 다운로드가 가능합니다.
6. Twitter (RecSys Challenge)
트윗 정보(트윗 id, 작성 시간, engager, engagee, 팔로우 여부, 등등)와 해당 유저가 해당 트윗에 어떠한 반응(like, reply, retweet, comment, none)을 했는가에 대한 데이터셋입니다.
데이터셋의 목적은 특정 유저의 트윗에 대한 반응을 예측하여 추천해주는 것입니다.
ACM RecSys Challenge에서 20, 21년도 모두 트윗 데이터로 경진대회가 열렸습니다.
20년도의 데이터셋은 약 50GB로 알고있고, 21년도의 경우 약 300GB의 대용량 데이터셋이므로 대용량 데이터셋을 다루고, 데이터를 분석하는 단계부터 시작하기 좋은 데이터셋입니다.
또한 경진대회에서 상위권에 올라간 팀들의 코드를 깃헙에서 쉽게 찾아볼 수 있으니 참고해도 좋을 것같습니다.
(재밌는 사실은 우승팀은 20, 21년도 모두 NVIDIA 연구팀으로 XGBoost 모델을 사용했다는 것..)
7. Kakao Arena (Brunch, Melon)
우리나라에서도 카카오 아레나에서 추천 관련 경진대회를 하고 있습니다.
매년 열렸었는데 올해는 11월이 지나가는데 열리지 않았더라구요(!)
여튼 트위터 데이터처럼 데이터 분석에서부터 시작해서 실제 추천 시스템을 제작하는 경험을 해보기에 적합한 데이터셋이라고 보입니다.
<참고하면 좋은 사이트>
'DL & ML > Recommender System' 카테고리의 다른 글
[논문] CoRGi : Content-Rich Graph Neural networks with Attention (0) | 2022.01.23 |
---|