야후에서 연구자들을 위한 머신러닝 데이터를 공개하였다.



Yahoo Releases the Largest-ever Machine Learning Dataset for Researchers

야후에서 연구자들을 위한 머신러닝 데이터를 공개하였다.

The dataset stands at a massive ~110B events (13.5TB uncompressed) of anonymized user-news item interaction data, collected by recording the user-news item interactions of about 20M users from February 2015 to May 2015.

The dataset is available as part of the Yahoo Labs Webscope data-sharing program, which is a reference library of scientifically-useful datasets comprising anonymized user data for non-commercial use.

Note on our approach to user privacy: Our users place their trust in us each and every day, and we work hard to earn that trust. We zealously protect our users’ privacy, and responsibly and transparently use and protect our users’ personal information. Accordingly, the dataset that we’re releasing as part of this project has been anonymized.

데이터 크기는 13.5TB 로, 2015년 2월에서 2015년 5월 사이에 20천만명의 유저의 user-news item 상호작용 (interactions) 에 관한 데이터이다.

이번 데이터는 Yahoo Labs Webscope data-sharing program 의 일환이라고 한다. (Yahoo Labs Webscope 에서는 이미 비영리 사용을 전제로한 데이터 공유를 하고 있다고 한다.)

Yahoo 도 MS 와 마찬가지로 이미 관심에서는 멀어진 회사이지만 점점 좋은 움직임을 보여주는 것 같다.
주말에 한번 열어봐야겠다.