数据集是机器学习无法忽视的话题,我们根据数据集的类型,分门别类地收集一些常用的数据集,方便大家快速找到自己需要的数据集 。Yelp
https://www.kaggle.com/yelp-dataset/yelp-dataset这个数据集有两个,一个是有5个评级标签的(Yelp-5),一个是正负情感标签的(Yelp-2) 。
Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本 。Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本 。IMDb
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews电影评论情感二分类 。包含同等数量的正负情感样本,各自有 25000 条样本 。
Movie Review(MR)
Thumbs up?: sentiment classification using machine learning techniques电影文本正负情感二分类,总共包含 10662 条样本 。经常使用 随机切割的10折交叉验证 来测试这个数据集 。
The Stanford Sentiment Treebank(SST)
Recursive deep models for semantic compositionality over a sentiment treebank上一个数据集 MR 的扩展版本 。有两个版本可以用 。一个是包含五个标签的 SST-1,一个是二分类的 SST-2.
SST-1 一共有 11855 条样本,其中 8544 条训练样本,1101 条验证样本,2210 条测试样本 。SST-2 6920 条训练样本,872 条验证样本,1821 条测试样本 。MPQA
Annotating expressions of opinions and emotions in language多视角问答数据集,是一个意见语料库,有两个标签 。一共有 10606 条样本 。这是一个 不均衡数据集,3311 条正样本和 7293 条负样本 。
Amazon
https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products来自亚马逊购物网站的商品评论,也有两个版本:二分类和多分类 。
二分类版本 有 3600000 条训练样本和 400000 条测试数据 。五分类版本 有 3000000 条训练样本和 650000 条测试样本 。其他常见SemEval-2014 Task 4
Semeval-2016 task 5: Aspect based sentiment analysisTwitter
Adaptive recursive neural network for target-dependent twitter sentiment classificationSentiHood
【数据挖掘应用实例(数据挖掘情感分析)】Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods参考文献Deep Learning Based Text Classification: A Comprehensive Review
猜你喜欢