傻大方


首页 > 会·生活 > >

数据挖掘应用实例(数据挖掘情感分析)


数据集是机器学习无法忽视的话题,我们根据数据集的类型,分门别类地收集一些常用的数据集,方便大家快速找到自己需要的数据集 。
Yelp
https://www.kaggle.com/yelp-dataset/yelp-dataset
这个数据集有两个,一个是有5个评级标签的(Yelp-5),一个是正负情感标签的(Yelp-2) 。
Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本 。Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本 。IMDb
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
电影评论情感二分类 。包含同等数量的正负情感样本,各自有 25000 条样本 。
Movie Review(MR)
Thumbs up?: sentiment classification using machine learning techniques
电影文本正负情感二分类,总共包含 10662 条样本 。经常使用 随机切割的10折交叉验证 来测试这个数据集 。
The Stanford Sentiment Treebank(SST)
Recursive deep models for semantic compositionality over a sentiment treebank
上一个数据集 MR 的扩展版本 。有两个版本可以用 。一个是包含五个标签的 SST-1,一个是二分类的 SST-2.
SST-1 一共有 11855 条样本,其中 8544 条训练样本,1101 条验证样本,2210 条测试样本 。SST-2 6920 条训练样本,872 条验证样本,1821 条测试样本 。MPQA
Annotating expressions of opinions and emotions in language
多视角问答数据集,是一个意见语料库,有两个标签 。一共有 10606 条样本 。这是一个 不均衡数据集,3311 条正样本和 7293 条负样本 。
Amazon
https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products
来自亚马逊购物网站的商品评论,也有两个版本:二分类和多分类 。
二分类版本 有 3600000 条训练样本和 400000 条测试数据 。五分类版本 有 3000000 条训练样本和 650000 条测试样本 。其他常见SemEval-2014 Task 4
Semeval-2016 task 5: Aspect based sentiment analysis
Twitter
Adaptive recursive neural network for target-dependent twitter sentiment classification
SentiHood
【数据挖掘应用实例(数据挖掘情感分析)】Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods
参考文献Deep Learning Based Text Classification: A Comprehensive Review


    猜你喜欢

  • 挽回死心前女友实例(爱情挽回)
  • 应用喵(大喵)
  • 王者解除防沉迷(防沉迷应用锁)
  • 第三方应用是什么(第三方)
  • 语音和语义识别应用(语音语义识别领军企业)
  • 应用喵(没想到我如此)
  • 应用喵(你他喵)
  • 看戏9(看戏曲的应用)
  • 女朋友要分手怎么挽回的话语(挽回死心前女友实例)
  • 机会成本的应用(女友从来不问我在干嘛)

  • 上一篇:五光后面还能加什么(光谈恋爱不结婚叫什么)

    下一篇:形容朋友感情深的句子(爱恋经典语句)