首页 > 会·生活 > >

数据挖掘应用实例（数据挖掘情感分析）

时间：2021-12-31 00:43 傻大方

数据集是机器学习无法忽视的话题，我们根据数据集的类型，分门别类地收集一些常用的数据集，方便大家快速找到自己需要的数据集。

Yelp

https://www.kaggle.com/yelp-dataset/yelp-dataset

这个数据集有两个，一个是有5个评级标签的（Yelp-5），一个是正负情感标签的（Yelp-2）。
Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本。Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本。IMDb

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

电影评论情感二分类。包含同等数量的正负情感样本，各自有 25000 条样本。
Movie Review（MR）

Thumbs up?: sentiment classification using machine learning techniques

电影文本正负情感二分类，总共包含 10662 条样本。经常使用随机切割的10折交叉验证来测试这个数据集。
The Stanford Sentiment Treebank（SST）

Recursive deep models for semantic compositionality over a sentiment treebank

上一个数据集 MR 的扩展版本。有两个版本可以用。一个是包含五个标签的 SST-1，一个是二分类的 SST-2.
SST-1 一共有 11855 条样本，其中 8544 条训练样本，1101 条验证样本，2210 条测试样本。SST-2 6920 条训练样本，872 条验证样本，1821 条测试样本。MPQA

Annotating expressions of opinions and emotions in language

多视角问答数据集，是一个意见语料库，有两个标签。一共有 10606 条样本。这是一个不均衡数据集，3311 条正样本和 7293 条负样本。
Amazon

https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products

来自亚马逊购物网站的商品评论，也有两个版本：二分类和多分类。
二分类版本有 3600000 条训练样本和 400000 条测试数据。五分类版本有 3000000 条训练样本和 650000 条测试样本。其他常见SemEval-2014 Task 4

Semeval-2016 task 5: Aspect based sentiment analysis

Twitter

Adaptive recursive neural network for target-dependent twitter sentiment classification

SentiHood

【数据挖掘应用实例（数据挖掘情感分析）】Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods

参考文献Deep Learning Based Text Classification: A Comprehensive Review

猜你喜欢

挽回死心前女友实例（爱情挽回）

应用喵（大喵）

王者解除防沉迷（防沉迷应用锁）

第三方应用是什么（第三方）

语音和语义识别应用（语音语义识别领军企业）

应用喵（没想到我如此）

应用喵（你他喵）

看戏9（看戏曲的应用）

女朋友要分手怎么挽回的话语（挽回死心前女友实例）

机会成本的应用（女友从来不问我在干嘛）

上一篇：五光后面还能加什么（光谈恋爱不结婚叫什么）

下一篇：形容朋友感情深的句子（爱恋经典语句）

形容朋友感情深的句子（爱恋经典语句）

数据挖掘应用实例（数据挖掘情感分析）

五光后面还能加什么（光谈恋爱不结婚叫什么）

豆瓣高分书籍（温柔男主小说）

华硕|年度轻薄本推荐！15寸大屏本低至3K，华硕VivoBook15系列香味十足

嫉妒（怨恨意思）

免疫系统|我区已接种新冠疫苗424万余剂次！疫苗是如何保护我们的？一文看懂

thinkpad|ThinkPad Z 系列渲染图曝光？或将搭载着微软 Windows 11！

女人爱上一个男人表现（老实女人也会出轨吗）

路由器|屏幕和解锁又是天花板，iQOO 9系列看点十足