资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
大数据文摘作品
编译:晚君、VVN、张礼俊、云舟
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!
数据集
Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)
http://www.kaggle.com/snap/amazon-fine-food-reviews
亚马逊评论:斯坦福收集了3500万条亚马逊评论。(11GB)
http://snap.stanford.edu/data/web-Amazon.html
ArXiv上:所有收录论文全文(270GB)+源文件(190GB)
http://arxiv.org/help/bulk_data_s3
ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB)
http://www.kaggle.com/c/asap-aes/data
ASAP简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB)
http://www.kaggle.com/c/asap-sas/data
政治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB)
http://www.crowdflower.com/ src="http://img5.shadafang.com/img.php?http://mmbiz.qpic.cn/mmbiz_png/wc7YNPm3YxXacRJMeOGtV9k3ZSRTk1KdtQ4josVuBqn85Bk9Tleru6nNZ0KbDgawRKicQGXmYib6MfNNcUfnHELw/640?wx_fmt=png" />
志愿者介绍
回复 “ 志愿者
- 上海市科委将引导各类创新资源向示范区集聚
- 一线城市楼市,卖资源时代来临
- 距地的600光年类地行星被发现,资源比地球还优越!
- 省政协副主席、省国土资源厅厅长陈铁雄来我县调研
- 四川:规模较小农村人口生活用水供水工程暂不征收水资源税
- 湖北畜禽废弃物资源化利用行动方案出台
- 中国不断进口储存油气资源?背后的原因堪称精妙!
- 安徽省最弱的城市,拥有极其丰富的旅游资源,却发展不起来
- 省城以连通水系名义向洛阳借水的背后,是资源共享还是吸血没商量
- 绝地求生捡到空投少奋斗20年!教你轻松在激烈争夺中获得空投资源