资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

大数据文摘作品

编译:晚君、VVN、张礼俊、云舟

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!

数据集

  • Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)

    http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

  • 博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)

    http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm



  • 亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)

    http://www.kaggle.com/snap/amazon-fine-food-reviews

  • 亚马逊评论:斯坦福收集了3500万条亚马逊评论。(11GB)

    http://snap.stanford.edu/data/web-Amazon.html

  • ArXiv上:所有收录论文全文(270GB)+源文件(190GB)

    http://arxiv.org/help/bulk_data_s3

  • ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB)

    http://www.kaggle.com/c/asap-aes/data

  • ASAP简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB)

    http://www.kaggle.com/c/asap-sas/data

  • 政治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB)

    http://www.crowdflower.com/ src="http://img5.shadafang.com/img.php?http://mmbiz.qpic.cn/mmbiz_png/wc7YNPm3YxXacRJMeOGtV9k3ZSRTk1KdtQ4josVuBqn85Bk9Tleru6nNZ0KbDgawRKicQGXmYib6MfNNcUfnHELw/640?wx_fmt=png" />

    志愿者介绍

    回复

    志愿者

    ”加入我们

    资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
    资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
    资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

    资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
    资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
    资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!