资源 | 从医疗语音到灾难响应，这八大优质数据集快抱走找不到靠谱数据集？跟着文摘菌探索一个

大数据文摘作品

编译：Apricock、笪洁琼、蒋宝尚

找不到靠谱数据集？跟着文摘菌探索一个数据科学领域的数据宝藏——Figure Eight平台。

找靠谱数据集的痛苦数据科学领域的宝宝们都懂。文摘菌今天强力推荐一个很棒的数据平台

Figure Eight。

先上网站链接：www.figure-eight.com

相比其他数据平台，这个平台的一大特点是，用于标注数据集的模板都可以复制，而且能够在

Figure Eight平台扩展其

应用。每个数据集里包含了原始数据、工作设计、教程、说明等等。

以下是几个被文摘菌选中的优质数据集：

谷歌数据集Open Images Dataset v4（包围盒）

Open Images是一个包含九百万图片的数据集，使用了几千类图像级标签和包围盒进行标注。Open Images的第4版侧重于对象检测，用包围盒标注了170万图像，这些标注覆盖了按层次分组的600类对象。

这份数据集是2018年欧洲计算机视觉大会上举办的公开图像挑战赛的特征集。

数据集的更多信息

http://storage.googleapis.com/openimages/web/challenge.html

2018欧洲计算机视觉大会

http://storage.googleapis.com/openimages/web/index.html

数据集链接

http://www.figure-eight.com/dataset/open-images-annotated-with-bounding-boxes/

核分割的医学图像数据集

医学专家标注的来自几种不同器官的21000个细胞核

该数据集包含标注过的苏木精-伊红染色（H&E）图像，这种图像是组织病理学中最常见的几类之一。这些图像裁剪自30个全切片成像系统中的数字化组织样本，这些组织样本来自癌症和肿瘤基因图谱中所提到的7个器官。

这些图像从18所不同的医院采集，因此不同实验室中染色实验操作的差异，也额外引入了影响成像的因素。器官中组织最密集的部分裁剪出了大小为1000 x 1000像素的图片。为了进一步保障细胞核表征的丰富性，这个数据库囊括了乳腺、肝脏、肾脏、前列腺、膀胱、结肠和胃等的良性和病变样本。

数字显微组织的核分割图像可为计算病理学中的提取核形态测量和其他分析提取出高质量的特征。诸如密度、细胞核质比、大小、形状特征、多形性等核形态测量特征和外观特征，不仅有助于评估肿瘤分级，也可用于治疗效果预测。

此数据集整合了30张裁剪后的图像，包含了超过21000个细胞核。并且每张图片经由医学专家标注和验证，可供研究人员开发和测试更普适的核分割技术，以应用于多种类型细胞核。

数据集链接

http://www.figure-eight.com/dataset/nucleus-segmentation-in-histopathological-images/

笔迹识别数据集

OCR（光学字符识别）的40万手写姓名的抄本

这个数据集有40多万个样本之多，基本上是从帮助世界各地弱势儿童的慈善项目中收集到的。

OCR（光学字符识别）利用图像处理技术，将扫描文件上的字符转换成数字信息。这项技术应用于机器打印的字体时通常表现良好，但对于辨认风格迥异的手写字体则稍显无力。

这个数据集共包括206,799个名和207,024个姓，分为了331059个训练集、41382个测试集和41382个验证集。

此外，这个数据集提供了所有Figure Eight平台上通过人机闭环标注系统（human-in-the-loop annotation）创建的图像标签，以方便人们用自己的数据扩充数据集。

数据集链接

http://www.figure-eight.com/dataset/handwritten-name-transcription-from-an-image/

旧金山停车标志探测数据集

从旧金山街景图像中探测并解析停车标志

该数据集收集了旧金山不同街区形状、颜色、方向、大小各异的停车标志图像，并通过Figure Eight平台进行了标注，实现对停车标志探测模型的训练。这些标注过的停车标志可以帮助训练OCR模型，从而使模型识别出停车、自动驾驶汽车相关的标志，而忽略商店、广告牌和其他干扰性的标志。

停车标志探测模型结合了计算机视觉、自然语言处理和空间推理技术，是Figure Eight正在运行的的项目之一。我们的目标是利用深度学习算法深入研究，以建立更精准的模型，并应用于其他城市，尤其是停车标志易与人造物体混淆的密集区域。

此项目的更多信息

http://ascelibrary.org/doi/abs/10.1061/9780784480823.037?cookieSet=1

数据集链接

http://www.figure-eight.com/dataset/parking-sign-detection/

提取药物信息数据集

PubMed文章中医学术语间关系的数据集，用于关系提取和相关自然语言处理任务。

该数据集包括从PubMed文章摘要中选取的3984个医学相关语句，并标注了不相关术语间的联系。其中“治疗”关系和“因果”关系是主要关注点，共有1043个句子含有治疗关系，1787个句子含有因果关系。

人机闭环标注系统进行向标注者提供两个术语（例如“路易体痴呆（LBD）”和“真性视幻觉”），而标注者则按照要求标注两个术语间的关系（对于上述例子应为“路易体痴呆导致真性视幻觉”）。

数据集链接

http://www.figure-eight.com/dataset/medical-sentence-summary-and-relation-extraction/

医疗相关谈话语音、转换文本与意图的数据集

将8.5小时的语音与常见症状的文本配对

这份8.5小时的语音里包含了数以千计的常见症状，比如“膝盖疼痛”、“头疼”等等。每一条症状语音都由真实的人，基于特定症状提供。这些音频片段可用于培训医疗领域的诊断助理。

Figure Eight通过多作业工作流创建了这个数据集。第一位参与者写下文字短语来描述设定的症状，比如对于“头疼”，他可能会写下“我想治一下偏头痛”，随后的工作则是为已接收的字符串捕捉音频。

注：这个数据集既包括音频，也包括了相应的文本。

数据集链接

http://www.figure-eight.com/dataset/audio-recording-and-transcription-for-medical-scenarios/

斯瓦西里语翻译健康主题数据集

将灾害和与威胁相关的数据由英语翻译成斯瓦西里语

这项工作的输入数据库是来自红十字会的灾难和与威胁相关的信息，包括疾病、受伤情况、自然灾害等项目。对于每一个类别，这个数据集都提供了特定情况下行事的指导，以及如何利用可用工具，从而在可能威胁生命的情况中生存下来的指导。

这份数据还包括了每个文本字符串的斯瓦希里语翻译。Figure Eight的工作旨在纠正斯瓦西里语翻译中的错误（如果需要的话），并为需要译为斯瓦西里短语的人提供所收集到的语音片段。此外，贡献者需要根据给定主题的文本片段，将短语分为三类：对特定情况有帮助的物品、提升存活几率的行为和其他。

数据集链接

http://www.figure-eight.com/dataset/english-to-swahili-audio-recording-and-transcription/

多语言灾难响应消息数据集

一组于灾难响应相关的信息，涵盖了多种语言，适用于文本分类、相关的自然语言处理任务。

该数据集将会包含30类与灾难响应相关的信息，这些类别包括：发出信息者的意图（例如：寻求援助、提供援助），援助主题（例如：水、食物、药品），运输或物流相关类，和某个人是否在传递一手信息、是不是直接证人。这些类别可以作为任一现存语言的预测标签。

不同类别反映了人员和组织在灾难发生后需要的不同类的的信息。灾难过后，由于不同组织会对不同方面作出回应，没有统一的标准评判哪些信息是重要的。比如，某个组织可能专注于饮用水情况，而另一个组织则侧重于确保道路畅通。不同信息的优先级也常随时间而变化。因此，不同的子类可以映射到不同的需求和回应，这些子类所属的广泛的大类则用于标记数据集。

数据主要分为三种类型：直接发送给救灾组织的消息，社交媒体上流传的消息，以及灾难相关文章的标题。这些数据里有大约20%与灾难无关，但与其他相关数据来自于相同的文章和消息。这些不相关的数据使得研究人员能够评估他们从风格相似的数据中区分相关与不相关信息的能力。

数据集链接

http://www.figure-eight.com/dataset/combined-disaster-response-data/