心若磐石 以促进机器学习领域的发展,Kaggle上线arXiv完整数据集

如果你是一个学术达人 , 经常搜索学术论文 , 那你一定知道arXiv这个网站 。 如果你爱好数据科学 , 专注于机器学习 , Kaggle就会是一个非常好的选择 。
arXiv是一个始于1991年、目前用于收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本网站 。 arXiv的存在是造就科学出版业中所谓开放获取运动的因素之一 。 现今的一些数学家及科学家习惯先将其论文上传至arXiv , 再提交予专业的学术期刊 。 无论你是在自身研究领域迅速成长的研究生 , 还是致力于用科研为公众提供服务的研究者 , arXiv这一丰富的信息库都可以为你提供重要、甚至难以置信的帮助 。
Kaggle则是全球最大的数据竞赛平台 , 也是一个主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台 , 创建于2010年 , 并于2017年被谷歌母公司Alphabet收购 。 在Kaggle这个平台上 , 不论是企业、某个领域的研究组织、甚至是政府机构 , 都可以把数据集(dataset)和想要解决的问题丢上去 , 请平台上的数据专家来帮忙解答 。 Kaggle允许用户查找和发布数据集 , 在数据科学环境中开发和构建模型 , 用户也可以与其他数据科学家和机器学习工程师合作或一起参加竞赛 。
如今 , 为使得arXiv上的资源更易访问和获取 , arXiv和Kaggle要“强强联合”了 。 近日 , 康奈尔大学的研究人员在Kaggle上创建了一个免费、开放的arXiv数据集 , 该数据集含有170多万篇学术论文 , 用户可以从中获取论文标题、作者、类别、摘要和PDF版全文等 。
“将完整的arXiv数据集放在Kaggle上 , 可以在很大程度上增加arXiv上论文的阅读可及性 , ”arXiv执行董事奥诺拉·普里萨尼(EleonoraPresani)在arXiv.org官方博客上表示 , “公众也可以获取这些论文之外更多的知识 , 这些论文也将以机器可读的格式将arXiv背后的数据和信息向公众开放 。 ”
此外 , 普里萨尼还表示 , “arXiv不仅仅是一个论文资料库 , 它还是一个知识共享平台 。 我们需要在呈现和解释这些知识的方式上不断进行创新 , 在这一点上 , Kaggle用户可以提供帮助 。 ”
据Kaggle上的相关界面显示 , arXiv元数据集(Metadata)存储量已经高达1.1TB , 且还在持续增长 。 在JSON格式的文件中 , 包含arXivID、论文提交者、论文作者、论文标题、数字对象唯一标识符、论文摘要和版本等信息 。
这是一个包含170多万篇学术论文的arXiv数据集 。 开发者希望借此可以促进机器学习领域的发展 , 引导探索更丰富的机器学习技术 , 将多模态特性结合到趋势分析、推荐引擎、类别预测、共引网络、知识图谱构建和语义搜索接口等应用中 。
【心若磐石 以促进机器学习领域的发展,Kaggle上线arXiv完整数据集】目前 , 开发者已经更新了5个版本 , arXiv数据集内包含的论文数量正在逐步增长 , 涉及范围也越来越广 。 据arXiv官方博客显示 , arXiv数据将会以每周一次的频率进行更新 。