小米科技|2022年必须要了解的20个开源NLP 库( 二 )


11、Hugging Face Tokenizers
5.2k GitHub stars.
该库提供了当今最常用的标记器的实现 , 重点是性能和通用性 。
12、Haystack
3.8k GitHub stars.
Haystack 是一个端到端框架 , 能够为不同的搜索用例构建功能强大且可用于生产的管道 。无论要执行问答还是语义文档搜索 , 都可以使用 Haystack 中最先进的 NLP 模型来提供独特的搜索体验并为用户提供使用自然语言进行查询的功能 。Haystack 以模块化方式构建 , 因此可以结合其他开源项目(如 Huggingface 的 Transformers、Elasticsearch 或 Milvus) 。
13、Snips NLU
3.6k GitHub stars.
注意:该库已经2年没有更新了
Snips NLU 是一个可以从用自然语言编写的句子中提取结构化信息的 Python 库 。每当用户使用自然语言与人工智能交互时 , 他们的文字都需要被翻译成机器可读的形式(向量) 。Snips NLU 的 NLU(自然语言理解)引擎首先检测用户的意图是什么(也就是意图) , 然后提取查询的参数(称为slots) 。
14、NLP Architect
2.8k GitHub stars.
NLP Architect 是一个用于探索用于优化自然语言处理和自然语言理解神经网络的最先进的深度学习拓扑和技术的Python 库 。它允许在应用程序中轻松快速地集成 NLP 模型 , 并展示优化的模型 。
15、PyTorch-NLP
2k GitHub stars.
PyTorch-NLP 扩展了 PyTorch并提供基本的文本数据处理功能 。
16、Polyglot
1.9k GitHub stars.
Polyglot 是一个支持大量多语言应用程序的自然语言管道:标记化(165 种语言)、语言检测(196 种语言)、命名实体识别(40 种语言)、部分语音标记(16 种语言)、情感分析(136 种语言)、Word 嵌入(137 种语言)、形态分析(135 种语言)和音译(69 种语言) 。
但是该库的最新更新时间是3年前 。
17、TextAttack
1.8k GitHub stars.
TextAttack 是一个用于 NLP 中的对抗性攻击、数据增强和模型训练 的Python 框架 。
18、Word Forms
513 GitHub stars.
Word forms可以准确地生成一个英语单词的所有可能形式 。它可以连接不同的词性 , 例如名词与形容词、形容词与副词、名词与动词等 。
19、Rosetta
420 GitHub stars.
Rosetta 是一个基于 TensorFlow 的隐私保护框架 。它集成了主流的隐私保护计算技术 , 包括密码学、联邦学习和可信执行环境 。Rosetta 重用了 TensorFlow 的 API , 只需极少的代码更改 , 就可以将传统的 TensorFlow 代码转换为隐私保护的方式运行 。
必备基础库这里列出了一些并非特定于 NLP 但仍然经常用于 NLP 项目的数据科学库 。
20、scikit-learn
48.6k GitHub stars.
Scikit-learn(也称为 sklearn)是 Python 编程语言的免费软件机器学习库 。它具有各种分类、回归和聚类算法 , 包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN , 是建立在 Python 数值和科学库 NumPy 和 SciPy 之上的 。
21、Pandas
32.4 GitHub stars.
Pandas 是一个提供了操作表格数据的Python 包 。它已经成为在 Python 中进行实际的、真实的数据分析的基础模块 。它可以被称作最强大、最灵活的开源数据分析/操作工具 。
https://www.overfit.cn/post/a95c29726cba4e3aa969066fb7c80ad5
【小米科技|2022年必须要了解的20个开源NLP 库】作者:Fabio Chiusano