#Python#花了1个月时间,把Python库全部整理出来了,覆盖所有,建议收藏( 五 )


genius , 中文CRF基础库 , 条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列 。
Gensim , 一个相当专业的主题模型Python工具包 , 无论是代码还是文档 , 可用于如何计算两个文档的相似度LIBSVM
是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包 , 他不但提供了编译好的可在Windows系列系统的执行文件 , 还提供了源代码 , 方便改进、修改以及在
其它[操作系统]上应用;
该软件对SVM所涉及的参数调节相对比较少 , 提供了很多的默认参数 , 利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能 。
该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题 , 包括基于一对一算法的多类模式识别问题 。
scikits.learn , 构建在SciPy之上用于机器学习的 Python 模块 。
它包括简单而高效的工具 , 可用于数据挖掘和数据分析 。
涵盖分类 , 回归和聚类算法 , 例如SVM ,逻辑回归 , 朴素贝叶斯 , 随机森林 , k-means等算法 , 代码和文档都非常不错 , 在许多Python项目中都有应用 。
例如在我们熟悉的NLTK中 , 分类器方面就有专门针对scikit-learn的接口 , 可以调用scikit-learn的分类算法以及训练数据来训练分类器模型 。
PyMC , 机器学习采样工具包 , scikit-learn似乎是所有人的宠儿 , 有人认为 , PyMC更有魅力 。 PyMC主要用来做Bayesian分析 。
Orange , 基于组件的数据挖掘和机器学习软件套装 , 它的功能即友好 , 又很强大 , 快速而又多功能的可视化编程前端 , 以便浏览数据分析和可视化 , 包含了完整的一系列的组件以进行数据预处理 , 并提供了数据帐目 , 过渡 , 建模 , 模式评估和勘探的功能 。
侧重数据挖掘 , 可以用可视化语言或Python进行操作 , 拥有机器学习组件 , 还具有生物信息学以及文本挖掘的插件 。
Milk , 机器学习工具箱 , 其重点是提供监督分类法与几种有效的分类分析:SVMs(基于libsvm) , K-NN , 随机森林经济和决策树 。 它还可以进行特征选择 。 这些分类可以在许多方面相结合 , 形成不同的分类系统 。 对于无监督学习 , 它提供K-means和affinity propagation聚类算法 。
PyMVPA(Multivariate Pattern Analysis in Python),是为大数据集提供统计学习分析的Python工具包 , 它提供了一个灵活可扩展的框架 。 它提供的功能有分类、回归、特征选择、数据导入导出、可视化等 。
NuPIC , 开源人工智能平台 。 该项目由Grok(原名 Numenta)公司开发 , 其中包括了公司的算法和软件架构 。 NuPIC 的运作接近于人脑 , “当模式变化的时候 , 它会忘掉旧模式 , 记忆新模式” 。 如人脑一样 , CLA 算法能够适应新的变化 。
Pylearn2 , -基于Theano的机器学习库 。
hebel , GPU加速 , [深度学习]Python库 。
gensim , 机器学习库 。
pybrain , 机器学习模块 , 它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法 。 pybrain包括神经网络、强化学习(及二者结合)、无监督学习、进化算法 。
以神经网络为核心 , 所有的训练方法都以神经网络为一个实例Mahout,是 Apache Software Foundation(ASF) 旗下的一个开源项目 , 提供一些可扩展的机器学习领域经典算法的实现 , 旨在帮助开发人员更加方便快捷地创建智能应用程序 。
Mahout包含许多实现 , 包括聚类、分类、推荐过滤、频繁子项挖掘 。 此外 , 通过使用 Apache Hadoop 库 , Mahout 可以有效地扩展到云中 。
Crab , 灵活的 , 快速的推荐引擎 。
python-recsys , 娱乐系统分析 , 推荐系统 。