#Python#花了1个月时间,把Python库全部整理出来了,覆盖所有,建议收藏( 四 )


大数据与科学计算
库名称简介pycuda/opencl , GPU高性能并发计算Pandas , python实现的类似R语言的数据统计、分析平台 。
基于NumPy和Matplotlib开发的 , 主要用于数据分析和数据可视化 , 它的数据结构DataFrame和R语言里的data.frame很像 , 特别是对于时间序列数据有自己的一套分析机制 , 非常不错 。
Open Mining , 商业智能(BI) , Pandas的Web界面 。 blaze , NumPy和Pandas大数据界面 。 SciPy , 开源的Python算法库和数学工具包
SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算 。
其功能与软件MATLAB、Scilab和GNU Octave类似 。
Numpy和Scipy常常结合着使用 , Python大多数机器学习库都依赖于这两个模块 。
ScientificPython , 一组经过挑选的Python程序模块 , 用于科学计算 , 包括几何学(矢量、张量、变换、矢量和张量场) , 四元数 , 自动求导数 , (线性)插值 , 多项式 , 基础统计学 , 非线性最小二乘拟合 , 单位计算 , Fortran兼容的文本格式 , 通过VRML的3D显示 , 以及两个Tk小工具 , 分别用于绘制线图和3D网格模型 。
此外还具有到netCDF , MPI和BSPlib库的接口 。
NumPy科学计算库 , 提供了矩阵 , 线性代数 , 傅立叶变换等等的解决方案, 最常用的是它的N维数组对象.
NumPy提供了两种基本的对象:ndarray(N-dimensional array object)和 ufunc(universal function object) 。
ndarray是存储单一数据类型的多维数组 , 而ufunc则是能够对数组进行处理的函数 。
Cvxopt , 最优化计算包 , 可进行线性规划、二次规划、半正定规划等的计算 。
pymvpa2 , 是为大数据集提供统计学习分析的Python工具包 , 它提供了一个灵活可扩展的框架 。 它提供的功能有分类、回归、特征选择、数据导入导出、可视化等 。
NetworkX , 复杂网络的优化软件包 。 zipline , 交易算法的函数库 。 PyDy ,Python动态建模函数库 。 SymPy,符号数学的Python库 。 statsmodels,Python的统计建模和计量经济学 。 astropy,天文学界的Python库 。 orange , 橙色 , 数据挖掘 , 数据可视化 , 通过可视化编程或Python脚本学习机分析 。 RDKit,化学信息学和机器学习的软件 。 Open Babel , 巴贝尔 , 开放的化学工具箱 。 cclib , 化学软件包的计算函数库 。 Biopython , 免费的生物计算工具包 。 bccb , 生物分析相关的代码集 。 bcbio-nextgen , 提供完全自动化、高通量、测序分析的工具包 。 visvis, 可视化计算模块库 , 可进行一维到四维数据的可视化 。
MapReduce是Google提出的一个软件[架构] , 用于大规模数据集(大于1TB)的并行运算 。 概念“Map(映射)”和“Reduce(归纳)” , 及他们的主要思想 , 都是从函数式编程语言借来的MapReduce函数库 。
Framworks and libraries for MapReduce.,PySpark , [Spark]的Python API 。 dpark , Spark的Python克隆 , Python中的MapReduce框架 。
luigi , 为批量工作 , 建立复杂的管道 。
mrjob , 运行在[Hadoop] , 或亚马逊网络服务的 , MapReduce工作 。
人工智能与机器学习
库名称简介NLTK(natural language toolkit) , 是python的自然语言处理工具包 。
2001年推出 , 包括了大量的词料库 , 以及自然语言处理方面的算法实现:分词 ,词根计算 ,分类 ,语义分析等 。
Pattern , 数据挖掘模块 , 包括自然语言处理 , 机器学习工具 , 等等 。 textblob , 提供API为自然语言处理、分解NLP任务 。 基于NLTK和Pattern模块 。 jieba , 结巴 , 中文分词工具 。 snownlp , 用于处理中文文本库 。 loso , 中文分词函数库 。