Python|数据分析工具比较:Excel、R、Python和BI工具

【Python|数据分析工具比较:Excel、R、Python和BI工具】Python|数据分析工具比较:Excel、R、Python和BI工具

文章图片


数据分析的时代已经到来 , 从国家、政府、企业到个人 , 大数据和数据分析已经成为大家耳熟能详的名词 。 但是你可能没有学过数据分析或编程的专业知识 , 或者你虽然学了很多数据分析的理论 , 但你还不知道怎样运用到实践上 。 在这里 , 我将对数据分析师最受欢迎的四种工具(Excel、R、Python和BI)进行比较 , 作为开始学习数据分析的基础 。

1.Excel
1.1 使用场景
?   一般办公室里简单的数据处理工作 。
?   中小型企业的数据管理和存储 。
?   学生或老师用来进行简单的统计分析(如方差分析、回归分析等) 。
?   结合 Word和PowerPoint来创建数据分析报告 。
?   数据分析师的辅助工具 。
?   为一些商业杂志和报纸制作图表(数据可视化) 。
1.2 优势
?   入门使用Excel很容易 。
?   学习资源非常丰富 。
?   你可以用Excel做很多事情:建模、可视化、数据报告、动态图表等 。
?   它可以帮助您在进一步学习其他工具(如Python和R)之前了解许多操作的含义 。
1.3 缺点
?   要完全掌握Excel , 需要学习VBA , 所以难度还是很高的 。
?   当数据量很大时 , 就会出现卡顿的情况 。
?   不借助其他工具的话 , Excel数据文件本身只能容纳108万行 , 不适合处理大规模数据集 。
?   内置的统计分析过于简单 , 做高级分析比较吃力 。
?   与Python、R和其他开源软件不同 , 正版Excel需要收费 。
2.R
2.1 使用场景
R的功能几乎涵盖数据分析的所有领域 , 就我们一般的数据分析工作而言 , R能做的事情主要有以下几个方面 。
?   数据清洗 。
?   网络爬取 。
?   数据可视化 。
?   统计假设检验(t检验、方差分析、卡方检验等) 。
?   数据建模(线性回归、逻辑回归、树模型、神经网络等) 。
?   数据分析报告输出(R markdown) 。
2.2 R容易学吗?
在我看来 , 学习使用R是比较简单的 , 如果经过10天的集中学习 , 足以掌握其基本使用、基本数据结构、数据导入导出、简单的数据可视化等内容 。 有了这些基础 , 当你遇到实际问题时 , 就可以找到你需要使用的R包 , 通过阅读帮助文件或者网络上的资料 , 可以快速地解决具体的问题 。
3. Python
3.1 使用场景
?   数据爬取 。
?   数据清洗 。
?   数据建模 。
?   根据业务场景和实际问题构建数据分析算法 。
?   数据可视化 。
?   数据挖掘和分析的高级领域 , 例如机器学习和文本挖掘 。
3.2 R与Python
R和Python都是可以编程的数据分析工具 , 不同的是 , R专门用于数据分析领域 , 而数据分析只是Python 的一个应用分支 , Python还可以用来开发网页、开发游戏或者开发系统后端 , 做一些运维的工作 。
当前的一个趋势是 , 在数据分析的领域里 , Python正在追赶着R , 在某些方面 , 它已经超越了R , 例如机器学习和文本挖掘 , 但是R在统计领域仍然保持着优势 。 Python在数据分析方面的发展 , 在很多地方都模仿了R的一些特性 , 所以 , 如果你还是新手 , 还没有开始学习 , 我建议你从Python开始 。
Python和R都很容易入门 , 但是如果你同时学习两者 , 就会很混乱 , 因为它们在很多地方都非常相似 。 所以建议不要同时学习 , 等到你掌握了其中一个 , 然后开始学习另一个 。
3.3 选择R还是Python?
如果因为时间有限只能选择其中之一的去学习 , 我推荐使用Python 。 但我仍然建议你两者都学一下 , 你可能在某些地方听说Python在工作中更常用 , 但解决问题才是最重要的 , 如果你能用R高效地解决问题 , 那就用 R 。 事实上 , Python模仿了R的许多特性 , 比如Pandas 库中的DataFrames , 还有正在开发的可视化包ggplot模仿了R中非常有名的ggplot2 。
4.商业智能(BI)
数据分析中有一句话:文字不如表 , 表不如图 , 数据可视化是数据分析的主要方向之一 。 Excel的图表可以满足基本的图形要求 , 但这只是基础 , 高级可视化需要编程的知识 。 除了学习R、Python等编程语言外 , 还可以选择简单易用的BI工具 。