数据科学入门指南:新手如何步入数据科学领域?( 二 )


在Udacity上还有许多其他课程可以探索 , 此外 , Udacity还提供Nanodegree程序 , 但通常需要付费 。 如果你愿意为学习付费 , 还有许多好的平台 , 如Coursera、Dataquest、Datacamp等 。
在此步骤结束时 , 应该掌握Python的一些重要库和数据结构 , 如序列、数组和数据框 。
还应该能够执行诸如数据处理、得出结论、矢量化操作、分组数据和组合来自多个文件的数据等任务 。
虽然已经为下一步做好了准备 , 但在继续前进之前还有一件事需要学习:桥接数据分析与机器学习之间的终极关键-数据可视化 。
数据可视化是数据分析的重要组成部分 , 它有助于得出结论并对数据模式可视化 。 为此 , 学习如何可视化数据势在必行 , 学习数据可视化最简单的方法是通读Kaggle的数据可视化课程 。 在此之后 , 你将熟悉一个重要的Python库-Seaborn 。
注:Kaggle是一个受世界各地数据科学家欢迎的网站 。 它定期举办竞赛 , 以挑战数据储备的技能 , 并为数据爱好者提供免费的交互式课程 。
太棒了!你已经学了一半以上的数据科学了 。 继续下一步 , 即机器学习 。
学习机器学习
机器学习 , 顾名思义 , 是机器(计算机)自我学习的过程 。 通过对计算机算法的研究 , 自动提升经验 。 根据数据和业务问题的类型 , 使用预定义的算法建立模型 , 这些模型在给定的数据上进行自我训练 , 然后被用在新数据上以得出结论 。
掌握机器学习最简单的方法就是按照给定的顺序学习以下Kaggle的课程:

  • 机器学习概述
  • 中阶机器学习
  • 特征工程(优化模型)
条条道路通罗马 , 虽然有许多其他的方法来学习机器学习 , 我提出的是最简单的方法 , 完全免费 。 如果没有资金的约束 , 还可以在Coursera、Udacity和其他相关平台上找到各种课程 。
当这一步结束时 , 您将了解监督机器学习和无监督机器学习之间的区别 , 同时 , 掌握各种重要的算法 , 如回归 , 分类 , 决策树 , 随机森林等 。
太棒了!从此 , 可以冲破迷宫加入到数据科学俱乐部 , 之后 , 需要做的便是一步一步成为更好 。
项目实战
读到这里 , 你便拥有了成为一名成功的数据科学家所需的一切 。 在掌握了所有的知识之后 , 应通过尽可能多的练习来增强它 。 要做到这一点 , 可以寻找一些项目 , 去解决一些商业问题 。
坚持实践的最好方法之一是参加Kaggle比赛 。 Kaggle为你提供需要解决的问题和所需的数据 。 如果是一场比赛 , 你可以提交自己的结果 , 并根据获得的分数得到排名 。
也可以在个人项目上建立自己的组合 , 通过尝试以下资源来探索数据集:
  • Kaggle数据集
  • UCI机器学习仓库
  • 亚马逊数据集
  • 谷歌数据库搜索引擎
为了练习 , 建议在本地计算机中下载并安装Anaconda ,这是开发数据科学项目的一个很好的工具包 。 在Anaconda众多工具中 ,Jupyter Notebook是构建Python项目的一种很好的方法 , 并帮你管理你的项目组合 。
遵循本博客中的指导方针 , 将助力实现学习数据科学的目标 , 当然 , 在这一领域还有大量知识要学习 , 甚至更多的东西有待探索 。 继续学习吧 。
原文标题:
Data Science from scratch How to step into Data Science as a complete beginner
原文链接:
https://towardsdatascience.com/data-science-from-scratch-4343d63c1c66
编辑:王菁
校对:林亦霖
译者简介
数据科学入门指南:新手如何步入数据科学领域?
本文插图
陈之炎 , 北京交通大学通信与控制工程专业毕业 , 获得工学硕士学位 , 历任长城计算机软件与系统公司工程师 , 大唐微电子公司工程师 , 现任北京吾译超群科技有限公司技术支持 。 目前从事智能化翻译教学系统的运营和维护 , 在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验 。 业余时间喜爱翻译创作 , 翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等 , 其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表 。 能够利用业余时间加入到THU 数据派平台的翻译志愿者小组 , 希望能和大家一起交流分享 , 共同进步 。