莫小帅|自学是一门艺术:踏上数据科学、人工智能和机器学习的自学之路( 二 )


数据也可以保存在数据库中 , 因此作为数据科学家、人工智能或机器学习工程师 , 必须了解一些数据库管理知识 , 以便能够连接到数据库并直接从中工作 。 在这个阶段 , SQL的知识是非常重要的 。
莫小帅|自学是一门艺术:踏上数据科学、人工智能和机器学习的自学之路图源:unsplash
学习如何处理数据
这通常被称为数据整理:这个过程包括清理已有的数据 , 可以通过对已有的数据执行一些探索性数据分析并删除数据中不需要的部分来完成 。 这个过程还涉及到将已有的数据结构化为可以使用的表单 。
在进行数据科学、人工智能或机器学习的项目时 , 这是最消磨精力的部分 。 学习过程中使用到的大多数示例数据都经过了预处理 , 但是现实世界中的数据可能没有经过任何处理阶段 。
如果渴望在这个领域做得好 , 你应该找到一些真实世界的数据并以此展开工作 。 虽然真实世界的数据几乎可以在任何地方找到 , 但是Kaggle是一个可以从全球各大公司获得真实世界数据的神奇地方 。 数据处理是一项极其累人的任务 , 但只要持之以恒 , 它就会成为一件非常有趣的事情 。
学习如何可视化数据
莫小帅|自学是一门艺术:踏上数据科学、人工智能和机器学习的自学之路图源:unsplash
作为一名数据科学家、人工智能或机器学习工程师 , 不一定你的公司里或团队中的每个人都能够理解你所在领域的技术细节 , 或者能够从原始数据中做出推断 。 这就是为什么我们需要学习可视化数据 。
数据可视化基本上是指将数据以图形的形式呈现出来的过程 , 以便让所有人了解数据是关于什么的 , 无论他们是否了解数据科学、人工智能或机器学习 。
有许多可视化数据的方法 。 作为程序员 , 编写代码来可视化数据是万能方法 , 既快速又无需成本 。 编写能够将数据可视化的代码 , 可以用编程语言附带的许多免费和开源库来完成 , Matplotlib、Seaborn和Bokeh都是可以用来可视化数据的python库 。
另一种方法是使用封闭源代码工具 , 比如Tableau 。 有许多用于数据可视化的封闭源工具 , 可以用来制作更简练、更复杂的可视化 , 但是要收费 。 Tableau是最常见的一个 , 也是笔者经常使用的一个工具 。
人工智能和机器学习
人工智能和机器学习更像是数据科学的子集 , 因为它们都是由数据驱动的 , 指的是通过向机器或其他无生命的物体输入处理好的数据 , 训练它们 , 使其表现得像人类一样的过程 。
莫小帅|自学是一门艺术:踏上数据科学、人工智能和机器学习的自学之路图源:unsplash
通过逐步地教导和引导机器 , 它们可以做许多人类做的事情 。 你可以把机器想象成完全没有知识的婴儿 , 它逐渐学会识别物体、说话、从错误中学习然后变得更好 。 机器也可以用同样的方式接受教导去做大部分事情 。
人工智能和机器学习通过使用数学算法给机器带来生命 , 其全部潜力仍然未知 , 这是一个不断改进的领域 。 目前 , 人工智能和机器学习广泛应用于认知功能 , 如物体检测和识别、面部识别、语音识别和自然语言处理、欺诈和垃圾邮件检测等 。
学习如何将机器学习模型应用到互联网上
使用机器学习构建的模型可以通过部署让网络上的每个人找得到 。 要做到这一点 , 需要对网页开发有良好的理解 , 你需要创建一个或一组网页来容纳模型 。