全栈数据科学:下一代数据科学家
这篇博客文章介绍了成为一名机器学习数据科学家所需的知识 , 以适应行业不断变化的需求 。
文章插图
多年来 , 数据科学一直是受过学士 , 硕士或博士学位的正规教育的年轻人的引人注目的领域 。计算机科学 , 统计 , 业务分析 , 工程管理 , 物理 , 数学或显然是数据科学 。但是 , 人们对数据科学有很多神话 。不仅仅是机器学习和统计信息 。多年来 , 我已经与许多数据科学领域的有志之士谈论了进入该领域的问题 。为什么会有关于数据科学的所有炒作? 仍然是统计数据和机器学习可以帮助您进入这一领域吗? 仍然是未来吗? 甚至我和你们都在同一条船上 , 但是我现在正在经历当前对进入这一领域的下一代数据科学家的需求如何形成 。我不会教你如何进入数据科学领域 , 因为互联网上已经有很多人这样做了 。
文章插图
> Image by shutterstock from Datanami
为什么会有关于数据科学的所有炒作?每个角落的人都希望进入数据科学领域 。几年前 , 该领域存在供需问题:DJ Patil博士和Jeff Hammerbacher抛弃了Data Science一词 , 数据科学家的供应量减少了 , 需求增加了 。但是现在 , 到2020年 , 情况有所好转 。接受正规/ MOOC受过教育的数据科学爱好者的流入量有所增加 , 需求也有所增加 , 但并未达到这种程度 。该术语已发展得越来越广泛 , 以包含人们进行数据科学所需的大多数支持功能 。我想引用我最喜欢的名言之一:
"数据科学就像十几岁的性行为:每个人都在谈论它 , 没有人真正知道如何做 , 每个人都认为其他人都在做 , 所以每个人都声称自己在做 。 "
开个玩笑 , 这些是我认为数据科学接管所有炒作的原因:
· 标题数据科学家背后的谜团
· 高工作满意度
· 巨大的业务影响
· 许多工作网站将其评为最热门的工作(最近3年被Glassdoor评为美国最热门的工作)
· 前沿发展
· 越来越多的数据生成
· 感谢许多提供数据科学学位的优秀/不太优秀的学校和新兵训练营
· 数据真漂亮! (从字面上不是:p)
自称数据科学家的人?有人会说这句话 , 所以让我就当前的行业状况讲一些真相 。由于需求的增加和闪亮的数据科学家头衔的声望 , 许多公司已开始与产品分析师 , 商业情报分析师 , 业务分析师 , 供应链分析师 , 数据分析师和统计学家交换数据科学家头衔 , 因为人们为了找到工作而离开工作岗位 数据科学家在那些给他们做相同工作的公司的头衔 。尊重的问题是 , 由于字词的这种微小变化 , 许多角色都得到了尊重 。因此 , 公司已经开始以同样的方式扭曲标题 , 以使标题更加闪亮和令人满意 , 例如数据科学家分析 , 产品数据科学家 , 数据科学家增长 , 数据科学家供应链 , 数据科学家可视化或数据科学家- 什么不?
大多数接受教育/在线培训的人都有一个误解 , 即所有数据科学家都建立了漂亮的机器学习模型 , 但这并不总是正确的 。至少当我开始攻读应用数据科学硕士时 , 我就是这种情况 , 我以为大多数数据科学家都是机器学习的 , 但是当我进入美国的实习和工作市场时 , 那才是我真正的知识所在 。真相 。推动人们走向数据科学的力量归因于对人工智能及其业务影响的炒作 。
下一代数据科学家-机器学习对于想要以数据科学家-ML的身份进行应用机器学习的人(这就是我要命名的标题 , 因为它不是数据科学家-分析:p)在没有博士学位的情况下 , 还有更多的东西 现在 , 不仅仅是知道将机器学习应用于如今几乎任何人都可以做的数据集 。我从经验中发现了其他一些关键问题 , 可以帮助您确定在采访过程中甚至入围的数据科学家的角色:
· 分布式数据处理/机器学习:掌握Apache Spark , Apache Hadoop , Dask等技术的动手经验可以帮助您证明可以大规模创建数据/ ML管道 。与任何人都有经验应该是不错的选择 , 但是我还是建议使用Apache Spark(使用Python或Scala) 。
· 生产ML /数据管道:如果您可以亲身体验Apache Airflow , 这是一种用于创建数据和机器学习管道的标准开源作业编排工具 。目前 , 该行业已在使用它 , 因此建议您学习并围绕它进行一些项目 。
· 数据库:必须了解数据库和查询语言 。尽管SQL非常被忽略 , 但是无论在任何云平台或数据库上 , 它仍然是行业标准 。开始在leetcode上练习复杂的SQL , 这将帮助您完成DS概要文件中的部分编码采访 , 因为您将负责使用正在进行的预处理从仓库中导入数据 , 这将简化您在运行前进行预处理的工作 ML模型 。大多数功能工程可以在通过SQL将数据传输到模型中的同时进行 , 这是许多人忽略的一个方面 。
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”