分析1400家公司后发现:数据工程师比数据科学家更受欢迎( 二 )


那肯定就有同学会怀疑了 , 这会不会让我们的样本集中包含大量的假阳样本?答案是肯定的 。 但是现在来说我更想去关注数据集的召回率 , 因为我在初步确定样本对象之后 , 会对每个网站的详细数据进行更细致的手动检查 。
分析1400家公司后发现:数据工程师比数据科学家更受欢迎】有了这些精炼的人才需求数据库 , 我访问了每一家公司的网站 , 找到他们官网上的人才招聘的网页 , 关键词通常是Carrer,Jobs,或者甚至就是这个网页链接的本身 。 然后我记录下其中的岗位需求名称 , 比如机器学习 , NLP之类的 , 以及对应的数量 。 通过这样的数据收集工作 , 我攒到了一个样本量大约是70家不同公司的数据科学相关人才需求统计表 。
当然了 , 有的公司的网站上信息不全 。 通常是因为公司机密或者出于隐私保护的原因所致 。 所以我就只好把这些公司给略过了 。 还有一些公司没有公布他们的招聘需求 , 而是要求应聘者自己发送邮件给他们的邮箱投递简历 。 所以这些公司的岗位需求和数量我也无从知晓 。
实在没办法了 , 这两种公司的数据我实在是得不到 , 或者太费功夫了 。 所以他们并不在本文的分析对象之中 。
哦对了 , 本文中的大部分研究都是在2020年最后的几周中完成的 , 而很多公司在最近飞速发展 , 招聘的需求和招聘页面也会发生变化 。 因此我们的数据可能不是那么实时 。 但是即便如此 , 这也不会影响我们最终的结论 。
2数据从业者都是干什么的?
在深入研究结果之前 , 我们有必要花一些时间详细说说数据科学从业者的职位通常是干什么的 。 以下是本文着重研究的四个典型的职位 , 我们将简要的介绍他们的职责:
数据科学家 , 数据科学家通常需要使用统计学和机器学习中的各种技术来处理和分析数据 。 他们通常负责构建模型 , 从而研究从某些数据集中能够学到什么 。 科学家嘛 , 通常做的都是比较前沿和原型的 。 因此这些工作通常都不是直接落地并应用到实际产品的 。 也就是说不是生产级别 , 面向用户使用的 。
数据工程师 , 数据工程师通常需要开发出一套鲁棒性高 , 扩展性强的数据处理工具或者平台 。 他们必须熟悉SQL , NoSQL数据库的使用和ETL管道的部署和维护 。
机器学习ML工程师 , 机器学习工程师通常需要负责训练模型和交付模型 。 他们需要熟悉一些高级的ML框架 , 比如Tensorflow,Pytorch,ScikitLearn之类的 , 并且能够为模型构建伸缩性强的训练工具 , 方便好用的推理和部署管道 。
机器学习科学家 , 机器学习科学家通常需要从事尖端的学术研究 。 他们需要负责产出可在学术会议上发表的新想法 。 他们可能比数据科学家更学术范儿一点儿 , 通常只需要在交付给机器学习工程师之前对模型粗粗的进行原型化验证即可 。
3数据科学相关的职位都有哪些呢?
当我们将统计起来的各大公司的岗位招聘职位的频率进行统计并画出来的时候 , 大致结果如下:

分析1400家公司后发现:数据工程师比数据科学家更受欢迎
文章图片
从图中 , 我们一眼就能发现 , 和传统的数据科学家相比 , 数据工程师的需求多了很多 。 在图中 , 数据工程师的应聘需求量比数据科学家多了大约55% , 而机器学习工程师的数量与数据科学家的数量大概相同 。
让我们更深的剖析这个结果 , 如果你仔细研究每个岗位的名称 , 你会发现其中有些重叠 。
因此 , 如果我们''泛泛地''对职位进行归类 , 而不是那么精细地对岗位进行划分的话 , 能得到另一个更直观的结论 。 也就是如果我们合并同类项 , 将那些看似很相近的岗位作为一类的话 , 这种角度的分析可能给我们一个更为直观和宏观的数量对比及印象 。
这种合并同类项的规则是:
NLP工程师≈CV工程师≈机器学习工程师≈深度学习工程师(也许上述职位的领域稍有不同 , 但是这些岗位职员的工作内容是大致相同的)
机器学习科学家≈深度学习研究员≈机器学习实习(虽然是实习岗 , 但是我们会找那些实习要求中明确说明是研究相关实习的岗位)
数据工程师≈数据架构师≈数据主管≈数据平台工程师

分析1400家公司后发现:数据工程师比数据科学家更受欢迎
文章图片
如果觉得上述的原始数据不够直观 , 喜欢看百分比的数据的话 , 请查阅下图:

分析1400家公司后发现:数据工程师比数据科学家更受欢迎