从啥也不会的小白,如何成为合格的算法工程师?( 二 )


【从啥也不会的小白,如何成为合格的算法工程师?】第二块是基于hadoop集群的大数据处理平台 , 比如MapReduce、spark、flink、hive等平台和工具的使用 。 这些内容除了业内人士一般也很少了解 , 就更不用说有这个意识去学习了 , 但是又是实际工作当中实实在在会用到的东西 。 现在纯MapReduce的做法有些过时了 , 一般业内常用得比较多的是spark、hive和flink 。 这些技能我们也没有必要什么都学 , 能够对其中一个有所了解和掌握就可以了 。 因为不同公司的做法一般都不太一样 , 入职的时候都是要重新学过的 , 面试的时候一般也不会要求刚好完全对口 。
5、开发能力这一点提的不多 , 但是也很重要 。 毕竟算法工程师也是工程师 , 也是需要写代码的 。 在日常工作当中 , 算法工程师的开发领域主要有三块 , 分别是模型、脚本以及系统 。
模型这个好理解 , 比如复现paper当中的做法 , 或者是复现某一个经典模型之类的 。 但是我们实现模型 , 也并不是就仅仅实现模型本身 , 往往也需要实现很多额外的内容 。 比如拆分训练以及验证数据 , 比如记录模型训练的日志 , 再比如读取数据 , 转化格式等等 。
脚本主要指的是特征以及数据处理的脚本 , 这个依赖于公司使用的数据处理平台 。 比如spark需要写scala , 比如hive需要写SQL等等 。 这些脚本往往都会涉及到非常复杂的特征生成 , 以及数据关联的逻辑 , 非常麻烦 , 稍不小心就会搞错 。
最后是系统 , 算法工程师同样也需要参与一些系统的开发 。 比如说 , 像是线上的排序系统 , 线上调用模型的打分系统等等 。 这些系统的细节往往和模型以及算法挂钩 , 普通的开发往往不了解这些细节 , 所以还是需要算法工程师参与开发 , 那么最基本的开发能力也就必不可少了 。
从啥也不会的小白,如何成为合格的算法工程师?文章插图
框架框架指的是深度学习模型的框架 , 市面上现在已有的框架其实不少 , 除了常用的TensorFlow、Pytorch之外 , 还有像是Keras、MXNet、Caffe等等 。 一般来说在TensorFlow和Pytorch当中任选一个进行深入学习即可 , 掌握了一个之后再去学另外一个会容易得多 。
我前面也说过了 , 框架并不是技术的核心重点 , 使用什么框架并不重要 。 就我个人而言的话 , 如果你从来没有学过任何框架的话 , 我更加建议你去学Pytorch 。 因为Pytorch的学习曲线更加平缓 , 并且它对于面向对象的支持更加友好 , 语法也更加简洁 。 你会发现学习Pytorch的体验要比TensorFlow好非常多 , 学起来也会更快 。
对于面试的问题也不用过多担心 , 因为一般来说岗位对候选人的要求写的都是TensorFlow、Pytorch、Keras等常用框架熟悉其中的一个即可 。 如果问到TensorFlow相关的问题 , 你大可以直接告诉面试官 , 我用Pytorch比较多 , TensorFlow我不熟 。
从啥也不会的小白,如何成为合格的算法工程师?文章插图
实战我们学习了一堆理论知识之后 , 肯定还是需要实际使用一下 , 才能检验我们学习的效果 , 并且也才可以理解更加到位 。 机器学习相关应用的实战渠道有很多 , 比如著名的kaggle以及阿里举办的天池大数据等等 。 除了这两家之外 , 其实很多公司也都在举办各自的算法竞赛 , 对于小白来说 , 这些都是非常珍贵的练手的机会 。
kaggle当中的比赛非常多 , 并不是每一个都有意义 , 我们可以找到和我们应聘的方向比较紧密的 。 比如你要面搜索、广告 , 那你就去做做CTR预估 , 如果你做NLP , 也可以去找找文本处理的问题 。 kaggle当中的比赛实在是太全了 , 只有你想不到 , 几乎没有找不到 。 相比之下天池大数据的题目要少一些 , 但是它可以使用阿里巴巴真实的平台以及脱敏之后的数据 , 这些相比kaggle我个人感觉更加逼真 。 我们亲自做一下 , 基本上就了解了阿里这样的大公司做模型的整个流程 , 还能体验一下阿里云的强大计算能力 。
最后说一点 , 当我们做某一个比赛或者是题目的时候 , 我们的目标并不仅仅是做出一个比较好的成绩 。 而是要尽量去思考问题的场景 , 以及模型在这样场景当中的作用和原理 。 也就是说我们不能干做 , 我们做了还得要思考 , 思考过后还需要总结 。 只有这样 , 我们才能获得真正的成长 。
怎么样 , 看到这些要求是不是觉得算法岗位的门槛还是挺高的 , 要学的东西也不少?实际上也的确如此 , 算法工程师是一个很特殊的岗位 , 模型、数据、算法、系统 , 各个方面都需要有所涉猎 。 不过 , 我们也并不需要各个领域都面面俱到 , 抓大放小 , 从这几个核心领域入手才可以做到事半功倍 。