读芯术软件工程师的奇幻漂流:在Yelp和Uber的数据科学之旅


全文共3493字 , 预计学习时长12分钟
读芯术软件工程师的奇幻漂流:在Yelp和Uber的数据科学之旅
本文插图
图源:unsplash
在学习了几年的软件工程(SE)之后 , 笔者作为一名SE实习生加入了Yelp , 从事数据科学(DS)相关项目 。 大约一年后 , 笔者又以DS实习生的身份加入了Uber , 不久就毕业了 。 但经历了六年的种种转变 , 最终 , 笔者还是回到了SE 。
很多人可能想进入数据科学领域而不得其法 。 笔者之前从未打算转入DS , 也没有传统的教育背景 。 幸运的是 , 工程学背景教会了笔者如何编程和批判性思考 。
但在我看来 , 更重要的是如何学习和坚持 。 笔者几乎是通过阅读论文和做兼职项目自学的 , 但如果没有导师的反馈和建议 , 笔者也不可能做到这一点 。
本文不会讨论成为数据科学家所需的具体资格和技能 , 这取决于对哪种工作感兴趣 。 笔者将向你讲述自己的经历 , 告诉你这六年来我的经验和心态 , 希望你有所收获 。
开始
2012年 , 笔者开始在滑铁卢大学学习机电工程专业 。 笔者总是着迷于如何通过建造直接帮助人的东西来积极地影响人的生活 , 最初我认为这只能通过建造实体的东西来实现 , 比如机器人 。
但后来我意识到 , 软件也可以来实现类似的目标 。 这就是为什么笔者在2014年从机电工程转到软件工程 。
在开始学习SE后不久 , 笔者开始听说了机器学习(ML) 。 对ML的兴趣驱使自己在空闲时间开始学习它 , 尽管学的很浅 。 与此同时 , 笔者通过实习 , 继续学习如何成为一名更好的软件工程师 。
涉足机器学习
笔者的ML之旅开始是平淡无奇的 。 没能完成吴恩达那门声名远扬的机器学习课程 , 未能完成本科计算机视觉研究项目 , 但至少通过了统计学入门课程 , 这是大学里唯一的一门统计学课程 。 统计数据是ML和DS的一个基本组成部分 , 至少这件事情是正确的 。
在过渡到DS的过程中 , 这是一段没有成果的时间 。 笔者更关注的是在美国获得SE的实习机会 。
读芯术软件工程师的奇幻漂流:在Yelp和Uber的数据科学之旅
本文插图
图源:unsplash
2015年冬天 , 笔者终于在加州山景城的一家初创公司找到了实习机会 。 笔者使用k-NN和一个分析仪表板构建了一个简单的推荐系统 。 通过这些项目了解到如何利用数据和分析得出有助于制造伟大产品的见解 。 这激起了笔者的兴趣 , 笔者终于对DS和ML更加认真了 。
深入研究数据科学和机器学习
2015年秋天 , 笔者在Yelp获得了SE的实习机会 。 加入了流量质量团队 , 团队目标是识别和防止欺诈和滥用 。
尽管是一名SE实习生 , 但很幸运能够参与了DS相关的项目 。 实习过程中虽然遇到了不少难题 , 但真的收获了很多 。 包括监督和非监督ML、统计模型构建、如何进行严格的探索性分析以及用于管理大量数据的基础设施 。
笔者了解到理解数据和分析方法是至关重要的 , 否则事情可能不会像预期的那样运行 。 作为一名工程师 , 通常将方法和数据视为黑盒和抽象就足够了——但这在DS中并不总是有效 。 例如 , 一些方法及其参数只对特定类型的数据起作用 , 并包含某些假设 。
读芯术软件工程师的奇幻漂流:在Yelp和Uber的数据科学之旅
本文插图
图源:unsplash
从那时起 , 笔者开始阅读ML的论文 , 以便在实习期间更有效地使用这些工具 , 比如randomforests、k-means和logisticregression 。 其实我并不认为这是一个真正的DS实习 , 因为那时我缺乏基础知识 , 没有和很多同事合作 , 而且在实习期间仍需要很多指导 。
不过 , 在Yelp的经历让笔者有信心处理更有挑战性的项目 。 在Yelp编程马拉松上 , 笔者和所在的团队建立了一个逻辑回归分类器来识别SLAPP业务 。 这告诉笔者 , 检索和修改数据与过程或算法同样重要 , 甚至更重要 。