2020年最有用的机器学习工具2020

每个懒散的全栈数据科学家都应该使用5套工具
2020年最有用的机器学习工具2020文章插图
> Photo by Creatv Eight on Unsplash
TL; DR —构建良好的机器学习应用程序就像制作米其林式菜肴 。拥有一个井井有条的厨房是至关重要的 , 但是选择太多了 。在本文中 , 我重点介绍了我发现的工具 , 这些工具可用于交付专业项目 , 分享一些想法和替代方案 , 并进行快速的实时调查(您可以在参与后看到社区的想法) 。
像任何工具讨论一样 , 该列表并不详尽 。我尝试着眼于最有用和最简单的工具 。欢迎在评论部分中提出任何反馈意见 , 或者让我知道是否有更好的选择 。
免责声明:本帖子不被认可或赞助 。我将数据科学和ML互换使用 。
"如何构建良好的机器学习应用程序?"
在与学校中有抱负的数据科学家 , 希望转换的专业人士以及团队经理进行的聊天中 , 这个问题以各种形式多次出现 。
交付专业数据科学项目有很多方面 。像许多其他人一样 , 我喜欢使用在厨房做饭的类比:有成分(数据) , 食谱(设计) , 烹饪过程(以及您独特的方法) , 最后是实际的厨房(工具) 。) 。
因此 , 本文遍历了我的厨房 。它重点介绍了设计 , 开发和部署全栈机器学习应用程序的最有用工具 , 这些应用程序是与系统集成或在生产环境中为人类用户服务的解决方案 。
如果您想进一步了解交付ML的其他方面 , 请在此处查看我的文章 。
压倒性的可能性我们生活在黄金时代 。如果您在Google中搜索"机器学习工具"或咨询顾问 , 您可能会得到以下信息:
2020年最有用的机器学习工具2020文章插图
> Data & AI Landscape 2019, Image Source
那里有太多工具 。可能的组合是无限的 。这可能会令人困惑和压倒性 。所以 , 让我帮助您缩小范围 。也就是说 , 没有完美的设置 。这完全取决于您的需求和约束 。因此 , 进行相应的选择 , 选择和修改 。
我的列表按以下顺序排列优先级(不按顺序排列):
· 免费
· 易于学习和设置
· 未来证明(采用和工具成熟度)??
· 研究工程
· 在初创企业或大型企业中为大型或小型项目工作
· 只要完成工作
警告:我有99%的时间使用Python 。因此 , 这些工具可以与本机Python一起很好地使用或构建 。我尚未使用其他编程语言(例如R或Java)对其进行测试 。
1.冰箱:数据库PostgreSQL一个免费的开源关系数据库管理系统(RDBMS) , 强调可扩展性和技术标准合规性 。它旨在处理各种工作负载 , 从单台机器到具有多个并发用户的数据仓库或Web服务 。
2020年最有用的机器学习工具2020文章插图
> Image Source
备选方案:MySQL , SAS , IBM DB2 , Oracle , MongoDB , Cloudera , GCP , AWS , Azure , PaperSpace
2.工作台:部署管道工具管道工具对于开发的速度和质量至关重要 。我们应该能够以最少的人工处理快速进行迭代 。这是一个运行良好的设置 , 有关更多详细信息 , 请参阅我的12小时ML挑战文章 。每个懒惰的数据科学家都应该在项目的早期阶段对此进行尝试 。
2020年最有用的机器学习工具2020文章插图
> Author's work, 12-Hour ML Challenge
Github它提供了Git的分布式版本控制和源代码管理(SCM)功能 , 以及其自己的功能 。它为每个项目提供访问控制和多种协作功能 , 例如错误跟踪 , 功能请求 , 任务管理和Wiki 。
备选:DVC , BitBucket , GitLab
PyCharm社区版计算机编程中使用的集成开发环境(IDE) , 专门用于Python语言 。它是由捷克JetBrains公司开发的 。它提供代码分析 , 图形调试器 , 集成的单元测试器 , 与版本控制系统(VCSes)集成 , 并支持使用Django进行Web开发以及使用Anaconda进行数据科学开发 。