低代码的器学习工具( 二 )


> Image by Author.
PyCaret还具有plot_model()函数 , 该函数显示模型性能的图形表示 。
plot_model(rf_model)
低代码的器学习工具文章插图
> Image by Author.
本教程刚刚展示了使用PyCaret库进行模型训练的基础 。还有更多功能和模块可提供完整的低码机器学习解决方案 , 包括功能工程 , 模型调整 , 持久性和部署 。
BigQuery MLGoogle在2018年发布了一个名为BigQuery ML的新工具 。BigQuery是Google的云数据仓库解决方案 , 旨在为数据分析师和科学家提供快速访问大量数据的途径 。BigQuery ML是一种工具 , 可让仅使用SQL从BigQuery数据仓库直接开发机器学习模型 。
自从发布以来 , BigQueryML已经发展到可以支持大多数常见的机器学习任务 , 包括分类 , 回归和聚类 。您甚至可以导入自己的Tensforflow模型以在工具中使用 。
根据我自己的经验 , BigQueryML是用于加速模型原型制作的极其有用的工具 , 并且还可以用作基于生产的系统来解决简单的问题 。
为了简要介绍该工具 , 我将使用称为成人收入数据集的数据集来说明如何在BigQueryML中建立和评估逻辑回归分类模型 。
该数据集可以在UCI机器学习存储库中找到 , 我正在使用以下Python代码以CSV文件的形式下载 。
url_datahttp://kandian.youth.cn/index/= ''column_names = ['age', 'workclass', 'fnlwgt', 'education', 'educational-num','marital-status','occupation', 'relationship', 'race', 'gender','capital-gain', 'capital-loss','hours-per-week', 'native-country','income']adults_data = http://kandian.youth.cn/index/pd.read_csv(url_data, names=column_names)adults_data.to_csv('adults_data.csv')这是一个脚本 , 用于下载数据并导出为CSV文件 。
如果您还没有Google Cloud Platform(GCP)帐户 , 则可以在此处创建一个 。最初注册时 , 您将获得$ 300的免费信用额度 , 足以试用以下示例 。
进入GCP后 , 从下拉菜单导航至BigQuery网络用户界面 。如果您是第一次使用GCP , 则需要创建一个项目并使用BigQuery进行设置 。Google快速入门指南在此处提供了很好的概述 。
我先前下载的CSV文件可以直接上传到GCP中以创建表格 。
低代码的器学习工具文章插图
> Image by Author.
您可以通过单击边栏中的表名称并选择预览来检查表中的数据 。现在 , 成人的数据就是BigQuery中的数据 。
低代码的器学习工具文章插图
> Image by Author.
要针对这些数据训练模型 , 我们只需编写一个SQL查询 , 该查询从表中选择所有内容(*) , 将目标变量(收入)重命名为label , 并添加逻辑以创建名为" adults_log_reg"的逻辑回归模型 。
有关所有模型选项 , 请参见此处的文档 。
CREATE MODEL `mydata.adults_log_reg`OPTIONS(model_type='logistic_reg') ASSELECT *,ad.income AS labelFROM`mydata.adults_data` ad如果我们单击现在将出现在数据表旁边的侧栏中的模型 , 则可以看到对训练效果的评估 。
低代码的器学习工具文章插图
> Image by Author.
现在我们可以使用模型使用ML.PREDICT函数进行预测 。
Fastai众所周知 , 诸如Tensorflow之类的流行深度学习框架具有陡峭的学习曲线 , 对于初学者或非数据科学家而言 , 可能很难起步并运行它 。fastai库提供了一个高级API , 使您可以用几行简单的代码来训练神经网络 。