低代码的器学习工具( 二 )


该数据集可以在UCI机器学习存储库中找到 , 我正在使用以下Python代码以CSV文件的形式下载 。
url_datahttp://kandian.youth.cn/index/= ''column_names = ['age', 'workclass', 'fnlwgt', 'education', 'educational-num','marital-status','occupation', 'relationship', 'race', 'gender','capital-gain', 'capital-loss','hours-per-week', 'native-country','income']adults_data = http://kandian.youth.cn/index/pd.read_csv(url_data, names=column_names)adults_data.to_csv('adults_data.csv')这是一个脚本 , 用于下载数据并导出为CSV文件 。
如果您还没有Google Cloud Platform(GCP)帐户 , 则可以在此处创建一个 。最初注册时 , 您将获得$ 300的免费信用额度 , 足以试用以下示例 。
进入GCP后 , 从下拉菜单导航至BigQuery网络用户界面 。如果您是第一次使用GCP , 则需要创建一个项目并使用BigQuery进行设置 。Google快速入门指南在此处提供了很好的概述 。
我先前下载的CSV文件可以直接上传到GCP中以创建表格 。
低代码的器学习工具文章插图
> Image by Author.
您可以通过单击边栏中的表名称并选择预览来检查表中的数据 。现在 , 成人的数据就是BigQuery中的数据 。
低代码的器学习工具文章插图
> Image by Author.
要针对这些数据训练模型 , 我们只需编写一个SQL查询 , 该查询从表中选择所有内容(*) , 将目标变量(收入)重命名为label , 并添加逻辑以创建名为" adults_log_reg"的逻辑回归模型 。
有关所有模型选项 , 请参见此处的文档 。
CREATE MODEL `mydata.adults_log_reg`OPTIONS(model_type='logistic_reg') ASSELECT *,ad.income AS labelFROM`mydata.adults_data` ad如果我们单击现在将出现在数据表旁边的侧栏中的模型 , 则可以看到对训练效果的评估 。
低代码的器学习工具文章插图
> Image by Author.
现在我们可以使用模型使用ML.PREDICT函数进行预测 。
Fastai众所周知 , 诸如Tensorflow之类的流行深度学习框架具有陡峭的学习曲线 , 对于初学者或非数据科学家而言 , 可能很难起步并运行它 。fastai库提供了一个高级API , 使您可以用几行简单的代码来训练神经网络 。
Fastai与Pytorch一起使用 , 因此您需要先安装这两个库 , 然后才能使用它 。
pip install pytorch
pip install fastai
fastai库具有用于处理结构化数据和非结构化数据(例如文本或图像)的模块 。在本教程中 , 我们将使用fastai.tabular.all模块来解决我们之前使用的葡萄酒数据集的分类任务 。
类似于PyCaret , fastai将通过嵌入层对非数字数据类型执行预处理 。为了准备数据 , 我们使用TabularDataLoaders帮助器函数 。在这里 , 我们具体说明了数据框的名称 , 列的数据类型以及我们要模型执行的预处理步骤 。
要训练神经网络 , 我们只需使用tabular_learner()函数 , 如下所示 。
dl = TabularDataLoaders.from_df(data, y_names="type",cat_names = ['quality'],cont_names = ['fixed acidity', 'volatile acidity','citric acid', 'residual sugar','chlorides', 'free sulfur dioxide','total sulfur dioxide', 'density','pH', 'sulphates', 'alcohol'],procs = [Categorify, FillMissing, Normalize])运行此代码后 , 将显示性能指标 。
低代码的器学习工具文章插图
> Image by Author.
要使用模型进行预测 , 您可以简单地使用learning.predict(df.iloc [0]) 。
探索fastai库的更多信息 , 请参见此处的文档 。
谢谢阅读!
【低代码的器学习工具】(本文翻译自Rebecca Vickery的文章《Low Effort Machine Learning Tools》 , 参考:)