24个提高知识和技能极限的机器学习项目( 二 )


问题:预测业主占有的房屋的价值中值 。
开始:获取数据:~delve/data/boston/bostonDetail.html
教程:
5.时间序列分析数据集
24个提高知识和技能极限的机器学习项目文章插图
时间序列是数据科学中最常用的技术之一 。 它具有广泛的应用程序——天气预报 , 预测销售 , 分析逐年趋势等 。 此数据集特定于时间序列 , 而此处的挑战是以一种运输方式预测交通量 。 数据具有行和列 。
问题:以新的运输方式预测交通量 。
开始:获取数据:
教程::AnalyticsVidhya+TS_101+TS_term1/about
6.葡萄酒质量数据集
24个提高知识和技能极限的机器学习项目文章插图
这是数据科学初学者中最受欢迎的数据集之一 。 它分为2个数据集 。 你可以对此数据执行回归和分类任务 。 它将测试你在不同领域的理解能力——异常检测 , 特征选择和不平衡数据 。 该数据集中有4898行和12列 。
问题:预测葡萄酒的质量 。
开始:获取数据:+Quality
教程:~ilker/doc/wine_Stats315A.pdf
7. Turkiye学生评估数据集
24个提高知识和技能极限的机器学习项目文章插图
该数据集基于学生针对不同课程填写的评估表 。 它具有不同的属性 , 包括出勤率 , 难度 , 每个评估问题的得分等 。 这是一个无监督的学习问题 。 数据集有5820行和33列 。
问题:使用分类和聚类技术来处理数据 。
开始:获取数据:+Quality+Student+Evaluation
教程:
8.身高和体重数据集
24个提高知识和技能极限的机器学习项目文章插图
这是一个相当简单的问题 , 非常适合刚开始使用数据科学的人们 。 这是一个回归问题 。 数据集具有25,000行和3列(索引 , 高度和权重) 。
问题:预测一个人的身高或体重 。
开始:获取数据:
教程:~steve/computing_with_data/2_Motivation/motivate_ht_wt.html
中级1.黑色星期五数据集
24个提高知识和技能极限的机器学习项目文章插图
该数据集包含在零售商店捕获的销售交易 。 这是一个经典的数据集 , 可从多种购物体验中探索和扩展你的特殊工程技能以及日常理解能力 。 这是一个回归问题 。 数据集具有550,069行和12列 。
问题: 预测购买金额 。
开始:获取数据:
教程:
2.人类活动识别数据集
24个提高知识和技能极限的机器学习项目文章插图
该数据集是从通过嵌入式智能惯性传感器启用的智能手机捕获的30个人物的记录中收集的 。 许多机器学习课程将这些数据用于教学目的 。 轮到你了 。 这是一个多分类问题 。 数据集有10,299行和561列 。
问题:预测人类的活动类别 。
开始:获取数据:+Activity+Recognition+Using+Smartphones
教程:
3.文本挖?掘数据集
24个提高知识和技能极限的机器学习项目文章插图
该数据集最初来自2007年举行的暹罗文字采矿比赛 。 该数据包含描述某些飞行中出现的问题的航空安全报告 。 这是一个多分类的高维问题 。 它具有21,519行和30,438列 。
问题:根据文档的标签对文档进行分类 。
开始:获取数据:~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007
教程:
4.行程历史数据集
24个提高知识和技能极限的机器学习项目文章插图
该数据集来自美国的自行车共享服务 。 此数据集要求你锻炼专业数据处理技能 。 该数据从2010年第四季度开始按季度提供 。 每个文件有7列 。 这是一个分类问题 。
问题:预测用户类别 。
开始:获取数据:
教程:
5.百万首歌曲数据集
24个提高知识和技能极限的机器学习项目文章插图
你知道数据科学也可以用于娱乐行业吗?自己动手吧!该数据集提出了回归任务 。 它由5,15,345个观测值和90个变量组成 。 但是 , 这只是大约一百万首歌曲的原始数据数据库的一小部分。
问题:预测歌曲的发行年份 。
开始:获取数据:
教程:~yjli/content/projectreport.pdf
6.人口普查收入数据集
24个提高知识和技能极限的机器学习项目文章插图
这是一个不平衡的分类 , 是一个经典的机器学习问题 。 你知道 , 机器学习已广泛用于解决不平衡的问题 , 例如癌症检测 , 欺诈检测等 。 现在是时候自己动手了 。 数据集具有48,842行和14列 。