24个提高知识和技能极限的机器学习项目

介绍数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业 。 你不仅可以通过应用它来学习数据科学 , 还可以在自己的简历上展示一些项目!
如今 , 招聘人员通过他/她的工作来评估应聘者的潜力 , 而不是将重点放在认证上 。 如果你没有什么东西可以告诉他们 , 那也没关系!这是大多数人挣扎和错过的地方 。
你以前可能曾处理过几个问题 , 但是如果你无法使其表现得那么好且易于解释 , 那么究竟有什么人会知道你的能力呢?这些项目将为你提供帮助 。 想想你将花费在这些项目上的时间 , 例如培训课程 。 练习花费的时间越多 , 你就会变得更好!
我们确保为你提供不同领域的各种问题 。 我们认为 , 每个人都必须学习如何巧妙地处理大量数据 , 因此其中包括大型数据集 。 另外 , 我们确保所有数据集都是开放的并且可以自由访问 。
24个提高知识和技能极限的机器学习项目文章插图
有用的信息为了帮助你确定从何处开始 , 我们将该列表分为3个级别 , 即:

  1. 初级: 此级别包含相当容易使用的数据集 , 并且不需要复杂的数据科学技术 。 你可以使用基本回归或分类算法来解决它们 。 而且 , 这些数据集有足够的开放教程来帮助你入门 。
  2. 中级:此级别包含本质上更具挑战性的数据集 。 它由中型和大型数据集组成 , 需要一些认真的模式识别技能 。 此外 , 功能工程将在这里有所作为 。 机器学习技术的使用没有限制;阳光下的一切都可以使用 。
  3. 高级:此级别最适合理解高级主题(如神经网络 , 深度学习 , 推荐系统等)的人员 。 此处还提供了高维数据集 。 另外 , 这是时候发挥创造力了 。 查看最佳数据科学家将其带入他们的工作和代码的创造力 。
目录
  1. 初级 虹膜数据 贷款预测数据 Bigmart销售数据 波士顿住房数据 时间序列分析数据 葡萄酒质量数据 Turkiye学生评估数据 身高体重数据
  2. 中级 黑色星期五数据 人类活动识别数据 暹罗比赛数据 行程记录数据 百万首歌曲数据 人口普查收入数据 电影镜头数据 Twitter分类数据
  3. 高级 识别你的数字 城市声音分类 Vox名人资料 ImageNet数据 芝加哥犯罪数据 印度演员数据的年龄检测 推荐引擎数据 VisualQA数据
初级1.虹膜数据集
24个提高知识和技能极限的机器学习项目文章插图
这可能是模式识别文献中最通用、最简单、资源最丰富的数据集 。 没有什么比虹膜数据集学习分类技术更简单的了 。 如果你是全新的数据科学学习生 , 这将成为你的起点 。 数据只有150行4列 。
问题:根据可用属性预测花朵的类别 。
开始:获取数据:
教程:
让我们看一下Iris数据 , 并在下面的“实时编码”窗口中构建一个Logistic回归模型 。
://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
2.贷款预测数据集
24个提高知识和技能极限的机器学习项目文章插图
在所有行业中 , 保险领域是分析和数据科学方法最大的用途之一 。 该数据集使你可以从保险公司的数据集中进行操作 , 那里面临着哪些挑战 , 使用了什么策略 , 哪些变量影响了结果等等 。 这是一个分类问题 。 数据有615行和13列 。
问题:预测贷款是否会获得批准 。
开始:获取数据:
教程:
让我们看一下“贷款”数据并在下面的“实时编码”窗口中构建一个Logistic回归模型 。
://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
3. Bigmart销售数据集
24个提高知识和技能极限的机器学习项目文章插图
零售是另一个广泛使用分析来优化业务流程的行业 。 使用数据科学技术可以巧妙地处理诸如产品放置 , 库存管理 , 自定义报价 , 产品捆绑等任务 。 顾名思义 , 该数据包含销售商店的交易记录 。 这是一个回归问题 。 数据具有12个变量的8523行 。
问题:预测商店的销售额 。
开始:获取数据:
教程:
让我们看一下Big Mart销售数据 , 并在下面的“实时编码”窗口中构建线性回归模型 。
://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
4.波士顿住房数据集
24个提高知识和技能极限的机器学习项目文章插图
这是模式识别文献中另一个流行的数据集 。 数据集来自美国波士顿的房地产行业 。 这是一个回归问题 。 数据具有506行和14列 。 因此 , 这是一个相当小的数据集 , 你可以在其中尝试任何技术而不必担心笔记本电脑的内存被过度使用 。