24个提高知识和技能极限的机器学习项目( 三 )


问题:预测美国人口的收入等级 。
开始:获取数据:
教程:~jmcauley/cse190/reports/sp15/048.pdf
7.电影镜头数据集
24个提高知识和技能极限的机器学习项目文章插图
你是否已建立推荐系统?这是你的机会!该数据集是数据科学行业中最受欢迎和引用最多的数据集之一 。 它有各种尺寸 。 在这里 , 我使用了相当小的尺寸 。 它在4,000部电影中获得6,000名用户的100万收视率 。
问题:向用户推荐新电影 。
开始:获取数据:
教程:
8. Twitter分类数据集
24个提高知识和技能极限的机器学习项目文章插图
使用Twitter数据已成为情感分析问题不可或缺的一部分 。 如果你想在这一领域为自己开拓一片天地 , 那么你将很乐于应对该数据集带来的挑战 。 数据集大小为3MB , 具有31,962条推文 。
问题:识别哪些是仇恨推特 , 哪些不是 。
开始:获取数据:
教程:
高级1.确定你的位数数据集
24个提高知识和技能极限的机器学习项目文章插图
该数据集使你可以研究 , 分析和识别图像中的元素 。 这就是相机使用图像识别来检测你的脸的方式!现在轮到你构建和测试该技术了 。 这是一个数字识别问题 。 该数据集包含7,000张28 X 28大小的图像 , 总计31MB 。
问题:识别图像中的数字 。
开始:获取数据:
教程:
2.城市声音分类
24个提高知识和技能极限的机器学习项目文章插图
当你开始机器学习之旅时 , 你会遇到简单的机器学习问题 , 例如泰坦尼克号生存预测 。 但是 , 对于现实生活中的问题 , 你仍然没有足够的练习 。 因此 , 此练习问题旨在向你介绍常规分类情况下的音频处理 。 该数据集包含10个类别的8,732个城市声音的声音摘录 。
问题:从音频中分类声音的类型 。
开始:获取数据:
教程:
3. Vox名人数据集
24个提高知识和技能极限的机器学习项目文章插图
音频处理正迅速成为深度学习的重要领域 , 因此这是另一个具有挑战性的问题 。 此数据集用于大规模的说话人识别 , 包含从YouTube视频中提取的名人所说的单词 。 这是用于分离和识别语音的有趣用例 。 数据包含1,251位名人所说的100,000次讲话 。
问题:找出声音属于哪个名人 。
开始:获取数据:~vgg/data/voxceleb/
教程:~vgg/publications/2017/Nagrani17/nagrani17.pdf
4. ImageNet数据集
24个提高知识和技能极限的机器学习项目文章插图
ImageNet提供了各种问题 , 包括对象检测 , 定位 , 分类和屏幕解析 。 所有图像均可免费获得 。 你可以搜索任何类型的图像并围绕该图像构建项目 。 截止到目前 , 该图像引擎已经拥有超过1500万张多种形状的图像 , 大小高达140GB 。
问题:要解决的问题取决于你下载的图像类型 。
开始:获取数据:
教程:
5.芝加哥犯罪数据集
24个提高知识和技能极限的机器学习项目文章插图
如今 , 每位数据科学家都希望能够处理大型数据集 。 当公司在整个数据集上具有计算能力时 , 他们不再喜欢使用样本 。 该数据集为你提供了在本地计算机上处??理大型数据集所需的实际经验 。 问题很容易 , 但是数据管理才是关键!该数据集具有600万个观测值 。 这是一个多分类问题 。
问题:预测犯罪类型 。
开始:获取数据:
教程:
6.印度演员年龄数据集
24个提高知识和技能极限的机器学习项目文章插图
对于任何深度学习爱好者来说 , 这都是一个吸引人的挑战 。 数据集包含数千个印度演员的图像 , 你的任务是确定他们的年龄 。 手动选择所有图像 , 并从视频帧中裁剪所有图像 , 这导致了比例 , 姿势 , 表情 , 年龄 , 分辨率 , 遮挡和化妆具有高度的可变性 。 训练集中有19,906张图像 , 测试集中有6,636张图像 。
问题:预测演员的年龄 。
开始:获取数据:
教程:
7.推荐引擎数据集
24个提高知识和技能极限的机器学习项目文章插图
这是一个高级推荐系统的挑战 。 在这个实践问题中 , 将为你提供程序员的数据和他们先前已解决的问题 , 以及他们解决该特定问题所花费的时间 。 作为数据科学家 , 你建立的模型将帮助在线评委决定下一级的问题推荐给用户 。
问题:根据用户的当前状态 , 预测解决问题所需的时间 。