大数据|深度学习也能不玩大数据？小企业训练大模型有新解

文章插图
智东西（公众号：zhidxcom）
【 大数据|深度学习也能不玩大数据？小企业训练大模型有新解】编译 | 赵迪
编辑 | 云鹏
智东西2月10日消息，据外媒报道，AI领域专家吴恩达向IEEE表示深度学习未来的发展路径应当从用大数据训练模型向用优质数据转变，为无法获得大数据集的产业提供应用深度学习模型的机会。吴恩达曾任斯坦福人工智能实验室主任，此前主导谷歌的Google Brain项目。
吴恩达认为，对深度模型的训练应当从调整代码转向调整数据，通过调整影响训练结果的噪声数据（无意义数据），仅用少量优质的数据集即可完成模型更新，相较调整代码或直接提供海量数据的方式，这种方法更具针对性。
吴恩达2017年成立的Landing AI公司目前在为制造业产品检测方面提供计算机视觉工具，该工具能够对噪声数据进行快速标记，使客户通过更改数据标签自主完成模型的更新，不需要再对模型本身进行调整。
一、深度学习潜力强大，大数据训练集成主流人工智能的目标是让机器像人类一样“思考”和“行动”，机器学习是是实现这一愿景的重要方法，深度学习则是机器学习的重要分支，随着2012年Hinton教授用机器学习方法在ImageNet图像识别比赛中一举夺魁，深度学习逐渐受到广泛关注，在许多领域替代了传统的机器学习方法，成为人工智能中的热门研究领域。
过去十年里，深度学习实现了飞速发展，深度学习模型向着越来越大的方向发展，以OpenAI的自然语言处理模型GPT系列模型为例，2018年，GPT-1的参数规模突破1亿，到2020年GPT-3问世时时，参数规模已经突破百亿，超大模型的不断涌现，显示了深度学习的发展潜力。

文章插图
但是，吴恩达认为，虽然目前深度学习方法在许多面向消费者的公司里实现了广泛应用，但是这些公司往往拥有庞大的用户基础，能获得大型数据集进行模型训练，但对于许多不能获得大型数据集的行业，则需要将重点从提供大量数据转向提供优质数据。
二、从代码转向数据，用少量数据训练优质模型过去十年中，训练深度学习模型的主流方法是下载数据集，然后专注于改进代码，但如果一个机器学习模型对于大多数数据集来说是正常的，仅在其中一个数据集中出现偏差，为了适应这个数据集改变整个模型架构的方法是低效的。
还有一种方法是从数据下手，这类方法被称为“Data-centric AI”（以数据为中心的人工智能），一般的方法是通过补充更多数据提升模型的准确性。对此，吴恩达表示，如果试图为所有情况收集更多数据，这个工作量将会很大，因此他致力开发出标记噪声数据（无意义数据）的工具，提供一种针对性的方法，为模型训练提供少量但优质的数据。
吴恩达说他一般采用的方法是数据增强或提高数据标签的一致性等，比如对一个存有一万张图片的数据集，其中30张同类图片有不同的数据标记时，他希望能够构建识别标记不一致的图片的工具，使研究人员能快速对其重新标记，而不是再搜集海量数据进行模型训练。
三、Landing AI提供数据标记工具，用户自主实现模型更新2017年，吴恩达成立了Landing AI公司，为制造业公司提供产品检测的计算机视觉工具，为生产商的产品进行视觉检测。吴恩达在该公司的首页介绍道，用人眼发现电路板划痕超出了人眼观测能力的极限，但用AI进行识别的准确率就高得多。
Landing AI重点在于让客户能够自己训练机器学习模型，该公司主要为其提供相关工具，能在数据出现异常时进行数据标记，让公司自己就能实现模型的快速更新。

文章插图
吴恩达表示，这不仅仅是制造业的问题，以医疗健康领域为例，每家医院的电子版健康记录都有自己的格式，期望每家医院的程序员开发不同的模型是不现实的，唯一的方法就是为客户提供工具，让他们能够构建适配的模型，Landing AI目前在计算机视觉领域推广这样的工具，其他AI领域业需要做这样的工作。
结语：深度学习方法或转向，数据求精不求多长期以来，深度学习模型的更新与优化主要依赖对模型的调整，或直接补充更多数据，反复训练模型，提升模型的准确度。吴恩达则更推荐对少量噪声数据进行数据标记和更新，实现更有针对性的模型优化。