「苏宁金融研究院」魔力背后的秘密是什么?,人工智能助力抗疫( 二 )
AlphaGo为了解决围棋的复杂问题 , 结合了有监督学习和强化学习的优势 , 通过标注数据训练形成一个策略网络 , 将棋盘上的当前棋子的布局状态作为输入信息 , 对所有可能的下一步落子位置生成一个概率分布 。 以-1(对手胜利)到1(AlphaGo胜利)为标准 , 预测所有落子位置的得分 。 也就是说 , 针对每个棋盘状态定义了一个学习目标 , 如此大量的循环往复 , 模型学会了应对不同的棋盘布局能够预测最佳落子位置 , 最终取得令人瞩目的成果 。
2、无监督学习
【「苏宁金融研究院」魔力背后的秘密是什么?,人工智能助力抗疫】无监督学习被称为“没有老师的学习” , 相比有监督学习的不同之处在于 , 不使用事先标注的训练样本 , 没有训练的过程 , 而是直接拿无标注的数据进行建模分析 , 通过机器学习自行学习探索 , 从数据集中发现和总结模式或者结构 。
典型的无监督学习算法包括:生成对抗网络(GAN)、前馈神经网络、逻辑学习机、自组织映射、Apriori算法、Eclat算法、DBSCAN算法、期望最大化、模糊聚类、k-means算法等 。
这里以k-means算法为例来看看无监督学习背后的运行机制 , 这是一种用来计算数据聚类的算法 。
文章图片
例如 , 对上图中的A、B、C、D、E五个点聚类 , 主要方法是不断地设定并调整种子点的位置 , 计算离种子点最近的均值 , 最终根据距离聚成群 。 灰色的是开始时设定的种子点 , 首先 , 计算五个点与种子点之间直接的距离 , 然后 , 将种子点逐步移动到点群的中心 。 最终 , A、B、C和D、E分别根据离种子点的距离聚类为点群 。
这个方法看上去很简单 , 但是应用的范围非常广泛 , 包括给网页文本进行主题分类;分析一个公司的客户分类 , 对不同的客户使用不同的商业策略;电子商务中分析商品相似度 , 归类商品 , 从而得出不同的销售策略等 。
曾有人做过一个有趣的分析 , 给亚洲15支足球队的2005年到2010年的战绩做了一个表 , 然后用k-Means把球队归类 , 得出了下面的结果 , 来 , 感觉一下是否靠谱?
亚洲一流:日本、韩国、伊朗、沙特;
亚洲二流:乌兹别克斯坦、巴林、朝鲜;
亚洲三流:中国、伊拉克、卡塔尔、阿联酋、泰国、越南、阿曼、印尼 。
3、半监督学习
半监督学习 , 处在有监督学习和无监督学习的中间带 , 其输入数据的一部分是有标签的 , 另一部分没有标签 , 而没标签数据的数量往往远大于有标签数据数量(这也是符合现实情况的) 。 常见的半监督学习类算法包含:生成模型、低密度分离、基于图形的方法、联合训练等 。
4、强化学习
强化学习 , 主要是让机器从一个状态转变到另一个状态 , 当完成任务时获得高分奖励 , 但是没有完成任务时 , 得到的是低分惩罚 , 这也是强化学习的核心思想 。 常见的强化学习类算法包含:Q学习、状态-行动-奖励-状态-行动(SARSA)、DQN、策略梯度算法、基于模型强化学习、时序差分学习等 。
强化学习是近些年大家研究的一个重点 , 我们以Q学习为例说明(此处 , 引用了McCullock一个非常好的样例) 。 假设一个房子有五个房间 , 房间之间通过门连接 , 从0到4编号 , 屋外视为一个单独的房间 , 编号为5 , 如下方左图 。
文章图片
我们把左面的图转换一下 , 房间作为节点 , 如果两个房间有门相连 , 则中间用一条边表示 , 得到上方右图 。
假设我们的目标是从屋内任意一个房间走到屋外 , 即编号5 , 2号房间是起点 , 每条边设定奖励值 , 指向5的为100 , 其他为0 , 可以发现 , 通过得分奖励 , 从2到3 , 再到1或4 , 最终路线会收敛到5 。
- 『零壹财经』在于金融,融慧金科王劲:金融科技的基石不在科技
- 左右为柟@时代重压下的中年人,老罗带货还债,苏宁副总裁“卖内裤”
- 甬商小灵通▲疫情下,跨境电商新机遇来了,苏宁国际3月销售额增长145.54%
- [甬商小灵通]专家点赞苏宁全员营销:艰难时刻企业上下一心非常重要
- 【IT之家】32款全新升级笔电上线苏宁,英特尔重磅发布十代CPU
- 『数梦工场』强强联合!数梦工场与中国安全生产科学研究院达成战略合作
- #互联网+体育#热讯丨苏宁体育成立新公司注册资本1000万元;本赛季英超成绩取消
- [科技犬]华为智选USB智能插线板众筹;苏宁小Biu空调Max发布
- 「国际金融报」美国考虑进一步加强芯片管制?华为这样回应
- 「创富邦」苏宁天天快递开通中小商户扶持通道,联合苏宁拼购、专属政策