dropbox怎么用(iPad使用dropbox)

[CSDN的编者注]
Dropbox 借助机器学习的预测功能,每年能为公司节省了一百多七十多万美元的基础架构成本 。非常了不起的成就 。在本文中,我们来看看Dropbox使用机器学习的过程,并分析其优缺点 。
译者|弯月编辑|张文
出品| csdn (ID: csdnnews)
最近,Dropbox优化了生成和缓存文档预览的方式,并借助机器学习的预测能力,每年为公司节省170万美元的基础设施成本 。Dropbox的一些常用功能采用了机器学习,比如搜索、提示文件和文件夹、文档扫描OCR等 。虽然用户看不到Dropbox采用的机器学习,但这些应用仍然在其他方面促进了业务的发展 。
在本文中,我们来看看Dropbox使用机器学习的过程,以及它的优缺点 。
预览功能用户可以使用Dropbox的预览功能直接查看文件,无需下载内容 。除了常见的缩略图预览,Dropbox还提供了一个交互式预览界面,供用户共享文件和一起编辑文件,包括添加评论和标记其他用户 。
【dropbox怎么用(iPad使用dropbox)】我们的内部系统Riviera负责安全地生成文件预览,它可以处理数百种支持的文件类型的预览 。它可以将各种内容转换操作链接在一起,以创建适合特定文件类型的预览 。例如,Riviera可以将PDF文档的页面光栅化,并在Dropbox的Web界面中显示高分辨率预览 。完整内容预览功能支持批注、分享等交互 。大图片可以转换成缩略图,在各种情况下显示给用户,包括搜索结果或文件浏览器 。
在Dropbox规模上,Riviera每天需要处理数十Pb的数据 。为了加快某些类别大文件的预览速度,Riviera会提前生成预览并缓存预览结果(这个过程叫做预热) 。由于我们支持的文件量巨大,预热消耗的CPU和存储也相当可观 。
图:浏览文件时的缩略图预览 。预览可以放大,
并作为应用程序文件的 与用户交互 。
我们看到使用机器学习可以降低这些成本,因为一些预先生成的内容永远不会被任何人查看 。如果我们能有效预测一个预览是否会被使用,我们只需要对我们确定会被查看的文件进行预热,这样就节省了计算和存储之间的时间空 。我们的项目叫戛纳,灵感来源于法国戛纳电影节 。
机器学习的利弊权衡在preview的优化过程中,机器学习的两个妥协决定了我们的指导原则 。
之一个挑战是权衡机器学习对基础设施的成本效益 。减少预热文件可以节约成本,没有人不喜欢,但是也有可能漏掉一些文件,导致用户体验不好 。如果缓存中没有对应的文件预览,Riviera需要动态生成一个预览,在此期间,用户只能等待 。我们与预览团队一起制定了一项预防措施,以防止用户体验下降,并通过这项预防措施调整模型,以合理的方式节省成本 。
另一个权衡是复杂性和模型性能与可解释性和部署成本 。通常情况下,你需要权衡机器学习的复杂性和可解释性:通常情况下,模型越复杂,预测会越准确,但代价是可解释性会降低,你很难解释为什么会做出这样的预测,部署的复杂性也可能会增加 。在之一次迭代中,我们的目标是尽快提供一个可解释的机器学习解决方案 。
Cannes是在现有系统中新搭建的机器学习应用,所以我们更倾向于使用一个相对简单且可解释的模型,这样在研究更复杂的模型之前,我们可以集中精力建立模型、指标和报告 。如果有问题,或者Riviera有意外的行为,机器学习团队也可以调试,找出是戛纳还是其他问题 。我们的解决方案必须相对简单和便宜,因为我们每天需要部署近5亿个请求 。目前的系统只能预热所有可预览的文件,所以任何改进都可以节省成本,而且越快越好!
戛纳电影节考虑到这些权衡,我们选择了一个简单、易于训练和易于解释的模型 。该模型的之一个版本是梯度提升分类器 。在训练中,文件扩展名、存储文件的Dropbox帐户类型以及帐户在最近30天的活动被用作输入特征 。在对离线预约数据进行训练时,我们发现模型预热后,预测预览准确率最多能在60天内超过70% 。该模型拒绝了预留数据中约40%的预热请求,性能在我们为自己设定的预防指标之内 。假阴性的数量很少 。假阴性是指我们预测不会被查看,但最终会在接下来的60天内被查看的文件 。一旦发生这种情况,我们需要动态生成预览 。我们估算了成本:“拒绝百分比”——假阴性,发现我们一年可以节省170万美元 。
在探索预览优化之前,我们希望确保节省的成本能够超过构建机器学习解决方案的成本 。我们粗略估计了戛纳项目的成本节约 。在大型分布式系统中设计和部署机器学习系统时,你需要考虑系统变化对你的估计随时间的影响 。我们希望初始模型尽可能简单,这样即使相邻系统有一些微小的变化,成本的影响也不会发生数量级的变化 。通过对训练好的模型进行分析,可以更好地了解之一版实际可以节省的成本,确认投入是值得的 。