dropbox怎么用(iPad使用dropbox) _iPad

[CSDN的编者注]
Dropbox 借助机器学习的预测功能，每年能为公司节省了一百多七十多万美元的基础架构成本。非常了不起的成就。在本文中，我们来看看Dropbox使用机器学习的过程，并分析其优缺点。
译者|弯月编辑|张文
出品| csdn (ID: csdnnews)
最近，Dropbox优化了生成和缓存文档预览的方式，并借助机器学习的预测能力，每年为公司节省170万美元的基础设施成本。Dropbox的一些常用功能采用了机器学习，比如搜索、提示文件和文件夹、文档扫描OCR等。虽然用户看不到Dropbox采用的机器学习，但这些应用仍然在其他方面促进了业务的发展。
在本文中，我们来看看Dropbox使用机器学习的过程，以及它的优缺点。
预览功能用户可以使用Dropbox的预览功能直接查看文件，无需下载内容。除了常见的缩略图预览，Dropbox还提供了一个交互式预览界面，供用户共享文件和一起编辑文件，包括添加评论和标记其他用户。
【dropbox怎么用(iPad使用dropbox)】我们的内部系统Riviera负责安全地生成文件预览，它可以处理数百种支持的文件类型的预览。它可以将各种内容转换操作链接在一起，以创建适合特定文件类型的预览。例如，Riviera可以将PDF文档的页面光栅化，并在Dropbox的Web界面中显示高分辨率预览。完整内容预览功能支持批注、分享等交互。大图片可以转换成缩略图，在各种情况下显示给用户，包括搜索结果或文件浏览器。
在Dropbox规模上，Riviera每天需要处理数十Pb的数据。为了加快某些类别大文件的预览速度，Riviera会提前生成预览并缓存预览结果(这个过程叫做预热) 。由于我们支持的文件量巨大，预热消耗的CPU和存储也相当可观。
图:浏览文件时的缩略图预览。预览可以放大，
并作为应用程序文件的与用户交互。
我们看到使用机器学习可以降低这些成本，因为一些预先生成的内容永远不会被任何人查看。如果我们能有效预测一个预览是否会被使用，我们只需要对我们确定会被查看的文件进行预热，这样就节省了计算和存储之间的时间空。我们的项目叫戛纳，灵感来源于法国戛纳电影节。
机器学习的利弊权衡在preview的优化过程中，机器学习的两个妥协决定了我们的指导原则。
之一个挑战是权衡机器学习对基础设施的成本效益。减少预热文件可以节约成本，没有人不喜欢，但是也有可能漏掉一些文件，导致用户体验不好。如果缓存中没有对应的文件预览，Riviera需要动态生成一个预览，在此期间，用户只能等待。我们与预览团队一起制定了一项预防措施，以防止用户体验下降，并通过这项预防措施调整模型，以合理的方式节省成本。
另一个权衡是复杂性和模型性能与可解释性和部署成本。通常情况下，你需要权衡机器学习的复杂性和可解释性:通常情况下，模型越复杂，预测会越准确，但代价是可解释性会降低，你很难解释为什么会做出这样的预测，部署的复杂性也可能会增加。在之一次迭代中，我们的目标是尽快提供一个可解释的机器学习解决方案。
Cannes是在现有系统中新搭建的机器学习应用，所以我们更倾向于使用一个相对简单且可解释的模型，这样在研究更复杂的模型之前，我们可以集中精力建立模型、指标和报告。如果有问题，或者Riviera有意外的行为，机器学习团队也可以调试，找出是戛纳还是其他问题。我们的解决方案必须相对简单和便宜，因为我们每天需要部署近5亿个请求。目前的系统只能预热所有可预览的文件，所以任何改进都可以节省成本，而且越快越好！
戛纳电影节考虑到这些权衡，我们选择了一个简单、易于训练和易于解释的模型。该模型的之一个版本是梯度提升分类器。在训练中，文件扩展名、存储文件的Dropbox帐户类型以及帐户在最近30天的活动被用作输入特征。在对离线预约数据进行训练时，我们发现模型预热后，预测预览准确率最多能在60天内超过70% 。该模型拒绝了预留数据中约40%的预热请求，性能在我们为自己设定的预防指标之内。假阴性的数量很少。假阴性是指我们预测不会被查看，但最终会在接下来的60天内被查看的文件。一旦发生这种情况，我们需要动态生成预览。我们估算了成本:“拒绝百分比”——假阴性，发现我们一年可以节省170万美元。
在探索预览优化之前，我们希望确保节省的成本能够超过构建机器学习解决方案的成本。我们粗略估计了戛纳项目的成本节约。在大型分布式系统中设计和部署机器学习系统时，你需要考虑系统变化对你的估计随时间的影响。我们希望初始模型尽可能简单，这样即使相邻系统有一些微小的变化，成本的影响也不会发生数量级的变化。通过对训练好的模型进行分析，可以更好地了解之一版实际可以节省的成本，确认投入是值得的。