按关键词阅读: it芯片 CPU 酷睿处理器 雷神
数字时代 , 各行各业越来越依赖数据 。 从降雨总量到监控生产线 , 数据异常可以对业务结果产生深远影响 。 虽然数据异常在所难免 , 但如不关注和控制就会对业务可预见性和安全性造成威胁 。
为什么要关注数据异常?
比如一位银行遇到了一个问题:他们不得不重述几个季度的监管报告 , 因为他们的数据异常导致原始报告不准确 。 而现有的异常检测系统并没有发现这些问题 , 这意味着不仅要受到监管机构的处罚和罚款 , 而且还要花费大量的时间人力来识别和纠正这些数据 。
客户需要一个基于人工智能的异常检测引擎 , 以快速评估数据并提供可靠的结果 。 系统识别了一系列问题 , 进一步导致识别基础数据系统中的问题 。
在不调查原因的情况下删除、忽略或改动异常数据可能是灾难性的 , 更不用说代价了 。 下面这几个应用领域 , 可以脑补异常数据的重要性:
用于检测安全软件中的网络入侵
用于机器或部件故障的早期指示
用作医疗事件的早期指示
用来预测数据变化
用于改进制造过程
用于测量数据 , 以确定石油和天然气勘探的机会
并不是所有的数据都有异常 , 也不是所有的数据类型都容易进行异常检测 。 一些数据操作平台内置了基本的异常检测功能 。 对于更复杂的异常检测 , 通常需要基于机器学习的异常检测引擎 。 检测方法包括一系列的选项:
低复杂度:类别数据元素在99%的情况下都是一个值 。 剩下的1%可能是一种异常 。
中等复杂度:使用简单的机器学习在较少数据类型的中心模型中识别点异常 。
更高的复杂性:利用机器学习模型预测一个值 , 然后与实际值进行比较 , 并标记方差 。
非常复杂:使用深度学习模型来识别上下文和集体异常 。
检测算法的选择应基于待审查数据的类型、数据量、所需处理的相对速度以及所需的准确性 。 一般来说 , 数据的特性越多 , 算法就越复杂 , 训练和测试算法所需的计算能力也就越大 。
找到了异常点 , 接下来是什么?
一旦检测到异常 , 你的选择取决于对异常的理解、数据类型和识别异常的位置 。 你的检测方法通常是理解异常的第一步 。
异常应该在数据的上下文中 , 以及数据元素如何以及为什么被标记为异常的上下文中进行观察 。 数据列中的点异常可能只需要定义数据离平均值有多远 , 在上下文中标记数据元素 。 集体异常可能需要对随时间变化的数据进行更全面的观察 , 以解释一个或多个数据元素的标记 。
步骤1 .找出“为什么”
在任何情况下 , 理解“为什么”是解决“如何做”的必要元素 。 这是一次性的事情吗?这是数据转变的前兆吗?数据生态系统是否存在上游问题?这些问题中的每一个都可能导致解决异常的不同方法 , 数据补救技术也会有所不同 。 维护数据的完整性应该是最重要的 , 不能掉以轻心 。
步骤2 .决定是否应该修复
【雷神|数据在说话,你在听吗?】对于许多客户来说 , 检测数据中的问题会导致对上游系统进行修复并重新执行流程 。 有时答案因行业而异 。 在金融服务业 , 异常资料常常必须在数据源处加以校正 。 在制造业中 , 异常可能是一个信号 , 如机器的热量或振动变化 。 在这些情况下 , 通常不需要修复数据 , 而是需要修复底层问题 。 在医疗保健领域 , “如何做和为什么”可能是“我们是否应该修复它”的核心问题 。 这里 , 异常可能是错误测量的结果 , 也可能是一个信号 。 每个数据场景都提供了多种选项 。 当需要补救时 , 数据治理流程定义补救选项 , 包括保留数据特性和数据完整性 。
异常可能不需要补救 , 相反 , 它只需要被理解 。 异常现象本身并不是“坏”的 , 但它们可能在讲述一个“故事” 。 你需要在行动前了解故事情节 。
步骤3:“修复”异常
在考虑数据补救时 , 应注意避免产生额外的问题 。 这包括避免常见的数据库问题 , 如修改和插入异常 。
数据修复会受到数据类型的影响 , 可能会像异常检测过程本身一样复杂 。 数据是时间序列的一部分 , 分类的 , 连续的 , 离散的 , 还是其他的?必须使用不同的修复技术来处理每种数据类型 。 如果处理不当 , 单个异常的补救可能会导致上下文异常 。
补救的范围从简单的(使用规范化值)到复杂的(构建预测模型) 。 没有单一的补救解决方案 , 就像没有单一的方法来识别异常一样 。
稿源:(未知)
【傻大方】网址:/c/112YM9532021.html
标题:雷神|数据在说话,你在听吗?