数据挖掘|什么是数据挖掘中的聚类?

数据挖掘|什么是数据挖掘中的聚类?

文章图片

数据挖掘|什么是数据挖掘中的聚类?

数据挖掘和聚类密切相关 。 它们都专注于特定数据集的模式识别 。
主要是机器学习、模式识别和统计的共同努力 。 它们有助于发现数据中的模式 。 聚类是数据挖掘的各种方法之一 。

数据分析
什么是数据挖掘中的聚类?通常 , 数据挖掘最终会发现模式 。 如果您特别谈论聚类 , 它是一种无监督的数据挖掘方法 , 可将数据分成几组 。 换句话说 , 聚类是将数据统计分布到子类中 。 每个子类都展示了一组相似的对象 。 这是一种无监督算法 。
让我们考虑用这个例子来阐明它的含义 。 当您在搜索引擎中键入一个短语时 , 它会立即进行监控 。 每当您再次浏览它时 , 它都会排列一系列由您之前的搜索所激发的广告 。 它的机器人需要几分钟来扫描您探索的内容 。 同样 , 许多其他用户也会浏览过类似或相关的信息 。 但是 , 他们的措辞可能会有所不同 。 它的机器人在算法中进行了数十亿次搜索 , 以列出最易搜索的短语 。 这就是数据挖掘 。

数据处理
无监督算法使用多个变量描述数据作为输入 。 与监督算法不同 , 它没有变量来预测 。
它的各种方法是什么?数据可以有多种类型 , 如调查、报告、表格、图像等 。 其各种方法处理 数据挖掘中聚类分析中的数据类型 。 因此 , 结果出现了决定性的作用 。

  1. 划分方法:假设一个数据集包含 n 个对象 , 而它们划分为组 k 。这意味着每个 k 组将有 n 个 对象 , 前提是:
  • 每个集群应该至少有一个对象 。
  • 一个对象应该只属于一个集群 。

【数据挖掘|什么是数据挖掘中的聚类?】大数据
这种聚类在数据挖掘中最初是有效的 。 紧随其后的是迭代重定位技术以及进行精细聚类 。
  1. 分层方法:它是数据对象的分层分解 。 它的凝聚方法首先将每个对象聚集在一个组中 。 随后 , 根据自下而上的方法 , 合并密切相关的对象 , 直到留下一个对象 。
另一方面 , 矿工可以采用自上而下的方法 , 即 。 分裂的方法 。 它首先将所有对象聚集到一个组中 。 然后 , 它被分成更小的集群 。
  1. 基于密度的方法:顾名思义 , 只要相邻簇的密度超过其阈值 , 该方法就会扩大簇的半径 。
  2. 基于模型的方法:它基于假设建模 。 建立一个假设模型以找到数据的最佳拟合 。 密度函数保持在核心 。 然后 , 出现数据的空间分布 。 在考虑异常值或噪声的同时 , 标准统计数据确定聚类 。
  3. 基于约束的方法:这种方法反映了将用户或面向应用的约束(如用户的期望)合并到集群中 。
它的应用有哪些?
  1. 市场 研究: 市场研究需要深入洞察比较和预测分析 。 这种聚类广泛地有助于识别隐藏模式、分析和战略形成 。
  2. 互联网算法:万维网使用它来理解搜索以过滤准确的结果或信息 。
  3. 模式识别:许多银行使用异常值检测应用程序来筛选信用卡欺诈模式 。
  4. 图像处理:比方说 , 政府想要了解有关特定地点征地的确切信息 。 聚类有助于根据图像中出现的房屋类型、价值和地理位置确定房屋类型 。
  5. 数据挖掘:它有助于对营销循环进行分类、客户分析、派生植物和动物分类法、基因分类和对任何目标领域的洞察 。