物联网资产标记方法研究—基于聚类算法的物联网资产识别算法( 二 )


2. 遍历邻域内所有核心点 , 寻找密度连接点 。 不停迭代直到无法寻找到连接点
3. 重新寻找没被聚类的核心点 , 重复步骤12直到收敛
我们采用100万物联网资产数据进行两种聚类算法时间开销的评估发现基于距离计算的KMeans算法明显优于基于密度计算的DBSCAN算法 , 如表所示 。
物联网资产标记方法研究—基于聚类算法的物联网资产识别算法文章插图
其原因在于KMeans算法在大型数据可以做到简单高效 , 时间复杂度比较低 , 但是对于噪声比较敏感 。 而DBSCAN数据对于噪声并不敏感 , 而且能发现任意数量性状的聚类情况 , 时间复杂度比KMeans算法高 。
我们在两种不同聚类算法上进行聚类效果评估发现DBSCAN算法要优于KMeans算法 。 如表所示 。
物联网资产标记方法研究—基于聚类算法的物联网资产识别算法文章插图
在资产服务文本聚类过程中我们采用两种聚类算法结合的形式对数据进行无监督聚类 , 分别利用不同算法的优势解决问题 。
在海量信息中聚类得到的结果里往往一次聚类难以得到细分的物联网资产设备 , 因此先利用KMeans算法进行第一次聚类 , 由于资产数据量大 , 聚类算法速度不能太慢 , 所以KMeans算法可以简单高效的得到聚类结果 。
然后利用DBSCAN算法对文本聚类的结果进行二次聚类 , 这样由于第一次聚类结果得到的每个聚类簇的大小相对原来的数据已经小了很多 , 而且DBSCAN再次进行聚类能够得到噪声更少的聚类效果 。 从而将聚类效果进行进一步细分提升 , 得到更好的聚类效果 , 其过程如图所示 。
物联网资产标记方法研究—基于聚类算法的物联网资产识别算法文章插图
聚类算法应用流程
经过聚类之后的物联网资产中有大量的聚类簇满足资产特征 , 从而对后续的指纹提取以及专家验证提供了便捷的算法支持 , 加速了物联网资产的识别过程 。
4. 总结【物联网资产标记方法研究—基于聚类算法的物联网资产识别算法】本文介绍了聚类算法在物联网资产识别中的应用及实践 , 通过实践证明利用聚类算法将大量的物联网资产信息进行聚类能够提升专家对指纹的提取效率 。 当然现有采用聚类算法的方式还不够完美 , 一方面对于资产的识别效果严重依赖于算法聚类的效果 , 无法保证聚类结果中有效的物联网资产出现的数量;另一方面聚类算法本身的稳定程度比较有限 , 无论是评估效果还是保证算法稳定性都比较困难 。 对于物联网资产识别的研究未来依然存在很大的提升空间 , 对于物联网的安全研究而言是必不可少的 。