大数据

探讨数据挖掘算法之常用聚类算法

2021-04-21 11:50:58　|　来源：中培企业IT培训网

对于数据挖掘算法这个词大家可能都不是特别了解。数据挖掘算法它是根据数据创建数据挖掘模型的一组试探法和计算。一般常用的数据挖掘算法分为四大类，它们分别是分类，聚类，推荐和关联算法。数据挖掘算法为了创建模型，首先是分析您提供的数据，探后查找特定类型的模式以及趋势。数据挖掘算法使用此类分析的结果来定义用于创建挖掘模型的最佳参数。下面我们就来看看探讨数据挖掘算法之常用聚类算法。

聚类算法

k-means聚类算法

K-means算法是根据间距最基本上的归类算法，是十大数据发掘算法之一。K-means算法在归类给出的数据集时，选用非此即彼的硬归类方法。

应用K-means算法时，务必了解K值的尺寸，即聚类数。

k-means算法的优点。

1.K-means算法简易便捷，便于了解。

2.K-means算法可扩展性好，高效率。

3.k-means算法搜集全部数据样版。

4.k-means算法更适合达到伽马分布和分布均匀的数据种类聚类效果表。

k-means算法的缺点。

1.k-means对原始聚类管理中心敏感。

2.k-means必须事前明确聚类总数。

3.k-means对孤立点和噪声点比较敏感。

针对K-means算法中K值和原始定位点的预先确定，现有很多有关完善的理论基础研究和工程项目运用。尤其是K-means算法在应用全过程中必须预先确定K值的难点难题，该精英团队之前的新项目开展了很多的科学研究，并明确提出了合理的方式来明确K值。

K-means算法运用案例:K-means算法在刊物《现代防御技术》2015年12月第43卷第六期的毕业论文题目中被选用为新的Kmeans聚类雷达信号筛分算法。该算法全自动得到原始聚类管理中心和聚类数后，筛选频率捷变雷达信号。仿真模拟结果认证了毕业论文选用该算法开展数据信号筛选实验，仿真模拟结果证实了筛选方式的准确性和可行性分析。

FCM算法

FCM算法是Bezdek于1973年明确提出的根据归类的模糊不清归类算法。该算法是一种运用隶属度明确每一个数据点归属于某一归类水平的方式。与K-means算法对比，FCM是一种灵活的模糊不清分类方法。

FCM算法的优点。

1.FCM算法拥有浓厚的数学基础。

2.FCM算法不易深陷部分最化。

3.FCM算法对达到标准正态分布的数据归类十分合理。

FCM算法的缺点。

1.FCM算法对孤立点敏感。

2.算法必须提早明确归属于主要参数m和聚类数k。

Canopy算法

Canopy算法是一种粗聚类方式，不用事前特定聚类总数。当聚类精密度规定较低，速率规定较高时，可立即选用Canopy聚类算法对数据样版开展立即解决。或有精准度规定时，可作为K-means或FCM聚类算法的预备处理流程，先取K值，再开展精准聚类。因而，Canopy算法具备很高的实际意义。

Canopy算法的优点

1.Canopy算法收敛快。

2.K-means和FCM对噪声的抗干扰性较差，可以根据Canopy预备处理除去影响。

3.挑选Canopy算法的定位点/聚类数作为K-means算法的初始条件是科学研究的。

4.当K-means/FCM进一步精准聚类时，只需解决每一个Canopy中的数据。

5.大大减少类似计算的总数。

Canopy算法的缺点

1.算法精密度并不是很高。

2.算法必须事前明确2个间距阈值。

分层聚类算法

分层聚类算法是将全部数据集自底向上合拼成一棵树或自顶向下切分成一棵树的全过程，这二种方式各自称之为分层聚类算法。针对分层聚类算法，在原始环节，将每一个样版点各自作为其类簇，随后将这种分子类簇合拼抵达预估的类簇数或别的停止条件;针对分层聚类算法，在原始环节，将全部样版点作为同一类簇，随后将这种类别簇合拼到预估的类簇数或别的停止条件。

分层聚类算法的优点

1.分层聚类算法不用预先确定聚类数。

2.分层聚类算法能发现分层关联。

3.当聚类总数产生变化时，不用再度计算数据点的所属。

分层聚类算法的缺点

1.计算过于复杂。

2.算法很有可能会聚类成链。

3.奇异值对聚类效果有很大危害。

LDA算法

根据LDA主题模型的LDA文字聚类算法，最开始由Blei等明确提出。近年来，LDA主题模型是在文本检索行业发展趋势起來的几率生成模型，也是主题模型中最具象征性的几率生成模型之一。LDA主题模型是一个转化成的三层贝叶斯网络，根据潜在性的主题将英语单词和文章内容联络起來。类似别的许多概率模型，LDA也干了一个词袋假定，即在实体模型中不考虑到特征词的次序，只考虑到他们的发生频次。

LDA算法的优点。

1.LDA算法有详细的数据基础理论。

2.LDA算法逻辑结构清楚。

3.LDA算法是适合大数据自然环境的纯天然文字聚类。

LDA算法的缺点。

1.LDA算法收敛迟缓。

2.人工估计LDA算法的主题数。

DBSCAN算法

DBSCAN算法是一种根据相对密度的室内空间归类算法。该算法规定分类空间中某一地区包括的物件(点或别的室内空间物件)的总数不小于某一给出地区的相对密度。当归类总数产生变化时，不用再度计算数据点的所属。度阈值，将要相对密度充足的地区分为簇，并在噪声室内空间数据库文件找到随意形状的簇，将簇界定为相对密度节点的较大结合。

DBSCAN算法的优点

1.DBSCAN能识别噪声点。

2.DBSCAN可以找到任何形状的簇。

3.DBSCAN不用事前了解要产生的簇数。

DBSCAN算法的缺点

1.DBSCAN算法计算复杂。

2.针对不符合规定条件的样品点，将噪声点。

算法对稀少的高维空间数据特性较弱，由于针对高维空间数据，欧几里能非常好地了解。

因为算法立即实际操作数据库，当数据量提升时，必须更高的运行内存支持和I/O耗费。

算法聚类选用全局性定性分析相对密度主要参数，室内空间聚类相对密度不匀称，聚类间距差大时，聚类品质差

尽管算法对数据库文件样版的次序不敏感，但针对处在簇类中间界限的样版，很有可能会依据哪一个簇类优先选择检验出去摆动其所属。

算法务必特定2个主要参数:半径和最少相对密度阈值。因而，对客户界定的主要参数敏感，微小差别很有可能造成大不一样的结果，主要参数的挑选不规律，只有由工作经验决策。