当前位置: 首页 > 常见问题

聚类分析的应用案例,三种常见的聚类算法

  • 常见问题
  • 2023-08-15

聚类分析的应用案例?聚类分析的其他应用场景 案例为一般消费场景中,通过将客户的消费行为数据转换成RFM特征数据,通过聚类分析对目标客户进行群体分类,找出有价值的特定群体。样本无缺失值,通过对样本绘制分布散点图,可以看到客户数据消费频数低,那么,聚类分析的应用案例?一起来了解一下吧。

聚类的实际应用

操作设备:戴尔电孙销脑

操作:win10

1、首先通过快捷方式打开SPSS分析,默认显示数据视图。

2、切换到变量视图,然后添加六个变量,分别为姓名、M、C、E、S和R,其中姓名是字符串则吵游类型,其他都是数字类型。

3、返回到数据视图,向六个变量列插入对应的数据。

4、点击分析菜单,然后依次选择分类--->聚类。

5、打开聚类分析窗口碰态,将变量M和变量C移到变量框中。

6、点击右侧统计按钮,打开聚类分析:统计窗口,选择集中计划,接着点击继续。

7、单击图按钮,打开图设置窗口,勾选谱系图,然后点击继续。

8、接着点击方法按钮,打开聚类分析:方法窗口,聚类方法选择瓦尔德法,然后单击继续。

9、最后点击聚类分析窗口中的确定按钮,然后生成聚类分析结果和图形展示。

大数据聚类分析案例

怎么做聚类分析?

聚类分析是通过数据建模简化数据的一种方法,“物以类聚,人以群分”正是对聚类分析最好的诠释。从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类(聚类)。具体聚类方式的概括如下表:

案例背景:当芦胡前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。总共8个裁判共有8列数据,并且共有300行。由于打分全部均是从1到10分,8列数据的单位均一样,因此在分析之前不需要进行标准化数据(当然进行标准化处理也没有问题)。

操作

本案例中总共涉及8个标题,SPSSAU操作截图如下:

SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。

SPSSAU输出结果

SPSSAU会首先输出聚类项的基本描述情况,接着输出每项的聚类类别归属情况;并且输出树状图,如下所述:

上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分以上。

聚类分析主要应用

之前的笔记:

聚类介绍: 点这里

层次聚类分析案例(一):世界银行样本数据集

层次聚类分析案例(二):亚马逊雨林烧毁情况

层次聚类分析案例(三):基因聚类

食品消费模式是医学和营养学领域简枝关注的一大热点。食物消费与个人的整体健康、食物的营养价值、购买食品的拦改敏经济性和消费环境有关。这项分析涉及25个欧洲国家肉类和其他食品之间的关系。观察肉类和其他食品的相关性是很有意思的。这些数据包括:红肉、白肉、蛋类、牛奶、鱼类、谷类、淀粉类食品、坚果(包括豆类和油籽)、水果和蔬菜。

准备工作

为了应用k均值聚类,我们使用欧洲25个国家的蛋白质消费量数据集。

第1步:收集和描述数据

该任务使用名为protein的数据集,该数据集以歼唯标准格式存储在CSV格式的文件中,其中包含25行数据和10个变量。 数据获取路径

数值型变量如下:

RedMeat

WhiteMeat

Eggs

Milk

Fish

Cereals

Starch

Nuts

Fr&Veg

非数值型变量如下:

Country

具体实施步骤

以下为实现细节。

第2步:探索数据

让我们探索数据并理解变量间的关系。

空间聚类分析的应用场景

我们有时需要对一波总体样本进行分群,从而更好地了解群体之间的差异,通过聚类分析可以帮助我们解决这个问题。聚类分析在市场细分、人群细分等方面可以给我们很多启发。

聚类分析在SPSS中分为聚类、K聚类及两步聚类。

从区别上看,聚类、K聚类主要针对的是计量资料,而两步具备可同时对计量资料、计数资料进行处理。

尽管在日常工作涉及的问卷中,计数资料涉及得较少,但从结果解读方面,仍然是两步聚类的解读更为直观。

以两步聚类为例,我们来看一个案例:

经过本篇文章学习,您能够对问卷数据做以下分析:

①对总样本进行聚类

②筛选满足不同条件的个案进行进一步分析(选择个案)

TIPS:在两步聚类前,一定要先清洗数据,因跳转题而出现的-3值,要全部清除掉之后再进行聚类操作

1.分析-分类-两步聚类

2.将可能影响到人群细分结果的变量选入分类变量中

连续变量在本次问卷题目中未涉及,因此不选

这一步的变量选择在不确定的情况下,可能需要多次聚类验证,一定要选卖虚择聚类效果最佳的那几个变量

这里已经根据最佳效果选择好了相关变量

3.选项-操作默认

若涉及到连续变量,在【要标准化的变量】中,将出现连续变量

这里未涉及连续变量,因此这里未显示任何变量

4.输出

勾选上方的图表和表格、创建聚类成员变量

5.确定

6.结果解读

首先会出现一个简单的图,先来看一下这个图

显示我们输入了8个相关变量,聚类为5类

我们本次预测质量处在【良好】区间(这一步可多试几个变量,选择预测质量最好的那次即可)

双击这张图,会中顷燃出现2个视图框

左侧还是刚刚的图,右侧则出现了本次5种聚类在总样本的占比情况

请注意,现在左侧视图默认在【模型概要】

我们现在选择【聚类】,会根据预测变量重要性出现一张渐变颜色的表格

逐一选择5个聚类所在的列,右侧选择【单元分布】,会显示聚类比较的结果

回到数据视图中,原表格中最后一新增了一列TSC,显示的数值则是根据本次聚类,每个人对应在哪个分类的结果。

聚类分析在生活中的应用案例

案例详解SPSS聚类分析全过程

案例数据源:

有20种12盎司啤酒成分和价格的数据,变量包括啤酒名称、热量、钠含量、酒精含量、价格。【一】问题一:选择那些变量进行聚类?——采用“R型聚类”

1、现在我们有4个变量用来对啤酒分类,是否有必要将4个变量都纳入作为分类变量呢?热量、钠含量、酒精含量这3个指标是要通过化验员的辛苦努力来测定,而且还有花费不少成本,如果都纳入分析的话,岂不太麻烦太浪费?所以,有必要对4个变量进行降维处理,这里采用spss R型聚类(变量聚类),对4个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。昌胡

2、4个分类变量量纲各自不同,这一次我们先确定用相似性来测度,度量标准选用pearson系数,聚类方法选最远元素,此时,涉及到相关,4个变量可不用标准化处理,将来的相似性矩阵里的数字为相关系数。若果亮枣有某两个变量的相关系数接近1或-1,说明两个变量可互相替代。3、只输出“树状图”就可以了,个人觉得冰柱图很复杂,看起来没有树状图清晰明了。从proximitymatrix表中可以看出热量和酒精含量两个变量相关系数0.903,最大,二者选其一即可,没有必要都作为聚类变量,导致成本增加。

以上就是聚类分析的应用案例的全部内容,之前的笔记: 聚类介绍: 点这里 层次聚类分析案例(一):世界银行样本数据集 层次聚类分析案例(二):亚马逊雨林烧毁情况 层次聚类分析案例(三):基因聚类 食品消费模式是医学和营养学领域关注的一大热点。

猜你喜欢