聚类是一种无监督学习(不需要预先标注数据),目标是将数据集中相似的数据点划分为同一组(簇,Cluster),使得:
簇内相似度高:同一簇的数据点像 “一家人”,彼此相似。 簇间差异大:不同簇的数据点像 “陌生人”,差异明显。数学表达:通过计算数据点之间的距离(如欧氏距离、曼哈顿距离),将距离近的数据点归为一类。
2. 生活案例:让数据 “自动分类” (1)客户分群:电商平台的精准营销 数据维度:收集客户的 “月消费金额” 和 “购物频率”。 聚类结果: 高消费低频组:每月花 5000 元但只购物 1-2 次(可能买奢侈品)。 低消费高频组:每月花 500 元但购物 10 次以上(可能买日用品)。 应用:给高消费低频组推送高端商品,给低消费高频组推送满减券。 (2)新闻分类:社交媒体的内容整理 数据维度:新闻文本中的关键词(如 “足球”“比赛”“科技”)。 聚类过程: 体育新闻簇:包含 “足球”“NBA”“赛事” 等关键词的文章。 科技新闻簇:包含 “AI”“芯片”“互联网” 等关键词的文章。 应用:用户打开 APP 时,快速看到不同主题的新闻聚合。 3. K-means 算法步骤详解(以分水果为例)假设场景:有一堆水果(苹果、橘子、梨),想用 K-means 分成 2 类(K=2)。
步骤 1:随机选择 K 个 “中心点”(初始化) 中心点:代表一个簇的 “典型样本”,初始位置随机选。 例子: 随机选一个苹果作为 “中心点 1”(坐标假设为 (3,5),x 轴代表大小,y 轴代表颜色深浅)。 随机选一个橘子作为 “中心点 2”(坐标假设为 (7,3))。 步骤 2:将每个水果分到离它最近的中心点所在的组 距离计算:常用 “欧氏距离”,公式:距离 例子: 有一个梨,坐标 (5,4)。 计算到中心点 1(苹果 (3,5))的距离:(5−3)2+(4−5)2≈2.24。 计算到中心点 2(橘子 (7,3))的距离:(5−7)2+(4−3)2≈2.24。 结果:距离相等,假设分到中心点 1 的组。 步骤 3:计算每组水果的平均位置,更新中心点 例子: 假设组 A 有 3 个水果,坐标分别是 (3,5)(苹果)、(5,4)(梨)、(4,6)(另一个苹果)。 平均 x 坐标:(3+5+4)/3=4 平均 y 坐标:(5+4+6)/3=5 新中心点 1 坐标:(4,5) 步骤 4:重复步骤 2-3,直到中心点不再变化(收敛) 迭代过程: 用新的中心点 (4,5) 和 (6.5,2.5) 重新分组所有水果。

于 2025-06-25 13:16:01 发布 · 657 阅读