首页分享实战项目：鸢尾花分类模型（逐行代码解释）

实战项目：鸢尾花分类模型（逐行代码解释）

来源：花匠小妙招时间：2025-12-11 12:36

实战项目：鸢尾花分类模型（逐行代码解释）

最新推荐文章于 2025-08-30 21:31:31 发布

原创于 2025-06-25 13:16:01 发布 · 657 阅读

· 25

· 19 ·

CC 4.0 BY-SA版权

一、聚类（Cluster）详解：给数据 “分组” 的魔法 1. 核心思想：物以类聚，人以群分

聚类是一种无监督学习（不需要预先标注数据），目标是将数据集中相似的数据点划分为同一组（簇，Cluster），使得：

簇内相似度高：同一簇的数据点像 “一家人”，彼此相似。 簇间差异大：不同簇的数据点像 “陌生人”，差异明显。

数学表达：通过计算数据点之间的距离（如欧氏距离、曼哈顿距离），将距离近的数据点归为一类。

2. 生活案例：让数据 “自动分类” （1）客户分群：电商平台的精准营销 数据维度：收集客户的 “月消费金额” 和 “购物频率”。 聚类结果： 高消费低频组：每月花 5000 元但只购物 1-2 次（可能买奢侈品）。 低消费高频组：每月花 500 元但购物 10 次以上（可能买日用品）。应用：给高消费低频组推送高端商品，给低消费高频组推送满减券。（2）新闻分类：社交媒体的内容整理 数据维度：新闻文本中的关键词（如 “足球”“比赛”“科技”）。 聚类过程：体育新闻簇：包含 “足球”“NBA”“赛事” 等关键词的文章。科技新闻簇：包含 “AI”“芯片”“互联网” 等关键词的文章。应用：用户打开 APP 时，快速看到不同主题的新闻聚合。 3. K-means 算法步骤详解（以分水果为例）

假设场景：有一堆水果（苹果、橘子、梨），想用 K-means 分成 2 类（K=2）。

步骤 1：随机选择 K 个 “中心点”（初始化） 中心点：代表一个簇的 “典型样本”，初始位置随机选。例子：随机选一个苹果作为 “中心点 1”（坐标假设为 (3,5)，x 轴代表大小，y 轴代表颜色深浅）。随机选一个橘子作为 “中心点 2”（坐标假设为 (7,3)）。步骤 2：将每个水果分到离它最近的中心点所在的组 距离计算：常用 “欧氏距离”，公式：
距离例子：有一个梨，坐标 (5,4)。计算到中心点 1（苹果 (3,5)）的距离：(5−3)2+(4−5)2≈2.24。计算到中心点 2（橘子 (7,3)）的距离：(5−7)2+(4−3)2≈2.24。结果：距离相等，假设分到中心点 1 的组。步骤 3：计算每组水果的平均位置，更新中心点例子：假设组 A 有 3 个水果，坐标分别是 (3,5)（苹果）、(5,4)（梨）、(4,6)（另一个苹果）。平均 x 坐标：(3+5+4)/3=4 平均 y 坐标：(5+4+6)/3=5 新中心点 1 坐标：(4,5) 步骤 4：重复步骤 2-3，直到中心点不再变化（收敛） 迭代过程：用新的中心点 (4,5) 和 (6.5,2.5) 重新分组所有水果。