首页分享 L1练习

L1练习

来源：花匠小妙招时间：2024-11-23 16:20

背景

前文（《AI 自学 Lesson1 - Sklearn（开源Python机器学习包）》）以鸢尾花数据集的处理为例，本文将完善其代码，在使用 sklearn 的部分工具包基础上，增加部分数据预处理、数据分析和数据可视化。

由于鸢尾花数据集适用于进行分类和聚类的练习，这里使用多种分类和聚类方式，并验证其准确性。同时在概念部分对分类和聚类的种类、库、用法等进行补充介绍。

并在文首附上跑通资源，便于直接查看处理结果。

一、补充概念

1. 分类

在 sklearn 中，常见的分类算法涵盖了从简单的线性模型到复杂的非线性模型。以下是一些常见的分类算法及其对应的库名称：

算法名称库名称描述适用场景1逻辑回归（Logistic Regression）sklearn.linear_model.LogisticRegression基于逻辑函数的线性分类模型，用于二分类或多分类问题。线性可分的二分类或多分类任务。2支持向量机（SVM）sklearn.svm.SVC, sklearn.svm.LinearSVC高效的分类算法，适用于处理高维空间和非线性分类问题。高维数据、复杂的非线性分类任务。3K近邻（KNN）sklearn.neighbors.KNeighborsClassifier基于距离测量进行分类，适用于小型数据集。小数据集、特征空间维度较低的分类任务。4决策树（Decision Tree）sklearn.tree.DecisionTreeClassifier基于树状结构的分类模型，能够处理非线性分类任务。非线性数据的分类，易于解释和可视化。5随机森林（Random Forest）sklearn.ensemble.RandomForestClassifier集成多个决策树，提升分类的准确性和鲁棒性。处理大规模、高维数据，减少过拟合。6朴素贝叶斯（Naive Bayes）sklearn.naive_bayes.GaussianNB, sklearn.naive_bayes.MultinomialNB基于贝叶斯定理的概率分类模型，假设特征之间相互独立。文本分类、特征独立的分类任务。7梯度提升树（Gradient Boosting）sklearn.ensemble.GradientBoostingClassifier通过多个弱分类器的组合逐步提升分类性能，适用于复杂数据。非线性、高维数据的复杂分类任务。8极限梯度提升（XGBoost）xgboost.XGBClassifier高效的梯度提升算法实现，适合处理大规模数据，性能优异。高性能分类任务，常用于竞赛和大数据处理。9多层感知器（MLP）sklearn.neural_network.MLPClassifier基于神经网络的多层感知器模型，能够处理复杂的非线性分类问题。深度学习相关的分类任务，非线性数据的分类。

2. 聚类

在 sklearn 中，常见的聚类算法涵盖了从基本的距离度量方法到更复杂的层次聚类和密度聚类。以下是常用的聚类算法及其对应的库名称：

算法名称库名称描述适用场景1K均值聚类（K-Means Clustering）sklearn.cluster.KMeans基于质心的聚类算法，通过质心划分数据，适用于线性可分数据。线性可分的数据，聚类数已知的情况下。2层次聚类（Hierarchical Clustering）sklearn.cluster.AgglomerativeClustering通过构建层次树对数据进行聚类，能够发现数据的层次结构。需要构建层次结构的聚类任务。3DBSCAN（密度聚类）sklearn.cluster.DBSCAN基于密度的聚类算法，能够发现任意形状的簇，适合带噪声数据。发现任意形状的簇，处理噪声数据。4均值漂移（Mean Shift Clustering）sklearn.cluster.MeanShift基于核密度估计的非参数聚类算法，能够自动找到簇的数量。高密度区域的聚类，适合未知簇数的情况。5谱聚类（Spectral Clustering）sklearn.cluster.SpectralClustering基于图论的聚类算法，适合非线性或高维数据。非线性数据或高维空间的聚类任务。6高斯混合模型（Gaussian Mixture Model, GMM）sklearn.mixture.GaussianMixture基于概率模型的聚类算法，假设数据来自多个高斯分布的混合。处理复杂分布的聚类任务，适合有重叠的簇。7Birch（平衡迭代减少与聚类）sklearn.cluster.Birch高效的层次聚类算法，适合处理大规模数据集。大规模数据的层次聚类任务。8亲和传播（Affinity Propagation）sklearn.cluster.AffinityPropagation通过消息传递进行聚类，适用于自动确定簇数。自动发现簇数，适合不需要预设簇数的聚类任务。9MiniBatch K-Meanssklearn.cluster.MiniBatchKMeansKMeans 的小批量变体，适合处理大规模数据。大规模数据集的聚类任务，提升计算效率。

在后续代码部分，将使用【分类】中的 逻辑回归、k近邻、支持向量机、朴素贝叶斯、决策树 分别对鸢尾花数据集进行处理，并判断各模型算法的准确性；【聚类】中的 K均值聚类、层次聚类、DBSCAN 分别对鸢尾花数据集进行聚类处理，，并判断各模型算法的准确性。

3. 交叉验证

交叉验证是用于评估模型泛化能力的技术，它通过多次划分数据集来减少偶然性，常见的是 K折交叉验证（K-Fold Cross-Validation），即将数据分成K份，每次用其中的一份作为验证集，剩下的作为训练集，重复K次，最后取平均准确率作为模型的性能评估。

通过多次划分数据集，减少模型在某一特定训练集上表现过好的风险，保证模型在未知数据上的性能稳定。

作用

稳定性：通过多次分割数据，确保模型在不同数据集上的表现一致。评估泛化能力：避免模型过拟合到某一个特定的训练集。综合评估模型性能：通过平均和标准差的计算，得到模型在多次验证下的表现。

4. F1得分（F1 Score）

F1得分 是用于分类任务中的一种综合指标，它是 精确率（Precision） 和 召回率（Recall） 的调和平均数，主要用于不平衡数据集（即某些类别出现的频率较高，另一些类别则较低）。 精确率（Precision）：模型预测为正类的样本中，真正为正类的比例。召回率（Recall）：真实为正类的样本中，模型正确预测为正类的比例。 F1得分的公式为：

5. 超参数调优

KNN 的一个关键超参数是 K值（近邻个数），不同的 K 值会影响模型的性能。为了找到最合适的 K 值，我们可以使用 网格搜索（Grid Search） 结合交叉验证来进行超参数调优。此外，还可以调优距离度量方法（如 p 值，决定使用欧几里得距离或曼哈顿距离等）。

通过网格搜索或随机搜索选择最优的超参数组合，能够显著提升模型性能，避免欠拟合或过拟合。

作用

优化模型性能：通过选择合适的超参数，可以显著提升模型的表现。避免过拟合：调整参数如正则化强度、树的深度等，可以防止模型过度拟合训练数据。增强泛化能力：经过调优后的模型在未知数据上能有更好的预测能力。

二、代码

1. 准备阶段

from sklearn.datasets import load_iris

import pandas as pd

import numpy as np

iris = load_iris()

print(iris)

import seaborn as sns

import matplotlib.pyplot as plt

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression

from sklearn.neighbors import KNeighborsClassifier

from sklearn.svm import SVC

from sklearn.naive_bayes import GaussianNB

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score

from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

from sklearn.metrics import adjusted_rand_score, silhouette_score

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import cross_val_score

from sklearn.model_selection import GridSearchCV

print("特征值：n",iris.data)

print("目标值：n",iris["target"])

print("特征值名字：n",iris.feature_names)

print("目标值名字：n",iris.target_names)

print("数据集描述：n",iris.DESCR)

iris_d = pd.DataFrame(data=iris.data,columns=['sepal length', 'sepal width', 'petal length', 'petal width'])

iris_d

iris_d.info()

2. 数据可视化

iris_d["target"] = iris.target

def iris_plot(data,col1,col2):

sns.lmplot(x=col1,y=col2,data=data,hue="target",fit_reg=False)

plt.show()

iris_plot(iris_d,'sepal width','petal length')

3. 数据预处理

分为数据划分和数据转换。

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X

,random_state=42

,test_size=0.3

)

print("训练集的目标值形状：n",y_train.shape)

print("测试集的目标值形状：n",y_test.shape)

scaler = StandardScaler( )

scaler.fit_transform(X_train)

X_scaled = scaler.fit_transform(X)

4. 分类

logistic_model = LogisticRegression(max_iter=200)

logistic_model.fit(X_train, y_train)

y_pred_logistic = logistic_model.predict(X_test)

accuracy_logistic = accuracy_score(y_test, y_pred_logistic)

print(f"逻辑回归分类准确率: {accuracy_logistic:.2f}")

knn_model = KNeighborsClassifier(n_neighbors=5)

knn_model.fit(X_train, y_train)

y_pred_knn = knn_model.predict(X_test)

accuracy_knn = accuracy_score(y_test, y_pred_knn)

print(f"K近邻分类准确率: {accuracy_knn:.2f}")

svm_model = SVC()

svm_model.fit(X_train, y_train)

y_pred_svm = svm_model.predict(X_test)

accuracy_svm = accuracy_score(y_test, y_pred_svm)

print(f"支持向量机分类准确率: {accuracy_svm:.2f}")

nb_model = GaussianNB()

nb_model.fit(X_train, y_train)

y_pred_nb = nb_model.predict(X_test)

accuracy_nb = accuracy_score(y_test, y_pred_nb)

print(f"朴素贝叶斯分类准确率: {accuracy_nb:.2f}")

tree_model = DecisionTreeClassifier()

tree_model.fit(X_train, y_train)

y_pred_tree = tree_model.predict(X_test)

accuracy_tree = accuracy_score(y_test, y_pred_tree)

print(f"决策树分类准确率: {accuracy_tree:.2f}")

输出结果

逻辑回归分类准确率: 1.00

K近邻分类准确率: 1.00

支持向量机分类准确率: 1.00

朴素贝叶斯分类准确率: 0.98

决策树分类准确率: 1.00

分析

在鸢尾花数据集上，逻辑回归、K近邻、支持向量机 和 决策树 都能达到 100% 的分类准确率，这说明这些模型在处理这个简单的三分类问题时表现非常好。朴素贝叶斯 的准确率稍微低一点，约为 98%，这可能是由于鸢尾花数据集中的特征分布并非完全符合朴素贝叶斯的独立性假设，但仍然是一个较好的结果。

5. 聚类

kmeans = KMeans(n_clusters=3, random_state=42)

y_pred_kmeans = kmeans.fit_predict(X_scaled)

ari_kmeans = adjusted_rand_score(y, y_pred_kmeans)

silhouette_kmeans = silhouette_score(X_scaled, y_pred_kmeans)

print(f"K均值 - Adjusted Rand Index: {ari_kmeans:.2f}, Silhouette Score: {silhouette_kmeans:.2f}")

hierarchical = AgglomerativeClustering(n_clusters=3)

y_pred_hierarchical = hierarchical.fit_predict(X_scaled)

ari_hierarchical = adjusted_rand_score(y, y_pred_hierarchical)

silhouette_hierarchical = silhouette_score(X_scaled, y_pred_hierarchical)

print(f"层次聚类 - Adjusted Rand Index: {ari_hierarchical:.2f}, Silhouette Score: {silhouette_hierarchical:.2f}")

dbscan = DBSCAN(eps=0.5, min_samples=5)

y_pred_dbscan = dbscan.fit_predict(X_scaled)

ari_dbscan = adjusted_rand_score(y, y_pred_dbscan)

if len(set(y_pred_dbscan)) > 1:

silhouette_dbscan = silhouette_score(X_scaled, y_pred_dbscan)

else:

silhouette_dbscan = -1

print(f"DBSCAN - Adjusted Rand Index: {ari_dbscan:.2f}, Silhouette Score: {silhouette_dbscan:.2f}")

代码说明

K均值：我们设置簇的数量为3（因为鸢尾花数据集包含3类标签），并使用 Adjusted Rand Index (ARI) 和 Silhouette Score 来评估聚类效果。层次聚类：我们同样设定簇数量为3，使用凝聚层次聚类（自底向上）。DBSCAN：使用基于密度的聚类方法，不需要指定簇的数量，但我们设置 eps=0.5，min_samples=5 来控制聚类的密度参数。该方法对噪声点（标记为-1）进行自动处理。

输出结果

K均值 - Adjusted Rand Index: 0.62, Silhouette Score: 0.46
层次聚类 - Adjusted Rand Index: 0.62, Silhouette Score: 0.45
DBSCAN - Adjusted Rand Index: 0.44, Silhouette Score: 0.36

分析：

K均值聚类 和 层次聚类 在鸢尾花数据集上的表现相似，ARI 均为 0.62，Silhouette Score 也接近，这表明它们能够较好地将数据聚成三类，且与真实标签有较高的一致性。DBSCAN 的 ARI 和 Silhouette Score 较低（如 0.44 和 0.36），这表明它在该数据集上的效果不如前两种算法。由于鸢尾花数据集的分布较为规则，DBSCAN 的密度聚类特性并不适合这个数据集。

6. 交叉验证

scores = cross_val_score(knn_model, X, y, cv=5, scoring='accuracy')

print(f"KNN - 交叉验证准确率: {scores.mean():.2f} ± {scores.std():.2f}")

scores = cross_val_score(knn_model, X, y, cv=5, scoring='f1_weighted')

print(f"KNN - 加权F1得分: {scores.mean():.2f} ± {scores.std():.2f}")

代码说明

scores.mean()：计算5次交叉验证的平均准确率。交叉验证返回的是5次验证的准确率数组，scores.mean() 对这些值取平均，作为模型在不同划分下的总体表现。均值代表模型的总体准确率水平。scores.std()：计算5次交叉验证准确率的标准差。标准差用于衡量模型准确率的波动程度。标准差越小，说明模型在不同数据划分下的表现越稳定；反之，如果标准差较大，表示模型的性能在不同数据集划分上差异较大，可能不够稳定。

7. 超参数调优

param_grid = {

'n_neighbors': [3, 5, 7, 9, 11],

'weights': ['uniform', 'distance'],

'p': [1, 2]

}

grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='accuracy')

grid_search.fit(X, y)

print(f"最佳超参数组合: {grid_search.best_params_}")

print(f"最佳交叉验证准确率: {grid_search.best_score_:.2f}")

简单来说就是通过字典给超参数不同维度的设置选择，使用搜索即是将所有组合的正确率都进行验证，并通过 grid_search.best_params_ 返回出最优组合。

L1练习

背景

一、补充概念

1. 分类

2. 聚类

3. 交叉验证

4. F1得分（F1 Score）

5. 超参数调优

二、代码

1. 准备阶段

2. 数据可视化

3. 数据预处理

4. 分类

5. 聚类

6. 交叉验证

7. 超参数调优

推荐分享

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处

秋天养花，掌握这5点养花知识，正确管理花卉，让花健康生长

【花卉知识】养花须知：新手养花的选购技巧，不要当冤大头！

L1练习

背景

一、补充概念

1. 分类

2. 聚类

3. 交叉验证

4. F1得分（F1 Score）

5. 超参数调优

二、代码

1. 准备阶段

2. 数据可视化

3. 数据预处理

4. 分类

5. 聚类

6. 交叉验证

7. 超参数调优

推荐分享

家庭养花风水知识 家庭养花“五行说”

家庭养花知识大全 家庭养花有什么好处

秋天养花，掌握这5点养花知识，正确管理花卉，让花健康生长

【花卉知识 】养花须知：新手养花的选购技巧，不要当冤大头！

家庭养花风水知识家庭养花“五行说”

家庭养花知识大全家庭养花有什么好处

【花卉知识】养花须知：新手养花的选购技巧，不要当冤大头！