首页分享 Python自动化分析知网文献：爬取、存储与可视化

Python自动化分析知网文献：爬取、存储与可视化

来源：花匠小妙招时间：2025-07-19 07:03

社区首页 >专栏 >Python自动化分析知网文献：爬取、存储与可视化

1. 引言

在当今的学术研究和大数据分析领域，高效获取和分析学术文献数据具有重要意义。中国知网（CNKI）作为国内最权威的学术资源平台之一，包含了海量的期刊论文、会议论文和学位论文。然而，手动收集和分析这些数据不仅耗时耗力，而且难以进行大规模的趋势分析。

本文将介绍如何使用Python实现知网文献的自动化爬取、存储与可视化，涵盖以下关键技术点：

爬虫技术：使用requests和BeautifulSoup抓取知网数据反爬策略：模拟浏览器行为，处理验证码数据存储：使用MongoDB或MySQL存储结构化数据数据分析与可视化：使用Pandas进行数据处理，Pyecharts生成可视化图表

2. 技术方案设计

2.1 整体架构

代码语言：javascript

代码运行次数：

运行

复制

1. 数据采集层：Python爬虫（requests + BeautifulSoup） 2. 数据存储层：MongoDB/MySQL 3. 数据分析层：Pandas数据清洗 4. 可视化层：Pyecharts/Matplotlib2.2 技术选型

requests

发送HTTP请求

BeautifulSoup

HTML解析

Selenium

处理动态页面（如验证码）

Pandas

数据清洗与分析

Pyecharts

交互式可视化

MongoDB

非关系型数据库存储

3. 爬虫实现

3.1 环境准备3.2 爬取知网搜索页

代码语言：javascript

代码运行次数：

运行

复制

import requests from bs4 import BeautifulSoup import pandas as pd headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" } def crawl_cnki(keyword, page=1): url = f"https://www.cnki.net/search/result?searchKey={keyword}&page={page}" response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') papers = [] for item in soup.select(".result-item"): paper = { "title": item.select_one(".title").get_text(strip=True), "author": item.select_one(".author").get_text(strip=True), "institution": item.select_one(".institution").get_text(strip=True), "date": item.select_one(".date").get_text(strip=True), "citations": int(item.select_one(".citations").get_text(strip=True)) } papers.append(paper) return papers # 示例：爬取"人工智能"相关论文（前3页） all_papers = [] for page in range(1, 4): all_papers.extend(crawl_cnki("人工智能", page))3.3 处理反爬机制

代码语言：javascript

代码运行次数：

运行

复制

from selenium import webdriver from selenium.webdriver.common.by import By def crawl_with_selenium(keyword): driver = webdriver.Chrome() driver.get(f"https://www.cnki.net/search/result?searchKey={keyword}") # 处理可能的验证码 try: captcha = driver.find_element(By.ID, "captcha") if captcha: input("请手动完成验证码后按回车继续...") except: pass # 获取渲染后的页面源码 soup = BeautifulSoup(driver.page_source, 'html.parser') driver.quit() return parse_results(soup) # 复用之前的解析函数

4. 数据存储

4.1 MongoDB存储

代码语言：javascript

代码运行次数：

运行

复制

from pymongo import MongoClient client = MongoClient("mongodb://localhost:27017/") db = client["cnki_research"] collection = db["papers"] # 批量插入数据 collection.insert_many(all_papers)4.2 MySQL存储（替代方案）

代码语言：javascript

代码运行次数：

运行

复制

import mysql.connector conn = mysql.connector.connect( host="localhost", user="root", password="123456", database="cnki_db" ) cursor = conn.cursor() cursor.execute(""" CREATE TABLE IF NOT EXISTS papers ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), author VARCHAR(100), institution VARCHAR(255), publish_date DATE, citations INT ) """) # 插入数据 for paper in all_papers: cursor.execute(""" INSERT INTO papers (title, author, institution, publish_date, citations) VALUES (%s, %s, %s, %s, %s) """, (paper["title"], paper["author"], paper["institution"], paper["date"], paper["citations"])) conn.commit()

5. 数据分析与可视化

5.1 数据清洗

代码语言：javascript

代码运行次数：

运行

复制

df = pd.DataFrame(all_papers) df["date"] = pd.to_datetime(df["date"]) # 转换日期格式 df["year"] = df["date"].dt.year # 提取年份 # 按年份统计论文数量 year_counts = df["year"].value_counts().sort_index()5.2 Pyecharts可视化(1) 年度发文趋势（折线图）

代码语言：javascript

代码运行次数：

运行

复制

from pyecharts.charts import Line line = ( Line() .add_xaxis(year_counts.index.tolist()) .add_yaxis("发文量", year_counts.values.tolist()) .set_global_opts( title_opts={"text": "人工智能领域年度发文趋势"}, toolbox_opts={"feature": {"saveAsImage": {}}} ) ) line.render("annual_trend.html")(2) 机构发文排名（柱状图）

代码语言：javascript

代码运行次数：

运行

复制

from pyecharts.charts import Bar top_institutions = df["institution"].value_counts().head(10) bar = ( Bar() .add_xaxis(top_institutions.index.tolist()) .add_yaxis("发文量", top_institutions.values.tolist()) .set_global_opts( title_opts={"text": "Top 10研究机构"}, xaxis_opts={"axis_label": {"rotate": 45}} ) ) bar.render("institutions_ranking.html")(3) 关键词共现分析（需先提取关键词）

代码语言：javascript

代码运行次数：

运行

复制

from pyecharts.charts import WordCloud # 假设有关键词数据 keywords = { "机器学习": 120, "深度学习": 95, "自然语言处理": 78, "计算机视觉": 65 } wordcloud = ( WordCloud() .add("", list(keywords.items()), word_size_range=[20, 100]) .set_global_opts(title_opts={"text": "研究热点关键词"}) ) wordcloud.render("keywords.html")