小说情感分析器(基于词典)
作为自然语言处理学习的第一站,我选择情感分析作为起步,这里用python编写了一个简单的基于知网词典的情感分析器,并用R语言的ggplot2进行作图(ps:好看)
python代码块
导入:词典和需要分析的txt文件
pathMainText:待分析文件的路径
pathLevelList:情感程度词典路径
pathGood:正面情感词典路径
pathBad:负面情感词典路径
pathSave:csv文件的存储路径
产出:以句为单位的情感系数csv文件
def novelSentimentCsv(pathMainText,pathLevelList,pathGood,pathBad,pathSave): #数据获取与清洗 import re #读取小说TXT filehqg = open(pathMainText,'r') lineshqg = filehqg.readlines() #连续字符串sumStr sumStr = '' for line in lineshqg: sumStr = sumStr + line filehqg.close() #中文分句方法 # coding: utf-8 #设置分句的标志符号;可以根据实际需要进行修改 cutlist ="。!?" #检查某字符是否分句标志符号的函数;如果是,返回True,否则返回False def FindToken(cutlist, char): if char
12345678910111213141516171819202122
于 2015-09-01 11:47:39 发布 · 2k 阅读