一种基于知识图谱的花卉病虫害的本体建模方法和建模系统
1.本发明属于花卉病虫害防治技术领域,尤其涉及一种基于知识图谱的花卉病虫害的本体建模方法和建模系统。
背景技术:
2.花卉病虫害是导致花卉生产效率不高的重要原因,若不能及时处理花卉种植过程中发生的病虫害,则会严重影响花卉的种植收益。随着信息技术的发展,各式各样的花卉病虫害防治知识大量分散在网络中,传统的关系型数据库知识管理方法无法对这些知识进行有效表示和存储,存在对异构数据无法融合、数据间关系无法高效表达、知识无法精炼等问题。目前在花卉病虫害领域的研究主要集中在对某一种、某一类花卉病虫害的防治策略、防治知识、发生原理等方面,缺少对花卉病虫害知识中实体关系的梳理、整合,遗漏了花卉病虫害实体间存在的关联关系导致花卉病虫害知识较为分散且存在冗余,缺乏病虫害知识管理和建模的工具和好的方法。
3.在病虫害领域的知识图谱研究上,已有专家学者取得一些成果。一些学者集中在对领域本体的研究上,参考农业叙词表和病虫害相关文献,构建病虫害领域本体模型,通过本体模型解决实际问题,另一些学者集中在对领域数据的研究上,在对领域数据进行分析之后,采用知识抽取方法对数据中的实体和关系进行抽取,实现对知识的提炼。还有一些学者使用文献计量方法,通过关键词聚类构建知识图谱,对病虫害领域的研究进行可视化展示。
4.这些研究在病虫害知识的整理上都忽略了环境这一对病虫害防治至关重要的因素,在管理上还欠缺智能化和体系化,同时在知识图谱构建方法以及非结构化数据内容抽取方法的泛化性、准确性等方面还有很大提升。而在花卉病虫害领域的研究主要集中在对某一种、某一类花卉病虫害的防治策略、防治知识、发生原理等方面,缺少对花卉病虫害知识中实体关系的梳理、整合,遗漏了花卉病虫害实体间存在的关联关系导致花卉病虫害知识较为分散且存在冗余。
技术实现要素:
5.本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此,本发明的一个目的在于提出一种基于知识图谱的花卉病虫害的本体建模方法,该建模方法以花卉病虫害为研究领域,提取了包括环境在内的花卉病虫害防治要素,通过复用已有的病虫害知识体系构建了花卉病虫害本体模型并使用资源描述框架图进行存储。之后对花卉病虫害文献语料的分析,使用了头尾实体分离“01”标注方法解决了嵌套头尾实体的标注问题,利用albert预训练模型进行语义特征提取并提出将词性特征向量与层级标注模型(casrel)相结合的casposrel模型共同组成抽取框架,通过构建并训练关系标注器建立头尾实体映射的方法,完成对大量花卉病虫害文本中三元组的联合抽取。同时根据所构建的本体模型,采用自定义rdf2pg映射方法,按照资源描述框架图中的本体结构在
neo4j图数据库中存储抽取到的三元组,完成对花卉病虫害知识的存储与管理,同时应用知识发现得出各种类花卉最易发病环境,从而起到对病虫害的预防作用。本文提出的建模方法可以为花卉病虫害智能诊断、决策、问答起到支撑作用,提高花卉病虫害防治效率和生产水平。本发明的另一个目的在于提出一种基于知识图谱的花卉病虫害的本体建模系统。
6.根据本发明的基于知识图谱的花卉病虫害的本体建模方法包括以下步骤:
7.从文本中提取花卉病虫害领域的多个属性要素;
8.构建所述花卉病虫害领域的本体模型,其中,所述本体模型包括三元组单元;
9.分别对所述三元组单元中的头部实体数组和尾部实体数组进行标注;
10.构建基于所述头部实体数组、所述尾部实体数组以及所述头部实体数组与所述尾部实体数组之间的关系的联合抽取框架模型;
11.使用预训练的语言表征模型建立基于知识图谱的知识抽取框架;
12.将所述三元组单元中的资源描述框架转换成属性图,并将所述属性图存储在neo4j图形数据库中。
13.本发明的基于知识图谱的花卉病虫害的本体建模方法,通过研究领域相关文献,构建了能够满足基本花卉病虫害防治要求的本体模型,相比其他目前已有的本体,额外考虑到了环境对花卉病虫害防治的影响,环境因素对于花卉病虫害的防治上不仅着重于治疗,更注重于防范,及时防范病虫害能够进一步减小花卉的损害。采用资源描述框架图存储本体结构,根据自定义rdf2pg映射方法,将抽取出的三元组不经过其他存储方式,直接按照本体模型的结构存储进neo4j数据库中,规范了所管理的知识,提高了存储效率及自动构建图谱能力。
14.另外,根据本发明的基于知识图谱的花卉病虫害的本体建模方法还可以具有以下的技术特征:
15.所述对所述叠后地震记录平均道数据的振幅谱作光滑处理以形成零相位的初始子波具体包括以下步骤:
16.所述三元组单元的属性包括数据属性和对象属性。
17.所述分别对所述三元组单元中的头部实体数组和尾部实体数组进行标注具体包括以下步骤:
18.对所述头部实体数组的头部起始位置和头部结束位置分别标注第一标记,对所述头部起始位置与所述头部结束位置之间的字符标注第二标记,其中所述第一标记与所述第二标记不同;
19.对所述尾部实体数组的尾部起始位置和尾部结束位置分别标第三标记,对所述尾部起始位置与所述尾部结束位置之间的字符标注第四标记,其中所述第三标记与所述第四标记不同。
20.所述构建基于所述头部实体数组、所述尾部实体数组以及所述头部实体数组与所述尾部实体数组之间的关系的联合抽取框架模型具体包括以下步骤:
21.对于输入的文本中的每个字符向量,分别计算所述头部起始位置和所述头部结束位置,其计算公式为:
22.[0023][0024]
其中,ci为所述文本中的单个字符向量,和分别表示头部起始位置的可能位置和头部结束位置的可能位置,σ为s型函数,w
start
和w
end
分别表示起始训练权重和结束训练权重,b
start
和b
end
分别表示起始训练偏置和结束训练偏置。
[0025]
所述建模方法还包括以下步骤:
[0026]
将每个所述头部实体数组与每个关系特定标注器建立起映射,计算各关系的尾部实体数组的尾部起始位置和尾部结束位置,其计算公式为:
[0027][0028][0029]
其中,r为关系类型,是第k个头实体特征向量的第i个字符向量表示,和分别表示尾部起始位置的可能位置与尾部结束位置的可能位置,posi表示第i个字符所在词的词性向量。
[0030]
所述使用预训练的语言表征模型建立基于知识图谱的知识抽取框架具体包括以下步骤:
[0031]
使用结巴分词工具进行词性标注并嵌入词性向量,将头部实体字符向量和包含句子信息的字符序列向量进行融合以得到与所述头部实体字符位置不同处的字符的向量,其计算公式如下:
[0032][0033]
其中,ci表示第i个字符的预训练的语言表征模型的编码字符向量。
[0034]
所述将所述三元组单元中的资源描述框架转换成属性图,并将所述属性图存储在neo4j图形数据库中具体包括以下步骤:
[0035]
使用jena应用程序接口对所述文本进行读取和推理,使用neo4j图形数据库作为所述属性图的存储工具。
[0036]
所述将所述三元组单元中的资源描述框架转换成属性图,并将所述属性图存储在neo4j图形数据库中具体包括以下步骤:
[0037]
抽取三元组;
[0038]
使用所述jena应用程序接口读取所述本体模型;
[0039]
获取实体概念信息,遍历所述三元组,在所述本体模型中查找所述三元组中的三元组关系所对应的头部实体概念和尾部实体概念;
[0040]
获取实体属性信息,根据所述头部实体概念和所述尾部实体概念在所述本体模型中查找对应的属性名称和属性类型;
[0041]
生成密码语句,存储所述三元组。
[0042]
本发明还提供了一种基于知识图谱的花卉病虫害的本体建模系统,所述建模系统通过上述任意的基于知识图谱的花卉病虫害的本体建模方法实现。
[0043]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0044]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0045]
图1是本发明一个实施例的基于知识图谱的花卉病虫害的本体建模系统的框架结构图;
[0046]
图2是本发明的一个实施例的花卉病虫害领域的本体模型图;
[0047]
图3是本发明的一个实施例的标注策略示意图;
[0048]
图4是本发明的一个实施例的联合抽取框架模型图;
[0049]
图5是本发明的一个实施例的rdf2pg映射算法流程图。
[0050]
具体实施方法
[0051]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0052]
知识图谱是google在2012年提出的一种通过语义网络来有效表达数据间关系的方法,利用知识图谱管理与传统知识管理方法不相适应的领域知识是当前各个领域的研究热点。
[0053]
图1是本发明一个实施例的基于知识图谱的花卉病虫害的本体建模系统的框架结构图;图2是本发明的一个实施例的花卉病虫害领域的本体模型图;图3是本发明的一个实施例的标注策略示意图;图4是本发明的一个实施例的联合抽取框架模型图;图5是本发明的一个实施例的rdf2pg映射算法流程图。参考图1-图5,本发明提供了一种基于知识图谱的花卉病虫害的本体建模方法,所述本体建模方法包括以下步骤:
[0054]
s1、从文本中提取花卉病虫害领域的多个属性要素。
[0055]
具体的,提取花卉病虫害领域要素十类属性要素作为主要概念,包括花卉名称、花卉生长阶段、植物器官、所在地区、病虫害、化肥农药、防治方法、为害症状、环境、病原等关键要素进行本体概念属性的抽取。
[0056]
s2、构建所述花卉病虫害领域的本体模型,其中,所述本体模型包括三元组单元。
[0057]
具体的,使用prot
égé
本体建模工具,构建花卉病虫害领域本体模型,其中各概念之间的关系,如图1所示。花卉病虫害领域本体模型反映花卉病虫害领域内概念之间的关系,其中子类使用subclassof表示,例如(病害,rdfs:subclassof,病虫害)三元组表示病害为病虫害的子类。领域内属性有数据属性和对象属性两种属性,分别用datatypeproperty和objectproperty表示,其中datatypeproperty表示数值型属性的对象和类型,例如(病害,病害名称,xsd:string),表示病害的属性病害名称的定义域为“病害”类,值域为string类型;objectproperty表示类与类之间的关系属性,例如(病虫害,为害部位,植物器官)表示关系“为害部位”的定义域和值域分别为“病虫害”类和“植物器官”类,定义的关系及属性均为对实例数据的约束,对实例数据起到规范作用。
[0058]
s3、分别对所述三元组单元中的头部实体数组和尾部实体数组进行标注。
[0059]
具体的,对所述头部实体数组的头部起始位置和头部结束位置分别标注第一标记,对所述头部起始位置与所述头部结束位置之间的字符标注第二标记,其中所述第一标记与所述第二标记不同;
[0060]
对所述尾部实体数组的尾部起始位置和尾部结束位置分别标第三标记,对所述尾部起始位置与所述尾部结束位置之间的字符标注第四标记,其中所述第三标记与所述第四标记不同。
[0061]
在具体实施中,头尾实体分离标注加上“01”标注的方法,标注三元组。具体标注策略如下:(1)首先采取头尾实体分离标注方式。将标注序列数组分为头实体序列数组和尾实体序列数组,相较于传统的单序列数组标注头尾实体的方式,将头尾实体分为两个独立数组单独标注,解决了嵌套头尾实体、重叠头尾实体标注的问题,从互联网及文献中获取花卉病虫害语料文本,并根据步骤s1、s2中构建的本体模型,对语料进行语义三元组标注。(2)然后建立“01”标注模式。用两列数组,实体起始数组和实体结束数组分别来表示实体的起始位置和结束位置。首先对于输入的文本,创建两个数组长度与输入文本长度相同且元素全为“0”的数组进行初始化,再根据预先标注的实体内容,分别将实体的头尾位置在对应数组中分别标为“1”,当一个句子中有多个可能的实体时,依据就近原则,起始数组中的“1”到最近的结束数组的“1”之间的部分看成是一个实体,相比传统“bio”标注方式,“01”标注方法只需进行二分类的标签预测,不需要预测多个标签类别,降低了预测的难度。另外“01”标注方法只对实体的头尾边界位置进行标注,降低了预测时出现实体错误或缺失的概率,同时对于单个字实体,可以进行较好的表示,不用引入额外的标注符号进行单独标注来进一步增加预测的标签类别,增加预测难度。以栀子花叶斑病为例,标注策略如图3。
[0062]
s4、构建基于所述头部实体数组、所述尾部实体数组以及所述头部实体数组与所述尾部实体数组之间的关系的联合抽取框架模型。
[0063]
具体的,构建cas
pos
rel三元组进行联合抽取框架模型,即同时对实体和实体之间的关系进行抽取。对于输入的句子中每个字符向量ci,通过公式(1),(2)计算可能为头实体起始和结束位置的可能性和
[0064][0065][0066]
σ为sigmoid激活函数(即s型函数),w
start
和w
end
分别表示起始训练权重和结束训练权重,b
start
和b
end
分别表示起始训练偏置和结束训练偏置。
[0067]
然后对每个头实体建立起和每一个关系特定标注器的映射,通过公式(3)、(4)计算各关系尾实体所在起始和结束位置的可能性和其中,r为关系类型,是第k个头实体特征向量的第i个字符向量表示,通过以字符作为语义单元结合词性特征的方式,将字词特征相加来对字词特征进行融合,得到字、词性混合特征向量。最后根据设置的激活阈值判定每个字符对应的标签。
[0068][0069][0070]
s5、使用预训练的语言表征模型建立基于知识图谱的知识抽取框架。
[0071]
具体的,使用albert(a lite bidirectional encoder representation from transformers;一个精简的预训练的语言表征模型)预训练模型作为编码层,通过albert预训练模型提取语料中的文本特征,得到具有丰富语义信息的字符序列向量,再将得到的字
符序列向量作为输入,经过头实体标注器,计算最有可能为头实体的边界,起始和结束位置分别在起始数组和结束数组中用“1”表示。通过jieba(结巴分词)分词工具进行词性标注并嵌入词性向量,将头实体字符向量和包含句子信息的字符序列向量进行融合得到第i个字符的向量,如公式(5)所示。
[0072][0073]
其中,ci表示第i个字符的albert编码字符向量,posi表示第i个字符所在词的词性向量,表示第k个头实体特征向量的第i个字符向量。输入融合后的特征向量到各个关系特定的标注器中进行尾实体标注。具体见知识抽取框架结构图。
[0074]
s6、将所述三元组单元中的资源描述框架转换成属性图,并将所述属性图存储在neo4j图形数据库中。
[0075]
具体的,建立的三元组直接存储到属性图中rdf2pg映射算法,提供管理、存储花卉病虫害知识模型方法。为了保证知识的时效性和基于知识图谱进行的知识发现的有效性,需要对知识图谱进行及时的更新以及存储细粒度上的控制,本发明提出了一种将抽取到的三元组根据rdf(resource description framework,资源描述框架)图中存储本体结构直接存储到属性图中的rdf2pg(resource description framework to property graph)映射方法,使用jena api对本体文件进行读取和推理,使用neo4j作为属性图存储工具。
[0076]
本发明提出的基于知识图谱的花卉病虫害的本体建模方法提供了一种有关花卉病虫害防治知识库的知识抽取、知识管理和知识建模的工具和方法,对病虫害专家系统的知识库管理提出了一种新的基于知识图谱的知识发现和知识存储、管理的模式和方法,给花卉病虫害防治的诊断专家系统,在线诊断和智能化应用提供后台知识管理和知识发现的技术保障。
[0077]
本发明提出的基于知识图谱的花卉病虫害的本体建模方法,针对花卉病虫害领域文本特点,利用多特征表示语义,能够实现对花卉病虫害领域实体及关系的联合抽取,减小了知识抽取、精炼的成本,帮助知识图谱快速构建和及时更新。提出的知识管理和存储模型,结合图数据库,建立了将抽取到的三元组根据rdf图中存储的本体结构直接存储到属性图中的rdf2pg映射方法,为花卉病虫害知识管理和知识存储提供了新的模式和方法。
[0078]
在具体实施中,参考图5,本发明的一个实施例提供了一种rdf2pg映射算法流程,其具体算法流程如下:
[0079]
在步骤s10中,抽取三元组。将待抽取的语料输入到casposrel中,得到抽取到的三元组t。
[0080]
在步骤s20中,读取本体模型。使用jena api读取本体模型o。
[0081]
在步骤s30中,获取实体概念信息。遍历步骤s7.1中三元组t。在o中查找t中各三元组关系objectproperty对应的头实体概念domainclass以及尾实体概念rangeclass。
[0082]
在步骤s40中,获取实体属性信息。根据步骤s7.3中得到的头实体概念domainclass以及尾实体概念rangeclass,在o中查找对应的属性名称datatypeproperty,以及属性类型range。
[0083]
在步骤s50中,生成cypher语句,存储三元组。根据步骤s7.1-s7.4中得到的三元组及三元组在本体模型中对应的语义模型,生成实体添加cypher语句,merge(:class
{datatype:实例值}),关系添加cypher语句create unique(:domainclass{datatype:实例值})-[:objectproperty]-》(:rangeclass{datatype:实例值})。将数据存入neo4j数据库中,完成知识的存储与管理。
具体实施例
[0084]
下面以一个具体的实施例来对本发明的基于知识图谱的花卉病虫害的本体建模方法予以说明。
[0085]
以《花卉病虫害防治》,《花卉病虫害防治大全:彩图》,《花木病虫害防治图册》及百度百科中整理了721个文档,160余种花卉以及170余种害虫所导致的病害症状、病害发生环境条件以及病害防治方法等文档为例。
[0086]
步骤s11,提取花卉病虫害领域要素。
[0087]
将十类要素作为主要概念,包括花卉、花卉生长阶段、植物器官、地区、病虫害、化肥农药、防治方法、为害症状、环境、病原等。
[0088]
步骤s12,构建花卉病虫害本体模型。
[0089]
使用prot
égé
本体建模工具,构建(病虫害,环境条件,环境),(病虫害,为害部位,植物器官),(病虫害,发生地区,地区),(病虫害,所需化肥农药,化肥农药),(病虫害,为害部位颜色,植物器官颜色),(病虫害,为害症状,植物性状),(病虫害,为害部位形状,植物器官形状),(病虫害,防治方法,防治方法),(病虫害,为害花卉,花卉),(病虫害,发生时期,花卉生长阶段),(病害,别称,病害),(病害,发病病原,病原),(虫害,别称,虫害)等关系,并对每个类别构建datatypeproperty属性,例如(病害,病害名称,string),(病原,病原名称,string)等。
[0090]
步骤s13,标注三元组。
[0091]
以栀子花叶斑病为例,标注结果可表示为{“text”:“栀子花叶斑病由栀子叶点霉和栀子生叶点霉(真菌)侵染所致。”,“triple_list”:[“栀子花叶斑病”,“发病病原”,“叶点霉”]}。
[0092]
步骤s14,标注三元组中实体。
[0093]
以栀子花叶斑病为例,标注策略如图3所示。
[0094]
步骤s15,构建cas
pos
rel抽取框架。
[0095]
以栀子花叶斑病为例,模型框架如图4所示。
[0096]
步骤s16,管理、存储知识。
[0097]
步骤s6.1,抽取三元组。
[0098]
以语料“栀子花叶斑病由栀子叶点霉和栀子生叶点霉(真菌)侵染所致。”为例,通过步骤s5中构建的抽取框架,抽取的到三元组(“栀子花叶斑病”,“发病病原”,“叶点霉”)。
[0099]
步骤s6.2,读取本体模型。
[0100]
使用jena api读取步骤s2中构建的本体模型o。
[0101]
步骤s6.3,获取实体概念信息。
[0102]
在o中查找“发病病原”关系对应的头实体概念domainclass“病害”和尾实体概念rangeclass“病原”。
[0103]
步骤s6.4,获取实体属性信息。
[0104]
分别查找“病害”及“病原”对应的datatypeproperty,分别得到“病害名称”和“病原名称”以及两个属性的值域,均为string。
[0105]
步骤s6.5,生成cypher语句,存储三元组。
[0106]
生成实体添加cypher语句merge(:病害{病害名称:’栀子花叶斑病’}),merge(:病原{病原名称:’叶点霉’})。生成关系添加cypher语句create unique(:病害{病害名称:’栀子花叶斑病’})-[:发病病原]-》(:病原{病原名称:’叶点霉’})。完成对(“栀子花叶斑病”,“发病病原”,“叶点霉”)三元组的存储。
[0107]
本发明还提供了一种基于知识图谱的花卉病虫害的本体建模系统,所述本体建模系统通过上述任意的基于知识图谱的花卉病虫害的本体建模方法实现。
[0108]
本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0109]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
相关知识
基于知识图谱的水稻病虫害智能诊断系统
基于知识图谱的花卉病虫害知识管理方法
大气现象的真实感建模及绘制技术研究
基于知识图谱的病虫害检测及防治推荐系统
基于草图的花开建模与动画
基于本体论的玉米病虫害诊断系统的设计与实现
基于知识图谱的农作物病虫害智能问答系统
花卉食谱的知识图谱构建研究
树木花卉形态建模研究
柔性石墨卷绕系统的建模与仿真
网址: 一种基于知识图谱的花卉病虫害的本体建模方法和建模系统 https://www.huajiangbk.com/newsview606080.html
上一篇: 植物病害流行的预测课件.ppt |
下一篇: 江苏省农业农村厅 建设成果 【智 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039