同义词识别模型的训练方法、同义词确定方法及设备与流程
本申请实施例涉及机器学习和计算机技术领域,特别涉及一种同义词识别模型的训练方法、同义词确定方法及设备。
背景技术:
随着计算机技术的发展,人工智能方向的机器学习技术越来越多地应用于自然语言分析场景中,例如识别同义词。
在相关技术中,编辑距离是指一个字符串变成另一个字符串所需经过的处理次数,编辑距离可以表示两个字符串的差异程度,通过两个词之间的编辑距离,确定该两个词之间是否为同义词,当两个词之间的编辑距离小于或等于预设值时,确定这两个词为同义词;当两个词之间的编辑距离大于预设值时,确定这两个词为非同义词。
在上述相关技术中,由于存在编辑距离较小的非同义词对,导致同义词的识别准确性较低。
技术实现要素:
本申请实施例提供了一种同义词识别模型的训练方法、同义词确定方法及设备,能够提升识别同义词的准确性。所述技术方案如下。
根据本申请实施例的一个方面,提供了一种同义词识别模型的训练方法,所述方法包括:
获取多个词语;
获取所述词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征所述词语的语义特征,所述文字特征信息用于表征所述词语的字词特征;
基于所述多个词语确定多个训练样本,所述多个训练样本包括至少一个正样本和至少一个负样本,所述正样本为同义词对,所述负样本为非同义词对;
通过同义词识别模型基于所述训练样本中两个词语的多源特征信息,确定所述训练样本的同义词预测结果和相关性预测结果,所述同义词预测结果是指所述训练样本中两个词语是否为同义词的预测结果,所述相关性预测结果是指所述训练样本中两个词语之间相关性的预测结果;
基于所述训练样本的同义词预测结果和相关性预测结果,计算所述同义词识别模型的损失函数值;
根据所述损失函数值对所述同义词识别模型进行训练。
根据本申请实施例的一个方面,提供了一种同义词确定方法,所述方法包括:
获取目标词对,所述目标词对包括第一词语和第二词语;
获取所述第一词语的多源特征信息和所述第二词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征词语的语义特征,所述文字特征信息用于表征词语的字词特征;
通过同义词识别模型基于所述目标词对的多源特征信息,确定所述目标词对的同义词预测结果,所述同义词预测结果是指所述第一词语和所述第二词语是否为同义词的预测结果。
根据本申请实施例的一个方面,提供了一种同义词识别模型的训练装置,所述装置包括:
词语获取模块,用于获取多个词语;
信息获取模块,用于获取所述词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征所述词语的语义特征,所述文字特征信息用于表征所述词语的字词特征;
样本确定模块,用于基于所述多个词语确定多个训练样本,所述多个训练样本包括至少一个正样本和至少一个负样本,所述正样本为同义词对,所述负样本为非同义词对;
结果预测模块,用于通过同义词识别模型基于所述训练样本中两个词语的多源特征信息,确定所述训练样本的同义词预测结果和相关性预测结果,所述同义词预测结果是指所述训练样本中两个词语是否为同义词的预测结果,所述相关性预测结果是指所述训练样本中两个词语之间相关性的预测结果;
损失计算模块,用于基于所述训练样本的同义词预测结果和相关性预测结果,计算所述同义词识别模型的损失函数值;
模型训练模块,用于根据所述损失函数值对所述同义词识别模型进行训练。
根据本申请实施例的一个方面,提供了一种同义词确定装置,所述装置包括:
词对获取模块,用于获取目标词对,所述目标词对包括第一词语和第二词语;
信息获取模块,用于获取所述第一词语的多源特征信息和所述第二词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征词语的语义特征,所述文字特征信息用于表征词语的字词特征;
结果确定模块,用于通过同义词识别模型基于所述目标词对的多源特征信息,确定所述目标词对的同义词预测结果,所述同义词预测结果是指所述第一词语和所述第二词语是否为同义词的预测结果。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述同义词识别模型的训练方法,或实现上述同义词确定方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述同义词识别模型的训练方法,或实现上述同义词确定方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述同义词识别模型的训练方法,或执行上述同义词确定方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过采用词语的多源特征信息训练同义词识别模型,并通过多任务学习得到的同义词预测结果和相关性预测结果这两方面的预测结果,计算同义词识别模型的损失函数值,并根据损失函数值对同义词识别模型进行训练,相比于只采用单一的特征信息和单任务学习训练同义词识别模型,能够得到准确率更高的同义词识别模型,提高了同义词识别的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的同义词识别模型的训练方法的流程图;
图2是本申请另一个实施例提供的同义词识别模型的训练方法的流程图;
图3是本申请一个实施例提供的身体部位查询树的示意图;
图4是本申请一个实施例提供的同义词识别模型的架构图;
图5是本申请一个实施例提供的同义词确定方法的流程图;
图6是本申请一个实施例提供的同义词识别模型的训练方法的示意图;
图7是本申请一个实施例提供的同义词识别模型的训练装置的框图;
图8是本申请另一个实施例提供的同义词识别模型的训练装置的框图;
图9是本申请一个实施例提供的同义词确定装置的框图;
图10是本申请另一个实施例提供的同义词确定装置的框图;
图11是本申请另一个实施例提供的计算机设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。
人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习技术,例如利用自然语言处理技术确定同义词、利用机器学习技术训练同义词识别模型。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如pc(personalcomputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
请参考图1,其示出了本申请一个实施例提供的同义词识别模型的训练方法的流程图。该方法可以包括如下几个步骤(101~106)。
步骤101,获取多个词语。
在一些实施例中,从知识图谱、业务数据和网络检索数据等多个渠道获取多个词语。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的整体知识架构。业务数据是指计算机程序产品在实际运行过程中生成的数据,从业务数据中可以获取用户提供的词语。可选地,多个词语是与同一领域相关的词语,如医学领域、植物学领域、化学领域等。当多个词语为同一领域相关的词语,能够提升同义词确定的准确性。可选地,多个词语为经过错别字矫正、去除重复词等清洗操作后的词语。
步骤102,获取词语的多源特征信息。
其中,多源特征信息包括语义特征信息和文字特征信息,语义特征信息用于表征词语的语义特征,文字特征信息用于表征词语的字词特征。在一些实施例中,语义特征信息包括词向量。word2vec是一种神经网络语言模型,可以将词语输出为分布式表示的词向量,以方便下游自然语言处理任务使用。词向量包含了词语丰富的语义信息,维度较高,例如词向量可以是数百维度的向量。在一些实施例中,文字特征信息表示为向量形式。可选地,文字特征信息包括编辑距离(如文字编辑距离、拼音编辑距离等等)、子序列、偏旁个数等等。编辑距离(editdistance)也可称为莱文斯坦距离,是针对两个字符串的差异程度的量化测量,测量方式是看至少需要多少次处理才能将一个字符串变成另一个字符串。本申请实施例中,编辑距离是针对两个词语的差异化程度的量化测量。词语的多源特征信息还可以包括其他信息,本申请实施例对此不作限定。
步骤103,基于多个词语确定多个训练样本。
其中,多个训练样本包括至少一个正样本和至少一个负样本,正样本为同义词对,负样本为非同义词对。每一词对中包括两个词语,当词对中的两个词语为同义词,该词对为正样本;当词对中的两个词语为非同义词,该词对为负样本。
在一些实施例中,本步骤103包括如下子步骤:
1、根据多个词语的语义特征信息之间的语义相似性,将多个词语划分为多个词集合,同一词集合中词语的语义特征信息之间的语义相似性大于门限值,不同词集合中词语的语义特征信息之间的语义相似性小于门限值;
2、从同一词集合中选取两个词语构建正样本;
3、从不同词集合中选取两个词语构建负样本。
在一些实施例中,语义特征信息包括词向量,将词语对应的词向量之间的余弦相似性作为语义相似性。计算多个词语对应的词向量两两之间的语义相似性,并将对应的语义相似性大于门限值的词语划分到同一词集合中,将对应的语义相似性小于门限值的词语划分到不同词集合中。同一词集合中的词语之间的语义相似性也可以等于门限值。在一些示例中,某一词语的词向量与其他的词语的词向量之间的语义相似性均小于门限值,将该词语单独划分到一个词集合中,也即,该词集合中仅包含一个词语。因此,可以认为同一词集合中的词语之间互为同义词对,从同一词集合中选取的两个词语能够构建为正样本;不同词集合中的词语之间互为非同义词对,从不同词集合中分别选取的两个词语能够构建为负样本。可选地,门限值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。
步骤104,通过同义词识别模型基于训练样本中两个词语的多源特征信息,确定训练样本的同义词预测结果和相关性预测结果。
其中,同义词预测结果是指训练样本中两个词语是否为同义词的预测结果,相关性预测结果是指训练样本中两个词语之间相关性的预测结果。在一些实施例中,通过同义词识别模型,将训练样本中的词语多源特征信息进行处理并融合,得到各个词语分别对应的融合特征信息,再通过分析训练样本中的两个词语分别对应的融合特征信息之间的关系,得到训练样本的同义词预测结果和相关性预测结果。
步骤105,基于训练样本的同义词预测结果和相关性预测结果,计算同义词识别模型的损失函数值。
在一些实施例中,当得到训练样本的同义词预测结果和相关性预测结果之后,基于训练样本的同义词预测结果、相关性预测结果、训练样本的标签信息以及损失函数计算公式,能够得到同义词识别模型的损失函数值。在一些示例中,一轮训练循环中多个训练样本对应一个损失函数值;在另一些示例中,每一轮训练过程中每一训练样本对应有一个损失函数值。
步骤106,根据损失函数值对同义词识别模型进行训练。
可选地,同义词识别模型能够根据损失函数值调整模型参数并进行下一轮训练,以尽量减小损失函数值,提高同义词识别模型的识别准确性。当损失函数值满足条件时,同义词识别模型训练完成。在一些实施例中,条件包括但不限于以下至少一项:损失函数值小于或等于第三阈值、损失函数值连续n次小于或等于第四阈值、损失函数值连续m次不下降。其中,第三阈值、第四阈值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。m和n为正整数,m的取值可以为5、10、20、28等等,n的取值可以为5、10、20、28等等,m和n的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。在另一些实施例中,同义词识别模型停止训练的条件还包括:同义词识别模型的的准确率大于或等于准确率阈值、同义词识别模型的的精确率大于或等于精确率阈值、同义词识别模型的的召回率大于或等于召回率阈值、同义词确定模型的f1分数大于或等于f1分数阈值等等。可选地,准确率阈值、精确率阈值、召回率阈值和f1分数阈值由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。
综上所述,本申请实施例提供的技术方案,通过采用词语的多源特征信息训练同义词识别模型,并通过多任务学习得到的同义词预测结果和相关性预测结果这两方面的预测结果,计算同义词识别模型的损失函数值并根据损失函数值对同义词识别模型进行训练,相比于只采用单一的特征信息和单任务学习训练同义词识别模型,能够得到准确率更高的同义词识别模型,提高了同义词识别的准确性。
另外,本申请实施例通过多任务学习,能够提高同义词识别模型中的参数的迭代效率,从而在较短的时间内得到性能较高的同义词识别模型,提高同义词识别模型的训练效率。
另外,本申请实施例通过多个词语的语义特征信息之间的语义相似性,确定多个训练样本,从而自动化得到初始的正样本和负样本,提高同义词识别模型的训练效率。
请参考图2,其示出了本申请另一个实施例提供的同义词识别模型的训练方法的流程图。该方法可以包括如下几个步骤(201~208)。
步骤201,获取多个词语。
步骤202,获取词语的多源特征信息。
步骤203,基于多个词语确定多个训练样本。
上述步骤201~203的具体内容可以参考上述图1实施例的步骤101~103,此处不再赘述。
步骤204,分别确定训练样本中第一词语和第二词语的匹配词,得到第一词语的和第二词语的匹配词确定结果。
在一些实施例中,匹配词确定结果为词语对应的匹配词或不存在词语对应的匹配词。将第一词语和多个候选的匹配词分别进行匹配度计算,得到第一词语对应的多个匹配度,当第一词语对应的多个匹配度均小于匹配度阈值时,表示第一词语不存在匹配词,则第一词语的匹配词确定结果为第一词语不存在匹配词;当第一词语对应的多个匹配度中存在大于或等于匹配度阈值的匹配度时,将匹配度最高的匹配词确定为第一词语的匹配词。可选地,匹配度阈值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。第二词语的匹配词确定方式同理,此处不再赘述。
在一些实施例中,多个词语为医疗相关的词语,匹配词为部位描述词,用于表示对应的身体部位。相应的,第一词语的匹配词确定结果包括与第一词语对应的第一部位描述词,第二词语的匹配词确定结果包括与第二词语对应的第二部位描述词。本步骤204包括如下子步骤:
1、从身体部位查询树中,基于第一词语与身体部位查询树中的部位描述词之间的匹配度,获取与第一词语对应的第一部位描述词;
2、从身体部位查询树中,基于第二词语与身体部位查询树中的部位描述词之间的匹配度,获取与第二词语对应的第二部位描述词。
其中,身体部位查询树中记录多个身体部位的部位描述词(即上述多个候选的匹配词),以及多个身体部位之间的关系。在一些实施例中,通过计算第一词语和身体部位查询树中各个部位描述词之间的编辑距离,确定第一词语和身体部位查询树中各个词语之间的匹配度,编辑距离越小,匹配度越大;编辑距离越大,匹配度越小。将身体部位查询树中,与第一词语之间的匹配度最大的部位描述词确定为第一词语对应的第一部位描述词。
步骤205,基于第一词语的匹配词确定结果和第二词语的匹配词确定结果,确定训练样本的第二标签信息。
其中,第二标签信息是指训练样本中两个词语之间相关性的标签信息。可选地,两个词语之间的相关性用于表示两个词语对应的身体部位之间的相关性。相关性标签信息包括身体部位相同或相关、身体部位不相关、不确定这三类标签。基于第一词语的部位描述词和第二词语的部位描述词,能够确定训练样本的第二标签信息为身体部位相同或相关,还是身体部位不相关。当第一词语和第二词语中的至少一个词语不存在部位描述词时,确定训练样本的第二标签信息为不确定。
在一些实施例中,根据从多种途径中获取的医学知识,将身体部位分为皮肤系统、肌肉系统、神经系统、骨骼系统、呼吸系统、消化系统、泌尿系统、生殖系统、心血管系统、淋巴系统、内分泌系统、身体躯干共十三个系统,基于该十三个系统将身体部位进行多层细分,得到身体部位查询树。请参考图3,其示出了本申请一个实施例提供的身体部位查询树的示意图。如图3所示,身体部位查询树30包括多个节点,每一节点包括用于表示一种身体部位的至少一个部位描述词。可选的,每一节点采用尽可能多的部位描述词表示该节点对应的身体部位,部位描述词可以包括较为标准词语,也可以包括口语化的词语或身体部位的别名,本申请实施例对此不作限定。示例性地,对于节点31,与其相连的上一层节点32为节点31的父节点,与其相连的下一层节点33、节点34和节点35为节点31的子节点。在一个示例中,当第一部位描述词和第二部位描述词位于同一节点时,训练样本的第二标签信息为身体部位相同或相关;当第一部位描述词和第二部位描述词位于不同节点时,训练样本的第二标签信息为身体部位不相关。在另一个示例中,当第一部位描述词和第二部位描述词位于同一节点,或第一部位描述词所在的节点与第二部位描述词所在的节点互为父节点和子节点,训练样本的第二标签信息为身体部位相同或相关;当第一部位描述词和第二部位描述词位于不同节点,且第一部位描述词所在的节点与第二部位描述词所在的节点不存在父、子节点关系,训练样本的第二标签信息为身体部位不相关。第二标签信息的确定规则还可以是其他方式,具体由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。
步骤206,通过同义词识别模型基于训练样本中两个词语的多源特征信息,确定训练样本的同义词预测结果和相关性预测结果。
本步骤206的部分内容可以参考图1实施例的步骤104,此处不再赘述。
如图4所示,同义词识别模型40包括孪生的第一网络41和第二网络42、主任务输出层43和副任务输出层44。在一些实施例中,本步骤206可以包括如下子步骤(2061~2064)。
步骤2061,通过第一网络41对训练样本中第一词语的语义特征信息进行降维处理后,与第一词语的文字特征信息进行融合处理,得到第一词语的融合特征信息。
可选地,第一网络41包括多层全连接层45和融合层46,通过多层全连接层45对第一词语的语义特征信息进行多次降维处理,得到第一词语降维后的语义特征信息,并在网络层46将第一词语降维后的语义特征信息和文字特征信息进行融合处理,得到第一词语的融合特征信息。在一些实施例中,第一词语的语义特征信息和文字特征信息为向量形式,即第一词语的词向量和文字特征向量,将第一词语的文字特征向量中的元素接续到第一词语的词向量的元素之后,能够得到第一词语的融合特征向量(即第一词语的融合特征信息)。在一个示例中,第一词语降维后的词向量为[0,1,1,0,2,1,0,0]t,第一词语的文字特征向量为[1,1,0,1,2]t,则第一词语的融合特征向量为[0,1,1,0,2,1,0,0,1,1,0,1,2]t。
步骤2062,通过第二网络42对训练样本中第二词语的语义特征信息进行降维处理后,与第二词语的文字特征信息进行融合处理,得到第二词语的融合特征信息。
本步骤2062可以参考上述步骤2061,此处不再赘述。
步骤2063,通过主任务输出层43,基于第一词语的融合特征信息和第二词语的融合特征信息确定训练样本的同义词预测结果。
在一些实施例中,主任务输出层43获取来自第一网络41的第一词语的融合特征信息,以及来自于第二网络42的第二词语的融合特征信息,将第一词语的融合特征信息和第二词语的融合特征信息进行相似度计算,从而得到训练样本的同义词预测结果。在一个示例中,融合特征信息为融合特征向量,计算第一词语的融合特征向量和第二词语的融合特征向量的欧几里得距离,得到训练样本对应的欧几里得距离,训练样本对应的欧几里得距离越小,表示第一词语和第二词语之间的相似度越大;训练样本对应的欧几里得距离越大,表示第一词语和第二词语之间的相似度越小。当训练样本对应的欧几里得距离大于或等于欧几里得距离阈值时,同义词预测结果为训练样本是同义词;当训练样本对应的欧几里得距离小于欧几里得距离阈值时,同义词预测结果确定训练样本是非同义词。其中,欧几里得距离阈值可以为0.4、0.5、0.55、0.7等等,欧几里得距离阈值的具体数值由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。
步骤2064,通过副任务输出层44,基于第一词语的融合特征信息和第二词语的融合特征信息确定训练样本的相关性预测结果。
在一些实施例中,副任务输出层44获取来自第一网络41的第一词语的融合特征信息,以及来自于第二网络42的第二词语的融合特征信息,将第一词语的融合特征信息和第二词语的融合特征信息进行比对,得到训练样本的相关性预测结果。
步骤207,基于训练样本的同义词预测结果和相关性预测结果,计算同义词识别模型的损失函数值。
本步骤207的部分内容可以参考图1实施例的步骤105,此处不再赘述。
在一些实施例中,步骤207包括如下子步骤:
1、根据训练样本的同义词预测结果和第一标签信息,计算主任务损失;其中,第一标签信息是指训练样本中两个词语是否为同义词的标签信息;
2、根据训练样本的相关性预测结果和第二标签信息,计算副任务损失;其中,第二标签信息是指训练样本中两个词语之间相关性的标签信息;
3、根据主任务损失、主任务损失对应的权重,副任务损失,以及副任务损失对应的权重,计算同义词识别模型的损失函数值。
基于训练样本的第一标签信息和同义词预测结果,采用主任务损失函数,能够计算得到主任务损失;基于训练样本的第二标签信息和相关性预测结果,采用副任务损失函数,能够计算得到副任务损失。对主任务损失和副任务损失赋予相应的权重,结合主任务损失和副任务损失计算得到同义词识别模型的损失函数值。同义词识别模型的损失函数值的计算公式参考如下公式一:
公式一:
其中,为同义词识别模型的损失函数值,n为训练样本的数量,i表示训练样本的序号,λ1为主任务损失对应的权重,λ2为副任务损失对应的权重,yi为第i个训练样本的第一标签信息对应的值,margin为欧几里得距离阈值,di为第i个训练样本对应的欧几里得距离,ki为第i个训练样本的第二标签信息对应的值,为第i个训练样本的相关性预测结果对应的值。
可选地,当第一标签信息为同义词时,yi为1;当第一标签信息为非同义词时,yi为0。可选地,当第二标签信息为身体部位相同或相关时,ki为0;当第二标签信息为身体部位不相关时,ki为1;当第二标签信息为不确定时,ki为2。可选地,当第i个训练样本的相关性预测结果为身体部位相同或相关时,为0;当第i个训练样本的相关性预测结果为身体部位不相关时,为1;当第二标签信息为不确定时,为2。需要说明的是,yi、ki和的具体取值规则由相关技术人员根据实际情况进行设定,本申请实施例对此不作限定。
步骤208,根据损失函数值对同义词识别模型进行训练。
本步骤208可以参考上述图1实施例的步骤106,此处不再赘述。
在一些实施例中,采用主动学习训练同义词识别模型,包括如下步骤:
1、选取同义词预测结果符合条件的目标训练样本,条件包括同义词预测结果的相似度大于第一阈值且小于第二阈值;
2、获取目标训练样本经过人工标注得到的标签信息。
其中,目标训练样本用于对同义词识别模型进行下一轮训练。在一些实施例中,选取一些欧几里得距离位于欧几里得距离阈值附近的训练样本作为目标训练样本,并人工标注目标训练样本的正确的标签信息,采用目标训练样本对同义词识别模型进行下一轮训练。在一些实施例中,标签信息为第一标签信息。在一个示例中,欧几里得距离阈值为0.5,则将欧几里得距离位于[0.45,0.55]之间的训练样本确定为目标训练样本。可选地,第一阈值和第二阈值的具体取值由相关技术人员根据实际情况继续宁设定,本申请实施例对此不作限定。
综上所述,本申请实施例提供的技术方案,采用欧几里得距离位于欧几里得距离阈值附近的训练样本作为目标训练样本,并采用目标训练样本对同义词识别模型进行下一轮训练,即采用区分难度较大的训练样本训练同义词识别模型,在经过较少的训练样本的训练后就能够得到性能较高的同义词识别模型,减少所需的训练样本的数量和同义词识别模型的训练时间,提高训练效率。
请参考图5,其示出了本申请一个实施例提供的同义词确定方法的流程图。本实施例步骤的一些内容可以参考上述实施例,以下不再赘述。该方法可以包括如下几个步骤(501~505)。
步骤501,获取目标词对。
其中,目标词对包括第一词语和第二词语。
步骤502,分别确定第一词语和第二词语的匹配词,得到第一词语的匹配词确定结果和第二词语的匹配词确定结果。
可选地,第一词语的匹配词确定结果包括与第一词语对应的第一部位描述词,第二词语的匹配词确定结果包括与第二词语对应的第二部位描述词。
在一些实施例中,匹配词为部位描述词,步骤502还包括如下子步骤:
1、从身体部位查询树中,基于第一词语与身体部位查询树中的部位描述词之间的匹配度,获取与第一词语对应的第一部位描述词;
2、从身体部位查询树中,基于第二词语与身体部位查询树中的部位描述词之间的匹配度,获取与第二词语对应的第二部位描述词。
其中,身体部位查询树中记录多个身体部位的部位描述词,以及多个身体部位之间的关系。
步骤503,基于第一词语的匹配词确定结果和第二词语的匹配词确定结果,确定目标词对的相关性预测结果。
在一些实施例中,若相关性预测结果符合条件,则执行下述步骤504;若相关性预测结果不符合条件,则确定目标词对为非同义词。相关性预测结果符合条件包括:相关性预测结果为第一词语和第二词语对应的身体部位相同或相关,或不确定第一词语和第二词语对应的身体部位是否相关。相关性预测结果不符合条件包括:相关性预测结果为第一词语和第二词语对应的身体部位不相关。当第一词语和第二词语对应的身体部位不相关时,第一词语和第二词语一定是非同义词,则无需再进行同义词确定,提高同义词确定的效率,节省计算机设备的运行开销。
步骤504,获取第一词语的多源特征信息和第二词语的多源特征信息。
步骤505,通过同义词识别模型基于目标词对的多源特征信息,确定目标词对的同义词预测结果。
在一些实施例中,同义词识别模型包括孪生的第一网络和第二网络,步骤505包括如下子步骤:
1、通过第一网络对目标词对中第一词语的语义特征信息进行降维处理后,与第一词语的文字特征信息进行融合处理,得到第一词语的融合特征信息;
2、通过第二网络对目标词对中第二词语的语义特征信息进行降维处理后,与第二词语的文字特征信息进行融合处理,得到第二词语的融合特征信息;
3、确定第一词语的融合特征信息和第二词语的融合特征信息之间的相似度;
4、根据相似度确定目标词对的同义词预测结果。
综上所述,本申请实施例提供的技术方案中,当第一词语和第二词语对应的身体部位不相关时,直接确定第一词语和第二词语一定为非同义词,不再对第一词语和第二词语进一步进行同义词确定,从而提高同义词确定的效率,节省计算机设备的运行开销。
下面,结合图6以医疗领域的症状词的同义词确定方案为例,介绍本实施例提供的方法。如图6所示,该方法包括如下几个步骤(步骤61~67)。
步骤61,获取多个症状词。
其中,症状词为表示身体部位的状态的词语。例如“头痛”、“腰有点酸”、“波棱盖儿疼”等等。
步骤62,获取多个症状词的词向量。
步骤63,基于多个症状词的词向量获取确定训练样本。
在一些实施例中,计算多个症状词的词向量两两之间的语义相似性,并将多个症状词划分为多个词集合,同一词集合中症状词的词向量之间的语义相似性大于或等于门限值,不同词集合中症状词的词向量之间的语义相似性小于门限值。训练样本包括正样本和负样本,将从同一词集合中选取的两个症状词构建为一个正样本,将从不同词集合中选取的两个症状词构建为一个负样本。
步骤64,获取多个症状词的文字特征向量。
在一些实施例中,文字特征向量是基于以下至少一项生成的:编辑距离、拼音编辑距离、子序列、文字偏旁个数、辞林工具。
步骤65,基于训练样本训练同义词识别模型。
在一些实施例中,同义词识别模型包括孪生的第一网络和第二网络,第一网络和第二网络均包括多个全连接层(dense),通过多个全连接层能够对训练样本的两个症状词的词向量进行降维处理,得到两个症状词降维后的词向量。基于两个症状词降维后的词向量和文字特征向量,得到同义词识别模型的输出结果。同义词识别模型的其他训练过程可以参考上文实施例,此处不再赘述。
步骤66,获取同义词识别模型识输出的同义症状词。
步骤67,获取同义词识别模型识输出的同义症状词进行人工校验后的校验结果,将人工校验结果为同义词的训练样本存储到同义症状词数据库中。
本申请实施例提供的技术方案可以应用于多种场景中。
例如,当本申请实施例提供的技术方案应用于医学问诊场景中时,能够根据本申请实施例提供的技术方案,获取用户提供的不够标准的症状词(如较为口语化的症状词),并确定对应的表达方式较为标准的同义症状词,便于将用户所想要描述的症状映射到医疗图谱中,进而能够采用人机对话的方式依据医疗图谱实现自动化问诊。
又例如,采用本申请实施例提供的技术方案,还可以挖掘出现有医疗图谱中所包含的症状词的同义症状词,并将挖掘出的同义症状词补充到现有医疗图谱中,从而丰富现有医疗图谱的内容,增强医疗图谱的表达能力。
另外,本申请提供的“通过同义词识别将词语标准化”这一技术方案,还可以应用于其他场景中,如疾病、药物(如中草药)等资料的收集整理、医学检查等等,本申请实施例对此不作具体限定。
为了横向比较本申请实施例提供的技术方案与其他技术方案,本申请还设计了一个基于五折交叉验证(five-fold交叉验证)的对比实验。选择一份高置信度的同义词集作为数据集,将数据集分成五等份数据,不重复地选择其中的一份数据为测试集,将其余四份数据作为训练集进行同义词识别模型的训练与验证,记录每次实验结果,并取五次结果均值为该模型的评估结果。
设计的四个模型如下:
baseline(对照组)1-基于词向量的模型:基于词向量并以svm(supportvectormachine,支持向量机)作为分类器进行训练测试;
baseline2-基于文字特征向量的模型:基于文字特征向量并以svm作为分类器进行训练测试;
孪生网络—单任务学习模型:采用孪生网络模型但不引入副任务输出层;
孪生网络—多任务学习模型:采用孪生网络模型且引入副任务输出层。
上述四个模型的实验结果如下表一:
表一
其中,上述accuracy、precision、recall和f1-score为评价指标。
从上述实验结果可以看出,两个baseline模型的评价指标都大幅低于孪生网络模型的评价指标,并且两者的召回率仅仅比randomguess(随机猜测)高10%左右。孪生网络模型因为引入了多源特征和自身模型的损失函数,可以更好地对同义词进行预测,并且其f1值比两个baseline模型高出了超过20%。另外,多任务学习的加入,使得孪生网络模型在accuracy、precision和f1-score评价指标上均超过了单任务学习模型,其中precision提高了5%。可见:引入多任务学习,尤其是引入以预测身体部位为副任务的多任务学习,可以有效提升同义词识别模型的性能。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图7,其示出了本申请一个实施例提供的同义词识别模型的训练装置的框图。该装置具有实现上述同义词识别模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置700可以包括:词语获取模块710、信息获取模块720、样本确定模块730、结果预测模块740、损失计算模块750和模型训练模块760。
所述词语获取模块710,用于获取多个词语。
所述信息获取模块720,用于获取所述词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征所述词语的语义特征,所述文字特征信息用于表征所述词语的字词特征。
所述样本确定模块730,用于基于所述多个词语确定多个训练样本,所述多个训练样本包括至少一个正样本和至少一个负样本,所述正样本为同义词对,所述负样本为非同义词对。
所述结果预测模块740,用于通过同义词识别模型基于所述训练样本中两个词语的多源特征信息,确定所述训练样本的同义词预测结果和相关性预测结果,所述同义词预测结果是指所述训练样本中两个词语是否为同义词的预测结果,所述相关性预测结果是指所述训练样本中两个词语之间相关性的预测结果。
所述损失计算模块750,用于基于所述训练样本的同义词预测结果和相关性预测结果,计算所述同义词识别模型的损失函数值。
所述模型训练模块760,用于根据所述损失函数值对所述同义词识别模型进行训练。
综上所述,本申请实施例提供的技术方案,通过采用词语的多源特征信息训练同义词识别模型,并通过多任务学习得到的同义词预测结果和相关性预测结果这两方面的预测结果,计算同义词识别模型的损失函数值并根据损失函数值对同义词识别模型进行训练,相比于只采用单一的特征信息和单任务学习训练同义词识别模型,能够得到准确率更高的同义词识别模型,提高了同义词识别的准确性。
在一些实施例中,所述同义词识别模型包括孪生的第一网络和第二网络、主任务输出层和副任务输出层;所述结果预测模块740用于:
通过所述第一网络对所述训练样本中第一词语的语义特征信息进行降维处理后,与所述第一词语的文字特征信息进行融合处理,得到所述第一词语的融合特征信息;
通过所述第二网络对所述训练样本中第二词语的语义特征信息进行降维处理后,与所述第二词语的文字特征信息进行融合处理,得到所述第二词语的融合特征信息;
通过所述主任务输出层,基于所述第一词语的融合特征信息和所述第二词语的融合特征信息确定所述训练样本的同义词预测结果;
通过所述副任务输出层,基于所述第一词语的融合特征信息和所述第二词语的融合特征信息确定所述训练样本的相关性预测结果。
在一些实施例中,如图8所示,所述装置700还包括:匹配词确定模块770和标签确定模块780。
所述匹配词确定模块770,用于分别确定所述训练样本中第一词语和第二词语的匹配词,得到所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果。
所述标签确定模块780,用于基于所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果,确定所述训练样本的第二标签信息,所述第二标签信息是指所述训练样本中两个词语之间相关性的标签信息。
在一些实施例中,所述第一词语的匹配词确定结果包括与所述第一词语对应的第一部位描述词,所述第二词语的匹配词确定结果包括与所述第二词语对应的第二部位描述词;所述标签确定模块780用于:
从身体部位查询树中,基于所述第一词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第一词语对应的第一部位描述词;
从所述身体部位查询树中,基于所述第二词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第二词语对应第二部位描述词;
其中,所述身体部位查询树中记录多个身体部位的部位描述词,以及所述多个身体部位之间的关系。在一些实施例中,所述样本确定模块730用于:
根据所述多个词语的语义特征信息之间的语义相似性,将所述多个词语划分为多个词集合,同一词集合中词语的语义特征信息之间的语义相似性大于门限值,不同词集合中词语的语义特征信息之间的语义相似性小于所述门限值;
从同一词集合中选取两个词语构建所述正样本;
从不同词集合中选取两个词语构建所述负样本。
在一些实施例中,所述损失计算模块750,用于:
根据所述训练样本的同义词预测结果和第一标签信息,计算主任务损失;其中,所述第一标签信息是指所述训练样本中两个词语是否为同义词的标签信息;
根据所述训练样本的相关性预测结果和第二标签信息,计算副任务损失;其中,所述第二标签信息是指所述训练样本中两个词语之间相关性的标签信息;
根据所述主任务损失、所述主任务损失对应的权重,所述副任务损失,以及所述副任务损失对应的权重,计算所述同义词识别模型的损失函数值。
在一些实施例中,如图8所示,所述装置700还包括:样本选取模块790和标签获取模块795。
所述样本选取模块790,用于选取所述同义词预测结果符合条件的目标训练样本,所述条件包括所述同义词预测结果的相似度大于第一阈值且小于第二阈值。
所述标签获取模块795,用于获取所述目标训练样本经过人工标注得到的标签信息。
其中,所述目标训练样本用于对所述同义词识别模型进行下一轮训练。
请参考图9,其示出了本申请一个实施例提供的同义确定装置的框图。该装置具有实现上述同义词确定方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置900可以包括:词对获取模块910、信息获取模块920和结果确定模块930。
所述词对获取模块910,用于获取目标词对,所述目标词对包括第一词语和第二词语。
所述信息获取模块920,用于获取所述第一词语的多源特征信息和所述第二词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征词语的语义特征,所述文字特征信息用于表征词语的字词特征。
所述结果确定模块930,用于通过同义词识别模型基于所述目标词对的多源特征信息,确定所述目标词对的同义词预测结果,所述同义词预测结果是指所述第一词语和所述第二词语是否为同义词的预测结果。
综上所述,本申请实施例提供的技术方案中,当第一词语和第二词语对应的身体部位不相关时,直接确定第一词语和第二词语一定为非同义词,不再对第一词语和第二词语进一步进行同义词确定,从而提高同义词确定的效率,节省计算机设备的运行开销。
在一些实施例中,所述同义词识别模型包括孪生的第一网络和第二网络;所述结果确定模块930用于:
通过所述第一网络对所述目标词对中第一词语的语义特征信息进行降维处理后,与所述第一词语的文字特征信息进行融合处理,得到所述第一词语的融合特征信息;
通过所述第二网络对所述目标词对中第二词语的语义特征信息进行降维处理后,与所述第二词语的文字特征信息进行融合处理,得到所述第二词语的融合特征信息;
确定所述第一词语的融合特征信息和所述第二词语的融合特征信息之间的相似度;
根据所述相似度确定所述目标词对的同义词预测结果。
在一些实施例中,如图10所示,所述装置900还包括:匹配词确定模块940、步骤循环模块950和非同义词确定模块960。
所述匹配词确定模块940,用于分别确定所述第一词语和所述第二词语的匹配词,得到所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果。
所述结果确定模块930,还用于基于所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果,确定所述目标词对的相关性预测结果,所述相关性预测结果是指所述第一词语和所述第二词语之间相关性的预测结果。
所述步骤循环模块950,用于若所述相关性预测结果符合条件,则从所述获取所述第一词语的多源特征信息和所述第二词语的多源特征信息的步骤开始执行。
所述非同义词确定模块960,用于若所述相关性预测结果不符合条件,则确定所述目标词对为非同义词。
在一些实施例中,所述第一词语的匹配词确定结果包括与所述第一词语对应的第一部位描述词,所述第二词语的匹配词确定结果包括与所述第二词语对应的第二部位描述词;所述匹配词确定模块940用于:
从身体部位查询树中,基于所述第一词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第一词语对应的第一部位描述词;
从所述身体部位查询树中,基于所述第二词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第二词语对应的第二部位描述词;
其中,所述身体部位查询树中记录多个身体部位的部位描述词,以及所述多个身体部位之间的关系。
请参考图11,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述同义词识别模型的训练方法,或实现上述同义词确定方法的功能。具体来讲:
计算机设备1100包括中央处理单元(centralprocessingunit,cpu)1101、包括随机存取存储器(randomaccessmemory,ram)1102和只读存储器(readonlymemory,rom)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(input/output,i/o)系统1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,大容量存储设备1107可以包括诸如硬盘或者cd-rom(compactdiscread-onlymemory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasableprogrammablereadonlymemory,可擦除可编程只读存储器)、eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,cd-rom、dvd(digitalvideodisc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本申请的各种实施例,计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述同义词识别模型的训练方法,或实现上述同义词确定方法。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集在被处理器执行时以实现上述同义词识别模型的训练方法。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集在被处理器执行时以实现上述同义词确定方法。
可选地,该计算机可读存储介质可以包括:rom(read-onlymemory,只读存储器)、ram(random-accessmemory,随机存储器)、ssd(solidstatedrives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括reram(resistancerandomaccessmemory,电阻式随机存取记忆体)和dram(dynamicrandomaccessmemory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述同义词识别模型的训练方法。
在一些实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述同义词确定方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
技术特征:
1.一种同义词识别模型的训练方法,其特征在于,所述方法包括:
获取多个词语;
获取所述词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征所述词语的语义特征,所述文字特征信息用于表征所述词语的字词特征;
基于所述多个词语确定多个训练样本,所述多个训练样本包括至少一个正样本和至少一个负样本,所述正样本为同义词对,所述负样本为非同义词对;
通过同义词识别模型基于所述训练样本中两个词语的多源特征信息,确定所述训练样本的同义词预测结果和相关性预测结果,所述同义词预测结果是指所述训练样本中两个词语是否为同义词的预测结果,所述相关性预测结果是指所述训练样本中两个词语之间相关性的预测结果;
基于所述训练样本的同义词预测结果和相关性预测结果,计算所述同义词识别模型的损失函数值;
根据所述损失函数值对所述同义词识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述同义词识别模型包括孪生的第一网络和第二网络、以及主任务输出层和副任务输出层;
所述通过同义词识别模型基于所述训练样本中两个词语的多源特征信息,确定所述训练样本的同义词预测结果和相关性预测结果,包括:
通过所述第一网络对所述训练样本中第一词语的语义特征信息进行降维处理后,与所述第一词语的文字特征信息进行融合处理,得到所述第一词语的融合特征信息;
通过所述第二网络对所述训练样本中第二词语的语义特征信息进行降维处理后,与所述第二词语的文字特征信息进行融合处理,得到所述第二词语的融合特征信息;
通过所述主任务输出层,基于所述第一词语的融合特征信息和所述第二词语的融合特征信息确定所述训练样本的同义词预测结果;
通过所述副任务输出层,基于所述第一词语的融合特征信息和所述第二词语的融合特征信息确定所述训练样本的相关性预测结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个词语确定多个训练样本之后,还包括:
分别确定所述训练样本中第一词语和第二词语的匹配词,得到所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果;
基于所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果,确定所述训练样本的第二标签信息,所述第二标签信息是指所述训练样本中两个词语之间相关性的标签信息。
4.根据权利要求3所述的方法,其特征在于,所述第一词语的匹配词确定结果包括与所述第一词语对应的第一部位描述词,所述第二词语的匹配词确定结果包括与所述第二词语对应的第二部位描述词;
所述分别确定所述训练样本中第一词语和第二词语的匹配词,得到所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果,包括:
从身体部位查询树中,基于所述第一词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第一词语对应的第一部位描述词;
从所述身体部位查询树中,基于所述第二词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第二词语对应第二部位描述词;
其中,所述身体部位查询树中记录多个身体部位的部位描述词,以及所述多个身体部位之间的关系。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个词语确定多个训练样本,包括:
根据所述多个词语的语义特征信息之间的语义相似性,将所述多个词语划分为多个词集合,同一词集合中词语的语义特征信息之间的语义相似性大于门限值,不同词集合中词语的语义特征信息之间的语义相似性小于所述门限值;
从同一词集合中选取两个词语构建所述正样本;
从不同词集合中选取两个词语构建所述负样本。
6.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本的同义词预测结果和相关性预测结果,计算所述同义词识别模型的损失函数值,包括:
根据所述训练样本的同义词预测结果和第一标签信息,计算主任务损失;其中,所述第一标签信息是指所述训练样本中两个词语是否为同义词的标签信息;
根据所述训练样本的相关性预测结果和第二标签信息,计算副任务损失;其中,所述第二标签信息是指所述训练样本中两个词语之间相关性的标签信息;
根据所述主任务损失、所述主任务损失对应的权重,所述副任务损失,以及所述副任务损失对应的权重,计算所述同义词识别模型的损失函数值。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
选取所述同义词预测结果符合条件的目标训练样本,所述条件包括所述同义词预测结果的相似度大于第一阈值且小于第二阈值;
获取所述目标训练样本经过人工标注得到的标签信息;
其中,所述目标训练样本用于对所述同义词识别模型进行下一轮训练。
8.一种同义词确定方法,其特征在于,所述方法包括:
获取目标词对,所述目标词对包括第一词语和第二词语;
获取所述第一词语的多源特征信息和所述第二词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征词语的语义特征,所述文字特征信息用于表征词语的字词特征;
通过同义词识别模型基于所述目标词对的多源特征信息,确定所述目标词对的同义词预测结果,所述同义词预测结果是指所述第一词语和所述第二词语是否为同义词的预测结果。
9.根据权利要求8所述的方法,其特征在于,所述同义词识别模型包括孪生的第一网络和第二网络;
所述通过同义词识别模型基于所述目标词对的多源特征信息,确定所述目标词对的同义词预测结果,包括:
通过所述第一网络对所述目标词对中第一词语的语义特征信息进行降维处理后,与所述第一词语的文字特征信息进行融合处理,得到所述第一词语的融合特征信息;
通过所述第二网络对所述目标词对中第二词语的语义特征信息进行降维处理后,与所述第二词语的文字特征信息进行融合处理,得到所述第二词语的融合特征信息;
确定所述第一词语的融合特征信息和所述第二词语的融合特征信息之间的相似度;
根据所述相似度确定所述目标词对的同义词预测结果。
10.根据权利要求8所述的方法,其特征在于,所述获取目标词对之后,还包括:
分别确定所述第一词语和所述第二词语的匹配词,得到所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果;
基于所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果,确定所述目标词对的相关性预测结果,所述相关性预测结果是指所述第一词语和所述第二词语之间相关性的预测结果;
若所述相关性预测结果符合条件,则从所述获取所述第一词语的多源特征信息和所述第二词语的多源特征信息的步骤开始执行;
若所述相关性预测结果不符合条件,则确定所述目标词对为非同义词。
11.根据权利要求10所述的方法,其特征在于,所述第一词语的匹配词确定结果包括与所述第一词语对应的第一部位描述词,所述第二词语的匹配词确定结果包括与所述第二词语对应的第二部位描述词;
所述分别确定所述第一词语和所述第二词语的匹配词,得到所述第一词语的匹配词确定结果和所述第二词语的匹配词确定结果,包括:
从身体部位查询树中,基于所述第一词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第一词语对应的第一部位描述词;
从所述身体部位查询树中,基于所述第二词语与所述身体部位查询树中的部位描述词之间的匹配度,获取与所述第二词语对应的第二部位描述词;
其中,所述身体部位查询树中记录多个身体部位的部位描述词,以及所述多个身体部位之间的关系。
12.一种同义词识别模型的训练装置,其特征在于,所述装置包括:
词语获取模块,用于获取多个词语;
信息获取模块,用于获取所述词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征所述词语的语义特征,所述文字特征信息用于表征所述词语的字词特征;
样本确定模块,用于基于所述多个词语确定多个训练样本,所述多个训练样本包括至少一个正样本和至少一个负样本,所述正样本为同义词对,所述负样本为非同义词对;
结果预测模块,用于通过同义词识别模型基于所述训练样本中两个词语的多源特征信息,确定所述训练样本的同义词预测结果和相关性预测结果,所述同义词预测结果是指所述训练样本中两个词语是否为同义词的预测结果,所述相关性预测结果是指所述训练样本中两个词语之间相关性的预测结果;
损失计算模块,用于基于所述训练样本的同义词预测结果和相关性预测结果,计算所述同义词识别模型的损失函数值;
模型训练模块,用于根据所述损失函数值对所述同义词识别模型进行训练。
13.一种同义词确定装置,其特征在于,所述装置包括:
词对获取模块,用于获取目标词对,所述目标词对包括第一词语和第二词语;
信息获取模块,用于获取所述第一词语的多源特征信息和所述第二词语的多源特征信息,所述多源特征信息包括语义特征信息和文字特征信息,所述语义特征信息用于表征词语的语义特征,所述文字特征信息用于表征词语的字词特征;
结果确定模块,用于通过同义词识别模型基于所述目标词对的多源特征信息,确定所述目标词对的同义词预测结果,所述同义词预测结果是指所述第一词语和所述第二词语是否为同义词的预测结果。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述权利要求1至7任一项所述的同义词识别模型的训练方法,或实现如上述权利要求8至11任一项所述的同义词确定方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述权利要求1至7任一项所述的同义词识别模型的训练方法,或实现如上述权利要求8至11任一项所述的同义词确定方法。
技术总结
本申请实施例提供了一种同义词识别模型的训练方法、同义词确定方法及设备,涉及机器学习和计算机技术领域。所述方法包括:获取多个词语;获取词语的多源特征信息,多源特征信息包括语义特征信息和文字特征信息;基于多个词语确定多个训练样本;通过同义词识别模型基于训练样本中两个词语的多源特征信息,确定训练样本的同义词预测结果和相关性预测结果,相关性预测结果是指训练样本中两个词语之间相关性的预测结果;基于训练样本的同义词预测结果和相关性预测结果,计算同义词识别模型的损失函数值;根据损失函数值对同义词识别模型进行训练。本申请实施例提供的技术方案,能够提升识别同义词的准确性。
技术研发人员:高文龙;张子恒;陈曦;文瑞;管冲;向玥佳;刘博;孙继超
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2020.08.06
技术公布日:2020.10.02
相关知识
同义词识别模型的训练方法、同义词确定方法及设备与流程
一种基于光周期调控的鲫鱼增产繁殖方法及系统与流程
机器学习术语表
内存监控方法、装置、计算机可读存储介质和计算机设备与流程
机器学习常用术语
Google发布机器学习术语表 (包括简体中文)
基于深度迁移学习模型的花卉种类识别
转载:统计语言模型
中文期刊全文数据库检索方法与技巧
检索字段符课件
网址: 同义词识别模型的训练方法、同义词确定方法及设备与流程 https://www.huajiangbk.com/newsview104962.html
上一篇: 北京林业大学信息学院网址 |
下一篇: 山西医师多点执业管理办法 爱问知 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039