CN111950290A - 一种基于概念图的语义解析方法及装置 - Google Patents
一种基于概念图的语义解析方法及装置 Download PDFInfo
- Publication number
- CN111950290A CN111950290A CN201910364368.9A CN201910364368A CN111950290A CN 111950290 A CN111950290 A CN 111950290A CN 201910364368 A CN201910364368 A CN 201910364368A CN 111950290 A CN111950290 A CN 111950290A
- Authority
- CN
- China
- Prior art keywords
- concept
- semantic
- sentence
- semantics
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 241000238631 Hexapoda Species 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语义解析领域,公开了一种基于概念图的语义解析方法及装置,其方法包括:获取用户输入的待解析语句;提取所述待解析语句中的关键词;将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。本发明先根据预先构建的概念图获取待解析语句中的各个词语的语义,然后根据各个词的语义以及待解析语句的句式结构,准确获取待解析语句的语义,以便智能终端做出正确的反馈。
Description
技术领域
本发明属于语义解析技术领域,特别涉及一种基于概念图的语义解析方法及装置。
背景技术
随着智能终端及网络技术的迅速发展,各种智能产品在人们的生活中发挥着越来越重要的作用,人们也越来越习惯地使用智能终端完成各种需求。而随着人工智能相关技术的日益成熟,各类终端的智能化程度也越来越高。自然语言作为人类表达自己思想最方便、最自然的方式,已经逐渐成为智能服务领域最主流的人机交互方式。
在人机交互过程中,对自然语言进行语义解析是必不可少的一个环节,其主要通过分析用户输入的自然语句,解析语句的语义,并转换成机器能够理解的结构化数据格式,然后做出相应的反馈。因此,在人机交互场景中,准确解析语句的语义是做出正确应答的基础。
发明内容
本发明的目的是提供一种基于概念图的语义解析方法及装置,实现准确获取用户输入语句的语义的目的。
本发明提供的技术方案如下:
一方面,提供一种基于概念图的语义解析方法,包括:
获取用户输入的待解析语句;
提取所述待解析语句中的关键词;
将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
进一步优选地,所述概念图的生成方法为:
根据词典构建词语库;
获取大量用户语料;
利用所述词语库识别所述语料中的概念,并确定所述概念之间的关系;
利用词语库获取所述概念对应的所有名称以及所述概念的语义;
根据所述概念之间的关系、所述概念对应的所有名称以及所述概念的语义生成概念图。
进一步优选地,所述将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义具体包括:
将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;
根据所述概念的语义,确定所述关键词在所述待解析语句中的语义。
进一步优选地,所述根据所述概念的语义,确定所述关键词在所述待解析语句中的语义具体包括:
当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
进一步优选地,当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义具体包括:
根据所述概念对应的关键词在所述待解析语句中的上下文,确定所述概念的至少一个语义;
所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
另一方面,还提供一种基于概念图的语义解析装置,包括:
语句获取模块,用于获取用户输入的待解析语句;
关键词提取模块,用于提取所述待解析语句中的关键词;
关键词语义确定模块,用于将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
语句语义确定模块,用于根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
进一步优选地,还包括概念图生成模块;
所述概念图生成模块包括:
词库构建单元,用于根据词典构建词语库;
语料获取单元,用于获取大量用户语料;
概念关系确定单元,用于利用所述词语库识别所述语料中的概念,并确定所述概念之间的关系;
名称及语义获取单元,用于利用词语库获取所述概念对应的所有名称以及所述概念的语义;
概念图生成单元,用于根据所述概念之间的关系、所述概念对应的所有名称以及所述概念的语义生成概念图。
进一步优选地,所述关键词语义确定模块包括:
匹配子模块,用于将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;
关键词语义确定子模块,用于根据所述概念的语义,确定所述关键词在所述待解析语句中的语义。
进一步优选地,所述关键词语义确定子模块包括:
关键词语义确定单元,用于当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
所述关键词语义确定单元,还用于当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
进一步优选地,所述关键词语义确定单元,还用于根据所述概念对应的关键词在所述待解析语句中的上下文,确定所述概念的至少一个语义;并将所述概念确定后的至少一个语义作为所述关键词在所述待解析语句中的语义。
与现有技术相比,本发明提供的一种基于概念图的语义解析方法及装置具有的有益效果为:本发明先根据预先构建的概念图获取待解析语句中的各个词语的语义,然后根据各个词的语义以及待解析语句的句式结构,准确获取待解析语句的语义,以便智能终端做出正确的反馈。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于概念图的语义解析方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种基于概念图的语义解析方法的第一实施例的流程示意图;
图2是本发明一种基于概念图的语义解析方法的第二实施例中生成概念图的流程示意图;
图3是本发明一种基于概念图的语义解析方法的第三实施例的流程示意图;
图4是本发明一种基于概念图的语义解析方法的第四实施例的流程示意图;
图5是本发明一种基于概念图的语义解析方法的第五实施例的流程示意图;
图6是本发明一种基于概念图的语义解析装置的一个实施例的结构示意框图;
图7是本发明一种基于概念图的语义解析装置的另一个实施例的结构示意框图。
附图标号说明
100、语句获取模块; 200、关键词提取模块;
300、关键词语义确定模块; 310、匹配子模块;
320、关键词语义确定子模块; 321、关键词语义确定单元;
400、语句语义确定模块; 500、概念图生成模块;
510、词库构建单元; 520、语料获取单元;
530、概念关系确定单元; 540、名称及语义获取单元;
550、概念图生成单元。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种基于概念图的语义解析方法,包括:
S1000获取用户输入的待解析语句;
具体地,获取的待解析语句可以是用户输入的非结构化文本语句,也可以是通过麦克风或其它语音采集装置采集到的语音信息。该语音信息可以是用户实时输入的语音。
S2000提取所述待解析语句中的关键词;
具体地,获取待解析语句后,先对待解析语句进行分词及词性标注,然后基于分词结果,从待解析语句中提取出关键词。此处的关键词是指剔除了待解析语句中的“的”、“地”、“了”等无意义的词后的词语。
若获取的待解析语句为非结构化文本语句,则直接对待解析语句进行分词及词性标注。分词及词性标注可使用现有技术中的分词及词性标注方法,如分词可用最长词匹配分词方法、基于字符串匹配的分词方法等,词性标注可用基于HMM(Hidden Markov Model,隐马尔可夫模型)的方法等。
若获取的待解析语句为语音信息,则先将该语音信息识别为文本信息,然后对文本信息进行分词及词性标注。
例如,对“杭州西湖风景很好是旅游胜地”的分词及词性标注结果为:
杭州/n西湖/n风景/n很好/a是/v旅游胜地/n。其中,分词结果中的字母表示词性,/n表示名词、/v表示动词、/a表示形容词。
根据分词结果,从杭州西湖风景很好是旅游胜地”中提取出的关键词为“杭州”、“西湖”、“很好”、“是”、“旅游胜地”。
S3000将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
具体地,概念图一般由“节点”、“链接”和“有关文字标注”组成。节点由几何图形、图案、文字等表示某个概念,每个节点表示一个概念。链接表示不同节点间的有意义的关系,常用各种形式的线链接不同节点。文字标注可以是表示不同节点上的概念的关系,也可以是对节点上的概念详细阐述。
一个概念一般具有一个或多个名称,且概念之间具有上下位关系,为了便于使用概念图对语句进行解析,本实施例中预先生成的概念图中包括了概念之间的关系、概念对应的名称以及概念的语义。
在提取出待解析语句中的关键词后,将提取出的关键词与概念图中的节点进行匹配,然后根据每个关键词的匹配结果确定每个关键词在待解析语句中的语义。
S4000根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
具体地,得到每个关键词在待解析语句中的语义后,可结合每个关键词的语义、关键词在待解析语句中所处的位置以及待解析语句的句式结构,确定待解析语句的语义。
本实施例,先根据预先构建的概念图获取待解析语句中的各个词语的语义,然后根据各个词的语义以及待解析语句的句式结构,准确获取待解析语句的语义,以便智能终端做出正确的反馈。
根据本发明提供的第二实施例,一种基于概念图的语义解析方法,包括:
S1000获取用户输入的待解析语句;
S2000提取所述待解析语句中的关键词;
S3000将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
S4000根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
其中,如图2所示,所述概念图的生成方法为:
S0100根据词典构建词语库;
具体地,词典中包括了所有词语、词语的语义、词语的同义词、词语的近义词以及词语所有可能的名称。根据词典中包含的各种信息构建词语库,构建的词语库中包含了各个词语之间的关联关系、词语的语义、词语所有可能的名称等,并建立了词语与名称之间的映射关系。
S0200获取大量用户语料;
具体地,语料的获取方式有多种,例如:在用户使用智能终端的过程中,收集到的语料;或者通过爬虫等技术去爬取大量的语料。当然,也可以是其他收集语料的方式,所有方式可以结合使用,以使语料更丰富,涵盖范围更广。
S0300利用所述词语库识别所述语料中的概念,并确定所述概念之间的关系;
具体地,词语库中包括了词语以及词语所有可能的名称。利用词语库从语料中识别出所有在词语库中出现的名称,根据词语与名称的映射关系确定识别出的名称对应的至少一个词语,此处的词语即为概念。并根据词语库中词语之间的关联关系确定概念之间的关系。
S0400利用词语库获取所述概念对应的所有名称以及所述概念的语义;
具体地,在提取出语料中的概念后,再根据词语库扩充概念对应的所有名称,以丰富生成的概念图,提高语义解析的成功率。然后再根据词语库获取所有概念的语义。
例如,概念“姓名”,对应的所有可能的词语为“姓名”、“名字”、“全名”、“昵称”等。再例如,概念“运动”,对应的所有可能的词语为“训练”、“运动”等。
S0500根据所述概念之间的关系、所述概念对应的所有名称以及所述概念的语义生成概念图。
具体地,获取到概念之间的关系、概念对应的所有名称以及概念的语义后即可生成用于对自然语言进行语义解析的概念图。生成的概念图中,表示概念的节点下包括了多个表示名称的节点以及表示概念的语义的节点,且表示概念的节点之间可能存在关联关系,如上下位关系、并列关系等。
本实施例中,根据语料来生成概念图,使得生成的概念图中的概念、名称等更符合语言交互过程中的语言使用习惯,进而提高人机交互过程中的语义解析的成功率。
根据本发明提供的第三实施例,如图3所示,一种基于概念图的语义解析方法,包括:
S1000获取用户输入的待解析语句;
S2000提取所述待解析语句中的关键词;
S3100将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
具体地,在将关键词与预先生成的概念图中的节点进行匹配时,若关键词直接匹配的是表示概念的节点,则该节点即为关键词对应的概念。若关键词匹配的是代表名称的节点,则获取与该名称连接的概念,即该名称对应的概念,该名称对应的概念即为关键词对应的概念。
S3200根据所述概念的语义,确定所述关键词在所述待解析语句中的语义;
具体地,在获取到关键词对应的概念后,根据概念图中概念对应的语义,确定关键词在待解析语句中的语义。
S4000根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
本实施例中,先通过关键词在概念图中查找到对应的节点,然后根据节点之间的关联关系确定关键词的语义,概念图中各概念层级关系、关联关系清楚,使得在获取关键词的语义时,快速便捷,进而提高语义解析的速率。
根据本发明提供的第四实施例,如图4所示,一种基于概念图的语义解析方法,包括:
S1000获取用户输入的待解析语句;
S2000提取所述待解析语句中的关键词;
S3100将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
S3210当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
S3220当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的语义为所述关键词在所述待解析语句中的语义;
S4000根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
具体地,在根据概念的语义确定关键词在待解析语句中的语义时,可能存在多种情况;如一个概念对应一个语义,或一个概念对应多个语义。当概念只对应一个语义,该概念的语义则为关键词在待解析语句中的语义。
但是,当概念对应多个语义时,即一词多义,此时需要确定这多个语义中哪个才是关键词在待解析语句中的语义,因此,需要对概念对应的多个语义进行语义消歧。通过对语义进行消歧,使得一些干扰语义被排除掉,进而提高语义解析的准确率。
根据本发明提供的第五实施例,如图5所示,一种基于概念图的语义解析方法,包括:
S1000获取用户输入的待解析语句;
S2000提取所述待解析语句中的关键词;
S3100将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
S3210当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
S3221根据所述概念对应的关键词在所述待解析语句中的上下文,确定所述概念的至少一个语义;
S3222所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义;
S4000根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
具体地,在对语义进行语义消歧时,可根据关键词在待解析语句中的上下文,来确定概念的至少一个语义。
例如,“赶”既可表示“追”的意思,又可以表示“驱逐”的意思。当“赶”在语句1“我们要学先进,赶先进”中时,“赶”与“先进(人)”搭配,可知“赶”在语句1中代表的是“追”的意思。当“赶”在语句2“他正在赶苍蝇”中时,“赶”与“苍蝇(昆虫)”搭配,是“驱逐”的意思。通过分析关键词在待解析语句中的上下文,即可将对关键词的语义进行消歧,去除干扰的语义,得到正确的语义。
在对关键词的语义进行消歧后,若剩余的语义不止一个,则表示该多个语义可能都是成立的,同时输出该多个语义即可。
根据本发明提供的第六实施例,如图6所示,一种基于概念图的语义解析装置,包括:
语句获取模块100,用于获取用户输入的待解析语句;
具体地,获取的待解析语句可以是用户输入的非结构化文本语句,也可以是通过麦克风或其它语音采集装置采集到的语音信息。该语音信息可以是用户实时输入的语音。
关键词提取模块200,用于提取所述待解析语句中的关键词;
具体地,获取待解析语句后,先对待解析语句进行分词及词性标注,然后基于分词结果,从待解析语句中提取出关键词。此处的关键词是指剔除了待解析语句中的“的”、“地”、“了”等无意义的词后的词语。
若获取的待解析语句为非结构化文本语句,则直接对待解析语句进行分词及词性标注。分词及词性标注可使用现有技术中的分词及词性标注方法,如分词可用最长词匹配分词方法、基于字符串匹配的分词方法等,词性标注可用基于HMM(Hidden Markov Model,隐马尔可夫模型)的方法等。
若获取的待解析语句为语音信息,则先将该语音信息识别为文本信息,然后对文本信息进行分词及词性标注。
例如,对“杭州西湖风景很好是旅游胜地”的分词及词性标注结果为:
杭州/n西湖/n风景/n很好/a是/v旅游胜地/n。其中,分词结果中的字母表示词性,/n表示名词、/v表示动词、/a表示形容词。
根据分词结果,从杭州西湖风景很好是旅游胜地”中提取出的关键词为“杭州”、“西湖”、“很好”、“是”、“旅游胜地”。
关键词语义确定模块300,用于将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
具体地,概念图一般由“节点”、“链接”和“有关文字标注”组成。节点由几何图形、图案、文字等表示某个概念,每个节点表示一个概念。链接表示不同节点间的有意义的关系,常用各种形式的线链接不同节点。文字标注可以是表示不同节点上的概念的关系,也可以是对节点上的概念详细阐述。
一个概念一般具有一个或多个名称,且概念之间具有上下位关系,为了便于使用概念图对语句进行解析,本实施例中预先生成的概念图中包括了概念之间的关系、概念对应的名称以及概念的语义。
在提取出待解析语句中的关键词后,将提取出的关键词与概念图中的节点进行匹配,然后根据每个关键词的匹配结果确定每个关键词在待解析语句中的语义。
语句语义确定模块400,用于根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
具体地,得到每个关键词在待解析语句中的语义后,可结合每个关键词的语义、关键词在待解析语句中所处的位置以及待解析语句的句式结构,确定待解析语句的语义。
本实施例,先根据预先构建的概念图获取待解析语句中的各个词语的语义,然后根据各个词的语义以及待解析语句的句式结构,准确获取待解析语句的语义,以便智能终端做出正确的反馈。
根据本发明提供的第七实施例,如图7所示,一种基于概念图的语义解析装置,包括:
语句获取模块100,用于获取用户输入的待解析语句;
关键词提取模块200,用于提取所述待解析语句中的关键词;
关键词语义确定模块300,用于将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
语句语义确定模块400,用于根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
还包括概念图生成模块500;
概念图生成模块500包括:
词库构建单元510,用于根据词典构建词语库;
具体地,词典中包括了所有词语、词语的语义、词语的同义词、词语的近义词以及词语所有可能的名称。根据词典中包含的各种信息构建词语库,构建的词语库中包含了各个词语之间的关联关系、词语的语义、词语所有可能的名称等,并建立了词语与名称之间的映射关系。
语料获取单元520,用于获取大量用户语料;
具体地,语料的获取方式有多种,例如:在用户使用智能终端的过程中,收集到的语料;或者通过爬虫等技术去爬取大量的语料。当然,也可以是其他收集语料的方式,所有方式可以结合使用,以使语料更丰富,涵盖范围更广。
概念关系确定单元530,用于利用所述词语库识别所述语料中的概念,并确定所述概念之间的关系;
具体地,词语库中包括了词语以及词语所有可能的名称。利用词语库从语料中识别出所有在词语库中出现的名称,根据词语与名称的映射关系确定识别出的名称对应的至少一个词语,此处的词语即为概念。并根据词语库中词语之间的关联关系确定概念之间的关系。
名称及语义获取单元540,用于利用词语库获取所述概念对应的所有名称以及所述概念的语义;
具体地,在提取出语料中的概念后,再根据词语库扩充概念对应的所有名称,以丰富生成的概念图,提高语义解析的成功率。然后再根据词语库获取所有概念的语义。
例如,概念“姓名”,对应的所有可能的词语为“姓名”、“名字”、“全名”、“昵称”等。再例如,概念“运动”,对应的所有可能的词语为“训练”、“运动”等。
概念图生成单元550,用于根据所述概念之间的关系、所述概念对应的所有名称以及所述概念的语义生成概念图。
具体地,获取到概念之间的关系、概念对应的所有名称以及概念的语义后即可生成用于对自然语言进行语义解析的概念图。生成的概念图中,表示概念的节点下包括了多个表示名称的节点以及表示概念的语义的节点,且表示概念的节点之间可能存在关联关系,如上下位关系、并列关系等。
本实施例中,根据语料来生成概念图,使得生成的概念图中的概念、名称等更符合语言交互过程中的语言使用习惯,进而提高人机交互过程中的语义解析的成功率。
优选地,关键词语义确定模块300包括:
匹配子模块310,用于将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;
具体地,在将关键词与预先生成的概念图中的节点进行匹配时,若关键词直接匹配的是表示概念的节点,则该节点即为关键词对应的概念。若关键词匹配的是代表名称的节点,则获取与该名称连接的概念,即该名称对应的概念,该名称对应的概念即为关键词对应的概念。
关键词语义确定子模块320,用于根据所述概念的语义,确定所述关键词在所述待解析语句中的语义。
具体地,在获取到关键词对应的概念后,根据概念图中概念对应的语义,确定关键词在待解析语句中的语义。
本实施例中,先通过关键词在概念图中查找到对应的节点,然后根据节点之间的关联关系确定关键词的语义,概念图中各概念层级关系、关联关系清楚,使得在获取关键词的语义时,快速便捷,进而提高语义解析的速率。
优选地,关键词语义确定子模块320包括:
关键词语义确定单元321,用于当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
关键词语义确定单元321,还用于当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
具体地,在根据概念的语义确定关键词在待解析语句中的语义时,可能存在多种情况;如一个概念对应一个语义,或一个概念对应多个语义。当概念只对应一个语义,该概念的语义则为关键词在待解析语句中的语义。
但是,当概念对应多个语义时,即一词多义,此时需要确定这多个语义中哪个才是关键词在待解析语句中的语义,因此,需要对概念对应的多个语义进行语义消歧。通过对语义进行消歧,使得一些干扰语义被排除掉,进而提高语义解析的准确率。
优选地,关键词语义确定单元321,还用于根据所述概念对应的关键词在所述待解析语句中的上下文,确定所述概念的至少一个语义;并将所述概念确定后的至少一个语义作为所述关键词在所述待解析语句中的语义。
具体地,在对语义进行语义消歧时,可根据关键词在待解析语句中的上下文,来确定概念的至少一个语义。
例如,“赶”既可表示“追”的意思,又可以表示“驱逐”的意思。当“赶”在语句1“我们要学先进,赶先进”中时,“赶”与“先进(人)”搭配,可知“赶”在语句1中代表的是“追”的意思。当“赶”在语句2“他正在赶苍蝇”中时,“赶”与“苍蝇(昆虫)”搭配,是“驱逐”的意思。通过分析关键词在待解析语句中的上下文,即可将对关键词的语义进行消歧,去除干扰的语义,得到正确的语义。
在对关键词的语义进行消歧后,若剩余的语义不止一个,则表示该多个语义可能都是成立的,同时输出该多个语义即可。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于概念图的语义解析方法,其特征在于,包括:
获取用户输入的待解析语句;
提取所述待解析语句中的关键词;
将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
2.根据权利要求1所述的一种基于概念图的语义解析方法,其特征在于,所述概念图的生成方法为:
根据词典构建词语库;
获取大量用户语料;
利用所述词语库识别所述语料中的概念,并确定所述概念之间的关系;
利用词语库获取所述概念对应的所有名称以及所述概念的语义;
根据所述概念之间的关系、所述概念对应的所有名称以及所述概念的语义生成概念图。
3.根据权利要求1所述的一种基于概念图的语义解析方法,其特征在于,所述将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义具体包括:
将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;
根据所述概念的语义,确定所述关键词在所述待解析语句中的语义。
4.根据权利要求3所述的一种基于概念图的语义解析方法,其特征在于,所述根据所述概念的语义,确定所述关键词在所述待解析语句中的语义具体包括:
当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
5.根据权利要求4所述的一种基于概念图的语义解析方法,其特征在于,当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义具体包括:
根据所述概念对应的关键词在所述待解析语句中的上下文,确定所述概念的至少一个语义;
所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
6.一种基于概念图的语义解析装置,其特征在于,包括:
语句获取模块,用于获取用户输入的待解析语句;
关键词提取模块,用于提取所述待解析语句中的关键词;
关键词语义确定模块,用于将所述关键词与预先生成的概念图进行匹配,确定所述关键词在所述待解析语句中的语义;其中,所述概念图包括多个概念、多个概念之间的关联关系、概念对应的名称以及概念的语义;
语句语义确定模块,用于根据所述关键词在所述待解析语句中的语义以及所述待解析语句的句式结构,确定所述待解析语句的语义。
7.根据权利要求6所述的一种基于概念图的语义解析装置,其特征在于,还包括概念图生成模块;
所述概念图生成模块包括:
词库构建单元,用于根据词典构建词语库;
语料获取单元,用于获取大量用户语料;
概念关系确定单元,用于利用所述词语库识别所述语料中的概念,并确定所述概念之间的关系;
名称及语义获取单元,用于利用词语库获取所述概念对应的所有名称以及所述概念的语义;
概念图生成单元,用于根据所述概念之间的关系、所述概念对应的所有名称以及所述概念的语义生成概念图。
8.根据权利要求6所述的一种基于概念图的语义解析装置,其特征在于,所述关键词语义确定模块包括:
匹配子模块,用于将所述关键词与预先生成的概念图进行匹配,查找到所述关键词在所述概念图中对应的概念;
关键词语义确定子模块,用于根据所述概念的语义,确定所述关键词在所述待解析语句中的语义。
9.根据权利要求8所述的一种基于概念图的语义解析装置,其特征在于,所述关键词语义确定子模块包括:
关键词语义确定单元,用于当所述概念对应一个语义时,所述概念的语义为所述关键词在所述待解析语句中的语义;
所述关键词语义确定单元,还用于当所述概念对应多个语义时,对多个语义的所述概念进行语义消歧,确定所述概念的至少一个语义,所述概念确定后的至少一个语义为所述关键词在所述待解析语句中的语义。
10.根据权利要求9所述的一种基于概念图的语义解析装置,其特征在于,
所述关键词语义确定单元,还用于根据所述概念对应的关键词在所述待解析语句中的上下文,确定所述概念的至少一个语义;并将所述概念确定后的至少一个语义作为所述关键词在所述待解析语句中的语义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364368.9A CN111950290A (zh) | 2019-04-30 | 2019-04-30 | 一种基于概念图的语义解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364368.9A CN111950290A (zh) | 2019-04-30 | 2019-04-30 | 一种基于概念图的语义解析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950290A true CN111950290A (zh) | 2020-11-17 |
Family
ID=73335432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910364368.9A Pending CN111950290A (zh) | 2019-04-30 | 2019-04-30 | 一种基于概念图的语义解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950290A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN106155999A (zh) * | 2015-04-09 | 2016-11-23 | 科大讯飞股份有限公司 | 自然语言语义理解方法及*** |
CN108228820A (zh) * | 2017-12-30 | 2018-06-29 | 厦门太迪智能科技有限公司 | 用户查询意图理解方法、***及计算机终端 |
-
2019
- 2019-04-30 CN CN201910364368.9A patent/CN111950290A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
CN103678418A (zh) * | 2012-09-25 | 2014-03-26 | 富士通株式会社 | 信息处理方法和信息处理设备 |
CN106155999A (zh) * | 2015-04-09 | 2016-11-23 | 科大讯飞股份有限公司 | 自然语言语义理解方法及*** |
CN108228820A (zh) * | 2017-12-30 | 2018-06-29 | 厦门太迪智能科技有限公司 | 用户查询意图理解方法、***及计算机终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN109949799B (zh) | 一种语义解析方法及*** | |
CN108538286A (zh) | 一种语音识别的方法以及计算机 | |
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及*** | |
EP1754169A2 (en) | A system for multilingual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN108920447B (zh) | 一种面向特定领域的中文事件抽取方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
Hong et al. | Automatically extracting word relationships as templates for pun generation | |
Kaur et al. | A detailed analysis of core NLP for information extraction | |
Kessler et al. | Extraction of terminology in the field of construction | |
Comas et al. | Sibyl, a factoid question-answering system for spoken documents | |
CN109002540B (zh) | 一种中文通告文档问题答案对自动生成方法 | |
Li et al. | Chinese frame identification using t-crf model | |
CN113919339A (zh) | 人工智能辅助写作方法 | |
CN111950290A (zh) | 一种基于概念图的语义解析方法及装置 | |
KR950013128B1 (ko) | 기계번역장치 및 방법 | |
Tammewar et al. | Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
KR100574887B1 (ko) | 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |