CN1794240A - 基于自然语言理解的计算机信息检索***及其检索方法 - Google Patents

基于自然语言理解的计算机信息检索***及其检索方法 Download PDF

Info

Publication number
CN1794240A
CN1794240A CN 200610032725 CN200610032725A CN1794240A CN 1794240 A CN1794240 A CN 1794240A CN 200610032725 CN200610032725 CN 200610032725 CN 200610032725 A CN200610032725 A CN 200610032725A CN 1794240 A CN1794240 A CN 1794240A
Authority
CN
China
Prior art keywords
sentence
semantic
answer
target
semantic relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610032725
Other languages
English (en)
Inventor
梁威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN 200610032725 priority Critical patent/CN1794240A/zh
Publication of CN1794240A publication Critical patent/CN1794240A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自然语言理解的计算机信息检索***及其检索方法,由用户输入的疑问句启动检索,***输出按照语义相关程度排序的答案;首先来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;其次所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;然后知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;按照答案正确度排序,并返回结果。

Description

基于自然语言理解的计算机信息检索***及其检索方法
技术领域
本发明涉及一种计算机信息检索***,尤其涉及使用自然语言方式提问进行信息检索的计算机***。
背景技术
计算机信息检索***帮助我们在浩瀚的信息海洋中查找想要的信息资料,目前检索信息的工具如查询软件,搜索引擎如***等,采用的主要是关键词匹配,网页链接分析等技术。但是人们很难通过简单的关键词组合来准确定义自己的搜索意图,而且关键词匹配的搜索过程没有处理词意组合,语句内部的语义关系等语义因素。所以人们经常不得不花大量时间对数目巨大的结果网页列表再作人工辨识来寻找理想的答案。
信息查询用户希望使用更自然,更准确的方式定义自己的查询要求,希望能够得到在语义,知识层面上准确地符合查询意图的答案,而不仅是匹配到关键词的答案列表。
本发明利用自然语言处理技术,允许用户以自然语言提问的方式向***提出查询要求,***通过对疑问句的语句分析,对目标答案的语句模式和语义关系结构的抽取和识别,从而能够识别出在语义的各个层次上与目标答案最接近的答案内容,并返回给用户较高准确度的回答。
发明内容
本发明的目的在于建立一个高效,统一的知识处理的模型,生成一种建立自然语言知识库的计算机***。
一种基于自然语言理解的计算机信息检索***,由用户输入的疑问句启动检索,***输出按照语义相关程度排序的答案;包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。
一种基于自然语言理解的计算机信息检索方法,由用户输入的疑问句启动检索,***输出按照语义相关程度排序的答案;包括如下处理步骤:第一步,来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;第二步,所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;第三步,知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;第四步:按照答案正确度排序,并返回结果。
所述第三步中,对于难以适用句类模式匹配的情况,在HNC句类分析的语义关系结构抽取目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵。通过假设-校验机制模块,利用***的语言学知识来校验计算知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义的相似度。
与以往相类似技术相比,本发明采用HNC自然语言理解技术对疑问句和待选句做了深层的语义模式识别和语义关系抽取,不仅突破了以往信息查询技术中查询词之间没有语义关联的弊病,而且能够通过模式匹配法匹配用户所提出的疑问句与待选句之间的语义异同;通过语义关系识别法抽取疑问句在词义概念,语义块内部词义搭配的语义关系,语义块之间,语句的各个不同粒度的组成部分之间的语义关系,并识别待选句是否具有相对应的语义或语义关系,所以能够提供给用户合乎语义并且准确度较高的答案。由于***接受用户以自然语言提问的查询请求,使得用户可以方便而且精确地定义自己的查询意图;由于***对查询的问句做问句分析,能够识别问句的语义关系和目标答案的要求。
附图说明
本发明包括如下附图:
图1是HNC概念相似度计算过程流程图;
图2是模式匹配法的目标答案句模式序列生成过程;
图3模式匹配算法过程方框图;
图4是语义关系识别法处理步骤流程图;
图5是***组成结构和运行原理。
具体实施方法
下面结合附图对本发明做进一步详细说明。
本发明是一种使用自然语言理解技术进行信息检索的技术,***接受用户以自然语言方式提问的查询请求,通过对待选语句进行面向目标答案的自然语言分析后,返回给用户最准确的答案。
本发明采用HNC自然语言处理技术对从互联网或其他内容源获取的自然语言格式的语句篇章进行句类分析,将句类分析结果语句以HNC句类标注,并作为待选答案句保存在知识库(KB)中。
***接受用户以自然语言提问的查询请求后,***先对疑问句进行疑问词,疑问中心分析,然后通过两种方式来寻求最佳的目标答案。
1.模式匹配法:***通过HNC句类分析得到疑问句的句类模式(目标句类模式)。对于具有相同(相近)句类模式的待选句(待选句可以是不同句类格式的简单句,混合句类,复合句的形式),***通过计算目标句与待选句的各个相对应语义块之间的概念相似度来得到待选句相对于目标答***程度。
2.语义关系识别法:对于句类差别比较大的待选句不能使用模式匹配法,而只能使用语义关系识别法来寻求目标答案。
***对疑问句的各个由字,词,语义块,语句等语义元素或语义元素的组合之间的语义关系进行发现识别,并由此构建目标语义关系矩阵,然后尝试在待选句中发现对应的语义关系,***通过一个假设-评价机制来计算待选句中存在某个目标语义关系的置信度,最后通过各个关系的置信度与其权重的综合计算结果来得到待选句相对于目标答案的答案准确度。
本发明采用HNC自然语言理解技术对疑问句和待选句做了深层的语义模式识别和语义关系抽取,不仅突破了以往信息查询技术中查询词之间没有语义关联的弊病,而且能够通过模式匹配法匹配用户所提出的疑问句与待选句之间的语义异同;通过语义关系识别法抽取疑问句在词义概念,语义块内部词义搭配的语义关系,语义块之间,语句的各个不同粒度的组成部分之间的语义关系,并识别待选句是否具有相对应的语义或语义关系,所以能够提供给用户合乎语义并且准确度较高的答案。
什么是疑问句特性分析呢?不同的疑问词所引导的疑问句结构对目标答案具有不同的要求,为了便于针对分析,***定义了两个概念:疑问中心,疑问中心词。
疑问中心词:疑问句中疑问词所引导,修饰的词语。
疑问中心:疑问词和疑问中心词所组成的结构。
***通过对疑问中心和疑问中心词的分析来得到目标答案的概念和所要求的语义结构,并以此与待选句的对应结构匹配比较,作为计算待选句答案准确度的一个重要因素。
从HNC角度对疑问词,疑问中心的分析,获得的统计结果如下表所示,其中得代码如J111,JK等是HNC所定义的描述语言语义的概念符号,其意义在CN98101921.8号专利中定义。
  疑问词   频率 典型结构   疑问中心,目标答案描述
什么 913   [陈述表达J][是j111]什么[类别,国家,时候,内容等]?   疑问词“什么”和疑问中心词[类别,国家,时候,内容等]充当句子的JK。表达对其所替代的语义块的疑问。目标答案:与疑问中心词符合概念相似度要求。
214   [修饰语][的h$141,h$ug][人p类概念][是j111]谁?   “谁”在句中充当一个JK,目标答案:p,pe
多少 166   [修饰语][数量属性概念:长,高,速度][有,是j111]多少[数量单位概念zz]?   疑问词“多少”代替数量的修饰,表示对数量的疑问。目标答案:数j3
多,[多么] 112 [修饰语][Jkn][有,是j111]多[属性概念:长,高,大,久,快等u]?   疑问词“多”替代数量描述对疑问中心词进行修饰,表示对数量,程度的疑问。目标答案:数j3,或表示量的概念。j41,jzu41且目标答案的数量单位概念需要和疑问中心的要求相对应。
58   哪[量词zz][p,pe,w,pw,jw类概念,或静态g,效应r概念,或类别概念][陈述表达J]?   疑问词“哪”和所修饰的疑问中心词组合常充当问句的一个JK。目标答案:“哪”所引导的疑问中心词通常表示一个概念范围,一个类别的概念,目标答案通常是具体概念,专有名词等。
  哪[些][具有类别意义的概念]?   “哪些”是个特殊的疑问词,其要求的答案不是一个,而是符合要求的多个答案。
哪里 105   [陈述表达J][在v50001]哪里?   疑问中心充当地点辅块FK,目标答案:概念类型为wj2类概念。
为什么 15 [为什么][陈述表达J]?   疑问词“为什么”在句中替代对于E块的原因,目的等的修饰,表示对于原因Pr,目的Rt的疑问。目标答案:与问句具有相对应的语义关系结构的语义部分。
  怎样,怎么,如何 35 [怎样,怎么,如何][陈述表达J]?   表示对于手段Ms,途径Wy,工具In,条件Cn等修饰E块的疑问。目标答案:与问句具有相对应的语义关系结构的语义部分。
目标答案的求解策略:
通过使用HNC理论对疑问句和待选句的分析,本文提出寻求疑问句目标答案的两种求解策略:模式匹配法,语义关系识别法。
在HNC理论体系中,HNC概念符号是表达自然语言形式化语义的基本元素,所以在讨论两种求解策略之前先讨论HNC概念符号的相似度比较方法。
HNC概念相似度比较:
对于词语的多义模糊性,通过HNC句类分析可以多选一地得到该词语在句中的特定语义概念。两个词语概念之间的相似程度可以通过对于二者的HNC概念符号比较得到。
HNC概念符号的结构[1]
((类别符号串)(层次符号串)(组合结构符号)(类别符号串)(层次符号串))
HNC概念相似度计算过程如图1所示:
首先比较疑问句和目标句的概念类别,判断其概念类别符号是否相同,如果不相同,则概念相似度为0.0,结束概念相似度的计算;
如果概念类别符号相同,则分别进行五元组符号比较和语法符号比较;判断其概念层次符号为挂靠方式还是高中低层组合方式;
如果是高中低层组合方式,首先判断高层符号是否相同,然后再分别比较中层符号序列和低层符号序列;然后综合计算概念相似度,结束概念相似度的计算;
如果是挂靠方式,首先判断本体层符号是否相同,再比较挂靠层符号序列;然后综合计算概念相似度,结束概念相似度的计算。
HNC概念相似度计算方法为:
simConcept ( t , b ) =
simCat ( t , b ) βcat + ΣsimFiv ( t , b ) βfiv + simSynt ( t , b ) βsyn
Figure A20061003272500093
式中各符号含义:
simConcept:待选概念b相对于目标概念t的概念相似度。
simCat:概念类别相似度。
simFiv:五元组符号序列的概念相似度。
simSyn:语法符号的相似度。
simNou:本体层概念相似度。
simRe:挂靠层概念相似度。
simHigh:高层概念相似度。
simMid:中层概念相似度。
simLow:底层概念相似度。
β:对应概念符号部分的计算权重参数。
模式匹配法:
通过对疑问句进行HNC句类分析可以得到包含疑问中心的目标句类模式。目标句类模式可以通过等语义的句类格式变换得到一个目标句类模式序列。将目标句类模式与待选答案句模式各个部分进行匹配比较能够判断二者的语义相似度,以及待选答案句包含目标答案的程度。模式匹配法适合于疑问句和待选答案句的句类相同或者相近的情况。
如图2所示是模式匹配法的目标答案句模式序列生成过程(虚线部分表示可缺项)。所述目标句模式序列生成过程特征为:对目标答案句按照不同的句类格式,增减语义块指示符,和调整语义块位置的方法生成语义相同而语言表达形式不同的目标答案句模式序列;对目标答案句按照不同的句类格式,增减语义块指示符,和调整语义块位置的方法生成语义相同而语言表达形式不同的目标答案句模式序列。首先通过疑问中心语义块JK或FK生成疑问中心,包括疑问词,和紧随或者修饰疑问词的疑问中心词,还可以同时在疑问中心之前生成辅块FK的累加值,和在疑问中心之后主块JK的累加值;如果在头尾同时结合陈述表达J(或者J的若干部分)、辅块FK的累加值、和主块JK的累加值,则等语义的句类格式变换所产生的目标句类模式序列,顺序包括辅块FK和主块JK的累加值、语义块指示符,以及疑问中心语义块JK or FK、语义块指示符和辅块FK和主块JK的累加值。
模式匹配算法过程如图3所示,首先判断目标模式句类和待选答案句类是否相同,如果完全不相同,则由语义关系识别模块处理,结束模式匹配;对于混合句,复合句部分相同的待选句,则识别出混合句类中该句类部分的各个语义块,以后跟句类相同的部分同样处理;如果句类相同,则对于各个语义块,逐个进行语义块相似度比较,分别比较GBK块核心词的概念相似度、比较GBK块修饰部分的概念相似度、比较各个GBK的FK与对应FK的概念相似度、以及对于疑问中心和目标答案概念的分析和计算,然后综合计算待选答案句的答案准确度得分。
待选句语义块相对于对应的目标句语义块的语义块相似度计算方法为:
simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbi)βk)/Tt
模式匹配法的答案准确度计算方法:
correctness ( St , Sb ) = Σ i = 1 n simChunk ( Chunkti , Chunkbi ) + answFitness ( St , Sb )
式中各符号含义:answFitness:待选句对于目标答靠的回答程度。
            Tt:目标语义块参与概念比较的元素数目。
            M:语义块的修饰词。
            K:语义块的核心词。
            correctness:待选句的答案准确度。
语义关系识别法:
语义关系识别法,其基本思想是尽量发现和抽取目标句在不同组成部分,不同粒度层次之间的各种语义关系,然后尝试在待选句中发现和识别出对应概念之间相似的语义关系。基本的语义关系有:概念组合关系如作用,效应,对象,内容,包含,偏正,主谓,逻辑;句类结构的内部关系;以及表示世界知识的关系。
由于自然语言表达的多样性,一个语义关系可以通过多种简单或复杂的结构,如嵌套句蜕,快扩,语义块分离,单句,混合句,复合句等形式来表达。所以在语义关系识别法中***采用了一种面向目标语义关系的假设-校验机制,利用***的语言学知识来校验计算待选句中含有某个目标语义关系的置信度(即使只是部分地与目标语义关系结构相符合),以此发现不同的语言表达形式下所隐含的深层语义。
图4是语义关系识别法处理步骤,首先发现待选句中所存在的与目标句相同或者相似的概念,再对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类结构的语义关系、基于修饰关系的语义关系和面向世界知识的语义关系;然后再对各种语义关系假设利用目前现场语句分析结果的校验计算;语义关系矩阵中的各个对应语义关系在待选句中的发现和假设校验,以及对于疑问中心所对应的匹配和目标答案概念的相似度计算;对语义关系矩阵中各个语义关系的相似度的综合计算得到待选句的答案准确度。
语义关系识别的答案准确度计算方法:
correctness ( St , Sb ) = Σ i = 1 n simSynR ( Rti , Rbi ) confid ( confidRti , cinfidRbi ) βi + answFitness ( St , Sb )
各符号含义:
n:目标句中语义矩阵中的语义元素(或语义元素组合)的语义关系数目
simSynR:语义关系相似度。
R:目标句(待选句)的语义关系。
confid:由两个语义关系的置信度所得的对于二者相似度的置信度。
confidR:语义关系的置信度。
βi:语义关系i的计算权重参数。
如图5是***组成结构和运行原理图,描述了在执行模块控制下数据库中的数据流动的执行顺序。来自互联网或其他内容源的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有已经标注的待选答案句知识库;用户输入的疑问句首先进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,语义关系结构抽取模块处理结合目标答案句模式(序列)获得目标句的语义关系矩阵;疑问句分析模块分析的疑问句还进入HNC句类分析模块处理获得疑问句的HNC句类结构数据,疑问中心分析模块还得到包含疑问中心对目标答案的要求的疑问中心数据,疑问中心数据与疑问句的HNC句类结构数据结合获得目标答案句模式(序列)。经过疑问中心分析模块处理的疑问句语义关系结构抽取模块结合目标答案句模式(序列)生成目标句的语义关系矩阵,再结合知识库中已经标注的待选答案句,进入假设-校验机制模块对待选答案句针对目标答案语义关系矩阵的识别;知识库中已经标注的待选答案句结合目标答案句模式(序列)经过句类模式匹配模块处理,跟假设校验机制匹配,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分,再按照答案正确度排序,获得排序后的答案列表。

Claims (10)

1.一种基于自然语言理解的计算机信息检索***,由用户输入的疑问句启动检索,***输出按照语义相关程度排序的答案;其特征在于,包括HNC句类分析模块、以及句类模式匹配模块和排序模块;所述HNC句类分析模块对来自互联网或其他内容源的文章和内容进行分析构成具有标注的待选答案句的知识库,还对启动检索的疑问句进行句类结构分析得到目标句类模式,生成等语义目标句模式序列;再由所述句类模式匹配模块与所述知识库中的待选答案句匹配,匹配结果由所述排序模块排序。
2.根据权利要求l所述的基于自然语言理解的计算机信息检索***,其特征在于,所述目标句类模式对于所述知识库中具有相同或者相近句类模式的待选答案句,***通过计算目标句与待选句的各个相对应语义块的概念之间相似度来得到待选句相对于目标答***程度:
simConcept(t,b)=
simCat(t,b)βcat+∑simFiv(t,b)βfiv+simSynt(t,b)βsyn
式中各符号含义:simConcept:待选概念b相对于目标概念t的概念相似度;simCat:概念类别相似度:simFiv:五元组符号序列的概念相似度;simSyn:语法符号的相似度;simNou:本体层概念相似度;simRe:挂靠层概念相似度;simHigh:高层概念相似度;simMid:中层概念相似度;simLow:底层概念相似度;β:对应概念符号部分的计算权重参数。
3.根据权利要求1所述的基于自然语言理解的计算机信息检索***,其特征在于,所述目标句类模式通过等语义的句类格式变换得到一个目标句类模式序列,将目标句类模式与所述待选答案句模式各个部分进行匹配比较判断二者的语义相似度,以及待选答案句包含目标答案的程度,待选句语义块相对于对应的目标句语义块的语义块相似度计算方法为:
simChunk(Chunkt,Chunkb)=(∑simConcept(Mti,Mbi)βm+∑simConcept(Kti,Kbf)βk)/Tt
模式匹配法的答案准确度计算方法:
correctness ( St , Sb ) = Σ i = 1 n simChunk ( Chunkti , Chunkbi ) + answFitness ( St , Sb ) .
4.根据权利要求1所述的基于自然语言理解的计算机信息检索***,其特征在于,还包括假设—校验机制模块,所述目标句的语义关系矩阵通过假设—校验机制模块分析对待选答案句针对目标答案语义关系矩阵的识别;所述假设—校验机制模块,利用***的语言学知识来校验计算所述知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义,语义关系识别的答案准确度计算方法:
correctness ( St , Sb ) = Σ i = 1 n simSynR ( Rti , Rbi ) confid ( confidRti , confidRbi ) βi + answFitness ( St , Sb )
各符号含义:
n:目标句中语义矩阵中的语义元素(或语义元素组合)的语义关系数目;
simSynR:语义关系相似度;
R:目标句(待选句)的语义关系;
confid:由两个语义关系的置信度所得的对于二者相似度的置信度;
confidR:语义关系的置信度;
βi:语义关系i的计算权重参数。
5.根据权利要求1所述的基于自然语言理解的计算机信息检索***,其特征在于,所述语义关系结构抽取模块对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类结构的语义关系、基于修饰关系的语义关系和面向世界知识的语义关系;然后再对各种语义关系假设利用目前现场语句分析结果的校验计算。
6.一种基于自然语言理解的计算机信息检索方法,由用户输入的疑问句启动检索,***输出按照语义相关程度排序的答案;其特征在于,包括如下处理步骤:第一步,来自互联网的文章和内容数据库中的数据经过HNC句类分析模块的处理,获得具有标注的待选答案句知识库;第二步,所述用户输入的疑问句首先调用HNC句类分析模块处理获得疑问句的HNC句类结构,进入疑问句分析模块进行分析,然后进入疑问中心分析模块中处理,并在此基础上抽取目标答案句模式,生成等语义目标句模式序列;第三步,知识库中已经标注的待选答案句与目标答案句模式(序列)经过句类模式匹配模块对词语,语义块进行概念相似度计算,对待选句与目标句进行比较,获得句类模式匹配结果、语义关系结构识别匹配结果、和答案准确度得分;第四步:按照答案正确度排序,并返回结果。
7.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述第三步中,对于难以适用句类模式匹配的情况,在HNC句类分析的语义关系结构抽取目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵。通过假设—校验机制模块,利用***的语言学知识来校验计算知识库待选句中含有某个目标语义关系的置信度,以此发现不同的语言表达形式下所隐含的深层语义的相似度。
8.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述目标答案句模式序列生成过程包括如下步骤:通过疑问中心语义块JK or FK生成疑问中心,包括疑问词,和紧随或者修饰疑问词的疑问中心词,以及同时在疑问中心之前生成辅块FK的累加值,和在疑问中心之后主块JK的累加值;如果在头尾同时结合陈述表达J(或者J的若干部分)、辅块FK的累加值、和主块JK的累加值,则通过等语义的句类格式变换所产生的目标句类模式序列顺序包括辅块FK和主块JK的累加值、语义块指示符,以及疑问中心语义块JK or FK、语义块指示符和辅块FK和主块JK的累加值。
9.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述第三步中包括如下步骤,首先判断目标模式句类和待选答案句类是否相同,如果完全不相同,则由语义关系识别模块处理,结束模式匹配;对于混合句,复合句部分相同的待选句,则识别出混合句类中该句类部分的各个语义块,以后跟句类相同的部分同样处理;如果句类相同,则对于各个语义块,逐个进行语义块相似度比较,分别比较GBK块核心词的概念相似度、比较GBK块修饰部分的概念相似度、比较各个GBK的FK与对应FK的概念相似度、以及对于疑问中心和目标答案概念的分析和计算,然后综合计算待选答案句的答案准确度得分。
10.根据权利要求6所述的基于自然语言理解的计算机信息检索方法,其特征在于,所述第四步中包括如下步骤,首先发现待选句中所存在的与目标句相同或者相似的概念,再对目标句中的各个概念元素(或者概念元素的组合)之间相互交叉的语义关系矩阵作分析和抽取,分别得到基于概念搭配的语义关系、基于句类结构的语义关系、基于修饰关系的语义关系和面向世界知识的语义关系;然后再对各种语义关系假设利用目前现场语句分析结果的校验计算;语义关系矩阵中的各个对应语义关系在待选句中的发现和假设校验,以及对于疑问中心所对应的匹配和目标答案概念的相似度计算;对语义关系矩阵中各个语义关系的相似度的综合计算得到待选句的答案准确度。
CN 200610032725 2006-01-09 2006-01-09 基于自然语言理解的计算机信息检索***及其检索方法 Pending CN1794240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610032725 CN1794240A (zh) 2006-01-09 2006-01-09 基于自然语言理解的计算机信息检索***及其检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610032725 CN1794240A (zh) 2006-01-09 2006-01-09 基于自然语言理解的计算机信息检索***及其检索方法

Publications (1)

Publication Number Publication Date
CN1794240A true CN1794240A (zh) 2006-06-28

Family

ID=36805674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610032725 Pending CN1794240A (zh) 2006-01-09 2006-01-09 基于自然语言理解的计算机信息检索***及其检索方法

Country Status (1)

Country Link
CN (1) CN1794240A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180628B2 (en) 2007-07-05 2012-05-15 Nec (China) Co., Ltd. Apparatus and method for expanding natural language query requirement
CN101763401B (zh) * 2009-12-30 2012-05-30 暨南大学 一种网络舆情的热点预测和分析方法
WO2012109786A1 (en) * 2011-02-16 2012-08-23 Empire Technology Development Llc Performing queries using semantically restricted relations
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
WO2013016854A1 (en) * 2011-07-29 2013-02-07 Empire Technology Development Llc But reasoning in inconsistent knowledge base
CN103577558A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN104182386A (zh) * 2013-05-27 2014-12-03 华东师范大学 词对关系相似度的计算方法
CN105378729A (zh) * 2013-11-27 2016-03-02 Ntt都科摩公司 生成用于支持在线服务的资源
CN103718173B (zh) * 2011-07-29 2016-11-30 英派尔科技开发有限公司 不一致知识库中的but推理
CN107122421A (zh) * 2017-04-05 2017-09-01 北京大学 信息检索方法和装置
CN107340999A (zh) * 2017-01-09 2017-11-10 北京理工大学 软件自动化方法与***以及构建自然语言理解库的方法
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
WO2019080648A1 (zh) * 2017-10-26 2019-05-02 华为技术有限公司 复述语句生成方法及装置
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US8180628B2 (en) 2007-07-05 2012-05-15 Nec (China) Co., Ltd. Apparatus and method for expanding natural language query requirement
CN101763401B (zh) * 2009-12-30 2012-05-30 暨南大学 一种网络舆情的热点预测和分析方法
US9245049B2 (en) 2011-02-16 2016-01-26 Empire Technology Development Llc Performing queries using semantically restricted relations
CN103380426A (zh) * 2011-02-16 2013-10-30 英派尔科技开发有限公司 利用语义限制关系来执行查询
CN103380426B (zh) * 2011-02-16 2017-09-22 英派尔科技开发有限公司 利用语义限制关系来执行查询
WO2012109786A1 (en) * 2011-02-16 2012-08-23 Empire Technology Development Llc Performing queries using semantically restricted relations
CN103718173B (zh) * 2011-07-29 2016-11-30 英派尔科技开发有限公司 不一致知识库中的but推理
WO2013016854A1 (en) * 2011-07-29 2013-02-07 Empire Technology Development Llc But reasoning in inconsistent knowledge base
US8738561B2 (en) 2011-07-29 2014-05-27 Empire Technology Development Llc But reasoning in inconsistent knowledge base
KR101568623B1 (ko) 2011-07-29 2015-11-11 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 불일치한 지식 베이스에 있어서의 역접어 추론
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN102662930B (zh) * 2012-04-16 2015-04-22 乐山师范学院 一种语料标注方法及装置
CN104182386A (zh) * 2013-05-27 2014-12-03 华东师范大学 词对关系相似度的计算方法
CN103577558B (zh) * 2013-10-21 2017-04-26 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN103577558A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN105378729A (zh) * 2013-11-27 2016-03-02 Ntt都科摩公司 生成用于支持在线服务的资源
CN107340999A (zh) * 2017-01-09 2017-11-10 北京理工大学 软件自动化方法与***以及构建自然语言理解库的方法
CN107122421A (zh) * 2017-04-05 2017-09-01 北京大学 信息检索方法和装置
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
WO2019080648A1 (zh) * 2017-10-26 2019-05-02 华为技术有限公司 复述语句生成方法及装置
US11586814B2 (en) 2017-10-26 2023-02-21 Huawei Technologies Co., Ltd. Paraphrase sentence generation method and apparatus
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN111079641A (zh) * 2019-12-13 2020-04-28 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质
CN111079641B (zh) * 2019-12-13 2024-04-16 科大讯飞股份有限公司 作答内容识别方法、相关设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN1794240A (zh) 基于自然语言理解的计算机信息检索***及其检索方法
Yu et al. Typesql: Knowledge-based type-aware neural text-to-sql generation
Unger et al. Question answering over linked data (QALD-4)
US10503828B2 (en) System and method for answering natural language question
DE69932044T2 (de) Auf sprachmodellen basierte informationsgewinnung und spracherkennung
CN1252876A (zh) 利用文本的语义表示进行信息检索
CN1135485C (zh) 利用计算机***的日文文本字的识别
Pattaniyil et al. Combining TF-IDF Text Retrieval with an Inverted Index over Symbol Pairs in Math Expressions: The Tangent Math Search Engine at NTCIR 2014.
Wang et al. Interactive query synthesis from input-output examples
CN1845104A (zh) 信息智能检索加工的***和方法
CN1335574A (zh) 智能语义搜索方法
CN1916905A (zh) 基于倒排表进行检索提示的方法
CN101051311A (zh) 从应用于中心词提取***的词条中提取中心词的方法
CN1145899C (zh) 为文字文档自动生成摘要的方法
CN1750002A (zh) 提供搜索结果的方法
CN1652106A (zh) 基于语言知识库的机器翻译方法与装置
CN1492367A (zh) 询问应答***及询问应答方法
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及***
CN105760462A (zh) 基于关联数据查询的人机交互方法及装置
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和***
CN1949211A (zh) 一种新的汉语口语解析方法及装置
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其***
CN1410918A (zh) 基于信息抽取技术的搜索引擎
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication