CN1487444A - 文本语句比较装置 - Google Patents

文本语句比较装置 Download PDF

Info

Publication number
CN1487444A
CN1487444A CNA031570933A CN03157093A CN1487444A CN 1487444 A CN1487444 A CN 1487444A CN A031570933 A CNA031570933 A CN A031570933A CN 03157093 A CN03157093 A CN 03157093A CN 1487444 A CN1487444 A CN 1487444A
Authority
CN
China
Prior art keywords
tree
text sentence
weight
distance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031570933A
Other languages
English (en)
Other versions
CN100470533C (zh
Inventor
刘绍明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN1487444A publication Critical patent/CN1487444A/zh
Application granted granted Critical
Publication of CN100470533C publication Critical patent/CN100470533C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种对文本语句间进行高精度实时比较的文本语句比较装置。树表示部用图论的有根树来表示作为比较对象的文本语句;节点信息赋予部对由树表示部所表示的树的各节点赋予基于文本语句的信息;树间距离定义部定义基于节点间对应关系的树间的距离;树间距离取得部对作为比较对象的文本语句的树之间,求出由树间距离定义部所定义的树间距离;树间距离应用部将树间距离用于表示文本语句间的差别;文本语句间距离取得部根据树间距离应用部的结果,计算出作为比较对象的文本语句间的距离。

Description

文本语句比较装置
技术领域
本发明涉及例如使用计算机对文本语句间的语义内容的差别进行比较的装置及方法,特别涉及到高精度而且可进行实时比较的文本语句比较装置及方法。
背景技术
由于IT技术,特别是高速因特网、移动通信技术的飞速发展,任何人随时随地都可以利用大量信息,但与此相反,却产生所谓信息泛滥的现象,用户要获取真正需要的信息已变得日益困难,为了实现用户无论在何种状况下都总能得到合适的信息,就必须从大量的信息中提取并重新构成对用户具有真正价值的信息。
因此,基于语义内容的文档内容比较技术、基于语义内容的分类技术、以及用户信息检索意图理解等技术就显得特别重要。此外,为了实现基于语义内容的文档内容比较,基于语义内容的文本分类,以及用户信息检索意图理解,基于自然语言处理技术的文本间类似性判定技术是不可或缺的。
在本领域中,虽然测定文本间类似性的技术已有多个提案,但是主流仍是利用语句的局部信息,例如,利用语句中出现的单词信息、或者是利用单词及单词间的修饰限制关系信息,所以很难将其作为基于语义内容的文本间类似性的评价尺度来使用,无法真正实现对文档的语义内容进行比较、以及对用户的信息检索意图进行理解的目标。
最近,提出了基于文本语义分析及子图同构判定来实现文本间类似度比较的方法,以及基于经验的文本同类似度比较方法。可是在所提出的类似度中,有的没有考虑结构的变化,有的类似度的定义与文本的语义内容的差别之间的关系不明确。
作为与本发明相关的现有技术的例子,可举出如下这些技术。
非专利文献1
原田、水野,论文“EDRを用いた日本語意味解析システムSAGE(基于EDR的日语语义分析***SAGE)”,《人工知能学会論文誌》,2001年、16(1)、p.85-93
非专利文献2
相泽彰子,论文“語と文書の共起に基づく特徵量の定義と適用(基于单词和文本共起关系的特征量的定义和应用)”,《自然言語処理》,2000年3月,136-4
非专利文献3
马青,论文“日本語名詞の意味マツプの自己組織化(日语名词的语义映射的自组织化)”,《情報処理学会論文誌》,2001年,第42卷,第10号
非专利文献4
田中,论文“強構造保存写像に基づく木の間の距離とその計算法(基于强结构映射的树间距离及其计算法)”,《電気情報通信学会論文誌》,1984年,第J67-D卷,第6号,P.722-723
非专利文献5
刘、田中,论文“順序がない木の距離を求めるアルゴリズム(计算无序有向树距离的算法)”,《電気報通信学会論文誌》,1995年,第J78-A卷,第10号,P.1358-1371
发明内容
如前所述,迄今为止,基于语义内容的文本间类似度的比较技术还不充分,存在以前提出的类似度很难说明文本语句间语义内容的差别的问题。
本发明是鉴于如上所述的现有情况提出的,目的是提供一种高精度地对文本语句间的语义内容的差别进行实时比较的装置和方法。具体来说,例如,为实现对文本的语义内容进行比较、或基于语义内容对文本进行分类、或对用户的信息检索意图进行理解,本发明从数学上定义了可测量文本语句间+的语义内容的差别的距离尺度,可以实时地求出该距离值。
为达到上述目的,本发明的文本语句比较装置如下进行文本语句之间的比较。
亦即,树表示部用图论中的有根树来表示作为比较对象的文本语句的语法结构及内容。节点信息赋予部对由树表示部所表示的树的各节点,赋予基于文本语句的信息。树间距离定义部定义基于节点间对应关系的树间的距离。树间距离取得部求出由树间距离定义部所定义的树间距离。树间距离应用部将树间距离应用于表示文本语句间的差别(或类似)。文本语句间距离取得部根据树间距离应用部的结果,求出作为比较对象的文本语句间的距离。
因此,对作为比较对象的两个文本语句,将文本语句的整体结构和语义内容用图论中的有根树来表示并且根据树间的距离来测量文本的类似度。因为根据应用两个树间的距离所求出的这两个文本语句间的距离,可以探讨这两个文本语句间的语义上的差别,因此可以高精度地进行文本语句间类似度的实时比较。
此处,本发明将图论中的树间距离应用于文本语句的比较,不仅考虑包含在文本语句中的单词信息和格信息,而且还考虑文本语句的句法结构。
此外,根据利用有根有序树还是有根无序树,及利用单词信息和格信息还是只利用单词信息,可以将文本语句间的距离划分为4类,可在应用时,根据计算速度和比较精度任意进行选择。
并且,在本说明书中,将图论中的有根有序树称为RO树(Rooted andOrdered tree),将图论中的有根无序树称为R树(Rooted tree)。
此外,对于RO树和R树,虽然RO树比R树计算简单,但一般来讲R树比RO树的精度要高。
此外,作为单词信息,可以利用各种各样的信息,例如,可以包含单词的属性信息。作为单词的属性信息,例如,可以利用由词素分析(中文的分词标注***)所得到的词类信息等,此外,在动词的情况下,可以利用动词变形的信息等。
此外,单词间的修饰限制关系的种类相当于格。
此外,在利用单词信息和格信息的情况下,例如,可以对文本语句进行语义分析来求出单词信息和格的信息。或者,对文本语句进行句法分析,求出单词的信息和格的信息。
此外,在只利用单词信息的情况下,例如,可以对文本语句进行语法分析来求出单词信息,或者,例如,对文本语句进行语义分析来求出单词信息。
此外,作为R树间的映射条件,例如,可以利用“一对一映射、保存父子关系(上下关系)、保存结构之间的关系”等条件。
此外,作为RO树间的映射条件,例如,可以利用“一对一映射、保存父子关系(上下关系)、保存兄弟间的左右关系、保存结构之间的关系”等条件。
此外,在从树A到树B进行映射时,例如,从树A的节点映射到树B的节点时,相当于节点的置换,树A中的不能映射的节点相当于脱落,树B中的不能映射的节点相当于***。
此外,作为树与树间的距离,例如,可以利用把一个树转换到另一个树时的权重之和(映射权重之和)的最小值。此外,这样的树与树间的距离的定义中,隐含着森林间的距离的定义。
此外,作为对RO树或R树的各节点赋予编号的方法,例如,可用深度优先搜索法,按递增顺序对各节点赋予编号计算树间距离时,采用从编号较大的节点开始,顺序进行计算的方法。具体来说,使用动态规划法,按照从最下侧的子树开始到上侧子树的顺序逐个进行计算。
此外,对于各节点利用标记(lable)符号来表示存储到该节点上的信息。
下面,进一步对本发明的结构例进行说明。
(1)在求取测量文本语句间语义内容的距离的文本语句间语义内容比较装置中,具有:将文本语句的整体结构和语义用图论中的RO树或R树来表示的树表示部;将单词信息和单词间的修饰限制关系(格)信息赋予RO树或R树的各节点、或者只将单词信息赋予RO树或R树的各节点的节点信息赋予部;用于定义基于节点对应关系的RO树间或R树间的距离的树间距离定义部;求取该定义的RO树间或R树间的距离的树间距离取得部;将RO树间或R树间的距离应用于比较文本语句间的语义差别的距离应用部;求取文本语句间的距离的距离取得部。
(2)定义基于节点对应关系的RO树或R树间距离的树间距离定义部,具有:对RO树或R树的各节点赋予标记的标记赋予部;对RO树或R树的各节点赋予编号的编号赋予部;基于节点间对应关系的RO树间或R树间的映射条件;进行基于节点间对应关系的RO树间或R树间的映射的映射部;进行基于节点间对应关系的有序森林间的映射的映射部;进行基于节点间对应关系的无序森林间的映射的映射部;定义由这些映射部所决定的映射权重的映射权重设定部;基于有序森林间的映射部和映射权重设定部来定义有序森林间的距离的有序森林间距离定义部;基于无序森林间的映射部和映射权重设定部来定义无序森林间的距离的无序森林间距离定义部;基于RO树间或R树间的映射部和映射权重设定部来定义RO树或R树间的距离的树间距离定义部。
(3)将RO树间或R树间的距离应用于测量文本语句间语义差别的距离的部,具有:使单词间的映射及对应的格间的映射与RO树或R树的节点间的映射相对应的部;对单词置换权重和格置换权重施加某种函数,使该函数值与RO树间或R树的节点间的置换权重相对应的部;对单词脱落权重和格脱落权重施加某种函数,使该函数值与RO树或R树的节点的脱落权重相对应的部;对单词***权重和格***权重施加某种函数,使该函数值与RO树或R树的节点的***权重相对应的部;设定单词间的映射权重的部;设定格间的映射权重的部;
(4)将RO树间或R树间的距离应用于测量文本语句间语义差别的距离的部,具有:使单词间的映射与RO树或R树的节点间的映射相对应的部;使单词置换权重与RO树或R树的节点间的置换权重相对应的部;使单词脱落权重与RO树或R树的节点的脱落权重相对应的部;使单词***权重与RO树或R树的节点的***权重相对应的部;设定单词间的映射权重的部;
(5)求取文本语句间距离的部,将求取RO树间或R树间距离的部所求出的距离值作为文本语句间的距离。
(6)求取文本语句间距离的部,将求取RO树间或R树间距离的部所求出的距离值除以两个RO树或R树的节点数的和所得的结果作为文本语句间的距离。
(7)设定单词间的映射权重的部具有:在RO树间或R树间的映射中,当两个节点相映射时,设定存储在各节点上的单词间的置换权重的部;在节点不能映射而脱落时,设定存储在节点上的单词脱落权重的部;在节点不能映射而***时,设定存储在节点上的单词***权重的部;设定单词置换权重、单词脱落权重和单词***权重之间的关系的部。
(8)设定格间的映射权重的部具有:在RO树间或R树间的映射中,当两个节点相映射时,设定存储在各节点上的格间的置换权重的部;当节点不能映射而脱落时,设定存储在节点上的格脱落权重的部;当节点不能映射而***时,设定存储在各节点上的格***权重的部;设定格间置换权重、格脱落权重和格***权重之间的关系的部。
(9)设定单词置换权重的部具有:当两个单词是同一单词时,将单词置换权重设定为0的部;当两个单词不同时,将单词置换权重设定为正常数的部;
(10)设定单词置换权重的部将单词置换权重设定为单词间的距离。
(11)设定单词脱落权重的部将单词脱落权重设定为常数。
(12)设定单词脱落权重的部根据单词的词类,求出单词脱落权重。
(13)设定单词***权重的部将单词***权重设定为常数。
(14)设定单词***权重的部根据单词的词类,求出单词***权重。
(15)设定单词的置换权重、脱落权重、***权重之间的关系的部设定满足“单词脱落权重+单词***权重>单词置换权重”的关系。
(16)设定格置换权重的部具有:当两个格是同一格时,将格置换权重设定为0的部;当两个格不同时,将格置换权重设定为正常数的部;
(17)设定格置换权重的部具有:将所有的格分类为多个N个类的部;设定格分类间的置换权重的部;将格间的置换权重设定为两个格所属的格分类间的置换权重的部。
(18)设定格脱落权重的部将格脱落权重设定为常数。
(19)设定格脱落权重的部根据格的种类,求出格脱落权重。
(20)设定格***权重的部将格***权重设定为常数。
(21)设定格***权重的部根据格的种类,求出格***权重。
(22)设定格的置换权重、脱落权重、***权重之间的关系的部设定满足“格脱落权重+格***权重>格置换权重”的关系。
(23)在求取测量文本语句间的语义内容的距离的文本语句间的语义内容比较方法中,将文本语句的整体结构和语义用图论中的RO树或R树来表示,将单词和单词间的修饰限制关系(格)信息,或者只把单词信息存储到RO树或R树的各节点上,根据仅基于节点的对应关系定义的RO树间或R树间距离的内容,求出该定义的RO树间或R树间的距离,将RO树间或R树间的距离应用于比较文本语句间的语义差别的距离,求出文本语句间的距离。
附图说明
图1表示本发明的一个实施例的文本语句间语义内容比较装置的结构例。
图2表示本发明的、把文本语句间语义内容比较装置和比较方法应用于信息终端设备时的结构例。
图3表示词素分析(分词标注)部的分析结果的示例图,图3(a)是日语的分析结果图,图3(b)是汉语的分析结果图。
图4是树结构表示的示例图,图4(a)是日语的树结构表示图,图4(b)是汉语的树结构表示图。
图5是树结构表示的示例图,图5(a)是日语的树结构表示图,图5(b)是汉语的树结构表示图。
图6表示格分类间的距离表(一览表)的数据结构的一个示例。
图7表示RO树或R树构成的两个子树的一个示例。
图8表示RO树或R树构成的两个森林的一个示例。
图9表示二分图的一个示例。
图10表示语句A和语句B的树结构示意图,其中,图10(a)、10(b)表示日语的树结构图,图10(c)、10(d)是汉语的树结构图。
图11是对语句A和语句B给定RO树间距离的映射的示例图,图11(a)是日语的映射图,图11(b)是汉语的映射图。
图12是计算RO树间距离的过程的流程图。
图13是计算R树间距离的过程的流程图。
具体实施方式
参照附图,对本发明的一个实施例进行说明。
图1表示本发明的一个实施例的文本语句间语义内容的比较装置(文本语句比较装置)的一个实施形式,该装置实施本发明的一个实施例的文本语句语义内容的比较方法。
在该图中所示的文本语句比较装置中,具有:外部存储装置1;词素分析(分词标注)部2,其用于提取文本语句的词素(分词和词性标注);句法语义分析部3,其用于分析文本语句的依存关系(句法)或分析其语义;树结构转换部4,其将由句法语义分析部3所分析的结果转换为图论中的RO树或R树;单词映射权重计算部5,其求出置换两个单词时的单词置换权重、脱落单词时的单词脱落权重、以及***单词时的单词***权重;格映射权重计算部6,其求出置换两个格时的格置换权重、脱落格时的格脱落权重、以及***格时的格***权重;节点映射权重计算部7,其用于计算RO树或R树的节点置换权重、节点脱落权重和节点***权重;距离计算部8,其用于计算RO树间或R树间的距离;语句内容比较部9,其用于求出文本语句间语义内容的差别;存储部10,其例如由存储器构成;多个存储器11~19。
并且,当只把出现在文本语句中的单词信息存储在RO树或R树的节点上时,亦即,当不使用格信息时,也可以不必设置格映射权重计算部6。
此外,当使出现在文本语句中的单词信息和格信息同时存储在RO树或R树的节点上时,节点映射权重计算部7对单词映射权重计算部5的计算结果和格映射权重计算部6的计算结果施加函数,并将该函数的结果作为节点映射权重,提供给距离计算部8。
此外,在外部存储装置1中存储文本语句的数据。
此外,存储器11和12分别用于存储从外部存储装置1读出的两个文本语句的数据。存储器13和14分别用于存储由词素分析(分词标注)部2对两个文本语句进行分析的结果。存储器15和存储器16分别存储由句法语义分析部3对两个文本语句进行句法分析或语义分析的结果。存储器17和存储器18分别存储由树结构转换部4对两个文本语句进行转换的结果。存储器19用于存储由距离计算部8所求出的RO树间或R树间的距离。
并且,也可以采用把这些存储器11~19集中为1个存储器的结构,或者采用不设置存储器11~19的结构。
词素分析(中文的分词标注)部2提取出存储在存储器11和存储器12中的两个文本语句的词素(单词)和属性,并将各文本语句的分析结果分别存储在存储器13、存储器14中。
句法语义分析部3输入存储在存储器13和存储器14中的词素分析(分词标注)结果,进行文本语句依存关系(句法)分析或语义分析,并将各文本语句的分析结果分别存储到存储器15、存储器16中。
树结构转换部4利用存储在存储器15和存储器16中的依存关系(句法)分析的结果,把文本语句的依存关系(句法)转换为RO树或R树,只把出现在文本语句中的单词(包含单词的属性)信息,存储到转换后的RO树或R树的节点上。或者,树结构转换部4利用存储在存储器15和存储器16中的语义分析结果,把文本语句的语义分析结果转换为RO树或R树,并把出现在文本语句中的单词(包含单词的属性)信息和相关的格信息,存储到转换后的RO树或R树的节点上。
此外,树结构转换部4分别将对各文本语句的转换结果,存储到存储器17、存储器18中。
单词映射权重计算部5求出节点映射权重计算部7所需的单词置换权重、单词脱落权重以及单词***权重。
格映射权重计算部6求出节点映射权重计算部7所需的格置换权重、格脱落权重以及格***权重。
节点映射权重计算部7求出为计算RO树间或R树间的距离所需的节点映射权重,并将计算结果提供给距离计算部8。
距离计算部8求出存储在存储器17和存储器18中的两个RO树间或R树间的距离,并将该结果存储到存储器19中。
语句内容比较部9利用存储在存储器19中的RO树间或R树间的距离,求出文本语句间的距离,并将该结果存储到存储部10中。
其次,作为本发明的、计算比较文本语句间的语义内容的距离的装置和方法的应用例,示出应用于信息终端设备时的设备结构例。
图2,表示把本发明的计算比较文本语句间的语义内容的距离的方法应用于信息终端设备时的设备结构例。
该图所示的信息终端设备20由外部存储装置21、键盘22、显示器23、处理器部24构成。在处理器部24中,具有求取文本语句间距离的模块25。
外部存储装置21用于存储所输入的文本语句的数据、用于求出单词映射权重时所使用的单词特征量词典词义关系词典、用于存储为了计算格映射权重时所使用的格权重词典等、用于存储已求出的文本语句间的距离结果、软件等,此外,还起到用于计算时所需的存储空间的作用。此外,具体地说,作为外部存储装置21,例如可用硬盘等构成。
键盘22是用户指示操作的输入装置。此外,也可以附加其它输入装置。
显示器23是用于显示对用户提示的信息、文本语句数据、分析结果、距离计算结果等的输出装置。此外,也可附加其它输出装置。
处理器部24根据存储在外部存储装置21中的软件等进行实际的处理。具体地说,作为处理器部24,例如,可由微处理器、个人计算机等计算机***构成。而且,上述图1所示的词素分析(分词标注)部2、句法语义分析部3、树结构转换部4、单词映射权重计算部5、格映射权重计算部6、节点映射权重计算部7、距离计算部8、语句内容比较部9可由在该处理器部24中运行的软件来构成。
其次,对本发明的一个实施例的、比较文本语句间语义内容差别的装置的动作,加以详细说明。
在外部存储装置1中存储文本语句的数据。从外部存储装置1读出两个文本语句数据,分别将它们存储在存储器11和存储器12中。词素分析(分词标注)部2从存储在存储器11和存储器12的文本语句中提取出单词和单词属性,并将其结果分别存储在存储器13和存储器14中。
此处,作为词素分析(分词标注)工具,可以利用任何公开技术,例如,可以利用由奈良先端技术大学院大学的松本研究室所公开的“茶筅”词素分析工具(中文处理时可使用清华大学的CSEGTAG分词标注***)。
此外,在图3中,图3(a)表示对日文语句“先生は生徒に英語を教える”(“老师教学生英语”)的词素进行分析的分析结果。图3(b)表示中文的分词标注结果,此处,n表示名词,v表示动词,nz表示其它名词。
句法语义分析部3输入存储在存储器13和存储器14中的词素分析(分词标注)结果,对文本语句的句法、或修饰限制关系(格)、或文本语句的深层结构等进行分析,并将分析结果分别存储在存储器15和存储器16中。
此处,作为句法分析工具或语义分析工具,可以使用已公开的任何句法分析工具或语义分析工具,例如,可利用非专利文献1中所述的方法(参照非专利文献1)。
树结构转换部4输入存储在存储器15和存储器16中的分析结果,将文本语句转换为树结构,并将转换后的树结构分别存储在存储器17和存储器18中。
在图4中,表示将对文本语句“先生は生徒に英语を教える”(“老师教学生英语”)进行语义分析所得的分析结果转换为树结构的形式。,图4(a)是日语的树结构表示图,图4(b)是汉语的树结构表示图。作为单词信息和格信息,“先生”(“老师”)和“SUBJ”,“英语”和“OBJ”、“生徒”(“学生”)和“OBJ”、“に”和“OBL”、“教える”(“教”)和“NULL”被存储在各节点上。
此外,在图5中,表示将对文本语句“先生は生徒に英语を教える”(“老师教学生英语”)进行句法分析所得的分析结果转换为树结构的形式。,图5(a)是日语的树结构表示图,图5(b)是汉语的树结构表示图。作为单词信息,“先生”(“老师”),“英语”、“生徒”(“学生”)、“教える”(“教“)被存储在各节点上。
在上述图4中,作为格信息,示出了SUBJ(主格),OBJ(宾格),OBL(任意格),NULL(空)。此外,还可以用ADJUNCT(附加格)等作为格信息。
并且,在本例中,对于OBL,与格助词和可替换它的格助词的个数相应地准备变量。例如,在“彼は京都[に/へ]行つた。”(“他去了京都”)的情况下,因为“に”和“へ”可以替换,把该变数名取为OBL_ni-he。
本实施方式中,为了求出树Ta和Tb的差别,考虑满足规定条件的从树Ta到Tb的映射集合M。一般而言,不同的两个树之间的映射会产生节点的置换、脱落、***。例如,图11中,左边树的节点“花子/SUBJ”脱落。左边树的节点“妻子/ADJUNCT”被置换为右边树的节点“妻子/SUBJ”。对该置换、脱落、***设定权重,就可以使用权重评价两个树的差别,本实施方式中,将该差别的评价称为“两个树之间的距离”。例如,可以在满足规定条件“是1对1关系、保存父子关系(上下关系)、保存结构”的映射集合MR中,求出权重的总和最小的映射MRmin,将映射MRmin的权重的总和作为R树间的距离。此外,也可以在满足另一规定条件“是1对1关系、保存父子关系(上下关系)、保存兄弟间的左右关系、保存结构”的映射集合MRO中,求出权重的总和最小的映射MROmin,将映射MROmin的权重的总和作为RO树间的距离。另外,规定条件也可以是其它条件。例如,规定条件也可以是“两个树是R树(有根无序树),是1对1关系、保存父子关系”。规定条件也可以是“两个树是RO树(有根有序树),是1对1关系、保存父子关系、保存兄弟间的关系”。
单词映射权重计算部5响应节点映射权重计算部7的请求,求出单词置换权重、单词脱落权重、单词***权重,并将它们提供给节点映射权重计算部7。
作为单词置换权重,可以将其设定为常数,或使用单词间的距离来设定。对前一种形式,当两个单词是同一单词时,把单词置换权重设定为0,否则,把单词置换权重设定为正常数。对后一种形式,通过单词映射权重计算部5来求出两个单词间的距离,将该距离值作为单词置换权重。
此处,作为单词间距离的计算方法,可以使用已公开的任何方法,例如统计学方法、使用词义关系词典的方法、使用神经网络的方法。作为统计学方法,例如,可利用非专利文献2中所述的通过TF·IDF方法来求出(参照非专利文献2)。作为使用词义关系词典的方法,例如,可将两个单词所属的概念间的最短路径的长度作为单词间的距离。作为使用神经网络的方法,例如,可利用非专利文献3中所述的方法(参照非专利文献3)。此外,也可以使用其它已公开的方法。
作为单词脱落权重,可以利用将其设定为常数的形式,或根据单词的词类信息来设定单词脱落权重的形式。对后一种形式,先对单词的词类赋予词类权重,然后将单词脱落权重设定为词类权重与常数之积。作为词类权重的设定,例如,最好是采用对具有重要作用的词类赋予一个较大的词类权重的方法,作为一例,可以把动词的权重设为最高,然后按照形容动词、名词、副词、形容词等的顺序,逐渐降低词类度来进行设定。此外,也可以按其它顺序来设定词类的权重。
作为单词***权重,可以利用将其设定为常数的形式,或根据单词的词类信息来设定单词***权重的形式。对后一种形式,先对单词的词类赋予权重,然后将单词***权重设定为词类权重与常数之积。作为词类权重的设定,可采用与对上述单词脱落权重所叙述过的词类权重的设定方法同样的方法来进行设定。此外,也可用不同的方法来进行设定。
格映射权重计算部6响应节点映射计算部7的请求,求出格置换权重、格脱落权重、以及格***权重,并将它们提供给节点映射权重计算部7。
作为格置换权重,可以利用将其设定为常数的形式,或利用格间距离来设定的形式。对前一种形式,当两个格是同一格时,把格置换权重设定为0,否则,把格置换权重设定为正常数。对后一种形式,通过格映射权重计算部6来求出两个格间的距离,将该距离作为格信息置换权重。
此处,说明计算格间距离方法的一个示例。
首先,将所有的格按其内容分类为若干个分类。此外,各分类的元素数是1以上(>=1)。
此外,准备好如图6所示的格分类间的距离表。在该图所示的表中,对作为多个m个格分类的所有组合,设定格分类间的距离(距离值11~距离值mm)。
其次,根据给定的两个格信息,分别求出所指定的两个格所属的格分类,利用如上图6中所示的格分类间的距离表,求出所求出的两个格分类间的距离值,并将所求出的距离值作为两个格间的距离。
此外,也可以使用其它方法作为求出格间距离的方法。
作为格脱落权重,可以利用将其设定为常数的形式,或根据格的种类来设定格脱落权重的形式。对后一种形式,先对格赋予一个权重,然后将格脱落权重设定为格权重与常数之积。作为格权重的设定,例如,可以把SUBJ的权重设为最重,并按照OBJ,OBL,ADJUNCT等顺序,逐渐降低权重。此外,也可以按其它顺序来设定格权重。
作为格***权重,可以利用将其设定为常数的形式,或按格的种类来设定格***权重的形式。对后一种形式,先对格赋予一个权重,然后将格***权重设定为格权重与常数之积。作为格权重的设定,可采用与上述关于格脱落权重所叙述过的格权重的设定方法同样的方法来进行设定。此外,也可用不同的方法来进行设定。
节点映射权重计算部7响应距离计算部8的请求,求出节点间的置换权重、脱落权重、***权重,并将它们提供给距离计算部8。
具体来说,节点映射权重计算部7分别用函数S(x,y)、R(x)、I(y)来计算节点间的置换权重、脱落权重、***权重。
作为函数S(x,y),可使用S(x,y)=xyw+xyc、或S(x,y)=xyw×xyc,此外,也可以使用其它函数。此处,xyw表示存储在节点x上的单词与存储在节点y上的单词之间的置换权重,xyc表示存储在节点x上的格与存储在节点y上的格之间的置换权重。此外,当节点上只存储单词信息时,使用函数S(x,y)=xyw
作为函数R(x),可使用R(x)=xw+xc、R(x)=xw×xc,此外,也可以使用其它函数。此处,xw表示存储在节点x上的单词脱落权重,xc表示存储在节点x上的格脱落权重。此外,当节点上只存储单词信息时,使用函数R(x)=xw
作为函数I(y),可使用I(y)=yw+yc、I(y)=yw×yc,此外,也可以使用其它函数。此处,yw表示存储在节点y上的单词的***权重,yc表示存储在节点y上的格***权重。此外,当节点上只存储单词信息时,使用函数I(y)=yw
节点映射权重计算部7在需要权重xw、yw、xyw时,将计算请求与单词信息一起输出到单词映射权重计算部5。单词映射权重计算部5一旦被输入请求,则基于单词信息(单词和词类信息)求出权重xw、yw、xyw,将其输出到节点映射权重计算部7。同样,节点映射权重计算部7在需要权重xc、yc、xyc时,将计算请求与格信息一起输出到格映射权重计算部6。格映射权重计算部6一旦被输入请求,则基于格信息求出权重xc、yc、xyc,将其输出到节点映射权重计算部7。
距离计算部8求出存储在存储器17和存储器18中的RO树间或R树间的距离,并将其结果存储在存储器19中。如果在树间距离的计算中需要节点间的置换权重、节点间的脱落权重、节点间的***权重,则距离计算部8将应比较的两个文本语句的单词信息和格信息与计算请求一起输出到节点映射权重计算部7。节点映射权重计算部7一旦被输入请求,则基于单词信息和格信息求出权重,将其输出到距离计算部8。
此处,对RO树,例如,可用非专利文献4中所述的方法求出只基于节点间对应关系的RO树的距离(参照非专利文献4)。
接着,说明根据非专利文献4中所述的方法来求出RO树间的距离的方法。
首先,为记述RO树间的距离,定义相关的符号。
用Ta(x)来表示以RO树Ta的节点x作为根的子树。
用Va(x)表示子树Ta(x)的节点的集合。
设节点x的孩子为x1、x2、…、xm,用Ch(x)表示节点x的孩子的集合。
此外,本说明书中将由子树Ta(x1)、Ta(x2)、…、Ta(xm)构成的部分称为森林,并用Fa(x)来表示它。
图7表示例如作为RO树的两个子树Ta(x)、Tb(y)。
首先,从RO树的根开始按深度优先顺序,对各节点赋予编号。按照从较大编号为根的RO树的子树开始到较小编号为根的RO树的子树的顺序,求出子树间的距离,最后,求出整个RO树间的距离。
利用式1,可求出该图所示的两个RO树Ta(x)、Tb(y)之间的距离D(Ta(x),Th(y))。此处假设有序森林之间的距离D(Fa(x),Fb(y))、所有的子树间的距离D(Ta(xi),Tb(y))、D(Ta(x),Tb(yj))都已经求出。此外,式1中的符号“A-B”表示从集合A中除去集合B中所有元素的函数。
                               ……(式1)
图8表示两个有序森林Fa(x)、Fb(y)。
利用式2,可求出该图所示的两个森林Fa(x)、Fb(y)之间的距离D(Fa(x),Fb(y))。此处,符号|A|表示集合A的元素个数。
(2-1)边界条件(1≤i≤|ch(x)|,1≤j≤|ch(y)|)
d(0,0)=0;
d(i,0)=d(i-1,0)+∑R(k)|k∈Va(xi);
d(0,j)=d(0,j-1)+∑I(k)|k∈Vb(yj);
(2-2)d(i,j)的计算(1≤i≤|ch(x)|,1≤j≤|ch(y)|)
Figure A0315709300231
(2-3)
D(Fa(x),Fb(y))=d(|Ch(x)|,| Ch(y)|)
                                   ……(式2)
并且,对于上述式1,当节点x是叶节点(Ch(x)=NULL:空集合)时,显然,由于没有必要计算上述式1右侧的第2项,可以利用式3来求出距离D(Ta(x),Tb(y))。
此外,对于上述式1,当节点y是叶节点(Ch(y)=NULL:空集合)时,显然,由于没有必要计算上述式1右侧的第3项,可以利用式4来求出距离D(Ta(x),Tb(y))。
                                    ……(式3)
                                    ……(式4)
此外,对于R树,例如,可利用非专利文献5中所述的方法来求出基于节点间对应关系的R树间的距离(参照非专利文献5)。
其次,对根据非专利文献5中所述的方法来求出R树间距离的方法进行说明。
并且,作为记述R树间的距离的相关符号,仍按照用于表示上述RO树间的距离时所使用的相关符号的定义。其中,此处用Ta(x)表示R树,用Fa(x)表示无序的森林。
首先,从R树的根开始按深度优先顺序,对各节点赋予编号。按照从较大编号为根的R树的子树开始到较小编号为根的R树的子树的顺序,求出子树间的距离,最后,求出整个R树间的距离。
利用式5,可求出如上述图7所示的例如作为R树的两个子树Ta(x)、Tb(y)之间的距离D(Ta(x),Tb(y))。此处假设,无序森林间的距离D(Fa(x),Fb(y))、以及所有的子树间的距离D(Ta(xi),Tb(y))、D(Ta(x),Tb(yj))都已求出。
                                     ……(式5)
利用式6,可求出如上述图8所示的例如两个无序森林Fa(x)、Fb(y)之间的距离D(Fa(x),Fb(y))。
D ( F a ( x ) , F b ( y ) ) = Σ x i ∈ Ch ( x ) ( ΣR ( k ) | k ∈ V a ( x i ) )
+ Σ y j ∈ Ch ( y ) ( ΣI ( k ) | k ∈ V b ( y i ) ) - W ( M max )
                                     ……(式6)
此处,上述式6中的W(Mmax)表示图9所示的二分图G(A,B,E)的最大匹配权重。二分图G(A,B,E)的节点ai(∈A)表示构成无序森林Fa(x)的子树Ta(xi)(xi∈Ch(x)),二分图G(A,B,E)的节点bj(∈B)表示构成无序森林Fb(y)的子树Tb(yj)(yj∈Ch(y))。
此外,二分图G(A,B,E)的节点ai(∈A)和节点bj(∈B)之间的边e(ai,bj)的权重w(e(ai,bj))按式7设定。二分图G(A,B,E)的最大匹配权重相当于最大匹配处的匹配边e(ai,bj)的权重w(e(ai,bj))的和的最大值。
W(e(ai,bj))=∑R(k)|k∈Va(xi)+∑I(k)|k∈Vb(yj))-D(Ta(xi),Tb(yj))
                                 ……(式7)
按照如上所述的方法,可求出RO树间或R树间的距离。D=(Ta,Tb)=D(Ta(x=1),Tb(y=1))
其次,语句内容比较部9利用式8或式9来求出文本语句间的距离。
此处,D(S1,S2)表示语句S1和S2间的距离,树T1表示语句S1的树结构(RO树或R树),树T2表示语句S2的树结构(RO树或R树),D(T1,T2)表示树T1和树T2间的距离。
D(S1,S2)=D(T1,T2)
                                ……(式8)
D ( S 1 , S 2 ) = D ( T 1 , T 2 ) | T 1 | + | T 2 |
                                ……(式9)
RO树间的距离的计算流程
接着,利用图12所示的流程图,说明将文本语句S1、S2转换为RO树,求出文本语句S1、S2间的距离的过程。
利用词素分析部(分词标注部)2、句法语义分析部3、树结构转换部4,将输入的两个文本语句S1、S2转换为RO树Ta和Tb(S01)。树Ta、Tb的节点中如图5(a)所示至少分配有单词信息。也可以如图4所示,将单词信息和格信息分配给节点。对包含RO树Ta和Tb的所有的子树的根分配1到n的编号(n是正整数)。编号的分配是:从RO树的根开始按深度优先顺序给节点赋予编号(S02)。
接着,设x=n1,y=n2(n1、n2是树Ta、Tb的节点数)(S03、S04)。利用式2,距离计算部8计算森林Fa(x)和Fa(y)的距离D(Fa(x),Fa(y))(S05)。此外,在计算树间、子树间、森林间的距离时,距离计算部8根据需要,从节点映射权重计算部7取得节点置换权重S(x,y)、节点脱落权重R(x)、节点***权重I(y),进行距离计算。
接着,距离计算部8计算子树Ta(x)和子树Tb(y)的距离D(Ta(x),Tb(y))。在子树Ta(x)不是由一个节点构成(S06为否)并且子树Tb(y)也不是由一个节点构成(S07为否)时,利用式1计算距离D(Ta(x),Tb(y))(S10)。在子树Ta(x)是由一个节点构成(S06为是)的情况下,利用式3计算距离D(Ta(x),Tb(y))(S08)。在子树Tb(y)是由一个节点构成(S07为是)的情况下,利用式4计算距离D(Ta(x),Tb(y))(S09)。
接着,距离计算部8判断y=1是否成立,即节点y是否是树Tb的根(S11)。y≠1时(S11为否),将y减1(S12),处理返回到S05(即将计算对象变更为更大的子树)。y=1时(S11为是),距离计算部8判断x=1是否成立,即节点x是否是树Ta的根(S13)。x≠1时(S13为否),将x减1(S14),处理返回到S04(即将计算对象变更为更大的子树)。x=1时(S13为是)意味着已经计算出包含树Ta和Tb的所有的子树间的距离。也就是说,已经求出了树Ta和Tb间的距离D(Ta(1),Tb(1))。因此,距离计算部8通过存储器19将距离D(Ta(1),Tb(1))输出到语句内容比较部9。语句内容比较部9基于所输入的距离D(Ta(1),Tb(1))和式7或式8,求出文本语句S1、S2的距离。
R树间的距离的计算流程
利用图13所示的流程图,说明将文本语句S1、S2转换为R树,求出文本语句S1、S2间的距离的过程。
利用词素分析部(分词标注部)2、句法语义分析部3、树结构转换部4,将输入的两个文本语句S1、S2转换为R树Ta和Tb(S21)。树Ta、Tb的节点中如图5(a)所示至少分配有单词信息。也可以如图4所示,将单词信息和格信息分配给节点。对包含R树Ta和Tb的所有的子树的根分配1到n的编号(n是正整数)。编号的分配是:从R树的根开始按深度优先顺序给节点赋予编号(S22)。
接着,设x=n1,y=n2(n1、n2是树Ta、Tb的节点数)(S23、S24)。利用式6,距离计算部8计算森林Fa(x)和Fa(y)的距离D(Fa(x),Fa(y))(S25)。此外,在计算树间、子树间、森林间的距离时,距离计算部8根据需要,从节点映射权重计算部7取得节点置换权重S(x,y)、节点脱落权重R(x)、节点***权重I(y),进行距离计算。
接着,距离计算部8利用式5计算子树Ta(x)和子树Tb(y)的距离D(Ta(x),Tb(y))(S26)。然后,距离计算部8判断y=1是否成立,即节点y是否是树Tb的根(S27)。y≠1时(S27为否),将y减1(S28),处理返回到S25(即将计算对象变更为更大的子树)。y=1时(S27为是),距离计算部8判断x=1是否成立,即节点x是否是树Ta的根(S29)。x≠1时(S29为否),将x减1(S30),处理返回到S24(即将计算对象变更为更大的子树)。x=1时(S29为是)意味着已经计算出包含树Ta和Tb的所有的子树间的距离。也就是说,已经求出了树Ta和Tb间的距离D(Ta(1),Tb(1))。因此,距离计算部8通过存储器19将距离D(Ta(1),Tb(1))输出到语句内容比较部9。语句内容比较部9基于所输入的距离D(Ta(1),Tb(1))和式7或式8,求出文本语句S1、S2的距离。
[实施例]
接着,利用具体的例子,对本发明的一个实施例的文本语句的语义内容比较装置及比较方法的动作进行说明。
下面,示出利用本发明的一个实施例的文本语句的语义内容的比较装置,求出语句A“妻の花子は風邪を引きまレた”(“妻子花子得了感冒”)和语句B“妻は風邪を引きまレた”(“妻子得了感冒”)之间的类似度(或差别度)的过程及结果。在本例中,将单词和格的脱落权重和***权重设定为70,单词间的置换权重设定为100,格间的置换权重设定为100。
首先,对语句A和B进行词素分析(分词标注处理)之后,对依存关系(句法)和语义进行分析,据此,将这两个语句A、B分别转换为如图10(a)、图10(b)、图10(c)、图10(d)所示的例如有根有序树TA、TB
其次,基于上述的过程,计算两个RO树间的距离,最后,利用上式8或上式9,求出两个文本语句A、文本语句B间的距离。
当利用上式8时,文本语句A、B间的距离为D(A,B)=240,当利用上式9时,文本语句A、B间的距离为D(A,B)=34(确切地说,240/7),此处,两个RO树TA、TB间的距离D为(TA,TB)=240,两个RO树TA、TB的节点总数为7。
在图11中,表示给出距离D(TA、TB)的RO树间的一个映射,如该图所示,两个RO树TA、TB间的距离是为了脱落单词和格“花子/SUBJ”所需的脱落权重70+70=140,以及置换格“ADJUNCT”和格“SUBJ”所需的置换权重100两者之和。
如上所述,本发明的文本语句比较装置及比较方法,通过对文本语句进行词素分析(分词标注处理),进行依存关系(句法)分析或语义分析,然后将分析后的文本语句的整体语法结构和语义内容用图论中的RO树或R树来表示,亦即,将文本语句整体的句法结构和语义内容转换为RO树或R树,将出现于文本语句中的单词信息(包括单词的属性)以及相关单词间的修饰限制关系(格)信息存储到RO树或R树的节点,或者只把出现于文本语句中的单词信息(包括单词的属性)存储到RO树或R树的节点上,将基于节点对应关系的RO树间或R树间的距离,应用于测量文本语句间的语义内容的差别比较,利用RO树间或R树间的距离,比较文本语句间的语义内容的差别,就可以高精度并且实时地求出所输入的两个文本语句间的语义内容的差别。
具体来说,由于本发明根据文本语句间的单词信息的差别、或单词信息的差别和格信息的差别、以及语句整体的句法结构上的差别,来定义文本语句间的距离,因此本发明的距离函数具有如下3个优良的性质。(1)求出的语义相似且结构相似的两个语句间的距离非常小。(2)求出的语义不同且结构不相似的两个语句间的距离非常大。(3)根据单词信息的差别或者根据单词信息的差别和格信息的差别,来求出虽然语义不同但结构相似的两个语句间的距离。据此,可以高精度地求出两个文本语句间的距离。
此外,可以用与树的节点数n的2次方同级(O(n2))的计算量来计算本例的RO树,可以用与树的节点数n的2次方和最大孩子数m同级(O(mn2))的计算量来计算R树。因此可以进行实时计算。
此外,本发明并不限于用来比较日文、汉语语句间的类似度,本发明也可应用于任何国家的语言内容比较,例如,英语,法语,德国等语言的内容比较。
此处,作为本发明的结构,并不一定限于上述说明的结构,也可以采用多种结构。并且,本发明例如也可以作为可实现本发明的方法的程序等来提供。
此外,作为本发明的应用领域,并不限于上述领域,本发明可应用于多种领域。
此外,作为本发明中所进行的各种处理,例如也可以采用在具有处理器、存储器等的硬件资源中,通过由处理器执行存储在ROM(只读存储器)中的控制程序来进行控制的结构,此外,例如也可以把执行该处理的各功能装置作为独立的硬件电路来构成。
此外,本发明也可以作为存储有上述控制程序的软盘或CD-ROM等可由计算机读取的存储介质或该程序(本身)来提供,通过将该控制程序从存储介质输入到计算机中并由处理器执行,就可以实现本发明的处理。
如上所述,根据本发明的文本语句比较装置和文本语句比较方法,通过将文本语句的整体句法和语义内容用图论中的RO树或R树来表示,利用基于节点的对应关系的RO树间的距离或者利用基于节点的对应关系的R树间的距离,来比较文本语句间的语义内容的差别,就可以高精度并且实时地求出所输入的两个文本语句间的语义内容的差别。根据本发明,例如,不仅可以进行文档语义内容的比较、基于语义内容对文档进行分类,还可以理解用户的信息检索意图。亦即,把由自然语言所表达的用户要求与事前通过学习来构筑的数据库中的内容相比较,就可以推定用户的信息检索的意图。

Claims (28)

1.一种文本语句比较方法,
将第一文本语句和第二文本语句分别转换为第一R树和第二R树;
根据两个R树的节点映射条件,至少基于所定义的两个R树间的距离,计算第一R树和第二R树的距离;
基于上述计算的第一R树和第二R树的距离,计算第一文本语句和第二文本语句的距离。
2.如权利要求1所述的文本语句比较方法,其特征在于:
在第一R树和第二R树的距离的计算中,
计算具有第一R树的森林和具有第二R树的森林的距离、具有第一R树的子树和具有第二R树的子树的距离、从第一R树到第二R树的映射的节点映射权重。
3.如权利要求2所述的文本语句比较方法,其特征在于:
在所述转换中,
将第一文本语句中包含的单词分配到第一R树的节点,
将第二文本语句中包含的单词分配到第二R树的节点,
基于单词置换权重、单词脱落权重以及单词***权重,计算节点映射权重。
4.如权利要求2所述的文本语句比较方法,其特征在于:
在所述转换中,
将第一文本语句的单词信息和格信息分配到第一R树的节点,
将第二文本语句的单词信息和格信息分配到第二R树的节点,
基于单词置换权重、单词脱落权重、单词***权重、格置换权重、格脱落权重、格***权重,计算节点映射权重。
5.如权利要求1所述的文本语句比较方法,其特征在于:
还设定所述两个R树的节点映射条件。
6.如权利要求1所述的文本语句比较方法,其特征在于:
所述两个R树的节点映射条件包括:
是1对1映射、
保存父子关系、
保存结构。
7.如权利要求1所述的文本语句比较方法,其特征在于:
还输入第一文本语句和第二文本语句;
输出所计算的第一文本语句和第二文本语句的距离。
8.一种文本语句比较方法,
将第一文本语句和第二文本语句分别转换为第一RO树和第二RO树;
根据两个RO树的节点映射条件,至少基于所定义的两个RO树间的距离,计算第一RO树和第二RO树的距离;
基于所述计算的第一RO树和第二RO树的距离,计算第一文本语句和第二文本语句的距离。
9.权利要求8所述的文本语句比较方法,其特征在于:
在第一RO树和第二RO树的距离的计算中,
计算具有第一RO树的森林和具有第二RO树的森林的距离、具有第一RO树的子树和具有第二RO树的子树的距离、从第一RO树到第二RO树的映射的节点映射权重。
10.如权利要求9所述的文本语句比较方法,其特征在于:
在所述转换中,
将第一文本语句中包含的单词分配到第一RO树的节点,
将第二文本语句中包含的单词分配到第二RO树的节点,
基于单词置换权重、单词脱落权重以及单词***权重,计算节点映射权重。
11.如权利要求9所述的文本语句比较方法,其特征在于:
第一RO树的节点具有第一文本语句的单词信息和格信息,
第二RO树的节点具有第二文本语句的单词信息和格信息,
基于单词置换权重、单词脱落权重、单词***权重、格置换权重、格脱落权重、格***权重,计算节点映射权重。
12.如权利要求8所述的文本语句比较方法,其特征在于:
还设定所述两个RO树的节点映射条件。
13.如权利要求8所述的文本语句比较方法,其特征在于:
所述两个RO树的节点映射条件包括:
是1对1映射、
保存父子关系、
保存兄弟关系、
保存结构。
14.如权利要求8所述的文本语句比较方法,其特征在于:
还输入第一文本语句和第二文本语句;
输出所计算的第一文本语句和第二文本语句的距离。
15.一种文本语句比较装置,具有:
输入部,其将第一文本语句和第二文本语句输入;
树结构转换部,其将第一文本语句和第二文本语句分别转换为第一R树和第二R树;
距离计算部,其根据两个R树的节点映射条件,至少基于所定义的两个R树间的距离,计算第一R树和第二R树的距离;
语义内容比较部,其基于所计算的第一R树和第二R树的距离,计算第一文本语句和第二文本语句的距离。
16.如权利要求15所述的文本语句比较装置,其特征在于:
还具有映射权重计算部,该映射权重计算部计算从第一R树到第二R树的映射的节点映射权重,
距离计算部计算
具有第一R树的森林和具有第二R树的森林的距离、
具有第一R树的子树和具有第二R树的子树的距离。
17.如权利要求16所述的文本语句比较装置,其特征在于:
树结构转换部
将第一文本语句中包含的单词分配到第一R树的节点,
将第二文本语句中包含的单词分配到第二R树的节点,
映射权重计算部基于单词置换权重、单词脱落权重以及单词***权重,计算节点映射权重。
18.如权利要求16所述的文本语句比较装置,其特征在于:
树结构转换部
将第一文本语句的单词信息和格信息分配到第一R树的节点,
将第二文本语句的单词信息和格信息分配到第二R树的节点,
映射权重计算部基于单词置换权重、单词脱落权重、单词***权重、格置换权重、格脱落权重、格***权重,计算节点映射权重。
19.如权利要求15所述的文本语句比较装置,其特征在于:
还具有设定输入部,该设定输入部使得用户可以设定所述两个R树的节点映射条件。
20.如权利要求15所述的文本语句比较装置,其特征在于:
所述两个R树的节点映射条件包括:
是1对1映射、
保存父子关系、
保存结构。
21.如权利要求15所述的文本语句比较装置,其特征在于:
还具有输出部,该输出部用于输出所计算的第一文本语句和第二文本语句的距离。
22.一种文本语句比较装置,具有:
输入部,其将第一文本语句和第二文本语句输入;
树结构转换部,其将第一文本语句和第二文本语句分别转换为第一RO树和第二RO树;
距离计算部,其根据两个RO树的节点映射条件,至少基于所定义的两个RO树间的距离,计算第一RO树和第二RO树的距离;
语义内容比较部,其基于所计算的第一RO树和第二RO树的距离,计算第一文本语句和第二文本语句的距离。
23.如权利要求22所述的文本语句比较装置,其特征在于:
还具有映射权重计算部,该映射权重计算部计算从第一RO树到第二RO树的映射的节点映射权重,
距离计算部计算
具有第一RO树的森林和具有第二RO树的森林的距离、
具有第一RO树的子树和具有第二RO树的子树的距离。
24.如权利要求23所述的文本语句比较装置,其特征在于:
树结构转换部
将第一文本语句中包含的单词分配到第一RO树的节点,
将第二文本语句中包含的单词分配到第二RO树的节点,
映射权重计算部基于单词置换权重、单词脱落权重以及单词***权重,计算节点映射权重。
25.如权利要求23所述的文本语句比较装置,其特征在于:
树结构转换部
将第一文本语句的单词信息和格信息分配到第一RO树的节点,
将第二文本语句的单词信息和格信息分配到第二RO树的节点,
映射权重计算部基于单词置换权重、单词脱落权重、单词***权重、格置换权重、格脱落权重、格***权重,计算节点映射权重。
26.如权利要求22所述的文本语句比较装置,其特征在于:
还具有设定输入部,该设定输入部使得用户可以设定所述两个RO树的节点映射条件。
27.如权利要求22所述的文本语句比较装置,其特征在于:
所述两个RO树的节点映射条件包括:
是1对1映射、
保存父子关系、
保存兄弟关系、
保存结构。
28.如权利要求22所述的文本语句比较装置,其特征在于:
还具有输出部,该输出部用于输出所计算的第一文本语句和第二文本语句的距离。
CNB031570933A 2002-09-13 2003-09-12 文本语句比较装置 Expired - Fee Related CN100470533C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002268728A JP2004110161A (ja) 2002-09-13 2002-09-13 テキスト文比較装置
JP268728/2002 2002-09-13

Publications (2)

Publication Number Publication Date
CN1487444A true CN1487444A (zh) 2004-04-07
CN100470533C CN100470533C (zh) 2009-03-18

Family

ID=32266874

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031570933A Expired - Fee Related CN100470533C (zh) 2002-09-13 2003-09-12 文本语句比较装置

Country Status (3)

Country Link
US (1) US7630879B2 (zh)
JP (1) JP2004110161A (zh)
CN (1) CN100470533C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442603A (zh) * 2019-07-03 2019-11-12 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质
CN112352251A (zh) * 2018-06-25 2021-02-09 株式会社工程师论坛 不足能力提取装置

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987246B2 (en) 2002-05-23 2011-07-26 Jpmorgan Chase Bank Method and system for client browser update
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7516139B2 (en) * 2003-09-19 2009-04-07 Jp Morgan Chase Bank Processing of tree data structures
EP1681645A1 (en) * 2005-01-14 2006-07-19 FatLens, Inc. Method and system to compare data objects
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP5500070B2 (ja) * 2008-07-30 2014-05-21 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US9361367B2 (en) * 2008-07-30 2016-06-07 Nec Corporation Data classifier system, data classifier method and data classifier program
JP5250463B2 (ja) * 2009-03-23 2013-07-31 エヌ・ティ・ティ・コムウェア株式会社 意味的対応付け装置及びその処理方法とプログラム
JP5441760B2 (ja) * 2010-02-25 2014-03-12 三菱電機株式会社 文書間距離算出器および文章検索器
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US8694304B2 (en) 2010-03-26 2014-04-08 Virtuoz Sa Semantic clustering and user interfaces
US8375061B2 (en) 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US8380719B2 (en) * 2010-06-18 2013-02-19 Microsoft Corporation Semantic content searching
US9524291B2 (en) * 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
US9038177B1 (en) 2010-11-30 2015-05-19 Jpmorgan Chase Bank, N.A. Method and system for implementing multi-level data fusion
JP2014123198A (ja) * 2012-12-20 2014-07-03 International Business Maschines Corporation リクエストおよびレスポンスのペアを監視するためのルールを抽出するためのコンピュータ実装方法、プログラム、および、システム
US20140188456A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Dictionary Markup System and Method
US9772995B2 (en) * 2012-12-27 2017-09-26 Abbyy Development Llc Finding an appropriate meaning of an entry in a text
US20140236578A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Question-Answering by Recursive Parse Tree Descent
JP2014194668A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd 翻訳支援装置、翻訳支援システムおよび翻訳支援プログラム
CN104462083B (zh) * 2013-09-13 2018-11-02 佳能株式会社 用于内容比较的方法、装置和信息处理***
CN105989027A (zh) * 2015-01-30 2016-10-05 华为技术有限公司 匹配语句的方法和设备
US10242002B2 (en) 2016-08-01 2019-03-26 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10229184B2 (en) * 2016-08-01 2019-03-12 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10558737B2 (en) * 2017-07-19 2020-02-11 Github, Inc. Generating a semantic diff
JP7088490B2 (ja) * 2018-05-21 2022-06-21 日本電信電話株式会社 文比較装置、方法、及びプログラム
CN110889118B (zh) * 2018-09-07 2024-06-18 广州视源电子科技股份有限公司 异常sql语句检测方法、装置、计算机设备和存储介质
CN110069624B (zh) * 2019-04-28 2021-05-04 北京小米智能科技有限公司 文本处理方法及装置
JP2021015371A (ja) * 2019-07-10 2021-02-12 富士通株式会社 情報処理プログラム、情報処理方法、情報処理装置
CN110705248A (zh) * 2019-10-09 2020-01-17 厦门今立方科技有限公司 一种文本相似度计算方法、终端设备及存储介质
CN114841559A (zh) * 2022-04-29 2022-08-02 上海跬智信息技术有限公司 基于指标距离的指标去重方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
EP0998714A1 (en) 1997-07-22 2000-05-10 Microsoft Corporation System for processing textual inputs using natural language processing techniques
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6112168A (en) * 1997-10-20 2000-08-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP2000148793A (ja) 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112352251A (zh) * 2018-06-25 2021-02-09 株式会社工程师论坛 不足能力提取装置
CN110442603A (zh) * 2019-07-03 2019-11-12 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质
WO2021000831A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质
CN110442603B (zh) * 2019-07-03 2024-01-19 平安科技(深圳)有限公司 地址匹配方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US20040162806A1 (en) 2004-08-19
CN100470533C (zh) 2009-03-18
JP2004110161A (ja) 2004-04-08
US7630879B2 (en) 2009-12-08

Similar Documents

Publication Publication Date Title
CN1487444A (zh) 文本语句比较装置
CN1495639A (zh) 文本语句比较装置
CN1942877A (zh) 信息提取***
CN100347741C (zh) 移动语音合成方法
CN1871597A (zh) 利用一套消歧技术处理文本的***和方法
CN1465018A (zh) 机器翻译技术
CN1319836A (zh) 转换表达方式的方法和装置
CN1536483A (zh) 网络信息抽取及处理的方法及***
KR20190015797A (ko) 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법
CN1669029A (zh) 自文件集合中自动搜寻概念层次结构的方法及***
CN101042868A (zh) 群集***、方法、程序和使用群集***的属性估计***
CN101034414A (zh) 信息处理设备和方法以及程序
CN1542649A (zh) 自然语言生成***中用于句子实现中排序的成分结构的语言信息统计模型
JP5239307B2 (ja) 翻訳装置及び翻訳プログラム
CN1777888A (zh) 基于移动结构概念的句子结构分析及使用其的自然语言搜索
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法***
CN1368693A (zh) 用于全球化软件的方法和设备
WO2011004529A1 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法***
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
CN1855103A (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
CN1741012A (zh) 文本检索装置及方法
CN1455357A (zh) 一种实现多路对话的人-机汉语口语对话***的方法
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
CN1647069A (zh) 对话控制***和对话控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090318

Termination date: 20170912