CN1677402A - 用于确定复合词的构成词的设备和计算机化方法 - Google Patents

用于确定复合词的构成词的设备和计算机化方法 Download PDF

Info

Publication number
CN1677402A
CN1677402A CNA2005100629781A CN200510062978A CN1677402A CN 1677402 A CN1677402 A CN 1677402A CN A2005100629781 A CNA2005100629781 A CN A2005100629781A CN 200510062978 A CN200510062978 A CN 200510062978A CN 1677402 A CN1677402 A CN 1677402A
Authority
CN
China
Prior art keywords
speech
compound word
file
formation
computerized method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005100629781A
Other languages
English (en)
Inventor
S·J·德里伊斯森
P·M·伊金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Production Printing Netherlands BV
Original Assignee
Oce Technologies BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Technologies BV filed Critical Oce Technologies BV
Publication of CN1677402A publication Critical patent/CN1677402A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于确定复合词的构成词的设备、计算机程序和计算机化方法。构成词构成复合词。当所述构成词符合拆分判定准则时,可以以分离形式使用所述构成词。在搜索中使用所述构成词的分离形式以便从所述文件收集中检索相关的文件。

Description

用于确定复合词的构成词的设备和计算机化方法
技术领域
本发明涉及一种用于确定复合词的构成词的设备,所述设备包括:文件收集,用于从所述文件收集确定包含所述复合词的文件的数目的装置,和用于从所述文件收集确定包含所述构成词的文件的数目的装置,所述构成词构成所述复合词。本发明还涉及一种结合这种设备和计算机化方法的信息检索***,用于确定复合词的构成词。
背景技术
在许多语言中词的复合是共同的,所述语言诸如德语、荷兰语、丹麦语、希腊语、挪威语、瑞典语、冰岛语和芬兰语。因为复合词可以自由地连接,所以这极大地增加了词汇量。这些语言很可能包括非常长的词,所述词在任何语言词典里都没有。这种词的典型的例子是德语复合词“Abschreibungsmlichkeiten”。该复合词是通过借助于链接语素“s”把两个词“Abschreibung”和“mglichkeiten”连接起来构造的。在随后的发明的说明中,把复合词分解为其构成词和链接语素(如果有)被认为是复合词的分段,或把复合词的构成词拆分为分离形式的词,并且由用符号“+”,分离的字符串来表示;例如,把复合词“Abschreibungsmlichkeiten”的分段表示为“Abschreibung+s+mglichkeiten”。可以使用诸如“-”或“es”之类的其它链接语素。
词的复合是在这些语言中创建新词的有效方式。这给许多应用带来了难题,所述应用诸如机器翻译、语音识别、文本分类、信息提取和信息检索(CLEF 2001:http://www.ercim.org/publication-/ws-proceedings/CLEF2/)。找到构成复合词的构成词被认为是一个难题。现有技术中已知基本上存在三种解决办法。
第一种解决办法是保存存在于语言中‘所有’复合词的列表和应该拆分所述复合词的方式。缺点是不可能保存语言中所有复合词的列表,这是因为在复合词语言中几乎存在无限量的复合词。为此原因,这种解决方案的精度很低并且该方法冗长乏味的。所述方法应用于一种语言。
第二种解决办法是简单的;根据规则,有时组合说明何时拆分的统计量,查找构成所述复合词的构成词。这里的问题是:该方法常常把复合词拆分为并不存在的词,或者拆分成与所述复合词的意思不相关的词组合。这对于通常情况的复合词有效,但是并不可靠。所述方法应用于一种语言。
第三种也是最后一种解决办法使用数字词典。根据词典以及一些规则来进行构成所述复合词的构成词的查找。在US20030097252A1的用于找到复合词的构成词的方法中公开了该最后解决办法的例子。找到所述构成词是基于一组复合词概率断点的。根据对得自于适当词典的n图的分析,把断点权重分配给在所述复合词中的断点。该方法将找到在复合词内的词。其主要缺点是可能会出现错误的词拆分。
发明内容
为了克服现有技术的缺点,本发明的目的是确定复合词的构成词。这是通过依照开篇段中的方法实现的,其中所述方法还包括用于确定在包含所述复合词的文件的数目和包含构成所述复合词的构成词的文件的数目之间的比率的装置,和用于当所述比率小于阈值时把所述复合词拆分为所述构成词的装置。
该方法是基于以下观察的,当在包含复合词的文件的数目和包含构成所述复合词的构成词的文件的数目之间的比率小于阈值时,正确地把所述复合词拆分为中意的构成词。
在又一个实施例中,依照本发明的设备包括用于检测所述复合词中的链接语素的装置。在所述复合词中检测链接语素对找到所述构成词来说是必要的。
在又一个实施例中,依照本发明的设备包括:从所述文件收集导出的词列表、和用于通过使用所述词列表来找到构成所述复合词的构成词的装置。当词列表被推理地准备为包含所述文件收集的所有词时,检测构成所述复合词的构成词更为高效。
在下一实施例中,依照本发明的设备包括:从所述文件收集导出的词列表、和用于从所述词列表确定包含所述复合词的文件的数目的装置。具有如下的词列表是高效的,从此词列表可以导到包含所述复合词的文件的数目。
在下一实施例中,依照本发明的设备包括:从所述文件收集导出的词列表、和用于从所述词列表来确定包含所述构成词的文件的数目的装置,其中所述构成词构成所述复合词。具有如下词列表是高效的,从此词列表可以导到包含所述构成词的文件的数目,其中所述构成词构成所述复合词。
在下一实施例中,依照本发明的设备被并入信息检索***。用户输入搜索项并且如果该项是复合词,把它拆分为它的构成词并且为该构成词执行搜索。这样操作者可以创建搜索,通过该搜索可以找到包含所述构成词的所有文件,其中所述构成词遵守构成复合词的拆分判定准则。
在下一实施例中,根据所述文件收集来选择依照本发明的设备和所述阈值。这使根据所使用的文件收集来选择所述阈值成为可能。这优化了对复合词的拆分。
在又一个实施例中,依照本发明的设备并且所述阈值是3。对于荷兰语文件收集这被认为是最优的阈值。
在又一个实施例中,依照本发明的设备,并且所述复合词和构成词属于语法上的名词类别。
在又一个实施例中,依照本发明的设备包括词列表,所述词列表包括每个名词的单数和复数形式。这使得可以找到构成复合词的所有构成词。
附图说明
现在参考本发明的下列例示的实施例,并且参考附图来解释本发明。
这些实施例用来举例说明本发明而不应该被认为是限制本发明。
参考附图将详细解释本发明,其中:
图1是依照本发明设备的实施例的框图;
图2是依照本发明搜索引擎和文件数据库的实施例的框图;
图3是拆分复合判定模块的实施例的流程图;
图4是用于找到复合词的构成词的方法的实施例的流程图;
图5是表1和2的实施例;
图6是词列表的例子的实施例;和
图7示出了复合词“basketbalkampioenschappen”的中间结果的方法的实施例。
具体实施方式
图1举例说明了依照本发明的信息检索***的实施例,所述信息检索***诸如文件管理***或网络搜索***。
文件管理***包括操作者控制台101、搜索引擎前端104、搜索引擎105和文件数据库106。依照本发明所述操作者控制台提供了***的用户界面。其具有显示器102和例如键盘103之类的数据输入装置103。搜索引擎前端104把从所述操作者控制台接收的所有数据转换为将由所述搜索引擎执行的搜索。搜索引擎105在所述数据库上执行搜索并且注意向提交者返回搜索结果。数据库106包含了用于搜索的文件。
所述***可以有多种变化。在第一变式中,图1的所有组件可以被并入个人计算机。在下一变式中,搜索引擎105、搜索引擎前端104和文件数据库106包括在服务器中,具体化为工作站的许多操作员控制台101可以作为客户端访问所述服务器并且使用作为访问装置的浏览器来访问所述服务器。
图2给出了依照本发明的搜索引擎105和文件数据库106的实施例。文件收集可以包含任何形式的书面信息,诸如报告、报纸文章和网页。在实际搜索过程开始之前,借助于例如语义网络202来收集文件收集201的所有词并且将其按次序置于词列表203中。对于自动翻译或信息检索,通过只考虑存在于文件收集的所述词可以获得更好的结果。从所述文件收集来收集所有词并且依照有序形式把这些词置于词列表来完成此事。
当搜索引擎105接收来自搜索引擎前端104的搜索时搜索过程开始。包含T项搜索的例子是t1与t2与...与tT,其中项ti是来自使用项组的项;ti∈(t1,...,tT)。项可以是任何词。在项之间可以使用任何逻辑运算符,诸如与(AND)、或(OR)以及非(NOT)。本领域内技术人员将理解所述搜索由T项组成,其中T至少为一。本领域内技术人员将理解本发明的实施例能够处理所述搜索内的一个或多个项。
拆分复合判定模块204为在搜索内的每一项判定所述项是否包含构成词,其中所述构成词应该以分离形式在所述搜索中加以应用。
拆分复合判定模块204的结果是修改的搜索,其以分离形式包含了复合词的构成词。检索和分级文件模块205使用此修改的搜索和词列表来获取文件参考以便计算每个文件参考的相关得分,把所找到的文件参考分级并且把具有它们相关得分的分级的文件参考传递到搜索引擎前端103。
图3给出了依照本发明的拆分复合判定模块204的实施例。所述拆分复合判定模块204决定一个搜索的每项ti,而不管所述项是否是复合词并且不管是否把构成词拆分为独立的词。从开始位置301开始,在步骤302把所述项计数器i设置为值1。在步骤303,确定项ti是否包含构成所述项ti的构成词。所述构成词从词列表204导出。几个不同的构成词组合可以存在构造相同的复合词,每个组合被称作构成词集。使用所述词列表来找到构成所述复合词的词组合。当找到构成词时,步骤303(Y),在步骤304把构成词集计数器j初始化为值1。下一步骤305确定包含复合词ti的文件的数目。该功能被称作DT(i)。步骤305确定包含构成词集j的文件的数目,称作DP(i,j)。借助于所述词列表可以找到DT(i)和DP(i,j)的函数结果,如稍后将要表明的。在步骤306,为每第j个构成词集评估拆分判定准则DT(i)<3*DP(i,j)。当符合DT(i)<3*DP(i,j)(Y)时,在步骤307把构成词集j拆分为分离形式的词,所述构成词集j构成所述复合词ti。当在步骤306不符合DT(i)<3*DP(i,j)(N)时,所述过程继续至步骤308。为每一项ti评估拆分判定准则并且最后将产生修改的搜索。在步骤308,构成词集计数器值j加一,并且在步骤309评估是否处理所有的构成词集。当不是所有的构成词集被处理(N)时,为下一构成词集j在步骤305继续该方法。当处理了所有的构成词集(Y)时,在步骤310把所述项计数器值i加一。当在步骤303没有找到构成复合词的构成词(N)时,同样在步骤303延续。在下一步骤311中,评估是否处理了所有的项ti。当不是所有的项ti都被处理之时,所述方法继续至步骤303。当处理了所有的项ti(Y)时,所述方法在步骤312停止。
本领域内技术人员将理解:本发明的实施例能够处理在所述搜索内的一个或多个项并且能够拆分所述项,所述项是符合步骤306的拆分判定准则的构成词。把现有词结合起来创建复合词。当结合词时,可以把链接语素字母***在连接处。因为没有关于何时可以***这种链接语素字母的简单规则,所以必须在任意两个词之间检查。对于德语复合词,使用“s”和“es”作为链接语素。对于荷兰语,允许“s”作为链接语素。
图4示出了用于找到构成所述项ti的构成词的方法(步骤303)的实施例的流程图。图4的实施例一般用于荷兰语,因此只考虑链接语素“s”。本领域内技术人员将理解对于其它复合语言,可以检查其它的链接语素和一个以上的链接语素并且它们相应地起作用。所述方法以步骤401开始。在步骤402,把项ti拷贝到字符串w1 L中,其中L描述了项ti字符的总数。接下来初始化词字符开始位置s为1,词等级计数器值为1,标志为“假”,在词等级上潜在词的最后字符位置c(level=0)为值0,并且词字符末尾位置值c(level=1)为值2。当在步骤403字符串WS L的倒数第二个字符没有到达字符位置c(level),这样L-c(level)≥2(Y)时,步骤404通过查阅词列表来评估作为词的字符串WS c(level)。当WS c(level)不是词(S404;N)时,在步骤408所述词字符末尾位置值c(level)加一。当WS c(level)是词(S404;Y)时,在步骤405把所述词存储为实际词等级上的存储词。例如首先找到的词WS c(level),因此所述等级为等级1,存储在存储词(level=1)中。此后把等级值更新为下一词等级,并且在新的等级c(level)值上的字符位置值被初始化为c(level-1)。在下一步骤406中,确定状况值,其是稍后将要更详细地解释的八种状况之一,现在继续至步骤407。在步骤407,根据所述状况值和标志值,执行一些动作,诸如使词字符开始位置s和词字符末尾位置c(level)适合于新的字符位置并且可能找到和存储一个词,稍后会详细解释。在步骤407之后,所述方法继续至步骤403。当在步骤403中到达字符串WSL的倒数第二个字符,这样L-c(level)<2(N)时,所述方法继续至步骤409。步骤409结果为是,并且当所述标志状态为“真”时继续至步骤407(Y)。例如当完成试图拆分词WL c(level)+1时就是这种情况,所述过程必须继续试图拆分词WL c(level)+2。此后所述标志将变为“假”并且步骤409产生否(N)并且将继续至步骤410,其中所述词等级减一。在步骤411检查是否评估了所有词等级来找到另一个词。当所述词等级>0(S411;Y)时,所述过程通过在步骤412首先把词字符末尾位置值c(level)加一来继续把所述字扩展为另一个词,并且用c(level-1)+1来更新所述词字符开始位置值s,并且所述过程继续至步骤403。当在扩展为另一个词的词上评估所有词等级(N)时,其在步骤411被检查,在步骤413检查是否找到构成ti的构成词并且此后所述方法在步骤413结束。
图5详细地示出了表1和表2的内部的实施例。在表1(S406)中四个判定准则确定所述状况值。所述判定准则是:标志状态(真或假),余项WL c(level)+1是word(是或否),字符位置Wc(level)+1 c(level)+1是“s”(是或否),并且余项WL c(level)+2是词(是或否)。在表1的第5栏中示出了所分配的状况值。当所述标志值是真时,没有状况值被更新,如在最后行的最后单元中所描述。此后把最后更新的状况输入表2(S407)。在表2(S407)中,两个判定准则确定所要求的动作:状况值(∈{1,2...,8})和标志状态(是或否)。表2的判定准则“标志”与表1的判定准则“标志”相同。在图5的表2中指示符CONSTITUENT()表明把找到的、构成所述复合词的构成词{word(h)h=1 h=level}集作为一个集增加到构成词集列表。这里给出例子;当用状况=1并且标志=假输入表2时,执行下列动作:使所述标志为真(以便稍后能拆分WL c(level)+2,把词WL c(level)+1拷贝到存储词(等级)中并且把所述构成词(作为一个集)作为集增加到构成词集列表,此后把所述词WL c(level)2拷贝到存储词(等级)中并且把所述构成词作为一个集增加到所述构成词集列表。此后把字符位置值c(level)+2和c(level)+3分别存储在辅助常量“sf”和“cf”中以便稍后使用(用于在首先试图拆分词WL c(level)+1之后把所述词WL c(level)+2拆分为两个词),并且分别用c(level)+1和c(level)+2来更新字符位置值s和c(level),然后所述方法离开表以便继续至步骤403来试图把词WL c(level)+1拆分为两个词。
例子
为了举例说明所述***的工作,将要给出确定构成词的一些例子,所述构成词满足在复合词内的拆分判定准则。
例子1
在第一例子中,所述搜索包含荷兰语项ti,其中i=1,“basketbalkampioenschappen”。英语翻译是“篮球锦标赛”。拆分复合判定模块(202)将借助于包括从所述文件收集导出的所有名词的词列表来找到所有构成名词,所述构成名词构成所述复合词。图6的词列表被用作为例子,其中所述词列表的第一栏包含按字母顺序在文件收集中所有可用的名词。第二栏为每个名词包含来自所述文件收集的所有文件参考,所述文件参考包括该名词。第三栏包含来自所述文件收集且包含此名词的文件的数目。所述词列表的实施例可以只包含前两栏。第三栏可以从第二栏得出。本领域内技术人员将理解可以用附加信息扩展所述词列表,所述附加信息诸如第三栏,或包括诸如动词之类的其它词类型,以及可以用名词指示符来指示所述名词。本领域内技术人员根据图6将理解:包含复合词ti(第一栏)的文件的数目(第三栏)可以从所述词列表得出。
对于该例子,第一主步骤(S303)通过使用图6的词列表(205)来确定所有构成词的可能性,其被称为构成“basketbalkampioenschappen”的集。对于荷兰语复合词“basketbalkampioenschappen”,所述拆分复合判定模块(202)找到8个构成名词集。在图7中,所有8个找到的构成词集都在第二栏中给出。在图7的第二行的第二单元中示出了找到的构成词“basketbal”+“kampioenschappen”的第一集(j=1)。在步骤305,确定包含所述复合词ti“basketbalkampioenschappen”的文件的数目DT(i)。语义网络模块(206)在所述文件收集(207)内的任何文件中都没有找到所述复合词“basketbalkampioenschappen”。在图6的词列表的第一栏中,没有可用的复合词“basketbalkampioenschappen”,所以DT(i)=0。在步骤305中的下一动作是确定包含所有构成词集j的文件的数目DP(i,j)。可以从在图6中描述的词列表得出在一个文件内包含以分离形式的构成词的文件的数目DP(i,j=1)。所述词列表表明名词“basketbal”用于文件参考[1]到[8]并且名词“kampioenschappen”用于文件参考[1]到[6]和[9]。从所述词列表可以得出:这两个名词都在文件参考[1]到[6]中使用,因此DP(i,j=1)=6。对于7个其余的构成词集作相同的事情结果是DP(i,j)=0。在图7中的第四栏给出了DP(i,j)值。在步骤306,评估每个构成词集j的拆分判定准则DT(i)<3*DP(i,j)。在图7的栏5中给出了此评估的结果。只有第一(j=1)构成词集满足此准则。对于此例子,只有构成词“basketbal”+“kampioenschappen”符合该拆分准则并且在步骤307被拆分为分离形式“basketbal”、“kampioenschappen”。对于该例子在图7的栏6中给出了步骤307的结果。
在不使用拆分复合判定模块的情况下把搜索项“basketbalkampioenschappen”的使用应用到搜索引擎(105)上导致没有修改的搜索,以致不能从所述文件收集中找到任何相关的文件。但是当把所述拆分复合判定模块应用到搜索项“basketbalkampioenschappen”时,所修改的搜索将是例如:
(“basketbal”与“kampioenschappen”)
但是例如以下也是有效的:
(“basketbal”与“kampioenschappen”)或“basketbalkampioenschappen”。
所修改的搜索结果借助于图6的词列表可能导致下面找到的相关文件[1]、[2]、[3]、[4]、[5]和[6]。
例子2
这里给出了怎样用步骤303发现复合词ti的构成词的荷兰语的例子。所述词的英语翻译是“course of life(生命的历程)”。
复合词=W1 10=L E V E N S L O O P
字符位置=     1 2 3 4 5 6 7 8 9 10
可以识别在寻找构成词期间的几个事件并且已经在表1中描述。注意:所述词列表没有定义“levens”。英语翻译是“life(生命)”。
                            表1
事件 解释
1 步骤(402):初始化;
2 步骤(407):找到名词‘leven’=>word(level=1):=‘leven’
3 步骤(408):‘sloop’是名词;其以‘s’开始;‘loop’是名词=>situate 1步骤(409):词(2):=‘sloop’。把构成词集增加到列表(1)=leven+sloop英语:“life(生命)”+“demolition(破坏)”词(2):=‘loop’。把构成词集增加到列表(2)=leven+loop英语:“life(生命)”+“stream(流)”
3.1 步骤(404):试图拆分‘sloop’
3.2 步骤(405):‘sloop’不能被拆分
3.3 步骤(404):试图拆分‘loop’
3.4 步骤(405):‘loop’不能被拆分
4 步骤(414):回到等级:‘levens’。把‘levens’扩展为另一个词
5 步骤(405):“levens”不能被扩展为另一个词
6 步骤(415):结束
用下列事件状态把表1的事件放入表2:(名词)等级,名词开始位置s,和对于两个等级c(level=1)和c(level=2)的词字符末尾位置c(level)。
表2
   事件   1   2   3   3.1   3.2   3.3   3.4   4   5   6
   等级=   1   1   2   2   2   2   2   1   1   0
   s=   1   1   6   6   6   7   7   1   1   1
   c(1)=   2   5   5   5   5   5   5   6   9   9
   c(2)=   --   --   5   7   9   8   9   9   9   9
例子3
给出了另一例子。
复合词=W1 17=A L P E N V E R K E  E  R  S  P  L  A  N
字符位置=     1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
可以识别在寻找构成词期间的几个事件并且已经在表3中描述。
注意:所述词列表没有包含名词“verkeersplan”(英语:“trafficplan”)。
                                    表3
事件 解释
1 步骤(402):初始化
2 步骤(407):找到名词‘alpen’=>word(1):=‘alpen’
3 步骤(409):‘verkeersplan’不是名词;其不以‘s’开始;‘erkeersplan’不是名词。=>状况8
4 步骤(403):试图拆分‘verkeersplan’
5 步骤(407):找到名词‘verkeer’=>word(2):‘verkeer’
6 步骤(408):‘splan’不是名词;其以‘s’开始;‘plan’是名词。=>状况5。步骤(409):词(3)=‘plan’。把构成词集增加到列表(1)=alpen+verkeer+plan(英语:alps+traffic+plan)
6.1 步骤(404):试图拆分‘plan’
6.2 步骤(405):‘plan’不能被拆分
6.3 步骤(404):试图拆分‘splan’
6.4 步骤(405):‘splan’不能被拆分
7 步骤(414):回到等级‘alpen’+‘verkeers’。试图把‘verkeers’扩展为另一个词。
8 步骤(405):没有找到‘verkeersplan’的其它拆分
9 步骤(414):回到等级:‘alpenv’。试图把‘alpenv’扩展为另一个词。
10 步骤(405):‘alpenverkeersplan’不再能被拆分。
11   步骤(415):结束
在表4中给出了下列事件状态:名词等级,名词开始位置s,和对于三个等级c(level=1)、c(level=2)和c(level=3)的词字符末尾位置c(level)。
                                    表4
  事件   1   2   3   4   5   6   6.1   6.2   6.3   6.4   7   8   9   10   11
  等级   1   1   2   2   2   3   3   3   3   3   2   2   1   1   0
  s=   1   1   6   6   6   13   14   14   13   13   6   6   1   1   1
  c(1)=   2   5   5   5   5   5   5   5   5   5   5   5   6   16   16
  c(2)=   --   --   5   7   12   12   12   12   12   12   13   16   16   16   16
  c(3)=   --   --   --   --   --   12   15   16   14   16   16   16   16   16   16
本发明被这样描述了,可以采用多种方式来改变相同的特征是显而易见的。不能把这种变化认为是对本发明精神和范围的偏离,对技术人员来说显而易见的所有的这种修改都意在包括在下列权利要求的范围内。

Claims (22)

1.用于确定复合词的构成词的设备,包括:
文件收集;
用于从所述文件收集确定包含所述复合词的文件的数目的装置;和
用于从所述文件收集确定包含构成词的文件的数目的装置,所述构成词构成所述复合词,其特征在于,所述设备还包括:
用于确定在包含所述复合词的文件的数目和包含所述构成词的文件的数目之间比率的装置,其中所述构成词构成所述复合词,和
用于当所述比率小于阈值时把所述复合词拆分为所述构成词的装置。
2.如权利要求1所述的设备,其特征在于,所述设备包括:用于检测所述复合词中的链接语素的装置。
3.如权利要求1所述的设备,其特征在于,所述设备包括:从所述文件收集导出的词列表和用于通过使用所述词列表来找到所述构成词的装置。
4.如权利要求1所述的设备,其特征在于,所述设备包括:从所述文件收集导出的词列表和用于从所述词列表确定包含所述复合词的文件的数目的装置。
5.如权利要求1所述的设备,其特征在于,所述设备包括:从所述文件收集导出的词列表和用于从所述词列表确定包含所述构成词的文件的数目的装置,其中所述构成词构成所述复合词。
6.如权利要求1所述的设备,其特征在于,所述阈值取决于所述文件收集。
7.如权利要求1所述的设备,其特征在于,所述阈值是3。
8.如权利要求1-7所述的设备,其特征在于,所述复合词和构成词属于语法类别上的名词。
9.如权利要求8所述的设备,其中所述词列表包括每个名词的单数和复数形式。
10.一种信息检索***,其特征在于,所述***包括:
用于输入包括词的搜索项的装置,
用于拆分所述词的装置,
这些装置并入了依照先前权利要求任何一个所述的设备并且递送构成词,和
用于执行把所递送的构成词作为搜索项的搜索的装置。
11.一种用于确定复合词的构成词的计算机化方法,包括如下步骤:
从文件收集确定包含复合词的文件的数目,以及
从文件收集确定包含所述构成词的文件的数目,其中所述构成词构成所述复合词,其特征在于,
确定在包含所述复合词的文件的数目和包含所述构成词的文件的数目之间的比率,其中所述构成词构成所述复合词,以及
当所述比率小于阈值时把所述复合词拆分为所述构成词。
12.如权利要求11所述的计算机化方法,其特征在于,所述计算机化方法包括:检测所述复合词中的链接语素。
13.如权利要求11所述的计算机化方法,其特征在于,所述计算机化方法包括:通过使用所述词列表来找到所述构成词。
14.如权利要求11所述的计算机化方法,其特征在于,所述计算机化方法包括:从所述词列表确定包含所述复合词的文件的数目。
15.如权利要求11所述的计算机化方法,其特征在于,所述计算机化方法包括:用于从所述词列表确定包含所述构成词的文件的数目的装置,其中所述构成词以分离形式构成所述复合词。
16.如权利要求11所述的计算机化方法,其特征在于,包括由操作者输入搜索的步骤。
17.如权利要求11所述的计算机化方法,其特征在于,包括根据所述文件收集来选择阈值的步骤。
18.如权利要求11所述的计算机化方法,其特征在于,所述阈值是3。
19.如权利要求11-18所述的计算机化方法,其特征在于,所述复合词和构成词属于语法类别上的名词。
20.如权利要求19所述的计算机化方法,其特征在于,所述词列表包括每个名词的单数和复数形式。
21.一种用于信息检索的计算机化方法,其特征在于,所述方法包括如下步骤:
输入包括词的搜索项,
依照如权利要求11-20所述的方法拆分所述词,
递送构成词,以及
执行把所递送的构成词作为搜索项的搜索。
22.一种包括代码装置的计算机程序,当在计算机上执行所述代码装置时,所述计算机执行权利要求11的所有步骤。
CNA2005100629781A 2004-03-31 2005-03-31 用于确定复合词的构成词的设备和计算机化方法 Pending CN1677402A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04075975.5 2004-03-31
EP04075975 2004-03-31

Publications (1)

Publication Number Publication Date
CN1677402A true CN1677402A (zh) 2005-10-05

Family

ID=34928127

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005100629781A Pending CN1677402A (zh) 2004-03-31 2005-03-31 用于确定复合词的构成词的设备和计算机化方法

Country Status (3)

Country Link
US (1) US7720847B2 (zh)
JP (1) JP4754247B2 (zh)
CN (1) CN1677402A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008098502A1 (fr) * 2007-02-06 2008-08-21 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif destinés à créer un index et procédé et système de récupération

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680333B2 (en) * 2005-04-21 2010-03-16 Microsoft Corporation System and method for binary persistence format for a recognition result lattice
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
US8086599B1 (en) 2006-10-24 2011-12-27 Google Inc. Method and apparatus for automatically identifying compunds
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US9009146B1 (en) * 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
JP5819860B2 (ja) * 2010-02-12 2015-11-24 グーグル・インコーポレーテッド 複合語分割
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
JP5834772B2 (ja) * 2011-10-27 2015-12-24 カシオ計算機株式会社 情報処理装置及びプログラム
JP5250709B1 (ja) * 2012-03-12 2013-07-31 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
US9104750B1 (en) 2012-05-22 2015-08-11 Google Inc. Using concepts as contexts for query term substitutions
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和***
US20140025368A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation Fixing Broken Tagged Words
CN103870472B (zh) * 2012-12-11 2018-07-10 百度国际科技(深圳)有限公司 一种复合词挖掘方法及装置
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
CN104679778B (zh) * 2013-11-29 2019-03-26 腾讯科技(深圳)有限公司 一种搜索结果的生成方法及装置
JP5979650B2 (ja) * 2014-07-28 2016-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US10362060B2 (en) * 2015-12-30 2019-07-23 International Business Machines Corporation Curtailing search engines from obtaining and controlling information
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0827635B2 (ja) * 1986-09-17 1996-03-21 富士通株式会社 文―音声変換装置に用いる複合語処理装置
US5867812A (en) 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JPH07262191A (ja) * 1994-03-24 1995-10-13 Sony Corp 単語分割方法、および音声合成装置
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
JP2001249921A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体
US6396699B1 (en) * 2001-01-19 2002-05-28 Lsi Logic Corporation Heat sink with chip die EMC ground interconnect
JP2002245062A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US7398269B2 (en) * 2002-11-15 2008-07-08 Justsystems Evans Research Inc. Method and apparatus for document filtering using ensemble filters
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008098502A1 (fr) * 2007-02-06 2008-08-21 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif destinés à créer un index et procédé et système de récupération

Also Published As

Publication number Publication date
JP2005293582A (ja) 2005-10-20
US20050222998A1 (en) 2005-10-06
US7720847B2 (en) 2010-05-18
JP4754247B2 (ja) 2011-08-24

Similar Documents

Publication Publication Date Title
CN1677402A (zh) 用于确定复合词的构成词的设备和计算机化方法
US10169354B2 (en) Indexing and search query processing
CN100337227C (zh) 为移动通信装置的文档内容做摘要的方法和装置
US8171013B2 (en) Indexing and searching product identifiers
JP4976666B2 (ja) 情報検索システムにおけるフレーズ識別方法
KR101122942B1 (ko) 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템
US20080263032A1 (en) Unstructured and semistructured document processing and searching
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
CN1894685A (zh) 翻译工具
CN101061478A (zh) 提供与文档相关的信息
CN101065746A (zh) 文件自动丰富的方法和***
CN1581170A (zh) 用来比较两个计算机文件的方法及***
CN1920829A (zh) 字符输入辅助方法和信息处理装置
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
US20070136248A1 (en) Keyword driven search for questions in search targets
US20140059076A1 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
US20050004902A1 (en) Information retrieving system, information retrieving method, and information retrieving program
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
US8990224B1 (en) Detecting document text that is hard to read
JP2003150623A (ja) 言語横断型特許文献検索方法
KR20030039575A (ko) 문서 요약 방법 및 시스템
CN1710561A (zh) 用于索引和检索文档的方法、计算机程序及数据载体
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
CN1464430A (zh) 区分亚洲语言写入***中组织名称的***
CN1193304C (zh) 切分非切分语言的输入字符序列的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20051005