CN101933017B - 文件检索装置、文件检索***和文件检索方法 - Google Patents

文件检索装置、文件检索***和文件检索方法 Download PDF

Info

Publication number
CN101933017B
CN101933017B CN2009800000314A CN200980000031A CN101933017B CN 101933017 B CN101933017 B CN 101933017B CN 2009800000314 A CN2009800000314 A CN 2009800000314A CN 200980000031 A CN200980000031 A CN 200980000031A CN 101933017 B CN101933017 B CN 101933017B
Authority
CN
China
Prior art keywords
keyword
translation
document
score
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009800000314A
Other languages
English (en)
Other versions
CN101933017A (zh
Inventor
小岛荣之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Systems Corp
Mitsubishi Electric Information Technology Corp
Original Assignee
Mitsubishi Electric Information Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Systems Corp filed Critical Mitsubishi Electric Information Systems Corp
Publication of CN101933017A publication Critical patent/CN101933017A/zh
Application granted granted Critical
Publication of CN101933017B publication Critical patent/CN101933017B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供文件检索装置、文件检索方法、文件检索***和文件检索程序,当使用输入的关键词和翻译后的关键词进行文件检索时,可以恰当地确定作为检索结果的输出文件的优先顺序。文件检索装置(10)的关键词翻译部件(22)把输入关键词翻译成翻译关键词。关键词评分确定部件(23)对各输入关键词和各翻译关键词确定关键词评分。文件检索部件(24)根据输入关键词和翻译关键词检索文件,获得多个文件。文件评分计算部件(25)对各检索结果文件根据关键词评分和各关键词出现的次数,计算文件评分。检索结果输出部件(26)按文件评分从高到低的顺序对检索结果文件排序,并按该顺序进行输出。

Description

文件检索装置、文件检索***和文件检索方法
技术领域
本发明涉及使用关键词检索文件的文件检索装置和文件检索方法,特别涉及使用翻译后的关键词检索文件的文件检索装置和文件检索方法。此外,本发明涉及包括这种文件检索装置的文件检索***。并且,本发明还涉及文件检索程序,用于使计算机具有作为这种文件检索装置或者文件检索***的功能。
背景技术
在文件检索***中,当文件数据库包含了多种语言的文件时,公知的是把输入的关键词翻译成其他语言来作为检索用的关键词。专利文献1中记载了这种***的例子。在专利文献1中记载了把用日语指定的关键词翻译成英语,对日语的文献用日语进行检索,对英语的文献用英语进行检索。
专利文献1:日本专利公开公报特开平10-232883号
发明内容
可是在现有技术中,当使用多种语言进行检索的情况下,不能恰当地确定作为检索结果的输出文件的优先顺序。
由于单词一般都是多义词,在把用母语输入的关键词翻译成其他语言时,并不一定是最佳的选择。因此,当在检索结果的文件清单中确定文件的优先顺序时,有时例如对包含翻译后的关键词的文件不能恰当地确定优先顺序。
为了解决这样的问题,本发明的目的是提供这样一种文件检索装置和文件检索方法,当使用输入的关键词和翻译后的关键词进行文件检索时,可以恰当地确定作为检索结果的输出文件的优先顺序。
此外本发明的目的是提供一种包括这种文件检索装置的文件检索***。
本发明提供使用关键词检索文件的文件检索装置,其包括:关键词接收部件,接收一个以上的关键词作为输入关键词;关键词翻译部件,对应于各所述输入关键词,获得把所述输入关键词翻译成其他语言的多种其他语言的翻译关键词;关键词评分确定部件,对各所述输入关键词确定关键词评分,各所述输入关键词对应于具有顺序的多个翻译关键词,所述关键词评分确定部件对各所述输入关键词和各所述翻译关键词的全部组合,根据所述顺序确定翻译评分,所述关键词评分确定部件对各所述翻译关键词,根据相关联的全部所述翻译评分确定所述关键词评分,其中,所述输入关键词的所述关键词评分比对应于该输入关键词的任何一个所述翻译关键词的所述关键词评分都高;文件检索部件,根据所述输入关键词和所述翻译关键词检索文件,获得多个检索结果文件;文件评分计算部件,对各所述检索结果文件根据所述关键词评分计算文件评分;以及检索结果输出部件,将各所述检索结果文件和对应的所述文件评分关联起来后进行输出。
各输入关键词对应于具有顺序的多个翻译关键词,关键词评分确定部件根据顺序确定翻译关键词的关键词评分。
关键词评分确定部件对各输入关键词和各翻译关键词的全部组合,根据顺序确定翻译评分。
文件评分计算部件还根据各输入关键词和各翻译关键词在检索结果中出现的次数,来计算文件评分。
文件评分计算部件还根据对检索结果文件的字符识别处理的识别率,来计算文件评分。
此外,本发明提供的文件检索***包括:所述的文件检索装置;翻译服务装置,根据输入关键词生成翻译关键词;以及文件数据库,存储作为检索对象的多个文件。
此外,本发明提供使用关键词检索文件的文件检索方法,其包括:关键词接收步骤,获得一个以上的关键词作为输入关键词;关键词翻译步骤,获得把输入关键词翻译成其他语言的多种其他语言的翻译关键词;关键词评分确定步骤,对各输入关键词确定关键词评分,各所述输入关键词对应于具有顺序的多个翻译关键词,所述关键词评分确定步骤对各所述输入关键词和各所述翻译关键词的全部组合,根据所述顺序确定翻译评分,所述关键词评分确定步骤对各所述翻译关键词,根据相关联的全部所述翻译评分确定所述关键词评分,其中,所述输入关键词的所述关键词评分比对应于该输入关键词的任何一个所述翻译关键词的所述关键词评分都高;文件检索步骤,根据输入关键词和翻译关键词检索文件,获得多个检索结果文件;文件评分计算步骤,对各检索结果文件根据关键词评分计算文件评分;以及检索结果输出步骤,将各检索结果文件和对应的文件评分关联起来后进行输出。
本发明的文件检索装置、文件检索方法和文件检索***,对各输入关键词和各翻译后的关键词确定关键词评分,并根据该关键词评分计算文件评分,所以可以恰当地确定作为检索结果输出的文件的优先顺序。
附图说明
图1是表示本发明的文件检索***构成的图。
图2是说明图1的文件检索***中的文件检索装置动作的流程图。
图3是表示输入关键词和翻译关键词的对应关系的例子的图。
图4是表示翻译关键词的顺序和按该顺序的翻译评分之间的对应关系的例子的图。
图5是表示对各关键词按顺序的翻译评分和最终赋予各关键词的关键词评分之间的对应关系的例子的图。
图6是表示在检索结果文件的正文数据中表示各关键词出现次数的信息的例子的图。
图7是表示对检索结果文件的文件评分计算结果的例子的图。
具体实施方式
本发明是在从包含用日语、英语、法语、汉语等各种语言书写的文件的文件数据库中进行检索时,当输入了某种语言的关键词时,利用翻译引擎把输入的关键词转换成其他国家的语言,同时使用输入的关键词和转换成其他国家的语言后的关键词进行检索。通过给关键词进行评分,来确定关键词之间的优先顺序,并把该优先顺序反映到文件检索结果的优先顺序中进行输出。由此,可以实现对应多种语言的文件检索方式。
下面根据附图对本发明的实施方式进行说明。
实施方式1
图1表示本发明的文件检索***100的构成。文件检索***100用于使用关键词进行文件检索。
文件检索***100包括使用关键词检索文件的文件检索装置10。
文件检索装置10是信息处理装置,具有众所周知的作为计算机的结构。
文件检索装置10具有输入装置30,用于使用者输入关键词。该输入装置30例如是鼠标或键盘等。此外,文件检索装置10具有显示装置40,向使用者显示检索处理的结果。显示装置40例如是显示器或打印机等。此外文件检索装置10具有进行运算的运算装置20。运算装置20例如是CPU(中央处理器)。
此外,图中虽没有表示,但文件检索装置10包括作为存储信息的存储部件的存储器以及HDD(硬盘驱动器)。并且,文件检索装置10具有网络接口,用于与其他信息处理装置之间发送或接收信息。
在文件检索装置10的存储部件中,安装有规定文件检索装置10和运算装置20动作的文件检索程序。运算装置20通过执行该文件检索程序,发挥图1所示的作为关键词接收部件21、关键词翻译部件22、关键词评分确定部件23、文件检索部件24、文件评分运算部件25和检索结果输出部件26的功能,后面将叙述它们各自的详细功能。
此外运算装置20通过执行文件检索程序或其他的程序,使作为计算机的文件检索装置10实现在本说明书中记载的其他功能。
文件检索***100包括翻译服务装置110,以能够与文件检索装置10进行通信的方式连接。翻译服务装置110进行关键词的翻译。翻译服务装置110接收到用某种语言表达的词,就把它翻译成其他语言并输出。即,具有根据所输入的关键词(输入关键词)生成把该输入关键词翻译成其他语言的关键词(翻译关键词)的功能。其中所谓的“翻译”也可以捕捉从某种语言的关键词向其他语言的关键词的转换。
翻译服务装置110进行多种语言的翻译。例如对于日语的输入关键词生成英语的翻译关键词和法语的翻译关键词后输出。
此外,翻译服务装置110对于一个输入关键词生成具有顺序的多个翻译关键词。即,对于某个单词,例如根据对应的翻译词各自使用的频率,从最频繁使用的翻译词开始顺序进行排序,来生成翻译关键词的清单。该清单例如通过把翻译关键词按顺序排列,来表示各翻译关键词的顺序,但也可以通过把翻译关键词和表示顺序的数值等相对应,来表示各翻译关键词的顺序。
翻译服务装置110的结构可以使用公知的结构。例如,翻译服务装置110对多个词分别安装与一个以上的翻译词相关联的词典文件,并参照该词典文件进行翻译。
文件检索***100包括以能够与文件检索装置10通信的方式连接的文件数据库120。文件数据库120存储文件检索装置10进行检索处理对象的多个文件。
文件数据库120接收到输入的一个以上的关键词,从存储的文件中抽取出所有包含所述关键词的文件,并输出抽取出的文件或其清单。
利用图2的流程图和图3~图7的数据的例子来说明如上所述构成的文件检索***100的动作。
图2是说明文件检索***100中的文件检索装置10的动作的流程图。首先关键词接收部件21通过输入装置30接收来自使用者用于检索的一个以上的输入关键词(步骤S1,关键词接收步骤)。在该例子中,接收“先生”、“教师”这两个日语的输入关键词。
然后,关键词翻译部件22利用翻译服务装置110,把输入关键词翻译成翻译关键词(步骤S2,关键词翻译步骤)。在该步骤S2中,关键词翻译部件22把输入关键词传送给翻译服务装置110,翻译服务装置110分别把接收到的输入关键词生成翻译关键词,并回送给关键词翻译部件22。这样使关键词翻译部件22获得翻译关键词。
图3表示输入关键词和翻译关键词的对应关系的例子。在该例子中,该翻译关键词包括如图3(a)所示的英语和图3(b)所示的法语两种。在图3(a)的表中,对于“先生”这个输入关键词具有对应于顺序1的“teacher”、顺序2的“instructor”、顺序3的“master”这三个英语的翻译关键词。由此,翻译服务装置110将各输入关键词与带有顺序的多个翻译关键词对应存储。
此外,在图3(b)的表中,对于相同的“先生”这个输入关键词,具有对应于顺序1的“professeur”、顺序2的“instructeur”这两个法语的翻译关键词。由此,关键词翻译部件22获得输入关键词的语言以外的多种语言的翻译关键词。
而且,文件检索装置10也可以把输入关键词、获得的翻译关键词和图3所示的对应关系以表等形式存储到存储部件中。
接着,关键词评分确定部件23对于各输入关键词和各翻译关键词确定关键词评分(步骤S3,关键词评分确定步骤)。其中,关键词评分确定部件23根据图4和图5所示的对应关系来确定关键词评分。
图4表示翻译关键词的顺序和根据该顺序进行的翻译评分的对应关系的例子。关键词评分确定部件23根据该翻译评分,确定各翻译关键词的关键词评分。文件检索装置10把图4所示的对应关系以表等形式预先存储在其存储部件中,此外,文件检索装置10的使用者和管理者也可以适当地改变该对应关系。
对于输入关键词通常赋予固定的规定评分,例如100(此外,该评分如后所述,由于翻译评分还有一部分不同用途,所以在图4中用括号表示)。此外,对于翻译关键词,根据其顺序给予不同的翻译评分。顺序每下降一位给予的评分就降低规定的数值,例如每次降低10,顺序1为90,顺序2为80,顺序3为70。
该评分的值越大,也就意味着包含该关键词的文件在检索结果中越重要(即在检索结果中该文件的顺序越靠前)。由此,关键词评分确定部件23根据翻译关键词的顺序,确定翻译关键词的关键词评分。
此外,该顺序和翻译评分的关系不限于图4所示的情况。对于顺序1的翻译评分只要是比相对应的输入关键词的关键词评分低的值即可。也可以对于顺序2以下的翻译评分,随顺序的降低(即在该例子中随表示顺序的数值变大)通过单调递减函数来表示。
翻译服务装置110通常根据作为翻译词被使用的频率对翻译关键词进行排序。其中,在不考虑文章的结构和文章前后的逻辑关系等信息的情况下,对某个词在词典等中记载的多个翻译词之中,实际中作为翻译词的使用频率高的翻译词,可以说是比较恰当的翻译词。与仅包含不是比较恰当的翻译词的文件相比,包含比较恰当的翻译词的文件是使用者所希望的文件的可能性大。即,顺序更靠前的翻译关键词可以说是更可靠的关键词。关键词评分确定部件23由于根据各翻译关键词的顺序确定翻译评分,所以可以使更可靠的翻译关键词的翻译评分更高,从而可以得到更可靠的检索结果。
此外,翻译服务装置110对各关键词无须通过严格的统计分析来进行对应于使用频率的排序。由于一般的词典等通常一定程度地考虑了翻译词的使用频率等,来确定其登载的顺序,所以使用一般的众所周知的词典,对于提高检索结果的精度,可以得到一定程度的效果。
图5是表示对各关键词按顺序的翻译评分和最终赋予各关键词的关键词评分的对应关系的例子。
如上所述,关键词评分确定部件23通常赋予输入关键词的关键词评分为100。对于翻译关键词,首先,对各输入关键词和各翻译关键词的全部组合,按顺序确定翻译评分。在图5中对两个输入关键词和五个翻译关键词的全部组合(合计10个),赋予按顺序的翻译评分。
如图3(a)所示,由于翻译关键词“master”对于输入关键词“先生”为顺序3,所以在图4中对应于顺序3赋予翻译评分70。此外,由于该翻译关键词“master”对于输入关键词“教师”为顺序2,所以在图4中对应于顺序2赋予翻译评分80。此外,在某个翻译关键词对于其中任何一个输入关键词都没有顺序的情况下,即,当该翻译关键词不是对该输入关键词的翻译时,把对该组合的翻译评分作为0。但是,在这种情况下的翻译评分也可以不是0,只要是比对应该输入关键词的任何一个其他翻译关键词的翻译评分都小的值即可。
这样,根据确定的翻译评分,关键词评分确定部件23再对各翻译关键词确定最终的关键词评分。在图5的例子中,通过赋予该翻译关键词的平均翻译评分,来作为该翻译关键词的关键词评分。
由此,关键词评分确定部件23对各翻译关键词,根据相关联的全部翻译评分来确定关键词评分。
文件检索装置10也可以把图5所示的对应关系以表等形式存储在其存储部件中。
其中,如上所述,赋予输入关键词的关键词评分通常为100。此外,由于翻译评分都在90以下(即,在相对于顺序1的翻译评分以下),所以其取平均后的关键词评分(翻译关键词的关键词评分)通常在90以下。因此,赋予母语的输入关键词的关键词评分的值比赋予其他语言的翻译关键词的任何一个关键词评分都高。
使用母语的输入关键词由于不存在翻译错误或翻译得不恰当的可能,所以包含输入关键词的文件与仅包含翻译关键词的文件相比,是使用者所希望的文件的可能性大。即,可以说输入关键词是更可靠的关键词。由此,通过把更可靠的输入关键词的评分设定得高来引起重视,并相对地把翻译关键词的评分设定得低,可以得到更准确的检索结果。
此外,如在该例子中的翻译关键词“master”那样,当某个翻译关键词对应多个输入关键词的情况下,包含该翻译关键词的文件与仅包含其他翻译关键词的文件相比,是使用者所希望的文件的可能性大。即,可以说这样的翻译关键词是更可靠的关键词。
其中,关键词评分确定部件23通过根据与某个翻译关键词相关联的全部翻译评分来确定关键词评分,可以提高同时与多个输入关键词对应的翻译关键词的关键词评分。例如,图5的翻译关键词“master”与输入关键词“先生”、“教师”都对应,具有分别对应于不是0的翻译评分。可是翻译关键词“instructor”对应于输入关键词“先生”,而不对应于“教师”,对于“教师”的翻译评分为0。其结果,翻译关键词“master”的关键词评分更高。由此,通过把更可靠的翻译关键词的评分设定得高来引起重视,并相对地把其它翻译关键词的评分设定得低,从而可以得到更准确的检索结果。
然后,文件检索部件24利用文件检索***100,根据输入关键词和翻译关键词检索文件,获得作为检索结果文件的多个文件(步骤S4,文件检索步骤)。在该步骤S4中,文件检索部件24把输入关键词和翻译关键词传送给文件数据库120,文件数据库120从存储的文件中抽出包含某个输入关键词和翻译关键词的全部文件,并把抽出的文件作为检索结果文件回送给文件检索部件24。
其中,由于文件检索部件24使用母语的输入关键词和其他语言的翻译关键词进行检索,所以即使在包含多种语言的文件的文件数据库120中进行检索,也可以通过一次检索得到结果。
此外,在步骤S4中获得的检索结果文件包含识别该文件的正文数据的信息(标题、日期时间、作者等),也可以不一定包含该正文数据。在检索结果文件不包含正文数据的情况下,可以由使用者根据其他的要求从文件数据库120中输出正文数据本身。
在各个检索结果文件中可以关联地带有表示各关键词在该正文数据中出现次数的信息。
图6表示这种信息的例子。在该例子中,抽出文件A~文件J作为检索结果文件。例如在文件A中翻译关键词“teacher”出现12次,翻译关键词“instructor”出现10次,翻译关键词“master”出现6次,对于文件A表示全部关键词的出现次数合计为28次。文件数据库120由此对各检索结果文件统计各输入关键词和各翻译关键词出现的次数,分别把它关联地附加在检索结果文件中并回送给文件检索部件24。此外,在图6中,把检索结果文件按各关键词出现的次数进行排序。
文件检索装置10也可以把图6所示的对应关系以表等形式存储在其存储部件中。
在图6的例子中采用了关键词出现次数,不过也可以代之以采用在关键词出现次数中附加上利用字符识别的识别率。
在用字符代码表示文件中字符串的文件(文本数据或字处理程序用的数据等)中,采用字符代码的对照处理可以正确地计算出关键词的出现次数。而在用图像数据表示字符串的文件的情况下,需要进行字符识别处理,把图像转换成字符代码,但该字符识别处理的精度不一定高。所以在字符识别处理时,也可以对该文件以规定的基准把可以进行字符识别的程度作为识别率,进行评价,加入该识别率。例如,也可以根据识别率使表示关键词出现次数的数值降低。具体地说,对于识别率为100%的文件,直接采用关键词的出现次数,对于识别率为50%的文件,可以把关键词的出现次数减半来采用。
其中,识别率的计算方法只要是现有的公知的字符识别处理方法,则采用哪种都可以。
接着,文件评分计算部件25对各检索结果文件,根据由关键词评分确定部件23确定的关键词评分(参照图5)以及各输入关键词和翻译关键词的出现次数(参照图6),计算文件评分(步骤S5,计算文件评分步骤)。
在该步骤S5中,例如把各关键词的关键词评分和该关键词在其检索结果文件中出现的次数相乘,通过对所有的关键词进行合计来计算文件评分。该文件评分可以表示该检索结果文件是使用者所希望的文件的可能性(准确性)。
图7表示利用该计算方法得到的计算结果的例子。在文件A中具有关键词评分为90的翻译关键词“teacher”出现了12次,相乘的结果为90×12=1080。同样,对于翻译关键词“instructor”的相乘的结果为400,对于翻译关键词“master”的相乘的结果为450。除此以外的输入关键词和翻译关键词没有在文件A中出现,相乘的结果为0。文件A的文件评分为把这些数值全部加在一起的值,即为1930。
此外,文件检索装置10也可以把图7所示的对应关系,以表等形式存储在其存储部件中。
对于用图像数据表示字符串的文件,文件评分计算部件25也可以在关键词评分和出现次数的基础上,再加上对检索结果文件的字符识别处理的识别率,来计算文件评分。
其中,由于关键词评分针对每个关键词都为不同的值,所以关键词出现次数多的文件的文件评分不一定高。例如,在检索结果文件中关键词出现次数最多的是文件A(28次,参照图6),而文件评分最高的是文件C(2500,参照图7),它们的顺序调换。其原因是在文件C中出现的关键词全是输入关键词,所以每个关键词的关键词评分比较高,相反在文件A中出现的关键词全是翻译关键词,所以每个关键词的关键词评分比较低。此外,在各翻译关键词之间的关键词评分也不同,所以要重视更可靠的翻译关键词。
由此,文件评分计算部件25在计算各检索结果文件的文件评分时考虑到各关键词的质的不同,所以与仅用关键词的出现次数计算文件评分的方法相比,可以更准确地进行评价。
接着,检索结果输出部件26使检索结果文件(即文件A~文件J)和由文件评分计算部件25分别计算出的文件评分相关联后输出(步骤S6,检索结果输出步骤)。通过显示装置40向使用者显示,由此,使用者可以知道检索结果。此时,检索结果输出部件26以文件评分从高到低的顺序对检索结果文件排序,并按该顺序进行输出。
如上所述,本发明实施方式1的文件检索装置10、文件检索装置10执行的文件检索方法和文件检索***100,对各输入的关键词和翻译的关键词确定关键词评分,并根据该关键词的评分计算文件评分,所以可以恰当地确定作为检索结果输出的文件的优先顺序。
在所述的实施方式1中,表示输入关键词的语言是日语,翻译关键词的语言是英语和法语,但它们也可以是其他的语言,例如也可以包括汉语。表示输入关键词的语言可以设定成与使用者使用的语言一致,表示翻译关键词的其他语言可以设定成与文件数据库120中包含的文件的语言一致。
表示翻译关键词的语言也可以是单一的语言(例如仅为英语)。翻译服务装置110对于输入关键词也可以输出一个翻译关键词,还可以输出不排序的多个翻译关键词。即使是这种结构,如果在输入关键词和翻译关键词之间关键词评分不同,也可以得到与现有的检索相比更准确的结果。
此外,在实施方式1的例子中,执行OR检索(逻辑和检索),只要出现多个输入关键词和多个翻译关键词中的任何一个关键词的文件,都作为检索结果文件获取。与此不同,也可以执行AND检索(逻辑积检索)。
在这种情况下,在图2的步骤S4中,文件检索部件24把输入关键词和翻译关键词传送给文件数据库120,指示进行AND检索。文件数据库120从存储的文件中抽出满足以下条件i和ii的所有文件,并把抽出的文件作为检索结果文件回送给文件检索部件24。
‐条件i:对于输入关键词“先生”,在该输入关键词本身和与其对应的翻译关键词“teacher”、“instructor”、“master”、“professeur”、“instructeur”之中,至少出现一个。
‐条件ii:对于输入关键词“教师”,在该输入关键词本身和与其对应的翻译关键词“teacher”、“master”、“professeur”之中,至少出现一个。
换句话说,文件检索部件24和文件数据库120对各输入关键词,通过把该输入关键词和与其对应的翻译关键词用OR条件连接,做成每个输入关键词的关键词组,并把该关键词组全部用AND条件连接,做成最终的检索条件。
作为使用该条件进行检索的结果,例如在实施方式1中作为检索结果文件的图6所示的文件中,文件H由于既不包含输入关键词“教师”,也不包含与其对应的翻译关键词“teacher”、“master”、“professeur”,所以不满足条件ii,没有被抽出。此外,文件J也同样不满足条件ii,也没有被抽出。
此外,在该例子中,由于翻译关键词“teacher”、“master”和“professeur”是与两个输入关键词“先生”、“教师”都对应的翻译关键词,所以出现这些翻译关键词的任何一个文件都被抽出。例如文件E包含翻译关键词“teacher”,由于该翻译关键词对条件i和条件ii都满足,所以文件E被抽出。
即使在这样的AND检索的情况下,步骤S5以后的处理可以与OR检索同样地进行。即,与实施方式1相同,计算出文件评分并输出检索结果。但是由于在该例子中,文件H和文件J在步骤S4中都没有被抽出,所以不对文件H和文件J执行步骤S5之后的处理。
此外,在实施方式1中,在通过文件检索部件24进行检索时,必须使用翻译关键词进行检索,但也可以替换它,例如使用者可以适当指定不使用翻译关键词而只使用输入关键词进行检索。由此,根据需要也可以进行与只使用输入关键词的现有的文件检索相同的处理。
文件数据库120对各作为检索对象的文件,也可以关联地存储表示该文件是用什么语言表示的语言信息,翻译服务装置110也一样,对各翻译关键词,也可以关联地存储表示该翻译关键词是用什么语言表示的语言信息。在这种情况下,输入关键词通常使用相当于母语的规定的语言即可。
例如,有时存在即使把日语的某个关键词翻译成汉语,也是相同的表示方式(用相同的字符代码表示的字符串)的情况。对于这种关键词,可以对日语的文件适当地使用输入关键词的关键词评分,对于汉语的文件适当地使用翻译关键词的关键词评分。即,在输入关键词和翻译关键词中,对于不同语言而表示方式相同的关键词,在计算检索结果文件的文件评分时,也可以采用该检索结果文件和语言信息一致的关键词评分。
由此,即使在包含了多种语言而表示方式相同的关键词的情况下,也可以恰当地评价各关键词准确度。
在实施方式1中,文件数据库120统计关键词在检索结果文件中出现的次数,但也可以用其他的构成要素进行统计。例如,把检索结果文件的正文数据从文件数据库120传送给文件检索装置10,可以由文件检索装置10的文件检索部件24或文件评分计算部件25进行统计。
翻译服务装置110和文件数据库120只要是关于关键词的翻译和文件的检索与文件检索装置10之间可以发送或接收恰当的信息,则是什么样的装置都可以,例如可以分别由计算机构成,此外,通过执行安装在各自的存储部件中的程序,能够实现作为翻译服务装置110和文件数据库120的功能即可。在这种情况下,文件检索装置10的程序、翻译服务装置110的程序和文件数据库120的程序作为文件检索程序,使该计算机具有作为文件检索***100的功能。
在实施方式1的硬件结构中,作为单独一台计算机的文件检索装置10包括关键词接收部件21、关键词翻译部件22、关键词评分确定部件23、文件检索部件24、文件评分计算部件25以及检索结果输出部件26,翻译服务装置110和文件数据库120可以分别设置为单独一台计算机。不过硬件结构也可以与此不同。例如,构成文件检索装置10的计算机也可以同时具有作为翻译服务装置110的功能和作为文件数据库120的功能。

Claims (6)

1.一种使用关键词检索文件的文件检索装置,其包括:
关键词接收部件,接收一个以上的关键词作为输入关键词;
关键词翻译部件,对应于各所述输入关键词,获得把所述输入关键词翻译成其他语言的多种其他语言的翻译关键词;
关键词评分确定部件,对各所述输入关键词确定关键词评分,
各所述输入关键词对应于具有顺序的多个翻译关键词,
所述关键词评分确定部件对各所述输入关键词和各所述翻译关键词的全部组合,根据所述顺序确定翻译评分,
所述关键词评分确定部件对各所述翻译关键词,根据相关联的全部所述翻译评分确定所述关键词评分,其中,
所述输入关键词的所述关键词评分比对应于该输入关键词的任何一个所述翻译关键词的所述关键词评分都高;
文件检索部件,根据所述输入关键词和所述翻译关键词检索文件,获得多个检索结果文件;
文件评分计算部件,对各所述检索结果文件根据所述关键词评分计算文件评分;以及
检索结果输出部件,将各所述检索结果文件和对应的所述文件评分关联起来后进行输出。
2.根据权利要求1所述的文件检索装置,其特征在于,
所述关键词评分确定部件根据所述顺序确定所述翻译关键词的所述关键词评分。
3.根据权利要求1所述的文件检索装置,其特征在于,所述文件评分计算部件还根据各所述输入关键词和各所述翻译关键词在所述检索结果文件中出现的次数,来计算所述文件评分。
4.根据权利要求3所述的文件检索装置,其特征在于,所述文件评分计算部件还根据对所述检索结果文件的字符识别处理的识别率,来计算所述文件评分。
5.一种文件检索***,其特征在于包括:
如权利要求1所述的文件检索装置;
翻译服务装置,根据所述输入关键词生成所述翻译关键词;以及
文件数据库,存储作为检索对象的多个所述文件。
6.一种使用关键词检索文件的文件检索方法,其包括:
关键词接收步骤,获得一个以上的关键词作为输入关键词;
关键词翻译步骤,获得把所述输入关键词翻译成其他语言的多种其他语言的翻译关键词;
关键词评分确定步骤,对各所述输入关键词确定关键词评分,
各所述输入关键词对应于具有顺序的多个翻译关键词,
所述关键词评分确定步骤对各所述输入关键词和各所述翻译关键词的全部组合,根据所述顺序确定翻译评分,
所述关键词评分确定步骤对各所述翻译关键词,根据相关联的全部所述翻译评分确定所述关键词评分,其中,
所述输入关键词的所述关键词评分比对应于该输入关键词的任何一个所述翻译关键词的所述关键词评分都高;
文件检索步骤,根据所述输入关键词和所述翻译关键词检索文件,获得多个检索结果文件;
文件评分计算步骤,对各所述检索结果文件根据所述关键词评分计算文件评分;以及
检索结果输出步骤,将各所述检索结果文件和对应的所述文件评分关联起来后进行输出。
CN2009800000314A 2009-03-24 2009-03-24 文件检索装置、文件检索***和文件检索方法 Expired - Fee Related CN101933017B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/055819 WO2010109594A1 (ja) 2009-03-24 2009-03-24 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法

Publications (2)

Publication Number Publication Date
CN101933017A CN101933017A (zh) 2010-12-29
CN101933017B true CN101933017B (zh) 2013-07-03

Family

ID=42780303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009800000314A Expired - Fee Related CN101933017B (zh) 2009-03-24 2009-03-24 文件检索装置、文件检索***和文件检索方法

Country Status (3)

Country Link
JP (1) JPWO2010109594A1 (zh)
CN (1) CN101933017B (zh)
WO (1) WO2010109594A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012174741A1 (en) * 2011-06-24 2012-12-27 Google Inc. Determining cross-language query suggestion based on query translations
CN102364469B (zh) * 2011-10-09 2016-08-03 北京百度网讯科技有限公司 一种对例句检索结果进行排序的方法及装置
JP5697256B2 (ja) * 2011-11-24 2015-04-08 楽天株式会社 検索装置、検索方法、検索プログラム及び記録媒体
CN104572642A (zh) * 2013-10-10 2015-04-29 腾讯科技(深圳)有限公司 关键字搜索方法和装置
CN105389344A (zh) * 2015-10-21 2016-03-09 南方电网科学研究院有限责任公司 一种自助式查新方法及***
CN106708808B (zh) * 2016-12-14 2020-01-14 东软集团股份有限公司 一种信息挖掘方法及装置
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151253A (ja) * 1991-11-29 1993-06-18 Canon Inc 文書検索装置
JPH08212229A (ja) * 1995-02-01 1996-08-20 Fuji Xerox Co Ltd 情報検索装置
US5956740A (en) * 1996-10-23 1999-09-21 Iti, Inc. Document searching system for multilingual documents
JPH11154164A (ja) * 1997-11-21 1999-06-08 Hitachi Ltd 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP3917349B2 (ja) * 2000-05-30 2007-05-23 富士通株式会社 文字認識結果を利用して情報を検索する検索装置および方法
JP3328913B1 (ja) * 2001-08-03 2002-09-30 学校法人 慶應義塾 多言語文献検索システム
JP2005011260A (ja) * 2003-06-20 2005-01-13 Canon Sales Co Inc 文書管理装置、文書管理システム及び文書管理用プログラム
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置

Also Published As

Publication number Publication date
JPWO2010109594A1 (ja) 2012-09-20
WO2010109594A1 (ja) 2010-09-30
CN101933017A (zh) 2010-12-29

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理***及方法
CN100474301C (zh) 基于数据挖掘获取词或词组单元译文信息的***和方法
CN101933017B (zh) 文件检索装置、文件检索***和文件检索方法
CN103544210B (zh) 一种识别网页类型的***和方法
CN100416570C (zh) 一种基于问答库的中文自然语言问答方法
CN102023995B (zh) 语音检索设备和语音检索方法
US20120166414A1 (en) Systems and methods for relevance scoring
CN102567509B (zh) 视觉信息辅助的即时通信方法及***
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
CN102662936B (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
WO2015043075A1 (zh) 面向微博的情感实体搜索***
US7548845B2 (en) Apparatus, method, and program product for translation and method of providing translation support service
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和***
CN115422371A (zh) 一种基于软件测试知识图谱的检索方法
JP4426041B2 (ja) カテゴリ因子による情報検索方法
TW202022635A (zh) 自適應性調整關連搜尋詞的系統及其方法
US9305103B2 (en) Method or system for semantic categorization
CN115617965A (zh) 一种语言结构大数据的快速检索方法
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
Mendes et al. Just. Ask—A multi-pronged approach to question answering
EA002016B1 (ru) Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов
JP2011150603A (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130703

Termination date: 20210324