CN101350027A - 内容检索设备和内容检索方法 - Google Patents
内容检索设备和内容检索方法 Download PDFInfo
- Publication number
- CN101350027A CN101350027A CNA2008101307740A CN200810130774A CN101350027A CN 101350027 A CN101350027 A CN 101350027A CN A2008101307740 A CNA2008101307740 A CN A2008101307740A CN 200810130774 A CN200810130774 A CN 200810130774A CN 101350027 A CN101350027 A CN 101350027A
- Authority
- CN
- China
- Prior art keywords
- character string
- information
- classification
- dictionary
- correlation degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供内容检索设备和内容检索方法。一种内容检索设备,具有:内容存储单元,其中存储了与一个或多个字符串相关的多个内容;词库存储单元,其中存储了词库,所述词库包括字符串之间的垂直关系信息;输入单元,字符串是通过所述输入单元输入的;提取单元,通过使用所述词库并且基于关联程度信息来提取与输入字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据所述字符串之间的垂直关系信息确定了所述数字值;以及检索单元,所述检索单元检索与相关字符串和输入的字符串相关的内容。
Description
技术领域
本发明涉及对内容进行检索,尤其涉及对与输入的字符串相关的内容进行检索的内容检索设备和内容检索方法。
背景技术
近年来,随着数字技术的发展,已经广泛开发了对大量数字内容进行有效检索的技术。
就这种技术而言,日本专利申请公开(JP-A)2005-348071公开了一种产生电视广播节目等的设备。该设备检索包括输入关键词或与输入关键词相关的相关关键词的内容,并且连同其优先级一起输出所述内容。
而且,JP-A 9-120401公开了一种方法,在该方法中,针对基于大量句子而被进行语形学分析的词,来计算基于同现数据和出现频率的词之间的语义距离。通过分级排列基于所述距离形成的组来构建词库。
Kotaro Nakayama、Takahiro Hara、和Shojiro Nishio在DBSJLetters,Vol.5,No.4,pp.41-44,2007发表的“Thesaurus Constructionfrom Large-Scale Web Dictionaries”公开了一种通过采掘诸如Wikipedia之类的大规模网络词典来构建词库的方法,并且提出了限制搜索距离和计算近似解的算法来作为对词之间的关联程度进行计算的方法。
在前述JP-A 2005-348071公开的技术中,不仅通过使用输入关键词而且通过使用相关关键词来检索内容。如何构建用来获取相关关键词的词典或词库是关键,但是JP-A 2005-348071中并未公开如何构建用来获取相关关键词的词典或词库这一点。
而且,在前述JP-A 9-120401公开的技术中,这一点中要被解决的一个问题是必需在构建词库的时刻准备足够量的句子数据。另外,在该技术中,仅仅通过建立正式同现来机械地产生分级结构。
这样,传统技术存在以下问题:由于没有充分准备作为字符串存在的关键词,所以不能检索大范围的内容。
而且,在前述文献“Thesaurus Construction from Large-Scale WebDictionaries”公开的技术中,在计算多个说明之间的关联强度时,需要复杂的矩阵计算,在该矩阵计算中,列元素的数量和行元素的数量是说明的总数量。其中存在这样的问题:当构建词库时,必需进行大规模计算。
发明内容
考虑到上述缺点,本发明提供了一种内容检索设备和内容检索方法,其中可通过使用词库来检索与字符串相关的大范围内容。
为了实现上述目的,本发明的第一方面是一种内容检索设备,包括:内容存储单元,其中存储了与一个或多个字符串相关的多个内容;词库存储单元,其中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系;输入单元,字符串是通过所述输入单元输入的;提取单元,通过使用所述词库存储单元所存储的词库并且基于关联程度信息来提取与通过所述输入单元输入的输入字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系信息确定了所述数字值;以及检索单元,其从所述内容存储单元所存储的内容中检索与由所述提取单元提取的相关字符串和输入的字符串相关的内容。
根据本发明的第一方面,在所述内容存储单元中存储了与一个或多个字符串相关的多个内容。在所述词库存储单元中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系。字符串是通过所述输入单元输入的。提取单元通过使用所述词库存储单元所存储的词库并且基于关联程度信息来提取与通过所述输入单元输入的输入字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系信息确定了所述数字值。检索单元从所述内容存储单元所存储的内容中检索与由所述提取单元提取的相关字符串和输入的字符串相关的内容。这样,可提供一种内容检索设备,所述内容检索设备可以通过基于关联程度信息提取相关字符串来检索与字符串相关的大范围内容,其中所述关联程度信息是由数字值表达的,所述数字值是根据垂直关系信息而确定的。
本发明的第一方面的内容检索设备可被构造为,还包括计算单元,基于所述词库中的字符串之间的距离来计算所述关联程度信息,其中,当所述提取单元提取出相关字符串时,所述提取单元提取了由所述计算单元预先计算出的关联程度信息大于或等于预定值的相关字符串。
根据上述结构,消除了每次执行搜索时搜索词库和计算关联程度的处理。因此,可极大缩短检索所需的处理时间。
本发明的第一方面的内容检索设备还可包括获取单元(获取装置),用来获取字符串信息,所述字符串信息包括多个字符串和表达了所述多个字符串中的字符串之间的关系的关系信息;和词库构建单元,基于由所述获取单元获取的字符串信息,通过在所述词库中反映所述字符串信息来自动重建所述词库。所述获取单元可被构造为包括上述输入单元。
根据上述结构,可通过在所述词库中反映所述字符串来自动重建所述词库。因此,可丰富所述词库中包括的字符串。
在本发明的第一方面的内容检索设备中,所述字符串信息可包括所属类别信息,所述所属类别信息包括所述多个字符串中的各个字符串与所述各个字符串所属的类别彼此对应的信息、和使得所述类别和所述类别所属的类别彼此对应的信息。
根据上述结构,所述字符串信息可包括使得多个字符串中的各个字符串和所述字符串所属的类别彼此对应的信息、和使得所述类别和所述类别所属的类别彼此对应的信息。
在本发明的第一方面的内容检索设备中,可通过从所属类别信息确定属于上位类别的第二字符串并且使得所述第二字符串成为第一字符串的上位词,来自动重建所述词库,所述上位类别是作为所述多个字符串中的一个字符串的第一字符串所属的类别所属的类别。
根据上述结构,可从所述类别之间依存关系来构建所述词库中的垂直关系。
在本发明的第一方面的内容检索设备中,可通过从所属类别信息确定属于下位类别的第三字符串并且使得所述第三字符串成为所述第一字符串的下位词,来自动重建所述词库,所述下位类别是属于所述第一字符串所属类别的类别。
根据上述结构,可从所述类别之间依存关系来构建所述词库中的垂直关系。
在本发明的第一方面的内容检索设备中,所述字符串信息还可包括作为与所述多个字符串中的各个字符串相关的信息的描述信息、和基于与所述多个字符串中的第四字符串相关的描述信息来使所述多个字符串中的第五字符串与所述第四字符串相关联的关联信息,并且所述词库构建单元可通过使所述第五字符串成为既不是所述第四字符串的上位词又不是所述第四字符串的下位词的并列词来自动重建所述词库,其中在所述关联信息中所述第四字符串与所述第五字符串相关联。
根据上述结构,可通过使用与给定的第四字符串相关的描述信息中所包括的字符串作为并列词来构建所述词库。
本发明的第一方面的内容检索设备可被构造为还包括第二计算单元,所述第二计算单元基于所述词库计算所述关联程度信息,其中,从所述所属类别信息中,所述第二计算单元确定属于所述第二字符串所属类别的类别,并且所述第二计算单元执行计算,从而所述类别的数量越多,则所述第一字符串和所述第二字符串之间的关联程度信息越减少。
根据上述结构,可使具有很多下位词的第二字符串和第一字符串之间的关联程度降低。
本发明的第一方面的内容检索设备可被构造为,从所述所属类别信息中,所述第二计算单元确定属于第三字符串所属类别的类别,并且第二计算单元执行计算,从而所述类别的数量越多,则所述第一字符串和所述第三字符串之间的关联程度信息越减少。
根据上述结构,可使具有很多上位词的第三字符串和第一字符串之间的关联程度降低。
本发明的第一方面的内容检索设备可被构造为,从所述关联信息中,所述第二计算单元执行计算,从而除与所述第四字符串相关的所述第五字符串之外的字符串的数量越多,则所述第四字符串和所述第五字符串之间的关联程度信息越减少。
根据上述结构,相关的并列词的数量越多,则可使关联程度降得越低。
本发明的第二方面是内容检索方法,包括:提供内容存储单元,其中存储了与一个或多个字符串相关的多个内容;提供词库存储单元,其中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系;接收与作为检索目标的内容相关的字符串;通过使用所述词库存储单元所存储的词库并且基于关联程度信息来提取与所述字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系信息确定了所述数字值;以及从所述内容存储单元所存储的内容中检索与提取的相关字符串和输入的字符串相关的内容。
附图说明
图1是示出了个人计算机(内容检索设备)的结构的示图;
图2A和图2B是示出了内容表和关键词表的示例;
图3是示出了词库的示例的示图;
图4是示出了关联程度表的示图;
图5是示出了内容检索处理的流程图;
图6是示出了关联程度计算处理的流程图;
图7是示出词典数据的示例的示图;
图8是示出了词典数据的另一示例的示图;
图9是示出了词库重建处理的流程图(第一方法);
图10A、图10B、和图10C是示出了各种类型的表的示图;
图11是示出了关联表的示图;
图12是示出了关联程度表的示图;
图13是示出了词库重建处理的流程图(第二方法);
图14是示出了上位词提取处理的流程图;
图15是示出了下位词提取处理的流程图;
图16是示出了并列词提取处理的流程图;以及
图17是示出了关联程度计算处理的流程图。
具体实施方式
以下将参照附图来说明本发明的一个示例性实施例。注意,在本示例性实施例中,把通过个人计算机实现内容检索设备的情况作为例子来描述。而且,在以下描述中,字符串被解释为关键词。
首先,将通过使用图1来描述个人计算机12的结构。个人计算机12包括CPU(中央处理器)60、ROM(只读存储器)61、RAM(随机存取存储器)62、HDD(硬盘驱动器)63、显示部分64、操作输入部分65、和通信接口66,它们分别通过总线B连接。
CPU 60管理个人计算机12的整体操作。由CPU 60来执行稍后将进行描述的程序。ROM 61是存储了启动程序的非易失性存储器,所述启动程序在个人计算机12等的启动时刻工作。RAM 62是装载了OS(操作***)、程序和数据的易失性存储器。HDD 63是存储了将在稍后描述的内容表、关键词表、词库、关联程度表、OS、和程序等的非易失性存储器。HDD 63与内容存储单元和词库存储单元相对应。
显示部分64显示诸如检索到的内容之类的各种预定信息。在用户操作个人计算机12的情况下并且当用户将诸如关键词等信息输入到个人计算机12时使用操作输入部分65。通信接口66是用来与诸如其它个人计算机之类的外部设备通信的接口,并且是用来执行通信的NIC(网络接口卡)、或USB装置等。
接下来将通过使用图2A和图2B来描述前述内容表和关键词表。图2A示出了内容表,并且图2B示出了关键词表。
内容表是存储了与作为检索目标的内容相关的信息的表。如图2A所示,内容表被构造为包括ID和文件名。其中,ID是用来唯一说明内容的字符串、或数字值等。文件名是内容真实所在的文件名或路径等。注意,内容可被直接存储在数据库中而非被作为文件处理。
图2B所示的关键词表是存储了内容与之相关的关键词的表,所述内容存储在内容表中。如图2B所示,关键词表被构造为包括ID和标签。其中,ID是用来唯一说明前述内容的字符串、或数字值等,并且与所述内容表的ID相对应。而且,与对应于ID的内容相关联的关键词被存储在标签中。例如,图2A的内容表中与ID 1和文件名“richtasting.mpg”相关的关键词是图2B中ID为1的标签所示的猪骨拉面。
这样,与一个或多个关键词相关的多个内容被存储在HDD 63中。
接下来,将通过使用图3来描述词库的示例。词库是所谓的“同义词词典”,其中绘出了词之间的关联。如图3所示,词库包括各个关键词、以及表达各个关键词之间的上位/下位/并列关系的信息。例如,在图3中,拉面的上位概念是面条,并且拉面的下位概念是猪骨拉面。拉面的并列概念是荞麦面(荞麦粉做的面条)等。
这样,该示例性实施例中的词库包括示出了关键词之间的垂直关系的信息,其中基于所述关键词的含义来确定所述垂直关系。
接下来通过使用图4来描述前述关联程度表。关联程度表是在预先计算关键词之间的关联程度时存储了关联程度等的表。
如图4所示,关联程度表被构造为包括ID、关键词、相关关键词、和关联程度(关联程度信息)。
其中,ID是用来唯一说明关键词和被称作相关关键词的关键词的组合的字符串、或数字值等。所述关键词和相关关键词表达了用来示出关联程度的一对(两个)关键词。注意,所述关键词和相关关键词可以是如图4所示的关键词自身,或者可使用图2A中所示的关键词表的ID。
关联程度是表达了形成了一对的两个关键词在多大程度上关联的数字值。该值越高,则可认为关键词的关联度越高。以下将描述计算关联程度的方法。
接下来,将通过使用流程图来说明由CPU 60通过使用上述表和词库来执行的处理。
首先,以下将通过使用图5来说明内容检索处理。最初,在步骤101,用户通过操作输入部分65来输入关键词。注意,在以下描述中在此输入的关键词被称作输入关键词。而且,该输入是对用来检索与关键词相关的内容的关键词进行的输入。在此情况下,关键词可以是单一关键词或多个关键词。而且,用户选择的一个或多个内容或附在内容上的元数据中所包括的关键词可被用作在此输入的关键词,而非直接输入关键词。
在接下来的步骤102,相关的一个或多个关键词是从词库提取的。通过使用输入关键词来搜索词库,并且连同前述关联程度一起列出相关的关键词。通过提取关联程度大于或等于预定值的关键词,或通过在列出的相关关键词中使用具有最高关联程度的10个或更少的顶部关键词等,来缩减在此提取的相关关键词。注意,存储了预先计算出的关联程度的前述关联程度表可被引用,或者可在步骤102中计算关联程度。
这样,在步骤102,通过使用词库,并且基于由数字值表达了所述词库中所包括的字符串之间的关联的程度的关联程度,提取与从操作输入部分65输入的输入关键词相关的相关关键词。
在后续步骤103,通过使用关键词表来从内容表中检索通过上述处理提取的一个或多个相关关键词、和与输入关键词相关的内容。
在接下来的步骤104,选择从被检索到的内容输出的内容。这是对要被输出为来自被检索到的多个内容的搜索结果的内容进行的选择。可考虑以下将描述的两种方法作为在此情况下进行选择的方法,但是进行选择的方法不限于这些方法。
第一选择方法是使用关键词的关联程度的方法。具体地讲,通过使得内容被检索的输入关键词的关联程度、或通过相关关键词的关联程度来评估内容,并且从具有最高关联程度的顶部的N个内容或具有大于或等于预定水平的关联程度的内容的角度来选择要被输出的内容。
而且,在此情况下,对于通过使用多个输入关键词或相关关键词而被检索到的内容来说,可以使这些关键词的关联程度的和是新的更高的关联程度。
其它方法是从每一关键词选择给定数量内容的方法。具体地讲,这是针对每一输入关键词或相关关键词来对通过使用输入关键词或相关关键词检索到的一个或多个内容进行选择的方法。
或者,可使用这样的方法来进行选择,针对每一个输入关键词或相关关键词,选择通过使用输入关键词或具有高相关程度的相关关键词检索到的多个内容。而且,可使用这样的方法来进行选择,针对输入关键词或相关关键词的每一个或全部,选择通过使用输入关键词或相关程度高于或等于给定值的相关关键词检索到的一个或多个内容。
当这样选择要被输出的内容时,在步骤105,被选择的内容被输出到(例如)显示部分64。可把被检索到的内容存储为文件或数据库,而非输出到显示部分64。
接下来将描述对关联程度的计算。如上所述,在关联程度表中存储了计算出的关联程度。以下将通过使用图6来描述该关联程度计算处理。
首先,在步骤201,读取词库中的全部关键词。该处理是把存储在HDD 63中的词库中的关键词读取到RAM 62的处理。
在接下来的步骤202,列出了与一个关键词相关的相关关键词。就RAM 62读取的关键词之一而言,该处理是搜索词库并列出全部相关关键词的处理。
这里的相关关键词可以仅仅是相关关键词中的直接上位、直接下位、和并列的关键词,或者可以是在词库的分级结构中通过任意数量的步骤到达的关键词。使用图3所示的词库作为示例,与“猪骨酱油拉面”直接相关的相关关键词如下。
上位:“拉面”
下位:“拉面野郎”、“拉面店”
(“拉面野郎”是著名的拉面馆。这里,“拉面店”意味着任何在名字中包含“店”这个字的拉面馆。)而且,当将范围扩展到可以通过两步到达的词时,除了以上列出的词之外,可以加入以下关键词。
上位:“面条”
下位:“吉原店”、“八角店”、“直系野郎”、“Maruya”
并列:“猪骨拉面”、“酱油拉面”、“味噌酱拉面”
(“吉原店”、“八角店”、“直系野郎”、“Maruya”是拉面馆的名字。)在这样列出了相关关键词之后,在步骤203计算关联程度。对于列出的相关关键词的每一个而言,该处理是计算在步骤202所述的一个关键词关联的程度的处理。
尽管存在计算关联程度的各种方法,但是本示例性实施例中所使用的方法基于作为根据垂直关系信息而确定的数字值的距离(步骤数),所述垂直关系信息表达了词库中的关键词之间的垂直关系。因为这样通过所述数量的步骤来确定距离,所以该距离是词库中的关键词之间的距离。例如,假设关键词之间的距离为S,则通过以下公式来定义关联程度R。
R=int(100/(S+1))
在此,int()意味着在括号内的值为正的情况下,该值的小数点之后的数被省略,从而使得该值为整数。例如,int(4.5)为4。
而且,如以上公式所示,如果该距离很大,则关联程度很小。即,距离越近,关联程度越高。
例如,在图3中,“拉面店”和“酱油拉面”之间的距离S为3。因此,通过应用上述公式,关联程度R是25。
计算关联程度的方法不限于此,并且可以是距离越大则关联程度越低的任何方法。例如,可基于各个关键词之间的同现关系等来计算关联程度。这样,在本示例性实施例中,可通过使用表达了相关字符串之间的关系的垂直关系信息来提取与字符串相关的字符串。因此,通过基于由根据垂直关系信息确定的数字值表达的关联程度信息来提取相关字符串,可检索与字符串相关的大范围内容。
在步骤204,在连同ID、关键词、和相关关键词的前述关联程度表中记录这样计算出的关联程度。
在后续步骤205,判断是否已经针对全部关键词完成了计算关联程度的处理。如果还未针对全部关键词完成计算关联程度的处理,则针对还未被处理的关键词之一来执行步骤202的处理。另一方面,如果针对全部关键词完成了处理,则处理结束。
通过该处理,包括在词库中的字符串之间的关联程度被预先计算。当这样预先计算了关联程度时,图4所示的关联程度预先计算表被引用,并且如果仅提取了包括关键词与之一致的关键词的记录,则可获得相关关键词和关联程度。这样,消除了每次执行搜索时搜索词库和计算关联程度的处理,因此,可极大地缩短检索所需的处理时间。
接下来将说明对词库的重建。如上所述,词库包括表达了关键词之间的垂直关系的垂直关系信息,所述垂直关系是基于关键词的含义确定的。在此情况下,可通过使用包括了多个关键词的字符串信息和垂直关系信息来重建词库,所述垂直关系信息表达了所述多个关键词之间的垂直关系。
首先,将说明前述字符串信息(以下将被简称为词典数据的数字词典数据)。
图7是在词库构建时使用的词典数据的示例。这样,需要至少具有词典数据的关键词之间的垂直关系的数据。例如,在图7的示例中,更具体地包括在“荞麦面”中的“Togakushi荞麦面”、“Izumo荞麦面”、“和Wanko荞麦面”(来自日本的不同地区的特产荞麦面的种类)和这些垂直关系被用来构建词库。
除了词典数据的上述示例之外,图8所示的XML数据也可被用作词典数据。在作为图8所示的路径标签的类别之下包括三个类别标签,并且其名称属性是“荞麦面”(荞麦粉做的面条)、“乌冬面”(粗小麦做的面条)、和“拉面”。而且,在搜索其名称属性为“荞麦面”的类别标签时,包括三个物品标签,标签其名称属性是“Togakushi荞麦面”、“Izumo荞麦面”、“和Wanko荞麦面”,标签这些名称属性对应于关键词。
垂直关系以这种方式变得清楚并且能够容易地获得分级结构的词典数据是优选的。而且,其格式不限于XML,而且只要是可以清楚理解分级结构的说明格式,就可以使用文本数据或二进制数据。而且,在此,从一个XML数据获得了整个分级结构,但是可以在词典数据的各项中描述垂直关系。
以下将通过使用图9的流程图来描述从图8所示的上述词典数据构建词库的词库重建处理。
首先,在步骤301,获取了词典数据。例如,可通过上述通信接口66从外部设备获取词典数据,或者可获取预先存储在HDD 63中的数据。
在接下来的步骤302,对词典数据的结构进行分析。具体地讲,提取词典数据中的各个项之间的垂直关系,并且确定各个项之间的上位/下位/并列关系。对于上位/下位关系来说,如果已经存在具有诸如图8所示的分级结构的词典数据的索引,则可照原样使用该信息。具体地讲,例如,这是诸如“拉面”是“猪骨酱油拉面”的上位概念之类的信息。
而且,可通过使用来自词典数据的文本消息的修饰成分来导出包含关系。例如,在图7的词典数据中的项“Hakkakuya”中存在描述“Hakkakuya是一种拉面店”的情况下,可从修饰成分导出“拉面店”是“Hakkakuya”的上位概念。
注意,对于并列关系而言,可考虑使用具有并列的关键词或相似的上位关键词的关键词的方法。例如,根据图7的字典数据,“直系野郎”和“Maruya”具有共同的上位关键词“拉面野郎”,因此它们可以被认为是彼此并列的。
分析词典数据的结构的方法不限于上述方法,例如,可使用词典数据的各项之间的链接信息等。
在这样分析了词典数据的结构之后,在步骤303,通过在词库中反映词典数据来自动重建所述词库。具体地讲,基于在步骤302获得的各个关键词之间的上位/下位/并列关系来构建词库。其后,在步骤304,例如,通过把所构建的词库输出到HDD 63来存储该词库。
这样,通过使用图8的词典数据而构建的词库是上述图3所示的词库。
根据上述处理,可通过将词典数据反映在词库中来重建词库。因此,可丰富所述词库中包括的字符串。而且,可通过上述处理来自动重建所述词库。
以下将描述不同于上述词库构建方法(第一方法)的第二方法。首先,以下将通过使用图10A、图10B、和图10C来描述包括所属类别信息的字符串信息,所述所属类别信息包括所述多个字符串中的各个字符串和所述各个字符串所属的类别被对应设置的信息、和前述类别和这些类别所属的类别被对应设置的信息。注意,在以下说明中,多个字符串中的每一字符串均被称作标题名称。
图10A示出了标题名称和作为与所属标题名称相关的信息的描述被对应设置的标题表。如图10A所示,例如,标题名称“面条”被与描述“面条是…”对应设置。而且,图10A所示的ID被用来对被彼此对应设置的标题名称和描述进行唯一标识。
图10B是类别名称和用来唯一识别这些类别名称的ID被彼此对应设置的类别表。如图10B所示,ID“A”与“面条”相对应。
图10C示出了列出了所属类别信息的所属类别表,所述所属类别信息包括标题名称和所述标题名称所属的类别(所属类别ID)被彼此对应设置的信息、和这些类别和这些类别所属的类别(所属类别ID)被彼此对应设置的信息。在图10C中,通过使用ID来表达信息。
具体地讲,在图10C中,例如,ID“4”代表了猪肉片拉面,并且ID“B”代表了拉面。因此,图10C示出了猪肉片拉面属于拉面类。而且,因为ID“C”代表了荞麦面,并且ID“A”代表了面条,所以图10C示出了荞麦面的类别属于面条的类别。
接下来,将通过使用图11来描述多个字符串中的第五字符串与所述多个字符串中的第四字符串相关联的关联信息。在该关联信息中,从前述标题表(见图10A)可见,第四字符串是标题名称,并且包括在与所述标题名称相对应的描述中的字符串是第五字符串。
图11中示出作为两个ID彼此关联的关联信息的关联表。具体地讲,图11示出了ID“5”(荞麦面)和ID“6”(乌冬面)是关联的,并且ID“4”(猪肉片拉面)和ID“2”(猪肉片)是关联的。这示出了例如HTML中的链接,并且如果在标题名称“荞麦面”的描述中提及的“乌冬面”被点击,则显示“乌冬面”。
接下来通过使用图12来说明示出了两个标题名称的关联程度和关联类型的关联程度表。
图12中示出了标题名称1、标题名称2、关联程度、和关联类型。其中,关联程度表达了标题名称1和标题名称2的关联程度。关联类型示出了上位词、下位词、和并列词之间的关系,标题名称2与标题名称1相关。在此,A作为B的上位词被用在A包括B的情况。在此,A和B的例子是(例如)A为拉面并且B为猪肉片拉面的情况。A作为B的下位词被用在B包括A的情况。在此,A和B的例子是(例如)B为拉面并且A为猪肉片拉面的情况。而且,A是B的并列词被用在A既不是上位词也不是下位词的情况。在此,A和B的例子是(例如)A是乌冬面并且B是荞麦面的情况。
在此存在三种计算关联程度的方法。首先,在一种计算方法中,从所属类别表确定属于上位类别的标题名称2,所述上位类别是标题名称1的类别所属的类别,标题名称1是多个字符串中的字符串。而且,从所属类别表确定属于标题名称2的类别的类别。计算关联程度,使得这些类别的数量越多,则标题名称1和标题名称2之间的关联程度信息越减少。
在第二计算方法中,从所属类别表确定属于下位类别的标题名称2,所述下位类别是属于标题名称1的类别的类别,标题名称1是多个字符串中的字符串。而且,从所属类别表确定标题名称2的类别所属的类别。计算关联程度,使得这些类别的数量越多,则标题名称1和标题名称2之间的关联程度信息越减少。
而且,第三计算方法计算关联程度,使得除与标题名称1相关的标题名称2以外的标题名称的数量越多,则标题名称1和标题名称2之间的关联程度信息越减少。
在上述表中给出的信息是对公众开放作为互联网上的数字百科全书的数据库的信息,其为词典数据。
以下将描述通过使用前述表来执行的第二方法中的处理。首先,将通过使用图13的流程图来描述第二方法的全部处理。
在步骤401,执行提取前述上位词的上位词提取处理。在步骤402,执行提取前述下位词的下位词提取处理。在步骤403,执行提取前述并列词的并列词提取处理。其后,在步骤404,执行计算前述关联程度的关联程度计算处理。
以下将描述上述步骤。首先,通过示图14的流程图来说明步骤401的上位词提取处理。在初始步骤501,获取一个标题名称,在步骤502,搜索标题名称所属的类别A。其后,在步骤503,搜索类别A所属的类别B。在步骤504,提取属于类别B的标题名称作为上位词。在接下来的步骤505,判断是否针对全部标题名称完成处理。如果未完成,则过程再次返回到步骤501的处理。如果完成,则处理结束。
以下将通过使用图15的流程图来说明步骤402的下位词提取处理。首先,在步骤601,获取一个标题名称,在步骤602,搜索标题名称所属的类别A。其后,在步骤603,搜索属于类别A的类别B。在步骤604,提取属于类别B的标题名称作为下位词。在接下来的步骤605,判断是否针对全部标题名称完成处理。如果未完成,则过程再次返回到步骤601的处理。如果完成,则处理结束。
以下将通过使用图16的流程图来说明步骤403的并列词提取处理。首先,在步骤701,获取一个标题名称,在步骤702,通过使用前述关联表来把相关的标题名称提取为并列词。其后,在步骤703,判断是否针对全部标题名称完成处理。如果未完成,则过程再次返回到步骤701的处理。如果完成,则处理结束。
接下来,将通过使用图17的流程图来描述步骤404的关联程度计算处理。首先,在步骤801,通过使用关联表对来自标题名称1的链接pA的数量进行总计。在接下来的步骤802,搜索属于标题名称2的类别A,在接下来的步骤803,搜索属于类别A的类别B。在此情况下,使其成为上位类别。其后,在步骤804,对属于类别B的类别pB的数量进行总计。在接下来的步骤805,关联程度被计算为100-(logpA)×(logpB)。
如上所述,在本示例性实施例中,在检索相关内容时引用的词库可以自己产生。而且,因为例如,本发明的示例性实施例使用了互联网上的数字百科全书(词典数据),在该数字百科全书中清楚地获得了上位词/下位词/并列词关系,可获得更准确的分级结构。
这样,本示例性实施例可提供一种内容检索设备,其可从词典数据中有效地构建在检索与字符串相关的内容时使用的词库。
GoogleTM的PageRank概念是计算与以类似方式输入的关键词相关的内容的距离的方法。为了基本说明该方法,到页面的链接的数量越多,或者来自具有很大数量的链接所链接到的页面的链接的数量越多,则关联程度越高。在此方法中,必需从全部页面之间的链接关系计算海量特征值矢量。然而,在本示例性实施例中,可以以较低的成本来计算关键词的关联程度,这是因为可通过仅对关键词的直接邻近位置的关键词的数量进行计算来计算关联程度。
上述各个流程图中的处理流程是例子。当然,在不偏离本发明的要点的范围内,可切换所述处理的次序,可添加新的步骤,或者可删除非必要的步骤。
Claims (20)
1.一种内容检索设备,包括:
内容存储单元,其中存储了与一个或多个字符串相关的多个内容;
词库存储单元,其中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系;
输入单元,字符串是通过所述输入单元输入的;
提取单元,通过使用所述词库存储单元所存储的词库并且基于关联程度信息来提取与通过所述输入单元输入的输入字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系信息确定了所述数字值;以及
检索单元,所述检索单元从所述内容存储单元所存储的内容中检索与由所述提取单元提取的相关字符串和输入的字符串相关的内容。
2.如权利要求1所述的内容检索设备,还包括第一计算单元,其基于所述词库中的字符串之间的距离来计算所述关联程度信息,
其中,当所述提取单元提取出相关字符串时,所述提取单元提取了由所述第一计算单元预先计算出的关联程度信息大于或等于预定值的相关字符串。
3.如权利要求1所述的内容检索设备,还包括:
获取单元,用来获取字符串信息,所述字符串信息包括多个字符串和表达了所述多个字符串中的字符串之间的关系的关系信息;以及
词库构建单元,基于由所述获取单元获取的字符串信息,通过在所述词库中反映所述字符串信息来自动重建所述词库。
4.如权利要求3所述的内容检索设备,其中,所述字符串信息包括所属类别信息,所述所属类别信息包括所述多个字符串中的各个字符串与所述各个字符串所属的类别彼此对应的信息、和使得所述类别和所述类别所属的类别彼此对应的信息。
5.如权利要求4所述的内容检索设备,其中,所述词库构建单元通过从所属类别信息确定属于上位类别的第二字符串并且使得所述第二字符串成为第一字符串的上位词,来自动重建所述词库,所述上位类别是作为所述多个字符串中的一个字符串的第一字符串的所属类别所属的类别。
6.如权利要求5所述的内容检索设备,其中,所述词库构建单元通过从所属类别信息确定属于下位类别的第三字符串并且使得所述第三字符串成为所述第一字符串的下位词,来自动重建所述词库,所述下位类别是属于所述第一字符串所属类别的类别。
7.如权利要求6所述的内容检索设备,其中,所述字符串信息还包括作为与所述多个字符串中的各个字符串相关的信息的描述信息、和基于与所述多个字符串中的第四字符串相关的描述信息来使所述多个字符串中的第五字符串与所述第四字符串相关联的关联信息,并且
所述词库构建单元通过使所述第五字符串成为既不是所述第四字符串的上位词又不是所述第四字符串的下位词的并列词来自动重建所述词库,其中在所述关联信息中所述第四字符串与所述第五字符串相关联。
8.如权利要求7所述的内容检索设备,还包括第二计算单元,其基于所述词库计算所述关联程度信息,
其中,从所述所属类别信息中,所述第二计算单元确定属于所述第二字符串所属类别的类别,并且所述第二计算单元执行计算,从而所述类别的数量越多,则所述第一字符串和所述第二字符串之间的关联程度信息越减少。
9.如权利要求7所述的内容检索设备,还包括第二计算单元,其基于所述词库计算所述关联程度信息,
其中,从所述所属类别信息中,所述第二计算单元确定属于第三字符串所属类别的类别,并且第二计算单元执行计算,从而所述类别的数量越多,则所述第一字符串和所述第三字符串之间的关联程度信息越减少。
10.如权利要求7所述的内容检索设备,还包括第二计算单元,其基于所述词库计算所述关联程度信息,
其中,从所述关联信息中,所述第二计算单元执行计算,从而除与所述第四字符串相关的所述第五字符串之外的字符串的数量越多,则所述第四字符串和所述第五字符串之间的关联程度信息越减少。
11.一种内容检索方法,包括:
提供内容存储单元,其中存储了与一个或多个字符串相关的多个内容;
提供词库存储单元,其中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系;
接收与作为检索目标的内容相关的字符串;
通过使用所述词库存储单元所存储的词库并且基于关联程度信息来提取与所述字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系信息确定了所述数字值;以及
从所述内容存储单元所存储的内容中检索与提取的相关字符串和输入的字符串相关的内容。
12.如权利要求11所述的内容检索方法,其中,提取相关字符串的步骤包括,提取关联程度信息大于或等于预定值的相关字符串,所述关联程度信息是基于词库中的字符串之间的距离预先计算出的。
13.如权利要求11所述的内容检索方法,还包括:
获取字符串信息,所述字符串信息包括多个字符串和表达了所述多个字符串中的字符串之间的关系的关系信息;以及
基于获取的字符串信息,通过在所述词库中反映所述字符串信息来自动重建所述词库。
14.如权利要求13所述的内容检索方法,其中,所述字符串信息包括所属类别信息,所述所属类别信息包括所述多个字符串中的各个字符串与所述各个字符串所属的类别彼此对应的信息、和使得所述类别和所述类别所属的类别彼此对应的信息。
15.如权利要求14所述的内容检索方法,其中,重建所述词库的步骤包括,从所属类别信息确定属于上位类别的第二字符串并且使得所述第二字符串成为第一字符串的上位词,所述上位类别是作为所述多个字符串中的一个字符串的第一字符串的类别所属的类别。
16.如权利要求15所述的内容检索方法,其中,重建所述词库的步骤包括,从所属类别信息确定属于下位类别的第三字符串并且使得所述第三字符串成为所述第一字符串的下位词,所述下位类别是属于所述第一字符串所属类别的类别。
17.如权利要求16所述的内容检索方法,其中,所述字符串信息还包括作为与所述多个字符串中的各个字符串相关的信息的描述信息、和基于与所述多个字符串中的第四字符串相关的描述信息来使所述多个字符串中的第五字符串与所述第四字符串相关联的关联信息,并且
重建所述词库的步骤包括,使所述第五字符串成为既不是所述第四字符串的上位词又不是所述第四字符串的下位词的并列词,其中在所述关联信息中所述第四字符串与所述第五字符串相关联。
18.如权利要求17所述的内容检索方法,还包括基于所述词库计算所述关联程度信息,其中,从所述所属类别信息中,确定属于所述第二字符串所属类别的类别,并且计算所述关联程度信息,从而所述类别的数量越多,则所述第一字符串和所述第二字符串之间的关联程度信息越减少。
19.如权利要求17所述的内容检索方法,还包括基于所述词库计算所述关联程度信息,其中,从所述所属类别信息中,确定属于第三字符串所属类别的类别,并且计算所述关联程度信息,从而所述类别的数量越多,则所述第一字符串和所述第三字符串之间的关联程度信息越减少。
20.如权利要求17所述的内容检索方法,还包括基于所述词库计算所述关联程度信息,其中,从所述关联信息中,计算所述关联程度信息,从而除与所述第四字符串相关的所述第五字符串之外的字符串的数量越多,则所述第四字符串和所述第五字符串之间的关联程度信息越减少。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007-188797 | 2007-07-19 | ||
JP2007188797A JP2009026083A (ja) | 2007-07-19 | 2007-07-19 | コンテンツ検索装置 |
JP2007188797 | 2007-07-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101350027A true CN101350027A (zh) | 2009-01-21 |
CN101350027B CN101350027B (zh) | 2012-11-07 |
Family
ID=40265689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101307740A Active CN101350027B (zh) | 2007-07-19 | 2008-07-17 | 内容检索设备和内容检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090024616A1 (zh) |
JP (1) | JP2009026083A (zh) |
CN (1) | CN101350027B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957860A (zh) * | 2010-10-15 | 2011-01-26 | 北京思在信息技术有限责任公司 | 一种发布、搜索信息的方法及装置 |
CN103020049A (zh) * | 2011-09-20 | 2013-04-03 | 中国电信股份有限公司 | 搜索方法及搜索*** |
CN103177122A (zh) * | 2013-04-15 | 2013-06-26 | 天津理工大学 | 一种基于同义词的个人文件搜索方法 |
CN103294684A (zh) * | 2012-02-24 | 2013-09-11 | 鸿富锦精密工业(深圳)有限公司 | 关联词汇搜索***及方法 |
CN103314371A (zh) * | 2010-12-31 | 2013-09-18 | 肖岩 | 一种检索的方法和*** |
CN104836721A (zh) * | 2015-03-27 | 2015-08-12 | 小米科技有限责任公司 | 群组会话消息提醒方法及装置 |
CN110851459A (zh) * | 2018-07-25 | 2020-02-28 | 上海柯林布瑞信息技术有限公司 | 一种搜索方法及装置、存储介质、服务器 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5230358B2 (ja) * | 2008-10-31 | 2013-07-10 | キヤノン株式会社 | 情報検索装置、情報検索方法、プログラム及び記憶媒体 |
JP5364010B2 (ja) * | 2010-02-18 | 2013-12-11 | 株式会社Kddi研究所 | 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 |
US20130086059A1 (en) * | 2011-10-03 | 2013-04-04 | Nuance Communications, Inc. | Method for Discovering Key Entities and Concepts in Data |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
US6061675A (en) * | 1995-05-31 | 2000-05-09 | Oracle Corporation | Methods and apparatus for classifying terminology utilizing a knowledge catalog |
JPH09198400A (ja) * | 1996-01-17 | 1997-07-31 | Fuji Xerox Co Ltd | 情報検索装置 |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
JPH1091645A (ja) * | 1996-09-10 | 1998-04-10 | Oki Electric Ind Co Ltd | 情報検索方法 |
JP3518998B2 (ja) * | 1998-09-21 | 2004-04-12 | 日本電信電話株式会社 | 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体 |
DE10031351A1 (de) * | 2000-06-28 | 2002-01-17 | Guru Netservices Gmbh | Verfahren zur automatischen Recherche |
US20020059220A1 (en) * | 2000-10-16 | 2002-05-16 | Little Edwin Colby | Intelligent computerized search engine |
JP4739637B2 (ja) * | 2002-03-07 | 2011-08-03 | 株式会社東芝 | シソーラス構築支援装置およびシソーラス構築支援方法 |
WO2003079235A1 (en) * | 2002-03-12 | 2003-09-25 | Webchoir, Inc. | System and method for storing and retrieving thesaurus data |
JP2004029906A (ja) * | 2002-06-21 | 2004-01-29 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
TWI290687B (en) * | 2003-09-19 | 2007-12-01 | Hon Hai Prec Ind Co Ltd | System and method for search information based on classifications of synonymous words |
JP4366249B2 (ja) * | 2004-06-02 | 2009-11-18 | パイオニア株式会社 | 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置 |
US20080215313A1 (en) * | 2004-08-13 | 2008-09-04 | Swiss Reinsurance Company | Speech and Textual Analysis Device and Corresponding Method |
US7797299B2 (en) * | 2005-07-02 | 2010-09-14 | Steven Thrasher | Searching data storage systems and devices |
AU2005203250A1 (en) * | 2005-07-26 | 2007-02-15 | Victoria Lesley Redfern | Online contemporary and natural language core concept subject specific semantic thesaurus |
US20070219987A1 (en) * | 2005-10-14 | 2007-09-20 | Leviathan Entertainment, Llc | Self Teaching Thesaurus |
JP2007241888A (ja) * | 2006-03-10 | 2007-09-20 | Sony Corp | 情報処理装置および方法、並びにプログラム |
-
2007
- 2007-07-19 JP JP2007188797A patent/JP2009026083A/ja active Pending
-
2008
- 2008-07-14 US US12/172,751 patent/US20090024616A1/en not_active Abandoned
- 2008-07-17 CN CN2008101307740A patent/CN101350027B/zh active Active
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957860A (zh) * | 2010-10-15 | 2011-01-26 | 北京思在信息技术有限责任公司 | 一种发布、搜索信息的方法及装置 |
CN101957860B (zh) * | 2010-10-15 | 2014-06-18 | 北京思在信息技术有限责任公司 | 一种发布、搜索信息的方法及装置 |
CN103314371A (zh) * | 2010-12-31 | 2013-09-18 | 肖岩 | 一种检索的方法和*** |
CN103020049A (zh) * | 2011-09-20 | 2013-04-03 | 中国电信股份有限公司 | 搜索方法及搜索*** |
CN103294684A (zh) * | 2012-02-24 | 2013-09-11 | 鸿富锦精密工业(深圳)有限公司 | 关联词汇搜索***及方法 |
CN103177122A (zh) * | 2013-04-15 | 2013-06-26 | 天津理工大学 | 一种基于同义词的个人文件搜索方法 |
CN103177122B (zh) * | 2013-04-15 | 2017-04-26 | 天津理工大学 | 一种基于同义词的个人桌面文件搜索方法 |
CN104836721A (zh) * | 2015-03-27 | 2015-08-12 | 小米科技有限责任公司 | 群组会话消息提醒方法及装置 |
CN110851459A (zh) * | 2018-07-25 | 2020-02-28 | 上海柯林布瑞信息技术有限公司 | 一种搜索方法及装置、存储介质、服务器 |
Also Published As
Publication number | Publication date |
---|---|
JP2009026083A (ja) | 2009-02-05 |
CN101350027B (zh) | 2012-11-07 |
US20090024616A1 (en) | 2009-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101350027B (zh) | 内容检索设备和内容检索方法 | |
Bhagavatula et al. | Methods for exploring and mining tables on wikipedia | |
US8117185B2 (en) | Media discovery and playlist generation | |
US9058394B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
CA2802909C (en) | Methods and apparatus for searching of content using semantic synthesis | |
CN100416570C (zh) | 一种基于问答库的中文自然语言问答方法 | |
US20060212441A1 (en) | Full text query and search systems and methods of use | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
US20130110839A1 (en) | Constructing an analysis of a document | |
Dou et al. | Automatically mining facets for queries from their search results | |
Soyusiawaty et al. | Book data content similarity detector with cosine similarity (case study on digilib. uad. ac. id) | |
AU2005203238A1 (en) | Phrase-based searching in an information retrieval system | |
US8200671B2 (en) | Generating a dictionary and determining a co-occurrence context for an automated ontology | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
Hasibi et al. | On the reproducibility of the TAGME entity linking system | |
TWI674511B (zh) | 商品資訊顯示系統、商品資訊顯示方法、及程式產品 | |
CN113901173A (zh) | 一种检索方法、装置、电子设备及计算机存储介质 | |
Zaware et al. | Text summarization using tf-idf and textrank algorithm | |
US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
Xie et al. | Joint entity linking for web tables with hybrid semantic matching | |
Sariki et al. | A book recommendation system based on named entities | |
Appiktala et al. | Identifying salient entities of news articles using binary salient classifier | |
Tkeshelashvili et al. | Spreadsheet data extraction using semantic network | |
Iyad et al. | Towards supporting exploratory search over the Arabic web content: The case of ArabXplore | |
Bryer et al. | Analysis of Clustering Algorithms to Clean and Normalize Early Modern European Book Titles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |