CN105701119A - 检索过滤方法及其处理装置 - Google Patents
检索过滤方法及其处理装置 Download PDFInfo
- Publication number
- CN105701119A CN105701119A CN201410709075.7A CN201410709075A CN105701119A CN 105701119 A CN105701119 A CN 105701119A CN 201410709075 A CN201410709075 A CN 201410709075A CN 105701119 A CN105701119 A CN 105701119A
- Authority
- CN
- China
- Prior art keywords
- words
- relevant
- associated characters
- key
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001914 filtration Methods 0.000 title abstract 5
- 230000000692 anti-sense effect Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 11
- 230000000875 corresponding effect Effects 0.000 description 22
- 244000293323 Cosmos caudatus Species 0.000 description 6
- 235000005956 Cosmos caudatus Nutrition 0.000 description 6
- 241000726128 Aeshna Species 0.000 description 4
- 244000269722 Thea sinensis Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 239000010977 jade Substances 0.000 description 4
- 239000008267 milk Substances 0.000 description 4
- 210000004080 milk Anatomy 0.000 description 4
- 235000013336 milk Nutrition 0.000 description 4
- 239000002537 cosmetic Substances 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000035508 accumulation Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种检索过滤方法及其处理装置。所述检索过滤方法包括以下步骤:接收关键字词;根据关键字词,经由搜寻引擎于互联网上进行检索以得到初步检索结果,且搜寻对应关键字词的相关字词;依据初步检索结果,对相关字词进行聚类,并产生聚类结果,聚类结果包括至少一聚类群组;输出聚类结果以供使用者从其中选择一聚类群组;依据被选择的聚类群组,对初步检索结果进行过滤以产生对应的检索过滤结果。
Description
技术领域
本发明是关于一种检索过滤方法,且特别是一种可对检索结果进行聚类并提供给使用者选择的检索过滤方法及使用其的处理装置。
背景技术
随着科技的发展与成长,互联网已成为生活中不可或缺的一部份。互联网的普及带动了信息的迅速流动与大量累积,信息的取得大多仰赖互联网。由于互联网信息的传递与累积快速成长,互联网信息所包括的内容也大幅增加。
为了从庞大的互联网信息中获取所需的数据,使用者通常会搭配Google、Yahoo奇摩或百度等公共搜寻引擎。使用者可于搜寻引擎提供的搜寻列中输入关键字词。透过数据的检索技术,对搜寻引擎数据库的内容进行检索,并将检索结果提供给使用者。
然而,目前的检索技术对于使用者来说还是有许多不方便的地方。其原因在于,现今互联网信息的数据量庞大,所涵盖的信息五花八门,导致使用者必须要精准地输入关键字词才能获得关联性高的搜寻结果。换句话说,若使用者输入的关键字词不够准确,搜寻引擎所检索出的检索结果将包含许多关联性低的内容文本或网页,导致使用者无法取得所欲的信息。此外,即使使用者输入的关键字词准确,也仍会因为检索出来的内容文本或网页过多而导致无法逐一浏览,且并不完全符合使用者所需,因此需要一种检索过滤方法,将初步检索得到的内容文本或网页来做进一步分类,让使用者可以容易找到其所需要的内容文本或网页。
发明内容
本发明实施例提供一种检索过滤方法。所述检索过滤方法适用于处理装置。所述检索过滤方法包括以下步骤:步骤A:接收关键字词;步骤B:根据关键字词,经由搜寻引擎于互联网上进行检索以得到初步检索结果,初步检索结果包含有多个网页,且搜寻与对应关键字词的至少一相关字词;步骤C:依据初步检索结果,对相关字词进行聚类,并产生聚类结果,聚类结果包括至少一聚类群组;步骤D:输出聚类结果以供使用者从其中选择一聚类群组;步骤E:依据被选择的聚类群组,对初步检索结果进行过滤以产生对应的检索过滤结果。
本发明实施例提供一种处理装置。所述处理装置包括相关字词产生模块以及聚类单元。相关字词产生模块用以接收使用者输入的关键字词,并经由搜寻引擎于互联网上进行检索以得到初步检索结果,且搜寻与对应该关键字词的至少一相关字词。初步检索结果包含有多个网页。聚类单元电性连接于相关字词产生模块。聚类单元用以依据初步检索结果对相关字词进行聚类,并产生聚类结果。聚类结果包括至少一聚类群组。聚类单元输出聚类结果至操作介面以供使用者从其中选择一聚类群组。处理装置依据被选择的聚类群组,对初步检索结果进行过滤以产生对应的检索过滤结果。
综上所述,本发明实施例所提供的检索过滤方法及使用其的处理装置可依据初步检索结果对相关字词进行聚类,以产生聚类结果。使用者可依需求从聚类结果中选择想要的聚类群组,使得初步检索结果可以进一步地被过滤,并产生使用者想要的检索过滤结果。
为使能更进一步了解本发明之特征及技术内容,请参阅以下有关本发明之详细说明与附图,但是此等说明与所附附图仅是用来说明本发明,而非对本发明的权利范围作任何的限制。
附图说明
图1A是本发明实施例之处理装置的示意图。
图1B是本发明另一实施例之处理装置的示意图。
图2是本发明实施例之检索过滤方法的流程图。
图3是本发明实施例之产生相关字词的流程图。
图4是本发明实施例之产生同义字词的流程图。
图5是本发明实施例之产生聚类结果的流程图。
具体实施方式
在下文将参看随附附图更充分地描述各种例示性实施例,在随附附图中展示一些例示性实施例。然而,本发明概念可能以许多不同形式来体现,且不应解释为限于本文中所阐述之例示性实施例。确切而言,提供此等例示性实施例使得本发明将为详尽且完整,且将向熟习此项技术者充分传达本发明概念的范畴。在诸附图中,可能为了清楚而夸大示层及区之大小及相对大小。类似数字始终指示类似组件。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件或信号等,但此等组件或信号不应受此等术语限制。此等术语乃用以区分一组件与另一组件,或者一信号与另一信号。另外,如本文中所使用,术语「或」视实际情况可能包括相关联之列出项目中之任一者或者多者之所有组合。
请参阅图1A,图1A是本发明一实施例之处理装置的示意图。处理装置1适用于任一搜寻引擎或推荐***,例如Google、Yahoo奇摩或百度等搜寻引擎的处理器。处理装置1包括相关字词产生模块10以及聚类单元111。相关字词产生模块10接收使用者输入的关键字词,并经由搜寻引擎2于互联网上进行检索以得到初步检索结果,且搜寻与对应关键字词的至少一相关字词。初步检索结果通常包含有多个网页等数据。聚类单元111电性连接于相关字词产生模块10,可依据初步检索结果对相关字词进行聚类,然后产生聚类结果。聚类结果可能包括一个或多个聚类群组。聚类单元111输出聚类结果至操作介面3进行显示,且提供给使用者从多个聚类群组中选择一聚类群组。处理装置1再依据被选择的聚类群组,对初步检索结果(亦即前述所检索到的多个网页)进行过滤,以产生对应的检索过滤结果。
图1B是本发明另一实施例之处理装置的示意图。在此实施例中,处理装置1、相关字词产生模块10以及聚类单元111如前所述,而相关字词产生模块10更包括可能关联字词产生单元101、关联字词产生单元102以及同义字词产生单元103。可能关联字词产生单元101电性连接于搜寻引擎2、关联字词产生单元102以及同义字词产生单元103。关联字词产生单元102电性连接于聚类单元111。同义字词产生单元103电性连接于聚类单元111。聚类单元111电性连接于操作介面3。
可能关联字词产生单元101用接收搜寻引擎产生的初步检索结果,初步检索结果包含了多个网页等数据。接着,可能关联字词产生单元101自多个网页中的多个内容文本中获得内容文本各自对应的至少一可能关联字词。前述的内容文本可以是在网页中的任何文字。
关联字词产生单元102用以根据使用者输入的关键字词与可能关联字词于内容文本中同时出现于同一句子的次数产生相关字词。当关键字词与可能关联字词同时出现于同一句子的次数大于第一阈值时,可能关联字词被列为相关字词。相关字词是指关键字词的同义字词、与关键字词相关的关联字词、或是同一内容文本中常共同出现于同一句子的字词。
同义字词产生单元103用以根据关键字词与可能关联字词于内容文本中同时出现于同一句子的次数产生候补字词。当关键字词与可能关联字词同时出现于同一句子的次数小于第二阈值、且大于第三阈值时,可能关联字词被判定为关键字词的候补字词。接着,同义字词产生单元103再进一步判断候补字词是否为关键字词的同义字词或反义字词。至于如何判断候补字词是否为关键字词的同义字词或反义字词的流程将详述于后面段落。
当使用者欲自互联网上搜寻数据时,使用者透过操作介面3上的搜寻列中输入关键字词。搜寻引擎2接收关键字词后,于互联网上进行检索以得到初步检索结果。接着,搜寻引擎2将初步检索结果输出至相关字词产生模块10,使得相关字词产生模块10根据初步检索结果去搜寻对应关键字词的相关字词。
进一步说,相关字词产生模块10之可能关联字词产生单元101接收初步检索结果后,根据初步检索结果内多个网页中的多个内容文本,获得内容文本各自对应的可能关联字词。可能关联字词产生单元101接着将可能关联字词输出给关联字词产生单元102以及同义字词产生单元103。
关联字词产生单元102计算关键字词与每一个可能关联字词于对应的内容文本中同时出现于同一句子的次数,并根据计算结果判断关键字词与每一个可能关联字词的关联性。举例来说,关联字词产生单元102先自多个可能关联字词中选择一个可能关联字词(例如第一可能关联字词)。当关键字词与第一可能关联字词于对应的内容文本中同时出现于同一句子的次数大于第一阈值时,代表第一可能关联字词与关键字词的关联性高。此时,关联字词产生单元102判断第一可能关联字词为与关键字词相关的关联字词,并将第一可能关联字词列为相关字词。需注意的是,本发明实施例并不限制第一阈值的数值,使用者可自行设计第一阈值以判断可能关联字词与关键字词的关联性,或是依据已知类似技术中的相关数据来产生。
接着,关联字词产生单元102不重复地自多个可能关联字词中选择另一个可能关联字词(例如第二可能关联字词),并判断第二可能关联字词与关键字词的关联性。重复上述步骤,直到所有的可能关联字词都被关联字词产生单元102选择过。简而言之,关联字词产生单元102能够判断多个可能关联字词中哪一些可能关联字词与关键字词的关联性高,并将与关键字词的关联性高的可能关联字列为关键字词的相关字词。
同义字词产生单元103计算关键字词与每一个可能关联字词于对应的内容文本中同时出现于同一句子的次数,并根据计算结果判断关键字词与每一个可能关联字词的关联性。同义字词产生单元103假设关键字词不会与其同义字词或反义字词同时出现于同一句子,因此,同义字词产生单元103判断与关键字词关联性低的可能关联字词为关键字词的同义字词或反义字词。
举例来说,同义字词产生单元103先自多个可能关联字词中选择一个可能关联字词(例如第一可能关联字词)。当关键字词与第一可能关联字词于对应的内容文本中同时出现于同一句子的次数小于第二阈值、且大于第三阈值时,代表第一可能关联字词与关键字词的关联性低,其中第二阈值小于第一阈值,且第三阈值小于第二阈值。此时,同义字词产生单元103判断第一可能关联字词为关键字词的候补字词。需注意的是,本发明并不限制第二阈值与第三阈值的数值,使用者可自行设计第二阈值与第三阈值以判断可能关联字词与关键字词的关联性,或是依据已知类似技术中的相关数据来产生。
值得一提的是,于本发明实施例中,同义字词产生单元103是根据第二阈值与第三阈值来判断可能关联字词是否为关键字词的候补字词。然而,本发明并不限定于此。于其它实施例中,同义字词产生单元103亦可不设定第二阈值与第三阈值,而是直接将与关键字词于对应的内容文本中同时出现于同一句子的次数小于第一阈值的可能关联字词判定为候补字词。
接着,同义字词产生单元103进一步判断候补字词是否为关键字词的同义字词或反义字词。同义字词产生单元103根据关键字词与候补字词的词性以及关键字词与候补字词所在的句子的文句结构,来判断候补字词是否为关键字词的同义字词或反义字词。举例来说,使用者输入的关键字词为「车」,且关键字词所在的句子为「驾驶一辆红色的车」。接着,同义字词产生单元103搜寻候补字词所在的句子,并获得对应的句子为「开一辆白色的跑车」。同义字词产生单元103先判定关键字词「车」为名词,且与关键字词「车」相关联的动词与形容词分别为「驾驶」与「红色的」。同义字词产生单元103根据两个句子的文具结构,判断与候补字词「跑车」相关联的动词与形容词分别为「开」与「白色的」。由于两个句子是使用类似的动词「驾驶」与「开」,且两个句子使用类似的形容词「红色的」与「白色的」来修饰名词,据此,同义字词产生单元103将候补字词「跑车」判定为关键字词「车」的同义字词。
当候补字词被判断为关键字词的同义字词时,同义字词产生单元103将同义字词列为相关字词。当候补字词被判断为关键字词的反义字词时,同义字词产生单元103不将反义字词列为相关字词。
由上述内容可知,关联字词产生单元102能够找出与关键字词相关的关联字词,且同义字词产生单元103能够找出关键字词的同义字词。聚类单元111接收关联字词产生单元102输出的关联字词与同义字词产生单元103输出的同义字词,进而获得对关键字词的相关字词。
聚类单元111将关键字词与相关字词向量化,使得关键字词与相关字词被转换成可计算的数据向量。根据向量化后的关键字词与相关字词,聚类单元111分别计算关键字词与所有相关字词彼此间的距离值。附带一提,距离值是利用余弦相似度(CosineSimilarity)去测量两数据向量之间的距离,作为衡量两数据向量间之相似度的依据。有关将关键字词与相关字词向量化的技术以及计算两数据向量间的距离值的详细计算方式为所属技术领域具通常知识者常用的技术,故在此不再赘述。根据计算出的距离值,聚类单元111对关键字词与相关字词进行聚类,以产生聚类结果,其中聚类结果包括至少一聚类群组。举例来说,当关键字词与其中一个相关字词(例如第一相关字词)的距离值接近于关键字词与另外一个相关字词(例如第二相关字词)的距离值时,聚类单元111将第一相关字词与第二相关字词分到同一个聚类群组。
聚类单元111输出聚类结果至操作介面3,以供使用者从聚类结果中选择一个聚类群组。依据被选择的聚类群组,搜寻引擎对初步检索结果进行过滤以产生对应的检索过滤结果。
值得一提的是,处理装置1还能够将使用者所选择的聚类群组记录于个人化模块(图1A和图1B未绘示)。个人化模块设置于处理装置1中,其透过记录使用者每一次所选择的聚类群组,进而推断使用者进行检索时的喜好,以作为使用者的个人化设定。如此一来,下一次使用者进行检索时,个人化模块能够依据使用者的个人化设定自动地过滤掉部份网页,使得初步检索结果更贴近于使用者的喜好。
当然,本发明实施例并不限定处理装置1一定要进行个人化设定。使用者亦可自行选择是否要开启个人化设定的功能。除此之外,个人化模块还能够记录多个使用者的个人化设定。也就是说,使用者在开始检索前,可先透过操作介面3登入自己的账号。个人化模块便可依据不同的账号记录不同的个人化设定。在下一次检索时,个人化模块再根据对应目前账号的个人化设定去对初步检索结果进行过滤。
举例来说,使用者先输入关键字词「珍珠」。搜寻引擎2根据关键字词「珍珠」进行检索,并得到对应的初步检索结果。可能关联字词产生单元101根据初步检索结果,搜寻出对应关键字词「珍珠」的可能关联字词。关联字词产生单元102与同义字词产生单元103分别根据关键字词「珍珠」与可能关联字词于对应的内容文本中同时出现于同一句子的次数产生相关字词,例如相关字词「玉」、「和阗玉」、「翡翠」、「手环」、「珍珠奶茶」以及「面膜」。
聚类单元111将关键字词「珍珠」与相关字词「玉」、「和阗玉」、「翡翠」、「手环」、「珍珠奶茶」以及「面膜」向量化,并分别计算关键字词「珍珠」与相关字词「玉」、「和阗玉」、「翡翠」、「手环」、「珍珠奶茶」以及「面膜」彼此间的距离值。依据计算出的距离值,聚类单元111将相关字词「玉」、「和阗玉」、「翡翠」以及「手环」分类到聚类群组「首饰」,将相关字词「珍珠奶茶」分类到聚类群组「食品」,且将相关字词「面膜」分类到聚类群组「化妆品」。
最后,聚类单元111将聚类群组「首饰」、「食品」以及「化妆品」输出至操作介面3,以供使用者选择其中一个聚类群组。若使用者选择聚类群组「首饰」,则搜寻引擎将过滤聚类群组「食品」以及「化妆品」所对应的网页,仅呈现聚类群组「首饰」所对应的网页给使用者。
同时,个人化模块记录使用者所选择的聚类群组「首饰」。如此一来,下一次使用者进行检索时,个人化模块将会控制搜寻引擎优先地呈现对应聚类群组「首饰」的网页,或是自动地过滤掉对应聚类群组「首饰」以外的网页,使得初步检索结果更贴近于使用者的喜好。
请参阅图2,图2是本发明实施例之检索过滤方法的流程图。检索过滤方法适用于前述的处理装置1。于步骤S201,开始检索过滤方法。于步骤S202,接收使用者输入的关键字词。于步骤S203,根据关键字词,经由搜寻引擎于互联网上进行检索以得到初步检索结果。初步检索结果包含有多个网页等数据。接着,依据初步检索结果搜寻与对应关键字词的至少一相关字词。
于步骤S204,依据初步检索结果,对相关字词进行聚类,并产生聚类结果,聚类结果包括至少一聚类群组。于步骤S205,输出聚类结果以供使用者从其中选择想要的聚类群组。于步骤S206,使用者由聚类结果选择想要的聚类群组。于步骤S207,依据被选择的聚类群组,对初步检索结果进行过滤以产生对应的检索过滤结果。于步骤S208,结束检索过滤方法。
请参阅图3,图3是本发明实施例之产生相关字词的流程图。于步骤S301,承接自图2的步骤S203,开始搜寻对应关键字词的相关字词。于步骤S302,依据多个网页中的多个内容文本获得内容文本各自对应的至少一可能关联字词。内容文本可以是在网页中的任何文字。于步骤S303,计算关键字与可能关联字词于对应的内容文本中同时出现于同一句子的次数。
于步骤S304,判断关键字与可能关联字词于对应的内容文本中同时出现于同一句子的次数是否大于第一阈值。若关键字与可能关联字词于对应的内容文本中同时出现于同一句子的次数大于第一阈值,进入步骤S305。反之,则进入步骤S306。如同前面所述,本发明实施例并不限制第一阈值的数值,使用者可自行设计第一阈值以判断可能关联字词与关键字词的关联性,或是依据已知类似技术中的相关数据来产生。于步骤S305,可能关联字词被列为关键字词的相关字词。
于步骤S306,判断关键字词与可能关联字词于同一内容文本中同时出现于同一句子的次数是否小于第二阈值且大于第三阈值。若关键字词与可能关联字词于同一内容文本中同时出现于同一句子的次数小于第二阈值且大于第三阈值,进入步骤S307。反之,则进入步骤S309。如同前面所述,本发明并不限制第二阈值与第三阈值的数值,使用者可自行设计第二阈值与第三阈值以判断可能关联字词与关键字词的关联性,或是依据已知类似技术中的相关数据来产生。于步骤S307,可能关联字词被列为关键字词的候补字词。于步骤S308,根据候补字词找出关键字词的同义字词。于步骤S309,结束搜寻对应关键字词的相关字词。
请参阅图4,图4是本发明实施例之产生同义字词的流程图。于步骤S401,承接自图3之步骤S308,开始根据候补字词找出关键字词的同义字词。于步骤S402,根据关键字词与候补字词的词性以及关键字词与候补字词所在的句子的文句结构,来判断候补字词是否为关键字词的同义字词或反义字词。判断候补字词是否为关键字词的同义字词或反义字词的方法类似于前述实施例,于此不再多加冗述。当候补字词被判断为关键字词的同义字词,进入步骤S403。反之,则进入步骤S404。
于步骤S403,当候补字词被判断为关键字词的同义字词时,将同义字词列为相关字词。于步骤S404,当候补字词被判断为关键字词的反义字词时,不将反义字词列为相关字词。于步骤S405,结束根据候补字词找出关键字词的同义字词。
请参阅图5,图5是本发明实施例之产生聚类结果的流程图。于步骤S501,承接自图2的步骤S204,开始对关键字词进行聚类。于步骤S502,将关键字词与相关字词向量化。于步骤S503,根据向量化后的关键字词与相关字词分别计算关键字词与相关字词彼此间的距离值。有关将关键字词与相关字词向量化的技术以及计算两数据向量间的距离值的详细计算方式为所属技术领域具通常知识者常用的技术,故在此不再赘述。于步骤S504,根据距离值对关键字词与相关字词进行聚类,以产生聚类结果。于步骤S505,结束对关键字词进行聚类。
综上所述,本发明实施例所提供的检索过滤方法及使用其的处理装置可依据初步检索结果对相关字词进行聚类,以产生聚类结果。使用者可依需求从聚类结果中选择想要的聚类群组,使得初步检索结果可以进一步地被过滤,并产生使用者想要的检索过滤结果。
本发明实施例所提供的检索过滤方法还能够根据关键字词与可能关联字词于对应的内容文本中同时出现于同一句子的次数来判断可能关联字词是关键字词的关联字词、同义字词或是反义字词。相较于现有的技术,本发明实施例所提供的检索过滤方法能够更加精准地找出对应关键字词的相关字词。
另一方面,本发明实施例所提供的处理装置更包括了个人化模块。透过设置个人化模块,使用者进行检索所得到的初步检索结果能够更贴近于使用者的喜好。如此一来,使用者便可不花费太多时间在关连性较低的网页上,并直接获得想要的信息。
本发明的方法可经由本发明的处理装置来进行实施,处理装置中的部份元件(如相关字词产生模块及聚类单元),可应用具特定逻辑电路的独特硬件装置或具特定功能的设备来实施,如将程序码和处理器/芯片整合成独特硬件或将程序码和市售可得的特定设备整合。更进一步者,本发明的方法亦可经由一般用途处理器/计算器/服务器结合其它硬件来进行实施。当一般用途处理器/计算器/服务器载入特定程序码且执行时,此一般用途处理器/计算器/服务器成为用以参与本发明的装置元件,类似于应用具特定逻辑电路的独特硬件装置,以执行本发明方法的操作步骤。
以上所述,仅为本发明优选之具体实施例,惟本发明之特征并不局限于此,本领域的技术人员在本发明之领域内,可轻易思及之变化或修饰,皆可涵盖在本权利要求书中。
符号说明
1:处理装置
3:操作介面
2:搜寻引擎
10:相关字词产生模块
101:可能关联字产生单元
102:关联字词产生单元
103:同义字词产生单元
111:聚类单元
S201~S208:步骤流程
S301~S309:步骤流程
S401~S405:步骤流程
S501~S505:步骤流程
Claims (15)
1.一种检索过滤方法,适用于一处理装置,其特征在于,包括以下步骤:
步骤A:接收一关键字词;
步骤B:根据该关键字词,经由一搜寻引擎于互联网上进行检索以得到一初步检索结果,该初步检索结果包含有多个网页,且搜寻与对应该关键字词的至少一相关字词;
步骤C:依据该初步检索结果,对该相关字词进行聚类,并产生一聚类结果,该聚类结果包括至少一聚类群组;
步骤D:输出该聚类结果以供一使用者从其中选择一聚类群组;以及
步骤E:依据该被选择的聚类群组,对该初步检索结果进行过滤以产生对应的一检索过滤结果。
2.根据权利要求1所述的检索过滤方法,其中步骤B的步骤还包括:
步骤B-1:该多个网页中,分别包含有多个内容文本;
步骤B-2:获得该多个内容文本各自对应的至少一可能关联字词;以及
步骤B-3:计算该关键字词与该可能关联字词于该内容文本中同时出现于同一句子的次数,其中,当该关键字词与该可能关联字词同时出现于同一句子的次数大于一第一阈值时,该可能关联字词被列为该相关字词。
3.根据权利要求2所述的检索过滤方法,其中步骤B的步骤还包括:
步骤B-4:当该关键字词与该可能关联字词同时出现于同一句子的次数小于一第二阈值、且大于一第三阈值时,该可能关联字词被判定为该关键字词的一候补字词,根据该关键字词与该候补字词的一词性以及该关键字词与该候补字词所在的该句子的一文句结构,来判断该候补字词是否为该关键字词的一同义字词或一反义字词,当该候补字词被判断为该关键字词的该同义字词时,将该同义字词列为该相关字词,当该候补字词被判断为该关键字词的该反义字词时,不将该反义字词列为该相关字词。
4.根据权利要求2所述的检索过滤方法,其中该相关字词是该关键字词的一同义字词、与该关键字词相关的一关联字词、或是同一内容文本中常共同出现于同一句子的一字词。
5.根据权利要求1所述的检索过滤方法,其中步骤C的步骤还包括:
步骤C-1:将该关键字词与该相关字词向量化;
步骤C-2:根据向量化后的该关键字词与该相关字词分别计算该关键字词与该相关字词彼此间的一距离值;
步骤C-3:根据该多个距离值对该关键字词与该相关字词进行聚类,以产生该聚类结果。
6.根据权利要求1所述的检索过滤方法,其中步骤E的步骤还包括:
步骤E-1:记录该使用者所选择的该聚类群组,以作为该使用者的一个人化设定。
7.根据权利要求1所述的检索过滤方法,其中该处理装置适用于任一搜寻引擎或一推荐***。
8.一种处理装置,其特征在于,包括:
一相关字词产生模块,用以接收一使用者输入的一关键字词,并经由一搜寻引擎于一互联网上进行检索以得到一初步检索结果,且搜寻与对应该关键字词的至少一相关字词,其中该初步检索结果包含有多个网页;以及
一聚类单元,电性连接于该相关字词产生模块,用以依据该初步检索结果对该相关字词进行聚类,并产生一聚类结果,该聚类结果包括至少一聚类群组;
其中,该聚类单元输出该聚类结果至一操作介面以供该使用者从其中选择一该聚类群组,该搜寻引擎依据该被选择的聚类群组,对该初步检索结果进行过滤以产生对应的一检索过滤结果。
9.根据权利要求8所述的处理装置,其中该相关字词产生模块包括:
一可能关联字产生单元,电性连接于该搜寻引擎,用以自该多个网页中的多个内容文本中获得该多个内容文本各自对应的至少一可能关联字词。
10.根据权利要求9所述的处理装置,其中该相关字词产生模块包括:
一关联字词产生单元,电性连接于该可能关联字产生单元,用以根据该关键字词与该可能关联字词于该内容文本中同时出现于同一句子的次数产生该相关字词,其中当该关键字词与该可能关联字词同时出现于同一句子的次数大于一第一阈值时,该可能关联字词被列为该相关字词。
11.根据权利要求9所述的处理装置,其中该相关字词产生模块包括:
一同义字词产生单元,电性连接于该可能关联字产生单元,用以根据该关键字词与该可能关联字词于该内容文本中同时出现于同一句子的次数产生一候补字词,当该关键字词与该可能关联字词同时出现于同一句子的次数小于一第二阈值、且大于一第三阈值时,该可能关联字词被判定为该关键字词的该候补字词;
其中,该同义字词产生单元根据该关键字词与该候补字词的一词性以及该关键字词与该候补字词所在的该句子的一文句结构,来判断该候补字词是否为该关键字词的一同义字词或一反义字词,当该候补字词被判断为该关键字词的该同义字词时,将该同义字词列为该相关字词,当该候补字词被判断为该关键字词的该反义字词时,不将该反义字词列为该相关字词。
12.根据权利要求9所述的处理装置,其中该相关字词是该关键字词的一同义字词、与该关键字词相关的一关联字词、或是同一内容文本中常共同出现于同一句子的一字词。
13.根据权利要求8所述的处理装置,其中该聚类单元将该关键字词与该相关字词向量化,并根据向量化后的该关键字词与该相关字词分别计算该关键字词与该相关字词彼此间的一距离值,接着根据该多个距离值对该关键字词与该相关字词进行聚类,以产生该聚类结果。
14.根据权利要求8所述的处理装置,其中该处理装置记录该使用者所选择的该聚类群组,以作为该使用者的一个人化设定。
15.根据权利要求8所述的处理装置,其中该处理装置适用于任一搜寻引擎或一推荐***。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103140556 | 2014-11-21 | ||
TW103140556A TW201619853A (zh) | 2014-11-21 | 2014-11-21 | 檢索過濾方法及其處理裝置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105701119A true CN105701119A (zh) | 2016-06-22 |
Family
ID=56010467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410709075.7A Pending CN105701119A (zh) | 2014-11-21 | 2014-11-28 | 检索过滤方法及其处理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160147894A1 (zh) |
CN (1) | CN105701119A (zh) |
TW (1) | TW201619853A (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484859A (zh) * | 2016-09-30 | 2017-03-08 | 维沃移动通信有限公司 | 一种关联词展现方法和装置 |
JP2019067194A (ja) * | 2017-10-02 | 2019-04-25 | Soinnホールディングス合同会社 | 自律学習装置、自律学習方法及びプログラム |
KR20210102617A (ko) * | 2020-02-12 | 2021-08-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075263A (zh) * | 2007-06-28 | 2007-11-21 | 北京交通大学 | 融合伪相关反馈与检索技术的自动图像标注方法 |
US20090171929A1 (en) * | 2007-12-26 | 2009-07-02 | Microsoft Corporation | Toward optimized query suggeston: user interfaces and algorithms |
CN101539918A (zh) * | 2008-03-19 | 2009-09-23 | 天下互联(北京)科技有限公司 | 一种互联网搜索方法及*** |
CN102646103A (zh) * | 2011-02-18 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 检索词的聚类方法和装置 |
TWI417747B (zh) * | 2006-04-19 | 2013-12-01 | Raytheon Co | 增強多國語言資料查詢 |
JP2017134761A (ja) * | 2016-01-29 | 2017-08-03 | トヨタ自動車株式会社 | 情報処理装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050283473A1 (en) * | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
WO2006011819A1 (en) * | 2004-07-30 | 2006-02-02 | Eurekster, Inc. | Adaptive search engine |
US9817902B2 (en) * | 2006-10-27 | 2017-11-14 | Netseer Acquisition, Inc. | Methods and apparatus for matching relevant content to user intention |
US8280886B2 (en) * | 2008-02-13 | 2012-10-02 | Fujitsu Limited | Determining candidate terms related to terms of a query |
KR101052631B1 (ko) * | 2009-01-29 | 2011-07-28 | 성균관대학교산학협력단 | 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치 |
US8843368B2 (en) * | 2009-08-17 | 2014-09-23 | At&T Intellectual Property I, L.P. | Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment |
US20120150862A1 (en) * | 2010-12-13 | 2012-06-14 | Xerox Corporation | System and method for augmenting an index entry with related words in a document and searching an index for related keywords |
-
2014
- 2014-11-21 TW TW103140556A patent/TW201619853A/zh unknown
- 2014-11-28 CN CN201410709075.7A patent/CN105701119A/zh active Pending
- 2014-12-10 US US14/566,675 patent/US20160147894A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI417747B (zh) * | 2006-04-19 | 2013-12-01 | Raytheon Co | 增強多國語言資料查詢 |
CN101075263A (zh) * | 2007-06-28 | 2007-11-21 | 北京交通大学 | 融合伪相关反馈与检索技术的自动图像标注方法 |
US20090171929A1 (en) * | 2007-12-26 | 2009-07-02 | Microsoft Corporation | Toward optimized query suggeston: user interfaces and algorithms |
CN101539918A (zh) * | 2008-03-19 | 2009-09-23 | 天下互联(北京)科技有限公司 | 一种互联网搜索方法及*** |
CN102646103A (zh) * | 2011-02-18 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 检索词的聚类方法和装置 |
JP2017134761A (ja) * | 2016-01-29 | 2017-08-03 | トヨタ自動車株式会社 | 情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20160147894A1 (en) | 2016-05-26 |
TW201619853A (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104335160B (zh) | 功能执行指示***、以及功能执行指示方法 | |
US8296309B2 (en) | System and method for high precision and high recall relevancy searching | |
Sun et al. | An intelligent assistant for high-level task understanding | |
CN104239373B (zh) | 为文档添加标签的方法及装置 | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
CN103425704B (zh) | 应用界面提供方法及装置 | |
TW201033823A (en) | Systems and methods for analyzing electronic text | |
JP2011526383A (ja) | 入力文字列からのリソースロケータの提案 | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
CN103430172A (zh) | 检索装置、检索方法及程序 | |
WO2014103645A1 (ja) | 話題提供システム、会話制御端末装置、及び保守装置 | |
CN107748784A (zh) | 一种通过自然语言实现结构化数据搜索的方法 | |
CN109033244A (zh) | 搜索结果排序方法和装置 | |
CN110187780A (zh) | 长文本预测方法、装置、设备和存储介质 | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Anh et al. | Extracting user requirements from online reviews for product design: A supportive framework for designers | |
CN105701119A (zh) | 检索过滤方法及其处理装置 | |
JP7172187B2 (ja) | 情報表示方法、情報表示プログラムおよび情報表示装置 | |
US9875298B2 (en) | Automatic generation of a search query | |
JP6868576B2 (ja) | 事象提示システムおよび事象提示装置 | |
CN102142030B (zh) | 一种数据搜索方法和数据搜索装置 | |
CN113573128A (zh) | 一种音频处理方法、装置、终端以及存储介质 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP2009122337A (ja) | クイズ問題作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160622 |