CN110580313A - 一种数据处理方法、装置和用于数据处理的装置 - Google Patents
一种数据处理方法、装置和用于数据处理的装置 Download PDFInfo
- Publication number
- CN110580313A CN110580313A CN201810589724.2A CN201810589724A CN110580313A CN 110580313 A CN110580313 A CN 110580313A CN 201810589724 A CN201810589724 A CN 201810589724A CN 110580313 A CN110580313 A CN 110580313A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- search
- search result
- answer information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 33
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000009412 basement excavation Methods 0.000 description 4
- 239000010931 gold Substances 0.000 description 4
- 229910052737 gold Inorganic materials 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229930186657 Lat Natural products 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:确定搜索词对应的问答意图;从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。本发明实施例可以缩短用户的操作路径,且可以提高用户的信息获取效率。
Description
技术领域
本发明涉及搜索技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
背景技术
目前,互联网的发展所带来的信息量增大,使得用户在筛选信息的时候越来越依靠于搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供搜索服务,并将用户搜索相关的信息展示给用户的***。
用户在使用搜索引擎的过程中,可以在搜索引擎提供的搜索框中输入关键词,由搜索引擎查询得到与该关键词匹配的网页或文档,以得到搜索结果项,并利用一定的排序策略,将经过排序的搜索结果项返回给用户。
目前的搜索结果项一般包括标题信息、指向页面的链接以及摘要信息,摘要信息用于对搜索结果项对应的页面的概括性描述。上述搜索结果项可以使用户判断搜索结果项对应的页面中是否包含用户所需的信息,若是,用户则可以点击搜索结果项并进入相应的页面,且从进入的页面中寻找所需的信息,即用户需要点击搜索结果项才能获得所需的信息,导致用户的操作路径较长,进而导致用户的信息获取效率较低。
发明内容
本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以缩短用户的操作路径,且可以提高用户的信息获取效率。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
确定搜索词对应的问答意图;
从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
另一方面,本发明实施例公开了一种数据处理装置,包括:
问答意图确定模块,用于确定搜索词对应的问答意图;
答案信息确定模块,用于从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;以及
答案信息显示模块,用于在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定搜索词对应的问答意图;
从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例在搜索结果项中显示搜索结果项的落地页包含的答案信息,由于该答案信息可以与搜索词对应的问答意图相匹配,故该答案信息可以符合用户的信息需求;因此,本发明实施例直接在搜索结果项中显示符合用户的信息需求的答案信息,可以使用户在不进行页面跳转的情况下获得所需的信息,因此可以缩短用户的操作路径,且可以提高用户的信息获取效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种数据处理方法的应用环境的示意;
图2是本发明的一种数据处理方法实施例的步骤流程图;
图3是本发明实施例的一种显示搜索结果项的示意;
图4是本发明实施例的一种显示搜索结果项的示意;
图5是本发明实施例的一种在搜索结果项中显示答案信息的示意;
图6是本发明实施例的一种在搜索结果项中显示答案信息的示意;
图7是本发明的一种数据处理装置实施例的结构框图;
图8是本发明的一种用于数据处理的装置800的框图;及
图9是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
搜索技术领域中,可以针对用户输入的搜索词,向用户提供SERP(搜索结果页,Search engine results page),SERP是指搜索引擎对某个搜索请求反馈的结果页面。通常一个典型的SERP包含了搜索结果项的列表。一个搜索结果项对应的页面可被称为落地页,落地页是指点击搜索结果项后被链接到的第一个页面,该落地页可以为网页或文档。
目前的搜索结果项通常包括:落地页对应的标题、链接、摘要等信息。其中,标题和摘要可以使用户判断落地页中是否包含用户所需的信息,若是,用户则可以点击链接并进入相应的落地页,以从进入的落地页中寻找所需的信息。然而,用户需要点击搜索结果项才能获得所需的信息,导致用户的操作路径较长,进而导致用户的信息获取效率较低。
本发明实施例提供了一种数据处理方案,该方案可以确定搜索词对应的问答意图;从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;以及,在所述搜索词对应的搜索结果项中显示所述落地页包含的答案信息。
本发明实施例在搜索结果项中显示落地页包含的答案信息,由于该答案信息可以与搜索词对应的问答意图相匹配,故该答案信息可以符合用户的信息需求;因此,本发明实施例直接在搜索结果项中显示符合用户的信息需求的答案信息,可以使用户在不进行页面跳转的情况下获得所需的信息,因此可以缩短用户的操作路径,且可以提高用户的信息获取效率。
在本发明实施例的一种示例中,假设搜索词为“五险一金包括什么”,则可以确定该搜索词对应的问答意图为“五险一金的组成”,并从所述搜索词对应的某项搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息。上述答案信息的示例可以包括:““五险”讲的是五种保险,包括养老保险、医疗保险、失业保险、工伤保险和生育保险;“一金”指的是住房公积金…”。
在本发明的另一种示例中,假设搜索词为“五险一金怎么交”,则可以确定该搜索词对应的问答意图为“五险一金的缴存比例”,并从所述搜索词对应的某项搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息。上述答案信息的示例可以包括:“五险一金的缴存比例因地不同,单位跟单位性质不同,缴存比例也有所不同,下面是各种保险及公积金的缴存比例。医疗保险:个人2%(单位8%);养老保险:个人8%(单位20%);失业保险:个人1%(单位2%);工伤保险:个人无(单位0.5%);生育保险:个人无(单位0.8%);住房公积金:个人7%-12%(各单位比例不同,单位缴纳数额与个人缴纳数额相同)。…”。
在本发明的再一种示例中,假设搜索词为“五险一金有什么用”,则可以确定该搜索词对应的问答意图为“五险一金的用途”,并从所述搜索词对应的某项搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息。上述答案信息的示例可以包括:“五险一金某种意义上代表了你在这个城市工作的经历,在一些特殊时期,很多资格的审核都会以社保缴存为参考依据,说白了就是看五险交的够不够久,越长肯定越有优势,比如现在买房限购就是以社保连续缴存两年为参考,就算是本科学历买房有优先权,也需要参考社保缴存状况,五险一金真的非常重要。…”
本发明实施例提供的数据处理方法可以应用于例如网站和/或APP(应用程序,Application)的应用环境中,以缩短用户的操作路径、以及提高用户的信息获取效率。
本发明实施例提供的数据处理方法可应用于图1所示的应用环境中,如
图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务器200进行数据交互。
在本发明的一种实施例中,客户端100可以接收用户的搜索词,并向服务器200发送该搜索词。服务器200可以依据该搜索词进行检索,以得到该搜索词对应的搜索结果。其中,搜索结果可以为网页或者文档,搜索结果对应的页面可以统称为落地页。上述搜索结果可以源自搜索引擎的数据库、垂直网站的数据库等数据源,可以理解,本发明实施例对于搜索结果的具体来源不加以限制。
根据一种实施例,服务器200可以确定搜索词对应的问答意图,从所述搜索词所对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息,并向客户端100发送搜索结果项,搜索结果项中可以包括:该搜索结果项的落地页包含的答案信息。而客户端100可以在所述搜索词对应的搜索结果项中显示所述搜索结果项的落地页包含的答案信息。
根据一种实施例,服务器200可以向客户端100发送搜索结果,而客户端100可以通过执行本发明实施例的数据处理方法,在所述搜索词对应的搜索结果项中显示所述落地页包含的答案信息。
可选地,客户端100可以运行在终端上,上述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
方法实施例
参照图2,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201、确定搜索词对应的问答意图;
步骤202、从所述搜索词所对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
步骤203、在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
图2所示实施例的至少一个步骤可由服务器和/或客户端执行,当然本发明实施例对于各个步骤的具体执行主体不加以限制。
步骤201中,搜索APP或者搜索网站的客户端可以提供UI(用户界面,UserInterface),以使用户通过UI上的搜索框、语音接口等方式向客户端提交搜索词。可以理解,本发明实施例对于搜索词的具体提交方式不加以限制。
问答意图可以指搜索词所表达的问答需求所对应的意图,问答需求是指搜索词需要获取答案。
在本发明的一种可选实施例中,步骤201可以首先判断搜索词是否对应有问答需求,若是,则确定搜索词对应的问答意图。例如,搜索词“公交卡丢了怎么办”对应有明显的问答需求,搜索词“六味地黄丸的功效与作用”对应有隐含的问答需求,而搜索词“明星xxx”则不对应有问答需求。在实际应用中,可以利用语法分析、句法分析等方法,判断搜索词是否对应有问答需求,本发明实施例对于搜索词是否对应有问答需求的具体方法不加以限制。
本发明实施例可以提供问答意图的如下确定方案:
确定方案1、
确定方案1中,步骤201确定搜索词对应的问答意图的过程可以包括:从搜索词中识别出当前LAT(词法答案类型,Lexical Answer Type)指向性词;依据所述当前LAT指向性词,在预先建立的LAT指向性词与LAT词之间的映射关系中进行查找,以得到所述当前LAT指向性词对应的目标LAT词;依据所述目标LAT词,得到搜索词对应的问答意图。
确定方案1可以首先识别出搜索词中包含的当前LAT指向性词,然后依据LAT指向性词与LAT词之间的映射关系,得到当前LAT指向性词对应的目标LAT词;其中,LAT指向性词可用于表示对问答意图有指向性的词语,LAT词可用于表征问答意图。这样,LAT指向性词与LAT词之间的映射关系可以描述LAT指向性词到LAT词对应问答意图的指向关系。
本发明实施例依据LAT指向性词与LAT词之间的映射关系,得到当前LAT指向性词对应的目标LAT词;由于通过当前LAT指向性词推导得到目标LAT词,故即使搜索词中不包含目标LAT词,仍能够通过推导得到搜索词对应的问答意图。这样,本发明实施例能够在搜索词不携带有完整的问答需求的情况下,按照推导得到的问答意图获得该搜索词对应的问答意图,因此能够提高答案意图的准确率。
LAT词,可用于表示问题中指明答案类型的文本。可选地,可以收集大量的问题,并对收集的问题进行分析统计,以建立LAT库,该LAT库可用于存储LAT词。例如,该LAT库中存储的LAT词可以包括:皇帝、岛屿、山峰、事件、国、花、河等。可以理解,本发明实施例对于具体的LAT词不加以限制。
可选地,可以对完整的问题进行分析,依据相应的分析结果从中挖掘出LAT指向性词,并将挖掘得到的LAT指向性词保存至LAT指向性词库;以及,建立LAT指向性词与LAT词之间的映射关系。参照表1,示出了本发明的一种LAT指向性词与LAT词之间的映射关系的示意。可以理解,表1所示的LAT词只是作为示例,实际上,例如“人物”的LAT词还可以被细分为“皇帝”、“科学家”、“诗人”、“物理学家”等,可以理解,本发明实施例的LAT词可以为任意的实体类型、和/或任意实体类型对应的实体词,本发明实施例对于具体的LAT指向性词与LAT词之间的映射关系不加以限制。
表1
在实际应用中,上述从搜索词中识别出当前LAT指向性词的过程可以包括:将搜索词包含的各词汇与该LAT指向性词库中的各LAT指向性词进行匹配,若匹配成功,则将搜索词包含的匹配成功的词汇作为当前LAT指向性词。可以理解,本发明实施例对于从搜索词中识别出当前LAT指向性词的具体过程不加以限制。
在本发明的一种应用示例1中,假设搜索词为“被誉为”,假设“被誉为”存在于该LAT指向性词库中,则可以通过查找表1得到“被誉为”对应的目标LAT词“人物和/或事物”。并且,假设搜索词为“被誉为CD之父”,假设“之父”存在于该LAT指向性词库中,则可以通过查找表1得到“之父”对应的目标LAT词“人物”,最终可以确定“被誉为CD之父”对应的问答意图为“人物”。同理,假设搜索词为“被誉为物理学圣剑”,可以确定其对应的问答意图为“武器”。
在本发明的一种应用示例2中,假设搜索词为“世界著名建筑泰姬陵位于”时,假设“位于”存在于该LAT指向性词库中,则可以通过查找表1得到“位于”对应的目标LAT词“地理位置”。
在本发明的一种应用示例3中,假设搜索词为“质能方程的提出”时,假设“提出”存在于该LAT指向性词库中,则可以通过查找表1得到“提出”对应的目标LAT词“人物”。
在本发明的一种应用示例3中,假设搜索词为“五险一金什么意思”时,假设“什么意思”存在于该LAT指向性词库中,则可以通过查找表1得到“五险一金什么意思”对应的目标LAT词“概念”。
由于上述目标LAT词可以作为搜索词所对应问题的核心词或者焦点词,其可以反映搜索词所对应问题的答案类型,故可以直接将该目标LAT词作为搜索词对应的问答意图,或者,可以对该目标LAT词进行进一步处理(如多个目标LAT词的融合处理等),以得到搜索词对应的问答意图。
确定方案2、
确定方案2中,步骤201确定搜索词对应的问答意图的过程可以包括:对搜索词进行依存句法分析,以得到对应的依存句法分析结果;从所述依存句法分析结果中提取核心语义单元;依据所述核心语义单元,得到搜索词对应的问答意图。
确定方案2可以从搜索词对应的依存句法分析结果中提取核心语义单元,并依据所述核心语义单元,得到搜索词对应的问答意图;其中,用于表征问答意图的上述核心语义单元可以包括:核心词、核心单词等。
在实际应用中,依存句法分析结果可以包括:依存树,该依存树可用于表征搜索词包括的各单词之间的依存关系,对该依存树进行分析,并根据分析结果从该依存树中提取核心语义单元。
在实际应用中,可以按照预置的提取规则,对该依存树进行分析,并根据分析结果从该依存树中提取核心语义单元。
可选地,所述从所述依存句法分析结果中提取核心语义单元,可以包括:若所述依存树中的疑问词后紧邻的词汇为名词或者名词短语,则提取所述名词或者名词短语作为所述核心语义单元。若依存树中疑问词后紧跟着名词或者名词短语,那么该名词或者名词短语可能是用于表征问答意图的上述核心语义单元。例如,搜索词“哪位科学家曾帮助犹太科学家逃出德国”中疑问词“哪位”后紧跟着名词“科学家”,故可以将“科学家”作为核心语义单元。
可选地,所述从所述依存句法分析结果中提取核心语义单元,可以包括:若所述依存树中的疑问词处于搜索词的末尾,则提取距离所述疑问词最近的名词或者名词短语,作为所述核心语义单元。若疑问词处于搜索词的末尾,那么距离该疑问词最近的名词或者名词短语可以为表征问答意图的核心语义单元。例如,假设搜索词为“被誉为CD之父的是哪位”,其对应的搜索词包括:“被誉为CD之父的是哪”,该搜索词中距离疑问词“哪”最近的名词短语为“CD之父”,则该可以将“CD之父”作为核心语义单元。
可选地,所述从所述依存句法分析结果中提取核心语义单元,可以包括:若所述依存树中的疑问词后紧邻的词汇为动词,则提取搜索词中最后出现的名词或者名词短语,作为所述核心语义单元。若疑问词后面跟着动词,那么搜索词中最后出现的名词或者名词短语可以为表征问答意图的核心语义单元。例如,假设搜索词为“怎么折纸飞机”,该搜索词中疑问词“怎么”跟着动词“折”,故可以将最后出现的名词短语“纸飞机”作为核心语义单元。又如,假设搜索词为“如何免费下载百度文库文件完整内容”,该搜索词中疑问词“如何”跟着动词“下载”,故可以将最后出现的名词短语“百度文库文件完整内容”作为核心语义单元。
可以理解,上述预置的提取规则只是作为可选实施例,本发明实施例对于具体的提取规则不加以限制。由于上述核心语义单元可以作为搜索词的核心词或者焦点词,其可以反映搜索词的答案类型,故可以直接将该核心语义单元作为搜索词对应的问答意图,或者,可以对该核心语义单元进行进一步处理(如多个核心语义单元的融合处理等),以得到搜索词对应的问答意图。
确定方案3
确定方案3中,步骤201确定搜索词对应的问答意图的过程可以包括:通过领域识别模块以及领域意图识别模块,对问答对的搜索词进行意图识别。
其中,领域识别模块可用于识别搜索词所属的领域;领域的例子可以包括:“奥运体育”、“地域问题”、“电脑数码”、“法律法规”、“生活”、“教育科学”、“经济金融”、“情感家庭”、“社会民生”、“休闲娱乐”、“医疗卫生”、“艺术文字”、“游戏”等,当然本发明实施例对于具体的领域不加以限制。
领域意图识别模块可用于在领域内识别搜索词对应的问答意图。
根据一种实施例,意图识别可以看作是一个多分类任务,故领域意图识别模块可以通过分类器,在领域内识别搜索词对应的问答意图。其中,可以依据多个问答意图得到分类器的分类任务(一个问答意图可以对应一个分类任务),并依据多个问答意图对应的问答对语料得到的分类器的训练样本,例如,训练样本可以为问题语料及标注好的问答意图类别,在此基础上对训练样本进行训练以得到分类器。
根据另一种实施例,领域意图识别模块可以通过问答意图语句模式,在领域内识别搜索词对应的问答意图,其中,问答意图语句模式可用于表示领域内问答意图所对应的语句模式,其可以包括至少一个关键词,且该至少一个关键词可以符合对应的语法规则;这样,可以基于搜索词与问答意图语句模式之间的匹配,得到搜索词对应的问答意图模式。例如,问答意图语句模式可以包括:“疑问词+动词+名词”,此种情况下问答意图可以为“名词对应的操作(动词)方案”。又如,问答意图语句模式的末尾为“怎么办”,则问答意图可以为“问题的解决方案”
可以理解,本领域技术人员可以根据实际应用需求,采用上述确定方案1至确定方案3中的任一或者组合,中,步骤201确定搜索词对应的问答意图,本发明实施例对于步骤201确定搜索词对应的问答意图的具体过程不加以限制。
步骤202可以从所述搜索词所对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息,其中,答案信息可以为搜索结果项的落地页中包括的信息,本发明实施例可以将答案信息从落地页中提取出来。
在本发明的一种可选实施例中,可以在离线状态下,预先从网页中挖掘出问答对,并在在线状态下,通过查询上述问答对,确定出搜索结果项的落地页中包含的与问答意图相匹配的答案信息。具体地,步骤202从所述搜索词所对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息,具体可以包括:依据所述问答意图,在所述搜索结果项的落地页对应的问答对中进行查找,以得到与所述问答意图相匹配的答案信息;所述问答对可以包括:问题和答案。由于在离线状态下实现问答对的挖掘,在在线状态下通过查询问答对确定答案信息,因此可以提高答案信息的确定效率。
本发明实施例对于从网页中挖掘出问答对所采用的具体挖掘方式不加以限制。例如,上述挖掘方式可以包括:人工挖掘方式和自动挖掘方式等,其中自动挖掘方式可以包括:抽取模板挖掘方式,抽取模板挖掘方式可以配置抽取模板,该抽取模板可以规定问题语句、以及问题语句与答案之间的连接词,由此可以实现问答对的抽取。然而,人工挖掘方式需要花费较多的人力成本;抽取模板挖掘方式需要依赖于有效的抽取模板,若抽取模板与网页的某段文本不匹配,则可能无法从该段文本中抽取出问答对。
在本发明的一种可选实施例中,所述搜索结果项的落地页对应的问答对可以为依据所述搜索结果项的落地页的页面结构、从所述搜索结果项的落地页中抽取得到。页面结构可以指页面内容的布局,依据页面结构进行问答对的抽取,可以不受有限的抽取模板的限制,故可以提高抽取问答对的覆盖率。
在实际应用中,可以通过页面源码确定页面结构。页面源码可以指页面的源代码,其可以表示页面的语言构成。可选地,页面结构可以通过页面元素或者标签进行表征。或者,页面结构可以通过DOM(文档对象模型,Document Object Model)树进行表征,可以理解,本发明实施例对于页面结构的具体表征方式不加以限制。
页面代码对应的计算机语言主要包括:HTML(超文本标记语言,Hypertext MarkupLanguage)语言、VB(Visual Basic)语言、JAVA语言等。其中,HTML是最常用也是最基本的语言,页面中不可或缺的语言。页面的标题、框架、背景、字体、超链接、颜色等等页面元素的设置都可由HTML语言来完成。当然,本发明实施例对于页面代码对应的具体计算机语言不加以限制。
页面源码实际上就是由许许多多各种各样的页面元素构成的页面文件,并且浏览器通常可以直接运行例如HTML文件的页面文件。页面元素可以作为构成页面文件的基本对象。页面元素可以通过标签进行定义。
标签用来标记HTML元素。位于起始标签和结束标签之间的文本可以作为页面元素的内容。在一种示例中,标签可以为<head>(用于定义关于文档的信息)、<body>(用于定义文档的主体)、<table>(用于定义表格)、<div>(节)等被尖括号“<”和“>”包起来的对象,一些标签可以是成对出现的,如<table></talbe>、<form></form>,其中<form>用于定义供用户输入的HTML表单。当然,还有一些标签不是成对出现的,如<br>、<hr>等,其中<br>用于定义简单的折行,<hr>用于定义水平线。本发明实施例的标签与页面元素之间具有对应关系,因此可以通过标签来表征页面元素。
页面元素还对应有属性。属性用于为页面元素提供附加信息。属性可以以"属性名=属性值"这种名值对的形式出现,且属性可以在页面元素的开始标签中进行定义。
在本发明的一种可选实施例中,依据所述搜索结果项的落地页的页面结构、从所述搜索结果项的落地页中抽取得到问答对的过程,具体可以包括:依据网页的页面结构,对所述网页包括的文本段进行聚类,以得到文本段类别;确定所述文本段类别对应的候选问题;从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。
本发明实施例可以基于页面结构的分析,获得网页的每个文本段对应的页面结构,如标签信息。并依据依据文本段的页面结构,对多个文本段进行聚类,上述聚类可以将页面结构相似的文本段聚合到相同的文本段类别中。
确定所述文本段类别对应的候选问题的方式可以包括:模板特征方式、和/或、规则评分方式。其中,模板特征可以对应有问题的特征,如词特征、语句特征、或者短语特征等;规则评分方式可用于对候选问题进行评价。可选地,可以按照语言模型对候选问题所对应词汇之间的连接关系进行打分。根据一种实施例,若一个文本段类别包括的语言单位(词、词组、短语或者句子)符合模板特征、且对应的得分超过得分阈值,则可以将该语言单位作为候选问题。
以URL(统一资源定位符,Uniform Resource Locator)为http://www.66law.cn/special/wxyj/的网页A为例,可以依据网页的页面结构,对所述网页包括的文本段进行聚类,以得到文本段类别,并确定所述文本段类别对应的如下候选问题:“五险一金包括什么”、“五险一金有什么用”、“五险一金变四险一金最新消息”、“五险一金最低标准”、“五险一金缴纳比例”、“五险一金多少钱,能取出来吗”、“离职后五险一金怎么办”、“五险一金自己怎么交”、“不交五险一金的后果”、“公司没给我们买五险一金怎么办”、“法律对于签订劳动合同中五险一金有没有规定”等。
本发明实施例可以从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。可选地,上述答案信息的类型可以包括:标题类型,如网页A对应的答案信息为标题类型。可选地,上述答案信息的类型可以包括:步骤类型,如https://zhinan.sogou.com/guide/detail/?id=316512868864的网页B对应的答案信息为步骤类型。当然,本发明实施例对于答案信息的具体类型不加以限制。
在本发明的一种可选实施例中,本发明实施例的方法还可以包括:依据所述搜索结果项的落地页的页面结构,从所述搜索结果项的落地页中抽取候选问答对;依据所述候选问答对的属性信息,对所述候选问答对进行过滤。本发明实施例可以依据属性信息,对候选问答对进行过滤,通过上述过滤,可以去除不符合预置条件的候选问答对,且可以保留符合预置条件的候选问答对,以提高问答对的质量。
其中,所述属性信息可以包括:语义表示信息和质量信息中的至少一种。
语义表示信息可用于确定候选问答对之间的相似度,由此可以滤除相似度较高的候选问答对。
可选地,语义表示信息可以为对候选问答对进行语义分析得到。可以采用的语义分析方法可以包括:主题模型方法和深度学习方法等。主题模型方法可以包括:LDA(文档主题生成模型,Latent Dirichlet Allocation)等。深度学习方法可以包括:单词嵌入(wordembedding)、循环神经网络(Recurrent Neural Network)、卷积神经网络(ConvolutionalNeural Network)、递归神经网络(Recursive Neural Network)等。
质量信息可以反映候选问答对的质量的优劣,由此可以滤除质量较差的候选问答对,以及可以保留质量较优的候选问答对。
上述质量信息可以包括:候选问答对对应的页面质量信息和/或站点质量信息。通过上述质量信息,可以去掉不涉及问答的数据、或者答非所问的数据,保留问答比较明确、答案较为相关、来源较为可信的数据。
可以理解,上述步骤202通过查询问答对确定答案信息的方式只是作为可选实施例,实际上,上述步骤202还可以利用文本抽取技术,从所述搜索结果项的落地页的正文文本中抽取得到与问答意图相匹配的答案信息,本发明实施例对于步骤202从所述搜索词所对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息的具体过程不加以限制。
步骤203在所述搜索词对应的搜索结果项中显示所述搜索结果项的落地页包含的答案信息。
传统的搜索结果项所起的作用是:使用户判断搜索结果项的落地页中是否包含用户所需的信息。因此,传统的搜索结果项的结构通常包括:搜索结果项的落地页对应的标题、链接、摘要等信息。
而本发明实施例对搜索结果项的结构进行改进,在其中设置了所述搜索结果项的落地页包含的答案信息,故可以起到将搜索结果项的落地页包含的答案信息前置、以缩短用户的操作路径的作用,因此可以使用户在不进行页面跳转的情况下获得所需的信息。
在实际应用中,可以在搜索词反馈页面中显示上述搜索结果项,通常一个搜索词反馈页面可以显示N个搜索结果项,N为自然数。
可选地,可以在搜索结果项中设置答案信息对应的标签,例如,该标签可以带有“精选”的文本,以提示用户通过该标签的内容获得所需的答案信息。
在本发明的一种实施例中,步骤203在所述搜索词对应的搜索结果项中显示所述搜索结果项的落地页包含的答案信息所采用的显示方式,具体可以包括:
显示方式1、若所述搜索结果项的落地页包含的答案信息的长度未超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述搜索结果项的落地页包含的答案信息的全部;或者
显示方式2、若所述搜索结果项的落地页包含的答案信息的长度超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述搜索结果项的落地页包含的答案信息的部分,并显示展开接口,以使用户通过所述展开接口查看所述答案信息的全部。
长度阈值可用于约束搜索结果项的答案信息所对应的字符长度。该长度阈值可由本领域技术人员根据实际应用需求确定,例如,可以根据搜索结果项所占用的页面区域,确定上述字符长度。
显示方式1在搜索结果项的落地页包含的答案信息的长度未超过长度阈值的情况下,可以显示答案信息的全部。
显示方式2在搜索结果项的落地页包含的答案信息的长度超过长度阈值的情况下,可以显示答案信息的部分,以节省页面区域。并且,还可以显示展开接口,以使用户通过所述展开接口查看该答案信息的全部。
参照图3,示出了本发明实施例的一种显示搜索结果项的示意,其中,搜索结果项可以包括:标题301、“精选标签”302,“精选标签”302对应的位置可以显示搜索结果项的落地页包含的答案信息的部分;还可以显示有展开接口303,以使用户通过展开接口303查看该答案信息的全部。
参照图4,示出了本发明实施例的一种显示搜索结果项的示意,其中,若接收到图3所示展开接口303的触发操作,可以跳转至图4所示的界面,图4可以显示搜索结果项的落地页包含的答案信息的全部,且还可以显示有收起接口304,以使用户通过该收起接口304收起搜索结果项的落地页包含的答案信息的部分,进而可以节省页面区域。
在本发明的一种可选实施例中,所述搜索结果项的落地页的类型可以为步骤类型,所述答案信息可以包括:步骤和步骤内容,此种情况下,可以在搜索结果项中显示步骤和步骤内容。步骤类型的搜索结果项的落地页的类型如网页B和网页C(https://zhinan.sogou.com/guide/detail/?id=316512749211)所示。参照图5,示出了本发明实施例的一种在搜索结果项中显示答案信息的示意,其中可以显示搜索结果项的标题501和答案信息502;502部分可以按照步骤编号从小到大的顺序,对答案信息进行显示,m为自然数。
在本发明的另一种可选实施例中,所述搜索结果项的落地页的类型可以为标题类型,所述答案信息可以包括:标题和标题内容,由于标题通常与问题意图相匹配,故此种情况下,可以在搜索结果项中显示标题内容,当然也可以同时显示标题和标题内容。参照图6,示出了本发明实施例的一种在搜索结果项中显示答案信息的示意,其中可以显示搜索结果项的标题601和答案信息602;602部分可以显示答案信息包括的标题内容。参照图3和图4,“精选标签”302对应的位置可以显示答案信息包括的标题内容。
综上,本发明实施例的数据处理方法,在搜索结果项中显示搜索结果项的落地页包含的答案信息,由于该答案信息可以与搜索词对应的问答意图相匹配,故该答案信息可以符合用户的信息需求;因此,本发明实施例直接在搜索结果项中显示符合用户的信息需求的答案信息,可以使用户在不进行页面跳转的情况下获得所需的信息,因此可以缩短用户的操作路径,且可以提高用户的信息获取效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图7,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:问答意图确定模块701、问答意图确定模块702和答案信息显示模块703。
其中,问答意图确定模块701,用于确定搜索词对应的问答意图;
答案信息确定模块702,用于从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;以及
答案信息显示模块703,用于在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
可选地,所述落地页的类型为步骤类型,所述答案信息可以包括:步骤和步骤内容;
或者
所述落地页的类型为标题类型,所述答案信息可以包括:标题和标题内容。
可选地,答案信息确定模块702可以包括:
查找子模块,用于依据所述问答意图,在所述搜索结果项的落地页对应的问答对中进行查找,以得到与所述问答意图相匹配的答案信息;所述问答对可以包括:问题和答案。
可选地,所述落地页对应的问答对可以为依据所述落地页的页面结构、从所述落地页中抽取得到。
可选地,所述装置还可以包括:
文本段聚类模块,用于依据网页的页面结构,对所述网页可以包括的文本段进行聚类,以得到文本段类别;
候选问题确定模块,用于确定所述文本段类别对应的候选问题;
答案信息抽取模块,用于从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。
可选地,所述装置还可以包括:
候选答案对抽取模块,用于依据所述搜索结果项的落地页的页面结构,从所述搜索结果项的落地页中抽取候选问答对;
候选答案对过滤模块,用于依据所述候选问答对的属性信息,对所述候选问答对进行过滤;
其中,所述属性信息可以包括:语义表示信息和质量信息中的至少一种。
可选地,所述答案信息显示模块可以包括:
第一答案信息显示子模块,用于若所述落地页包含的答案信息的长度未超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的全部;或者
第二答案信息显示子模块,用于若所述落地页包含的答案信息的长度超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的部分,并显示展开接口,以使用户通过所述展开接口查看所述答案信息的全部。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:确定搜索词对应的问答意图;从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
图8是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音数据处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频数据处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图9是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图2或图3所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:确定搜索词对应的问答意图;从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
本发明实施例公开了A1、一种数据处理方法,所述方法包括:
确定搜索词对应的问答意图;
从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
A2、根据A1所述的方法,
所述落地页的类型为步骤类型,所述答案信息包括:步骤和步骤内容;
或者
所述落地页的类型为标题类型,所述答案信息包括:标题和标题内容。
A3、根据A1所述的方法,所述从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息,包括:
依据所述问答意图,在所述搜索结果项的落地页对应的问答对中进行查找,以得到与所述问答意图相匹配的答案信息;所述问答对包括:问题和答案。
A4、根据A3所述的方法,所述落地页对应的问答对为依据所述落地页的页面结构、从所述落地页中抽取得到。
A5、根据A1至A4中任一所述的方法,所述方法还包括:
依据网页的页面结构,对所述网页包括的文本段进行聚类,以得到文本段类别;
确定所述文本段类别对应的候选问题;
从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。
A6、根据A1至A4中任一所述的方法,所述方法还包括:
依据所述搜索结果项的落地页的页面结构,从所述搜索结果项的落地页中抽取候选问答对;
依据所述候选问答对的属性信息,对所述候选问答对进行过滤;
其中,所述属性信息包括:语义表示信息和质量信息中的至少一种。
A7、根据A1至A4中任一所述的方法,所述在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息,包括:
若所述落地页包含的答案信息的长度未超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的全部;或者
若所述落地页包含的答案信息的长度超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的部分,并显示展开接口,以使用户通过所述展开接口查看所述答案信息的全部。
本发明实施例公开了B8、一种数据处理装置,包括:
问答意图确定模块,用于确定搜索词对应的问答意图;
答案信息确定模块,用于从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;以及
答案信息显示模块,用于在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
B9、根据B8所述的装置,
所述落地页的类型为步骤类型,所述答案信息包括:步骤和步骤内容;
或者
所述落地页的类型为标题类型,所述答案信息包括:标题和标题内容。
B10、根据B8所述的装置,所述答案信息确定模块包括:
查找子模块,用于依据所述问答意图,在所述搜索结果项的落地页对应的问答对中进行查找,以得到与所述问答意图相匹配的答案信息;所述问答对包括:问题和答案。
B11、根据B10所述的装置,所述落地页对应的问答对为依据所述落地页的页面结构、从所述落地页中抽取得到。
B12、根据B8至B11中任一所述的装置,所述装置还包括:
文本段聚类模块,用于依据网页的页面结构,对所述网页包括的文本段进行聚类,以得到文本段类别;
候选问题确定模块,用于确定所述文本段类别对应的候选问题;
答案信息抽取模块,用于从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。
B13、根据B8至B11中任一所述的装置,所述装置还包括:
候选答案对抽取模块,用于依据所述搜索结果项的落地页的页面结构,从所述搜索结果项的落地页中抽取候选问答对;
候选答案对过滤模块,用于依据所述候选问答对的属性信息,对所述候选问答对进行过滤;
其中,所述属性信息包括:语义表示信息和质量信息中的至少一种。
B14、根据B8至B11中任一所述的装置,所述答案信息显示模块包括:
第一答案信息显示子模块,用于若所述落地页包含的答案信息的长度未超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的全部;或者
第二答案信息显示子模块,用于若所述落地页包含的答案信息的长度超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的部分,并显示展开接口,以使用户通过所述展开接口查看所述答案信息的全部。
本发明实施例公开了C15、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定搜索词对应的问答意图;
从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
C16、根据权利要求15所述的装置,
所述落地页的类型为步骤类型,所述答案信息包括:步骤和步骤内容;
或者
所述落地页的类型为标题类型,所述答案信息包括:标题和标题内容。
C17、根据C15所述的装置,所述从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息,包括:
依据所述问答意图,在所述搜索结果项的落地页对应的问答对中进行查找,以得到与所述问答意图相匹配的答案信息;所述问答对包括:问题和答案。
C18、根据C17所述的装置,所述落地页对应的问答对为依据所述落地页的页面结构、从所述落地页中抽取得到。
C19、根据C15至C18中任一所述的装置,所述装置还包括:
依据网页的页面结构,对所述网页包括的文本段进行聚类,以得到文本段类别;
确定所述文本段类别对应的候选问题;
从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。
C20、根据C15至C18中任一所述的装置,所述装置还包括:
依据所述搜索结果项的落地页的页面结构,从所述搜索结果项的落地页中抽取候选问答对;
依据所述候选问答对的属性信息,对所述候选问答对进行过滤;
其中,所述属性信息包括:语义表示信息和质量信息中的至少一种。
C21、根据C15至C18中任一所述的装置,所述在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息,包括:
若所述落地页包含的答案信息的长度未超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的全部;或者
若所述落地页包含的答案信息的长度超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的部分,并显示展开接口,以使用户通过所述展开接口查看所述答案信息的全部。
本发明实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A7中一个或多个所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
确定搜索词对应的问答意图;
从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
2.根据权利要求1所述的方法,其特征在于,
所述落地页的类型为步骤类型,所述答案信息包括:步骤和步骤内容;
或者
所述落地页的类型为标题类型,所述答案信息包括:标题和标题内容。
3.根据权利要求1所述的方法,其特征在于,所述从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息,包括:
依据所述问答意图,在所述搜索结果项的落地页对应的问答对中进行查找,以得到与所述问答意图相匹配的答案信息;所述问答对包括:问题和答案。
4.根据权利要求3所述的方法,其特征在于,所述落地页对应的问答对为依据所述落地页的页面结构、从所述落地页中抽取得到。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:
依据网页的页面结构,对所述网页包括的文本段进行聚类,以得到文本段类别;
确定所述文本段类别对应的候选问题;
从所述候选问题对应的文本段中抽取所述候选问题对应的答案信息。
6.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:
依据所述搜索结果项的落地页的页面结构,从所述搜索结果项的落地页中抽取候选问答对;
依据所述候选问答对的属性信息,对所述候选问答对进行过滤;
其中,所述属性信息包括:语义表示信息和质量信息中的至少一种。
7.根据权利要求1至4中任一所述的方法,其特征在于,所述在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息,包括:
若所述落地页包含的答案信息的长度未超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的全部;或者
若所述落地页包含的答案信息的长度超过长度阈值,则在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息的部分,并显示展开接口,以使用户通过所述展开接口查看所述答案信息的全部。
8.一种数据处理装置,其特征在于,包括:
问答意图确定模块,用于确定搜索词对应的问答意图;
答案信息确定模块,用于从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;以及
答案信息显示模块,用于在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
9.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定搜索词对应的问答意图;
从所述搜索词对应搜索结果项的落地页中确定出与所述问答意图相匹配的答案信息;
在所述搜索词对应的搜索结果项中显示所述落地页包含的所述答案信息。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589724.2A CN110580313B (zh) | 2018-06-08 | 2018-06-08 | 一种数据处理方法、装置和用于数据处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589724.2A CN110580313B (zh) | 2018-06-08 | 2018-06-08 | 一种数据处理方法、装置和用于数据处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580313A true CN110580313A (zh) | 2019-12-17 |
CN110580313B CN110580313B (zh) | 2024-02-02 |
Family
ID=68808962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810589724.2A Active CN110580313B (zh) | 2018-06-08 | 2018-06-08 | 一种数据处理方法、装置和用于数据处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580313B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948665A (zh) * | 2021-01-14 | 2021-06-11 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置和介质 |
CN113157881A (zh) * | 2021-03-26 | 2021-07-23 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010107111A (ko) * | 2000-05-25 | 2001-12-07 | 서정연 | 대화형 db, faq리스트, 웹사이트에 대한 통합형자연어 질의-응답 검색 시스템 및 방법 |
CN102004794A (zh) * | 2010-12-09 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 搜索引擎***及其实现方法 |
US8412514B1 (en) * | 2005-10-27 | 2013-04-02 | At&T Intellectual Property Ii, L.P. | Method and apparatus for compiling and querying a QA database |
CN103914543A (zh) * | 2014-04-03 | 2014-07-09 | 北京百度网讯科技有限公司 | 搜索结果的展现方法和装置 |
WO2015058604A1 (zh) * | 2013-10-21 | 2015-04-30 | 北京奇虎科技有限公司 | 获取问答对相关联程度、优化搜索排名的装置和方法 |
WO2015062482A1 (en) * | 2013-11-01 | 2015-05-07 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
CN105653738A (zh) * | 2016-03-01 | 2016-06-08 | 北京百度网讯科技有限公司 | 基于人工智能的搜索结果播报方法和装置 |
CN105786872A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 基于用户搜索提供问答onebox的方法和装置 |
CN105786874A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 基于百科词条构建问答知识库数据项的方法和装置 |
CN105786871A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 基于搜索词的问答类搜索结果呈现方法和装置 |
CN105786875A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 提供问答对数据搜索结果的方法和装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN106874467A (zh) * | 2017-02-15 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 用于提供搜索结果的方法和装置 |
-
2018
- 2018-06-08 CN CN201810589724.2A patent/CN110580313B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010107111A (ko) * | 2000-05-25 | 2001-12-07 | 서정연 | 대화형 db, faq리스트, 웹사이트에 대한 통합형자연어 질의-응답 검색 시스템 및 방법 |
US8412514B1 (en) * | 2005-10-27 | 2013-04-02 | At&T Intellectual Property Ii, L.P. | Method and apparatus for compiling and querying a QA database |
CN102004794A (zh) * | 2010-12-09 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 搜索引擎***及其实现方法 |
WO2015058604A1 (zh) * | 2013-10-21 | 2015-04-30 | 北京奇虎科技有限公司 | 获取问答对相关联程度、优化搜索排名的装置和方法 |
WO2015062482A1 (en) * | 2013-11-01 | 2015-05-07 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
CN103914543A (zh) * | 2014-04-03 | 2014-07-09 | 北京百度网讯科技有限公司 | 搜索结果的展现方法和装置 |
CN105786871A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 基于搜索词的问答类搜索结果呈现方法和装置 |
CN105786872A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 基于用户搜索提供问答onebox的方法和装置 |
CN105786874A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 基于百科词条构建问答知识库数据项的方法和装置 |
CN105786875A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 提供问答对数据搜索结果的方法和装置 |
CN105653738A (zh) * | 2016-03-01 | 2016-06-08 | 北京百度网讯科技有限公司 | 基于人工智能的搜索结果播报方法和装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN106874467A (zh) * | 2017-02-15 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 用于提供搜索结果的方法和装置 |
Non-Patent Citations (5)
Title |
---|
TATSUNORI MORI; MITSURU SATO; MADOKA ISHIOROSHI: "Answering Any Class of Japanese Non-factoid Question by Using the Web and Example Q&A Pairs from a Social Q&A Website", 2008 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY, pages 59 - 65 * |
何贤江;左航;李远红;: "面向移动平台的FAQD自动问答***", 四川大学学报(自然科学版), no. 03, pages 560 - 564 * |
刘庆明;胡艳胜;: "基于WEB搜索引擎的中文问答***", 科技资讯, no. 04, pages 90 - 91 * |
刘秉权;徐振;刘峰;刘铭;孙承杰;王晓龙;: "面向问答社区的答案摘要方法研究综述", 中文信息学报, no. 01, pages 1 - 7 * |
李舟军, 李水华: "基于Web的问答***综述", 计算机科学, vol. 44, no. 6, pages 1 - 7 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948665A (zh) * | 2021-01-14 | 2021-06-11 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置和介质 |
CN113157881A (zh) * | 2021-03-26 | 2021-07-23 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110580313B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11188711B2 (en) | Unknown word predictor and content-integrated translator | |
US10515147B2 (en) | Using statistical language models for contextual lookup | |
US20200320116A1 (en) | Providing a summary of a multimedia document in a session | |
US10460040B2 (en) | Language model using reverse translations | |
US12026194B1 (en) | Query modification based on non-textual resource context | |
CN106462640B (zh) | 对多媒体内容进行的场境搜索 | |
US11861319B2 (en) | Chatbot conducting a virtual social dialogue | |
US9613093B2 (en) | Using question answering (QA) systems to identify answers and evidence of different medium types | |
CN108345612B (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN110770694A (zh) | 获得来自多个语料库的响应信息 | |
US20150154295A1 (en) | Searching method, system and storage medium | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN111708943B (zh) | 一种搜索结果展示方法、装置和用于搜索结果展示的装置 | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN111538830A (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
CN110580313B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN113033163A (zh) | 一种数据处理方法、装置和电子设备 | |
CN107784037B (zh) | 信息处理方法和装置、用于信息处理的装置 | |
CN110851692A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
US20170293683A1 (en) | Method and system for providing contextual information | |
CN111460177A (zh) | 影视类表情搜索方法、装置、存储介质、计算机设备 | |
CN109446406B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN114610163A (zh) | 推荐方法、装置和介质 | |
CN113177170A (zh) | 评论展示方法、装置及电子设备 | |
CN112214692A (zh) | 基于输入法的数据处理方法、装置和机器可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |