CN106599297A - 基于深度问答的提问型搜索词搜索方法及装置 - Google Patents

基于深度问答的提问型搜索词搜索方法及装置 Download PDF

Info

Publication number
CN106599297A
CN106599297A CN201611235417.1A CN201611235417A CN106599297A CN 106599297 A CN106599297 A CN 106599297A CN 201611235417 A CN201611235417 A CN 201611235417A CN 106599297 A CN106599297 A CN 106599297A
Authority
CN
China
Prior art keywords
search word
paragraph
page
enquirement type
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611235417.1A
Other languages
English (en)
Inventor
孙兴武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611235417.1A priority Critical patent/CN106599297A/zh
Publication of CN106599297A publication Critical patent/CN106599297A/zh
Priority to US15/851,018 priority patent/US20180181652A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于深度问答的提问型搜索词的搜索方法和装置,其中,方法包括:通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。

Description

基于深度问答的提问型搜索词搜索方法及装置
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种基于深度问答的提问型搜索词搜索方法及装置。
背景技术
深度问答(Deep question and answer),是指理解人类的语言,智能识别问题的含义,并从海量的互联网数据中针对问题提取答案的技术。
在现有技术的信息搜索过程中,用户可以自行设置搜索词,从而搜索引擎根据搜索词进行搜索,将搜索结果返回给用户。在搜索引擎运行的过程中,发明人发现:用户在一些情况下会提出一个问题作为搜索词,也就是说搜索词为提问型搜索词,在这种情况下,如果采用现有技术中的信息搜索技术,搜索引擎将用户所提出的问题作为搜索词,进行分词处理,进而将包含各个分词的页面作为搜索结果。
在一些情况下,页面是搜索词的答案,但并未出现搜索词,从而无法作为搜索结果呈现给用户。例如:当搜索词为“当归的功效与作用”,搜索结果中不含“当归补血,性温,润肠”的页面,因此,现有技术中,针对提问型搜索词进行搜索时,搜索结果覆盖不够全面,搜索效率较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于深度问答的提问型搜索词的搜索方法,以解决现有技术中在采用提问型搜索词进行搜索时,搜索效率较差的技术问题。
本发明的第二个目的在于提出一种提问型搜索词的搜索装置。
本发明的第三个目的在于提出另一种提问型搜索词的搜索装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种提问型搜索词的搜索方法,包括:
对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
对所述页面的各段落进行特征分析,得到各段落的分值;
根据所述分值从各段落中选择出作为搜索结果的目标段落。
本发明实施例的基于深度问答的提问型搜索词的搜索方法,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。
为达上述目的,本发明第二方面实施例提出了一种基于深度问答的提问型搜索词的搜索装置,包括:
扩展模块,用于对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
搜索模块,用于根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
分析模块,用于对所述页面的各段落进行特征分析,得到各段落的分值;
选择模块,用于根据所述分值从各段落中选择出作为搜索结果的目标段落。
本发明实施例的基于深度问答的提问型搜索词的搜索装置,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。
为达上述目的,本发明第三方面实施例提出了另一种基于深度问答的提问型搜索词的搜索装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
对所述页面的各段落进行特征分析,得到各段落的分值;
根据所述分值从各段落中选择出作为搜索结果的目标段落。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器被执行时,使得服务器能够执行一种基于深度问答的提问型搜索词的搜索方法,所述方法包括:
对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
对所述页面的各段落进行特征分析,得到各段落的分值;
根据所述分值从各段落中选择出作为搜索结果的目标段落。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于深度问答的提问型搜索词的搜索方法,所述方法包括:
对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
对所述页面的各段落进行特征分析,得到各段落的分值;
根据所述分值从各段落中选择出作为搜索结果的目标段落。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于深度问答的提问型搜索词的搜索方法的流程示意图;
图2为本发明实施例所提供的另一种提问型搜索词的搜索方法的流程示意图;
图3为本发明实施例所提供的又一种提问型搜索词的搜索方法的流程示意图;
图4为搜索结果的对比示意图;
图5为本发明实施例提供的一种基于深度问答的提问型搜索词的搜索装置的结构示意图;
图6为本发明实施例提供的一种扩展模块51的结构示意图;
图7为本发明实施例提供的另一种扩展模块51的结构示意图;以及
图8为本发明实施例提供的又一种提问型搜索词的搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于深度问答的提问型搜索词的搜索方法和装置。
图1为本发明实施例所提供的一种基于深度问答的提问型搜索词的搜索方法的流程示意图。本发明实施例提供的搜索方法可以应用于具有搜索功能的搜索引擎上。
如图1所示,该提问型搜索词的搜索方法包括:
步骤101,对提问型搜索词进行扩展,得到语义相关的扩展搜索词。
其中,提问型搜索词是指用于提出问题以搜索到该问题的答案的搜索词。
具体地,基于语义对提问型搜索词进行扩展,从而得到与提问型搜索词语义相关的扩展搜索词。本实施例中对于扩展的步骤,提供了两种可能的实现方式:
作为一种可能的实现方式,查询历史记录,确定同一个用户在采用同一个搜索词进行搜索时,所选择查看的至少两个页面;所述至少两个页面中的目标页面的标题包含所述提问型搜索词。进而在至少两个页面中,将除目标页面以外的页面的标题,确定为提问型搜索词的扩展搜索词。
作为另一种可能的实现方式,提取提问型搜索词的主题词,在历史记录中查询包含该主题词的历史搜索词,将所查询到的历史搜索词作为提问型搜索词的扩展搜索词。
步骤102,根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面。
具体地,可以将扩展搜索词与网络中的各个页面进行匹配,这里的匹配可以采用字面匹配的方式,得到与扩展搜索词匹配的页面。
步骤103,对页面的各段落进行特征分析,得到各段落的分值。
具体地,针对上一步骤中匹配得到的每一个页面进行分段处理,得到语义上相互独立的各段落,进而根据所提取的各段落的特征,进行特征分析,得到各段落的分值。
这里的特征可以包括数字特征、实体特征、对齐特征、聚合特征和列表特征中的一个或多个组合。从而,在根据所提取的各段落的特征,进行特征分析,得到各段落的分值时,具体可以针对每一个段落,根据该分段落的各特征的特征分值,利用预先进行特征权重训练的机器学习模型对该分段落进行打分,得到段落的分值。
分值能够指示分段落能够回答提问型搜索词所提问题的概率,一般来说,分值越高,则分段落为答案的概率越大。
步骤104,根据分值从各段落中选择出作为搜索结果的目标段落。
具体地,从各段落中,选择分值超过预设阈值的目标段落。
进一步,作为一种可能的实现方式,可以在获得目标段落之后,建立包含所述目标段落的所述提问型搜索词的页面库,从而该页面库可以用于用户利用该提问型搜索词进行搜索时,优先从页面库中选择分段落在搜索结果页面进行显示。
作为另一种可能的实现方式,步骤101中的提问型搜索词为用户在线输入的待搜索的搜索词,从而可以在获得目标段落之后,在向用户返回的搜索结果页面中,直接对所获得的目标段落进行显示。
本实施例中,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。
为了清楚说明上一实施例,本实施例提供了另一种提问型搜索词的搜索方法,图2为本发明实施例所提供的另一种提问型搜索词的搜索方法的流程示意图。
如图2所示,该提问型搜索词的搜索方法可以包括以下步骤:
步骤201,在建立网页库时,对历史搜索过程中所采用的提问型搜索词进行扩展,得到语义上与该提问型搜索词相关的扩展搜索词。
作为一种可能的实现方式,可以查询历史记录,确定同一个用户在采用同一个搜索词进行搜索时,所选择查看的至少两个页面,其中,至少两个页面中的目标页面的标题包含所述提问型搜索词。进而在至少两个页面中,将除目标页面以外的页面的标题,确定为提问型搜索词的扩展搜索词。
具体来说,同一个用户在相同的搜索词(query)下,点击了两个不同的页面,则认为两条页面具有相似性,例如:相同的用户在同一个搜索词下点击了页面http://muzhi.***.com/question/61640793075645****.html,则可以用这条页面的题目作为另一个相似页面题目“当归的功效与作用及禁忌”的扩展搜索词,即“当归能长期吃吗”。
作为另一种可能的实现方式,提取提问型搜索词的主题词,在历史记录中查询包含该主题词的历史搜索词,将所查询到的历史搜索词作为提问型搜索词的扩展搜索词。
例如:首先提取当前搜索词“当归能长期吃吗?会有副作用吗?”的主题词“当归”,在历史记录中查询包含该主题词的历史搜索词,将所查询到的历史搜索词作为提问型搜索词的扩展搜索词,则扩展搜索词可以为“当归的功效与作用”、“当归红糖煮鸡蛋的功效”等。
步骤202,根据各个扩展搜索词进行搜索,得到与扩展搜索词匹配的多个页面。
具体地,通过搜索引擎对扩展搜索词进行检索,从搜索结果中,获取排序靠前的若干个页面。
需要说明的是,由于本实施例的目的是查询问题的答案,从而这里所提及的页面主要是用于对文本信息进行展现的页面。
步骤203,对每一个页面进行分段处理,得到语义上相互独立的各段落。
通过对网页结构的分析或者段落独立性分析得到语义上独立的段落,作为后续特征分析和排序的基本单位。
例如:在页面中包含如下文本“病情分析:你好,当归补血,性温,润肠。指导意见:如果你血虚,没有热症,可以用,如果你容易上火或大便稀溏,就少用或不要用,是因人而异的。适合的人长期用一点问题没有。不适合的吃一点就犯毛病。”
进行分段处理之后,可以得到两个段落。
段落一:“病情分析:你好,当归补血,性温,润肠。”
段落二:“指导意见:如果你血虚,没有热症,可以用,如果你容易上火或大便稀溏,就少用或不要用,是因人而异的。适合的人长期用一点问题没有。不适合的吃一点就犯毛病。”
步骤204,对各个段落进行特征分析,得到每一个段落的多个特征的特征分值。
其中,这里的特征包括:数字特征、实体特征、对齐特征、聚合特征和列表特征中的一个或多个组合。
具体地,本步骤中特征分析可以从多个特征维度进行。作为一种可能的实现方式,可以分别进行领域特征、对齐特征和聚合特征这几个维度的特征分析,其中,领域特征又具体包括了数字、实体、如何、为什么和列表等特征,从而利用领域答案特有的文本或结构特征,采用特征分值衡量段落是否为搜索词所提问题的答案,例如:数字类别问题答案往往是数字与单位的组合,当页面的用于指示数字特征的特征分值较高时,则很可能包含数字类别问题的答案。
另外,对于对齐特征来说,具体是通过统计问答中,问题中的各个单词,与答案中的句子对齐情况,或者说是共同出现的概率情况,计算段落中的句子是否在回答搜索词所提问题。
对于聚合特征来说,具体是对段落中的句子进行重要度计算排序,最后利用这个排序打分的结果对潜在的包含答案的段落进行置信度的计算。
步骤205,针对每一个段落,根据该段落多个特征的特征分值,利用预先进行特征权重训练的机器学习模型进行打分,得到该段落的分值。
作为一种可能的实现方式,可以预先利用有监督的机器学习模型中的学习排序(LTR)模型,对段落落特征权重进行学习。
步骤206,从各段落中,选择分值超过预设阈值的目标段落。
步骤207,将目标段落增加到该提问型搜索词的页面库中。
具体地,该提问型搜索词的页面库可以用于用户利用所述提问型搜索词进行搜索时,从该页面库中选择在搜索结果页面进行显示的段落。
需要说明的是,通过执行步骤201-步骤207可以完成建立页面库的过程,这里的页面库中包含了该提问型搜索词的各个扩展词匹配的页面,从而可以作为搜索结果的补充,避免了由于现有技术中搜索结果不全面导致,用户无法查询到所需问题答案的情况出现。
为了清楚说明本实施例,本实施例还提供了又一种提问型搜索词的搜索方法,图3为本发明实施例所提供的又一种提问型搜索词的搜索方法的流程示意图。
在执行步骤207完成页面库建立的步骤之后,如图3所示,该提问型搜索词的搜索方法可以包括以下步骤:
步骤208,在搜索时,根据用户在线输入的提问型搜索词,查询对应的提问型搜索词的页面库,得到该页面库中的各段落。
步骤209,根据用户在线输入的提问型搜索词,在全网页面中进行查询得到匹配的页面,对页面进行分段处理,得到匹配的各段落。
步骤210,针对页面库中的各段落,以及对页面进行分段处理得到的各段落进行特征分析,得到每一段落的多个特征分值。
步骤211,对每一段落的多个特征分值进行段落特征加权,得到段落的分值。
具体地,对每一段落的多个特征分值利用预先进行特征权重训练的机器学习模型进行打分,得到所述段落的分值。
作为一种可能的实现方式,可以预先利用有监督的机器学习模型中的学习排序(LTR)模型,对段落落特征权重进行学习。
步骤212,根据段落的分值,对段落进行排序,在搜索结果页面中对排序靠前的预设个数的段落进行展现。
具体地,为了说明呈现效果本实施例提供了图4的搜索结果的对比示意图,左图为现有技术中的搜索结果,右图为采用本实施例所提供的搜索方法所得到的搜索结果。
通过右图可以看出,在搜索结果中,能够召回包含问题答案但是词条的命中不好的页面。因此,采用本实施例所提供的方法,对包含答案的页面建立页面库,能够提高搜索的相关性,使真正包含答案的页面在搜索结果中排序靠前,提高搜索有效性。
可见,本实施例中,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。另外,由于采用离线方式预先建立了提问型搜索词的页面库,从而加快了用户在线搜索时的搜索速度,提高了搜索效率的同时,降低了搜索引擎的负载。
为了实现上述实施例,本发明还提出一种基于深度问答的提问型搜索词的搜索装置。
图5为本发明实施例提供的一种基于深度问答的提问型搜索词的搜索装置的结构示意图,如图5所示,包括:扩展模块51、搜索模块52、分析模块53和选择模块54。
扩展模块51,用于对提问型搜索词进行扩展,得到语义相关的扩展搜索词。
搜索模块52,用于根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面。
分析模块53,用于对所述页面的各段落进行特征分析,得到各段落的分值。
选择模块54,用于根据所述分值从各段落中选择出作为搜索结果的目标段落。
具体地,选择模块54,具体用于从各段落中,选择分值超过预设阈值的目标段落。
本实施例中,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。
为了实现上述实施例,本实施例中提供了一种可能的扩展模块51的实现方式,图6为本发明实施例提供的一种扩展模块51的结构示意图,如图6所示,扩展模块51,包括:第一查询单元511和第一确定单元512。
第一查询单元511,用于查询历史记录,确定同一个用户在采用同一个搜索词进行搜索时,所选择查看的至少两个页面;所述至少两个页面中的目标页面的标题包含所述提问型搜索词。
第一确定单元512,用于在所述至少两个页面中,将除所述目标页面以外的页面的标题,确定为所述提问型搜索词的扩展搜索词。
进一步地,本实施例中还提供了另一种可能的扩展模块51的实现方式,图7为本发明实施例提供的另一种扩展模块51的结构示意图,如图7所示,扩展模块51,包括:提取单元513、第二查询单元514和第二确定单元515。
提取单元513,用于提取所述提问型搜索词的主题词。
第二查询单元514,用于在历史记录中查询包含所述主题词的历史搜索词。
第二确定单元515,用于将所查询到的历史搜索词作为所述提问型搜索词的扩展搜索词。
进一步,在本发明实施例的一种可能的实现方式中,图8为本发明实施例提供的又一种提问型搜索词的搜索装置的结构示意图,在图5的基础上,如图8所示的搜索装置,分析模块53,包括:
分段单元531,用于对所述页面进行分段处理,得到语义上相互独立的各段落。
分析单元532,用于根据所提取的各段落的特征,进行特征分析,得到各段落的分值。
其中,分析单元532,具体用于:针对每一个段落,对所述段落进行特征提取,得到各特征的特征分值;所述特征包括:数字特征、实体特征、对齐特征、聚合特征和列表特征中的一个或多个组合;根据各特征的特征分值,利用预先进行特征权重训练的机器学习模型进行打分,得到所述段落的分值。
进一步,在本发明实施例的一种可能的实现方式中,还包括:建立模块55。
建立模块55,用于建立包含所述目标段落的所述提问型搜索词的页面库;所述页面库,用于用户利用所述提问型搜索词进行搜索时,从所述页面库中选择在搜索结果页面进行显示的段落。
本发明实施例中,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。
为了实现上述实施例,本发明还提出另一种提问型搜索词的搜索装置,包括:处理器,以及用于存储所述处理器可执行指令的存储器。
其中,处理器被配置为:对提问型搜索词进行扩展,得到语义相关的扩展搜索词;根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;对所述页面的各段落进行特征分析,得到各段落的分值;根据所述分值从各段落中选择出作为搜索结果的目标段落。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行一种提问型搜索词的搜索方法,所述方法包括:对提问型搜索词进行扩展,得到语义相关的扩展搜索词;根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;对所述页面的各段落进行特征分析,得到各段落的分值;根据所述分值从各段落中选择出作为搜索结果的目标段落。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种提问型搜索词的搜索方法,所述方法包括:对提问型搜索词进行扩展,得到语义相关的扩展搜索词;根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;对所述页面的各段落进行特征分析,得到各段落的分值;根据所述分值从各段落中选择出作为搜索结果的目标段落。
可见,通过对提问型搜索词进行扩展,得到语义相关的扩展搜索词之后,根据扩展搜索词进行搜索,得到与该扩展搜索词匹配的页面,进而通过对页面的各段落进行特征分析,得到各段落的分值之后,根据分值从各段落中选择出作为搜索结果的目标段落。由于对提问型搜索词进行了扩展,从而扩大了搜索到的页面范围,解决了搜索结果覆盖不够全面,搜索效率较差的技术问题。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段落或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种基于深度问答的提问型搜索词的搜索方法,其特征在于,包括以下步骤:
对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
对所述页面的各段落进行特征分析,得到各段落的分值;
根据所述分值从各段落中选择出作为搜索结果的目标段落。
2.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述对提问型搜索词进行扩展,得到语义相关的扩展搜索词,包括:
查询历史记录,确定同一个用户在采用同一个搜索词进行搜索时,所选择查看的至少两个页面;所述至少两个页面中的目标页面的标题包含所述提问型搜索词;
在所述至少两个页面中,将除所述目标页面以外的页面的标题,确定为所述提问型搜索词的扩展搜索词。
3.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述对提问型搜索词进行扩展,得到语义相关的扩展搜索词,包括:
提取所述提问型搜索词的主题词;
在历史记录中查询包含所述主题词的历史搜索词;
将所查询到的历史搜索词作为所述提问型搜索词的扩展搜索词。
4.根据权利要求1-3任一项所述的提问型搜索词的搜索方法,其特征在于,所述对所述页面的各段落进行特征分析,得到各段落的分值,包括:
对所述页面进行分段处理,得到语义上相互独立的各段落;
根据所提取的各段落的特征,进行特征分析,得到各段落的分值。
5.根据权利要求4所述的提问型搜索词的搜索方法,其特征在于,所述根据所提取的各段落的特征,进行特征分析,得到各段落的分值,包括:
针对每一个段落,对所述段落进行特征提取,得到各特征的特征分值;所述特征包括:数字特征、实体特征、对齐特征、聚合特征和列表特征中的一个或多个组合;
根据各特征的特征分值,利用预先进行特征权重训练的机器学习模型进行打分,得到所述段落的分值。
6.根据权利要求1-3任一项所述的提问型搜索词的搜索方法,其特征在于,所述根据所述分值从各段落中选择出作为搜索结果的目标段落,包括:
从各段落中,选择分值超过预设阈值的目标段落。
7.根据权利要求1-3任一项所述的提问型搜索词的搜索方法,其特征在于,所述根据所述分值从各段落中选择出作为搜索结果的目标段落之后,还包括:
建立包含所述目标段落的所述提问型搜索词的页面库;所述页面库,用于用户利用所述提问型搜索词进行搜索时,从所述页面库中选择在搜索结果页面进行显示的段落。
8.一种基于深度问答的提问型搜索词的搜索装置,其特征在于,包括:
扩展模块,用于对提问型搜索词进行扩展,得到语义相关的扩展搜索词;
搜索模块,用于根据所述扩展搜索词进行搜索,得到与所述扩展搜索词匹配的页面;
分析模块,用于对所述页面的各段落进行特征分析,得到各段落的分值;
选择模块,用于根据所述分值从各段落中选择出作为搜索结果的目标段落。
9.根据权利要求8所述的提问型搜索词的搜索装置,其特征在于,所述扩展模块,包括:
第一查询单元,用于查询历史记录,确定同一个用户在采用同一个搜索词进行搜索时,所选择查看的至少两个页面;所述至少两个页面中的目标页面的标题包含所述提问型搜索词;
第一确定单元,用于在所述至少两个页面中,将除所述目标页面以外的页面的标题,确定为所述提问型搜索词的扩展搜索词。
10.根据权利要求8所述的提问型搜索词的搜索装置,其特征在于,所述扩展模块,包括:
提取单元,用于提取所述提问型搜索词的主题词;
第二查询单元,用于在历史记录中查询包含所述主题词的历史搜索词;
第二确定单元,用于将所查询到的历史搜索词作为所述提问型搜索词的扩展搜索词。
11.根据权利要求8-10任一项所述的提问型搜索词的搜索装置,其特征在于,所述分析模块,包括:
分段单元,用于对所述页面进行分段处理,得到语义上相互独立的各段落;
分析单元,用于根据所提取的各段落的特征,进行特征分析,得到各段落的分值。
12.根据权利要求11所述的提问型搜索词的搜索装置,其特征在于,所述分析单元,具体用于:
针对每一个段落,对所述段落进行特征提取,得到各特征的特征分值;所述特征包括:数字特征、实体特征、对齐特征、聚合特征和列表特征中的一个或多个组合;
根据各特征的特征分值,利用预先进行特征权重训练的机器学习模型进行打分,得到所述段落的分值。
13.根据权利要求8-10任一项所述的提问型搜索词的搜索装置,其特征在于,所述选择模块,具体用于:
从各段落中,选择分值超过预设阈值的目标段落。
14.根据权利要求8-10任一项所述的提问型搜索词的搜索装置,其特征在于,所述装置,还包括:
建立模块,用于建立包含所述目标段落的所述提问型搜索词的页面库;所述页面库,用于用户利用所述提问型搜索词进行搜索时,从所述页面库中选择在搜索结果页面进行显示的段落。
CN201611235417.1A 2016-12-28 2016-12-28 基于深度问答的提问型搜索词搜索方法及装置 Pending CN106599297A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611235417.1A CN106599297A (zh) 2016-12-28 2016-12-28 基于深度问答的提问型搜索词搜索方法及装置
US15/851,018 US20180181652A1 (en) 2016-12-28 2017-12-21 Search method and device for asking type query based on deep question and answer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611235417.1A CN106599297A (zh) 2016-12-28 2016-12-28 基于深度问答的提问型搜索词搜索方法及装置

Publications (1)

Publication Number Publication Date
CN106599297A true CN106599297A (zh) 2017-04-26

Family

ID=58602934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611235417.1A Pending CN106599297A (zh) 2016-12-28 2016-12-28 基于深度问答的提问型搜索词搜索方法及装置

Country Status (2)

Country Link
US (1) US20180181652A1 (zh)
CN (1) CN106599297A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN109543113A (zh) * 2018-12-21 2019-03-29 北京字节跳动网络技术有限公司 确定点击推荐词的方法、装置、存储介质及电子设备
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质
CN111814027B (zh) * 2020-08-26 2023-03-21 电子科技大学 基于搜索引擎的多源人物属性融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102053977A (zh) * 2009-11-04 2011-05-11 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN105955976A (zh) * 2016-04-15 2016-09-21 中国工商银行股份有限公司 一种自动应答***及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
JP4619042B2 (ja) * 2003-06-16 2011-01-26 オセ−テクノロジーズ・ベー・ヴエー 情報検索システムおよび情報検索方法
US7739104B2 (en) * 2005-05-27 2010-06-15 Hakia, Inc. System and method for natural language processing and using ontological searches
US20120095984A1 (en) * 2010-10-18 2012-04-19 Peter Michael Wren-Hilton Universal Search Engine Interface and Application
KR101192439B1 (ko) * 2010-11-22 2012-10-17 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
US9098570B2 (en) * 2011-03-31 2015-08-04 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for paragraph-based document searching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102053977A (zh) * 2009-11-04 2011-05-11 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索***
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN105955976A (zh) * 2016-04-15 2016-09-21 中国工商银行股份有限公司 一种自动应答***及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN109543113A (zh) * 2018-12-21 2019-03-29 北京字节跳动网络技术有限公司 确定点击推荐词的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
US20180181652A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
Lake et al. Word meaning in minds and machines.
CN108280155B (zh) 基于短视频的问题检索反馈方法、装置及其设备
Yu et al. Visual madlibs: Fill in the blank description generation and question answering
CN106599297A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
Bruni et al. Multimodal distributional semantics
CN106649760A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN103425635B (zh) 一种答案推荐方法和装置
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
Cohen et al. End to end long short term memory networks for non-factoid question answering
CN110633373A (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
US10671619B2 (en) Information processing system and information processing method
CN106202413A (zh) 一种跨媒体检索方法
CN110263122B (zh) 一种关键词获取方法、装置及计算机可读存储介质
CN104268192B (zh) 一种网页信息提取方法、装置及终端
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和***
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
KR20190083143A (ko) 관능 평가 방법 및 그 장치
CN107992602A (zh) 搜索结果展示方法和装置
KR101319413B1 (ko) 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법
CN107491447A (zh) 建立查询改写判别模型、查询改写判别的方法和对应装置
CN107833088A (zh) 内容提供方法、装置及智能设备
CN113010657A (zh) 基于解答文本的答案处理方法和答案推荐方法
CN107679121B (zh) 分类体系的映射方法及装置、存储介质、计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication