CN110020163A - 基于人机交互的搜索方法、装置、计算机设备和存储介质 - Google Patents

基于人机交互的搜索方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110020163A
CN110020163A CN201711350393.9A CN201711350393A CN110020163A CN 110020163 A CN110020163 A CN 110020163A CN 201711350393 A CN201711350393 A CN 201711350393A CN 110020163 A CN110020163 A CN 110020163A
Authority
CN
China
Prior art keywords
word
entity
target search
user
cooccurrence relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711350393.9A
Other languages
English (en)
Other versions
CN110020163B (zh
Inventor
姚源林
薛璐影
李远肇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711350393.9A priority Critical patent/CN110020163B/zh
Publication of CN110020163A publication Critical patent/CN110020163A/zh
Application granted granted Critical
Publication of CN110020163B publication Critical patent/CN110020163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于人机交互的搜索方法、装置、计算机设备和存储介质,其中,方法包括:对用户提问进行实体词提取,得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,根据目标搜索词所属的第一类别,确定与其存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,生成引导问题,根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表或通用的回答,导致回答不准确的技术问题。

Description

基于人机交互的搜索方法、装置、计算机设备和存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于人机交互的搜索方法、装置、计算机设备和存储介质。
背景技术
随着人工智能的发展,智能问答成为人工智能领域一个重要的应用,市场上出现了很多智能问答应用,比如百度度秘、微软小冰、苹果siri等。然而在智能问答***中,在处理用户提出的问题时,会出现用户提问较模糊的情况,或者提问比较泛化的情况,比如用户在提问“申请书怎么写”时,我们无法确认是“***”还是“离职申请书”等。
现有技术中,针对用户提问较模糊的情况,一般是通过搜索的途径提供全部可能的答案,或者直接给出一些通用的回答,致使不能明确给出用户想要的答案,回答不准确的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人机交互的搜索方法,以实现通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的问题。
本发明的第二个目的在于提出一种基于人机交互的搜索装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种方法基于人工交互的搜索方法,包括:
获取用户提出的待回复问题;
对所述待回复问题进行实体词提取,得到目标搜索词;
根据目标搜索词,查询实体词之间的共现关系,确定与所述目标搜索词存在共现关系的多个候选词;
根据所述目标搜索词所属的第一类别,确定与所述第一类别存在共现关系的第二类别,并从所述多个候选词中选取属于所述第二类别的至少两个补充搜索词;
根据所述至少两个补充搜索词,生成引导问题,以使用户从所述至少两个补充搜索词中进行选择;
根据用户选定的补充搜索词和所述目标搜索词搜索得到问题回复。
本发明实施例的一种基于人机交互的搜索方法中,获取用户提出的待回复问题,进行实体词提取,得到目标搜索词,查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词,根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,根据至少两个补充搜索词,生成引导问题,根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。
为达上述目的,本发明第二方面实施例提出了一种基于人机交互的搜索装置,包括:
获取模块,用于获取用户提出的待回复问题;
提取模块,用于对所述待回复问题进行实体词提取,得到目标搜索词;
查询模块,用于根据目标搜索词,查询实体词之间的共现关系,确定与所述目标搜索词存在共现关系的多个候选词;
第一确定模块,用于根据所述目标搜索词所属的第一类别,确定与所述第一类别存在共现关系的第二类别,并从所述多个候选词中选取属于所述第二类别的至少两个补充搜索词;
生成模块,用于根据所述至少两个补充搜索词,生成引导问题,以使用户从所述至少两个补充搜索词中进行选择;
回复模块,用于根据用户选定的补充搜索词和所述目标搜索词搜索得到问题回复。
本发明实施例的一种基于人机交互的搜索装置中,获取模块用于获取用户提出的待回复问题,提取模块用于对待回复问题进行实体词提取,得到目标搜索词,查询模块用于查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词,第一确定模块用于根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,生成模块用于根据至少两个补充搜索词,生成引导问题,以使用户从至少两个补充搜索词红进行选择,回复模块用于根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的基于人机交互的搜索方法。
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于人机交互的搜索方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如第一方面所述的基于人机交互的搜索方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于人工交互的搜索方法的流程示意图;
图2为本发明实施例所提供用户提问和回复的示意图;
图3为本发明实施例所提供的另一种基于人机交互的搜索方法的流程示意图;
图4为本发明实施例所提供的又一种基于人机交互的搜索方法的流程示意图;
图5为本发明实施例提供的一种基于人机交互的搜索装置的结构示意图;
图6为本发明实施例所提供的另一种基于人机交互的搜索装置的结构示意图;以及
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人机交互的搜索方法、装置、计算机设备和存储介质。
图1为本发明实施例所提供的一种基于人工交互的搜索方法的流程示意图。
如图1所示,该方法包括:
步骤101,获取用户提出的待回复问题。
具体地,采集用户提出的待回复问题,可通过麦克风采集用户提出的待回复问题,或者可以通过键盘采集用户输入的待回复问题。
图2为本发明实施例所提供用户提问和回复的示意图,如图2所示,获取到的用户提问为:钢笔工具怎么用?
步骤102,对待回复问题进行实体词提取,得到目标搜索词。
可选地,将获取到的待回复问题根据名词、动词和助词进行分词,去除出现频率最高的一些助词,如“是、的、在等”,并根据词性标注过滤掉不合适的词,比如副词等,只留下实词,即具有实际意义的词,如名词、数词等,提取得到的实体词即为目标搜索词,对于实体词提取的方法,本实施例中不作限定。
例,如图2所示的用户提问,通过实词提取得到的目标搜索词则为“钢笔工具”。
步骤103,根据目标搜索词,查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词。
具体地,目标搜索词是提取得到的实体词,查询目标搜索词对应的实体词和其他实体词之间的共现关系,确定与该目标搜索词存在共现关系的多个候选词,实现了候选词的细化,即补充搜索关系词的细化。
例,如图2所示,确定的目标搜索词为钢笔工具,通过查询得到与钢笔工具存在共现关系的多个候选词为:Photoshop、Illstrator、Coreldraw、抠图等。
其中,查询实体词之间的共现关系,作为一种可能的实现方式,在查询目标搜索词对应的实体词之间的共现关系之前,可根据该领域预先建立实体词表,并根据建立的实体词表确定实体词之间的共现关系,对于建立实体词表和确定共现关系的方法,下述实施例中会进一步详细解释。
步骤104,根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词。
其中,每一领域中包含多个类别,如软件类别、工具类别等,对应领域中,包含较多的实体词,不同实体词对应的类别也不同,而不同的类别之间可能存在共现关系,关于实体词对应的类别和类别之间的共现关系,下述实施例中会进一步详细解释。
具体地,获取得到的目标搜索词和与该目标搜索词存在共现关系的多个候选词可能分别属于该领域的不同类别,为了便于区分,将从用户的待回答问题中识别出的目标搜索词所属的类别称为第一类别,而与该第一类别存在共现关系的类别称为第二类别。根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,实现了当用户问答中只有一个类别的实体词时,可以根据类别间的共现关系,给出具有共现关系的类别的细化选项,供用户选择,进一步提高补充搜索词的准确性。
例,如图2所示,目标搜索词为钢笔工具,钢笔工具属于工具类别,而工具类别和软件类别之间存在共现关系,于是从和钢笔工具存在共现关系的实体词Photoshop、Illstrator、Coreldraw、抠图等中,选择至少2个属于软件类别的实体词Photoshop、Illstrator和Coreldraw。
步骤105,根据至少两个补充搜索词,生成引导问题,以使用户从至少两个补充搜索词中进行选择。
具体地,根据至少两个补充搜索词,生成针对用户提问的引导问题,引导用户从至少两个补充搜索词中进行选择。
例如,图2中,生成的引导问题即为:你这个问题,我还是不太明白,具体想问哪个方面的问题呢?Photoshop、Illstrator、Coreldraw。
步骤106,根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。
具体地,根据用户选定的补充搜索词,将该补充搜索错和目标搜索词一起进行搜素得到针对用户问题的回复。即例如图2中,最后给出回复。
本发明实施例的一种基于人机交互的搜索方法中,获取用户提出的待回复问题,进行实体词提取,得到目标搜索词,查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词,根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,根据至少两个补充搜索词,生成引导问题,根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。
基于上述实施例,在根据目标搜索词查询实体词之间的共现关系之前,需要根据具体领域,预先离线生成实体词表,确定实体词的共现关系,以及实体词所属的类别及类别之间的共现关系,为此,本发明实施例提出了另一种基于人机交互的搜索方法的可能的实现方式,图3为本发明实施例所提供的另一种基于人机交互的搜索方法的流程示意图,如图3所示,该方法包括以下步骤:
步骤301,针对每一领域预先采用离线方式,获取领域的问答语料中出现的实体词,以建立实体词表。
具体地,针对每一领域,获取该领域的问题语料,作为一种可能的实现方式,可利用百度知道通过搜索抓取获得该领域的一些初始的问答语料。对获取得到的问答语料进行分词,去除停用词,对去除停用词后保留的词语进行词性标注,保留词性为名词和/或动词的词语作为实体词,并统计实体词的词频,作为一种可能的实现方式,可通过词频(TermFrequency,TF)算法对实体词的词频进行统计,并预设词频阈值,将实体词的词频高于词频阈值的实体词作为本领域的实体词,建立实体词表。
步骤302,统计不同实体词的共现次数,根据共现次数,确定实体词之间的共现关系。
具体地,不同实体词的共现次数,是指不同实体词在同一个问题或同一个答案中出现的次数。统计不同实体词的共现次数,根据共现次数,确定实体词之间的共现关系,作为一种可能的实现方式,可设置阈值次数,不同实体词的共现次数大于阈值次数时,则确定该不同实体词之间存在共现关系,否则认为不存在共现关系。
例如,在UE智能助教领域,比如用户的问答语料为:Photoshop中钢笔工具怎么用,Photoshop钢笔工具怎么抠图?其中,Photoshop和钢笔工具共同出现在一个问答中,且共同出现的次数为2次,若阈值次数为1次,则认为Photoshop和钢笔工具具有共现关系。
步骤303,对实体词表的实体词进行语义识别,对具有相同语义的实体词的共现关系进行合并。
具体地,对实体词表中的各实体词进行语义识别,确定具有相同语义的实体词,将具有相同语义的实体词的共现关系进行合并。例如,Photoshop和PS就是具有相同语义的实体词,都代表同一个软件,Photoshop和钢笔工具具有共现关系,则PS和钢笔工具也具有共现关系,则将该相同的共现关系进行合并,只保留一个共现关系,如保留Photoshop和钢笔工具的共现关系。实际应用中可提高查询的速度。
步骤304,确定实体词表中的各实体词所属的类别。
具体地,每一个领域都有不同的类别,类别是根据实体词的应用场景划分得到的,根据不同的类别,确定实体词表中各实体词所属的类别。作为一种可能的实现方式,可通过人工标注的方式对实体词表中的各实体词所属的类别进行识别和标注,确定实体词表中的各实体词所属的类别。作为另一种可能的实现方式,根据领域,建立对应的机器学习的模型,通过选取的机器学习的类别样本,对模型进行训练,根据训练完成的机器学习模型,对实体词进行类别的区分。
步骤305,统计不同类别的共现次数,根据不同类别的共现次数,建立类别间的共现关系。
具体地,不同类别的共现次数,是指分属于不同类别的实体词,在同一个问题或同一个答案中出现的次数,作为一种可能的实现方式,设置阈值次数,若不同类别的实体词,在同一个问题或同一个答案中出现的次数大于阈值次数,则该不同类别之间存在共现关系,并建立该不同类别之间的共现关系。
例如,阈值次数设置为1次,Photoshop属于软件类别,钢笔工具属于工具类别,用户问题为:Photoshop中钢笔工具怎么用,Photoshop钢笔工具怎么抠图?在该问题中,实体词Photoshop和钢笔工具出现的次数均为2次,大于阈值次数的1次,则实体词Photoshop对应的软件类别和钢笔工具对应的工具类别存在共现关系,建立软件类别和工具类别的共现关系。
需要说明的是,步骤302和步骤303,可以在步骤304和步骤305之前执行,也可以在步骤304和步骤305之后执行,还可以与步骤304和步骤305并行执行。
本发明实施例的一种基于人机交互的搜索方法中,根据每一领域,预先建立该领域的实体词表,并确定实体词表中各实体词之间的共现关系,并根据实体词表中各实体词所属的类别,统计不同类别的共现次数,确定不同类别之间的共现关系。通过预先建立实体词表,确定各实体词之间的共现关系,并进一步确定各实体词对应的类别之间的共现关系,使得当从用户提出的待回复问题中,提取得到目标搜索词后,可进一步确定目标搜索词的补充搜索词,通过目标搜索词和补充搜索词进行搜索得到问题回复,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。
基于上述实施例,本发明还提出了一种基于人机交互的搜索方法的可能的实现方式,图4为本发明实施例所提供的又一种基于人机交互的搜索方法的流程示意图,如图4所示,在步骤102之后,还可以包括如下步骤:
步骤401,根据目标搜索词搜索问题回复,确定得到的候选问题回复为多个,且不同候选问题回复的语义相似程度低于阈值。
具体地,根据提取得到的目标搜索词,搜索问题回复,若搜索得到的候选问题回复为多个,通过语义解析并计算不同候选问题回复之间的语义相似程度,设置语义相似程度的阈值,若不同候选问题回复的语义相似程度低于阈值,则认为候选问题回复之间语义相似程度较小,无法通过该目标搜索词确定对应的问题回复,需要进一步补充搜索关键词,来完成用户问题的回复,即需要进一步执行步骤103至步骤106。否则直接给出用户回复。
例如,很多软件都有钢笔工具,如Photoshop、Illustrator等,如果用户的提问仅为:钢笔工具怎么用?那么确定的目标搜索词则为钢笔工具,以钢笔工具为目标搜索词,搜索得到的候选问题回复则为钢笔工具在不同软件中的使用方法,则候选问题回复之间的语义相似程度较低,进而无法准确给出用户问题的回复,需要进一步补充搜索关键词,来完成用户问题的回复。
本发明实施例的一种基于人机交互的搜索方法中,获取用户提出的待回复问题,进行实体词提取,得到目标搜索词,查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词,根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,根据至少两个补充搜索词,生成引导问题,根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。同时,在提取得到目标搜索词后,进一步判断目标搜索词搜索得到的候选问题回复是否语义相似程度低与阈值,来判断是否可以直接回复用户问题,如果不低于阈值,则直接给出用户回复,提高了问题回复的速度且准确性较好,若低于阈值,则需要进一步补充相关的搜索词,实现模型问题的细化,提高了问题回复的准确性。
为了实现上述实施例,本发明还提出一种基于人机交互的搜索装置。
图5为本发明实施例提供的一种基于人机交互的搜索装置的结构示意图。
如图5所示,该装置包括:获取模块51、提取模块52、查询模块53、第一确定模块54、生成模块55和回复模块56。
获取模块51,用于获取用户提出的待回复问题.
提取模块52,用于对待回复问题进行实体词提取,得到目标搜索词。
查询模块53,用于根据目标搜索词,查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词。
第一确定模块54,用于根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词。
生成模块55,用于根据至少两个补充搜索词,生成引导问题,以使用户从至少两个补充搜索词中进行选择。
回复模块56,用于根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的一种基于人机交互的搜索装置中,获取模块用于获取用户提出的待回复问题,提取模块用于对待回复问题进行实体词提取,得到目标搜索词,查询模块用于查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词,第一确定模块用于根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,生成模块用于根据至少两个补充搜索词,生成引导问题,以使用户从至少两个补充搜索词红进行选择,回复模块用于根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。
基于上述实施例,本发明实施例还提供了一种基于人机交互的搜索装置的可能的实现方式,图6为本发明实施例所提供的另一种基于人机交互的搜索装置的结构示意图,在上一实施例的基础上,如图6所示,该装置还包括:建立模块57、统计确定模块58、第二确定模块59、统计建立模块60和第三确定模块61。
建立模块57,用于针对每一领域预先采用离线方式,获取领域的问答语料中出现的实体词,以建立实体词表。
统计确定模块58,用于统计不同实体词的共现次数,其中,不同实体词的共现次数,是指不同实体词,在同一个问题或同一个答案中出现的次数。根据不同实体词的共现次数,确定实体词之间的共现关系。
第二确定模块59,用于确定实体词表中的各实体词所属的类别,其中,类别是根据实体词的应用场景划分得到的。
统计建立模块60,用于针对每一领域,根据领域的问答语料,统计不同类别的共现次数,其中,不同类别的共现次数,是指分属于不同类别的实体词,在同一个问题或同一个答案中出现的次数,根据不同类别的共现次数,建立类别之间的共现关系。
第三确定模块61,用于根据目标搜索词搜索问题回复,确定搜索得到的候选问题回复为多个,且不同候选问题回复的语义相似程度低于阈值。
作为一种可能的实现方式,建立模块57,具体用于:
对问答语料进行分词,并去除停用词,对去除停用词后保留的词语进行词性标注,保留词性为名词和/或动词的词语作为实体词,根据各实体词的词频,建立实体词表。
进而,对实体词表中的实体词进行语义识别,确定实体词表中具有相同语义的实体词,对具有相同语义的实体词的共现关系进行合并。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的一种基于人机交互的搜索装置中,获取模块用于获取用户提出的待回复问题,提取模块用于对待回复问题进行实体词提取,得到目标搜索词,查询模块用于查询实体词之间的共现关系,确定与目标搜索词存在共现关系的多个候选词,第一确定模块用于根据目标搜索词所属的第一类别,确定与第一类别存在共现关系的第二类别,并从多个候选词中选取属于第二类别的至少两个补充搜索词,生成模块用于根据至少两个补充搜索词,生成引导问题,以使用户从至少两个补充搜索词红进行选择,回复模块用于根据用户选定的补充搜索词和目标搜索词搜索得到问题回复。通过从用户提出的待回复问题中,提取得到目标搜索词,确定与目标搜索词存在共现关系的多个候选词,并从中选出至少两个补充搜索词生成引导问题供用户选择,实现了模糊问题的细化,解决了现有技术中,针对用户提问,回答仅给出搜索列表,或通用的回答,导致回答不准确的技术问题。
为了实现上述实施例,本发明实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的基于人机交互的搜索方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时,实现如前述方法实施例所述的基于人机交互的搜索方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述方法实施例所述的基于人机交互的搜索方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于人机交互的搜索方法,其特征在于,包括以下步骤:
获取用户提出的待回复问题;
对所述待回复问题进行实体词提取,得到目标搜索词;
根据目标搜索词,查询实体词之间的共现关系,确定与所述目标搜索词存在共现关系的多个候选词;
根据所述目标搜索词所属的第一类别,确定与所述第一类别存在共现关系的第二类别,并从所述多个候选词中选取属于所述第二类别的至少两个补充搜索词;
根据所述至少两个补充搜索词,生成引导问题,以使用户从所述至少两个补充搜索词中进行选择;
根据用户选定的补充搜索词和所述目标搜索词搜索得到问题回复。
2.根据权利要求1所述的搜索方法,其特征在于,所述根据目标搜索词,查询实体词之间的共现关系,确定与所述目标搜索词存在共现关系的多个候选词之前,还包括:
针对每一领域预先采用离线方式,获取所述领域的问答语料中出现的实体词,以建立实体词表;
统计不同实体词的共现次数;所述不同实体词的共现次数,是指不同实体词,在同一个问题或同一个答案中出现的次数;
根据不同实体词的共现次数,确定实体词之间的共现关系。
3.根据权利要求2所述的搜索方法,其特征在于,所述获取所述领域的问答语料中出现的实体词,以建立实体词表,包括:
对所述问答语料进行分词,并去除停用词;
对去除停用词后保留的词语进行词性标注,保留词性为名词和/或动词的词语作为实体词;
根据各实体词的词频,建立实体词表。
4.根据权利要求2所述的搜索方法,其特征在于,所述确定实体词之间的共现关系之后,还包括:
对所述实体词表中的实体词进行语义识别;
确定所述实体词表中具有相同语义的实体词;
对具有相同语义的实体词的共现关系进行合并。
5.根据权利要求2所述的搜索方法,其特征在于,所述针对每一领域预先采用离线方式,获取所述领域的问答语料中出现的实体词,以建立实体词表之后,还包括:
确定所述实体词表中的各实体词所属的类别;其中,所述类别是根据所述实体词的应用场景划分得到的;
针对每一领域,根据所述领域的问答语料,统计不同类别的共现次数;所述不同类别的共现次数,是指分属于不同类别的实体词,在同一个问题或同一个答案中出现的次数;
根据不同类别的共现次数,建立类别之间的共现关系。
6.根据权利要求1-5所述的搜索方法,其特征在于,所述对所述待回复问题进行实体词提取,得到目标搜索词之后,还包括:
根据所述目标搜索词搜索问题回复;
确定搜索得到的候选问题回复为多个,且不同候选问题回复的语义相似程度低于阈值。
7.一种基于人机交互的搜索装置,其特征在于,包括:
获取模块,用于获取用户提出的待回复问题;
提取模块,用于对所述待回复问题进行实体词提取,得到目标搜索词;
查询模块,用于根据目标搜索词,查询实体词之间的共现关系,确定与所述目标搜索词存在共现关系的多个候选词;
第一确定模块,用于根据所述目标搜索词所属的第一类别,确定与所述第一类别存在共现关系的第二类别,并从所述多个候选词中选取属于所述第二类别的至少两个补充搜索词;
生成模块,用于根据所述至少两个补充搜索词,生成引导问题,以使用户从所述至少两个补充搜索词中进行选择;
回复模块,用于根据用户选定的补充搜索词和所述目标搜索词搜索得到问题回复。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的基于人机交互的搜索方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的基于人机交互的搜索方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-6中任一所述的基于人机交互的搜索方法。
CN201711350393.9A 2017-12-15 2017-12-15 基于人机交互的搜索方法、装置、计算机设备和存储介质 Active CN110020163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711350393.9A CN110020163B (zh) 2017-12-15 2017-12-15 基于人机交互的搜索方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711350393.9A CN110020163B (zh) 2017-12-15 2017-12-15 基于人机交互的搜索方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110020163A true CN110020163A (zh) 2019-07-16
CN110020163B CN110020163B (zh) 2021-08-17

Family

ID=67186989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711350393.9A Active CN110020163B (zh) 2017-12-15 2017-12-15 基于人机交互的搜索方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110020163B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287086A (zh) * 2020-11-13 2021-01-29 北京京东尚科信息技术有限公司 一种智能应答方法、装置、服务器和介质
CN112749266A (zh) * 2021-01-19 2021-05-04 海尔数字科技(青岛)有限公司 一种工业问答方法、装置、***、设备及存储介质
CN112749328A (zh) * 2020-04-21 2021-05-04 腾讯科技(深圳)有限公司 搜索方法、装置和计算机设备
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206481A1 (en) * 2005-03-14 2006-09-14 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN101097573A (zh) * 2006-06-28 2008-01-02 腾讯科技(深圳)有限公司 一种自动问答***及方法
CN101593206A (zh) * 2009-06-25 2009-12-02 腾讯科技(深圳)有限公司 基于问答互动平台中答案的搜索方法及装置
CN101676909A (zh) * 2008-09-16 2010-03-24 联想(北京)有限公司 为用户提供自助服务的方法及计算机
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206481A1 (en) * 2005-03-14 2006-09-14 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN101097573A (zh) * 2006-06-28 2008-01-02 腾讯科技(深圳)有限公司 一种自动问答***及方法
CN101676909A (zh) * 2008-09-16 2010-03-24 联想(北京)有限公司 为用户提供自助服务的方法及计算机
CN101593206A (zh) * 2009-06-25 2009-12-02 腾讯科技(深圳)有限公司 基于问答互动平台中答案的搜索方法及装置
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749328A (zh) * 2020-04-21 2021-05-04 腾讯科技(深圳)有限公司 搜索方法、装置和计算机设备
CN112749328B (zh) * 2020-04-21 2024-01-05 腾讯科技(深圳)有限公司 搜索方法、装置和计算机设备
CN112287086A (zh) * 2020-11-13 2021-01-29 北京京东尚科信息技术有限公司 一种智能应答方法、装置、服务器和介质
CN112749266A (zh) * 2021-01-19 2021-05-04 海尔数字科技(青岛)有限公司 一种工业问答方法、装置、***、设备及存储介质
CN113486071A (zh) * 2021-07-27 2021-10-08 掌阅科技股份有限公司 基于电子书的搜索方法、服务端、客户端及***

Also Published As

Publication number Publication date
CN110020163B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN108009293A (zh) 视频标签生成方法、装置、计算机设备和存储介质
WO2019158014A1 (zh) 由计算机实施的与用户对话的方法和计算机***
CN109670029A (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
CN110196901A (zh) 对话***的构建方法、装置、计算机设备和存储介质
CN103914548B (zh) 信息搜索方法和装置
CN110196894A (zh) 语言模型的训练方法和预测方法
CN108280061A (zh) 基于歧义实体词的文本处理方法和装置
CN108170773A (zh) 新闻事件挖掘方法、装置、计算机设备和存储介质
CN104573099B (zh) 题目的搜索方法及装置
CN107678561A (zh) 基于人工智能的语音输入纠错方法及装置
CN110020163A (zh) 基于人机交互的搜索方法、装置、计算机设备和存储介质
CN107436922A (zh) 文本标签生成方法和装置
CN110046350A (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN108563655A (zh) 基于文本的事件识别方法和装置
CN108829894A (zh) 口语词识别和语义识别方法及其装置
CN108319720A (zh) 基于人工智能的人机交互方法、装置及计算机设备
CN109710759A (zh) 文本切分方法、装置、计算机设备和可读存储介质
CN108460098A (zh) 信息推荐方法、装置和计算机设备
CN107220355A (zh) 基于人工智能的新闻质量判断方法、设备及存储介质
CN110175335A (zh) 翻译模型的训练方法和装置
CN107992602A (zh) 搜索结果展示方法和装置
CN109710845A (zh) 资讯推荐方法、装置、计算机设备和可读存储介质
CN107766325A (zh) 文本拼接方法及其装置
CN109815500A (zh) 非结构化公文的管理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant