CN110825859A - 检索方法、装置、可读存储介质和电子设备 - Google Patents
检索方法、装置、可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN110825859A CN110825859A CN201911001415.XA CN201911001415A CN110825859A CN 110825859 A CN110825859 A CN 110825859A CN 201911001415 A CN201911001415 A CN 201911001415A CN 110825859 A CN110825859 A CN 110825859A
- Authority
- CN
- China
- Prior art keywords
- information
- determining
- matching degree
- retrieval
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 148
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种检索方法、装置、可读存储介质和电子设备,所述方法通过确定检索信息和各问题信息对应的第一语句向量和第二语句向量,并计算所述第一语句向量和各第二语句向量的相似度确定候选问题信息,进而确定与所述检索信息对应的答案信息。其中所述第一语句向量和第二语句向量分别为对所述检索信息和各问题信息中各词对应词向量加权后的得到的语句向量表示。所述方法在确定所述检索信息和各问题信息匹配度的过程中引入了所述检索信息中各词的权重信息,提高了整个检索过程的效率与准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种检索方法、装置、可读存储介质和电子设备。
背景技术
在软件使用的过程中,用户往往会遇到很多问题,因此很多用户会通过拨打客服电话或与在线客服联系,以语音或文字的方式进行咨询。随着用户量的增大,客服需要解答的问题及服务的用户会越来越多。为了节省成本,越来越多的软件开始采用机器语音客服或机器在线客服来回应用户的问题。这个过程中,实际上是通过语音识别或用户输入文字的方式获得用户的问题,然后搜索答案反馈给客户。但是现在采用机器客服解答问题的过程中,返回的问题答案准确率不高。
发明内容
有鉴于此,本发明实施例旨在提高问题检索过程的效率及准确率。
第一方面,本发明实施例公开了一种检索方法,所述方法包括:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
进一步地,所述计算所述第一语句向量和各第二语句向量的第一匹配度具体为:
计算所述第一语句向量和各第二语句向量的距离以确定对应的第一匹配度。
进一步地,所述根据对应的第一匹配度确定候选问题信息具体为:
确定对应的第一匹配度大于第一阈值的问题信息作为候选问题信息。
进一步地,所述根据对应的第一匹配度确定候选问题信息具体为:
确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。
进一步地,所述根据候选问题信息输出所述检索信息对应的答案信息包括:
在所述候选问题信息中确定与所述检索信息匹配的目标问题信息;
输出所述目标问题信息对应的答案信息。
进一步地,所述根据对应的第一匹配度确定候选问题信息包括:
根据预设规则在数据信息集合中确定多个问题信息;
确定所述检索信息与各问题信息的第二匹配度;
根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
进一步地,所述确定所述检索信息与各问题信息的第二匹配度具体为:
将所述检索信息和各问题信息分别输入预先训练的预测模型中以确定对应的第二匹配度。
进一步地,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定所述第二匹配度大于第二阈值的问题信息为候选问题信息。
进一步地,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定第二匹配度最大的M个问题信息作为候选问题信息,所述M为第二预设常数。
第二方面,本发明实施例公开了一种检索装置,所述装置包括:
信息确定模块,用于确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息。
词向量确定模块,用于确定所述检索信息中包含的各词对应的词向量。
加权模块,用于对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量。
语句向量确定模块,用于确定所述数据信息集合中各问题信息确定对应的第二语句向量。
计算模块,用于计算所述第一语句向量和各第二语句向量的第一匹配度。
候选问题确定模块,用于根据对应的第一匹配度确定候选问题信息;
答案输出模块,用于根据候选问题信息输出所述检索信息对应的答案信息。
第三方面,本发明实施例公开了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例公开了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下所述步骤:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
进一步地,所述计算所述第一语句向量和各第二语句向量的第一匹配度具体为:
计算所述第一语句向量和各第二语句向量的距离以确定对应的第一匹配度。
进一步地,所述根据对应的第一匹配度确定候选问题信息具体为:
确定对应的第一匹配度大于第一阈值的问题信息作为候选问题信息。
进一步地,所述根据对应的第一匹配度确定候选问题信息具体为:
确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。
进一步地,所述根据候选问题信息输出所述检索信息对应的答案信息包括:
在所述候选问题信息中确定与所述检索信息匹配的目标问题信息;
输出所述目标问题信息对应的答案信息。
进一步地,所述根据对应的第一匹配度确定候选问题信息包括:
根据预设规则在数据信息集合中确定多个问题信息;
确定所述检索信息与各问题信息的第二匹配度;
根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
进一步地,所述确定所述检索信息与各问题信息的第二匹配度具体为:
将所述检索信息和各问题信息分别输入预先训练的预测模型中以确定对应的第二匹配度。
进一步地,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定所述第二匹配度大于第二阈值的问题信息为候选问题信息。
进一步地,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定第二匹配度最大的M个问题信息作为候选问题信息,所述M为第二预设常数。
本发明实施例所述的方法通过确定检索信息中包含的各词对应的词向量,并对所述词向量加权处理后确定第一语句向量,再计算确定所述第一语句向量和所述数据信息集合中各问题信息对应的第二语句向量的第一匹配度,根据所述第一匹配度确定候选问题信息,最后根据候选问题信息输出所述检索信息对应的答案信息。所述方法在确定所述检索信息和各问题信息匹配度的过程中引入了所述检索信息中各词的权重信息,提高了整个检索过程的效率与准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的检索方法的流程图;
图2为本发明实施例的显示候选问题信息的示意图;
图3为本发明实施例的显示答案信息的示意图;
图4为本发明实施例一种可选实现方式的检索方法流程图;
图5为本发明实施例的检索装置的示意图;
图6为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为本发明实施例的检索方法的流程图,如图1所示,所述检索方法包括:
步骤S100、确定检索信息和数据信息集合。
具体地,所述检索信息为用户输入的包含检索内容的问题,可以是用户输入的文本信息,或输入的语音信息转化的文本信息。例如,“怎么修改收货地址”。所述数据信息集合为数据库中全部或部分数据的集合,包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息。例如:“问题信息:如何修改地址?;答案信息:点击‘个人信息’中的‘收货地址’进行编辑即可”。
步骤S200、确定所述检索信息中包含的各词对应的词向量。
具体地,对所述检索信息进行分词处理,得到多个词组成的词序列。例如,当输入的检索信息为“下单后地址错误怎么办”,分词后得到的词序列为{“下单”,“后”,“地址”,“错误”,“怎么办”}。再分别确定所述词序列中各词对应的词向量。所述确定各词对应词向量的方式例如可以是将所述词序列中的各词按顺序输入词向量模型,依次输出对应的词向量。所述词向量模型例如可以是word2vec模型、glove模型、ELMo模型和BERT模型等。
步骤S300、对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量。
具体地,所述加权过程包括对所述全部词对应的词向量组成的序列进行平均处理得到平均向量,再考虑每一个词向量对应的词在所述检索信息中的权重对得到的平均向量进行加权处理以确定第一语句向量。其中所述加权处理的过程为先对每一个词向量对应的词进行词频-逆文本频率(TF-IDF)打分,再根据所述各词向量对应的TF-IDF分值对所述平均向量加权处理得到一个语句表示,最后使用主成分分析的方法在所述语句表示中去掉共有向量,以确定所述第一语句向量。可选的,所述语句表示还可以通过平滑倒词频(smoothinverse frequency,SIF)的方法确定,所述平滑倒词频方法为根据词在所述检索信息中出现的频率确定权重,其中出现频率越低的词权重越大。
步骤S400、确定所述数据信息集合中各问题信息确定对应的第二语句向量。
具体地,所述第二语句向量可以为数据库中提前处理好的向量,与所述各问题信息一一对应。或者通过处理第一语句向量的过程对所述数据信息集合中的各问题信息处理确定,即通过步骤S200和S300所述的方法处理所述数据信息集合中的各问题信息确定对应的第二语句向量,每个所述第二语句向量用于表征所述数据信息集合中对应的问题信息。
步骤S500、计算所述第一语句向量和各第二语句向量的第一匹配度。
具体地,所述第一语句向量和各第二语句向量的第一匹配度可以通过计算所述第一语句向量和各第二语句向量的距离确定,所述距离可以是余弦距离。例如,当所述第一语句向量为q,所述第二语句向量为a时,所述第一语句向量和第二语句向量的第一匹配度为:
步骤S600、根据对应的第一匹配度确定候选问题信息。
具体地,所述候选问题信息可以根据预先设定的第一阈值确定,即当问题信息对应的第一匹配度大于第一阈值时,确定所述问题信息为候选问题信息。例如,当所述问题信息包括{a1,a2,a3,a4,a5},对应的第一匹配度分别为{0.23,0.75,0.19,0.52,0.91},同时预先设定的第一阈值为0.5时,确定候选问题信息为{a2,a4,a5}。
作为本申请实施例的另一个可选的实现方式,所述候选问题信息可以根据预先设定的数量确定,确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。例如,当所述问题信息包括{a1,a2,a3,a4,a5},对应的第一匹配度分别为{0.23,0.75,0.19,0.52,0.91},同时所述第一预设常数N为3时,确定候选问题信息为{a2,a4,a5}。
作为本申请实施例的又一个可选的实现方式,所述候选问题信息还可以结合上述两种规则确定,即先所述数据库中确定第一匹配度大于第一阈值的问题信息,再在所述第一匹配度大于第一阈值的问题信息中确定第一匹配度最大的N个问题信息作为候选问题信息。例如,当所述问题信息包括{a1,a2,a3,a4,a5},对应的第一匹配度分别为{0.23,0.75,0.19,0.52,0.91},同时预先设定的第一阈值为0.5时,所述第一预设常数N为2时,确定候选问题信息为{a2,a5}。
可选的,还可以设定所述N为一个常数范围。当所述第一匹配度大于第一阈值的问题信息数量小于所述N的最小值Nmin时,在所述数据信息集合中选择第一匹配度最大的Nmin个问题信息作为候选问题信息;当所述第一匹配度大于第一阈值的问题信息数量在所述N的最小值Nmin和最大值Nmax之间时,确定全部第一匹配度大于第一阈值的问题信息为候选问题信息;当所述第一匹配度大于第一阈值的问题信息数量大于N的最大值Nmax时,在所述第一匹配度大于第一阈值的问题信息中确定Nmax个问题信息作为候选问题信息。
作为本申请实施例的一个可选的实施方式,所述确定候选问题信息的过程包括如下步骤:
步骤S610、根据预设规则在数据信息集合中确定多个问题信息。
具体地,所述预设规则例如可以是上述根据预先设定的第一阈值、数量及阈值和数量的结合确定候选问题信息的规则,在此不再赘述。
步骤S620、确定所述检索信息与各问题信息的第二匹配度。
具体地,所述确定所述检索信息与各问题信息的第二匹配度的过程为将所述检索信息和各问题信息分别输入预先训练的预测模型中,输入所述各问题信息与所述检索信息的第二匹配度。其中所述预测模型例如根据数据信息集合中的问题信息、历史检索信息、和历史每次检索时点击的问题信息训练得到,即将所述各问题信息和历史检索信息作为所述预测模型的输入,当所述输入的问题信息在此次检索过程中被点击则确定输出为1,未被点击则确定输出为0。
步骤S630、根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
具体地,所述候选问题信息的确定方式例如可以是通过确定所述第二匹配度大于第二阈值的问题信息为候选问题信息,或者确定第二匹配度最大的M个问题信息作为候选问题信息,所述M为第二预设常数。可选的,还可以结合上述两种规则确定所述候选问题信息。
图2为本发明实施例的显示候选问题信息的示意图,如图2所示,当所述候选问题信息20可以通过客户端的显示界面显示。可选的,所述候选问题信息20通过所述客户端显示界面上的选择控件显示,即用户可以通过触发所述选中控件选中至少一个候选任务信息。
步骤700、根据候选问题信息输出所述检索信息对应的答案信息。
具体地,所述检索信息对应的答案信息为一个所述候选问题信息对应的答案信息。根据步骤S600确定候选问题信息后,当所述候选问题信息中的一个候选问题信息被选中,即确定所述候选问题信息对应的答案信息为所述检索信息对应的答案信息,将所述答案信息输出。所述选中候选信息的方法例如可以是向服务器发送包含被选中候选问题信息标识的选中指令,所述选中指令可以通过在客户端触发选中控件发送。
图3为本发明实施例的显示答案信息的示意图,如图3所示,当所述候选任务信息被选中时,输出所述检索信息对应的答案信息30,所述答案信息30可以通过客户端的显示界面显示。
所述方法在确定所述检索信息和各问题信息匹配度的过程中引入了所述检索信息中各词的权重信息,提高了整个检索过程的效率与准确率。
图4为本发明实施例一种可选实现方式的检索方法流程图,如图4所示,所述方法包括:
步骤S800、确定检索信息。
具体地,所述检索信息的确定过程可以为用户通过客户端输入语音信息或文字信息,所述客户端例如可以是手机、计算机、平板电脑等智能终端,当用户输入信息为语音信息时,所述客户端可以将所述语音信息转换为文字信息。
步骤S900、确定所述检索信息和各问题信息的第一匹配度。
具体地,所述确定第一匹配度的过程与S200-S500所述的过程相同,在此不再赘述。
步骤S1000、根据第一匹配度由大到小的顺序对问题信息排序以确定第一列表。
具体地,在所述数据信息集合中获取全部问题信息,再根据所述第一匹配度由大到小对所述各问题信息进行排序,确定第一列表,即所述第一列表为一个第一匹配度由前往后依次递减的序列。
步骤S1100、在第一列表中获取第一匹配度大于阈值的问题信息以确定第二列表。
具体地,判断所述第一列表中的各问题信息的第一匹配度是否大于阈值,当所述问题信息的第一匹配度大于阈值,则按顺序获取所述问题信息,确定第二列表,所述第二列表为第一匹配度由前往后依次递减的序列。
步骤S1200、确定第二列表中的问题信息数量M。
具体地,确定所述第二列表中的问题信息数量M,并根据预设常数范围N(Nmin-Nmax)获取第一列表或第二列表中包含的问题信息。其中,当M<Nmin时,获取第一列表中前Nmin个问题信息;当Nmin<M<Nmax时,获取第二列表中全部的问题信息;当M>Nmax时,获取第二列表中前Nmax个问题信息。
以所述预设常数范围为5-10为例进行说明,当所述问题信息数量M为4时,在所述第一列表中获取前5个问题信息;当所述问题信息数量M为7时,获取所述第二列表中包含的7个问题信息;当所述问题信息数量M为19时,在所述第二列表中获取前10个问题信息。
步骤S1300、确定所述检索信息和获取的各问题信息的第二匹配度。
具体地,所述确定第二匹配度的方法例如可以是将所述检索信息和各问题信息输入预先训练的模型中,输出对应的第二匹配度。
步骤S1400:根据第二匹配度确定候选问题信息。
具体地,所述确定候选问题信息的过程与所述步骤S630相同,在此不再赘述。
步骤S1500、根据所述候选问题信息输出所述检索信息对应的答案信息。
具体地,所述确定并输出所述检索信息对应的答案信息的步骤与所述步骤S700相同,在此不再赘述。
本实施例中所述的方法先通过确定检索信息和各问题信息的第一匹配度对问题信息进行第一次筛选,再通过确定检索信息和各问题信息的第二匹配度对问题信息进行第二次筛选。所述方法使用不同的两种筛选方式对问题信息进行筛选,以得到最匹配的问题信息,进而确定对应的答案信息,提高了检索效率的精确度。
图5为本发明实施例的检索装置的示意图,如图5所示,所述检索装置包括信息确定模块50、词向量确定模块51、加权模块52、第二词向量确定模块53、计算模块54、候选问题确定模块55和答案输出模块56。
具体地,所述信息确定模块50用于确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息。所述词向量确定模块51用于确定所述检索信息中包含的各词对应的词向量。所述加权模块52用于对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量。语句向量确定模块53用于确定所述数据信息集合中各问题信息确定对应的第二语句向量。所述计算模块54用于计算所述第一语句向量和各第二语句向量的第一匹配度。所述候选问题确定模块55用于根据对应的第一匹配度确定候选问题信息。所述答案输出模块56用于根据候选问题信息输出所述检索信息对应的答案信息。
所述装置可以通过确定检索信息中包含的各词对应的词向量,并对所述词向量加权处理后确定第一语句向量,再计算确定所述第一语句向量和所述数据信息集合中各问题信息对应的第二语句向量的第一匹配度,根据所述第一匹配度确定候选问题信息,最后根据候选问题信息输出所述检索信息对应的答案信息。通过所述装置实现的检索方法能够在确定所述检索信息和各问题信息匹配度的过程中引入了所述检索信息中各词的权重信息,提高了整个检索过程的效率与准确率。
图6为本发明实施例的电子设备的示意图,如图6所示,在本实施例中,所述电子设备可以为服务器或终端等,所述终端例如可以是手机、电脑、平板电脑等智能设备。如图所示,所述电子设备包括:至少一个处理器62;与至少一个处理器通信连接的存储器61;以及与存储介质通信连接的通信组件63,所述通信组件63在处理器的控制下接收和发送数据;其中,存储器61存储有可被至少一个处理器62执行的指令,指令被至少一个处理器62执行以实现如下所述的步骤:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
进一步地,所述计算所述第一语句向量和各第二语句向量的第一匹配度具体为:
计算所述第一语句向量和各第二语句向量的距离以确定对应的第一匹配度。
进一步地,所述根据对应的第一匹配度确定候选问题信息具体为:
确定对应的第一匹配度大于第一阈值的问题信息作为候选问题信息。
进一步地,所述根据对应的第一匹配度确定候选问题信息具体为:
确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。
进一步地,所述根据候选问题信息输出所述检索信息对应的答案信息包括:
在所述候选问题信息中确定与所述检索信息匹配的目标问题信息;
输出所述目标问题信息对应的答案信息。
进一步地,所述根据对应的第一匹配度确定候选问题信息包括:
根据预设规则在数据信息集合中确定多个问题信息;
确定所述检索信息与各问题信息的第二匹配度;
根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
进一步地,所述确定所述检索信息与各问题信息的第二匹配度具体为:
将所述检索信息和各问题信息分别输入预先训练的预测模型中以确定对应的第二匹配度。
进一步地,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定所述第二匹配度大于第二阈值的问题信息为候选问题信息。
进一步地,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定第二匹配度最大的M个问题信息作为候选问题信息,所述M为第二预设常数。
具体地,所述存储器61作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器62通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述检索方法。
存储器61可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器61可选包括相对于处理器62远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器61中,当被一个或者多个处理器62执行时,执行上述任意方法实施例中的检索方法。
上述产品可执行本申请实施例所公开的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所公开的方法。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明实施例公开了A1、一种检索方法,所述方法包括:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
A2、根据A1所述的方法,所述计算所述第一语句向量和各第二语句向量的第一匹配度具体为:
计算所述第一语句向量和各第二语句向量的距离以确定对应的第一匹配度。
A3、根据A1所述的方法,所述根据对应的第一匹配度确定候选问题信息具体为:
确定对应的第一匹配度大于第一阈值的问题信息作为候选问题信息。
A4、根据A1所述的方法,所述根据对应的第一匹配度确定候选问题信息具体为:
确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。
A5、根据A1所述的方法,所述根据候选问题信息输出所述检索信息对应的答案信息包括:
在所述候选问题信息中确定与所述检索信息匹配的目标问题信息;
输出所述目标问题信息对应的答案信息。
A6、根据A1所述的方法,所述根据对应的第一匹配度确定候选问题信息包括:
根据预设规则在数据信息集合中确定多个问题信息;
确定所述检索信息与各问题信息的第二匹配度;
根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
A7、根据A6所述的方法,所述确定所述检索信息与各问题信息的第二匹配度具体为:
将所述检索信息和各问题信息分别输入预先训练的预测模型中以确定对应的第二匹配度。
A8、根据A6所述的方法,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定所述第二匹配度大于第二阈值的问题信息为候选问题信息。
A9、根据A6所述的方法,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定第二匹配度最大的M个问题信息作为候选问题信息,所述M为第二预设常数。
本发明实施例还公开了B1、一种检索装置,所述装置包括:
信息确定模块,用于确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
词向量确定模块,用于确定所述检索信息中包含的各词对应的词向量;
加权模块,用于对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
语句向量确定模块,用于确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算模块,用于计算所述第一语句向量和各第二语句向量的第一匹配度;
候选问题确定模块,用于根据对应的第一匹配度确定候选问题信息;
答案输出模块,用于根据候选问题信息输出所述检索信息对应的答案信息。
本发明实施例还公开了C1、一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现A1-A9中任一项所述的方法。
本发明实施例还公开了D1、一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下所述步骤:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
D2、根据D1所述的电子设备,所述计算所述第一语句向量和各第二语句向量的第一匹配度具体为:
计算所述第一语句向量和各第二语句向量的距离以确定对应的第一匹配度。
D3、根据D1所述的电子设备,所述根据对应的第一匹配度确定候选问题信息具体为:
确定对应的第一匹配度大于第一阈值的问题信息作为候选问题信息。
D4、根据D1所述的电子设备,所述根据对应的第一匹配度确定候选问题信息具体为:
确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。
D5、根据D1所述的电子设备,所述根据候选问题信息输出所述检索信息对应的答案信息包括:
在所述候选问题信息中确定与所述检索信息匹配的目标问题信息;
输出所述目标问题信息对应的答案信息。
D6、根据D1所述的电子设备,所述根据对应的第一匹配度确定候选问题信息包括:
根据预设规则在数据信息集合中确定多个问题信息;
确定所述检索信息与各问题信息的第二匹配度;
根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
D7、根据D6所述的电子设备,所述确定所述检索信息与各问题信息的第二匹配度具体为:
将所述检索信息和各问题信息分别输入预先训练的预测模型中以确定对应的第二匹配度。
D8、根据D6所述的电子设备,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定所述第二匹配度大于第二阈值的问题信息为候选问题信息。
D9、根据D6所述的电子设备,所述根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息具体为:
确定第二匹配度最大的M个问题信息作为候选问题信息,所述M为第二预设常数。
Claims (10)
1.一种检索方法,其特征在于,所述方法包括:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一语句向量和各第二语句向量的第一匹配度具体为:
计算所述第一语句向量和各第二语句向量的距离以确定对应的第一匹配度。
3.根据权利要求1所述的方法,其特征在于,所述根据对应的第一匹配度确定候选问题信息具体为:
确定对应的第一匹配度大于第一阈值的问题信息作为候选问题信息。
4.根据权利要求1所述的方法,其特征在于,所述根据对应的第一匹配度确定候选问题信息具体为:
确定第一匹配度最大的N个问题信息作为候选问题信息,所述N为第一预设常数。
5.根据权利要求1所述的方法,其特征在于,所述根据候选问题信息输出所述检索信息对应的答案信息包括:
在所述候选问题信息中确定与所述检索信息匹配的目标问题信息;
输出所述目标问题信息对应的答案信息。
6.根据权利要求1所述的方法,其特征在于,所述根据对应的第一匹配度确定候选问题信息包括:
根据预设规则在数据信息集合中确定多个问题信息;
确定所述检索信息与各问题信息的第二匹配度;
根据所述各问题信息对应的第二匹配度确定至少一个候选问题信息。
7.根据权利要求6所述的方法,其特征在于,所述确定所述检索信息与各问题信息的第二匹配度具体为:
将所述检索信息和各问题信息分别输入预先训练的预测模型中以确定对应的第二匹配度。
8.一种检索装置,其特征在于,所述装置包括:
信息确定模块,用于确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
词向量确定模块,用于确定所述检索信息中包含的各词对应的词向量;
加权模块,用于对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
语句向量确定模块,用于确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算模块,用于计算所述第一语句向量和各第二语句向量的第一匹配度;
候选问题确定模块,用于根据对应的第一匹配度确定候选问题信息;
答案输出模块,用于根据候选问题信息输出所述检索信息对应的答案信息。
9.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如下所述步骤:
确定检索信息和数据信息集合,所述数据信息集合中包含至少一个信息对,所述信息对中包含问题信息和对应的答案信息;
确定所述检索信息中包含的各词对应的词向量;
对所述各词对应的词向量进行加权处理以确定用于表征所述检索信息的第一语句向量;
确定所述数据信息集合中各问题信息确定对应的第二语句向量;
计算所述第一语句向量和各第二语句向量的第一匹配度;
根据对应的第一匹配度确定候选问题信息;
根据候选问题信息输出所述检索信息对应的答案信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001415.XA CN110825859A (zh) | 2019-10-21 | 2019-10-21 | 检索方法、装置、可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001415.XA CN110825859A (zh) | 2019-10-21 | 2019-10-21 | 检索方法、装置、可读存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825859A true CN110825859A (zh) | 2020-02-21 |
Family
ID=69549943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911001415.XA Pending CN110825859A (zh) | 2019-10-21 | 2019-10-21 | 检索方法、装置、可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825859A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639194A (zh) * | 2020-05-29 | 2020-09-08 | 天健厚德网络科技(大连)有限公司 | 基于句向量的知识图谱查询方法及*** |
CN113342968A (zh) * | 2021-05-21 | 2021-09-03 | 中国石油天然气股份有限公司 | 文本摘要提取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181673A1 (en) * | 2016-12-28 | 2018-06-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Answer searching method and device based on deep question and answer |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN108763529A (zh) * | 2018-05-31 | 2018-11-06 | 苏州大学 | 一种智能检索方法、装置和计算机可读存储介质 |
-
2019
- 2019-10-21 CN CN201911001415.XA patent/CN110825859A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180181673A1 (en) * | 2016-12-28 | 2018-06-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Answer searching method and device based on deep question and answer |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN108763529A (zh) * | 2018-05-31 | 2018-11-06 | 苏州大学 | 一种智能检索方法、装置和计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639194A (zh) * | 2020-05-29 | 2020-09-08 | 天健厚德网络科技(大连)有限公司 | 基于句向量的知识图谱查询方法及*** |
CN111639194B (zh) * | 2020-05-29 | 2023-08-08 | 天健厚德网络科技(大连)有限公司 | 基于句向量的知识图谱查询方法及*** |
CN113342968A (zh) * | 2021-05-21 | 2021-09-03 | 中国石油天然气股份有限公司 | 文本摘要提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609101B (zh) | 智能交互方法、设备及存储介质 | |
US11763164B2 (en) | Image-to-image search method, computer-readable storage medium and server | |
CN109299344A (zh) | 排序模型的生成方法、搜索结果的排序方法、装置及设备 | |
CN110795542A (zh) | 对话方法及相关装置、设备 | |
CN110347866B (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN110717099A (zh) | 一种推荐影片的方法及终端 | |
CN110909145A (zh) | 针对多任务模型的训练方法及装置 | |
CN112632257A (zh) | 基于语义匹配的问题处理方法、装置、终端和存储介质 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN113641767A (zh) | 实体关系抽取方法、装置、设备及存储介质 | |
CN111046203A (zh) | 图像检索方法、装置、存储介质及电子设备 | |
CN111858966B (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN110765250A (zh) | 检索方法、装置、可读存储介质和电子设备 | |
CN113626638A (zh) | 短视频推荐处理方法、装置、智能终端及存储介质 | |
CN110825859A (zh) | 检索方法、装置、可读存储介质和电子设备 | |
CN113705689A (zh) | 训练数据获取方法及异常行为识别网络训练方法 | |
CN106651410B (zh) | 一种应用管理方法及装置 | |
CN116204624A (zh) | 应答方法、装置、电子设备及存储介质 | |
CN109344327B (zh) | 用于生成信息的方法和装置 | |
CN107766944B (zh) | 一种利用api分析进行***功能流优化的***和方法 | |
CN114298182A (zh) | 资源召回方法、装置、设备及存储介质 | |
CN111739518B (zh) | 音频的识别方法和装置、存储介质及电子设备 | |
CN113971595A (zh) | 一种商品推荐方法、***及设备 | |
CN112148855A (zh) | 一种智能客服问题检索方法、终端以及存储介质 | |
CN110874394A (zh) | 智能答疑方法、电子装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |
|
RJ01 | Rejection of invention patent application after publication |