CN109410935A

CN109410935A - 一种基于语音识别的目的地搜索方法及装置

Info

Publication number: CN109410935A
Application number: CN201811295008.XA
Authority: CN
Inventors: 安栋; 伍朗; 刘继鹏; 魏斌斌; 冯智斌
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-03-01

Abstract

本发明实施例提供了一种基于语音识别的目的地搜索方法及装置，本发明涉及人工智能领域，方法包括：获取第一用户的第一语音信号，第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号；对第一语音信号进行特征提取，得到特征信息；根据特征信息识别语音特点，并采用与语音特点相匹配的语音识别模型识别第一语音信号得到目的地文本；根据目的地文本在搜索引擎上抓取多个实景图片及所在网页的结构化字段；提取结构化字段中的关键词，并计算关键词与目的地文本的相似度值；将相似度值最大的关键词所对应的实景图片作为目的地实景图片并输出至第一用户。本发明实施例提供的技术方案能够解决现有技术中目的地搜索的准确性低的问题。

Description

一种基于语音识别的目的地搜索方法及装置

【技术领域】

本发明涉及人工智能领域，尤其涉及一种基于语音识别的目的地搜索方法及装置。

【背景技术】

在用户需要搜索某些图片时，需要在搜索引擎中输入文字信息，然后搜索引擎展示对应的图片。例如，用户在搜索引擎中输入“西湖”这两个字，搜索引擎展示西湖的图片。但是在开车时，用户想要获取目的地的图片是很不方便的，甚至会影响用户安全驾驶。目前，用户难以在搜索目的地时直观地了解目的地的所处环境的实景情况，仅通过文字确认目的地容易出现目的地搜索的准确性低的问题。

【发明内容】

有鉴于此，本发明实施例提供了一种基于语音识别的目的地搜索方法及装置，用以解决现有技术中目的地搜索的准确性低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种基于语音识别的目的地搜索方法，所述方法包括：

获取第一用户的第一语音信号，所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号；对所述第一语音信号进行特征提取，得到特征信息；根据所述特征信息识别语音特点，并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号，得到目的地文本；根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；提取所述结构化字段中的关键词，并计算所述关键词与所述目的地文本的相似度值；将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片，并输出所述目的地实景图片至所述第一用户。

进一步地，在所述获取第一用户的第一语音信号之后，并且在对所述第一语音信号进行特征提取，得到特征信息之前，所述方法还包括：

获取多个带噪语音信号样本及多个干净语音信号样本；构建并训练降噪模型，其中，所述降噪模型包括一个生成器及一个判别器，所述生成器接收所述带噪语音信号样本，并根据所述带噪语音信号样本生成新的语音信号，所述判别器鉴别所述生成器生成的所述新的语音信号是真实信号还是生成的信号；通过所述判别器与所述生成器的对抗训练，得到训练好的降噪模型；向所述训练好的降噪模型中输入所述第一语音信号，其中，所述降噪模型对所述第一语音信号进行降噪处理，并生成第二语音信号；获取所述降噪模型输出的所述第二语音信号，以替换所述获取的第一语音信号。

进一步地，在所述获取第一用户的第一语音信号之后，并且在对所述第一语音信号进行特征提取，得到特征信息之前，所述方法还包括：采用最小均方算法对所述第一语音信号进行降噪处理，并获取当前一次迭代对应的均方误差梯度；根据M次迭代对应的均方误差梯度的震荡情况，确定是否已经达到均方误差收敛敏感区，所述M次迭代中包括所述当前一次迭代；根据确定结果，更新下一次迭代时所述最小均方算法所采用的收敛因子；基于所述收敛因子输出降噪后的第一语音信号；用所述降噪后的第一语音信号替换所述获取的第一语音信号。

进一步地，所述提取所述结构化字段中的关键词，并计算所述关键词与所述目的地文本的相似度值，包括：对所述结构化字段进行分词处理；提取分词处理后的结构化字段中的关键词；向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本，并获取所述词向量表示模型输出的每个关键词的向量表示及所述目的地文本的向量表示；采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。

进一步地，在所述输出所述目的地实景图片至所述第一用户之后，所述方法还包括：根据所述目的地文本获取关于所述目的地的评论文本信息；将所述评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；基于所述关键词生成评价语音；输出所述评价语音至所述第一用户。

为了实现上述目的，根据本发明的一个方面，提供了一种基于语音识别的目的地搜索装置，所述装置包括：第一获取单元，用于获取第一用户的第一语音信号，所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号；提取单元，用于对所述第一语音信号进行特征提取，得到特征信息；第一识别单元，用于根据所述特征信息识别语音特点，并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号，得到目的地文本；抓取单元，用于根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；计算单元，用于提取所述结构化字段中的关键词，并计算所述关键词与所述目的地文本的相似度值；第一输出单元，用于将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片，并输出所述目的地实景图片至所述第一用户。

进一步地，所述计算单元包括：第一处理子单元，用于对所述结构化字段进行分词处理；第二处理子单元，用于提取分词处理后的结构化字段中的关键词；获取子单元，用于向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本，并获取所述词向量表示模型输出的每个关键词的向量及所述目的地文本的向量；计算子单元，用于采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。

进一步地，所述装置还包括：第二获取单元，用于根据所述目的地文本获取关于所述目的地的评论文本信息；处理单元，用于将所述评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；生成单元，用于基于所述关键词生成评价语音；第二输出单元，用于输出所述评价语音至所述第一用户。

为了实现上述目的，根据本发明的一个方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于语音识别的目的地搜索方法。

为了实现上述目的，根据本发明的一个方面，提供了一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的基于语音识别的目的地搜索方法的步骤。

在本方案中，通过采用与语言特点相匹配的语音识别模型对用户语音进行语音识别，进一步根据识别到的目的地文本获取实景图片，将实景图片所在网页的结构化字段中的关键词与目的地文本进行相似度计算，以获取相似度值最大的实景图片作为目的地实景图片，能够提高用户目的地搜索的准确性，使得用户能够更加直观地了解目的地的所处环境，从而协助用户更准确地抵达目的地。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例的一种基于语音识别的目的地搜索方法的流程图；

图2是根据本发明实施例的一种基于语音识别的目的地搜索装置的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端，但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一获取单元也可以被称为第二获取单元，类似地，第二获取单元也可以被称为第一获取单元。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1是根据本发明实施例的一种基于语音识别的目的地搜索方法的流程图，如图1所示，该方法包括：

步骤S101，获取第一用户的第一语音信号，第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号；

步骤S102，对第一语音信号进行特征提取，得到特征信息；

步骤S103，根据特征信息识别语音特点，并采用与语音特点相匹配的语音识别模型识别第一语音信号，得到目的地文本；

步骤S104，根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；

步骤S105，提取结构化字段中的关键词，并计算关键词与目的地文本的相似度值；

步骤S106，将相似度值最大的关键词所对应的实景图片作为目的地实景图片，并输出目的地实景图片至第一用户。

可选地，特征提取例如可以是谱特征提取，基频特征提取，能量特征提取或者过零率提取等。并且，可以采用支持向量机(support vector machine，SVM)或者隐马尔可夫模型(Hidden Markov Model，HMM)等建模技术建立判别模型，其中，判别模型包括普通话模型、重庆口音模型、河南口音模型、粤语口音模型、吴语口语模型及北方口音模型；从而识别语音特点为普通话、重庆口音、吴语口音、河南口音或者广东口音等。

可选地，在获取第一用户的第一语音信号之后，并且在对第一语音信号进行特征提取，得到特征信息之前，方法还包括：

获取多个带噪语音信号样本及多个干净语音信号样本；构建并训练降噪模型，降噪模型包括一个生成器及一个判别器，生成器接收带噪语音信号样本，并根据带噪语音信号样本生成新的语音信号，判别器判断生成器生成的新的语音信号是真实信号还是生成的信号；通过判别器与生成器的对抗训练，得到训练好的降噪模型；向训练好的降噪模型中输入第一语音信号，其中，降噪模型对第一语音信号进行降噪处理，并生成第二语音信号；获取降噪模型输出的第二语音信号，以替换获取的第一语音信号。

通过对大量带噪语音和干净语音的学习，使得生成器学习到的从带噪语音生成干净语音的能力，并能够使得生成的新的语音信号能够骗过判别器，这种深度学习降噪模型适用于各种噪声类型和环境中，具有普遍适用性，便于推广。

可选地，在获取第一用户的第一语音信号之后，并且在对第一语音信号进行特征提取，得到特征信息之前，方法还包括：采用最小均方算法对第一语音信号进行降噪处理，并获取当前一次迭代对应的均方误差梯度；根据M次迭代对应的均方误差梯度的震荡情况，确定是否已经达到均方误差收敛敏感区，M次迭代中包括当前一次迭代；根据确定结果，更新下一次迭代时最小均方算法所采用的收敛因子；基于收敛因子输出降噪后的第一语音信号；用降噪后的第一语音信号替换获取的第一语音信号。

具体地，若M次迭代对应的均方误差梯度满足公式A的次数大于或等于预设数值，则确定已经达到均方误差收敛敏感区，否则，确定未达到均方误差敏感区：A＝[e(i)x(i)]·[e(i-1)x(i-1)]＜0；其中，e(i)为M次迭代中的第i次迭代对应的误差信号，x(i)为第i次迭代对应的语音信号；e(i-1)为M次迭代中的第i-1次迭代对应的误差信号，x(i-1)为第i-1次迭代对应的语音信号。

可选地，结构化字段包括网页标题字段、锚文本字段、图片属性字段中的至少一种。

可选地，提取结构化字段中的关键词，并计算关键词与目的地文本的相似度值的方法，包括：

对结构化字段进行分词处理，提取分词处理后的结构化字段中的关键词；例如可以采用分词开源工具，例如ICTCLAS、SCWS等，也可以直接使用自行开发的分词接口对结构化字段进行分词。向预设的词向量表示模型输入提取到的关键词及目的地文本，并获取词向量表示模型输出的每个关键词的向量表示及目的地文本的向量表示；词向量表示模型例如可以是WORD2VEC等神经网络模型。计算子单元，用于采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。

可选地，在输出目的地实景图片至第一用户之后，方法还包括：根据目的地文本获取关于目的地的评论文本信息；将评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；基于关键词生成评价语音；输出评价语音至第一用户。例如，根据目的地文本去一些团购网站、评论网站等直接爬取相关评论文本，从评论文本中提取关键字，比如干净、好吃、脏乱、服务好等。通过直接播报目的地的评价，可以让用户更加直观地感受到是否与自己期望相匹配。

可选地，在输出目的地实景图片至第一用户之后，方法还包括：获取第一用户的第二语音，第二语音为第一用户发出的用于指示确认目的地的语音；采用与语音特点相匹配的语音识别模型识别第二语音，得到确认文本；基于确认文本，输出目的地文本信息至导航***。可以理解地，通过驾驶员查阅实景图片，可以让驾驶员快速对目的地是否正确做出判断，再将确认后的目的地文本输出至导航***，避免实现过程中因地名雷同或相同，导致导航出现差错，做出错误的路径规划。

本发明实施例提供了一种基于语音识别的目的地搜索装置，该语音识别装置用于执行上述基于语音识别的目的地搜索方法，如图2所示，该装置包括：第一获取单元10、提取单元20、第一识别单元30、抓取单元40、计算单元50及第一输出单元60。

第一获取单元10，用于获取第一用户的第一语音信号，第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号；提取单元20，用于对第一语音信号进行特征提取，得到特征信息；第一识别单元30，用于根据特征信息识别语音特点，并采用与语音特点相匹配的语音识别模型识别第一语音信号，得到目的地文本；抓取单元40，用于根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；计算单元50，用于提取结构化字段中的关键词，并计算关键词与目的地文本的相似度值；第一输出单元60，用于将相似度值最大的关键词所对应的实景图片作为目的地实景图片，并输出目的地实景图片至第一用户。

可选地，装置还包括第三获取单元、构建单元、训练单元、输入单元、第一替换单元。

第三获取单元，用于获取多个带噪语音信号样本及多个干净语音信号样本；构建单元，用于构建并训练降噪模型，降噪模型包括一个生成器及一个判别器，生成器接收带噪语音信号，并根据带噪语音信号生成新的语音信号，判别器判断生成器生成的新的语音信号是真实信号还是生成的信号；训练单元，用于通过判别器与生成器的对抗训练，得到训练好的降噪模型；输入单元，用于向训练好的降噪模型中输入第一语音信号，其中，降噪模型对第一语音信号进行降噪处理，并生成第二语音信号；第一替换单元，用于获取降噪模型输出的第二语音信号，以替换获取的第一语音信号。

可选地，装置还包括第四获取单元、确定单元、更新单元、第三输出单元、第二替换单元。

第四获取单元，用于采用最小均方算法对第一语音信号进行降噪处理，并获取当前一次迭代对应的均方误差梯度；确定单元，用于根据M次迭代对应的均方误差梯度的震荡情况，确定是否已经达到均方误差收敛敏感区，M次迭代中包括当前一次迭代；更新单元，用于根据确定结果，更新下一次迭代时最小均方算法所采用的收敛因子；第三输出单元，用于基于收敛因子输出降噪后的第一语音信号；第二替换单元，用于用降噪后的第一语音信号替换获取的第一语音信号。

可选地，计算单元50包括第一处理子单元、第二处理子单元、获取子单元、计算子单元。

第一处理子单元，用于对结构化字段进行分词处理；第二处理子单元，用于提取分词处理后的结构化字段中的关键词；例如可以采用分词开源工具，例如ICTCLAS、SCWS等，也可以直接使用自行开发的分词接口对结构化字段进行分词。获取子单元，用于向预设的词向量表示模型输入提取到的关键词及目的地文本，并获取词向量表示模型输出的每个关键词的向量及目的地文本的向量；词向量表示模型例如可以是WORD2VEC等神经网络模型。计算子单元，用于采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。

可选地，装置还包括：第二获取单元、处理单元、生成单元、第二输出单元。

第二获取单元，用于根据目的地文本信息获取关于目的地的评论文本信息；处理单元，用于将评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；生成单元，用于基于关键词生成评价语音。第二输出单元，用于输出评价语音至第一用户。例如，根据目的地文本信息去一些团购网站、评论网站之类的直接爬取相关评论文本，从而获取关键字，比如干净、好吃、脏乱、服务好等。通过直接播报目的地的评价，可以让用户更加直观地感受到是否与自己期望相匹配。

可选地，装置还包括：第五获取单元、第二识别单元、第四输出单元。第五获取单元，用于获取第一用户的第二语音，第二语音为第一用户发出的用于指示确认目的地的语音；第二识别单元，用于采用与语音特点相匹配的语音识别模型识别第二语音，得到确认文本；第四输出单元，用于基于确认文本，输出目的地文本信息至导航***。可以理解地，通过驾驶员查阅实景图片，可以让驾驶员快速对目的地是否正确做出判断，再将确认后的目的地文本信息输出至导航***，避免实现过程中因地名雷同或相同，导致导航出现差错，做出错误的路径规划。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：

获取第一用户的第一语音信号，第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号；对第一语音信号进行特征提取，得到特征信息；根据特征信息识别语音特点，并采用与语音特点相匹配的语音识别模型识别第一语音信号，得到目的地文本；根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；提取结构化字段中的关键词，并计算关键词与目的地文本的相似度值；将相似度值最大的关键词所对应的实景图片作为目的地实景图片，并输出目的地实景图片至第一用户。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：获取多个带噪语音信号样本及多个干净语音信号样本；构建并训练降噪模型，其中，降噪模型包括一个生成器及一个判别器，生成器接收带噪语音信号样本，并根据带噪语音信号样本生成新的语音信号，判别器鉴别生成器生成的新的语音信号是真实信号还是生成的信号；通过判别器与生成器的对抗训练，得到训练好的降噪模型；向训练好的降噪模型中输入第一语音信号，其中，降噪模型对第一语音信号进行降噪处理，并生成第二语音信号；获取降噪模型输出的第二语音信号，以替换获取的第一语音信号。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：采用最小均方算法对第一语音信号进行降噪处理，并获取当前一次迭代对应的均方误差梯度；根据M次迭代对应的均方误差梯度的震荡情况，确定是否已经达到均方误差收敛敏感区，M次迭代中包括当前一次迭代；根据确定结果，更新下一次迭代时最小均方算法所采用的收敛因子；基于收敛因子输出降噪后的第一语音信号；用降噪后的第一语音信号替换获取的第一语音信号。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：对结构化字段进行分词处理；提取分词处理后的结构化字段中的关键词；向预设的词向量表示模型输入提取到的关键词及目的地文本，并获取词向量表示模型输出的每个关键词的向量表示及目的地文本的向量表示；采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：根据目的地文本获取关于目的地的评论文本信息；将评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；基于关键词生成评价语音；输出评价语音至第一用户。

本发明实施例提供了一种服务器，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：

可选地，程序指令被处理器加载并执行时还实现以下步骤：获取多个带噪语音信号样本及多个干净语音信号样本；构建并训练降噪模型，其中，降噪模型包括一个生成器及一个判别器，生成器接收带噪语音信号样本，并根据带噪语音信号样本生成新的语音信号，判别器鉴别生成器生成的新的语音信号是真实信号还是生成的信号；通过判别器与生成器的对抗训练，得到训练好的降噪模型；向训练好的降噪模型中输入第一语音信号，其中，降噪模型对第一语音信号进行降噪处理，并生成第二语音信号；获取降噪模型输出的第二语音信号，以替换获取的第一语音信号。

可选地，程序指令被处理器加载并执行时还实现以下步骤：采用最小均方算法对第一语音信号进行降噪处理，并获取当前一次迭代对应的均方误差梯度；根据M次迭代对应的均方误差梯度的震荡情况，确定是否已经达到均方误差收敛敏感区，M次迭代中包括当前一次迭代；根据确定结果，更新下一次迭代时最小均方算法所采用的收敛因子；基于收敛因子输出降噪后的第一语音信号；用降噪后的第一语音信号替换获取的第一语音信号。

可选地，程序指令被处理器加载并执行时还实现以下步骤：对结构化字段进行分词处理；提取分词处理后的结构化字段中的关键词；向预设的词向量表示模型输入提取到的关键词及目的地文本，并获取词向量表示模型输出的每个关键词的向量表示及目的地文本的向量表示；采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。

可选地，程序指令被处理器加载并执行时还实现以下步骤：根据目的地文本获取关于目的地的评论文本信息；将评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；基于关键词生成评价语音；输出评价语音至第一用户。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

可以理解的是，应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于语音识别的目的地搜索方法，其特征在于，所述方法包括：

获取第一用户的第一语音信号，所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号；

对所述第一语音信号进行特征提取，得到特征信息；

根据所述特征信息识别语音特点，并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号，得到目的地文本；

根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；

提取所述结构化字段中的关键词，并计算所述关键词与所述目的地文本的相似度值；

将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片，并输出所述目的地实景图片至所述第一用户。

2.根据权利要求1所述的方法，其特征在于，在所述获取第一用户的第一语音信号之后，并且在对所述第一语音信号进行特征提取，得到特征信息之前，所述方法还包括：

获取多个带噪语音信号样本及多个干净语音信号样本；

构建并训练降噪模型，其中，所述降噪模型包括一个生成器及一个判别器，所述生成器接收所述带噪语音信号样本，并根据所述带噪语音信号样本生成新的语音信号，所述判别器鉴别所述生成器生成的所述新的语音信号是真实信号还是生成的信号；

通过所述判别器与所述生成器的对抗训练，得到训练好的降噪模型；

向所述训练好的降噪模型中输入所述第一语音信号，其中，所述降噪模型对所述第一语音信号进行降噪处理，并生成第二语音信号；

获取所述降噪模型输出的所述第二语音信号，以替换所述获取的第一语音信号。

3.根据权利要求1所述的方法，其特征在于，在所述获取第一用户的第一语音信号之后，并且在对所述第一语音信号进行特征提取，得到特征信息之前，所述方法还包括：

采用最小均方算法对所述第一语音信号进行降噪处理，并获取当前一次迭代对应的均方误差梯度；

根据M次迭代对应的均方误差梯度的震荡情况，确定是否已经达到均方误差收敛敏感区，所述M次迭代中包括所述当前一次迭代；

根据确定结果，更新下一次迭代时所述最小均方算法所采用的收敛因子；

基于所述收敛因子输出降噪后的第一语音信号；

用所述降噪后的第一语音信号替换所述获取的第一语音信号。

4.根据权利要求1所述的方法，其特征在于，所述提取所述结构化字段中的关键词，并计算所述关键词与所述目的地文本的相似度值，包括：

对所述结构化字段进行分词处理；

提取分词处理后的结构化字段中的关键词；

向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本，并获取所述词向量表示模型输出的每个关键词的向量表示及所述目的地文本的向量表示；

采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。

5.根据权利要求1-4任意一项所述的方法，其特征在于，在所述输出所述目的地实景图片至所述第一用户之后，所述方法还包括：

根据所述目的地文本获取关于所述目的地的评论文本信息；

将所述评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；

基于所述关键词生成评价语音；

输出所述评价语音至所述第一用户。

6.一种基于语音识别的目的地搜索装置，其特征在于，所述装置包括：

第一获取单元，用于获取第一用户的第一语音信号，所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号；

提取单元，用于对所述第一语音信号进行特征提取，得到特征信息；

第一识别单元，用于根据所述特征信息识别语音特点，并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号，得到目的地文本；

抓取单元，用于根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段；

计算单元，用于提取所述结构化字段中的关键词，并计算所述关键词与所述目的地文本的相似度值；

第一输出单元，用于将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片，并输出所述目的地实景图片至所述第一用户。

7.根据权利要求6所述的装置，其特征在于，所述计算单元包括：

第一处理子单元，用于对所述结构化字段进行分词处理；

第二处理子单元，用于提取分词处理后的结构化字段中的关键词；

获取子单元，用于向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本，并获取所述词向量表示模型输出的每个关键词的向量及所述目的地文本的向量；

计算子单元，用于采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于根据所述目的地文本获取关于所述目的地的评论文本信息；

处理单元，用于将所述评论文本信息基于字符串匹配的分词方法进行分词处理，得到具有评价属性的关键词；

生成单元，用于基于所述关键词生成评价语音；

第二输出单元，用于输出所述评价语音至所述第一用户。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基于语音识别的目的地搜索方法。

10.一种服务器，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至5任意一项所述的基于语音识别的目的地搜索方法的步骤。