CN109410935A - 一种基于语音识别的目的地搜索方法及装置 - Google Patents
一种基于语音识别的目的地搜索方法及装置 Download PDFInfo
- Publication number
- CN109410935A CN109410935A CN201811295008.XA CN201811295008A CN109410935A CN 109410935 A CN109410935 A CN 109410935A CN 201811295008 A CN201811295008 A CN 201811295008A CN 109410935 A CN109410935 A CN 109410935A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- destination
- keyword
- voice
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000009467 reduction Effects 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000011946 reduction process Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000009514 concussion Effects 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000001235 sensitizing effect Effects 0.000 description 9
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种基于语音识别的目的地搜索方法及装置,本发明涉及人工智能领域,方法包括:获取第一用户的第一语音信号,第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号;对第一语音信号进行特征提取,得到特征信息;根据特征信息识别语音特点,并采用与语音特点相匹配的语音识别模型识别第一语音信号得到目的地文本;根据目的地文本在搜索引擎上抓取多个实景图片及所在网页的结构化字段;提取结构化字段中的关键词,并计算关键词与目的地文本的相似度值;将相似度值最大的关键词所对应的实景图片作为目的地实景图片并输出至第一用户。本发明实施例提供的技术方案能够解决现有技术中目的地搜索的准确性低的问题。
Description
【技术领域】
本发明涉及人工智能领域,尤其涉及一种基于语音识别的目的地搜索方法及装置。
【背景技术】
在用户需要搜索某些图片时,需要在搜索引擎中输入文字信息,然后搜索引擎展示对应的图片。例如,用户在搜索引擎中输入“西湖”这两个字,搜索引擎展示西湖的图片。但是在开车时,用户想要获取目的地的图片是很不方便的,甚至会影响用户安全驾驶。目前,用户难以在搜索目的地时直观地了解目的地的所处环境的实景情况,仅通过文字确认目的地容易出现目的地搜索的准确性低的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种基于语音识别的目的地搜索方法及装置,用以解决现有技术中目的地搜索的准确性低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种基于语音识别的目的地搜索方法,所述方法包括:
获取第一用户的第一语音信号,所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号;对所述第一语音信号进行特征提取,得到特征信息;根据所述特征信息识别语音特点,并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号,得到目的地文本;根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;提取所述结构化字段中的关键词,并计算所述关键词与所述目的地文本的相似度值;将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片,并输出所述目的地实景图片至所述第一用户。
进一步地,在所述获取第一用户的第一语音信号之后,并且在对所述第一语音信号进行特征提取,得到特征信息之前,所述方法还包括:
获取多个带噪语音信号样本及多个干净语音信号样本;构建并训练降噪模型,其中,所述降噪模型包括一个生成器及一个判别器,所述生成器接收所述带噪语音信号样本,并根据所述带噪语音信号样本生成新的语音信号,所述判别器鉴别所述生成器生成的所述新的语音信号是真实信号还是生成的信号;通过所述判别器与所述生成器的对抗训练,得到训练好的降噪模型;向所述训练好的降噪模型中输入所述第一语音信号,其中,所述降噪模型对所述第一语音信号进行降噪处理,并生成第二语音信号;获取所述降噪模型输出的所述第二语音信号,以替换所述获取的第一语音信号。
进一步地,在所述获取第一用户的第一语音信号之后,并且在对所述第一语音信号进行特征提取,得到特征信息之前,所述方法还包括:采用最小均方算法对所述第一语音信号进行降噪处理,并获取当前一次迭代对应的均方误差梯度;根据M次迭代对应的均方误差梯度的震荡情况,确定是否已经达到均方误差收敛敏感区,所述M次迭代中包括所述当前一次迭代;根据确定结果,更新下一次迭代时所述最小均方算法所采用的收敛因子;基于所述收敛因子输出降噪后的第一语音信号;用所述降噪后的第一语音信号替换所述获取的第一语音信号。
进一步地,所述提取所述结构化字段中的关键词,并计算所述关键词与所述目的地文本的相似度值,包括:对所述结构化字段进行分词处理;提取分词处理后的结构化字段中的关键词;向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本,并获取所述词向量表示模型输出的每个关键词的向量表示及所述目的地文本的向量表示;采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。
进一步地,在所述输出所述目的地实景图片至所述第一用户之后,所述方法还包括:根据所述目的地文本获取关于所述目的地的评论文本信息;将所述评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;基于所述关键词生成评价语音;输出所述评价语音至所述第一用户。
为了实现上述目的,根据本发明的一个方面,提供了一种基于语音识别的目的地搜索装置,所述装置包括:第一获取单元,用于获取第一用户的第一语音信号,所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号;提取单元,用于对所述第一语音信号进行特征提取,得到特征信息;第一识别单元,用于根据所述特征信息识别语音特点,并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号,得到目的地文本;抓取单元,用于根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;计算单元,用于提取所述结构化字段中的关键词,并计算所述关键词与所述目的地文本的相似度值;第一输出单元,用于将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片,并输出所述目的地实景图片至所述第一用户。
进一步地,所述计算单元包括:第一处理子单元,用于对所述结构化字段进行分词处理;第二处理子单元,用于提取分词处理后的结构化字段中的关键词;获取子单元,用于向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本,并获取所述词向量表示模型输出的每个关键词的向量及所述目的地文本的向量;计算子单元,用于采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。
进一步地,所述装置还包括:第二获取单元,用于根据所述目的地文本获取关于所述目的地的评论文本信息;处理单元,用于将所述评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;生成单元,用于基于所述关键词生成评价语音;第二输出单元,用于输出所述评价语音至所述第一用户。
为了实现上述目的,根据本发明的一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的基于语音识别的目的地搜索方法。
为了实现上述目的,根据本发明的一个方面,提供了一种服务器,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现上述的基于语音识别的目的地搜索方法的步骤。
在本方案中,通过采用与语言特点相匹配的语音识别模型对用户语音进行语音识别,进一步根据识别到的目的地文本获取实景图片,将实景图片所在网页的结构化字段中的关键词与目的地文本进行相似度计算,以获取相似度值最大的实景图片作为目的地实景图片,能够提高用户目的地搜索的准确性,使得用户能够更加直观地了解目的地的所处环境,从而协助用户更准确地抵达目的地。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是根据本发明实施例的一种基于语音识别的目的地搜索方法的流程图;
图2是根据本发明实施例的一种基于语音识别的目的地搜索装置的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一获取单元也可以被称为第二获取单元,类似地,第二获取单元也可以被称为第一获取单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种基于语音识别的目的地搜索方法的流程图,如图1所示,该方法包括:
步骤S101,获取第一用户的第一语音信号,第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号;
步骤S102,对第一语音信号进行特征提取,得到特征信息;
步骤S103,根据特征信息识别语音特点,并采用与语音特点相匹配的语音识别模型识别第一语音信号,得到目的地文本;
步骤S104,根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;
步骤S105,提取结构化字段中的关键词,并计算关键词与目的地文本的相似度值;
步骤S106,将相似度值最大的关键词所对应的实景图片作为目的地实景图片,并输出目的地实景图片至第一用户。
在本方案中,通过采用与语言特点相匹配的语音识别模型对用户语音进行语音识别,进一步根据识别到的目的地文本获取实景图片,将实景图片所在网页的结构化字段中的关键词与目的地文本进行相似度计算,以获取相似度值最大的实景图片作为目的地实景图片,能够提高用户目的地搜索的准确性,使得用户能够更加直观地了解目的地的所处环境,从而协助用户更准确地抵达目的地。
可选地,特征提取例如可以是谱特征提取,基频特征提取,能量特征提取或者过零率提取等。并且,可以采用支持向量机(support vector machine,SVM)或者隐马尔可夫模型(Hidden Markov Model,HMM)等建模技术建立判别模型,其中,判别模型包括普通话模型、重庆口音模型、河南口音模型、粤语口音模型、吴语口语模型及北方口音模型;从而识别语音特点为普通话、重庆口音、吴语口音、河南口音或者广东口音等。
可选地,在获取第一用户的第一语音信号之后,并且在对第一语音信号进行特征提取,得到特征信息之前,方法还包括:
获取多个带噪语音信号样本及多个干净语音信号样本;构建并训练降噪模型,降噪模型包括一个生成器及一个判别器,生成器接收带噪语音信号样本,并根据带噪语音信号样本生成新的语音信号,判别器判断生成器生成的新的语音信号是真实信号还是生成的信号;通过判别器与生成器的对抗训练,得到训练好的降噪模型;向训练好的降噪模型中输入第一语音信号,其中,降噪模型对第一语音信号进行降噪处理,并生成第二语音信号;获取降噪模型输出的第二语音信号,以替换获取的第一语音信号。
通过对大量带噪语音和干净语音的学习,使得生成器学习到的从带噪语音生成干净语音的能力,并能够使得生成的新的语音信号能够骗过判别器,这种深度学习降噪模型适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
可选地,在获取第一用户的第一语音信号之后,并且在对第一语音信号进行特征提取,得到特征信息之前,方法还包括:采用最小均方算法对第一语音信号进行降噪处理,并获取当前一次迭代对应的均方误差梯度;根据M次迭代对应的均方误差梯度的震荡情况,确定是否已经达到均方误差收敛敏感区,M次迭代中包括当前一次迭代;根据确定结果,更新下一次迭代时最小均方算法所采用的收敛因子;基于收敛因子输出降噪后的第一语音信号;用降噪后的第一语音信号替换获取的第一语音信号。
具体地,若M次迭代对应的均方误差梯度满足公式A的次数大于或等于预设数值,则确定已经达到均方误差收敛敏感区,否则,确定未达到均方误差敏感区:A=[e(i)x(i)]·[e(i-1)x(i-1)]<0;其中,e(i)为M次迭代中的第i次迭代对应的误差信号,x(i)为第i次迭代对应的语音信号;e(i-1)为M次迭代中的第i-1次迭代对应的误差信号,x(i-1)为第i-1次迭代对应的语音信号。
可选地,结构化字段包括网页标题字段、锚文本字段、图片属性字段中的至少一种。
可选地,提取结构化字段中的关键词,并计算关键词与目的地文本的相似度值的方法,包括:
对结构化字段进行分词处理,提取分词处理后的结构化字段中的关键词;例如可以采用分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词接口对结构化字段进行分词。向预设的词向量表示模型输入提取到的关键词及目的地文本,并获取词向量表示模型输出的每个关键词的向量表示及目的地文本的向量表示;词向量表示模型例如可以是WORD2VEC等神经网络模型。计算子单元,用于采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。
可选地,在输出目的地实景图片至第一用户之后,方法还包括:根据目的地文本获取关于目的地的评论文本信息;将评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;基于关键词生成评价语音;输出评价语音至第一用户。例如,根据目的地文本去一些团购网站、评论网站等直接爬取相关评论文本,从评论文本中提取关键字,比如干净、好吃、脏乱、服务好等。通过直接播报目的地的评价,可以让用户更加直观地感受到是否与自己期望相匹配。
可选地,在输出目的地实景图片至第一用户之后,方法还包括:获取第一用户的第二语音,第二语音为第一用户发出的用于指示确认目的地的语音;采用与语音特点相匹配的语音识别模型识别第二语音,得到确认文本;基于确认文本,输出目的地文本信息至导航***。可以理解地,通过驾驶员查阅实景图片,可以让驾驶员快速对目的地是否正确做出判断,再将确认后的目的地文本输出至导航***,避免实现过程中因地名雷同或相同,导致导航出现差错,做出错误的路径规划。
本发明实施例提供了一种基于语音识别的目的地搜索装置,该语音识别装置用于执行上述基于语音识别的目的地搜索方法,如图2所示,该装置包括:第一获取单元10、提取单元20、第一识别单元30、抓取单元40、计算单元50及第一输出单元60。
第一获取单元10,用于获取第一用户的第一语音信号,第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号;提取单元20,用于对第一语音信号进行特征提取,得到特征信息;第一识别单元30,用于根据特征信息识别语音特点,并采用与语音特点相匹配的语音识别模型识别第一语音信号,得到目的地文本;抓取单元40,用于根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;计算单元50,用于提取结构化字段中的关键词,并计算关键词与目的地文本的相似度值;第一输出单元60,用于将相似度值最大的关键词所对应的实景图片作为目的地实景图片,并输出目的地实景图片至第一用户。
在本方案中,通过采用与语言特点相匹配的语音识别模型对用户语音进行语音识别,进一步根据识别到的目的地文本获取实景图片,将实景图片所在网页的结构化字段中的关键词与目的地文本进行相似度计算,以获取相似度值最大的实景图片作为目的地实景图片,能够提高用户目的地搜索的准确性,使得用户能够更加直观地了解目的地的所处环境,从而协助用户更准确地抵达目的地。
可选地,特征提取例如可以是谱特征提取,基频特征提取,能量特征提取或者过零率提取等。并且,可以采用支持向量机(support vector machine,SVM)或者隐马尔可夫模型(Hidden Markov Model,HMM)等建模技术建立判别模型,其中,判别模型包括普通话模型、重庆口音模型、河南口音模型、粤语口音模型、吴语口语模型及北方口音模型;从而识别语音特点为普通话、重庆口音、吴语口音、河南口音或者广东口音等。
可选地,装置还包括第三获取单元、构建单元、训练单元、输入单元、第一替换单元。
第三获取单元,用于获取多个带噪语音信号样本及多个干净语音信号样本;构建单元,用于构建并训练降噪模型,降噪模型包括一个生成器及一个判别器,生成器接收带噪语音信号,并根据带噪语音信号生成新的语音信号,判别器判断生成器生成的新的语音信号是真实信号还是生成的信号;训练单元,用于通过判别器与生成器的对抗训练,得到训练好的降噪模型;输入单元,用于向训练好的降噪模型中输入第一语音信号,其中,降噪模型对第一语音信号进行降噪处理,并生成第二语音信号;第一替换单元,用于获取降噪模型输出的第二语音信号,以替换获取的第一语音信号。
通过对大量带噪语音和干净语音的学习,使得生成器学习到的从带噪语音生成干净语音的能力,并能够使得生成的新的语音信号能够骗过判别器,这种深度学习降噪模型适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
可选地,装置还包括第四获取单元、确定单元、更新单元、第三输出单元、第二替换单元。
第四获取单元,用于采用最小均方算法对第一语音信号进行降噪处理,并获取当前一次迭代对应的均方误差梯度;确定单元,用于根据M次迭代对应的均方误差梯度的震荡情况,确定是否已经达到均方误差收敛敏感区,M次迭代中包括当前一次迭代;更新单元,用于根据确定结果,更新下一次迭代时最小均方算法所采用的收敛因子;第三输出单元,用于基于收敛因子输出降噪后的第一语音信号;第二替换单元,用于用降噪后的第一语音信号替换获取的第一语音信号。
具体地,若M次迭代对应的均方误差梯度满足公式A的次数大于或等于预设数值,则确定已经达到均方误差收敛敏感区,否则,确定未达到均方误差敏感区:A=[e(i)x(i)]·[e(i-1)x(i-1)]<0;其中,e(i)为M次迭代中的第i次迭代对应的误差信号,x(i)为第i次迭代对应的语音信号;e(i-1)为M次迭代中的第i-1次迭代对应的误差信号,x(i-1)为第i-1次迭代对应的语音信号。
可选地,结构化字段包括网页标题字段、锚文本字段、图片属性字段中的至少一种。
可选地,计算单元50包括第一处理子单元、第二处理子单元、获取子单元、计算子单元。
第一处理子单元,用于对结构化字段进行分词处理;第二处理子单元,用于提取分词处理后的结构化字段中的关键词;例如可以采用分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词接口对结构化字段进行分词。获取子单元,用于向预设的词向量表示模型输入提取到的关键词及目的地文本,并获取词向量表示模型输出的每个关键词的向量及目的地文本的向量;词向量表示模型例如可以是WORD2VEC等神经网络模型。计算子单元,用于采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。
可选地,装置还包括:第二获取单元、处理单元、生成单元、第二输出单元。
第二获取单元,用于根据目的地文本信息获取关于目的地的评论文本信息;处理单元,用于将评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;生成单元,用于基于关键词生成评价语音。第二输出单元,用于输出评价语音至第一用户。例如,根据目的地文本信息去一些团购网站、评论网站之类的直接爬取相关评论文本,从而获取关键字,比如干净、好吃、脏乱、服务好等。通过直接播报目的地的评价,可以让用户更加直观地感受到是否与自己期望相匹配。
可选地,装置还包括:第五获取单元、第二识别单元、第四输出单元。第五获取单元,用于获取第一用户的第二语音,第二语音为第一用户发出的用于指示确认目的地的语音;第二识别单元,用于采用与语音特点相匹配的语音识别模型识别第二语音,得到确认文本;第四输出单元,用于基于确认文本,输出目的地文本信息至导航***。可以理解地,通过驾驶员查阅实景图片,可以让驾驶员快速对目的地是否正确做出判断,再将确认后的目的地文本信息输出至导航***,避免实现过程中因地名雷同或相同,导致导航出现差错,做出错误的路径规划。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取第一用户的第一语音信号,第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号;对第一语音信号进行特征提取,得到特征信息;根据特征信息识别语音特点,并采用与语音特点相匹配的语音识别模型识别第一语音信号,得到目的地文本;根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;提取结构化字段中的关键词,并计算关键词与目的地文本的相似度值;将相似度值最大的关键词所对应的实景图片作为目的地实景图片,并输出目的地实景图片至第一用户。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:获取多个带噪语音信号样本及多个干净语音信号样本;构建并训练降噪模型,其中,降噪模型包括一个生成器及一个判别器,生成器接收带噪语音信号样本,并根据带噪语音信号样本生成新的语音信号,判别器鉴别生成器生成的新的语音信号是真实信号还是生成的信号;通过判别器与生成器的对抗训练,得到训练好的降噪模型;向训练好的降噪模型中输入第一语音信号,其中,降噪模型对第一语音信号进行降噪处理,并生成第二语音信号;获取降噪模型输出的第二语音信号,以替换获取的第一语音信号。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:采用最小均方算法对第一语音信号进行降噪处理,并获取当前一次迭代对应的均方误差梯度;根据M次迭代对应的均方误差梯度的震荡情况,确定是否已经达到均方误差收敛敏感区,M次迭代中包括当前一次迭代;根据确定结果,更新下一次迭代时最小均方算法所采用的收敛因子;基于收敛因子输出降噪后的第一语音信号;用降噪后的第一语音信号替换获取的第一语音信号。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:对结构化字段进行分词处理;提取分词处理后的结构化字段中的关键词;向预设的词向量表示模型输入提取到的关键词及目的地文本,并获取词向量表示模型输出的每个关键词的向量表示及目的地文本的向量表示;采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:根据目的地文本获取关于目的地的评论文本信息;将评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;基于关键词生成评价语音;输出评价语音至第一用户。
本发明实施例提供了一种服务器,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现以下步骤:
获取第一用户的第一语音信号,第一语音信号为第一用户发出的用于指示搜索目的地实景图片的语音信号;对第一语音信号进行特征提取,得到特征信息;根据特征信息识别语音特点,并采用与语音特点相匹配的语音识别模型识别第一语音信号,得到目的地文本;根据目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;提取结构化字段中的关键词,并计算关键词与目的地文本的相似度值;将相似度值最大的关键词所对应的实景图片作为目的地实景图片,并输出目的地实景图片至第一用户。
可选地,程序指令被处理器加载并执行时还实现以下步骤:获取多个带噪语音信号样本及多个干净语音信号样本;构建并训练降噪模型,其中,降噪模型包括一个生成器及一个判别器,生成器接收带噪语音信号样本,并根据带噪语音信号样本生成新的语音信号,判别器鉴别生成器生成的新的语音信号是真实信号还是生成的信号;通过判别器与生成器的对抗训练,得到训练好的降噪模型;向训练好的降噪模型中输入第一语音信号,其中,降噪模型对第一语音信号进行降噪处理,并生成第二语音信号;获取降噪模型输出的第二语音信号,以替换获取的第一语音信号。
可选地,程序指令被处理器加载并执行时还实现以下步骤:采用最小均方算法对第一语音信号进行降噪处理,并获取当前一次迭代对应的均方误差梯度;根据M次迭代对应的均方误差梯度的震荡情况,确定是否已经达到均方误差收敛敏感区,M次迭代中包括当前一次迭代;根据确定结果,更新下一次迭代时最小均方算法所采用的收敛因子;基于收敛因子输出降噪后的第一语音信号;用降噪后的第一语音信号替换获取的第一语音信号。
可选地,程序指令被处理器加载并执行时还实现以下步骤:对结构化字段进行分词处理;提取分词处理后的结构化字段中的关键词;向预设的词向量表示模型输入提取到的关键词及目的地文本,并获取词向量表示模型输出的每个关键词的向量表示及目的地文本的向量表示;采用余弦相似度公式计算关键词的向量与目的地文本的向量的相似度值。
可选地,程序指令被处理器加载并执行时还实现以下步骤:根据目的地文本获取关于目的地的评论文本信息;将评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;基于关键词生成评价语音;输出评价语音至第一用户。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
可以理解的是,应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本发明实施例对此不进行限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种基于语音识别的目的地搜索方法,其特征在于,所述方法包括:
获取第一用户的第一语音信号,所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号;
对所述第一语音信号进行特征提取,得到特征信息;
根据所述特征信息识别语音特点,并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号,得到目的地文本;
根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;
提取所述结构化字段中的关键词,并计算所述关键词与所述目的地文本的相似度值;
将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片,并输出所述目的地实景图片至所述第一用户。
2.根据权利要求1所述的方法,其特征在于,在所述获取第一用户的第一语音信号之后,并且在对所述第一语音信号进行特征提取,得到特征信息之前,所述方法还包括:
获取多个带噪语音信号样本及多个干净语音信号样本;
构建并训练降噪模型,其中,所述降噪模型包括一个生成器及一个判别器,所述生成器接收所述带噪语音信号样本,并根据所述带噪语音信号样本生成新的语音信号,所述判别器鉴别所述生成器生成的所述新的语音信号是真实信号还是生成的信号;
通过所述判别器与所述生成器的对抗训练,得到训练好的降噪模型;
向所述训练好的降噪模型中输入所述第一语音信号,其中,所述降噪模型对所述第一语音信号进行降噪处理,并生成第二语音信号;
获取所述降噪模型输出的所述第二语音信号,以替换所述获取的第一语音信号。
3.根据权利要求1所述的方法,其特征在于,在所述获取第一用户的第一语音信号之后,并且在对所述第一语音信号进行特征提取,得到特征信息之前,所述方法还包括:
采用最小均方算法对所述第一语音信号进行降噪处理,并获取当前一次迭代对应的均方误差梯度;
根据M次迭代对应的均方误差梯度的震荡情况,确定是否已经达到均方误差收敛敏感区,所述M次迭代中包括所述当前一次迭代;
根据确定结果,更新下一次迭代时所述最小均方算法所采用的收敛因子;
基于所述收敛因子输出降噪后的第一语音信号;
用所述降噪后的第一语音信号替换所述获取的第一语音信号。
4.根据权利要求1所述的方法,其特征在于,所述提取所述结构化字段中的关键词,并计算所述关键词与所述目的地文本的相似度值,包括:
对所述结构化字段进行分词处理;
提取分词处理后的结构化字段中的关键词;
向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本,并获取所述词向量表示模型输出的每个关键词的向量表示及所述目的地文本的向量表示;
采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。
5.根据权利要求1-4任意一项所述的方法,其特征在于,在所述输出所述目的地实景图片至所述第一用户之后,所述方法还包括:
根据所述目的地文本获取关于所述目的地的评论文本信息;
将所述评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;
基于所述关键词生成评价语音;
输出所述评价语音至所述第一用户。
6.一种基于语音识别的目的地搜索装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一用户的第一语音信号,所述第一语音信号为所述第一用户发出的用于指示搜索目的地实景图片的语音信号;
提取单元,用于对所述第一语音信号进行特征提取,得到特征信息;
第一识别单元,用于根据所述特征信息识别语音特点,并采用与所述语音特点相匹配的语音识别模型识别所述第一语音信号,得到目的地文本;
抓取单元,用于根据所述目的地文本在搜索引擎上抓取多个实景图片及多个实景图片所在网页的结构化字段;
计算单元,用于提取所述结构化字段中的关键词,并计算所述关键词与所述目的地文本的相似度值;
第一输出单元,用于将所述相似度值最大的关键词所对应的实景图片作为所述目的地实景图片,并输出所述目的地实景图片至所述第一用户。
7.根据权利要求6所述的装置,其特征在于,所述计算单元包括:
第一处理子单元,用于对所述结构化字段进行分词处理;
第二处理子单元,用于提取分词处理后的结构化字段中的关键词;
获取子单元,用于向预设的词向量表示模型输入提取到的所述关键词及所述目的地文本,并获取所述词向量表示模型输出的每个关键词的向量及所述目的地文本的向量;
计算子单元,用于采用余弦相似度公式计算所述关键词的向量与所述目的地文本的向量的相似度值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于根据所述目的地文本获取关于所述目的地的评论文本信息;
处理单元,用于将所述评论文本信息基于字符串匹配的分词方法进行分词处理,得到具有评价属性的关键词;
生成单元,用于基于所述关键词生成评价语音;
第二输出单元,用于输出所述评价语音至所述第一用户。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基于语音识别的目的地搜索方法。
10.一种服务器,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于:所述程序指令被处理器加载并执行时实现权利要求1至5任意一项所述的基于语音识别的目的地搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295008.XA CN109410935A (zh) | 2018-11-01 | 2018-11-01 | 一种基于语音识别的目的地搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295008.XA CN109410935A (zh) | 2018-11-01 | 2018-11-01 | 一种基于语音识别的目的地搜索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109410935A true CN109410935A (zh) | 2019-03-01 |
Family
ID=65470899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811295008.XA Pending CN109410935A (zh) | 2018-11-01 | 2018-11-01 | 一种基于语音识别的目的地搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410935A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706696A (zh) * | 2019-09-25 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音控制方法及装置 |
CN111914153A (zh) * | 2020-07-24 | 2020-11-10 | 广州中医药大学第一附属医院 | 跟师方法、跟师***、服务器和存储介质 |
CN112102843A (zh) * | 2020-09-18 | 2020-12-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113658598A (zh) * | 2021-08-12 | 2021-11-16 | 海信电子科技(深圳)有限公司 | 一种显示设备的语音交互方法及显示设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029130A (en) * | 1996-08-20 | 2000-02-22 | Ricoh Company, Ltd. | Integrated endpoint detection for improved speech recognition method and system |
US20060058947A1 (en) * | 2004-09-10 | 2006-03-16 | Schalk Thomas B | Systems and methods for off-board voice-automated vehicle navigation |
CN101976304A (zh) * | 2010-10-16 | 2011-02-16 | 陈长江 | 智能生活管家***及方法 |
CN201830294U (zh) * | 2010-08-18 | 2011-05-11 | 深圳市子栋科技有限公司 | 基于语音命令的导航***及导航服务器 |
CN104391673A (zh) * | 2014-11-20 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
TWM517851U (zh) * | 2015-11-25 | 2016-02-21 | Jie-Zhong Xu | 圖形溝通系統(三) |
CN105893564A (zh) * | 2016-03-31 | 2016-08-24 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎客户端的搜索方法和装置 |
CN106328154A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种前端音频处理*** |
CN106354852A (zh) * | 2016-09-02 | 2017-01-25 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法及装置 |
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107274885A (zh) * | 2017-05-31 | 2017-10-20 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
CN107346316A (zh) * | 2016-05-06 | 2017-11-14 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及电子设备 |
CN108520504A (zh) * | 2018-04-16 | 2018-09-11 | 湘潭大学 | 一种基于生成对抗网络端到端的模糊图像盲复原方法 |
-
2018
- 2018-11-01 CN CN201811295008.XA patent/CN109410935A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029130A (en) * | 1996-08-20 | 2000-02-22 | Ricoh Company, Ltd. | Integrated endpoint detection for improved speech recognition method and system |
US20060058947A1 (en) * | 2004-09-10 | 2006-03-16 | Schalk Thomas B | Systems and methods for off-board voice-automated vehicle navigation |
CN201830294U (zh) * | 2010-08-18 | 2011-05-11 | 深圳市子栋科技有限公司 | 基于语音命令的导航***及导航服务器 |
CN101976304A (zh) * | 2010-10-16 | 2011-02-16 | 陈长江 | 智能生活管家***及方法 |
CN104391673A (zh) * | 2014-11-20 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
CN106328154A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种前端音频处理*** |
TWM517851U (zh) * | 2015-11-25 | 2016-02-21 | Jie-Zhong Xu | 圖形溝通系統(三) |
CN105893564A (zh) * | 2016-03-31 | 2016-08-24 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎客户端的搜索方法和装置 |
CN107346316A (zh) * | 2016-05-06 | 2017-11-14 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及电子设备 |
CN106354852A (zh) * | 2016-09-02 | 2017-01-25 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法及装置 |
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107274885A (zh) * | 2017-05-31 | 2017-10-20 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
CN108520504A (zh) * | 2018-04-16 | 2018-09-11 | 湘潭大学 | 一种基于生成对抗网络端到端的模糊图像盲复原方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706696A (zh) * | 2019-09-25 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音控制方法及装置 |
CN111914153A (zh) * | 2020-07-24 | 2020-11-10 | 广州中医药大学第一附属医院 | 跟师方法、跟师***、服务器和存储介质 |
CN112102843A (zh) * | 2020-09-18 | 2020-12-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113658598A (zh) * | 2021-08-12 | 2021-11-16 | 海信电子科技(深圳)有限公司 | 一种显示设备的语音交互方法及显示设备 |
CN113658598B (zh) * | 2021-08-12 | 2024-02-27 | Vidaa(荷兰)国际控股有限公司 | 一种显示设备的语音交互方法及显示设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915340B (zh) | 自然语言问答方法及装置 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN105869642B (zh) | 一种语音文本的纠错方法及装置 | |
CN109410935A (zh) | 一种基于语音识别的目的地搜索方法及装置 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN109299457A (zh) | 一种观点挖掘方法、装置及设备 | |
CN110489755A (zh) | 文本生成方法和装置 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN107391614A (zh) | 一种基于wmd的中文问答匹配方法 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN103425727B (zh) | 上下文语音查询扩大方法和*** | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
CN107710192A (zh) | 用于会话响应的自动评价的度量 | |
CN108735201A (zh) | 连续语音识别方法、装置、设备和存储介质 | |
CN106356057A (zh) | 一种基于计算机应用场景语义理解的语音识别*** | |
CN104715063B (zh) | 搜索排序方法和装置 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN108804526A (zh) | 兴趣确定***、兴趣确定方法及存储介质 | |
CN110347776A (zh) | 兴趣点名称匹配方法、装置、设备及存储介质 | |
CN109544104A (zh) | 一种招聘数据处理方法及装置 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
JP2019040402A (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN110085217A (zh) | 语音导航方法、装置及终端设备 | |
CN106502988B (zh) | 一种目标属性抽取的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |