CN116932782A

CN116932782A - 基于语音识别的内容搜索方法、装置、计算机设备及介质

Info

Publication number: CN116932782A
Application number: CN202310680667.XA
Authority: CN
Inventors: 黄国辉; 陶建伟
Original assignee: Guangzhou Sandianjiyuan Intelligent Technology Co ltd
Current assignee: Guangzhou Sandianjiyuan Intelligent Technology Co ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-10-24

Abstract

本申请涉及语音识别技术领域，具体公开了一种基于语音识别的内容搜索方法、装置、计算机设备及介质。该方法可在用户允许用户媒体获得接口访问音频采集设备时，获取包含用户语音的媒体流，利用语音服务控制接口对媒体流中的语音进行提取，获得用户语音，基于语音识别接口，调用语音识别服务对语音进行识别，获得用户语音对应的文本信息，进而根据文本信息进行搜索获得用户所需的内容，利用语音识别技术，提高了用户输入效率，进而提高了用户搜索内容的效率。

Description

基于语音识别的内容搜索方法、装置、计算机设备及介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种基于语音识别的内容搜索方法、装置、计算机设备及介质。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，通过语音识别技术可以将输入的语音转换为文本。鉴于现在大多搜索组件都是手动输入，对于某些用户其实并不友好，在有些时候手动输入也并不方便，并且在长关键字搜索时，基于语音输入的搜索方法效率更高，更加省事方便。因此，如何利用语音识别技术，提高用户搜索内容的效率成为了亟需解决的问题。

发明内容

本申请提供了一种基于语音识别的内容搜索方法、装置、计算机设备及介质，以提高用户搜索内容的效率。

第一方面，本申请提供了一种基于语音识别的内容搜索方法，所述方法包括：

在检测到用户操作时，调用媒体输入授权接口，获得用户授权结果；

调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流；

基于语音服务控制接口，获取所述媒体流中的用户语音；

调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容。

进一步地，所述调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流，包括：

调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象；

在所述用户授权结果为用户允许时，调用与所述承诺对象对应的第一回调函数，采集音频信息，生成所述媒体流。

进一步地，所述调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象之后，还包括：

在所述用户授权结果为用户拒绝时，调用与所述承诺对象对应的第二回调函数，生成异常提示；

基于所述异常提示，发起授权提示页面，并重新调用所述授权许可接口，获取用户授权结果。

进一步地，所述调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流之后，还包括：

调用语音服务控制接口，确定所述媒体流中是否存在所述用户语音；

在所述媒体流中不存在所述用户语音时，发起语音获取失败提示，以提醒用户未接收到所述用户语音。

进一步地，所述调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容，包括：

基于所述语音识别接口，调用预设的语音识别服务，对所述用户语音进行识别，获得所述文本信息；

对所述文本信息进行语义分析，获得所述文本信息对应的语义信息；

基于所述语义信息，在后端服务器中查找与所述语义信息相匹配的信息内容。

进一步地，所述调用语音识别接口，对所述用户语音进行识别之后，还包括：

在所述用户语音识别失败时，发起语音识别提示页面，以提醒用户语音转换失败。

进一步地，所述调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容之后，还包括：

基于所述信息内容，生成信息展示页面，以向用户展示所述信息内容。

第二方面，本申请还提供了一种基于语音识别的内容搜索装置，所述装置包括：

授权结果获得模块，用于在检测到用户操作时，调用媒体输入授权接口，获得用户授权结果；

媒体流生成模块，用于调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流；

用户语音获取模块，用于基于语音服务控制接口，获取所述媒体流中的用户语音；

信息内容获取模块，用于调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的基于语音识别的内容搜索方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的基于语音识别的内容搜索方法。

本申请公开了一种基于语音识别的内容搜索方法、装置、计算机设备及介质，在检测到用户操作时，调用媒体输入授权接口，获得用户授权结果；调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流；基于语音服务控制接口，获取所述媒体流中的用户语音；调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容。该方法可在用户允许用户媒体获得接口访问音频采集设备时，获取包含用户语音的媒体流，利用语音服务控制接口对媒体流中的语音进行提取，获得用户语音，基于语音识别接口，调用语音识别服务对语音进行识别，获得用户语音对应的文本信息，进而根据文本信息进行搜索获得用户所需的内容，利用语音识别技术，提高了用户输入效率，进而提高了用户搜索内容的效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种基于语音识别的内容搜索方法的第一实施例示意流程图；

图2是本申请的实施例提供的一种基于语音识别的内容搜索方法的实施步骤流程图；

图3是本申请的实施例提供的一种基于语音识别的内容搜索方法的第二实施例示意流程图；

图4是本申请的实施例提供的一种基于语音识别的内容搜索方法的第三实施例示意流程图；

图5为本申请的实施例提供的一种基于语音识别的内容搜索装置的示意性框图；

图6为本申请的实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种基于语音识别的内容搜索方法、装置、计算机设备及介质。其中，该基于语音识别的内容搜索方法可以应用于服务器中，通过利用语音识别技术识别用户输入的语音，提高了用户输入效率，进而提高了用户搜索内容的效率。其中，该服务器可以为独立的服务器，也可以为服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种基于语音识别的内容搜索方法的示意流程图。该基于语音识别的内容搜索方法可应用于服务器中，用于利用语音识别技术识别用户输入的语音，提高了用户输入效率，进而提高了用户搜索内容的效率。

如图1所示，该基于语音识别的内容搜索方法具体包括步骤S101至步骤S104。

S101、在检测到用户操作时，调用媒体输入授权接口，获得用户授权结果。

S102、调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流。

S103、基于语音服务控制接口，获取所述媒体流中的用户语音。

S104、调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容。

调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流之后，还包括：调用语音服务控制接口，确定所述媒体流中是否存在所述用户语音；在所述媒体流中不存在所述用户语音时，发起语音获取失败提示，以提醒用户未接收到所述用户语音。

调用语音识别接口，对所述用户语音进行识别之后，还包括：在所述用户语音识别失败时，发起语音识别提示页面，以提醒用户语音转换失败。

调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容之后，还包括：基于所述信息内容，生成信息展示页面，以向用户展示所述信息内容。

在一个实施例中，如图2所示，在检测到用户存在搜索操作时，前端调用用户媒体获得接口，提示用户给予使用媒体输入的许可，媒体输入会产生一个MediaStream(媒体流)，里面包含了请求的媒体类型的轨道。需要用户授权方可使用，用户授权后生成一个Promise对象，音频采集成功后会resolve回调一个MediaStream对象。

其中，媒体流是采用流式传输的方式，使得流式媒体在Internet上播放的技术。通过网络传输的音频、视频或多媒体文件在播放前并不下载整个文件，数据流随时传送随时播放。

Promise对象用于表示一个异步操作的最终完成(或失败)及其结果值。一个Promise对象代表一个在这个promise被创建出来时不一定已知值的代理。它能够把异步操作最终的成功返回值或者失败原因和相应的处理程序关联起来。这样使得异步方法可以像同步方法那样返回值，异步方法并不会立即返回最终的值，而是会返回一个promise，以便在未来某个时候把值交给使用者。

在一个实施例中，检测到用户搜索操作时，可以发起弹窗获取用户授权结果。

在一个实施例中，获取到用户输入的语音之后，调用SpeechSynthesis(语音服务控制)接口,该接口为语音服务控制接口，用于获取设备上关于可用的合成声音的信息，开始、暂停语音。

具体实施例中，语音服务控制接口用户获取设备上可用的声音的信息，若当前媒体流中不存在声音信息，则生成语音获取失败提示弹窗，提醒用户语音获取失败。

在一个实施例中，接入语音识别服务，例如，百度语音识别服务，将语音识别为文本并传给后端服务器，后端服务器根据文本内容返回搜索结果并展示。若语音识别服务未成功将语音识别转换为文本，则发起语音识别失败提示弹窗。

在一个实施例中，对于有文字输入困难的用户来说，有搜索内容的需求时，会在输入搜索关键词时出现困难，使用语音输入的方式有效解决了文字输入困难的问题，增加了便携性，提高了用户的搜索效率。

上述实施例提供了一种基于语音识别的内容搜索方法、装置、计算机设备及介质，在检测到用户操作时，调用媒体输入授权接口，获得用户授权结果；调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流；基于语音服务控制接口，获取所述媒体流中的用户语音；调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容。该方法可在用户允许用户媒体获得接口访问音频采集设备时，获取包含用户语音的媒体流，利用语音服务控制接口对媒体流中的语音进行提取，获得用户语音，基于语音识别接口，调用语音识别服务对语音进行识别，获得用户语音对应的文本信息，进而根据文本信息进行搜索获得用户所需的内容，利用语音识别技术，提高了用户输入效率，进而提高了用户搜索内容的效率。

请参阅图3，图3是本申请的实施例提供的一种基于语音识别的内容搜索方法的示意流程图。该基于语音识别的内容搜索方法可应用于服务器中，用于利用语音识别技术识别用户输入的语音，提高了用户输入效率，进而提高了用户搜索内容的效率。

如图3所示，该基于语音识别的内容搜索方法具体包括步骤S201至步骤S202。

S201、调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象；

S202、在所述用户授权结果为用户允许时，调用与所述承诺对象对应的第一回调函数，采集音频信息，生成所述媒体流。

调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象之后，还包括：在所述用户授权结果为用户拒绝时，调用与所述承诺对象对应的第二回调函数，生成异常提示；基于所述异常提示，发起授权提示页面，并重新调用所述授权许可接口，获取用户授权结果。

在一个实施例中，调用用户媒体获得接口(MediaDevices.getUserMedia())会提示用户给予使用媒体输入设备的许可，媒体输入会产生一个MediaStream(媒体流)，媒体流里面包含了请求的媒体类型的轨道，可以包含一个视频轨道(来自硬件或者虚拟视频源，比如相机、视频采集设备和屏幕共享服务等等)、一个音频轨道(同样来自硬件或虚拟音频源，比如麦克风、A/D转换器等等)，也可能是其他轨道类型。

在一个实施例中，调用用户媒体获得接口后返回一个承诺对象，得到用户允许的授权后会resolve回调生成MediaStream(媒体流)对象。若用户拒绝了使用权限，或者需要的媒体源不可用，promise会reject回调生成PermissionDeniedError或者NotFoundError。

其中，承诺对象即promise对象，resolve函数:内部定义成功时调用的函数；reject函数:内部定义失败时调用的函数。

在一个实施例中，若用户拒绝授权给媒体输入设备的许可，则发起异常提示，并重新发起授权提示页面，获取用户授权结果。

请参阅图4，图4是本申请的实施例提供的一种基于语音识别的内容搜索方法的示意流程图。该基于语音识别的内容搜索方法可应用于服务器中，用于利用语音识别技术识别用户输入的语音，提高了用户输入效率，进而提高了用户搜索内容的效率。

如图4所示，该基于语音识别的内容搜索方法具体包括步骤S301至步骤S303。

S301、基于所述语音识别接口，调用预设的语音识别服务，对所述用户语音进行识别，获得所述文本信息；

S302、对所述文本信息进行语义分析，获得所述文本信息对应的语义信息；

S303、基于所述语义信息，在后端服务器中查找与所述语义信息相匹配的信息内容。

在一个实施例中，调用预设的语音识别服务，例如，百度语音识别服务，对输入的用户语音进行识别，将语音转换为文本，再根据语义分析方法对文本进行语义分析，获得语义信息。

在一个实施例中，根据将语义信息发送到后端服务器中进行查询、搜索，搜索到相匹配的内容后返回至前端，展现给用户。

请参阅图5，图5是本申请的实施例提供一种基于语音识别的内容搜索装置的示意性框图，该基于语音识别的内容搜索装置用于执行前述的基于语音识别的内容搜索方法。其中，该基于语音识别的内容搜索装置可以配置于服务器。

如图5所示，该基于语音识别的内容搜索装置400，包括：

授权结果获得模块401，用于在检测到用户操作时，调用媒体输入授权接口，获得用户授权结果；

媒体流生成模块402，用于调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流；

用户语音获取模块403，用于基于语音服务控制接口，获取所述媒体流中的用户语音；

信息内容获取模块404，用于调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容。

在一个实施例中，所述媒体流生成模块402，包括：

承诺对象生成单元，用于调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象；

媒体流生成单元，用于在所述用户授权结果为用户允许时，调用与所述承诺对象对应的第一回调函数，采集音频信息，生成所述媒体流。

在一个实施例中，所述媒体流生成模块402，还包括：

异常提示生成单元，用于在所述用户授权结果为用户拒绝时，调用与所述承诺对象对应的第二回调函数，生成异常提示；

授权结果重新获取单元，用于基于所述异常提示，发起授权提示页面，并重新调用所述授权许可接口，获取用户授权结果。

在一个实施例中，所述基于语音识别的内容搜索装置400，还包括语音获取结果提示模块，所述语音获取结果提示模块，包括：

用户语音存在判断单元，用于调用语音服务控制接口，确定所述媒体流中是否存在所述用户语音；

语音获取失败提示单元，用于在所述媒体流中不存在所述用户语音时，发起语音获取失败提示，以提醒用户未接收到所述用户语音。

在一个实施例中，所述信息内容获取模块404，包括：

文本信息获得单元，用于基于所述语音识别接口，调用预设的语音识别服务，对所述用户语音进行识别，获得所述文本信息；

语义信息获得单元，用于对所述文本信息进行语义分析，获得所述文本信息对应的语义信息；

信息内容查找单元，用于基于所述语义信息，在后端服务器中查找与所述语义信息相匹配的信息内容。

在一个实施例中，所述信息内容获取模块404，还包括：

转换失败提示单元，用于在所述用户语音识别失败时，发起语音识别提示页面，以提醒用户语音转换失败。

在一个实施例中，所述基于语音识别的内容搜索装置400，还包括：

信息内容展示单元，用于基于所述信息内容，生成信息展示页面，以向用户展示所述信息内容。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。

参阅图6，该计算机设备包括通过***总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于语音识别的内容搜索方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于语音识别的内容搜索方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

基于语音服务控制接口，获取所述媒体流中的用户语音；

在一个实施例中，所述处理器在实现调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流时，用于实现：

在一个实施例中，所述处理器在实现调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象之后，还用于实现：

在一个实施例中，所述处理器在实现调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流之后，还用于实现：

在一个实施例中，所述处理器在实现调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容时，用于实现：

在一个实施例中，所述处理器在实现调用语音识别接口，对所述用户语音进行识别之后，还用于实现：

在一个实施例中，所述处理器在实现调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容之后，还用于实现：

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项基于语音识别的内容搜索方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语音识别的内容搜索方法，其特征在于，包括：

基于语音服务控制接口，获取所述媒体流中的用户语音；

2.根据权利要求1所述的基于语音识别的内容搜索方法，其特征在于，所述调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流，包括：

3.根据权利要求2所述的基于语音识别的内容搜索方法，其特征在于，所述调用所述用户媒体获得接口，访问音频采集设备，生成承诺对象之后，还包括：

4.根据权利要求1所述的基于语音识别的内容搜索方法，其特征在于，所述调用用户媒体获得接口，访问音频采集设备，并在所述用户授权结果为用户允许时，采集音频信息，生成媒体流之后，还包括：

5.根据权利要求1所述的基于语音识别的内容搜索方法，其特征在于，所述调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容，包括：

6.根据权利要求1所述的基于语音识别的内容搜索方法，其特征在于，所述调用语音识别接口，对所述用户语音进行识别之后，还包括：

7.根据权利要求1-6任一项所述的基于语音识别的内容搜索方法，其特征在于，所述调用语音识别接口，对所述用户语音进行识别，获得文本信息，并基于所述文本信息，获取与所述文本信息相匹配的信息内容之后，还包括：

8.一种基于语音识别的内容搜索装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的基于语音识别的内容搜索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的基于语音识别的内容搜索方法。