CN115410578A - 语音识别的处理方法及其处理***、车辆和可读存储介质 - Google Patents

语音识别的处理方法及其处理***、车辆和可读存储介质 Download PDF

Info

Publication number
CN115410578A
CN115410578A CN202211327016.4A CN202211327016A CN115410578A CN 115410578 A CN115410578 A CN 115410578A CN 202211327016 A CN202211327016 A CN 202211327016A CN 115410578 A CN115410578 A CN 115410578A
Authority
CN
China
Prior art keywords
recognition result
voice
recognized
result
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211327016.4A
Other languages
English (en)
Inventor
韩森淼
郭华鹏
张岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202211327016.4A priority Critical patent/CN115410578A/zh
Publication of CN115410578A publication Critical patent/CN115410578A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音识别的处理方法及其处理***、车辆和可读存储介质。语音识别的处理方法包括:获取待识别语音;语音识别待识别语音得到语音识别结果,语音识别结果包括第一识别结果和第二识别结果,第一识别结果为车辆的车机端对待识别语音识别到的最终结果,第二识别结果为云端对待识别语音识别到的最终结果;根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个。上述语音识别的处理方法,根据由网络环境和语音识别结果置信度构成的显示策略显示第一识别结果或第二识别结果,充分发挥本地、云端各自的语音识别优势,将云端结果与本地结果融合流式上屏,提供流畅准确的语音识别结果上屏展示效果。

Description

语音识别的处理方法及其处理***、车辆和可读存储介质
技术领域
本发明涉及车辆语音识别技术领域,特别涉及一种语音识别的处理方法及其处理***、车辆和可读存储介质。
背景技术
在相关技术中,用户说的Query的ASR(Automatic Speech Recognition)识别结果需要上屏进行展示。ASR车辆上屏效果作为车载对话***“看得到”的展示,十分重要。一般而言,云端ASR具有算力强,效果好的特点,但由于端云交互存在一定的网络时延开销,返回流式结果的速度比本地ASR要慢。
发明内容
本发明提供了一种语音识别的处理方法及其处理***、车辆和可读存储介质。
本发明的一种语音识别的处理方法包括:获取待识别语音;语音识别所述待识别语音得到语音识别结果,所述语音识别结果包括第一识别结果和第二识别结果,所述第一识别结果为车辆的车机端对所述待识别语音识别到的最终结果,所述第二识别结果为云端对所述待识别语音识别到的最终结果;根据由网络环境和语音识别结果置信度构成的显示策略,显示所述第一识别结果和所述第二识别结果的其中一个。
上述语音识别的处理方法,根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个,可充分发挥本地、云端各自的语音识别优势,将云端结果与本地结果进行融合流式上屏,提供流畅且准确的语音识别结果上屏展示效果。
所述语音识别的处理方法包括:获取原始语音,所述原始语音包括至少一个人声部分;在当前检测到人声部分的情况下,对所述原始语音中从所述人声部分开始的部分进行音频截取得到多个音频包,所述多个音频包在下发后形成所述待识别语音;在第一预设时长内未检测到所述人声部分的情况下,停止下发所述音频包。如此,可有利于提高语音识别的处理效率。
所述语音识别的处理方法包括:在对检测到的人声部分进行音频截取得到所述多个音频包的情况下,以未检测到所述人声部分后直至第二预设时长,停止下发所述音频包,所述第二预设时长小于所述第一预设时长。如此,可有利于提高语音识别结果的上屏速度。
获取待识别语音,包括:逐帧获取所述多个音频包;语音识别所述待识别语音得到语音识别结果,包括:根据持续获取到的所述音频包,流式显示所述语音识别结果。如此,可有利于实现语音识别结果的实时上屏效果。
所述语音识别的处理方法包括:在当前流式生成的是中间结果的情况下,显示所述第一识别结果,所述中间结果为对当前获取到的所有所述音频包生成的语音识别结果。如此,可有利于保证最快的语音识别结果上屏速度。
根据由网络环境和语音识别结果置信度构成的显示策略,显示所述第一识别结果和所述第二识别结果的其中一个,包括:在所述网络环境处于正常状态的情况下,根据对所述第二识别结果的接收等待时长,以及所述第一识别结果和所述第二识别结果之间的置信度,显示所述第一识别结果或所述第二识别结果;在所述网络环境处于弱网状态的情况下,优先显示所述第一识别结果,当在预设超时时长内接收到所述第二识别结果的时候,根据所述第一识别结果和所述第二识别结果之间的置信度,刷新显示所述第一识别结果或所述第二识别结果;在所述网络环境处于无网状态的情况下,显示所述第一识别结果。如此,可有利于保证所显示的语音识别结果具有足够的上屏速度和可信度。
所述语音识别的处理方法包括:在所述车辆的车机端发送测试包后,于所述预设超时时长内接收到反馈包的情况下,确定所述网络环境处于所述正常状态,所述反馈包为所述云端对所述测试包的处理结果;在所述车辆的车机端发送所述测试包后,于所述预设超时时长内未接收到所述反馈包的情况下,确定所述网络环境处于所述弱网状态;在所述车辆的车机端和所述云端的长连接断开的情况下,确定所述网络环境处于所述无网状态。如此,可方便确定车辆的车机端和云端之间通信的网络状况。
本发明的一种车辆,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任意一项所述的语音识别的处理方法的步骤。
上述车辆,根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个,可充分发挥本地、云端各自的语音识别优势,将云端结果与本地结果进行融合流式上屏,提供流畅且准确的语音识别结果上屏展示效果。
本发明的一种语音识别的处理***,包括车辆和云端,所述车辆用于:获取待识别语音;语音识别所述待识别语音得到语音识别结果,所述语音识别结果包括第一识别结果和第二识别结果,所述第一识别结果为所述车辆的车机端对所述待识别语音识别到的最终结果,所述第二识别结果为所述云端对所述待识别语音识别到的最终结果;根据由网络环境和语音识别结果置信度构成的显示策略,显示所述第一识别结果和所述第二识别结果的其中一个;所述云端用于:接收所述车辆发送的所述待识别语音;对所述待识别语音识别得到所述第二识别结果;向所述车辆发送所述第二识别结果。
上述语音识别的处理***,根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个,可充分发挥本地、云端各自的语音识别优势,将云端结果与本地结果进行融合流式上屏,提供流畅且准确的语音识别结果上屏展示效果。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,实现上述任意一项所述的语音识别的处理方法的步骤。
上述计算机可读存储介质,根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个,可充分发挥本地、云端各自的语音识别优势,将云端结果与本地结果进行融合流式上屏,提供流畅且准确的语音识别结果上屏展示效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对本发明的描述中将变得明显和容易理解,其中:
图1是本发明的语音识别的处理方法的流程图;
图2是本发明的语音识别的处理***的示意图;
图3是本发明的车辆的模块示意图;
图4是本发明的语音识别的处理方法的场景示意图。
主要元件符号说明:
车辆10、车机端11、存储器12、处理器13;云端20;语音识别的处理***30。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
请参考图1和图2,本发明的一种语音识别的处理方法,包括:
01:获取待识别语音;
02:语音识别待识别语音得到语音识别结果,语音识别结果包括第一识别结果和第二识别结果,第一识别结果为车辆10的车机端11对待识别语音识别到的最终结果,第二识别结果为云端20对待识别语音识别到的最终结果;
03:根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,车辆10包括存储器12和处理器13。存储器12存储有计算机程序。处理器13能够执行计算机程序以实现本发明的语音识别的处理方法的步骤。具体地,处理器13用于:获取待识别语音;语音识别待识别语音得到语音识别结果,语音识别结果包括第一识别结果和第二识别结果,第一识别结果为车辆10的车机端11对待识别语音识别到的最终结果,第二识别结果为云端20对待识别语音识别到的最终结果;根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个。
上述语音识别的处理方法和车辆10,根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个,可充分发挥本地、云端20各自的语音识别优势,将云端20结果与本地结果进行融合流式上屏,提供流畅且准确的语音识别结果上屏展示效果。
请结合图4,在图4中,用户在发出Query音频后,可以通过车辆10的车机端11(车机本地)的VAD(Voice Activity Detection,语音活动检测)单元进行VAD处理,从而可持续得到多个音频包。车机本地可将得到的多个音频包分别下发给车机本地的ASR单元和云端20的ASR单元,使得车机本地对进行VAD处理后的用户Query音频进行流式处理并最终得到第一识别结果(本地ASR最终结果),以及使得云端20对进行VAD处理后的用户Query音频进行流式处理并最终得到第二识别结果(云端ASR最终结果)。车机本地和云端20分别得到的语音识别结果可进行返回,从而可根据由网络环境和语音识别结果置信度构成的显示策略,将本地最终结果和云端20最终结果进行融合,得到其中一个更适合展示给用户的语音识别结果并在车载大屏UI显示。
另外,待识别语音可以是表征用户的语音请求(Query)的音频。对待识别语音的语音识别可以为,通过以音频形式呈现的待识别语音来得到对应的以文本形式呈现的语音识别结果。
语音识别的处理方法包括:
获取原始语音,原始语音包括至少一个人声部分;
在当前检测到人声部分的情况下,对原始语音中从人声部分开始的部分进行音频截取得到多个音频包,多个音频包在下发后形成待识别语音;
在第一预设时长内未检测到人声部分的情况下,停止下发音频包。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,处理器13用于:获取原始语音,原始语音包括至少一个人声部分;在当前检测到人声部分的情况下,对原始语音中从人声部分开始的部分进行音频截取得到多个音频包,多个音频包在下发后形成待识别语音;在第一预设时长内未检测到人声部分的情况下,停止下发音频包。
如此,可有利于提高语音识别的处理效率。
具体地,可以通过车辆10的麦克风来接收音频,从而对用户的语音进行录制并得到原始语音。原始语音为在实际场景中得到的音频,其中既包括对应用户所发出的语音的人声部分,也包括场景中的非人声部分(如杂音)。人声部分可表征语音中的具体词语。
请结合图4,在对原始语音进行检测时,若检测到原始语音中的人声部分,则会从当前检测到的人声部分开始,对原始语音进行音频截取以得到多个音频包。多个音频包可以进行下发以形成待识别语音。其中,下发后的多个音频包可以依次排列形成待识别语音,也可以通过合成形成待识别语音。对原始语音的检测可以为语音活性检测。
而在第一预设时长内未检测到原始语音中的人声部分,或者说,检测到原始语音中的非人声部分并持续第一预设时长的情况下,则表示原始语音中的当前音频部分不需要进行语音识别,从而可进入语音活性检测终止状态(VAD END),对原始语音的截取会在进入VAD END的时候停止而得到最后一个音频包(尾包),VAD END之后再通过音频截取得到的音频包就不会进行下发以形成待识别语音。
可以理解,在进行语音识别的场景中,对识别到的语音识别结果具有上屏速度快的需求。在需要依次通过确认音频、对音频进行语音识别的情况下,将原始语音中的人声部分截取为多个音频包,而不存在人声部分的时候则停止下发音频包,可避免对非人声部分也进行语音识别的情况,使得语音识别具有针对性,从而提高语音识别的处理效率,最终可提高语音识别结果的上屏速度。
另外,处理器13可以包括语音活性检测单元(图未示)和语音识别单元(图未示)。语音活性检测单元可对获取到的原始语音进行音频截取以得到多个音频包,语音识别单元可接收语音活性检测单元下发的多个音频包,并对接收到的多个音频包形成待识别语音以进行语音识别。
此外,第一预设时长可以通过标定确定,也可以根据实际情况进行调整来得到。第一预设时长的取值范围可以为1毫秒至100毫秒。
语音识别的处理方法包括:
在对检测到的人声部分进行音频截取得到多个音频包的情况下,以未检测到人声部分后直至第二预设时长,停止下发音频包,第二预设时长小于第一预设时长。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,处理器13用于:在对检测到的人声部分进行音频截取得到多个音频包的情况下,以未检测到人声部分后直至第二预设时长,停止下发音频包,第二预设时长小于第一预设时长。
如此,可有利于提高语音识别结果的上屏速度。
具体地,在原始语音中,在一个人声部分结束后,可能会跟随一个非人声部分。在检测到的人声部分之后直至第二预设时长内,没有再检测到人声部分的情况下,则表示原始语音的当前部分为非人声部分,不需要进行语音识别,从而会停止下发音频包。由于第二预设时长小于第一预设时长,可压缩下发音频包的整段时长中的尾点等待时间,将进入语音活性检测终止状态的时间提前(VAD EarlyEnd),减小得到的最后一个音频包(尾包)的大小,并可以让尾包更快下发,进而提高语音识别的速度,最终有利于提高语音识别结果的上屏速度。
另外,在图4中,通过将对应VAD EarlyEnd的尾包来作为本地ASR尾包,可提高车机本地ASR对待识别语音的处理速度,通过将对应VAD End的尾包来作为云端ASR尾包,则可提高云端ASR对待识别语音的处理精度。当然,对应VAD EarlyEnd的尾包也可以作为云端ASR尾包,从而可让云端ASR能够更快得到第二识别结果。
步骤01(获取待识别语音),包括:
逐帧获取多个音频包;
步骤02(语音识别待识别语音得到语音识别结果),包括:
根据持续获取到的音频包,流式显示语音识别结果。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,处理器13用于:逐帧获取多个音频包;根据持续获取到的音频包,流式显示语音识别结果。
如此,可有利于实现语音识别结果的实时上屏效果。
具体地,逐帧获取多个音频包,可使得获取到的多个音频包按照先后顺序进行排布。对音频包的获取是一个持续的过程,在此过程中,可根据已获取到的音频包进行语音识别,并显示语音识别到的语音识别结果。
流式显示可以为,将先前已识别到的所有语音识别结果的部分内容进行显示,在当前获取到新的语音识别结果的部分内容时,会将先前已识别到的所有语音识别结果的部分内容结合新的语音识别结果的部分内容以进行显示。
请结合图4,以用户的语音请求为“导航去浦东国际机场”为例,在逐帧获取多个音频包的过程中,通过语音识别会先后得到多个中间结果(本地ASR中间结果),如“导航”、“导航去”、“导航去浦东”,这些语音识别结果对应用户的语音请求中的部分内容。在对持续获取到的第一部分的音频包进行语音识别得到的语音识别结果为“导航”后,则会将语音识别结果显示为“导航”。在对持续获取到的第二部分的音频包进行语音识别得到的语音识别结果为“去”后,则会将语音识别结果显示为“导航去”。在对持续获取到的第三部分的音频包进行语音识别得到的语音识别结果为“浦东”后,则会将语音识别结果显示为“导航去浦东”。依次类推,在语音识别结果显示为“导航去浦东国际机场”之前,所显示的语音识别结果均为中间结果。
通过上述的流式显示语音识别结果的方式,将持续获取到的音频包进行语音识别后,补充显示在以得到的语音识别结果之后,并可在之后显示“导航去浦东国际机场”的最终结果,用户可通过所显示的中间结果来快速确定所发出的语音请求的语音识别情况,以及通过所显示的最终结果来确定语音识别的最终效果,从而可实现对语音识别结果的实时上屏效果。
语音识别的处理方法包括:
在当前流式生成的是中间结果的情况下,显示第一识别结果,中间结果为对当前获取到的所有音频包生成的语音识别结果。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,处理器13用于:在当前流式生成的是中间结果的情况下,显示第一识别结果,中间结果为对当前获取到的所有音频包生成的语音识别结果。
如此,可有利于保证最快的语音识别结果上屏速度。
请结合图4,具体地,对于车辆10的车机端11而言,由于不存在网络时延的问题,相对于第二识别结果,车辆10的车机端11可在识别到第一识别结果后直接对第一识别结果进行显示,使得语音识别结果的上屏速度更快。另外,在配合通过第二预设时长来提前进入语音活性检测终止状态的时间的前提下,可进一步增加对第一识别结果的获取速度。
步骤03(根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个),包括:
在网络环境处于正常状态的情况下,根据对第二识别结果的接收等待时长,以及第一识别结果和第二识别结果之间的置信度,显示第一识别结果或第二识别结果;
在网络环境处于弱网状态的情况下,优先显示第一识别结果,当在预设超时时长内接收到第二识别结果的时候,根据第一识别结果和第二识别结果之间的置信度,刷新显示第一识别结果或第二识别结果;
在网络环境处于无网状态的情况下,显示第一识别结果。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,处理器13用于:在网络环境处于正常状态的情况下,根据对第二识别结果的接收等待时长,以及第一识别结果和第二识别结果之间的置信度,显示第一识别结果或第二识别结果;在网络环境处于弱网状态的情况下,优先显示第一识别结果,当在预设超时时长内接收到第二识别结果的时候,根据第一识别结果和第二识别结果之间的置信度,刷新显示第一识别结果或第二识别结果;在网络环境处于无网状态的情况下,显示第一识别结果。
如此,可有利于保证所显示的语音识别结果具有足够的上屏速度和可信度。
语音识别结果置信度可以为,表征语音识别结果的可靠程度。对于语音识别结果而言,语音识别结果置信度越高,则表示语音识别结果的可靠程度越高,越不容易存在错误,语音识别结果置信度越低,则表示语音识别结果的可靠程度越低,越容易存在错误。
具体地,若确定网络环境当前处于正常状态,由于通过云端20进行语音识别可具有更高的处理精度,即使已获取到第一识别结果,也会优先等待接收第二识别结果。在等待接收第二识别结果的过程中,不会显示第一识别结果。一定时间内接收到第二识别结果的情况下,则会对第一识别结果和第二识别结果进行置信度判断,确定第一识别结果和第二识别结果中具有更大的置信度的一个,若第一识别结果的置信度大于第二识别结果的置信度,则会显示第一识别结果,若第一识别结果的置信度小于第二识别结果的置信度,则会显示第二识别结果。在等待接收第二识别结果的接收等待时长过长的情况下,则会显示第一识别结果。在预设超时时长内未接收到第二识别结果的情况下,可确定等待接收第二识别结果的接收等待时长过长。
若确定网络环境当前处于弱网状态,则可能会使得接收第二识别结果超时。在等待接收第二识别结果的过程中,若先得到第一识别结果,则会先显示第一识别结果。在等待接收第二识别结果的时长大于预设超时时长的情况下,则保持显示第一识别结果。在预设超时时长内接收到第二识别结果的情况下,则会对第一识别结果和第二识别结果进行置信度判断。若第一识别结果的置信度大于第二识别结果的置信度,则会保持显示第一识别结果,若第一识别结果的置信度小于第二识别结果的置信度,则会刷新显示为第二识别结果。
若确定网络环境当前处于无网状态,则可确定无法接收到云端20发送的第二识别结果,从而会在获取到第一识别结果的情况下,直接显示第一识别结果。
在上述基础上,根据当前的车辆10和云端20之间通信的网络环境,以及不同的语音识别结果之间的置信度,在保证具有足够的上屏速度的前提下,可综合判断出具有足够可信度的一个第一识别结果或第二识别结果进行显示。
语音识别的处理方法包括:
在车辆10的车机端11发送测试包后,于预设超时时长内接收到反馈包的情况下,确定网络环境处于正常状态,反馈包为云端20对测试包的处理结果;
在车辆10的车机端11发送测试包后,于预设超时时长内未接收到反馈包的情况下,确定网络环境处于弱网状态;
在车辆10的车机端11和云端20的长连接断开的情况下,确定网络环境处于无网状态。
本发明的语音识别的处理方法可以通过本发明的车辆10来实现。具体地,请结合图3,处理器13用于:在车辆10的车机端11发送测试包后,于预设超时时长内接收到反馈包的情况下,确定网络环境处于正常状态,反馈包为云端20对测试包的处理结果;在车辆10的车机端11发送测试包后,于预设超时时长内未接收到反馈包的情况下,确定网络环境处于弱网状态;在车辆10的车机端11和云端20的长连接断开的情况下,确定网络环境处于无网状态。
如此,可方便确定车辆10的车机端11和云端20之间通信的网络状况。
具体地,由于车辆10的车机端11和云端20之间的通信为长距离通信(长连接),对通信的网络环境具有较高的需求。通过判断是否在预设超时时长内接收到反馈包,可简单确定车辆10的车机端11和云端20之间通信的网络状况,进而有利于实现对语音识别结果进行显示的显示策略。测试包可以为Ping包,反馈包可以为Pong包。
在前述内容的基础上,以用户的语音请求为“请帮我打开舒适驾享模式”为例,通过对语音请求的VAD处理,可流式得到多个中间结果,如“请帮我”、“请帮我打开”、“请帮我打开舒适”,从而可得到第一识别结果“请帮我打开舒适驾想模式”和第二识别结果“请帮我打开舒适驾享模式”,且第一识别结果的置信度为0.9,第二识别结果的置信度为1.0。然后,根据车辆10的车机端11和云端20之间通信的网络环境的状况,在网络环境处于正常状态的情况下,若接收云端20的语音识别结果未超时,则显示“请帮我打开舒适驾享模式”,若接收云端20的语音识别结果超时,则显示“请帮我打开舒适驾想模式”。在网络环境处于弱网状态的情况下,会先显示“请帮我打开舒适驾想模式”,若接收云端20的语音识别结果未超时,则会在接收到后刷新显示为“请帮我打开舒适驾享模式”,若接收云端20的语音识别结果超时,则显示“请帮我打开舒适驾想模式”。在网络环境处于无网状态的情况下,则直接显示“请帮我打开舒适驾想模式”。
请参考图2,本发明的一种语音识别的处理***30,包括车辆10和云端20。车辆10用于:获取待识别语音;语音识别待识别语音得到语音识别结果,语音识别结果包括第一识别结果和第二识别结果,第一识别结果为车辆10的车机端11对待识别语音识别到的最终结果,第二识别结果为云端20对待识别语音识别到的最终结果;根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个。云端20用于:接收车辆10发送的待识别语音;对待识别语音识别得到第二识别结果;向车辆10发送第二识别结果。
上述语音识别的处理***30,根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个,可充分发挥本地、云端20各自的语音识别优势,将云端20结果与本地结果进行融合流式上屏,提供流畅且准确的语音识别结果上屏展示效果。
具体地,请结合图2,在图2中,车辆10可通过车机端11来获取用户发出的语音请求,车机端11可以将处理后的语音请求(待识别语音)进行语音识别得到语音识别结果(中间结果和第一识别结果),以及可将待识别语音再发送给云端20。云端20可接收车机端11发送的待识别语音,并进行语音识别得到第二识别结果。第二识别结果被传输给处理器13,使得处理器13根据显示策略来确定显示第一识别结果和第二识别结果的其中一个。
本发明的一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序在被处理器13执行时,实现上述任意一项的语音识别的处理方法的步骤。
例如,在计算机程序被执行的情况下,可以实现以下步骤:
01:获取待识别语音;
02:语音识别待识别语音得到语音识别结果,语音识别结果包括第一识别结果和第二识别结果,第一识别结果为车辆10的车机端11对待识别语音识别到的最终结果,第二识别结果为云端20对待识别语音识别到的最终结果;
03:根据由网络环境和语音识别结果置信度构成的显示策略,显示第一识别结果和第二识别结果的其中一个。
计算机可读存储介质可设置在车辆10,也可设置在其他终端,车辆10能够与其他终端进行通信来获取到相应的程序。
可以理解,计算机可读存储介质可以包括:能够携带计算机程序的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储介质、只读存储介质(ROM,Read-OnlyMemory)、随机存取存储介质(RAM,Random Access Memory)、以及软件分发介质等。计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储介质、只读存储介质(ROM,Read-Only Memory)、随机存取存储介质(RAM,Random Access Memory)、以及软件分发介质。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理模块的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
尽管已经示出和描述了本发明,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对本发明进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种语音识别的处理方法,其特征在于,包括:
获取待识别语音;
识别所述待识别语音得到语音识别结果,所述语音识别结果包括第一识别结果和第二识别结果,所述第一识别结果为车辆的车机端对所述待识别语音识别到的最终结果,所述第二识别结果为云端对所述待识别语音识别到的最终结果;
根据由网络环境和语音识别结果置信度构成的显示策略,显示所述第一识别结果和所述第二识别结果的其中一个。
2.根据权利要求1所述的语音识别的处理方法,其特征在于,所述语音识别的处理方法包括:
获取原始语音,所述原始语音包括至少一个人声部分;
在当前检测到人声部分的情况下,对所述原始语音中从所述人声部分开始的部分进行音频截取得到多个音频包,所述多个音频包在下发后形成所述待识别语音;
在第一预设时长内未检测到所述人声部分的情况下,停止下发所述音频包。
3.根据权利要求2所述的语音识别的处理方法,其特征在于,所述语音识别的处理方法包括:
在对检测到的人声部分进行音频截取得到所述多个音频包的情况下,以未检测到所述人声部分后直至第二预设时长,停止下发所述音频包,所述第二预设时长小于所述第一预设时长。
4.根据权利要求2所述的语音识别的处理方法,其特征在于,获取待识别语音,包括:
逐帧获取所述多个音频包;
语音识别所述待识别语音得到语音识别结果,包括:
根据持续获取到的所述音频包,流式显示所述语音识别结果。
5.根据权利要求4所述的语音识别的处理方法,其特征在于,所述语音识别的处理方法包括:
在当前流式生成的是中间结果的情况下,显示所述第一识别结果,所述中间结果为对当前获取到的所有所述音频包生成的语音识别结果。
6.根据权利要求1所述的语音识别的处理方法,其特征在于,根据由网络环境和语音识别结果置信度构成的显示策略,显示所述第一识别结果和所述第二识别结果的其中一个,包括:
在所述网络环境处于正常状态的情况下,根据对所述第二识别结果的接收等待时长,以及所述第一识别结果和所述第二识别结果之间的置信度,显示所述第一识别结果或所述第二识别结果;
在所述网络环境处于弱网状态的情况下,优先显示所述第一识别结果,当在预设超时时长内接收到所述第二识别结果的时候,根据所述第一识别结果和所述第二识别结果之间的置信度,刷新显示所述第一识别结果或所述第二识别结果;
在所述网络环境处于无网状态的情况下,显示所述第一识别结果。
7.根据权利要求6所述的语音识别的处理方法,其特征在于,所述语音识别的处理方法包括:
在所述车辆的车机端发送测试包后,于所述预设超时时长内接收到反馈包的情况下,确定所述网络环境处于所述正常状态,所述反馈包为所述云端对所述测试包的处理结果;
在所述车辆的车机端发送所述测试包后,于所述预设超时时长内未接收到所述反馈包的情况下,确定所述网络环境处于所述弱网状态;
在所述车辆的车机端和所述云端的长连接断开的情况下,确定所述网络环境处于所述无网状态。
8.一种车辆,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-7任一项所述的语音识别的处理方法的步骤。
9.一种语音识别的处理***,其特征在于,包括车辆和云端,所述车辆用于:
获取待识别语音;
语音识别所述待识别语音得到语音识别结果,所述语音识别结果包括第一识别结果和第二识别结果,所述第一识别结果为所述车辆的车机端对所述待识别语音识别到的最终结果,所述第二识别结果为所述云端对所述待识别语音识别到的最终结果;
根据由网络环境和语音识别结果置信度构成的显示策略,显示所述第一识别结果和所述第二识别结果的其中一个;
所述云端用于:
接收所述车辆发送的所述待识别语音;
对所述待识别语音识别得到所述第二识别结果;
向所述车辆发送所述第二识别结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时,实现权利要求1-7任一项所述的语音识别的处理方法的步骤。
CN202211327016.4A 2022-10-27 2022-10-27 语音识别的处理方法及其处理***、车辆和可读存储介质 Pending CN115410578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211327016.4A CN115410578A (zh) 2022-10-27 2022-10-27 语音识别的处理方法及其处理***、车辆和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211327016.4A CN115410578A (zh) 2022-10-27 2022-10-27 语音识别的处理方法及其处理***、车辆和可读存储介质

Publications (1)

Publication Number Publication Date
CN115410578A true CN115410578A (zh) 2022-11-29

Family

ID=84167951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211327016.4A Pending CN115410578A (zh) 2022-10-27 2022-10-27 语音识别的处理方法及其处理***、车辆和可读存储介质

Country Status (1)

Country Link
CN (1) CN115410578A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
US20160365088A1 (en) * 2015-06-10 2016-12-15 Synapse.Ai Inc. Voice command response accuracy
CN106328148A (zh) * 2016-08-19 2017-01-11 上汽通用汽车有限公司 基于本地和云端混合识别的自然语音识别方法、装置和***
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与***
CN111833880A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 语音对话方法及***
CN112562673A (zh) * 2020-12-29 2021-03-26 苏州思必驰信息科技有限公司 语音识别方法及装置
CN114724564A (zh) * 2020-12-18 2022-07-08 阿里巴巴集团控股有限公司 语音处理方法、装置和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
US20160365088A1 (en) * 2015-06-10 2016-12-15 Synapse.Ai Inc. Voice command response accuracy
CN106328148A (zh) * 2016-08-19 2017-01-11 上汽通用汽车有限公司 基于本地和云端混合识别的自然语音识别方法、装置和***
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与***
CN111833880A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 语音对话方法及***
CN114724564A (zh) * 2020-12-18 2022-07-08 阿里巴巴集团控股有限公司 语音处理方法、装置和***
CN112562673A (zh) * 2020-12-29 2021-03-26 苏州思必驰信息科技有限公司 语音识别方法及装置

Similar Documents

Publication Publication Date Title
CN109669663B (zh) 音区幅值获取方法、装置、电子设备及存储介质
US11037560B2 (en) Method, apparatus and storage medium for wake up processing of application
CN103440867B (zh) 语音识别方法及***
CN109961792B (zh) 用于识别语音的方法和装置
CN107430855B (zh) 在支持语音的电子设备中对语音转文本模型的场境敏感动态更新
CN105139849A (zh) 语音识别方法和装置
CN109741753A (zh) 一种语音交互方法、装置、终端及服务器
US9858920B2 (en) Adaptation methods and systems for speech systems
CN112908297B (zh) 车载设备的响应速度测试方法、装置、设备及存储介质
CN109712610A (zh) 用于识别语音的方法和装置
JP2012256001A (ja) 移動体における音声認識装置および方法
CN109697981B (zh) 一种语音交互方法、装置、设备及存储介质
CN112309384B (zh) 一种语音识别方法、装置、电子设备及介质
CN115410578A (zh) 语音识别的处理方法及其处理***、车辆和可读存储介质
CN112863496B (zh) 一种语音端点检测方法以及装置
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN112069786A (zh) 文本信息处理方法、装置、电子设备及介质
CN111476615A (zh) 一种基于语音识别的产品需求确定方法
CN116343776A (zh) 语音识别方法、装置、***、设备、介质和程序产品
US11641592B1 (en) Device management using stored network metrics
CN114155845A (zh) 服务确定方法、装置、电子设备及存储介质
CN114242067A (zh) 语音识别方法、装置、设备和存储介质
CN115394304A (zh) 声纹判定方法、装置、***、设备和存储介质
CN113380229A (zh) 语音响应速度确定方法、相关装置及计算机程序产品
CN107195298B (zh) 根本原因分析以及校正***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221129