CN112637431A - 一种语音交互方法、装置以及计算机可读存储介质 - Google Patents

一种语音交互方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN112637431A
CN112637431A CN202011457154.5A CN202011457154A CN112637431A CN 112637431 A CN112637431 A CN 112637431A CN 202011457154 A CN202011457154 A CN 202011457154A CN 112637431 A CN112637431 A CN 112637431A
Authority
CN
China
Prior art keywords
voice
module
mode
tts
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011457154.5A
Other languages
English (en)
Inventor
陈晓宇
杨超
张彬彬
李倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Suzhou Information Technology Co ltd
Original Assignee
Go Out And Ask Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Suzhou Information Technology Co ltd filed Critical Go Out And Ask Suzhou Information Technology Co ltd
Priority to CN202011457154.5A priority Critical patent/CN112637431A/zh
Publication of CN112637431A publication Critical patent/CN112637431A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音交互方法、装置以及计算机可读存储介质,方法包括:接收IVR客户端所发送的第一请求指令,以调用TTS模块和ASR模块;根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;若判定为第一模式,则根据语音识别信息并在语音播报结束后反馈响应结果;若判定为第二模式,则根据语音识别信息并在语音播报未结束时反馈响应结果,并停止语音播报。实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。

Description

一种语音交互方法、装置以及计算机可读存储介质
技术领域
本发明涉及智能交互领域,尤其涉及一种语音交互方法、装置以及计算机可读存储介质。
背景技术
在智能电话***中,包括IVR(Interactive Voice Response,互动式语音应答)客户端和MRCP(Media Resource Control Protocol,媒体资源控制协议)服务器。
IVR客户端在进行TTS播报的过程中,支持两种模式,第一种是IVR客户端未开启打断状态,此时***不监听用户侧的讲话,直到TTS(从文本到语音,Text To Speech)播报完成才进行ASR(Automatic Speech Recognition,自动语音识别技术)的监听;第二种是IVR客户端开启打断状态,此时***在TTS播报的同时调用ASR以监听用户的讲话,如果接收到用户的语音,则触发打断,停止TTS的播放。
可见,现有方案只能在IVR端单方面控制打断功能,并且在第二种模式中一旦监听到用户的讲话就打断TTS的播放,整体不够灵活,用户体验感不佳。
发明内容
本发明实施例提供了一种语音交互方法、装置以及计算机可读存储介质,具有可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,以提升双方之间的沟通效率以及用户体验感的技术效果。
本发明一方面提供一种语音交互方法,应用于媒体资源控制协议MRCP服务器,所述方法包括:接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;若判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;若判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
在一可实施方式中,所述语音播报是否结束的判断方式为:调用所述TTS模块获取对应于所述当前回复文本的语音播报时长;获取所述ASR模块识别开始时的起始时间戳;根据所述起始时间戳和语音播报时长,计算得到所述TTS模块结束时的终止时间戳;根据所述终止时间戳,判断所述TTS模块是否语音播报结束。
在一可实施方式中,所述ASR模块配置有预设识别时长;相应的,所述ASR模块在对所述用户进行语音识别的过程中,所述方法还包括:
若在语音播报过程中所述预设识别时长少于所述语音播报时长且判定所述语音识别信息为表征无意义的语音信息,则在所述ASR模块语音识别结束时,重新调用所述ASR模块对所述用户进行语音识别。
在一可实施方式中,所述方法还包括:将所述ASR模块所识别得到的语音信息按识别顺序进行拼接,在所述TTS模块语音播报结束后对拼接语音反馈响应结果。
本发明另一方面提供一种语音交互方法,应用于互动式语音应答IVR客户端,所述方法包括:向媒体资源控制协议MRCP服务器发送第二请求指令,以通过所述MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;指示所述MRCP服务器根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;若所述MRCP服务器判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;若所述MRCP服务器判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
在一可实施方式中,所述语音播报是否结束的判断方式为:调用所述TTS模块获取对应于所述当前回复文本的语音播报时长;获取所述ASR模块识别开始时的起始时间戳;根据所述起始时间戳和语音播报时长,计算得到所述TTS模块结束时的终止时间戳;根据所述终止时间戳,判断所述TTS模块是否语音播报结束。
本发明另一方面提供一种语音交互装置,应用于媒体资源控制协议MRCP服务器,所述装置包括:指令接收模块,用于接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;模式确定模块,用于根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;第一反馈模块,用于若判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;第二反馈模块,用于若判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
本发明另一方面提供一种语音交互装置,应用于互动式语音应答IVR客户端,所述装置包括:指令发送模块,用于向媒体资源控制协议MRCP服务器发送第二请求指令,以通过所述MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;模式确认模块,用于指示所述MRCP服务器根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;第一反馈模块,用于若所述MRCP服务器判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;第二反馈模块,用于若所述MRCP服务器判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的语音交互方法。
在本发明实施例中,本方案实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种应用于MRCP服务器的语音交互方法的实现流程示意图;
图2为本发明实施例一种应用于IVR客户端的语音交互方法的实现流程示意图;
图3为本发明实施例一种应用于MRCP服务器的语音交互装置的结构组成示意图;
图4为本发明实施例一种应用于IVR客户端的语音交互装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种应用于MRCP服务器的语音交互方法的实现流程示意图。
参考图1所示,本发明一方面提供一种语音交互方法,应用于媒体资源控制协议MRCP服务器,方法包括:
步骤101,接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,TTS模块用于对当前回复文本向用户进行语音播报,ASR模块用于在TTS模块语音播报的同时对用户进行语音识别;
步骤102,根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
步骤103,若判定当前运作模式为第一模式,则根据语音识别信息并在TTS模块语音播报结束后反馈响应结果;
步骤104,若判定当前运作模式为第二模式,则根据语音识别信息并在TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
本实施例中,在步骤101中,第一请求指令具体为IVR客户端通过MRCP协议发送到MRCP服务器,以调用MRCP服务器中的TTS模块和ASR模块,其中ASR模块用于在TTS模块语音播报的同时对用户进行语音识别,即表明IVR客户端此时处于开启打断状态。当前回复文本为***根据用户的前一轮对话信息所作出的回复信息。用户可以是人类,也可以是具有语音功能的终端或者机器人。
在步骤102中,MRCP服务器包含两种模式,第一种为处于非打断状态的第一模式,第二种为处于打断状态的第二模式。运行模式的具体确定方式包括多种:
第一种,可以是判断当前回复文本是否支持打断,具体的,可以通过训练好的自然语言理解模型进行识别,输出得到表征判断当前回复文本是否支持打断的结果,其中自然语言理解模型的输入为文本信息,输出为是否支持打断的结果。实际中,通常常用短语例如“请您输入您的手机号码”为不支持打断,其他语句则支持打断。
第二种,可以是判断语音识别信息是否支持打断,具体可以通过字段检索或者语句长短来判断,例如语音识别信息为“啊”、“嗯”或者其他无意义(如噪声、背景声)的语句,则定位为不支持打断类型,其他语句则支持打断。
第三种,可以是判断用户预设配置是否支持打断,其中用户可在交互之前将包含有确定运行模式的用户预设配置发送至MRCP服务器,MRCP服务器通过解析用户预设配置确定当前运行模式。
在步骤103中,在MRCP服务器处于第一模式时,即表明MRCP服务器不对正在进行的语音播报进行打断操作,但仍然对用户进行语音识别,那么若ASR模块在语音播报过程中识别到了用户的语音识别信息,将语音识别信息发送给MRCP服务器,MRCP服务器在接收到语音识别信息之后不对其进行处理,或者对其进行处理但不反馈Start-Of-Input或Recognition-Complete,以实现不打断TTS模块当前语音播报。其中Start-Of-Input表示MRCP服务器已经收到了语音输入,Recognition-Complete表示语音识别信息已经处理完成。当TTS模块播报结束之后,MRCP服务器开始处理语音识别信息或者反馈Start-Of-Input或Recognition-Complete。
在MRCP服务器处于第二模式时,即表明MRCP服务器将对正在进行的语音播报进行打断操作,那么若ASR模块在语音播报过程中识别到了用户的语音识别信息,将语音识别信息发送给MRCP服务器,MRCP服务器在接收到语音识别信息之后立即处理并反馈Start-Of-Input或Recognition-Complete,以打断TTS模块的当前语音播报。
由此,本方案实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。
在一可实施方式中,语音播报是否结束的判断方式为:
调用TTS模块获取对应于当前回复文本的语音播报时长;
获取ASR模块识别开始时的起始时间戳;
根据起始时间戳和语音播报时长,计算得到TTS模块结束时的终止时间戳;
根据终止时间戳,判断TTS模块是否语音播报结束。
本实施例中,语音播报是否结束的判断方式具体为:
借助TTS模块在将文本转换为语音时,可一并获取得到对应于当前回复文本的语音播报时长,因本方案中TTS模块语音播报时刻与ASR模块语音识别时刻同时开始,那么ASR模块识别开始时的起始时间戳加上语音播报时长,即可得到TTS模块结束时的终止时间戳,若当前时间位于终止时间戳之前,则表明语音播报未结束,反之,若当前时间位于终止时间戳之后,则表明语音播报结束。
在一可实施方式中,ASR模块配置有预设识别时长;
相应的,ASR模块在对用户进行语音识别的过程中,方法还包括:
若在语音播报过程中预设识别时长少于语音播报时长且判定语音识别信息为表征无意义的语音信息,则在ASR模块语音识别结束时,重新调用ASR模块对用户进行语音识别。
本实施例中,具体应用中,ASR模块的预设识别时长,即MRCP服务器设置的NO-INPUT-TIMEOUT,其时长并不与语音播报时长一致,往往是预设识别时长短于语音播报时长,那么在语音播报过程中若在ASR模块语音识别结束并且判定语音识别信息为表征无意义的语音信息时,那么MRCP服务器将暂不做响应,重新调用ASR模块继续对用户进行语音识别。其中无意义的语音包括没有声音、背景音、噪音以及类似“啊”、“嗯”等短促音。
在一可实施方式中,方法还包括:将ASR模块所识别得到的语音信息按识别顺序进行拼接,在TTS模块语音播报结束后对拼接语音反馈响应结果。
本实施例中,当TTS模块语音播报结束后,将所识别得到的语音信息按照识别时间顺序进行拼接并发送给MRCP服务器,MRCP服务器对拼接后的语音信息进行处理并反馈。
图2为本发明实施例一种应用于IVR客户端的语音交互方法的实现流程示意图;
参考图2所示,本发明实施例另一方面提供一种语音交互方法,应用于互动式语音应答IVR客户端,方法包括:
步骤201,向媒体资源控制协议MRCP服务器发送第二请求指令,以通过MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,TTS模块用于对当前回复文本向用户进行语音播报,ASR模块用于在TTS模块语音播报的同时对用户进行语音识别;
步骤202,指示MRCP服务器根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
步骤203,若MRCP服务器判定当前运作模式为第一模式,则根据语音识别信息并在TTS模块语音播报结束后反馈响应结果;
步骤204,若MRCP服务器判定当前运作模式为第二模式,则根据语音识别信息并在TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
本实施例中,本方案以IVR客户端的角度来描述,文中第二请求指令与上述第一请求指令功能相同,步骤201~步骤204的详尽过程已经在步骤101~步骤104中阐述,此处不再重复赘述。
在一可实施方式中,语音播报是否结束的判断方式为:
调用TTS模块获取对应于当前回复文本的语音播报时长;
获取ASR模块识别开始时的起始时间戳;
根据起始时间戳和语音播报时长,计算得到TTS模块结束时的终止时间戳;
根据终止时间戳,判断TTS模块是否语音播报结束。
本实施例中,借助TTS模块在将文本转换为语音时,可一并获取得到对应于当前回复文本的语音播报时长,因本方案中TTS模块语音播报时刻与ASR模块语音识别时刻同时开始,那么ASR模块识别开始时的起始时间戳加上语音播报时长,即可得到TTS模块结束时的终止时间戳,若当前时间位于终止时间戳之前,则表明语音播报未结束,反之,若当前时间位于终止时间戳之后,则表明语音播报结束。
图3为本发明实施例一种应用于MRCP服务器的语音交互装置的结构组成示意图;
参考图3所示,本发明实施例另一方面提供一种语音交互装置,应用于媒体资源控制协议MRCP服务器,装置包括:
指令接收模块301,用于接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,TTS模块用于对当前回复文本向用户进行语音播报,ASR模块用于在TTS模块语音播报的同时对用户进行语音识别;
模式确定模块302,用于根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
第一反馈模块303,用于若判定当前运作模式为第一模式,则根据语音识别信息并在TTS模块语音播报结束后反馈响应结果;
第二反馈模块304,用于若判定当前运作模式为第二模式,则根据语音识别信息并在TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
由此,本方案实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。
图4为本发明实施例一种应用于IVR客户端的语音交互装置的结构组成示意图;
参考图4所示,本发明实施例另一方面提供一种语音交互装置,应用于互动式语音应答IVR客户端,装置包括:
指令发送模块401,用于向媒体资源控制协议MRCP服务器发送第二请求指令,以通过MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,TTS模块用于对当前回复文本向用户进行语音播报,ASR模块用于在TTS模块语音播报的同时对用户进行语音识别;
模式确认模块402,用于指示MRCP服务器根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
第一反馈模块403,用于若MRCP服务器判定当前运作模式为第一模式,则根据语音识别信息并在TTS模块语音播报结束后反馈响应结果;
第二反馈模块404,用于若MRCP服务器判定当前运作模式为第二模式,则根据语音识别信息并在TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
由此,本方案实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项应用于MRCP服务器的语音交互方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,TTS模块用于对当前回复文本向用户进行语音播报,ASR模块用于在TTS模块语音播报的同时对用户进行语音识别;根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;若判定当前运作模式为第一模式,则根据语音识别信息并在TTS模块语音播报结束后反馈响应结果;若判定当前运作模式为第二模式,则根据语音识别信息并在TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
由此,本方案实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项应用于IVR客户端的语音交互方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于向媒体资源控制协议MRCP服务器发送第二请求指令,以通过MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,TTS模块用于对当前回复文本向用户进行语音播报,ASR模块用于在TTS模块语音播报的同时对用户进行语音识别;指示MRCP服务器根据当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;若MRCP服务器判定当前运作模式为第一模式,则根据语音识别信息并在TTS模块语音播报结束后反馈响应结果;若MRCP服务器判定当前运作模式为第二模式,则根据语音识别信息并在TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
由此,本方案实现了可在MRCP服务器设置打断功能,并可根据实际需求通过当前回复文本、语音识别信息或者用户预设配置来灵活地确定当前语音播报是否可打断,可提升双方之间的沟通效率,同时显得对话更加智能化,提升用户体验感。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音交互方法,应用于媒体资源控制协议MRCP服务器,其特征在于,所述方法包括:
接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;
根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
若判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;
若判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
2.根据权利要求1所述的方法,其特征在于,所述语音播报是否结束的判断方式为:
调用所述TTS模块获取对应于所述当前回复文本的语音播报时长;
获取所述ASR模块识别开始时的起始时间戳;
根据所述起始时间戳和语音播报时长,计算得到所述TTS模块结束时的终止时间戳;
根据所述终止时间戳,判断所述TTS模块是否语音播报结束。
3.根据权利要求2所述的方法,其特征在于,所述ASR模块配置有预设识别时长;
相应的,所述ASR模块在对所述用户进行语音识别的过程中,所述方法还包括:
若在语音播报过程中所述预设识别时长少于所述语音播报时长且判定所述语音识别信息为表征无意义的语音信息,则在所述ASR模块语音识别结束时,重新调用所述ASR模块对所述用户进行语音识别。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述ASR模块所识别得到的语音信息按识别顺序进行拼接,在所述TTS模块语音播报结束后对拼接语音反馈响应结果。
5.一种语音交互方法,应用于互动式语音应答IVR客户端,其特征在于,所述方法包括:
向媒体资源控制协议MRCP服务器发送第二请求指令,以通过所述MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;
指示所述MRCP服务器根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
若所述MRCP服务器判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;
若所述MRCP服务器判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
6.根据权利要求5所述的方法,其特征在于,所述语音播报是否结束的判断方式为:
调用所述TTS模块获取对应于所述当前回复文本的语音播报时长;
获取所述ASR模块识别开始时的起始时间戳;
根据所述起始时间戳和语音播报时长,计算得到所述TTS模块结束时的终止时间戳;
根据所述终止时间戳,判断所述TTS模块是否语音播报结束。
7.一种语音交互装置,应用于媒体资源控制协议MRCP服务器,其特征在于,所述装置包括:
指令接收模块,用于接收互动式语音应答IVR客户端所发送的第一请求指令,以调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;
模式确定模块,用于根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
第一反馈模块,用于若判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;
第二反馈模块,用于若判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
8.一种语音交互装置,应用于互动式语音应答IVR客户端,其特征在于,所述装置包括:
指令发送模块,用于向媒体资源控制协议MRCP服务器发送第二请求指令,以通过所述MRCP服务器调用文字转语音TTS模块和自动语音识别技术ASR模块;其中,所述TTS模块用于对当前回复文本向用户进行语音播报,所述ASR模块用于在所述TTS模块语音播报的同时对所述用户进行语音识别;
模式确认模块,用于指示所述MRCP服务器根据所述当前回复文本、语音识别信息或者用户预设配置,确定当前运行模式为表征处于非打断状态的第一模式或者表征处于打断状态的第二模式;
第一反馈模块,用于若所述MRCP服务器判定当前运作模式为所述第一模式,则根据语音识别信息并在所述TTS模块语音播报结束后反馈响应结果;
第二反馈模块,用于若所述MRCP服务器判定当前运作模式为所述第二模式,则根据语音识别信息并在所述TTS模块语音播报未结束时反馈响应结果,并停止语音播报。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-4任一项所述的语音交互方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求5-6任一项所述的语音交互方法。
CN202011457154.5A 2020-12-10 2020-12-10 一种语音交互方法、装置以及计算机可读存储介质 Pending CN112637431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011457154.5A CN112637431A (zh) 2020-12-10 2020-12-10 一种语音交互方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011457154.5A CN112637431A (zh) 2020-12-10 2020-12-10 一种语音交互方法、装置以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112637431A true CN112637431A (zh) 2021-04-09

Family

ID=75310139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011457154.5A Pending CN112637431A (zh) 2020-12-10 2020-12-10 一种语音交互方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112637431A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160817A (zh) * 2021-04-22 2021-07-23 平安科技(深圳)有限公司 基于意图识别的语音交互方法及***
CN114863929A (zh) * 2022-07-11 2022-08-05 深圳市人马互动科技有限公司 语音交互方法、装置、***、计算机设备和存储介质
CN115390467A (zh) * 2022-07-29 2022-11-25 青岛海尔科技有限公司 语音交互的方法和装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107342085A (zh) * 2017-07-24 2017-11-10 深圳云知声信息技术有限公司 语音处理方法及装置
CN111629110A (zh) * 2020-06-11 2020-09-04 中国建设银行股份有限公司 一种语音交互方法和语音交互***
CN112037799A (zh) * 2020-11-04 2020-12-04 深圳追一科技有限公司 语音中断处理方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107342085A (zh) * 2017-07-24 2017-11-10 深圳云知声信息技术有限公司 语音处理方法及装置
CN111629110A (zh) * 2020-06-11 2020-09-04 中国建设银行股份有限公司 一种语音交互方法和语音交互***
CN112037799A (zh) * 2020-11-04 2020-12-04 深圳追一科技有限公司 语音中断处理方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160817A (zh) * 2021-04-22 2021-07-23 平安科技(深圳)有限公司 基于意图识别的语音交互方法及***
CN114863929A (zh) * 2022-07-11 2022-08-05 深圳市人马互动科技有限公司 语音交互方法、装置、***、计算机设备和存储介质
CN114863929B (zh) * 2022-07-11 2022-10-21 深圳市人马互动科技有限公司 语音交互方法、装置、***、计算机设备和存储介质
CN115390467A (zh) * 2022-07-29 2022-11-25 青岛海尔科技有限公司 语音交互的方法和装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN112637431A (zh) 一种语音交互方法、装置以及计算机可读存储介质
CN110557451B (zh) 对话交互处理方法、装置、电子设备和存储介质
US10055190B2 (en) Attribute-based audio channel arbitration
US10277740B2 (en) Live person detection in an automated calling system
US6724864B1 (en) Active prompts
KR102345616B1 (ko) 보류 상태를 관리하기 위한 방법 및 장치
CN112866488A (zh) 视频彩铃的播放方法和服务器、终端
US11978443B2 (en) Conversation assistance device, conversation assistance method, and program
CN102196104A (zh) 交互式语音应答***中数据与语音融合的方法及***
CN111885341A (zh) 视频通话过程语音采集方法、装置、计算机设备及介质
CN111212254A (zh) 一种终端切换方法、装置、终端设备和存储介质
CN111629110A (zh) 一种语音交互方法和语音交互***
CN101923856A (zh) 语音识别训练处理、控制方法及装置
CN111292749A (zh) 智能语音平台的会话控制方法及装置
EP2335240B1 (en) Voice dialog system with reject avoidance process
CN114420130A (zh) 电话语音交互方法、装置、设备及存储介质
CN115150499A (zh) 一种通话后自动记录后续安排的方法、装置及用户终端
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及***
CN115148205A (zh) 一种语音交互方法、***、电子设备及存储介质
CN111726461A (zh) 电话对话方法、装置、设备和计算机可读存储介质
JP2018160798A (ja) 通信装置、通信方法、および、通信プログラム
KR102625730B1 (ko) 통화연결음 분석 기반 전화 발신 방법 및 장치
CN113611313A (zh) 语音处理方法、装置、设备、存储介质及程序
CN112489642A (zh) 控制语音机器人响应的方法、装置、设备和存储介质
CN110502368B (zh) 一种对话容错方法、中控设备、***以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210409

RJ01 Rejection of invention patent application after publication