CN113936655A - 语音播报处理方法、装置、计算机设备和存储介质 - Google Patents
语音播报处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113936655A CN113936655A CN202111115957.7A CN202111115957A CN113936655A CN 113936655 A CN113936655 A CN 113936655A CN 202111115957 A CN202111115957 A CN 202111115957A CN 113936655 A CN113936655 A CN 113936655A
- Authority
- CN
- China
- Prior art keywords
- intention
- voice
- processing logic
- standard
- logic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 109
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及一种语音播报处理方法、装置、计算机设备和存储介质。所述方法包括:在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;对所述语音信息进行意图识别得到意图识别结果;获取与所述意图识别结果对应的处理逻辑;执行所述处理逻辑。采用本方法能够避免误打断。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种语音播报处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了智能客服服务。其中在智能客服存在播报打断的场景,在该场景下目前存在以下几种解决方案:
第一种是基于半双工的语音交互方案,该方案中用户与***的交互过程处于整个流程最后阶段,即语音播报结束之后才能进入用户交互轮次,如用户需要打断播报中止本次流程,提前进入用户轮次,需要手动操作按键,***接收到用户按键操作后立即做打断处理。
第二种是检测用户侧声音触发打断的方案,该方案能够支持语音播报的时候同时接收用户侧的语音输入,具备播报打断能力,其原理一般为通过用户侧的语音信号的特征,用能量、过零率、熵(entropy)、高音(pitch)等参数以及他们的衍生参数来判断是否为语音信号,即端点检测VAD(Voice Activity Detector)技术,当信号流检测到语音信号后由***触发打断,即当检测到用户侧发出声音即打断播报。
第三种是基于用户侧语音流字数阈值触发打断的方案,该方案在用户与语音机器人进行交互流程中语音机器人在输出语音的同时检测用户发出的呼入语音流,并对呼入的语音流进行检测,统计语音流中文字的个数,如语音流个数超过预设文字阈值则执行打断语音操作。
然而,基于半双工的语音交互方案不符合用户对语音智能客服的认知,只能通过按键方式打断语音播报不能真正反映用户意图,用户期望能够像与人工客服一样,通过语音表达打断意愿。检测用户侧声音触发打断的方案无法区分复杂的语音场景。基于用户侧语音流字数阈值触发打断的方案尽管在用户侧对用户输出语音进行了识别,但仅统计了识别出的文字个数,当用户侧输出较多无意义的语句或者其他噪声干扰导致识别到的文字个数超过阈值依然会打断当前对话流程,因此该方案误触打断的几率依然较大。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高打断处理准确性的语音播报处理方法、装置、计算机设备和存储介质。
一种语音播报处理方法,所述方法包括:
在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;
对所述语音信息进行意图识别得到意图识别结果;
获取与所述意图识别结果对应的处理逻辑;
执行所述处理逻辑。
在其中一个实施例中,所述对所述语音信息进行意图识别得到意图识别结果,包括:
提取所述语音信息对应的语义特征;
将所述语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;
统计所述相似度满足要求的预设数量的标准特征对应的意图分类作为所述语音信息对应的意图识别结果。
在其中一个实施例中,所述将所述语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:
接收意图配置指令,所述意图配置指令携带有标准文本以与所述标准文本对应的意图名称;
根据所述标准文本以与所述标准文本对应的意图名称进行意图配置得到标准意图,并根据所述标准文本生成标准特征。
在其中一个实施例中,所述接收意图配置指令之前,还包括:
接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;
通过所述意图配置界面接收意图配置指令。
在其中一个实施例中,所述获取与所述意图识别结果对应的处理逻辑之前,还包括:
接收会话逻辑配置指令;
根据所述会话逻辑配置指令配置得到会话逻辑,所述会话逻辑包括正常处理逻辑以及所述标准意图对应的参考处理逻辑。
在其中一个实施例中,所述参考处理逻辑包括打断处理逻辑以及与所述打断处理逻辑对应的话术;所述执行所述处理逻辑,包括:
打断所述语音机器人的当前语音播报,并继续播报与所述打断处理逻辑对应的话术。
在其中一个实施例中,所述参考处理逻辑包括非打断处理逻辑;所述执行所述处理逻辑,包括:
继续所述语音机器人的当前语音播报。
一种语音播报处理装置,所述装置包括:
采集模块,用于在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;
识别模块,用于对所述语音信息进行意图识别得到意图识别结果;
逻辑获取模块,用于获取与所述意图识别结果对应的处理逻辑;
执行模块,用于执行所述处理逻辑。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述语音播报处理方法、装置、计算机设备和存储介质,在语音机器人与用户终端通话的过程中,采集用户终端的语音信息,并对语音信息进行识别以得到意图识别结果,从而可以查询与意图识别结果对应的处理逻辑,按照该处理逻辑对语义播报进行处理,避免误打断。
附图说明
图1为一个实施例中语音播报处理方法的应用环境图;
图2为一个实施例中语音播报处理方法的流程示意图;
图3为一个实施例中完整对话流程框架的示意图;
图4为一个实施例中语义级无打断意向配置的界面图;
图5为一个实施例中的打断意向配置的界面图;
图6为一个实施例中的会话逻辑配置的界面图;
图7为一个实施例中的语音信息处理流程的打断逻辑的流程图;
图8为一个实施例中的语音信息处理流程的原理图;
图9为一个实施例中语音播报处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音播报处理方法,可以应用于如图1所示的应用环境中。其中,用户终端102通过网络与呼叫中心104进行通信,呼叫中心104在语音机器人与用户终端102通话的过程中,采集用户终端的语音信息,对语音信息进行意图识别得到意图识别结果;获取与意图识别结果对应的处理逻辑;执行处理逻辑。从而可以避免误打断。其中,用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,呼叫中心104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种语音播报处理方法,以该方法应用于图1中的呼叫中心104为例进行说明,包括以下步骤:
S202:在语音机器人与用户终端通话的过程中,采集用户终端的语音信息。
具体地,呼叫中心可以采用全双工的交互方式,这样在语音机器人播报语音的同时,可以实时接收用户终端上传的语音信息。
其中该语音信息可以是用户发出的一些语气词或者是用户针对语音机器人所播放的语音给出的一些回复等。
其中语音机器人与用户终端通话是指语音机器人按照预定的话术向接通后的用户终端播放语音的过程,在该过程中用户存在一些疑问或者是不希望继续播报,则用户说话,用户终端采集用户所说的话即语音信息,并将该语音信息发送至呼叫中心。
S204:对语音信息进行意图识别得到意图识别结果。
具体地,意图识别是指对呼叫中心所接收到的语音信息进行文本识别以及意图判定,其中呼叫中心可以将所接收到的语音信息以音频流的方式传输至语音信息处理模块,例如通过MRCP(媒体资源控制协议)将音频流传输至ASR模块(Automatic SpeechRecognition),以对语音信息进行识别得到语音文本,再将语音文本与预先配置的意图进行匹配以得到意图识别结果。
S206:获取与意图识别结果对应的处理逻辑。
具体地,处理逻辑是预先配置的完整对话流程框架,其中呼叫中心可以预先根据对话来进行配置得到完整对话流程框架,该对话流程框架中包括了正常语音机器人的播放话术流程,以及在每个话术流程中所增加的新的意图以及该意图对应的处理流程,以图3中所示的完整对话流程框架为例进行说明,在开场白之后,后续存在等待2,并且在等待2之后存在多个处理分支,例如号码错误,其中在该实施例中,在语音机器人播报了开场白之后,呼叫中心可以接收到用户终端侧采集的语音信息,并进行意图识别得到了号码错误的意图,此时直接查询号码错误的意图对应的处理逻辑,即可打断,则呼叫中心根据号码错误的处理逻辑打断语音机器人当前的语音播报,并获取与号码错误对应的话术,从而播报新的话术。
S208:执行处理逻辑。
具体地,此处的执行处理逻辑是执行与意图识别结果对应的处理逻辑,包括在意图识别结果是可打断的时候,则直接获取可打断对应的话术,从而播报新的话术,若是不可打断,则语音机器人继续当前的语音播报。
其中需要说明的是,本实施例中呼叫中心在获取到意图识别结果后,确定该意图识别结果为打断意图时,则呼叫中心生成一个打断标识,该打断标识触发呼叫中心一方面打断语音机器人当前所播报的语音,另一方面获取与打断意图对应的答复话术,即获取与意图识别结果对应的处理逻辑,并执行该处理逻辑。若是为非打断意图时,则直接获取与意图识别结果对应的处理逻辑,并执行该处理逻辑。
上述语音播报处理方法,在语音机器人与用户终端通话的过程中,采集用户终端的语音信息,并对语音信息进行识别以得到意图识别结果,从而可以查询与意图识别结果对应的处理逻辑,按照该处理逻辑对语音播报进行处理,避免误打断。
在其中一个实施例中,对语音信息进行意图识别得到意图识别结果,包括:提取语音信息对应的语义特征;将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
其中,为了能正确理解用户终端语音输入的含义并准确命中不同意图配置,流程框架采用了KNN算法来解决对话时出现语义理解分类的问题。
具体地,呼叫中心通过语音模块提取语音信息对应的语义特征,以是得语音信息与标准意图对应的标准特征处于同一特征空间,从而选取相似度满足要求的预设数量的标准特征,并统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
具体地,如果一个语音特征在特征空间中的k个最近似(即特征空间中最近邻)的标准特征中的大多数属于某一个类别,则该语音特征也属于这个类别,其中k通常时不大于20的整数。算法步骤如下:
根据欧氏距离度量方法在标准特征集T中找出与x最相近的k个标准特征,并将这k个标准特惠总能表示的集合记为N_k(x),欧氏距离如(1)式所示。
根据如下所示的多数投票的原则确定实例x所属类别y:
式(2)中I为指示函数:
上述实施例中,给出了意图识别结果的识别方法。
在其中一个实施例中,将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
在其中一个实施例中,接收意图配置指令之前,还包括:接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;通过意图配置界面接收意图配置指令。
具体地,本实施例中主要介绍意图配置的方法,其中在语音播报过程中当用户终端有语音流输入时需要提前确定用户哪些表达应该进行打断处理,并进行相应的意图配置,根据语义识别内容匹配相应意图并触发相关操作。
在本实施例中,意图配置主要包括语义级无打断意向配置和打断意图配置。
结合图4所示,图4为一个实施例中语义级无打断意向配置的界面图,在该实施例中,在智能语音客服在播报当前话术时,若检测到用户终端有语音流输入并经过ASR语义识别后结果若为“我知道”、“是的”、“行”等词汇时,这些词虽为用户主动说出,但为语气词或并没有具体含义,根据日常对话逻辑不应做打断。
据此,如4所示,在***的意图列表里设立“水词”、“语气词”等语义级无打断意向的意图配置,其中“水词”是指没有特定含义的词汇,如“好”、“是的”等;“语气词”指的是删掉不产生歧义的语气助词,如“哦哦”、“额”等词汇。因此根据配置的意图信息,***触发到该意图,不会打断本次播报,反之会跳回当前话术播报直至下一次用户侧语音流输入。
结合图5所示,图5为一个实施例中的打断意向配置的界面图。在该实施例中,当***识别到用户终端的语音流,并经过语义识别后表达出已参与过相关业务的信息或其他会触发打断意图的信息后执行打断操作,结束本次播报流程,进入下一话术节点,即进入与打断处理对应的下一话术节点。
上述实施例中,给出了两种类型的意图配置方式。
在其中一个实施例中,获取与意图识别结果对应的处理逻辑之前,还包括:接收会话逻辑配置指令;根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
具体地,结合图6所示,图6为一个实施例中的会话逻辑配置的界面图,在该实施例中,呼叫中心预先配置整个会话逻辑,在其他实施例中可以通过其他的服务器来配置整个会话逻辑,并与呼叫中心进行交互。呼叫发起前需要对整个会话逻辑进行配置,呼叫过程中当语义识别模块902识别到了不打断意图或打断意图时,其他服务器会向呼叫中心返回特殊打断事件以及对应流程的回复。
结合图6所示,其中用户可以对会话逻辑进行预先配置,例如对于简介1.2可打断节点,可以配置对应的打断后的会话话术,如图6中跳回话术文本“中银理财惠享天天增益版,我给您介绍下吧”,并基于跳回话说继续后续的语音信息采集,并进行意图识别,重复上述过程,直至整个会话结束。
在其中一个实施例中,参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;执行处理逻辑,包括:打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
在其中一个实施例中,参考处理逻辑包括非打断处理逻辑;执行处理逻辑,包括:继续语音机器人的当前语音播报。
结合图3,整个话术执行顺序为自上而下、自左向右的原则执行,从开场白节点开始,当播报完对应的开场白后进入等待用户侧语音流输入,若用户终端语音流经过语义识别结果确认为本人接听,则进入下一节点话术,即简单介绍相关业务,完成当前话术播报后,根据用户语音语义识别结果决定进入哪个下一节点话术。
若在语音机器人播报开场白过程中检测到用户侧有语音流输入,并且经过ASR语义识别后结果为“嗯嗯”、“好”等不可断意图后,对话流程框架会进行节点跳回操作,即跳回到原来的语音播报环节,继续开场白的播报,直至开场白播报完成。同时等待用户侧语音流入。
具体地,为了使得本领域技术人员充分理解本申请,请参见图7和图8所示,其中图7为一个实施例中的语音信息处理流程的打断逻辑的流程图,图8为一个实施例中的语音信息处理流程的原理图。
在该实施例中,呼叫中心需要采用全双工的交互方式,在语音机器人播报TTS(由文本合成语音)的同时,实时接收用户侧的音频流,MRCP将音频流传给ASR(AutomaticSpeech Recognition)识别为文本结果。
呼叫中心在将ASR识别的结果传给对话流程框架的同时,还会带来一个标识,该标识记录了客户说的话有没有对机器人播报的话术进行打断,对话流程框架在拿到标识后会做出判断,如果客户表达的意图符合语义打断逻辑,则返回相应的机器人话术;若客户所表达意图不符合预期,则返回呼叫中心一个空值,呼叫中心拿到空值则默认继续播报当前TTS话术,不做打断。
结合图8,当语音机器人在播报TTS时,则呼叫中心接受到用户终端的音频流,并将音频流进行ASR语音识别,将识别结果反馈给呼叫中心,呼叫中心首先通过语义识别部分识别是否命中打断业务意图,若是,命中,则对话流程框架返回特殊的打断事件和相应的答复话术,根据上一步打断意图类型,确定是否停止播放上一段TTS,或播报答复话术。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种语音播报处理装置,包括:采集模块901、识别模块902、逻辑获取模块903和执行模块904,其中:
采集模块901,用于在语音机器人与用户终端通话的过程中,采集用户终端的语音信息;
识别模块902,用于对语音信息进行意图识别得到意图识别结果;
逻辑获取模块903,用于获取与意图识别结果对应的处理逻辑;
执行模块904,用于执行处理逻辑。
在其中一个实施例中,上述识别模块902包括:
提取单元,用于提取语音信息对应的语义特征;
匹配单元,用于将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;
输出单元,用于统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
在其中一个实施例中,上述识别模块902还包括:
第一接收单元,用于接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;
配置单元,用于根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
在其中一个实施例中,上述识别模块902还包括:
第二接收单元,用于接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;
第三接收单元,用于通过意图配置界面接收意图配置指令。
在其中一个实施例中,上述语音播报处理装置还包括:
接收模块,用于接收会话逻辑配置指令;
配置模块,用于根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
在其中一个实施例中,参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;上述执行模块用于打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
在其中一个实施例中,参考处理逻辑包括非打断处理逻辑;上述执行模块用于继续语音机器人的当前语音播报。
关于语音播报处理装置的具体限定可以参见上文中对于语音播报处理方法的限定,在此不再赘述。上述语音播报处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储会话处理逻辑。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音播报处理方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:在语音机器人与用户终端通话的过程中,采集用户终端的语音信息;对语音信息进行意图识别得到意图识别结果;获取与意图识别结果对应的处理逻辑;执行处理逻辑。
在一个实施例中,处理器执行计算机程序时所实现的对语音信息进行意图识别得到意图识别结果,包括:提取语音信息对应的语义特征;将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
在一个实施例中,处理器执行计算机程序时所实现的将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
在一个实施例中,处理器执行计算机程序时所实现的接收意图配置指令之前,还包括:接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面通过意图配置界面接收意图配置指令。
在一个实施例中,处理器执行计算机程序时所实现的获取与意图识别结果对应的处理逻辑之前,还包括:接收会话逻辑配置指令;根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
在一个实施例中,处理器执行计算机程序时所涉及的参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;处理器执行计算机程序时所实现的执行处理逻辑,包括:打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
在一个实施例中,处理器执行计算机程序时所涉及的参考处理逻辑包括非打断处理逻辑;处理器执行计算机程序时所实现的执行处理逻辑,包括:继续语音机器人的当前语音播报。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在语音机器人与用户终端通话的过程中,采集用户终端的语音信息;对语音信息进行意图识别得到意图识别结果;获取与意图识别结果对应的处理逻辑;执行处理逻辑。
在一个实施例中,计算机程序被处理器执行时所实现的对语音信息进行意图识别得到意图识别结果,包括:提取语音信息对应的语义特征;将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
在一个实施例中,计算机程序被处理器执行时所实现的将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
在一个实施例中,计算机程序被处理器执行时所实现的接收意图配置指令之前,还包括:接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面通过意图配置界面接收意图配置指令。
在一个实施例中,计算机程序被处理器执行时所实现的获取与意图识别结果对应的处理逻辑之前,还包括:接收会话逻辑配置指令;根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
在一个实施例中,计算机程序被处理器执行时所涉及的参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;计算机程序被处理器执行时所实现的执行处理逻辑,包括:打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
在一个实施例中,计算机程序被处理器执行时所涉及的参考处理逻辑包括非打断处理逻辑;计算机程序被处理器执行时所实现的执行处理逻辑,包括:继续语音机器人的当前语音播报。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音播报处理方法,其特征在于,所述方法包括:
在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;
对所述语音信息进行意图识别得到意图识别结果;
获取与所述意图识别结果对应的处理逻辑;
执行所述处理逻辑。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音信息进行意图识别得到意图识别结果,包括:
提取所述语音信息对应的语义特征;
将所述语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;
统计所述相似度满足要求的预设数量的标准特征对应的意图分类作为所述语音信息对应的意图识别结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:
接收意图配置指令,所述意图配置指令携带有标准文本以与所述标准文本对应的意图名称;
根据所述标准文本以与所述标准文本对应的意图名称进行意图配置得到标准意图,并根据所述标准文本生成标准特征。
4.根据权利要求3所述的方法,其特征在于,所述接收意图配置指令之前,还包括:
接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;
通过所述意图配置界面接收意图配置指令。
5.根据权利要求3或4所述的方法,其特征在于,所述获取与所述意图识别结果对应的处理逻辑之前,还包括:
接收会话逻辑配置指令;
根据所述会话逻辑配置指令配置得到会话逻辑,所述会话逻辑包括正常处理逻辑以及所述标准意图对应的参考处理逻辑。
6.根据权利要求5所述的方法,其特征在于,所述参考处理逻辑包括打断处理逻辑以及与所述打断处理逻辑对应的话术;所述执行所述处理逻辑,包括:
打断所述语音机器人的当前语音播报,并继续播报与所述打断处理逻辑对应的话术。
7.根据权利要求5所述的方法,其特征在于,所述参考处理逻辑包括非打断处理逻辑;所述执行所述处理逻辑,包括:
继续所述语音机器人的当前语音播报。
8.一种语音播报处理装置,其特征在于,所述装置包括:
采集模块,用于在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;
识别模块,用于对所述语音信息进行意图识别得到意图识别结果;
逻辑获取模块,用于获取与所述意图识别结果对应的处理逻辑;
执行模块,用于执行所述处理逻辑。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111115957.7A CN113936655A (zh) | 2021-09-23 | 2021-09-23 | 语音播报处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111115957.7A CN113936655A (zh) | 2021-09-23 | 2021-09-23 | 语音播报处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113936655A true CN113936655A (zh) | 2022-01-14 |
Family
ID=79276406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111115957.7A Pending CN113936655A (zh) | 2021-09-23 | 2021-09-23 | 语音播报处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936655A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134466A (zh) * | 2022-06-07 | 2022-09-30 | 马上消费金融股份有限公司 | 意图识别方法、装置及电子设备 |
-
2021
- 2021-09-23 CN CN202111115957.7A patent/CN113936655A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134466A (zh) * | 2022-06-07 | 2022-09-30 | 马上消费金融股份有限公司 | 意图识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798032B (zh) | 自助语音会话中的应答消息处理方法和装置 | |
US10629186B1 (en) | Domain and intent name feature identification and processing | |
CN110557451B (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
US6438520B1 (en) | Apparatus, method and system for cross-speaker speech recognition for telecommunication applications | |
WO2020238209A1 (zh) | 音频处理的方法、***及相关设备 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
US11687526B1 (en) | Identifying user content | |
US8781837B2 (en) | Speech recognition system and method for plural applications | |
CN111627432B (zh) | 主动式外呼智能语音机器人多语种交互方法及装置 | |
CN111429899A (zh) | 基于人工智能的语音响应处理方法、装置、设备及介质 | |
CN109086276B (zh) | 数据翻译方法、装置、终端及存储介质 | |
WO2020024620A1 (zh) | 语音信息的处理方法以及装置、设备和存储介质 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN108899036A (zh) | 一种语音数据的处理方法及装置 | |
WO2021098318A1 (zh) | 应答方法、终端及存储介质 | |
CN113779208A (zh) | 用于人机对话的方法和装置 | |
US20120053937A1 (en) | Generalizing text content summary from speech content | |
CN116417003A (zh) | 语音交互***、方法、电子设备和存储介质 | |
WO2015188454A1 (zh) | 一种快速进入ivr菜单的方法及装置 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN117253478A (zh) | 一种语音交互方法和相关装置 | |
CN113936655A (zh) | 语音播报处理方法、装置、计算机设备和存储介质 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN106371905B (zh) | 应用程序操作方法、装置和服务器 | |
CN111292749A (zh) | 智能语音平台的会话控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |