CN112242135A - 一种语音数据的处理方法及智能客服装置 - Google Patents

一种语音数据的处理方法及智能客服装置 Download PDF

Info

Publication number
CN112242135A
CN112242135A CN201910650265.9A CN201910650265A CN112242135A CN 112242135 A CN112242135 A CN 112242135A CN 201910650265 A CN201910650265 A CN 201910650265A CN 112242135 A CN112242135 A CN 112242135A
Authority
CN
China
Prior art keywords
user
emotion
speaking
content
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910650265.9A
Other languages
English (en)
Inventor
陈孝良
祖拓
王江
冯大航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201910650265.9A priority Critical patent/CN112242135A/zh
Publication of CN112242135A publication Critical patent/CN112242135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音数据的处理方法及智能客服装置,该方法为:智能客服装置在向用户设备播放预设语音内容的过程中,实时收集用户设备发送的音频信号;检测音频信号中用于指示用户行为类型的音频信息;若确定音频信息用于指示用户存在疑问,中断播放预设语音内容;若确定音频信息用于指示用户正在说话在预设时间内降低播放预设语音内容的音量。本方案中,智能客服装置在播放语音内容的过程中,当检测到用户说话时,根据用户的行为类型降低语音播放音量或中断语音播放。收集并识别用户的发言内容,为用户提供后续服务,提高用户的使用体验。

Description

一种语音数据的处理方法及智能客服装置
技术领域
本发明涉及语音数据处理技术领域,具体涉及一种语音数据的处理方法及智能客服装置。
背景技术
随着科学技术的不断发展,人工智能技术也逐渐被广泛应用。其中智能客服装置是较为常见的用于服务用户的人工智能技术。
智能客服装置通常以播放语音的形式为用户提供服务,目前的智能客服装置向用户提供服务的方式为:先向用户介绍业务和活动等内容,再根据用户设备发送的音频信号识别用户的问题,最后回答用户的问题。但是,目前的智能客服装置在向用户介绍业务和活动的过程中,或者,在回答用户问题的过程中,是无法打断智能客服装置的语音播放的。换而言之,在智能客服装置播放语音的过程中,即使用户有新的问题或者不想听到当前播放的内容,智能客服装置依然会完整播放当前的语音播放内容,之后再重新识别用户的音频信号,极大降低了用户的使用体验。
发明内容
有鉴于此,本发明实施例提供一种语音数据的处理方法及智能客服装置,以解决现有智能客服装置存在的用户使用体验低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种语音数据的处理方法,适用于智能客服装置,所述方法包括:
智能客服装置在向用户设备播放预设语音内容的过程中,所述智能客服装置实时收集所述用户设备发送的音频信号;
检测所述音频信号中用于指示用户行为类型的音频信息,所述用户行为类型为用户存在疑问或所述用户正在说话;
若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容;
若确定所述音频信息用于指示所述用户正在说话,在预设时间内降低播放所述预设语音内容的音量。
优选的,若所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容之后,还包括:
向所述用户询问所述用户的问题,并收集所述用户设备发送的音频信号;
利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签;
根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
优选的,所述若确定所述音频信息用于指示所述用户正在说话之后,还包括:
在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,中断播放所述预设语音内容;
利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签;
根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
优选的,所述根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话,包括:
若所述发言内容和/或情绪标签符合预设的回复规则,向所述用户询问所述用户的问题,并回复所述用户的问题;
若所述发言内容和/或情绪标签符合预设的转接规则,为所述用户转接至人工客服;
若所述发言内容和/或情绪标签符合预设的挂断规则,结束与所述用户设备的通话;
其中,根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。
优选的,所述利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,包括:
将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,其中,所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。
优选的,所述利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签之前,还包括:
基于所述用户的用户信息确定所述用户的年龄,并选择与所述年龄对应的情绪识别模型,其中,预先设置不同年龄段对应的情绪识别模型。
本发明实施例第二方面公开一种智能客服装置,所述智能客服装置包括:
采集单元,用于智能客服装置在向用户设备播放预设语音内容的过程中,实时收集所述用户设备发送的音频信号;
确定单元,用于检测所述音频信号中用于指示用户行为类型的音频信息,所述用户行为类型为用户存在疑问或所述用户正在说话;
第一中断单元,用于若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容;
调整单元,用于若确定所述音频信息用于指示所述用户正在说话,在预设时间内降低播放所述预设语音内容的音量。
优选的,所述智能客服装置还包括:
第二中断单元,用于在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,中断播放所述预设语音内容;
识别单元,用于利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签;
处理单元,用于根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
优选的,所述确定单元具体用于:将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,其中,所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。
优选的,所述处理单元包括:
回复模块,用于若所述发言内容和/或情绪标签符合预设的回复规则,向所述用户询问所述用户的问题,并回复所述用户的问题;
转接模块,用于若所述发言内容和/或情绪标签符合预设的转接规则,为所述用户转接至人工客服;
挂断模块,用于若所述发言内容和/或情绪标签符合预设的挂断规则,结束与所述用户的通话。
其中,根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。
基于上述本发明实施例提供的一种语音数据的处理方法及智能客服装置,该方法为:智能客服装置在向用户设备播放预设语音内容的过程中,实时收集用户设备发送的音频信号;检测音频信号中用于指示用户行为类型的音频信息;若确定音频信息用于指示用户存在疑问,中断播放预设语音内容;若确定音频信息用于指示用户正在说话在预设时间内降低播放预设语音内容的音量。本方案中,智能客服装置在播放语音内容的过程中,当检测到用户说话时,根据用户的行为类型降低语音播放音量或中断语音播放。收集并识别用户的发言内容,为用户提供回复问题、转接人工客服或结束通话等后续服务,提高用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音数据的处理方法流程图;
图2为本发明实施例提供的语音数据的处理方法流程示意图;
图3为本发明实施例提供的另一语音数据的处理方法流程示意图;
图4为本发明实施例提供的一种智能客服装置的结构框图;
图5为本发明实施例提供的另一种智能客服装置的结构框图;
图6为本发明实施例提供的又一种智能客服装置的结构框图;
图7为本发明实施例提供的再一种智能客服装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前的智能客服装置在向用户介绍业务和活动的过程中,或者,在回答用户问题的过程中,是无法打断智能客服装置的语音播放的。在智能客服装置播放语音的过程中,即使用户有新的问题或者不想听到当前播放的内容,智能客服装置依然会完整播放当前的语音播放内容,之后再重新识别用户的音频信号,极大降低了用户的使用体验。
因此,本发明实施例提供一种语音数据的处理方法及智能客服装置,智能客服装置在进行语音播放的过程中,当检测到用户说话时,降低语音播放音量或中断语音播放。收集并识别用户的发言内容,为用户提供后续服务,以提升用户的使用体验。
参考图1,示出了本发明实施例提供的一种语音数据的处理方法流程图,所述方法适用于智能客服装置,所述方法包括以下步骤:
步骤S101:智能客服装置在向用户设备播放预设语音内容的过程中,所述智能客服装置实时收集所述用户设备发送的音频信号。
在具体实现步骤S101的过程中,用户通过用户设备在与智能客服装置通话时,智能客服装置会向用户设备播放预设语音内容,例如:对于银行的智能客服装置,在与客户通话时,银行的智能客服装置会通过播放语音内容介绍该银行推出的相关产品。所述智能客服装置在播放语音内容时,会实时收集用户设备发送的音频信号。
步骤S102:智能客服装置检测所述音频信号中用于指示用户行为类型的音频信息。
需要说明的是,用户通过用户设备在与智能客服装置通话时,所述用户设备会采集音频信号,并将音频信号发送至所述智能客服装置。根据音频信号中的音频信息确定用户行为类型,所述用户行为类型为用户存在疑问或所述用户正在说话。
在具体实现步骤S102的过程中,同时对所述音频信号进行语音活动检测(VoiceActivity Detection,VAD)和语气判断,分别确定所述用户是否正在说话或者所述用户是否存在疑问。其中,利用预设的语气判断模型对所述音频信号进行语气判断。
若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容。向所述用户询问所述用户的问题,并收集所述用户设备发送的音频信号。例如:当检测到所述用户的音频信号确定所述用户发出“嗯?”、“啊?”等表示疑问的词语时,中断当前播放的语音内容,并询问所述用户是否需要帮助,询问之后收集用户设备采集得到的音频信号。利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
若通过VAD确定所述用户正在说话,为进一步确定所述用户正在说话,将所述音频信号作为预设的VAD模型的输入确定所述音频信号中是否存在用于指示用户正在说话的音频信息,若通过所述VAD模型确定所述音频信号中存在所述音频信息,则最终确定所述用户正在说话。
需要说明的是,预先基于音频样本数据训练神经网络模型获得所述VAD模型。预先基于语气词样本数据训练神经网络模型获得所述语气判断模型。
优选的,可同时利用所述VAD和VAD模型确定所述音频信号中用于指示用户正在说话的音频信息,当所述VAD和VAD模型都确定所述音频信号中存在所述音频信息,才最终确定所述用户正在说话。
步骤S103:若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容。
步骤S104:若确定所述音频信息用于指示所述用户正在说话,在预设时间内降低播放所述预设语音内容的音量。
需要说明的是,智能客服装置在播放语音时,为保证用户听清楚播放内容,播放语音的音量通常较大。当用户有问题需询问时,若智能客服装置依然以大音量播放语音会严重影响用户的使用体验。
在具体实现步骤S104的过程中,当所述智能客服装置确定所述用户正在说话时,为保证用户的使用体验,所述智能客服装置需在预设时间内降低播放语音的音量。
优选的,确定所述音频信息用于指示所述用户正在说话,在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,中断播放所述预设语音内容。
在具体实现中,在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,即在降低播放所述语音内容的音量预设时间之后,所述用户仍然正在说话,则中断播放所述预设语音内容。
优选的,当确定所述用户正在说话时,所述智能客服装置调整语音播放的形式包括但不仅限于以下三种情况:
情况一:所述智能客服装置在所述用户说话时降低播放所述预设语音内容的音量。即在所述用户说话时,所述智能语音将播放语音的音量降低,并将播放语音的音量全程保持在预设值。
情况二:所述智能客服装置中断正在播放的预设语音内容。即当用户在说话时,中断正在播放的预设语音内容。
情况三:在预设时间内降低播放所述预设语音内容的音量,若所述预设时间后所述用户未停止说话,中断播放所述预设语音内容。例如:确定所述用户正在说话的1秒内,先降低播放语音的音量。若1秒后所述用户依旧还在说话,则中断播放当前语音内容。
优选的,执行步骤S104之后,利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
在进一步的实现中,根据所述发言内容和情绪标签,当所述发言内容和情绪标签符合预设的推送规则时,向所述用户设备推送包含界面操作网址的界面操作信息。例如:当通过采集得到的音频信号确定用户不耐烦或者抱怨语音操作较慢,根据音频信息确定用户希望执行的操作。若所述用户设备为具有内置操作界面的设备,例如具有操作界面的app应用或者专用柜台机,直接向该用户设备推送操作界面。若所述用户设备为不具有内置操作界面的设备,向该用户设备推送操作界面网址,当用户点击该网址时所述用户设备切换至对应的操作界面。
上述涉及的语音识别和情绪识别的过程中,所述智能客服装置将所述音频信号上传至云端服务器中,同时利用所述云端服务器中预设的语音识别模型和情绪识别模型对所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。
需要说明的是,由于不同年龄段的人群对不同情绪的表达方式都不同,因此预先设置不同年龄段对应的情绪识别模型。例如:分别设置少年男、少年女、中年男、中年女、老年男和老年女六个类别对应的情绪识别模型。在对所述用户的音频信号进行情绪识别之前,先根据所述用户的用户信息确定所述用户的年龄,选择与所述年龄对应的情绪识别模型进行情绪识别。
进一步的,需要说明的是,上述涉及到的情绪识别模型的划分包括但不仅限于以上六个类别。
在进一步的实现中,所述智能客服装置根据所述发言内容和情绪标签执行相应的操作,该操作包括但不仅限于:回答所述用户的问题、转接人工客服或结束通话。具体内容详见以下内容:
若所述发言内容和/或情绪标签符合预设的回复规则,向所述用户询问所述用户的问题,并回复所述用户的问题。例如:当检测所述用户以平淡的情绪说“你在说什么呀”,所述智能客服装置询问所述用户有什么问题不明白,并回复所述用户询问的问题。
若所述发言内容和/或情绪标签符合预设的转接规则,为所述用户转接至人工客服。例如:当检测到所述用户说“我需要转接人工客服”时,为所述用户转接至人工客服。
若所述发言内容和/或情绪标签符合预设的挂断规则,结束与所述用户的通话。例如:当检测到所述用户以生气的情绪说“我不感兴趣”时,所述智能客服装置结束与所述用户的通话。
需要说明的是,预先设置不同类型的情绪标签,在对所述音频信号进行情绪识别时,根据所述音频信号确定用于指示用户发言情绪的情绪标签。
进一步需要说明的是,根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。例如:若所述发言内容符合回复规则,而所述情绪标签符合转接规则,则执行回复规则,即向所述用户询问所述用户的问题,并回复所述用户的问题。又例如:若所述发言内容符合挂断规则,而所述情绪标签符合转接规则,则执行挂断规则,即结束与所述用户的通话。
在本发明实施例中,智能客服装置在播放语音内容的过程中,当检测到用户说话时,检测音频信号中用于指示用户行为类型的音频信息。根据用户行为类型中断播放预设语音内容,询问用户的需求并收集音频信号,或者在预设时间内降低播放预设语音内容的音量,在预设时间之后,用户仍然在说话,中断播放预设语音内容。根据采集得到的用户的音频信号,识别用户的发言内容和发言情绪,根据发言内容和发言情绪执行对应的操作,提高用户的使用体验。
为更好解释说上述图1中各个步骤示出的内容,通过图2和图3示出的语音数据的处理方法流程示意图进行举例说明。
参考图2,示出了本发明实施例提供的语音数据的处理方法流程示意图,包括以下步骤:
步骤S201:智能客服装置收集用户方的音频信号。
步骤S202:所述智能客服装置基于收集得到的音频信号,利用VAD算法检测用户是否正在说话,若是,执行步骤S203,若否,返回执行步骤S201。
步骤S203:所述智能客服装置基于收集得到的音频信号,利用神经网络VAD模型进一步确定所述用户是否正在说话,若是,打断语音播放或降低语音播放音量,并执行步骤S204,若否,返回执行步骤S201。
步骤S204:所述智能客服装置对所述音频信号进行语音识别和情绪识别,所述智能客服装置根据语音识别结果和情绪识别结果转接人工客服、回答问题或挂断。
参考图3,示出了本发明实施例提供的语音数据的处理方法流程示意图,包括以下步骤:
步骤S301:智能客服装置收集用户方的音频信号。
步骤S302:所述智能客服装置同时利用VAD算法和神经网络VAD模型确定所述用户是否正在说话,若VAD算法和神经网络VAD模型都确定所述用户正在说话,打断语音播放或降低语音播放音量,执行步骤S303。若VAD算法和/或神经网络VAD模型确定所述用户未说话,返回执行步骤S301。
步骤S303:所述智能客服装置对所述音频信号进行语音识别和情绪识别,所述智能客服装置根据语音识别结果和情绪识别结果转接人工客服、回答问题或挂断。
需要说明的是,图2和图3中各个步骤的执行原理,可参见上述本发明实施例图1中各个步骤对应的内容,在此不再进行赘述。
在本发明实施例中,智能客服装置在播放语音内容的过程中,当检测到用户说话时,在预设时间内降低播放预设语音内容的音量,在预设时间之后,用户仍然在说话,中断播放预设语音内容。根据采集得到的用户的音频信号,识别用户的发言内容和发言情绪,根据发言内容和发言情绪执行对应的操作,提高用户的使用体验。
与上述本发明实施例提供的一种语音数据的处理方法相对应,参考图4,本发明实施例还提供了一种智能客服装置的结构框图,所述智能客服装置包括:采集单元401、确定单元402、第一中断单元403和调整单元404;
采集单元401,用于智能客服装置在向用户设备播放预设语音内容的过程中,实时收集所述用户设备发送的音频信号。
确定单元402,用于检测所述音频信号中用于指示用户行为类型的音频信息,所述用户行为类型为用户存在疑问或所述用户正在说话。确定用户行为类型的过程,参见上述本发明实施例图1步骤S102中相对应的内容。
第一中断单元403,用于若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容。
调整单元404,用于在预设时间内降低播放所述预设语音内容的音量。
在本发明实施例中,智能客服装置在播放语音内容的过程中,当检测到用户说话时,检测音频信号中用于指示用户行为类型的音频信息。根据用户行为类型中断播放预设语音内容,或者在预设时间内降低播放预设语音内容的音量,在预设时间之后用户仍然在说话,中断播放预设语音内容,提高用户的使用体验。
优选的,结合图4,参考图5,示出了本发明实施例提供的一种智能客服的结构框图,所述智能客服装置还包括:
第二中断单元405,用于在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,中断播放所述预设语音内容。
在具体实现中,所述调整单元404在预设时间内降低播放所述预设语音内容的音量后,执行所述第二中断单元405。
识别单元406,用于利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。
优选的,在具体实现中,所述识别单元406还用于基于所述用户的用户信息确定所述用户的年龄,并选择与所述年龄对应的情绪识别模型,其中,预先设置不同年龄段对应的情绪识别模型。
处理单元407,用于根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
相应的,所述确定单元402具体用于:将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,其中,所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。
在本发明实施例中,根据采集得到的用户的音频信号,识别用户的发言内容和发言情绪。后续根据发言内容和发言情绪执行对应的操作,提高用户的使用体验。
优选的,结合图5,参考图6,示出了本发明实施例提供的一种智能客服的结构框图,在执行所述第一中断单元403之后,所述智能客服装置还包括:
询问单元408,用于向所述用户询问所述用户的问题,并收集所述用户设备发送的音频信号。执行所述识别单元406和处理单元407。
优选的,结合图5,参考图7,示出了本发明实施例提供的一种智能客服的结构框图,所述处理单元407包括:
回复模块4071,用于若所述发言内容和/或情绪标签符合预设的回复规则,向所述用户询问所述用户的问题,并回复所述用户的问题。
转接模块4072,用于若所述发言内容和/或情绪标签符合预设的转接规则,为所述用户转接至人工客服。
挂断模块4073,用于若所述发言内容和/或情绪标签符合预设的挂断规则,结束与所述用户的通话。
其中,根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。
在本发明实施例中,智能客服装置收集并识别用户的发言内容和发言情绪。根据发言内容和发言情绪为用户提供回复问题、转接人工客服或结束通话等后续服务,提高用户的使用体验。
综上所述,本发明实施例提供一种语音数据的处理方法及智能客服装置,该方法为:智能客服装置在向用户设备播放预设语音内容的过程中,实时收集用户设备发送的音频信号;检测音频信号中用于指示用户行为类型的音频信息;若确定音频信息用于指示用户存在疑问,中断播放预设语音内容;若确定音频信息用于指示用户正在说话在预设时间内降低播放预设语音内容的音量。本方案中,智能客服装置在播放语音内容的过程中,当检测到用户说话时,根据用户的行为类型降低语音播放音量或中断语音播放。收集并识别用户的发言内容,为用户提供回复问题、转接人工客服或结束通话等后续服务,提高用户的使用体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音数据的处理方法,其特征在于,适用于智能客服装置,所述方法包括:
智能客服装置在向用户设备播放预设语音内容的过程中,所述智能客服装置实时收集所述用户设备发送的音频信号;
检测所述音频信号中用于指示用户行为类型的音频信息,所述用户行为类型为用户存在疑问或所述用户正在说话;
若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容;
若确定所述音频信息用于指示所述用户正在说话,在预设时间内降低播放所述预设语音内容的音量。
2.根据权利要求1所述的方法,其特征在于,若所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容之后,还包括:
向所述用户询问所述用户的问题,并收集所述用户设备发送的音频信号;
利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签;
根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
3.根据权利要求1所述的方法,其特征在于,所述若确定所述音频信息用于指示所述用户正在说话之后,还包括:
在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,中断播放所述预设语音内容;
利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签;
根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话,包括:
若所述发言内容和/或情绪标签符合预设的回复规则,向所述用户询问所述用户的问题,并回复所述用户的问题;
若所述发言内容和/或情绪标签符合预设的转接规则,为所述用户转接至人工客服;
若所述发言内容和/或情绪标签符合预设的挂断规则,结束与所述用户设备的通话;
其中,根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。
5.根据权利要求2或3所述的方法,其特征在于,所述利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,包括:
将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,其中,所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。
6.根据权利要求5所述的方法,其特征在于,所述利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签之前,还包括:
基于所述用户的用户信息确定所述用户的年龄,并选择与所述年龄对应的情绪识别模型,其中,预先设置不同年龄段对应的情绪识别模型。
7.一种智能客服装置,其特征在于,所述智能客服装置包括:
采集单元,用于智能客服装置在向用户设备播放预设语音内容的过程中,实时收集所述用户设备发送的音频信号;
确定单元,用于检测所述音频信号中用于指示用户行为类型的音频信息,所述用户行为类型为用户存在疑问或所述用户正在说话;
第一中断单元,用于若确定所述音频信息用于指示所述用户存在疑问,中断播放所述预设语音内容;
调整单元,用于若确定所述音频信息用于指示所述用户正在说话,在预设时间内降低播放所述预设语音内容的音量。
8.根据权利要求7所述的智能客服装置,其特征在于,所述智能客服装置还包括:
第二中断单元,用于在所述预设时间之后,若检测到所述音频信号中存在用于指示用户正在说话的音频信息,中断播放所述预设语音内容;
识别单元,用于利用所述音频信号进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签;
处理单元,用于根据所述发言内容和情绪标签,回答所述用户的问题、转接人工客服或结束通话。
9.根据权利要求8所述的智能客服装置,其特征在于,所述确定单元具体用于:将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别,确定所述用户的发言内容和用于指示用户发言情绪的情绪标签,其中,所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。
10.根据权利要求8所述的智能客服装置,其特征在于,所述处理单元包括:
回复模块,用于若所述发言内容和/或情绪标签符合预设的回复规则,向所述用户询问所述用户的问题,并回复所述用户的问题;
转接模块,用于若所述发言内容和/或情绪标签符合预设的转接规则,为所述用户转接至人工客服;
挂断模块,用于若所述发言内容和/或情绪标签符合预设的挂断规则,结束与所述用户的通话;
其中,根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。
CN201910650265.9A 2019-07-18 2019-07-18 一种语音数据的处理方法及智能客服装置 Pending CN112242135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650265.9A CN112242135A (zh) 2019-07-18 2019-07-18 一种语音数据的处理方法及智能客服装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650265.9A CN112242135A (zh) 2019-07-18 2019-07-18 一种语音数据的处理方法及智能客服装置

Publications (1)

Publication Number Publication Date
CN112242135A true CN112242135A (zh) 2021-01-19

Family

ID=74168179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650265.9A Pending CN112242135A (zh) 2019-07-18 2019-07-18 一种语音数据的处理方法及智能客服装置

Country Status (1)

Country Link
CN (1) CN112242135A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096644A (zh) * 2021-03-31 2021-07-09 闽江学院 电话语音的处理***
CN113488024A (zh) * 2021-05-31 2021-10-08 杭州摸象大数据科技有限公司 一种基于语义识别的电话打断识别方法和***
CN113656551A (zh) * 2021-08-19 2021-11-16 中国银行股份有限公司 一种外呼智能打断方法及装置、存储介质及电子设备
WO2023065633A1 (zh) * 2021-10-22 2023-04-27 平安科技(深圳)有限公司 异常语义截断检测方法、装置、设备及介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100463706B1 (ko) * 2004-04-27 2004-12-29 주식회사 엠포컴 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법
US6882973B1 (en) * 1999-11-27 2005-04-19 International Business Machines Corporation Speech recognition system with barge-in capability
CN103269405A (zh) * 2013-05-23 2013-08-28 深圳市中兴移动通信有限公司 友好提示的方法及装置
CN203912042U (zh) * 2014-06-12 2014-10-29 国家电网公司 一种自动调音客服电话
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及***
CN105100356A (zh) * 2015-07-07 2015-11-25 上海斐讯数据通信技术有限公司 一种音量自动调节的方法和***
CN105895101A (zh) * 2016-06-08 2016-08-24 国网上海市电力公司 用于电力智能辅助服务***的语音处理设备及处理方法
CN107580272A (zh) * 2017-07-17 2018-01-12 成都华科威电子科技有限公司 一种车载音响播放音量自动调节方法
CN107657017A (zh) * 2017-09-26 2018-02-02 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN108900726A (zh) * 2018-06-28 2018-11-27 北京首汽智行科技有限公司 基于语音机器人的人工客服转接方法
CN108961887A (zh) * 2018-07-24 2018-12-07 广东小天才科技有限公司 一种语音搜索控制方法及家教设备
CN109040449A (zh) * 2018-08-06 2018-12-18 维沃移动通信有限公司 一种音量调节方法及终端设备
CN109509471A (zh) * 2018-12-28 2019-03-22 浙江百应科技有限公司 一种基于vad算法打断智能语音机器人对话的方法
CN109767791A (zh) * 2019-03-21 2019-05-17 中国—东盟信息港股份有限公司 一种针对呼叫中心通话的语音情绪识别及应用***
CN110021308A (zh) * 2019-05-16 2019-07-16 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6882973B1 (en) * 1999-11-27 2005-04-19 International Business Machines Corporation Speech recognition system with barge-in capability
KR100463706B1 (ko) * 2004-04-27 2004-12-29 주식회사 엠포컴 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법
CN103269405A (zh) * 2013-05-23 2013-08-28 深圳市中兴移动通信有限公司 友好提示的方法及装置
CN203912042U (zh) * 2014-06-12 2014-10-29 国家电网公司 一种自动调音客服电话
CN105100356A (zh) * 2015-07-07 2015-11-25 上海斐讯数据通信技术有限公司 一种音量自动调节的方法和***
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及***
CN105895101A (zh) * 2016-06-08 2016-08-24 国网上海市电力公司 用于电力智能辅助服务***的语音处理设备及处理方法
CN107580272A (zh) * 2017-07-17 2018-01-12 成都华科威电子科技有限公司 一种车载音响播放音量自动调节方法
CN107657017A (zh) * 2017-09-26 2018-02-02 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN108900726A (zh) * 2018-06-28 2018-11-27 北京首汽智行科技有限公司 基于语音机器人的人工客服转接方法
CN108961887A (zh) * 2018-07-24 2018-12-07 广东小天才科技有限公司 一种语音搜索控制方法及家教设备
CN109040449A (zh) * 2018-08-06 2018-12-18 维沃移动通信有限公司 一种音量调节方法及终端设备
CN109509471A (zh) * 2018-12-28 2019-03-22 浙江百应科技有限公司 一种基于vad算法打断智能语音机器人对话的方法
CN109767791A (zh) * 2019-03-21 2019-05-17 中国—东盟信息港股份有限公司 一种针对呼叫中心通话的语音情绪识别及应用***
CN110021308A (zh) * 2019-05-16 2019-07-16 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096644A (zh) * 2021-03-31 2021-07-09 闽江学院 电话语音的处理***
CN113488024A (zh) * 2021-05-31 2021-10-08 杭州摸象大数据科技有限公司 一种基于语义识别的电话打断识别方法和***
CN113656551A (zh) * 2021-08-19 2021-11-16 中国银行股份有限公司 一种外呼智能打断方法及装置、存储介质及电子设备
WO2023065633A1 (zh) * 2021-10-22 2023-04-27 平安科技(深圳)有限公司 异常语义截断检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112242135A (zh) 一种语音数据的处理方法及智能客服装置
CN112365894B (zh) 基于ai的复合语音交互方法、装置及计算机设备
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
CN109065052B (zh) 一种语音机器人
WO2016194740A1 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
CN112313930B (zh) 管理保持的方法和装置
CN110705309B (zh) 服务质量评测方法及***
CN110995943B (zh) 多用户流式语音识别方法、***、设备及介质
CN115083434B (zh) 一种情绪识别方法、装置、计算机设备及存储介质
CN108074571A (zh) 增强现实设备的语音控制方法、***及存储介质
CN111768781A (zh) 语音打断的处理方法和装置
CN110335596A (zh) 基于语音识别的产品推荐方法、装置、设备和存储介质
CN114297365B (zh) 一种基于互联网的智能客服***及方法
CN113840040B (zh) 一种人机协作的外呼方法、装置、设备及存储介质
CN109271503A (zh) 智能问答方法、装置、设备及存储介质
CN113505272A (zh) 基于行为习惯的控制方法和装置、电子设备和存储介质
CN117253478A (zh) 一种语音交互方法和相关装置
CN110489519B (zh) 基于会话预测模型的会话方法及相关产品
CN111510563A (zh) 智能外呼方法及装置、存储介质及电子设备
CN110086941A (zh) 语音播放方法、装置及终端设备
CN112087726B (zh) 彩铃识别的方法及***、电子设备及存储介质
CN110047473B (zh) 一种人机协作交互方法及***
CN114067842B (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
CN110765242A (zh) 一种客服信息的提供方法,装置及***
CN110858234A (zh) 一种根据人物情感进行信息推送的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination