CN114283853A - 一种确定语音机器人播报策略的方法及装置 - Google Patents
一种确定语音机器人播报策略的方法及装置 Download PDFInfo
- Publication number
- CN114283853A CN114283853A CN202111535977.XA CN202111535977A CN114283853A CN 114283853 A CN114283853 A CN 114283853A CN 202111535977 A CN202111535977 A CN 202111535977A CN 114283853 A CN114283853 A CN 114283853A
- Authority
- CN
- China
- Prior art keywords
- target user
- target
- determining
- score
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Manipulator (AREA)
Abstract
本发明公开了一种确定语音机器人播报策略的方法及装置。该发明包括:识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。通过本发明,解决了相关技术中语音机器人与用户的交互过程生硬,交互体验不佳的问题。
Description
技术领域
本发明涉及机器人领域,具体而言,涉及一种确定语音机器人播报策略的方法及装置。
背景技术
相关技术中,语音机器人的目标是模拟人来与用户进行语音交流,它需实现:能听(用户说的内容),思考(给用户的回应),会说(回应内容)。语音机器人应用的领域有:智能客服、智能导航、智能外呼、语音助手等。
现有的语音机器人主要使用了三种AI技术:ASR、NLU、TTS。对话交互的过程为:采集用户的音频;调用ASR,将音频内容识别为文本内容;调用NLU,输入识别文本,根据NLU中的知识库,返回应答文本;调用TTS,将应答文本合成音频,向用户播报;重复以上过程。
现有的语音机器人调用ASR将用户说的语音识别成文本内容后,将识别文本送入NLU,得到回应内容,然后播报给用户。NLU的应答内容只依赖于ASR识别出的文本内容。即同一个应用场景中,知识库相同,只要ASR识别出的文本内容相同,则后续播报的音频也一样,表现出的效果就是:用户说出同样的内容,就只能听到相同的回答信息。但实际人与人的交互过程中,对于同一个问题,我们会感知对方的综合信息(性别、年龄、情绪、交谈的背景环境等)的不同,而给出更合适的回复。此种方式只考虑了用户说话的内容,并未考虑到其他因素(如用户的性别、年龄、情绪、背景音等),交互过程显得生硬,交互体验不佳。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种确定语音机器人播报策略的方法及装置,以解决相关技术中语音机器人与用户的交互过程生硬,交互体验不佳的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种确定语音机器人播报策略的方法。该发明包括:识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。
进一步地,识别目标对话过程对应的多个感知属性,包括:在采集不到目标用户的图像的情况下,获取目标对话过程对应的目标语音,调用ASR语音识别器对目标语音进行识别,以确定多个感知属性;在可以采集到目标用户的图像的情况下,获取目标对话过程对应的目标语音以及目标用户的图像,调用ASR语音识别器对目标语音进行识别以确定第一感知属性,并分析目标用户的图像以确定第二感知属性,其中,第一感知属性至少包括以下属性:目标用户的情绪、目标用户的语速、目标用户的对话音量、目标对话过程的背景音,第二感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的外貌特征。
进一步地,在确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分之前,该方法包括:确定每个感知属性对应的优先级、权重以及分数。
进一步地,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的情绪对应的第一权重以及第一分数;获取目标对话过程的背景音对应的第二权重以及第二分数,其中,目标用户的情绪以及目标对话过程的背景音同属于最高优先级;计算第一权重与第一分数之间的第一乘积;计算第二权重与第二分数之间的第二乘积;将第一总和与第二总和之间的比值,确定为最高优先级对应的最终得分,其中,第一总和为第一乘积与第二乘积的总和,第二总和为第一分数与第二分数之间的总和。
进一步地,当最终得分为最高优先权对应的最终得分时,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第一预设阈值;在最高优先权对应的最终得分大于等于第一预设阈值的情况下,确定语音机器人的播报内容为第一内容,第一内容为用于询问目标用户是否方便的内容;在最高优先权对应的最终得分小于第一预设阈值的情况下,确定语音机器人的播报内容为第二内容,第二内容为向目标用户介绍业务的内容。
进一步地,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的性别对应的第三权重以及第三分数;获取目标用户的年龄对应的第四权重以及第四分数;获取目标用户的语速对应的第五权重以及第五分数;获取目标用户的对话音量对应的第六权重以及第六分数,其中,目标用户的性别、目标用户的年龄以及客户的对话音量同属于次级优先权;计算第三权重与第三分数之间的第三乘积;计算第四权重与第四分数之间的第四乘积;计算第五权重与第五分数之间的第五乘积;计算第六权重与第六分数之间的第六乘积;将第三总和与第四总和之间的比值,确定为次级优先权对应的最终得分,其中,第三总和为第三乘积、第四乘积、第五乘积以及第六乘积的总和,第四总和为第三分数、第四分数、第五分数以及第六分数的总和。
进一步地,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第二预设阈值;在最终得分大于等于第二预设阈值的情况下,确定语音机器人的播报内容为简约版的业务介绍;在最终得分小于第二预设阈值的情况下,确定语音机器人的播报内容为详细版的业务介绍。
为了实现上述目的,根据本发明的另一方面,提供了一种确定语音机器人播报策略的装置。该装置包括:识别单元,用于识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;计算单元,用于确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;第一确定单元,用于依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,该程序执行上述任意一项的一种确定语音机器人播报策略的方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,处理器用于运行程序,其中,该程序执行上述任意一项的一种确定语音机器人播报策略的方法。
通过本发明,采用以下步骤:识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式,解决了相关技术中语音机器人与用户的交互过程生硬,交互体验不佳的问题。进而达到了使客户感觉交互的过程更贴近与人的交互,提升了客户的体验效果。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种确定语音机器人播报策略的方法的流程图;
图2是根据本发明实施例提供的一种确定语音机器人播报策略的方法的示意图;
图3是根据本发明实施例提供的一种确定语音机器人播报策略的装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种确定语音机器人播报策略的方法。
图1是根据本发明实施例的一种确定语音机器人播报策略的方法的流程图。如图1所示,该发明包括以下步骤:
步骤S101,识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程。
上述地,本申请提供了一种通过获取对话感知用户的综合信息的方法,其中,通话过程可以为通过移动终端传输的通话,也可以是语音机器人与用户的直接对话过程,也即,应用场景可以为通过无线通话的两端,同时,可以为直接面对的用户与语音机器人。
具体地,本申请实施例提供了一种设置有ASR语音识别器的语音机器人,在获取到目标对话过程后,语音机器人调用ASR语音识别器能识别出目标用户说的文本内容,以及目标用户的性别、年龄、情绪、语速、对话音量、背景音信息。语音机器人利用自带的摄像头,调用图像识别及人脸识别能识别出目标用户的性别、年龄、外貌特征,外貌特征包括肤色、体型、头发。综合考虑ASR语音识别器和摄像头识别得到的目标用户的感知属性,对目标用户有一个完整的感知,也即可以得到用户的一个用户画像,依据用户画像可以改进后续的人机语音交互体验。
步骤S102,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分。
上述地,根据实际的应用场景,对各项感知属性设定优先级,优先级可以用数字表示,例如1、2、3等,优先级数字相同的感知属性同属于一个优先级的同级感知属性,依据感知属性的优先级可以计算最终得分。
步骤S103,依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。
上述地,将最终得分与不同的阈值进行比较,根据最终得分与阈值的大小关系来确定语音机器人的播报内容和播报方式。
具体地,在本申请提供的实施例中,在提供的一个可选的场景中,如果语音机器人用于为用户提供资讯套餐,播报内容包括播报的套餐套餐的简约版和详细版,播报方式包括男女生的播报语音等。
在一种可选的实例中,识别目标对话过程对应的多个感知属性,包括:在采集不到目标用户的图像的情况下,获取目标对话过程对应的目标语音,调用ASR语音识别器对目标语音进行识别,以确定多个感知属性;在可以采集到目标用户的图像的情况下,获取目标对话过程对应的目标语音以及目标用户的图像,调用ASR语音识别器对目标语音进行识别以确定第一感知属性,并分析目标用户的图像以确定第二感知属性,其中,第一感知属性至少包括以下属性:目标用户的情绪、目标用户的语速、目标用户的对话音量、目标对话过程的背景音,第二感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的外貌特征。
上述地,本申请提供了多种与语音机器人交互的场景,在通过通信终端与语音机器人进行交互的场景中,是无法获取到用户的图像的,因此,在在采集不到目标用户的图像的情况下,语音机器人通过ASR语音识别器识别客户语音,ASR语音识别器不仅能识别出文本内容,还识别出用户的性别、年龄、情绪、语速、背景音等属性。
在用于与语音机器人直接对话的情况下,语音机器人带有摄像头,摄像头可以采集用户的图像,因此,在采集得到目标用户的图像的情况下,不仅需要调用ASR语音识别器对目标语音进行识别,还需要通过摄像头采集客户的图像,利用语音机器人自带的摄像头,识别出用户的性别、年龄、身高、体型、肤色、头发等属性。
在一种可选的实例中,在确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分之前,该方法包括:确定每个感知属性对应的优先级、权重以及分数。
上述地,根据实际的应用场景,对各项感知属性设定优先级、权重、分数。
表1是根据本发明提供的一种可选实施例,提供了一种涉及某项金融业务的虚拟机器人的感知属性的优先级、权重、分数的设定表格,表1中优先级的数字值越小表示优先级越高,权重为0表示不考虑此感知属性值,表1如下表所示。
表2是根据本发明提供的另一种实施例,该实施例中提供了另一种感知信息与分数设定的表格,具体图表2所示,表2如下表所示:
在一种可选的实例中,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的情绪对应的第一权重以及第一分数;获取目标对话过程的背景音对应的第二权重以及第二分数,其中,目标用户的情绪以及目标对话过程的背景音同属于最高优先级;计算第一权重与第一分数之间的第一乘积;计算第二权重与第二分数之间的第二乘积;将第一总和与第二总和之间的比值,确定为最高优先级对应的最终得分,其中,第一总和为第一乘积与第二乘积的总和,第二总和为第一分数与第二分数之间的总和。
在一种可选的实例中,当最终得分为最高优先权对应的最终得分时,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第一预设阈值;在最高优先权对应的最终得分大于等于第一预设阈值的情况下,确定语音机器人的播报内容为第一内容,第一内容为用于询问目标用户是否方便的内容;在最高优先权对应的最终得分小于第一预设阈值的情况下,确定语音机器人的播报内容为第二内容,第二内容为向目标用户介绍业务的内容。
具体地,同一个优先级的感知属性最终得分计算公式为:
PTotal=P1+P2+...+Pn公式一
Final=(S1*P1+S2*P2+...+Si*Pn)/PTotal 公式二
其中,Final:最终得分,pi:感知属性i的权重,Si:感知属性i的得分,PTotal:总的权重值。
第一步:以表1中的数值为例,计算表中优先级为1的感知属性得分:
Final_max=(S背景音_max*P_背景音+S情绪_max*P_情绪)
/(P_背景音+P_情绪)=(4*2+3*3)/(3+2)=3.4
Final_min=(S背景音_min*P_背景音+S情绪_min*P_情绪)
/(P_背景音+P_情绪)=(1*2+1*3)/(3+2)=1
Final=(S背景音_当前背景音*P_背景音+S情绪_当前情绪*P_情绪)
/(P_背景音+P_情绪)=(3*2+2*3)/(3+2)=2.4
需要说明的是,通过计算优先级为1的感知属性的最大值得分以及最小值得分,可以确定与最终得分进行比较的预设阈值的大小。
第二步:以表1中的数值为例,计算表中优先级为2的感知属性得分:
Final_max=(2*1+4*3+3*1+3*1)/(1+3+1+1)=3.33
Final_min=(1*1+1*3+1*1+1*1)/(1+3+1+1)=1
Final=(2*1+3*3+2*1+2*1)/(1+3+1+1)=2.5
上述地,以表1中的数值为例,表1中优先级为1的感知属性得分范围为[1,3.4],优选地,第一预设阈值为2.2,第一预设阈值可根据不同的场景具体设置,如果最终得分大于第一预设阈值,则语音机器人认为客户可能此时不方便接电话,会向客户播报“请问您现在方便接电话吗?”如果客户回答:“不方便”,则播报“那我们稍后再联系您,再见。”结束播报。如果客户回答:“方便”,则继续播报业务内容。如果最终得分小于第一预设阈值,则继续播报业务内容。
在一种可选的实例中,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的性别对应的第三权重以及第三分数;获取目标用户的年龄对应的第四权重以及第四分数;获取目标用户的语速对应的第五权重以及第五分数;获取目标用户的对话音量对应的第六权重以及第六分数,其中,目标用户的性别、目标用户的年龄以及客户的对话音量同属于次级优先权;计算第三权重与第三分数之间的第三乘积;计算第四权重与第四分数之间的第四乘积;计算第五权重与第五分数之间的第五乘积;计算第六权重与第六分数之间的第六乘积;将第三总和与第四总和之间的比值,确定为次级优先权对应的最终得分,其中,第三总和为第三乘积、第四乘积、第五乘积以及第六乘积的总和,第四总和为第三分数、第四分数、第五分数以及第六分数的总和。
在一种可选的实例中,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第二预设阈值;在最终得分大于等于第二预设阈值的情况下,确定语音机器人的播报内容为简约版的业务介绍;在最终得分小于第二预设阈值的情况下,确定语音机器人的播报内容为详细版的业务介绍。
上述地,表1是根据本发明实施例提供的一种涉及某项金融业务的虚拟机器人的感知属性的优先级、权重、分数的设定表格,依据表1中的数据、公式一和公式二可以分别计算出目标用户的感知属性对应的权重和最终得分。
上述地,以表1中的数值为例,表1中优先级为2的感知属性得分范围为[1,3.33],优选地,第二预设阈值为1.2,第二预设阈值可根据不同的场景具体设置,如果最终得分大于等于第二预设阈值,则向客户播报简约版的业务介绍,如果最终得分小于第二预设阈值,则向客户播报详细版的业务介绍。
在本发明提供的一种可选的实施例中,以外呼机器人给客户介绍移动套餐为例,机器人会根据语音交互时对客户信息的感知,给客户介绍更适合他的套餐信息。给年轻人介绍套餐内流量大的套餐信息,而给老年人介绍套餐内流量小,但总费用低的套餐信息。
如果背景音含有汽车喇叭声,判断客户可能在开车,可先询问客户是否在开车,提醒客户安全驾驶。
如果背景音嘈杂或检测到多人的声音,可先询问客户此时是否方便接听电话,如果方便则播放简约版的套餐介绍,如果客户回答不方便,可不再往下播报套餐介绍内容,告知客户稍候会再联系。如果客户情绪急躁,可播放简约版的套餐介绍,如果客户情绪平静,语速正常,可播报详细版的套餐介绍。
以放置在商场内的实体机器人为例,机器人可根据感知到的客户性别、年龄、肤色给其推荐适合的化妆品或告知适合其购物的楼层信息、促销信息等。
本发明实施例提供的一种确定语音机器人播报策略的方法,通过识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式,解决了相关技术中语音机器人与用户的交互过程生硬,交互体验不佳的问题。进而达到了使客户感觉交互的过程更贴近与人的交互,提升了客户的体验效果。
上述地,如图2所示,图2是根据本发明实施例提供的一种确定语音机器人播报策略的方法的示意图,语音机器人能自动感知目标用户的综合信息,在决定回应内容时会考虑目标用户所说的话及目标用户自身的综合信息,给出更合适的回答内容,多人多面,使用户感觉交互的过程更贴近与人的交互,不再机械生硬,给用户更好的交互体验。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例还提供了一种确定语音机器人播报策略的装置,需要说明的是,本发明实施例的一种确定语音机器人播报策略的装置可以用于执行本发明实施例所提供的用于一种确定语音机器人播报策略的方法。以下对本发明实施例提供的一种确定语音机器人播报策略的装置进行介绍。
图3是根据本发明实施例的一种确定语音机器人播报策略的装置的示意图。如图3所示,该装置包括:识别单元301,用于识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;计算单元302,用于确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;第一确定单元303,用于依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。
在一种可选的实例中,识别单元301包括:第一识别子单元,用于在采集不到目标用户的图像的情况下,获取目标对话过程对应的目标语音,调用ASR语音识别器对目标语音进行识别,以确定多个感知属性;第二识别子单元,用于在可以采集到目标用户的图像的情况下,获取目标对话过程对应的目标语音以及目标用户的图像,调用ASR语音识别器对目标语音进行识别以确定第一感知属性,并分析目标用户的图像以确定第二感知属性,其中,第一感知属性至少包括以下属性:目标用户的情绪、目标用户的语速、目标用户的对话音量、目标对话过程的背景音,第二感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的外貌特征。
在一种可选的实例中,该装置包括:第二确定单元,用于在确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分之前,确定每个感知属性对应的优先级、权重以及分数。
在一种可选的实例中,计算单元302,包括:第一获取子单元,用于获取目标用户的情绪对应的第一权重以及第一分数;第二获取子单元,用于获取目标对话过程的背景音对应的第二权重以及第二分数,其中,目标用户的情绪以及目标对话过程的背景音同属于最高优先级;第一计算子单元,用于计算第一权重与第一分数之间的第一乘积;第二计算子单元,用于计算第二权重与第二分数之间的第二乘积;第一确定子单元,用于将第一总和与第二总和之间的比值,确定为最高优先级对应的最终得分,其中,第一总和为第一乘积与第二乘积的总和,第二总和为第一分数与第二分数之间的总和。
在一种可选的实例中,第一确定单元303,包括:第一判断子单元,用于判断最终得分是否大于等于第一预设阈值;第二确定子单元,用于在最高优先权对应的最终得分大于等于第一预设阈值的情况下,确定语音机器人的播报内容为第一内容,第一内容为用于询问目标用户是否方便的内容;第三确定子单元,用于在最高优先权对应的最终得分小于第一预设阈值的情况下,确定语音机器人的播报内容为第二内容,第二内容为向目标用户介绍业务的内容。
在一种可选的实例中,计算单元302,包括:第三获取子单元,用于获取目标用户的性别对应的第三权重以及第三分数;第四获取子单元,用于获取目标用户的年龄对应的第四权重以及第四分数;第五获取子单元,用于获取目标用户的语速对应的第五权重以及第五分数;第六获取子单元,用于获取目标用户的对话音量对应的第六权重以及第六分数,其中,目标用户的性别、目标用户的年龄以及客户的对话音量同属于次级优先权;第三计算子单元,用于计算第三权重与第三分数之间的第三乘积;第四计算子单元,用于计算第四权重与第四分数之间的第四乘积;第五计算子单元,用于计算第五权重与第五分数之间的第五乘积;第六计算子单元,用于计算第六权重与第六分数之间的第六乘积;第四确定子单元,用于将第三总和与第四总和之间的比值,确定为次级优先权对应的最终得分,其中,第三总和为第三乘积、第四乘积、第五乘积以及第六乘积的总和,第四总和为第三分数、第四分数、第五分数以及第六分数的总和。
在一种可选的实例中,第一确定单元303,包括:第二判断子单元,用于判断最终得分是否大于等于第二预设阈值;第五确定子单元,用于在最终得分大于等于第二预设阈值的情况下,确定语音机器人的播报内容为简约版的业务介绍;第六确定子单元,用于在最终得分小于第二预设阈值的情况下,确定语音机器人的播报内容为详细版的业务介绍。
本发明实施例提供的一种确定语音机器人播报策略的装置,通过识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式,解决了相关技术中语音机器人与用户的交互过程生硬,交互体验不佳的问题,进而达到了使客户感觉交互的过程更贴近与人的交互,提升了客户的体验效果。
所述一种确定语音机器人播报策略的装置包括处理器和存储器,上述识别单元301等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中语音机器人与用户的交互过程生硬,交互体验不佳的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述一种确定语音机器人播报策略的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述一种确定语音机器人播报策略的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。
在一种可选的实例中,识别目标对话过程对应的多个感知属性,包括:在采集不到目标用户的图像的情况下,获取目标对话过程对应的目标语音,调用ASR语音识别器对目标语音进行识别,以确定多个感知属性;在可以采集到目标用户的图像的情况下,获取目标对话过程对应的目标语音以及目标用户的图像,调用ASR语音识别器对目标语音进行识别以确定第一感知属性,并分析目标用户的图像以确定第二感知属性,其中,第一感知属性至少包括以下属性:目标用户的情绪、目标用户的语速、目标用户的对话音量、目标对话过程的背景音,第二感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的外貌特征。
在一种可选的实例中,在确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分之前,该方法包括:确定每个感知属性对应的优先级、权重以及分数。
在一种可选的实例中,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的情绪对应的第一权重以及第一分数;获取目标对话过程的背景音对应的第二权重以及第二分数,其中,目标用户的情绪以及目标对话过程的背景音同属于最高优先级;计算第一权重与第一分数之间的第一乘积;计算第二权重与第二分数之间的第二乘积;将第一总和与第二总和之间的比值,确定为最高优先级对应的最终得分,其中,第一总和为第一乘积与第二乘积的总和,第二总和为第一分数与第二分数之间的总和。
在一种可选的实例中,当最终得分为最高优先权对应的最终得分时,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第一预设阈值;在最高优先权对应的最终得分大于等于第一预设阈值的情况下,确定语音机器人的播报内容为第一内容,第一内容为用于询问目标用户是否方便的内容;在最高优先权对应的最终得分小于第一预设阈值的情况下,确定语音机器人的播报内容为第二内容,第二内容为向目标用户介绍业务的内容。
在一种可选的实例中,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的性别对应的第三权重以及第三分数;获取目标用户的年龄对应的第四权重以及第四分数;获取目标用户的语速对应的第五权重以及第五分数;获取目标用户的对话音量对应的第六权重以及第六分数,其中,目标用户的性别、目标用户的年龄以及客户的对话音量同属于次级优先权;计算第三权重与第三分数之间的第三乘积;计算第四权重与第四分数之间的第四乘积;计算第五权重与第五分数之间的第五乘积;计算第六权重与第六分数之间的第六乘积;将第三总和与第四总和之间的比值,确定为次级优先权对应的最终得分,其中,第三总和为第三乘积、第四乘积、第五乘积以及第六乘积的总和,第四总和为第三分数、第四分数、第五分数以及第六分数的总和。
在一种可选的实例中,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第二预设阈值;在最终得分大于等于第二预设阈值的情况下,确定语音机器人的播报内容为简约版的业务介绍;在最终得分小于第二预设阈值的情况下,确定语音机器人的播报内容为详细版的业务介绍。
本文中的设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:识别目标对话过程对应的多个感知属性,其中,多个感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、目标对话过程的背景音,目标用户对应于目标对话过程;确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分;依据最终得分,确定语音机器人的播报策略,其中,播报策略为以下至少一种:播报内容、播报方式。
在一种可选的实例中,识别目标对话过程对应的多个感知属性,包括:在采集不到目标用户的图像的情况下,获取目标对话过程对应的目标语音,调用ASR语音识别器对目标语音进行识别,以确定多个感知属性;在可以采集到目标用户的图像的情况下,获取目标对话过程对应的目标语音以及目标用户的图像,调用ASR语音识别器对目标语音进行识别以确定第一感知属性,并分析目标用户的图像以确定第二感知属性,其中,第一感知属性至少包括以下属性:目标用户的情绪、目标用户的语速、目标用户的对话音量、目标对话过程的背景音,第二感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的外貌特征。
在一种可选的实例中,在确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分之前,该方法包括:确定每个感知属性对应的优先级、权重以及分数。
在一种可选的实例中,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的情绪对应的第一权重以及第一分数;获取目标对话过程的背景音对应的第二权重以及第二分数,其中,目标用户的情绪以及目标对话过程的背景音同属于最高优先级;计算第一权重与第一分数之间的第一乘积;计算第二权重与第二分数之间的第二乘积;将第一总和与第二总和之间的比值,确定为最高优先级对应的最终得分,其中,第一总和为第一乘积与第二乘积的总和,第二总和为第一分数与第二分数之间的总和。
在一种可选的实例中,当最终得分为最高优先权对应的最终得分时,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第一预设阈值;在最高优先权对应的最终得分大于等于第一预设阈值的情况下,确定语音机器人的播报内容为第一内容,第一内容为用于询问目标用户是否方便的内容;在最高优先权对应的最终得分小于第一预设阈值的情况下,确定语音机器人的播报内容为第二内容,第二内容为向目标用户介绍业务的内容。
在一种可选的实例中,确定同属于一个优先级的同级感知属性,并依据同级感知属性计算对应的优先级对应的最终得分,包括:获取目标用户的性别对应的第三权重以及第三分数;获取目标用户的年龄对应的第四权重以及第四分数;获取目标用户的语速对应的第五权重以及第五分数;获取目标用户的对话音量对应的第六权重以及第六分数,其中,目标用户的性别、目标用户的年龄以及客户的对话音量同属于次级优先权;计算第三权重与第三分数之间的第三乘积;计算第四权重与第四分数之间的第四乘积;计算第五权重与第五分数之间的第五乘积;计算第六权重与第六分数之间的第六乘积;将第三总和与第四总和之间的比值,确定为次级优先权对应的最终得分,其中,第三总和为第三乘积、第四乘积、第五乘积以及第六乘积的总和,第四总和为第三分数、第四分数、第五分数以及第六分数的总和。
在一种可选的实例中,依据最终得分,确定语音机器人的播报策略,包括:判断最终得分是否大于等于第二预设阈值;在最终得分大于等于第二预设阈值的情况下,确定语音机器人的播报内容为简约版的业务介绍;在最终得分小于第二预设阈值的情况下,确定语音机器人的播报内容为详细版的业务介绍。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种确定语音机器人播报策略的方法,其特征在于,包括:
识别目标对话过程对应的多个感知属性,其中,多个所述感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、所述目标对话过程的背景音,所述目标用户对应于所述目标对话过程;
确定同属于一个优先级的同级感知属性,并依据所述同级感知属性计算对应的优先级对应的最终得分;
依据所述最终得分,确定所述语音机器人的播报策略,其中,所述播报策略为以下至少一种:播报内容、播报方式。
2.根据权利要求1所述的方法,其特征在于,识别目标对话过程对应的多个感知属性,包括:
在采集不到所述目标用户的图像的情况下,获取所述目标对话过程对应的目标语音,调用ASR语音识别器对所述目标语音进行识别,以确定多个所述感知属性;
在可以采集到所述目标用户的图像的情况下,获取所述目标对话过程对应的所述目标语音以及所述目标用户的图像,调用ASR语音识别器对所述目标语音进行识别以确定第一感知属性,并分析所述目标用户的图像以确定第二感知属性,其中,所述第一感知属性至少包括以下属性:目标用户的情绪、目标用户的语速、目标用户的对话音量、所述目标对话过程的背景音,所述第二感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的外貌特征。
3.根据权利要求1所述的方法,其特征在于,在确定同属于一个优先级的同级感知属性,并依据所述同级感知属性计算对应的优先级对应的最终得分之前,所述方法包括:
确定每个所述感知属性对应的优先级、权重以及分数。
4.根据权利要求2所述的方法,其特征在于,确定同属于一个优先级的同级感知属性,并依据所述同级感知属性计算对应的优先级对应的最终得分,包括:
获取所述目标用户的情绪对应的第一权重以及第一分数;
获取所述目标对话过程的背景音对应的第二权重以及第二分数,其中,所述目标用户的情绪以及所述目标对话过程的背景音同属于最高优先级;
计算所述第一权重与所述第一分数之间的第一乘积;
计算所述第二权重与所述第二分数之间的第二乘积;
将第一总和与第二总和之间的比值,确定为所述最高优先级对应的所述最终得分,其中,所述第一总和为所述第一乘积与所述第二乘积的总和,所述第二总和为第一分数与第二分数之间的总和。
5.根据权利要求4所述的方法,其特征在于,当所述最终得分为最高优先权对应的所述最终得分时,依据所述最终得分,确定所述语音机器人的播报策略,包括:
判断所述最终得分是否大于等于第一预设阈值;
在所述最高优先权对应的最终得分大于等于第一预设阈值的情况下,确定所述语音机器人的播报内容为第一内容,所述第一内容为用于询问所述目标用户是否方便的内容;
在所述最高优先权对应的最终得分小于所述第一预设阈值的情况下,确定所述语音机器人的播报内容为第二内容,所述第二内容为向所述目标用户介绍业务的内容。
6.根据权利要求1所述的方法,其特征在于,确定同属于一个优先级的同级感知属性,并依据所述同级感知属性计算对应的优先级对应的最终得分,包括:
获取所述目标用户的性别对应的第三权重以及第三分数;
获取所述目标用户的年龄对应的第四权重以及第四分数;
获取所述目标用户的语速对应的第五权重以及第五分数;
获取所述目标用户的对话音量对应的第六权重以及第六分数,其中,所述目标用户的性别、所述目标用户的年龄以及所述客户的对话音量同属于次级优先权;
计算所述第三权重与所述第三分数之间的第三乘积;
计算所述第四权重与所述第四分数之间的第四乘积;
计算所述第五权重与所述第五分数之间的第五乘积;
计算所述第六权重与所述第六分数之间的第六乘积;
将第三总和与第四总和之间的比值,确定为所述次级优先权对应的所述最终得分,其中,所述第三总和为所述第三乘积、所述第四乘积、所述第五乘积以及所述第六乘积的总和,所述第四总和为所述第三分数、所述第四分数、所述第五分数以及所述第六分数的总和。
7.根据权利要求6所述的方法,其特征在于,依据所述最终得分,确定所述语音机器人的播报策略,包括:
判断所述最终得分是否大于等于第二预设阈值;
在所述最终得分大于等于所述第二预设阈值的情况下,确定所述语音机器人的播报内容为简约版的业务介绍;
在所述最终得分小于所述第二预设阈值的情况下,确定所述语音机器人的播报内容为详细版的业务介绍。
8.一种确定语音机器人播报策略的装置,其特征在于,包括:
识别单元,用于识别目标对话过程对应的多个感知属性,其中,多个所述感知属性至少包括以下属性:目标用户的性别、目标用户的年龄、目标用户的情绪、目标用户的语速、目标用户的外貌特征、目标用户的对话音量、所述目标对话过程的背景音,所述目标用户对应于所述目标对话过程;
计算单元,用于确定同属于一个优先级的同级感知属性,并依据所述同级感知属性计算对应的优先级对应的最终得分;
第一确定单元,用于依据所述最终得分,确定所述语音机器人的播报策略,其中,所述播报策略为以下至少一种:播报内容、播报方式。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述一种确定语音机器人播报策略的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述一种确定语音机器人播报策略的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111535977.XA CN114283853A (zh) | 2021-12-15 | 2021-12-15 | 一种确定语音机器人播报策略的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111535977.XA CN114283853A (zh) | 2021-12-15 | 2021-12-15 | 一种确定语音机器人播报策略的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114283853A true CN114283853A (zh) | 2022-04-05 |
Family
ID=80872616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111535977.XA Pending CN114283853A (zh) | 2021-12-15 | 2021-12-15 | 一种确定语音机器人播报策略的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283853A (zh) |
-
2021
- 2021-12-15 CN CN202111535977.XA patent/CN114283853A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102360062B1 (ko) | 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체 | |
US10708423B2 (en) | Method and apparatus for processing voice information to determine emotion based on volume and pacing of the voice | |
KR102208990B1 (ko) | 데이터를 전송하기 위한 피드백 컨트롤러 | |
US11062708B2 (en) | Method and apparatus for dialoguing based on a mood of a user | |
JP4972107B2 (ja) | 通話状態判定装置、通話状態判定方法、プログラム、記録媒体 | |
CN110299152A (zh) | 人机对话的输出控制方法、装置、电子设备及存储介质 | |
CN112313930B (zh) | 管理保持的方法和装置 | |
CN112860877A (zh) | 客服作业处理方法、装置、电子设备及存储介质 | |
CN112242135A (zh) | 一种语音数据的处理方法及智能客服装置 | |
CN115982400A (zh) | 基于多模态的情绪图像的生成方法和服务器 | |
CN111370004A (zh) | 人机交互方法、语音处理方法及设备 | |
CN106899486A (zh) | 一种消息显示方法及装置 | |
CN114283853A (zh) | 一种确定语音机器人播报策略的方法及装置 | |
CN111326159B (zh) | 一种语音识别方法、装置、*** | |
CN113132214B (zh) | 一种对话方法、装置、服务器及存储介质 | |
CN110047473B (zh) | 一种人机协作交互方法及*** | |
CN113067952B (zh) | 用于多台机器人的人机协同无感控制方法和装置 | |
CN113506565B (zh) | 语音识别的方法、装置、计算机可读存储介质与处理器 | |
US10148815B2 (en) | Managing telephone interactions of a user and an agent | |
CN112151064A (zh) | 话术播报方法、装置、计算机可读存储介质和处理器 | |
CN113920996A (zh) | 语音交互的处理方法、装置、电子设备与存储介质 | |
US20140156415A1 (en) | Techniques for determining the age and gender of a consumer | |
CN111161706A (zh) | 交互方法、装置、设备和*** | |
CN114189587A (zh) | 通话方法、设备、存储介质及计算机程序产品 | |
CN114420145A (zh) | 音频信号处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |