CN112883350A - 一种数据处理方法、装置、电子设备以及存储介质 - Google Patents

一种数据处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN112883350A
CN112883350A CN201911206373.3A CN201911206373A CN112883350A CN 112883350 A CN112883350 A CN 112883350A CN 201911206373 A CN201911206373 A CN 201911206373A CN 112883350 A CN112883350 A CN 112883350A
Authority
CN
China
Prior art keywords
identity
target
user
template
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911206373.3A
Other languages
English (en)
Inventor
杨广煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911206373.3A priority Critical patent/CN112883350A/zh
Publication of CN112883350A publication Critical patent/CN112883350A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、电子设备以及存储介质,方法包括:当一级身份标识处于有效态时,获取目标生物信息;识别与所述目标生物信息对应的业务意图和目标用户身份;获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;基于所述目标二级身份标识执行与所述业务意图对应的业务指令。采用本申请,可以使终端设备执行的业务行为与用户身份相匹配。

Description

一种数据处理方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置以及相关设备。
背景技术
随着互联网技术的飞速发展,互联网用户的数量也在持续增长,在所有应用软件中,视频软件是互联网用户使用频率最高的软件之一。数据显示,视频软件的使用时长在移动设备总使用时长中比例高达34.5%。
在家庭场景下,终端设备(例如,智能电视)往往都是多个家庭成员共有,当家庭成员A使用自己的帐号A登录了终端设备中的视频应用,且观看了视频1时,终端设备会记录该家庭成员A对视频1的观看进度。若另一个家庭成员B再使用该视频应用观看视频1,且并未切换视频应用的登录帐号时,此时终端设备自动跳转到家庭成员A对视频1的观看进度上,造成终端设备执行的业务行为与用户身份不匹配。
发明内容
本申请实施例提供一种数据处理方法、装置以及相关设备,可以使终端设备执行的业务行为与用户身份相匹配。
本申请实施例一方面提供了一种数据处理方法,包括:
当一级身份标识处于有效态时,获取目标生物信息;
识别与所述目标生物信息对应的业务意图和目标用户身份;
获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;
基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
其中,所述目标生物信息包括目标语音数据;
所述识别与所述目标生物信息对应的业务意图和目标用户身份,包括:
将所述目标语音数据转换为文本数据,语义识别所述文本数据,得到所述业务意图;
调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果;所述身份识别模型是根据所述至少一个模板用户身份,以及与所述至少一个模板用户身份分别对应的模板语音数据所生成的分类模型;
若至少一个匹配结果中存在满足匹配条件的匹配结果,则将满足所述匹配条件的匹配结果对应的模板用户身份作为所述目标用户身份;
则所述获取与所述目标用户身份对应的目标二级身份标识,包括:
在所述至少一个模板用户身份对应的二级身份标识集合中,提取所述目标用户身份对应的目标身份标识;所述二级身份标识集合中的二级身份标识是所述一级身份标识的子标识。
其中,还包括:
若所述至少一个匹配结果中不存在满足所述匹配条件的匹配结果,则创建所述目标用户身份;
识别与所述目标语音数据对应的年龄信息,在图像素材库中查找与所述年龄信息相匹配的身份头像;
则所述获取与所述目标用户身份对应的目标二级身份标识,包括:
为所述目标用户身份创建所述目标二级用户标识;
将所述目标二级用户标识设置为所述一级身份标识的子标识;
将所述目标用户身份、所述目标二级身份标识以及所述身份头像进行关联存储。
其中,所述身份识别模型包括特征生成器和模式匹配器;
所述调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果,包括:
基于所述特征生成器,提取所述目标语音数据的目标声纹特征;
基于所述模式匹配器确定所述目标声纹特征与至少一个模板声纹特征之间的匹配概率,将获取到的匹配概率均作为匹配结果;所述至少一个模板声纹特征是所述至少一个模板语音数据分别对应的声纹特征。
其中,所述基于所述特征生成器,提取所述目标语音数据的目标声纹特征,包括:
基于所述特征生成器,提取所述目标语音数据的频谱参数和线性预测参数;所述频谱参数是所述目标语音数据的短时谱特征参数;所述线性预测参数是所述目标语音数据的频谱拟合特征参数;
根据所述频谱参数和所述线性预测参数,得到所述目标声纹特征。
其中,还包括:
获取模板用户身份对应的模板语音数据;
生成与所述模板语音数据对应的身份标签向量;
获取初始分类模型,基于所述初始分类模型预测所述样本语音数据与所述至少一个模板用户身份之间的匹配度,根据获取到的匹配度得到身份预测向量;
根据所述身份标签向量和所述身份预测向量确定分类误差,根据所述分类误差训练所述初始分类模型,得到所述身份识别模型。
其中,还包括:
当所述至少一个匹配结果中存在满足所述匹配条件的匹配结果时,向客户端发送播放动画指令,指示所述客户端播放目标动画;
当所述业务指令执行完成时,向客户端发送停止播放动画指令,指示所述客户端关闭所述目标动画。
其中,所述业务意图包括客户端二级登录对象切换意图;
所述基于所述目标二级身份标识执行与所述业务意图对应的业务指令,包括:
生成与所述客户端二级登录对象切换意图对应的切换指令;所述切换指令属于所述业务指令;
根据所述切换指令,将所述目标二级身份标识作为客户端的二级登录对象。
其中,还包括:
获取与所述目标二级身份标识对应的用户在所述客户端中的行为数据;所述行为数据是用于生成针对所述用户的推荐业务数据;
将所述行为数据以及所述目标二级身份标识进行关联存储。
其中,所述业务意图包括业务数据查询意图;
所述基于所述目标二级身份标识执行与所述业务意图对应的业务指令,包括:
生成与所述业务数据查询意图对应的查询指令;所述查询指令属于所述业务指令;
查询与所述目标二级身份标识对应的目标业务数据,向客户端返回所述目标业务数据。
其中,所述目标二级身份标识所具有的用户权限与所述一级身份标识所具有的用户权限相同。
本申请实施例另一方面提供了一种数据处理装置,包括:
第一获取模块,用于当一级身份标识处于有效态时,获取目标生物信息;
识别模块,用于识别与所述目标生物信息对应的业务意图和目标用户身份;
第二获取模块,用于获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;
确定模块,用于基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
其中,所述目标生物信息包括目标语音数据;
所述识别模块,包括:
转换单元,用于将所述目标语音数据转换为文本数据,语义识别所述文本数据,得到所述业务意图;
调用单元,用于调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果;所述身份识别模型是根据所述至少一个模板用户身份,以及与所述至少一个模板用户身份分别对应的模板语音数据所生成的分类模型;
第一确定单元,用于若至少一个匹配结果中存在满足匹配条件的匹配结果,则将满足所述匹配条件的匹配结果对应的模板用户身份作为所述目标用户身份;
则所述第二获取模块,包括:
第一提取单元,用于在所述至少一个模板用户身份对应的二级身份标识集合中,提取所述目标用户身份对应的目标身份标识;所述二级身份标识集合中的二级身份标识是所述一级身份标识的子标识。
其中,还包括:
第二确定单元,用于若所述至少一个匹配结果中不存在满足所述匹配条件的匹配结果,则创建所述目标用户身份,识别与所述目标语音数据对应的年龄信息,在图像素材库中查找与所述年龄信息相匹配的身份头像;
则所述第二获取模块,包括:
第二提取单元,用于为所述目标用户身份创建所述目标二级用户标识,将所述目标二级用户标识设置为所述一级身份标识的子标识,将所述目标用户身份、所述目标二级身份标识以及所述身份头像进行关联存储。
其中,所述身份识别模型包括特征生成器和模式匹配器;
所述调用单元,包括:
提取子单元,用于基于所述特征生成器,提取所述目标语音数据的目标声纹特征;
匹配子单元,用于基于所述模式匹配器确定所述目标声纹特征与至少一个模板声纹特征之间的匹配概率,将获取到的匹配概率均作为匹配结果;所述至少一个模板声纹特征是所述至少一个模板语音数据分别对应的声纹特征。
其中,所述提取子单元,具体用于基于所述特征生成器,提取所述目标语音数据的频谱参数和线性预测参数,根据所述频谱参数和所述线性预测参数得到所述目标声纹特征;所述频谱参数是所述目标语音数据的短时谱特征参数;所述线性预测参数是所述目标语音数据的频谱拟合特征参数。
其中,还包括:
训练模块,用于获取模板用户身份对应的模板语音数据,生成与所述模板语音数据对应的身份标签向量,获取初始分类模型,基于所述初始分类模型预测所述模板语音数据与所述至少一个模板用户身份之间的匹配度,根据获取到的匹配度得到身份预测向量,根据所述身份标签向量和所述身份预测向量确定分类误差,根据所述分类误差训练所述初始分类模型,得到所述身份识别模型。
其中,还包括:
播放模块,用于当所述至少一个匹配结果中存在满足所述匹配条件的匹配结果时,向客户端发送播放动画指令,指示所述客户端播放目标动画;
所述播放模块,还用于当所述业务指令执行完成时,向客户端发送停止播放动画指令,指示所述客户端关闭所述目标动画。
其中,所述业务意图包括客户端二级登录对象切换意图;
所述确定模块,包括:
第一生成单元,用于生成与所述客户端二级登录对象切换意图对应的切换指令,根据所述切换指令,将所述目标二级身份标识作为客户端的二级登录对象;所述切换指令属于所述业务指令。
其中,还包括:
存储模块,用于获取与所述目标二级身份标识对应的用户在所述客户端中的行为数据,将所述行为数据以及所述目标二级身份标识进行关联存储;所述行为数据是用于生成针对所述用户的推荐业务数据。
其中,所述业务意图包括业务数据查询意图;
所述确定模块,包括:
第二生成单元,用于生成与所述业务数据查询意图对应的查询指令,查询与所述目标二级身份标识对应的目标业务数据,向客户端返回所述目标业务数据;所述查询指令属于所述业务指令。
其中,所述目标二级身份标识所具有的用户权限与所述一级身份标识所具有的用户权限相同。
本申请实施例另一方面提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本申请实施例中一方面中的方法。
本申请实施例另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本申请实施例中一方面中的方法。
本申请通过识别产生当前生物信息的用户身份和业务意图,可以确定与该用户身份对应的目标二级身份标识,因此基于目标二级身份标识所执行的业务指令不仅满足用户当前的业务意图,且与用户身份相匹配的;进一步地,本申请中只需要采集用户的目标生物信息,可以同时确定用户的业务意图和用户身份,用户不必执行确定业务意图和确定用户身份两次操作,可以降低用户操作成本,提高终端执行与用户的业务意图和用户身份均匹配的业务指令的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理的***架构图;
图2a-图2d是本申请实施例提供的一种数据处理的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种数据处理方法的时序图;
图6是本申请实施例提供的一种确定目标用户身份和目标二级身份标识的流程示意图;
图7是本申请实施例提供的另一种数据处理方法的流程示意图;
图8是本申请实施例提供的另一种数据处理方法的时序图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的语音技术(SpeechTechnology)、自然语言处理(Nature Language processing,NLP)和机器学习(MachineLearning,ML)。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在本申请中,涉及到语音技术的是将用户的语音转换为文本,涉及到自然语言处理的是语义识别文本,以确定用户的意图。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。在本申请中,涉及到机器学习的是识别当前用户的用户身份,具体的技术手段涉及机器学习中的人工神经网络以及逻辑回归等技术。
请参见图1,是本申请实施例提供的一种数据处理的***架构图。本申请涉及服务器10d以及终端设备集群,终端设备集群可以包括:终端设备10a、终端设备10b、...、终端设备10c等。
以终端设备10a为例,当一级身份标识处于有效态时,终端设备10a采集用户的生物信息,将采集到的生物信息发送至服务器10d。服务器10d对生物信息进行语义识别,确定该生物信息的意图;服务器10d一并确定生物信息的用户身份,提取该用户身份的二级身份标识,提取的二级身份标识是一级身份标识的子标识。服务器10d基于确定的二级身份标识执行与上述意图相关的指令。后续,服务器10d可以将指令的执行结果返回至终端设备10a。
识别生物信息的意图、确定生物信息的用户身份以及执行与意图相关的指令也可以由终端设备10a来完成。
其中,图1所示的终端设备10a、终端设备10b、...、终端设备10c等可以包括智能电视、手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internetdevice)或者可穿戴设备(例如智能手表、智能手环等)等。图1所示的服务器10d可以指单个服务器设备,也可以指包含多个服务器设备的服务器集群。
下述图2a-图2d以终端设备10a如何识别生物信息的意图、确定生物信息的用户身份以及执行与意图相关的指令为例进行具体的说明,且识别生物信息的意图以及、确定生物信息的用户身份以及执行与意图相关的指令可以具体为终端设备10a中的视频客户端:
请参见图2a-图2d,是本申请实施例提供的一种数据处理的场景示意图。当前用户启动终端设备10a中视频客户端,当视频客户端检测到一级帐号“01”已登录,但未有一级帐号“01”下属的二级帐号登录时,可以在屏幕上显示提示信息:“当前未登录二级帐号哦,语音输入或者点击此处可以登录”,以提示当前用户登录二级帐号,其中,一级帐号“01”是用户1的一级帐号。
当前用户可以语音输入:“登录一下二级帐号”,视频客户端可以获取到语音“登录一下二级帐号”的语音数据20b,视频客户端将语音数据20b转换为文本数据,语义识别该文本数据,确定与语音数据20b对应的意图为:“二级帐号登录”。
视频客户端将语音数据20b输入已经训练好的与一级帐号“01”对应的预测模型20d,预测模型20d可以提取语音数据20b的声纹特征,以及将该声纹特征与多个模板声纹特征进行匹配,若多个模板声纹特征中存在与语音数据20b的声纹特征匹配的模板声纹特征,提取出该匹配的模板声纹特征对应的用户身份(假设,提取出来的用户身份是用户2)。
预测模型20d中的每个模板声纹特征都对应1个用户身份,假设预测模型20d是由2个模板声纹特征训练得来的,这2个模板声纹特征分别对应的用户身份为:用户1和用户2,且用户1的二级帐号和用户2的二级帐号都是当前一级帐号“01”的子帐号。
如图2b所示,在与一级帐号“01”对应的用户信息记录表20e中查找与用户2对应的二级帐号为:002。
从图2b可以看出:用户信息记录表20e包括3条用户记录,3条用户记录分别对应一个一级帐号“01”以及一级帐号“01”下属的2个二级帐号(分别是二级帐号“001”和二级帐号“002”);一级帐号“01”和二级帐号“001”都是用户1的帐号,二级帐号“002”是用户2的帐号;用户的历史记录都是与二级帐号关联存储的。
视频客户端提取出用户2的二级帐号:002,由于前述中确定的语音数据20b的意图是:“二级帐号登录”,因此可以将二级帐号“002”作为视频客户端的二级登录对象。
如图2b中的页面20f所示,视频客户端在确定语音数据20b的意图,以及确定二级帐号“002”的过程中可以在屏幕中显示动画,当视频客户端已经将二级帐号“002”作为二级登录对象时,停止播放动画,跳转到视频客户端的首页。
如页面20g所示,视频客户端当前登录了二级帐号“002”以及一级帐号“01”。
可选的,前述是假设多个模板声纹特征中存在与语音数据20b的声纹特征匹配的模板声纹特征,从而确定了与语音数据20b对应的用户身份是用户2。
如图2c所示,假设多个模板声纹特征中不存在与语音数据20b的声纹特征匹配的模板声纹特征,也就是说,产生语音数据20b的当前用户并不存在对应的用户身份,以及在用户信息记录表20c中并不存在对应的用户记录。由于不存在对应的用户记录,视频客户端可以为当前用户创建1条新的用户记录,且该用户记录中包括:用户身份“用户2”、二级帐号“002”、头像、等级“2级”以及历史记录(当然,此时的历史记录是空)。
视频客户端将该用户记录添加至用户信息记录表20c中,添加后可以得到新的用户信息记录表20h。
视频客户端提取出新创建的用户2的二级帐号:002,由于前述中确定的语音数据20b的意图是:“二级帐号登录”,因此可以将二级帐号“002”作为视频客户端的二级登录对象。
如图2d中的页面20i所示,视频客户端创建二级帐号“002”,且登录了二级帐号“002”后,可以在屏幕中显示提示消息:“未检测到您的二级帐号,为您新创建一个二级帐号,并已登陆”,用于提示当前用户创建了新的二级帐号。
如页面20j所示,视频客户端当前登录了新创建的二级帐号“002”以及一级帐号“01”。
其中,获取目标生物信息(如上述实施例中的语音“登录一下二级帐号”的语音数据20b),识别业务意图(如上述实施例中的意图“二级帐号登录”)和目标用户身份(如上述实施例中的用户2)的具体过程可以参见下述图3-图8对应的实施例。
请参见图3,是本申请实施例提供的一种数据处理方法的流程示意图,如图3所示,数据处理方法可以包括如下步骤:
步骤S101,当一级身份标识处于有效态时,获取目标生物信息。
具体的,服务器(如上述图1对应实施例中的服务器10d)检测一级身份标识是否为当前对应客户端(如上述图2a-图2d对应实施例中的视频客户端)的一级登录对象,若一级身份标识是客户端的一级登录对象,说明该一级身份标识处于有效态。客户端的登录对象可以包括一级登录对象和二级登录对象,一级登录对象对应一级身份标识,二级登录对象对应二级身份标识,二级身份标识是一级身份标识的子标识。
客户端可以具体是视频客户端,即时通讯客户端,或者邮件客户端等。
当一级身份标识处于有效态时,服务器可以接收客户端发送的生物信息(称为目标生物信息,如上述图2a-图2d对应实施例中的语音“登录一下二级帐号”的语音数据20b)。
目标生物信息可以包括语音数据(称为目标语音数据),目标生物信息也可以包括语音数据(称为目标语音数据)和图像数据(称为目标图像数据),其中目标图像数据可以是当前用户的脸部图像数据。
步骤S102,识别与所述目标生物信息对应的业务意图和目标用户身份。
具体的,当目标生物信息包括目标语音数据时,服务器可以通过将目标语音数据转换为文本数据,语义识别该文本数据,以确定该目标语音数据的业务意图。
以及,服务器可以通过与第一身份标识对应的身份识别模型(如上述图2a-图2d对应实施例中的预测模型20d),确定当前用户的用户身份(称为目标用户身份,如上述图2a-图2d对应实施例中的用户2)。
服务器确定业务意图以及确定目标用户身份的先后顺序没有限定。
其中,将目标语音语音数据转换为文本数据可以采用声学模型(声学模型可以是基于模式匹配的动态时间规整法所建立的模型,或者基于人工神经网络识别法所建立的模型等),确定目标语音数据的每个音频帧的状态,将若干个状态合并为音素,再将若干个音素合并为词语。
采用语言模型(语言模型可以是N-Gram语言模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)或者决策树模型(Decision Tree Models)等)将多个词语组合为正确、无歧义且有逻辑性的语句,以得到文本数据。
语义识别该文本数据,以确定文本数据的业务意图,可以采用实体-谓词知识图谱与文本数据进行模式匹配,进而确定文本数据中的实体和谓词。服务器可以将识别出来的实体和谓词组合为业务意图。
举例来说,当前用户语音输入:“查询一下历史播放记录”,将上述语音数据转换为文本数据“查询一下历史播放记录”后,采用知识图谱可以确定实体为:“历史播放记录”,谓词为“查询”,因此业务意图为:历史播放记录-查询。
其中,身份识别模型是通过至少一个模板用户身份,以及该模板用户身份对应的语音数据(称为模板语音数据)所训练的分类模型,每个模板用户身份都存在与之对应的二级身份标识(如上述图2a-图2d对应实施例中的二级帐号“001”和二级帐号“002”,身份标识可以是用户帐号),且每个模板用户身份的二级身份标识都是一级身份标识的子标识。
当目标生物信息包括目标语音数据和目标图像数据时,服务器同样可以按照上述方式确定目标语音数据的业务意图,以及根据身份识别模型确定目标语音数据的用户身份(称为第一用户身份);
服务器还可以根据图像识别模型确定目标图像数据的用户身份(称为第二用户身份),图像识别模型和身份识别模型类似,都是通过至少一个模板用户身份,以及该模板用户身份对应的图像数据(称为模板图像数据)所训练的分类模型。
服务器可以根据身份识别模型所确定的第一用户身份以及图像识别模型所确定的第二用户身份来确定最终的目标用户身份,基于两个模型所确定的目标用户身份具有更高的准确率。
或者是,当目标生物信息包括目标语音数据和目标图像数据时,服务器同样可以按照上述方式确定目标语音数据的业务意图,以及仅根据图像识别模型确定目标图像数据的目标用户身份。
步骤S103,获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识。
具体的,服务器可以从至少一个模板用户身份对应的二级身份标识集合中获取目标用户身份的目标二级身份标识(如上述图2a-图2d对应实施例中的二级帐号“002”),或者重新创建目标二级身份标识,且目标二级身份标识是一级身份标识的子标识。
步骤S104,基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
具体的,当业务意图是客户端二级登录对象切换意图时,服务器生成与客户端二级登录对象切换意图对应的切换指令,该切换指令是用于指示服务器切换客户端当前的二级登录对象;该切换指令属于业务指令。
服务器可以根据该切换指令,将目标二级身份标识作为客户端当前的二级登录对象。后续,服务器可以将切换通知消息下发至客户端,以使客户端接收到该切换通知消息后,可以显示提示消息,用于提示用户当前二级登录对象为目标二级身份标识。
后续,当客户端的二级登录对象是目标二级身份标识时,服务器可以接收客户端上报的行为数据(行为数据可以包括:观看行为数据、浏览行为数据、搜索行为数据以及评论行为数据中的至少一个),其中该行为数据是当客户端的二级登录对象是目标二级身份标识时,客户端采集的用户的用户行为数据。
服务器可以将目标二级身份标识与客户端上报的行为数据进行关联存储。后续,服务器可以基于行为数据生成针对该用户的推荐业务数据,以达到个性化推荐的目的。
当业务意图是业务数据查询意图时,服务器生成与业务数据查询意图对应的查询指令,该查询指令是用于指示服务器查询业务数据;该查询指令属于业务指令。例如,查询历史观看记录,查询观看进度记录,查询搜索记录等。
服务器可以根据该查询指令,查询与目标二级身份标识相关的业务数据(称为目标业务数据),后续,服务器可以将查询到的目标业务数据返回至客户端,以使客户端接收到该目标业务数据后,可以展示该目标业务数据。
或者,服务器生成查询指令后,可以先将目标二级身份标识作为客户端的二级登录对象,与此同时,执行与查询指令相关的查询操作。
需要说明的是,目标二级身份标识所具有的用户权限和一级身份标识所具有的用户权限相同,进一步说,所有一级身份标识的子标识所具有的用户权限与一级身份标识的用户权限都相同。
举例来说,若一级身份标识具有会员VIP权限,那么一级身份标识的子标识(包括目标二级身份标识以及前述中的模板用户身份的二级身份标识)都具有会员VIP权限的。
不同等级的用户身份标识对应不同的功能架构,一级身份标识可以用于管理会员权限,以及用于统计所有的二级身份标识的统计信息(例如,观看总时长等)。二级身份标识是用于管理每个用户身份的个性化信息。
需要说明的是,上述步骤S101-步骤S104是以服务器为执行主体进行描述,执行主体也可以是安装在终端设备(如上述图2a-图2d对应实施例中的终端设备10a)中的客户端,终端设备可以是智能电视,客户端可以是安装在智能电视中的视频客户端。
当一级身份标识处于有效态时,客户端采集目标生物信息,并由客户端来识别目标生物信息的业务意图以及调用身份识别模型来确定目标用户身份;客户端获取目标用户身份的目标二级身份标识,以及基于目标二级身份标识执行业务意图对应的业务指令,例如,将目标二级身份标识作为客户端的二级登录对象的业务指令,查询目标二级身份标识对应的目标业务数据的业务指令等。
本申请通过识别产生当前生物信息的用户身份和业务意图,可以确定与该用户身份对应的目标二级身份标识,因此基于目标二级身份标识所执行的业务指令不仅满足用户当前的业务意图,且与用户身份相匹配的;进一步地,本申请中只需要采集用户的目标生物信息,可以同时确定用户的业务意图和用户身份,用户不必执行确定业务意图和确定用户身份两次操作,可以降低用户操作成本,提高终端执行与用户的业务意图和用户身份均匹配的业务指令的效率。
请参见图4,是本申请实施例提供的另一种数据处理方法的流程示意图,数据处理包括如下步骤:
步骤S201,流程开始。
步骤S202,服务器获取语音数据。
具体的,当前一级帐号(可以对应本申请中的一级身份标识)登录了客户端,即一级帐号处于有效态,服务器接收客户端发送的语音数据,其中该语音数据是用户在客户端中语音输入“登录子帐号”时,客户端所采集到的数据。
步骤S203,服务器判断是否已存在该声纹。
具体的,服务器语义识别语音数据,确定业务意图为登录子帐号。
服务器通过调用一级帐号的身份识别模型,判断是否已经存在与上述语音数据的声纹特征匹配的模板声纹特征,若存在,执行步骤S204、步骤S206;若不存在,则执行步骤步骤S205-步骤S206。
步骤S204,服务器将二级帐号登录客户端。
具体的,服务器将匹配的声纹特征对应的二级帐号(可以对应本申请中的目标二级身份标识)设置为客户端的二级登录帐号,此时客户端中登录了一个一级帐号和一个二级帐号。
步骤S205,服务器创建一个新的二级帐号(可以对应本申请中的目标二级身份标识),且该二级帐号是一级帐号的子帐号,将新创建的二级帐号与声纹特征关联存储,且将新创建的二级帐号作为客户端的二级登录帐号。
步骤S206,结束流程。
请进一步参见图5,是本申请实施例提供的一种数据处理方法的时序图,下面描述的视频后台服务器、语音识别服务器以及声纹识别服务器都属于本申请中的服务器,数据处理包括如下步骤:
步骤S301,一级帐号处于有效态,客户端采集用户输入的语音数据“进入子帐号”。
步骤S302,客户端将语音数据发送至视频后台服务器。
步骤S303,视频后台服务器将语音数据发送至语音识别服务器。
步骤S304,视频后台服务器将语音数据发送至声纹识别服务器。
步骤S305,语音识别服务器对语音数据进行语义识别,确定业务意图为访问二级帐号,语音识别服务器将确定的业务意图发送回视频后台服务器。
步骤S306,声纹识别服务器根据一级帐号对应的身份识别模型,对语音数据进行声纹识别,得到声纹识别结果,声纹识别服务器将声纹识别结果发送回视频后台服务器。
步骤S307,视频后台服务器生成业务意图对应的访问二级帐号指令。
步骤S308,视频后台服务器根据声纹识别结果判断是否已经存在对应的二级帐号,若存在,根据访问二级帐号指令向客户端返回二级帐号对应的业务数据;若不存在,创建一个新的二级帐号,且该二级帐号是一级帐号的子帐号。
本申请通过识别产生当前生物信息的用户身份和业务意图,可以确定与该用户身份对应的目标二级身份标识,因此基于目标二级身份标识所执行的业务指令不仅满足用户当前的业务意图,且与用户身份相匹配的;进一步地,本申请中只需要采集用户的目标生物信息,可以同时确定用户的业务意图和用户身份,用户不必执行确定业务意图和确定用户身份两次操作,降低用户操作成本,提高终端执行与用户的业务意图和用户身份均匹配的业务指令的效率。
请参见图6,是本申请实施例提供的一种确定目标用户身份和目标二级身份标识的流程示意图,确定目标用户身份和目标二级身份标识包括如下步骤S401-步骤S404,且步骤S401-步骤S404是上述图3对应实施例中的步骤S102-步骤S103的具体实施例:
步骤S401,将所述目标语音数据转换为文本数据,语义识别所述文本数据,得到所述业务意图。
具体的,当目标生物信息是目标语音数据时,服务器按照预设帧长和预设帧移,将目标语音数据划分为多个音频帧,且音频帧与音频帧之间存在部分重叠,重叠长度就等于预设帧移。
例如,按照帧长为20ms,帧移为10ms划分时间维度为0-30ms的目标语音数据,可以划分为音频帧1:0-20ms之间的语音数据以及音频帧2:10-30ms之间的语音数据。
提取每一个音频帧的频谱参数,其中频谱参数是音频帧的短时谱特征参数,短时谱特征参数是基于发声器官如声门、声道或鼻腔的生理结构等而提取的参数。
短时频谱特征参数可以包括:在基音频谱及其轮廓、基音帧的能量、谱包络、基音共振峰的出现频率及其轨迹等参数中的至少一个。
提取每个音频帧的线性预测参数,其中线性预测参数是音频帧的频谱拟合特征参数,从听觉角度来说,频谱拟合特征参数是通过模拟人耳对声音频率感知的特性而提出了参数,从数学角度来说,频谱拟合特征参数是若干“过去”的音频帧来逼近当前的音频帧,用相应的逼近参数来估计的语音特征。
频谱拟合特征参数可以包括:线性预测倒谱(LPCC)、线谱对(LSP)、自相关和对数面积比、Mel频率倒谱(MFCC)、感知线性预测(PLP)等参数中的至少一个。
按照上述方式,将每一个音频帧所提取的频谱参数和线性预测参数组合一个向量,因此每一个音频帧都可以表达成一个多维向量(也可以称为特征向量)。采用声学模型确定每个音频帧对应的特征向量所属的状态,一般来说,相邻音频帧的状态应该是相同的,这是因为每一个音频帧的帧长都比较短,是毫秒ms级别的。
将若干个音频帧(一般是3个音频帧)对应的状态合并为一个音素,音素是最小的语音单位,音素是从音色的角度分出来的单位,一个音素单独存在,或几个音素结合起来叫做音节。
再将若干个音素合并为词语(或者是单词)。由于语音信号的时变性、噪声和其它一些不稳定因素,每一个词语都和上下文具有密切关系,为了进一步提高语音文本转换的准确率,还要根据所有词语的上下文,作适应性的调整。因此,服务器可以采用语言模型,将识别出来的词语组成有逻辑、无歧义的语句,可以得到与目标语音数据对应对的文本数据。
服务器可以获取实体-谓词知识图谱,实体-谓词知识图谱中包括多个实体字符串和谓词字符串,且每个实体字符串(或者谓词字符串)都标识出该字符串是实体属性或者是谓词属性。服务器可以采用多模式串匹配算法(多模式串匹配算法可以包括:AC自动机、散列函数匹配等)将文本数据与实体-谓词知识图谱进行多模式串匹配,确定文本数据中匹配的字符串以及该字符串是实体属性或者谓词属性。服务器可以将文本数据中属于实体属性的字符串作为实体,属于谓词属性的字符串作为谓词。将从文本数据中识别到的实体以及谓词组合为业务意图。
步骤S402,调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果;所述身份识别模型是根据所述至少一个模板用户身份,以及与所述至少一个模板用户身份分别对应的模板语音数据所生成的分类模型。
具体的,服务器获取一级身份标识对应的身份识别模型,该身份识别模型是根据至少一个模板用户身份,以及每个模板用户身份对应的模板语音数据所训练的分类模型,模板用户身份可以理解为是服务器已经创建过的用户身份,每个模板用户身份都存在与之对应的二级身份标识,且该二级身份标识是一级身份标识的子标识。
身份识别模型包括特征生成器和模式匹配器:
特征生成器是用于将目标语音数据划分为多个音频帧,以及提取每个音频帧的频谱参数和线性预测参数(提取每个音频帧的频谱参数和线性预测参数的过程可以参见上述步骤S401),将所有音频帧的频谱参数组合为目标语音数据的频谱参数,将所有音频帧的线性预测参数组合为目标语音数据的线性预测参数。按照预定顺序将目标语音数据的频谱参数和目标语音数据的线性预测参数组合为目标语音数据的声纹特征(称为目标声纹特征)。
模式匹配器是用于识别目标声纹特征与至少一个模板声纹特征之间的相似度(或者匹配概率),将获取到的至少一个匹配概率均作为匹配结果,模板声纹特征是模板语音数据的声纹特征(模板声纹特征的提取过程与目标生物特征的提取过程相同)。
由于模板语音数据是模板用户身份对应的语音数据,因此目标生物特征与至少一个模板声纹特征之间的相似度(或者说是匹配结果),就等同于目标语音数据与至少一个模板用户身份之间的匹配度。
模式匹配器是可以BP(Back Propagation,反向传播)神经网络模型、卷积神经网络模型或者各种回归模型(例如,线性回归模型、逻辑回归模型)等具有预测分类功能的模型。
步骤S403,若至少一个匹配结果中存在满足匹配条件的匹配结果,则将满足匹配条件的匹配结果对应的模板用户身份作为所述目标用户身份。
具体的,服务器获取预设概率阈值。若匹配结果大于预设概率阈值,则说明将该匹配结果是满足匹配条件的匹配结果。
当获取到的至少一个匹配结果中存在满足匹配条件的匹配结果时,将该满足匹配条件的匹配结果对应的模板用户身份作为目标用户身份。
步骤S404,在所述至少一个模板用户身份对应的二级身份标识集合中,提取所述目标用户身份对应的目标身份标识;所述二级身份标识集合中的二级身份标识是所述一级身份标识的子标识。
具体的,每个模板用户身份都存在与之对应的二级身份标识,且每个模板用户身份的二级身份标识都是一级身份标识的子标识,所有模板用户身份的二级身份标识可以组合为二级身份标识集合。
服务器可以从上述二级身份标识集合中,提取目标用户身份(即是满足匹配条件的匹配结果对应的模板用户身份)的二级身份标识,作为目标二级身份标识。
举例来说,目标语音数据的目标声纹特征与模板声纹特征1(对应模板用户身份1)之间的匹配概率是0.1,目标声纹特征与模板声纹特征2(对应模板用户身份2)之间的匹配概率是0.8,目标声纹特征与模板声纹特征3(对应模板用户身份3)之间的匹配概率是0.1。若预设概率阈值是0.5,那么说明目标生物特征与模板声纹特征2之间的匹配结果是满足匹配条件的,服务器可以将模板用户身份2作为目标用户身份,以及将模板用户身份的二级身份标识作为目标二级身份标识。
可选的,当获取到的至少一个匹配结果中存在满足匹配条件的匹配结果时,服务器可以向客户端发送播放动画指令,以使客户端根据该播放动画指令播放目标动画,目标动画可以是轻量动画。
后续,当与业务意图对应的业务指令执行完成时,服务器可以向客户端发送停止播放动画指令,以使客户端根据该停止播放动画指令停止目标动画。
上述步骤S403-步骤S404描述了当获取到的至少一个匹配结果中存在满足匹配条件的匹配结果时的情况,下面描述当获取到的至少一个匹配结果中不存在满足匹配条件的匹配结果时的情况:
若匹配结果小于或等于预设概率阈值,则说明将该匹配结果是不满足匹配条件的匹配结果。
当获取到的至少一个匹配结果中不存在满足匹配条件的匹配结果时(或者说当获取到的至少一个匹配结果都不满足匹配条件),服务器可以为当前用户创建用户身份(称为目标用户身份),为目标用户身份创建二级身份标识(称为目标二级身份标识),以及将目标二级身份标识设置为一级身份标识的子标识。
服务器还可以识别目标语音数据对应的年龄信息,从图像素材库中查找与该年龄信息匹配的图像,作为身份头像。
服务器可以将目标用户身份、目标二级身份标识以及身份头像关联存储。
后续,服务器可以将目标用户身份作为新的模板用户身份,以及将目标二级用户身份标识添加至目标二级身份标识集合。
举例来说,目标语音数据的目标声纹特征与模板声纹特征1(对应模板用户身份1)之间的匹配概率是0.1,目标声纹特征与模板声纹特征2(对应模板用户身份2)之间的匹配概率是0.2,目标声纹特征与模板声纹特征3(对应模板用户身份3)之间的匹配概率是0.2。若预设概率阈值是0.5,那么说明上述3个匹配结果中不存在满足匹配条件的匹配结果,那么服务器可以重新创建目标用户身份(例如,用户身份4)以及重新为目标用户身份的创建目标二级身份标识,且将重新创建的目标二级身份标识设置为一级标识的子标识。
可选的,上述描述了身份识别模型使用过程,下面描述身份识别模型的训练过程,训练过程以一个模板用户身份以及对应的模板语音数据进行一次模型训练为例进行说明:
服务器获取模板用户身份的模板语音数据,生成模板语音数据的标签向量(称为身份标签向量),该身份标签向量用于标识模板语音数据所属的模板用户身份。
获取初始分类模型,基于初始分类模型预测模板语音数据与至少一个模板用户身份之间的匹配度,将获取到的匹配度组合为身份预测向量。
确定身份标签向量和身份预测向量之间的差异量,作为分类误差,将分类误差反向传播至初始分类模型,以调整初始分类模型中的模型参数。
例如,现有3个模板用户身份(分别为模板用户身份1、模板用户身份2和模板用户身份3),当前训练的是模板用户身份2,那么该模板用户身份2的模板语音数据的身份标签向量为:[0,1,0]。若初始分类模型预测模板用户身份2的模板语音数据与模板用户身份1之间的匹配度是0.4,与模板用户身份2之间的匹配度是0.3,与模板用户身份3之间的匹配度是0.3,那么身份预测向量即是:[0.4,0.3,0.3]。分类误差可以是:(0-0.4)2+(1-0.3)2+(0-0.3)2=0.41。将计算得到的分类误差反向传播至初始分类模型,以调整初始分类模型中的模型参数。
服务器可以采用上述方式不断地训练初始分类模型,当训练次数达到次数阈值,或者当相邻两次调整模型参数的变化量较小时,可以将训练后的初始分类模型作为身份识别模型。
从前述中可知,服务器可能会新创建目标用户身份以及目标二级身份标识,新创建的目标用户身份要作为新的模板用户身份,在这种情况下,服务器需要重新训练身份识别模型,且新的身份识别模型要在原有的身份识别模型基础上新增类别输出,新增的类别输出用于输出语音数据属于新增的目标用户身份的概率。
本申请通过识别产生当前生物信息的用户身份和业务意图,可以确定与该用户身份对应的目标二级身份标识,因此基于目标二级身份标识所执行的业务指令不仅满足用户当前的业务意图,且与用户身份相匹配的;进一步地,本申请中只需要采集用户的目标生物信息,可以同时确定用户的业务意图和用户身份,用户不必执行确定业务意图和确定用户身份两次操作,可以降低用户操作成本,提高终端执行与用户的业务意图和用户身份均匹配的业务指令的效率。
请参见图7,是本申请实施例提供的另一种数据处理方法的流程示意图,数据处理可以包括如下步骤:
步骤S501,流程开始。
步骤S502,服务器获取语音数据。
具体的,当前一级帐号(可以对应本申请中的一级身份标识)登录了客户端,即一级帐号处于有效态,服务器接收客户端发送的语音数据,其中该语音数据是用户在客户端中语音输入“进入子帐号”时,客户端所采集到的数据。
步骤S503,服务器识别语音数据的业务意图为访问二级帐号意图,服务器基于身份识别模型提取语音数据的目标声纹特征,提取目标声纹特征的具体过程可以参见上述图6对应实施例中的步骤S402。
步骤S504,服务器将提取的目标声纹特征和已有的模板声纹特征进行模式匹配。
步骤S505,服务器根据模式匹配结果,确定已有的模板声纹特征中是否有与目标生物特征匹配的模板声纹特征,若存在,执行步骤S507-步骤S508;若不存在,执行步骤S506、步骤S508。
步骤S506,服务器根据访问二级帐号意图创建新的二级帐号(可以对应本申请中的目标二级身份标识),且将该二级帐号与提取的目标声纹特征建立关联关系,以及将新创建的二级帐号登录客户端。
步骤S507,服务器查找匹配的模板声纹特征对应的二级帐号(可以对应本申请中的目标二级身份标识),该二级帐号是已经存在的二级帐号,服务器向客户端返回该二级帐号下的业务数据。
步骤S508,结束流程。
当上述步骤中的客户端是视频客户端,且该视频客户端是安装在智能电视中时,共享该智能电视的各家庭成员通过声纹特征都唯一对应一个用户身份以及二级帐号(可以对应本申请中的二级身份标识),服务器可以基于具有唯一性的二级帐号确定每个家庭成员的观看历史、关注的影片以及声纹特征,从而做到个性化推荐。
下述场景以用户A已经创建了客户端的二级帐号,但用户B还未创建二级帐号为例,进行说明:客户端采集用户输入的语音数据“进入子帐号”。
请进一步参见图8,是本申请实施例提供的另一种数据处理方法的时序图,数据处理方法包括如下步骤:
步骤S601,客户端采集用户A的语音数据。
具体的,当前一级帐号登录了终端设备中的客户端,即一级帐号处于有效态,用户向客户端语音输入“登录子帐号”,客户端采集用户语音输入“进入子帐号”的语音数据。
步骤S602,客户端将上述语音数据发送至服务器。
步骤S603,服务器通过语义识别确定业务意图,以及通过声纹识别匹配到对应二级帐号,将该二级帐号登陆客户端,并查找该二级帐号下的行为数据(例如,用户A的历史观看记录,关注的视频,评论的视频以及搜索记录等),根据该行为数据生成推荐数据。
步骤S604,服务器向客户端返回推荐数据。
步骤S605,客户端采集用户B的语音数据:“登录子帐号”。
步骤S606,客户端将用户B的语音数据上传至服务器。
步骤S607,服务器通过语义识别确定业务意图,以及通过声纹识别未匹配到对应的二级帐号,新建二级帐号,将新建的二级帐号作为一级帐号的子帐号,将该新建的二级帐号登陆客户端。
步骤S608,用户B在客户端中基于新建的二级帐号产生观影行为数据(观看视频、关注的视频,评论的视频以及搜索记录等)。
步骤S609,客户端将该用户B的观影行为数据上传到服务器。
步骤S610,服务器将观影行为数据与新建的二级帐号关联存储,用于后续生成针对用户B的个性化推荐数据。
进一步的,请参见图9,是本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,数据处理装置1可以应用于上述图3-图8对应实施例中的服务器,数据处理装置1可以包括:第一获取模块11、识别模块12、第二获取模块13以及确定模块14。
第一获取模块11,用于当一级身份标识处于有效态时,获取目标生物信息;
识别模块12,用于识别与所述目标生物信息对应的业务意图和目标用户身份;
第二获取模块13,用于获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;
确定模块14,用于基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
其中,第一获取模块11、识别模块12、第二获取模块13以及确定模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
请参见图9,所述目标生物信息包括目标语音数据;
识别模块12可以包括:转换单元121、调用单元122以及第一确定单元123。
转换单元121,用于将所述目标语音数据转换为文本数据,语义识别所述文本数据,得到所述业务意图;
调用单元122,用于调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果;所述身份识别模型是根据所述至少一个模板用户身份,以及与所述至少一个模板用户身份分别对应的模板语音数据所生成的分类模型;
第一确定单元123,用于若至少一个匹配结果中存在满足匹配条件的匹配结果,则将满足所述匹配条件的匹配结果对应的模板用户身份作为所述目标用户身份;
则所述第二获取模块13,可以包括:第一提取单元131。
第一提取单元131,用于在所述至少一个模板用户身份对应的二级身份标识集合中,提取所述目标用户身份对应的目标身份标识;所述二级身份标识集合中的二级身份标识是所述一级身份标识的子标识。
识别模块12,还可以包括:第二确定单元124。
第二确定单元124,用于若所述至少一个匹配结果中不存在满足所述匹配条件的匹配结果,则创建所述目标用户身份,识别与所述目标语音数据对应的年龄信息,在图像素材库中查找与所述年龄信息相匹配的身份头像;
则所述第二获取模块13,可以包括:第二提取单元132。
第二提取单元132,用于为所述目标用户身份创建所述目标二级用户标识,将所述目标二级用户标识设置为所述一级身份标识的子标识,将所述目标用户身份、所述目标二级身份标识以及所述身份头像进行关联存储。
其中,转换单元121、调用单元122、第一确定单元123、第二确定单元124、第一提取单元131以及第二提取单元132的具体过程可以参见上述图6对应实施例中的步骤S401-步骤S404,这里不再进行赘述。
当第一确定单元123以及第一提取单元131确定目标用户身份以及目标二级身份标识时,第二确定单元124以及第二提取单元132不再执行相应步骤;当第二确定单元124以及第二提取单元132确定目标用户身份以及目标二级身份标识时,第一确定单元123以及第一提取单元131不再执行相应步骤。
请参见图9,所述身份识别模型包括特征生成器和模式匹配器;
调用单元122可以包括:提取子单元1221以及匹配子单元1222。
提取子单元1221,用于基于所述特征生成器,提取所述目标语音数据的目标声纹特征;
匹配子单元1222,用于基于所述模式匹配器确定所述目标声纹特征与至少一个模板声纹特征之间的匹配概率,将获取到的匹配概率均作为匹配结果;所述至少一个模板声纹特征是所述至少一个模板语音数据分别对应的声纹特征;
提取子单元1221,具体用于基于所述特征生成器,提取所述目标语音数据的频谱参数和线性预测参数,根据所述频谱参数和所述线性预测参数得到所述目标声纹特征;所述频谱参数是所述目标语音数据的短时谱特征参数;所述线性预测参数是所述目标语音数据的频谱拟合特征参数。
其中,提取子单元1221以及匹配子单元1222的具体过程可以参见上述图6对应实施例中的步骤S402,这里不再进行赘述。
请参见图9,所述业务意图包括客户端二级登录对象切换意图;
所述确定模块14,包括:第一生成单元141。
第一生成单元141,用于生成与所述客户端二级登录对象切换意图对应的切换指令,根据所述切换指令,将所述目标二级身份标识作为客户端的二级登录对象;所述切换指令属于所述业务指令。
其中,第一生成单元141的具体过程可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
请参见图9,所述业务意图包括业务数据查询意图;
所述确定模块14,可以包括:第二生成单元142。
第二生成单元142,用于生成与所述业务数据查询意图对应的查询指令,查询与所述目标二级身份标识对应的目标业务数据,向客户端返回所述目标业务数据;所述查询指令属于所述业务指令。
其中,第二生成单元142的具体过程可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
请参见图9,数据处理装置1可以包括:第一获取模块11、识别模块12、第二获取模块13以及确定模块14,还可以包括:存储模块15、训练模块16以及播放模块17。
存储模块15,用于获取与所述目标二级身份标识对应的用户在所述客户端中的行为数据,将所述行为数据以及所述目标二级身份标识进行关联存储;所述行为数据是用于生成针对所述用户的推荐业务数据。
训练模块16,用于获取模板用户身份对应的模板语音数据,生成与所述模板语音数据对应的身份标签向量,获取初始分类模型,基于所述初始分类模型预测所述模板语音数据与所述至少一个模板用户身份之间的匹配度,根据获取到的匹配度得到身份预测向量,根据所述身份标签向量和所述身份预测向量确定分类误差,根据所述分类误差训练所述初始分类模型,得到所述身份识别模型。
播放模块17,用于当所述至少一个匹配结果中存在满足所述匹配条件的匹配结果时,向客户端发送播放动画指令,指示所述客户端播放目标动画;
所述播放模块17,还用于当所述业务指令执行完成时,向客户端发送停止播放动画指令,指示所述客户端关闭所述目标动画。
其中,存储模块15、训练模块16以及播放模块17的具体过程可以参见上述图6对应实施例中的步骤S404,这里不再进行赘述。
进一步地,请参见图10,是本发明实施例提供的一种电子设备的结构示意图。上述图3-图8对应实施例中的服务器可以为电子设备1000,如图10所示,所述电子设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至电子设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图10所示的电子设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
当一级身份标识处于有效态时,获取目标生物信息;
识别与所述目标生物信息对应的业务意图和目标用户身份;
获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;
基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
应当理解,本发明实施例中所描述的电子设备1000可执行前文图3到图8所对应实施例中对所述数据处理方法的描述,也可执行前文图9所对应实施例中对所述数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图3到图8所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
当一级身份标识处于有效态时,获取目标生物信息;
识别与所述目标生物信息对应的业务意图和目标用户身份;
获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;
基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
2.根据权利要求1所述的方法,其特征在于,所述目标生物信息包括目标语音数据;
所述识别与所述目标生物信息对应的业务意图和目标用户身份,包括:
将所述目标语音数据转换为文本数据,语义识别所述文本数据,得到所述业务意图;
调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果;所述身份识别模型是根据所述至少一个模板用户身份,以及与所述至少一个模板用户身份分别对应的模板语音数据所生成的分类模型;
若至少一个匹配结果中存在满足匹配条件的匹配结果,则将满足所述匹配条件的匹配结果对应的模板用户身份作为所述目标用户身份;
则所述获取与所述目标用户身份对应的目标二级身份标识,包括:
在所述至少一个模板用户身份对应的二级身份标识集合中,提取所述目标用户身份对应的目标身份标识;所述二级身份标识集合中的二级身份标识是所述一级身份标识的子标识。
3.根据权利要求2所述的方法,其特征在于,还包括:
若所述至少一个匹配结果中不存在满足所述匹配条件的匹配结果,则创建所述目标用户身份;
识别与所述目标语音数据对应的年龄信息,在图像素材库中查找与所述年龄信息相匹配的身份头像;
则所述获取与所述目标用户身份对应的目标二级身份标识,包括:
为所述目标用户身份创建所述目标二级用户标识;
将所述目标二级用户标识设置为所述一级身份标识的子标识;
将所述目标用户身份、所述目标二级身份标识以及所述身份头像进行关联存储。
4.根据权利要求2所述的方法,其特征在于,所述身份识别模型包括特征生成器和模式匹配器;
所述调用与所述一级身份标识对应的身份识别模型确定所述目标语音数据与至少一个模板用户身份之间的匹配结果,包括:
基于所述特征生成器,提取所述目标语音数据的目标声纹特征;
基于所述模式匹配器确定所述目标声纹特征与至少一个模板声纹特征之间的匹配概率,将获取到的匹配概率均作为匹配结果;所述至少一个模板声纹特征是所述至少一个模板语音数据分别对应的声纹特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述特征生成器,提取所述目标语音数据的目标声纹特征,包括:
基于所述特征生成器,提取所述目标语音数据的频谱参数和线性预测参数;所述频谱参数是所述目标语音数据的短时谱特征参数;所述线性预测参数是所述目标语音数据的频谱拟合特征参数;
根据所述频谱参数和所述线性预测参数,得到所述目标声纹特征。
6.根据权利要求2所述的方法,其特征在于,还包括:
获取模板用户身份对应的模板语音数据;
生成与所述模板语音数据对应的身份标签向量;
获取初始分类模型,基于所述初始分类模型预测所述模板语音数据与所述至少一个模板用户身份之间的匹配度,根据获取到的匹配度得到身份预测向量;
根据所述身份标签向量和所述身份预测向量确定分类误差,根据所述分类误差训练所述初始分类模型,得到所述身份识别模型。
7.根据权利要求2所述的方法,其特征在于,还包括:
当所述至少一个匹配结果中存在满足所述匹配条件的匹配结果时,向客户端发送播放动画指令,指示所述客户端播放目标动画;
当所述业务指令执行完成时,向客户端发送停止播放动画指令,指示所述客户端关闭所述目标动画。
8.根据权利要求1所述的方法,其特征在于,所述业务意图包括客户端二级登录对象切换意图;
所述基于所述目标二级身份标识执行与所述业务意图对应的业务指令,包括:
生成与所述客户端二级登录对象切换意图对应的切换指令;所述切换指令属于所述业务指令;
根据所述切换指令,将所述目标二级身份标识作为客户端的二级登录对象。
9.根据权利要求8所述的方法,其特征在于,还包括:
获取与所述目标二级身份标识对应的用户在所述客户端中的行为数据;所述行为数据是用于生成针对所述用户的推荐业务数据;
将所述行为数据以及所述目标二级身份标识进行关联存储。
10.根据权利要求1所述的方法,其特征在于,所述业务意图包括业务数据查询意图;
所述基于所述目标二级身份标识执行与所述业务意图对应的业务指令,包括:
生成与所述业务数据查询意图对应的查询指令;所述查询指令属于所述业务指令;
查询与所述目标二级身份标识对应的目标业务数据,向客户端返回所述目标业务数据。
11.根据权利要求1所述的方法,其特征在于,所述目标二级身份标识所具有的用户权限与所述一级身份标识所具有的用户权限相同。
12.一种数据处理装置,其特征在于,包括:
第一获取模块,用于当一级身份标识处于有效态时,获取目标生物信息;
识别模块,用于识别与所述目标生物信息对应的业务意图和目标用户身份;
第二获取模块,用于获取与所述目标用户身份对应的目标二级身份标识;所述目标二级身份标识是所述一级身份标识的子标识;
确定模块,用于基于所述目标二级身份标识执行与所述业务意图对应的业务指令。
13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-11中任一项所述方法的步骤。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-11任一项所述的方法。
CN201911206373.3A 2019-11-29 2019-11-29 一种数据处理方法、装置、电子设备以及存储介质 Pending CN112883350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911206373.3A CN112883350A (zh) 2019-11-29 2019-11-29 一种数据处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911206373.3A CN112883350A (zh) 2019-11-29 2019-11-29 一种数据处理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN112883350A true CN112883350A (zh) 2021-06-01

Family

ID=76039056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911206373.3A Pending CN112883350A (zh) 2019-11-29 2019-11-29 一种数据处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112883350A (zh)

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US20210142794A1 (en) Speech processing dialog management
US10395655B1 (en) Proactive command framework
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
CN109155132A (zh) 说话者验证方法和***
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
EP3424044A1 (en) Modular deep learning model
CN113168832A (zh) 交替响应生成
US10224030B1 (en) Dynamic gazetteers for personalized entity recognition
US10504512B1 (en) Natural language speech processing application selection
CN112071330A (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
US11532301B1 (en) Natural language processing
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
US20210034662A1 (en) Systems and methods for managing voice queries using pronunciation information
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN116417003A (zh) 语音交互***、方法、电子设备和存储介质
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN110853669B (zh) 音频识别方法、装置及设备
KR102389995B1 (ko) 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
US11626107B1 (en) Natural language processing
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
US11410656B2 (en) Systems and methods for managing voice queries using pronunciation information
US11798538B1 (en) Answer prediction in a speech processing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047328

Country of ref document: HK