CN116414959A - 数字人的互动控制方法、装置、电子设备和存储介质 - Google Patents

数字人的互动控制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116414959A
CN116414959A CN202310155622.0A CN202310155622A CN116414959A CN 116414959 A CN116414959 A CN 116414959A CN 202310155622 A CN202310155622 A CN 202310155622A CN 116414959 A CN116414959 A CN 116414959A
Authority
CN
China
Prior art keywords
preset
target
driving
generating
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310155622.0A
Other languages
English (en)
Inventor
吴松城
陈军宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Black Mirror Technology Co ltd
Original Assignee
Xiamen Black Mirror Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Black Mirror Technology Co ltd filed Critical Xiamen Black Mirror Technology Co ltd
Priority to CN202310155622.0A priority Critical patent/CN116414959A/zh
Publication of CN116414959A publication Critical patent/CN116414959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种数字人的互动控制方法、装置、电子设备和存储介质,该方法包括:获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,通过预设数字人展示相应的应答动画,实现更加高效的进行人机交互,提升了用户体验。

Description

数字人的互动控制方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种数字人的互动控制方法、装置、电子设备和存储介质。
背景技术
随着人工智能的不断发展,智能问答也开始应用在各个领域中,以实现智能化的人机交互。现有技术中,一般只是单纯通过语音或文字的方式向用户反馈应答信息,交互效率低,用户体验感较差。
因此,如何更加高效的进行人机交互,提升用户体验,是目前有待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例提出了一种数字人的互动控制方法、装置、电子设备和存储介质,用以更加高效的进行人机交互,提升用户体验。
第一方面,提供一种数字人的互动控制方法,所述方法包括:获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
第二方面,提供一种数字人的互动控制装置,所述装置包括:判断模块,用于获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;确定模块,用于若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;生成模块,用于若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;驱动模块,用于基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人的互动控制方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数字人的互动控制方法。
通过应用以上技术方案,获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,通过预设数字人展示相应的应答动画,实现更加高效的进行人机交互,提升了用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种数字人的互动控制方法的流程示意图;
图2示出了本发明另一实施例提出的一种数字人的互动控制方法的流程示意图;
图3示出了本发明又一实施例提出的一种数字人的互动控制方法的流程示意图;
图4示出了本发明又一实施例提出的一种数字人的互动控制方法的流程示意图;
图5示出了本发明实施例提出的一种数字人的互动控制装置的结构示意图;
图6示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请实施例提供一种数字人的互动控制方法,如图1所示,该方法包括以下步骤:
步骤S101,获取用户发送的提问请求。
本实施例中,用户可在人机交互界面中输入提问请求,人机交互界面包括客户端的人机交互界面,客户端安装在终端设备中,用户在终端设备中打开客户端后进入人机交互界面。终端设备包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。可根据用户输入的问题文本获取提问请求,也可以对用户输入的语音进行语音识别后获取提问请求。
步骤S102,预设问题集合中是否存在目标问题,若是执行步骤S103,否则执行步骤S104。
本实施例中,预设问题集合由多个预设问题组成,根据提问请求的语义判断预设问题集合中是否存在与语义匹配的目标问题。具体的,可基于自然语言处理算法对提问请求进行语义识别,然后基于提问请求的语义确定提问请求的文本特征信息,确定文本特征信息与各预设问题的相似度,根据各相似度确定是否存在目标问题,例如,将相似度高于预设阈值的预设问题作为目标问题。
步骤S103,根据与所述目标问题对应的预设驱动参数确定目标驱动参数。
本实施例中,预设问题集合中的每个预设问题均存在对应的预设驱动参数,不同的预设驱动参数用于按不同的方式驱动预设数字人,根据与目标问题对应的预设驱动参数确定目标驱动参数。
可选的,每个预设问题对应一组或多组预设驱动参数,或者每组预设驱动参数对应一个或多个预设问题,若与所述目标问题对应的预设驱动参数为多个,按预设规则从与所述目标问题对应的预设驱动参数中确定所述目标驱动参数,所述预设规则可以为轮询选取或随机选取等。
步骤S104,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数。
本实施例中,由于预设问题集合中不存在上述目标问题,需要采用其他方式生成目标驱动参数,具体的,先基于预设语言处理模型生成与提问请求对应的应答文本,然后根据应答文本生成目标驱动参数。其中,语音处理模型是预先利用多个问题以及对应的文本答案进行训练得到的。
步骤S105,基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
本实施例中,基于目标驱动参数驱动预设数字人,使预设数字人发出语音并展示与语音匹配的口型、表情和动作,还可显示与语音匹配的字幕,从而展示出与提问请求对应的应答动画。
在本申请一些实施例中,在基于所述目标驱动参数驱动预设数字人之前,所述方法还包括:
接收用户上传的人脸照片,基于深度学习算法或机器学习算法提取所述人脸照片的生物特征信息;
根据所述生物特征信息生成3D人物模型和材质贴图数据;
将所述3D人物模型和所述材质贴图数据在3D引擎中渲染,得到所述预设数字人。
本实施例中,先接收用户上传的人脸照片,然后基于深度学习算法或机器学习算法提取人脸照片的生物特征信息,该生物特征信息可包括但不限与性别、五官、发型等,再根据生物特征信息生成3D人物模型和材质贴图数据,该材质贴图数据可包括法线贴图和纹理贴图,再将3D人物模型和材质贴图数据在3D引擎中渲染后得到预设数字人,并进行保存,从而实现高效的创建出预设数字人。
可选的,预设数字人也可以是用户预先从外部导入的已经创建好的数字人。
通过应用以上技术方案,获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,通过预设数字人展示相应的应答动画,实现更加高效的进行人机交互,提升了用户体验。
本申请实施例还提出了一种数字人的互动控制方法,如图2所示,该方法包括以下步骤:
步骤S201,获取用户发送的提问请求。
本实施例中,用户可在人机交互界面中输入提问请求,人机交互界面包括客户端的人机交互界面,客户端安装在终端设备中,用户在终端设备中打开客户端后进入人机交互界面。可根据用户输入的问题文本获取提问请求,也可以对用户输入的语音进行语音识别后获取提问请求。
步骤S202,预设问题集合中是否存在目标问题,若是执行步骤S203,否则执行步骤S204。
本实施例中,预设问题集合由多个预设问题组成,根据提问请求的语义判断预设问题集合中是否存在与语义匹配的目标问题。具体的,可基于自然语言处理算法对提问请求进行语义识别,然后基于提问请求的语义确定提问请求的文本特征信息,确定文本特征信息与各预设问题的相似度,根据各相似度确定是否存在目标问题,例如,将相似度高于预设阈值的预设问题作为目标问题。
步骤S203,根据与所述目标问题对应的预设驱动参数确定目标驱动参数,执行步骤S208。
本实施例中,预设问题集合中的每个预设问题均存在对应的预设驱动参数,不同的预设驱动参数用于按不同的方式驱动预设数字人,根据与目标问题对应的预设驱动参数确定目标驱动参数。
可选的,每个预设问题对应一组或多组预设驱动参数,或者每组预设驱动参数对应一个或多个预设问题,若与所述目标问题对应的预设驱动参数为多个,按预设规则从与所述目标问题对应的预设驱动参数中确定所述目标驱动参数,所述预设规则可以为轮询选取或随机选取等。
步骤S204,基于预设语言处理模型生成与所述提问请求对应的应答文本。
本实施例中,由于预设问题集合中不存在上述目标问题,需要采用其他方式生成目标驱动参数,具体的,先基于预设语言处理模型生成与提问请求对应的应答文本,然后根据应答文本生成目标驱动参数。其中,语音处理模型是预先利用多个问题以及对应的文本答案进行训练得到的。
步骤S205,应答文本是否属于预设敏感数据,若是执行步骤S206,否则执行步骤S207。
本实施例中,判断应答文本是否属于预设敏感数据,预设敏感数据可以为个人身份数据、公司商业数据、金融数据等隐私数据。
步骤S206,确定用户的身份信息存在于预设白名单,执行步骤S207。
本实施例中,若应答文本属于预设敏感数据,进一步判断用户的身份信息是否存在于预设白名单,若确定用户的身份信息存在于预设白名单,说明用户具备获得该应答文本的权限。
步骤S207,根据所述应答文本生成语音参数和骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数。
本实施例中,若应答文本不属于预设敏感数据,或应答文本属于预设敏感数据且用户的身份信息存在于预设白名单列表,根据应答文本生成语音参数和骨骼动画参数,并基于语音参数和骨骼动画参数生成目标驱动参数,从而可防止敏感数据泄露,提高了互动过程中的安全性。
可选的,可基于预设语音合成算法对所述应答文本进行语音合成,得到语音参数;将所述应答文本和所述语音参数输入预设深度学习模型,根据所述预设深度学习模型输出的结果预测出与语音参数匹配的骨骼动画参数。
在本申请一些实施例中,若所述应答文本属于所述预设敏感数据且所述身份信息不存在于所述预设白名单列表,基于预设无答案驱动参数确定所述目标驱动参数。
本实施例中,若所述应答文本属于预设敏感数据且身份信息不存在于预设白名单列表,说明用户不具备获取应答文本的权限,基于预设无答案驱动参数确定目标驱动参数,从而提高了互动过程中的安全性和可靠性。在本申请具体的应用场景中,预设无答案驱动参数用于使预设数字人展示“抱歉!这个问题我无法回答您”的应答动画。
步骤S208,基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
本实施例中,基于目标驱动参数驱动预设数字人,使预设数字人发出语音并展示与语音匹配的口型、表情和动作,还可显示与语音匹配的字幕,从而展示出与提问请求对应的应答动画。
通过应用以上技术方案,获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,若所述应答文本不属于预设敏感数据,根据所述应答文本生成语音参数和骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数;若所述应答文本属于所述预设敏感数据,判断所述用户的身份信息是否存在于预设白名单列表;若所述身份信息存在于所述预设白名单列表,根据所述应答文本生成所述语音参数和所述骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,在提高安全性的同时,实现了更加高效的进行人机交互,提升了用户体验。
本申请实施例还提出了一种数字人的互动控制方法,如图3所示,包括以下步骤:
步骤S301,获取用户发送的提问请求。
本实施例中,用户可在人机交互界面中输入提问请求,人机交互界面包括客户端的人机交互界面,客户端安装在终端设备中,用户在终端设备中打开客户端后进入人机交互界面。可根据用户输入的问题文本获取提问请求,也可以对用户输入的语音进行语音识别后获取提问请求。
步骤S302,预设问题集合中是否存在目标问题,若是执行步骤S303,否则执行步骤S304。
本实施例中,预设问题集合由多个预设问题组成,根据提问请求的语义判断预设问题集合中是否存在与语义匹配的目标问题。具体的,可基于自然语言处理算法对提问请求进行语义识别,然后基于提问请求的语义确定提问请求的文本特征信息,确定文本特征信息与各预设问题的相似度,根据各相似度确定是否存在目标问题,例如,将相似度高于预设阈值的预设问题作为目标问题。
步骤S303,根据与所述目标问题对应的预设驱动参数确定目标驱动参数,执行步骤S308。
本实施例中,预设问题集合中的每个预设问题均存在对应的预设驱动参数,不同的预设驱动参数用于按不同的方式驱动预设数字人,根据与目标问题对应的预设驱动参数确定目标驱动参数。
可选的,每个预设问题对应一组或多组预设驱动参数,或者每组预设驱动参数对应一个或多个预设问题,若与所述目标问题对应的预设驱动参数为多个,按预设规则从与所述目标问题对应的预设驱动参数中确定所述目标驱动参数,所述预设规则可以为轮询选取或随机选取等。
步骤S304,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数。
本实施例中,由于预设问题集合中不存在上述目标问题,需要采用其他方式生成目标驱动参数,具体的,先基于预设语言处理模型生成与提问请求对应的应答文本,然后根据应答文本生成目标驱动参数。其中,语音处理模型是预先利用多个问题以及对应的文本答案进行训练得到的。
步骤S305,基于预设分词算法对所述应答文本进行分词处理,得到多个关键词。
本实施例中,通过对应答文本进行分词处理后,得到多个关键词。预设分词算法可以为包括最大匹配分词算法、dijkstra算法、N-dijkstra算法、n-gram模型算法、HMM模型算法、判别式模型分词算法、神经网络分词算法等算法中的任一种。
在本申请一些实施例中,在基于预设分词算法对所述应答文本进行分词处理,得到多个关键词之前,所述方法还包括:
删除所述应答文本中的预设目标语句,所述预设目标语句为仅含有预设停用词、和/或数字、和/或字母的语句。
本实施例中,预设停用词包括带有语气助词的、呢、吗和吧等词语,预设目标语句仅含有预设停用词、和/或数字、和/或字母的语句,没有实际含义,通过删除应答文本中的预设目标语句,可以得到更加符合情绪变化的应答文本,进而使后续得到的各关键词具备更强的情绪表现力。
步骤S306,将各所述关键词的词向量输入预设情绪预测模型,得到与各所述关键词对应的情绪标签。
本实施例中,词向量也称为词特征向量,用于表征词的特征信息。预设情绪预测模型用于根据不同的关键词的词向量预测出相应的情绪标签,将各关键词输入预设情绪预测模型,根据预设情绪预测模型的输出得到各情绪标签。
可选的,情绪标签为包括开心、恐惧、平静、愤怒、悲哀等中的至少一种。
可选的,预设情绪预测模型是通过训练样本对预设卷积神经网络模型训练后得到的。
步骤S307,根据各所述情绪标签生成情绪驱动参数,并基于各所述情绪驱动参数调整所述目标驱动参数。
本实施例中,不同的情绪标签对应不同的情绪驱动参数,根据各情绪标签生成情绪驱动参数,然后基于各情绪驱动参数调整目标驱动参数,从而使调整后目标驱动参数在情绪变化上更加符合应答文本,提高了目标驱动参数的准确性。
在本申请一些实施例中,所述根据各所述情绪标签生成情绪驱动参数,包括:
根据各所述情绪标签生成人脸驱动参数、和/或皮肤驱动参数、和或声音驱动参数、和或肢体动作驱动参数;
根据所述人脸驱动参数、和/或所述皮肤驱动参数、和/或所述声音驱动参数、和或所述肢体动作驱动参数生成所述情绪驱动参数。
本实施例中,不同的情绪可表现出不同的人脸五官特征(如嘴角变化、眼睛变化等),还可表现不同的皮肤特征(如皮肤颜色、紧绷度等),还可表现不同的声音特征(如声音的高低、音色等),还可表现不同的肢体动作(如摇头、手臂挥舞等),因此,根据各情绪标签生成人脸驱动参数、和/或皮肤驱动参数、和或声音驱动参数、和或肢体动作驱动参数,并基于这些不同类型的驱动参数中的一种或多种生成情绪驱动参数,从而提高了情绪驱动参数的准确性,进而增强了预设数字人的情绪表现力。
步骤S308,基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
本实施例中,基于目标驱动参数驱动预设数字人,使预设数字人发出语音并展示与语音匹配的口型、表情和动作,还可显示与语音匹配的字幕,从而展示出与提问请求对应的应答动画。
通过应用以上技术方案,获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;基于预设分词算法对所述应答文本进行分词处理,得到多个关键词;将各所述关键词的词向量输入预设情绪预测模型,得到与各所述关键词对应的情绪标签;根据各所述情绪标签生成情绪驱动参数,并基于各所述情绪驱动参数调整所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,从而使预设数字人准确表现出与应答文本相应的情绪变化,实现了更加高效的进行人机交互,提升了用户体验。
本申请实施例还提出了一种数字人的互动控制方法,如图4所示,该方法包括以下步骤:
步骤S401,获取用户发送的提问请求。
本实施例中,用户可在人机交互界面中输入提问请求,人机交互界面包括客户端的人机交互界面,客户端安装在终端设备中,用户在终端设备中打开客户端后进入人机交互界面。可根据用户输入的问题文本获取提问请求,也可以对用户输入的语音进行语音识别后获取提问请求。
步骤S402,预设问题集合中是否存在目标问题,若是执行步骤S403,否则执行步骤S404。
本实施例中,预设问题集合由多个预设问题组成,根据提问请求的语义判断预设问题集合中是否存在与语义匹配的目标问题。具体的,可基于自然语言处理算法对提问请求进行语义识别,然后基于提问请求的语义确定提问请求的文本特征信息,确定文本特征信息与各预设问题的相似度,根据各相似度确定是否存在目标问题,例如,将相似度高于预设阈值的预设问题作为目标问题。
步骤S403,根据与所述目标问题对应的预设驱动参数确定目标驱动参数,执行步骤S409。
本实施例中,预设问题集合中的每个预设问题均存在对应的预设驱动参数,不同的预设驱动参数用于按不同的方式驱动预设数字人,根据与目标问题对应的预设驱动参数确定目标驱动参数。
可选的,每个预设问题对应一组或多组预设驱动参数,或者每组预设驱动参数对应一个或多个预设问题,若与所述目标问题对应的预设驱动参数为多个,按预设规则从与所述目标问题对应的预设驱动参数中确定所述目标驱动参数,所述预设规则可以为轮询选取或随机选取等。
步骤S404,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数。
本实施例中,由于预设问题集合中不存在上述目标问题,需要采用其他方式生成目标驱动参数,具体的,先基于预设语言处理模型生成与提问请求对应的应答文本,然后根据应答文本生成目标驱动参数。其中,语音处理模型是预先利用多个问题以及对应的文本答案进行训练得到的。
步骤S405,是否存在与所述用户对应的交互记录,若是执行步骤S406,否则执行步骤S407。
本实施例中,在与用户进行交互后,会保存相应的交互记录,判断是否存在与所述用户对应的交互记录。
步骤S406,根据最近一次的交互记录确定个性化参数。
本实施例中,个性化参数为包括预设数字人的音量、语速和动作中的至少一种,最近一次的交互记录与其他的交互记录相比更加符合用户的喜好,因此若存在交互记录,根据最近一次的交互记录确定个性化参数
步骤S407,根据所述用户的年龄和预设对应关系确定所述个性化参数。
本实施例中,不同的年龄的用户可在预设数字人的音量、语速和动作上表现出不同的喜好,预先根据不同年龄和不同个性化参数之间的对应关系构建预设对应关系,若不存在交互记录,说明用户是首次进行互动,此时根据用户的年龄和预设对应关系确定所述个性化参数。
可选的,还可先划分出多个年龄区间,不同年龄区间对应不同的个性化参数,处于同一年龄区间的各年龄采用同一种个性化参数,根据用户的年龄所属年龄区间可确定个性化参数。
步骤S408,根据所述个性化参数调整所述目标驱动参数,执行步骤S409。
本实施例中,基于个性化参数调整目标驱动参数,从而使调整后目标驱动参数更加符合用户的历史喜好,或者使调整后目标驱动参数与用户的年龄适配,提高了目标驱动参数的准确性和用户体验。
步骤S409,基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
本实施例中,基于目标驱动参数驱动预设数字人,使预设数字人发出语音并展示与语音匹配的口型、表情和动作,还可显示与语音匹配的字幕,从而展示出与提问请求对应的应答动画。
可选的,还可选择在步骤S403之后不执行步骤S409,而是在步骤S403之后执行步骤S405,从而在预设问题集合中存在目标问题时,也能使目标驱动参数更加符合用户的历史喜好或与用户的年龄适配,提高了目标驱动参数的准确性和用户体验。
通过应用以上技术方案,获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;根据所述用户的身份信息判断是否存在与所述用户对应的交互记录;若存在,根据最近一次的交互记录确定个性化参数;若不存在,根据所述用户的年龄和预设对应关系确定所述个性化参数;根据所述个性化参数调整所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,从而实现了更加高效的进行人机交互,并提升了用户体验。
本申请实施例还提出了一种数字人的互动控制装置,如图5所示,所述装置包括:
判断模块501,用于获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;
确定模块502,用于若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;
生成模块503,用于若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;
驱动模块504,用于基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
在具体的应用场景中,生成模块503,具体用于:
若所述应答文本不属于预设敏感数据,根据所述应答文本生成语音参数和骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数;
若所述应答文本属于所述预设敏感数据,判断所述用户的身份信息是否存在于预设白名单列表;
若所述身份信息存在于所述预设白名单列表,根据所述应答文本生成所述语音参数和所述骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数。
在具体的应用场景中,生成模块503,还具体用于:
若所述应答文本属于所述预设敏感数据且所述身份信息不存在于所述预设白名单列表,基于预设无答案驱动参数确定所述目标驱动参数。
在具体的应用场景中,所述装置还包括第一调整模块,用于:
基于预设分词算法对所述应答文本进行分词处理,得到多个关键词;
将各所述关键词的词向量输入预设情绪预测模型,得到与各所述关键词对应的情绪标签;
根据各所述情绪标签生成情绪驱动参数,并基于各所述情绪驱动参数调整所述目标驱动参数。
在具体的应用场景中,所述第一调整模块,具体用于:
根据各所述情绪标签生成人脸驱动参数、和/或皮肤驱动参数、和或声音驱动参数、和或肢体动作驱动参数;
根据所述人脸驱动参数、和/或所述皮肤驱动参数、和/或所述声音驱动参数、和或所述肢体动作驱动参数生成所述情绪驱动参数。
在具体的应用场景中,所述第一调整模块,还用于::
删除所述应答文本中的预设目标语句,所述预设目标语句为仅含有预设停用词、和/或数字、和/或字母的语句。
在具体的应用场景中,所述装置还包括第二调整模块,用于::
根据所述用户的身份信息判断是否存在与所述用户对应的交互记录;
若存在,根据最近一次的交互记录确定个性化参数;
若不存在,根据所述用户的年龄和预设对应关系确定所述个性化参数;
根据所述个性化参数调整所述目标驱动参数;
其中,所述个性化参数为包括音量、语速和动作中的至少一种,所述预设对应关系为不同年龄和不同个性化参数之间的对应关系。
通过应用以上技术方案,数字人的互动控制装置包括:判断模块,用于获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;确定模块,用于若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;生成模块,用于若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;驱动模块,用于基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画,通过预设数字人展示相应的应答动画,实现更加高效的进行人机交互,提升了用户体验。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存储处理器的可执行指令;
处理器601,被配置为经由执行所述可执行指令来执行:
获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数字人的互动控制方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的数字人的互动控制方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数字人的互动控制方法,其特征在于,所述方法包括:
获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;
若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;
若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;
基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
2.如权利要求1所述的方法,其特征在于,所述根据所述应答文本生成所述目标驱动参数,包括:
若所述应答文本不属于预设敏感数据,根据所述应答文本生成语音参数和骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数;
若所述应答文本属于所述预设敏感数据,判断所述用户的身份信息是否存在于预设白名单列表;
若所述身份信息存在于所述预设白名单列表,根据所述应答文本生成所述语音参数和所述骨骼动画参数,并基于所述语音参数和所述骨骼动画参数生成所述目标驱动参数。
3.如权利要求2所述的方法,其特征在于,所述根据所述应答文本生成所述目标驱动参数,还包括:
若所述应答文本属于所述预设敏感数据且所述身份信息不存在于所述预设白名单列表,基于预设无答案驱动参数确定所述目标驱动参数。
4.如权利要求1所述的方法,其特征在于,在根据所述应答文本生成所述目标驱动参数之后,所述方法还包括:
基于预设分词算法对所述应答文本进行分词处理,得到多个关键词;
将各所述关键词的词向量输入预设情绪预测模型,得到与各所述关键词对应的情绪标签;
根据各所述情绪标签生成情绪驱动参数,并基于各所述情绪驱动参数调整所述目标驱动参数。
5.如权利要求4所述的方法,其特征在于,所述根据各所述情绪标签生成情绪驱动参数,包括:
根据各所述情绪标签生成人脸驱动参数、和/或皮肤驱动参数、和或声音驱动参数、和或肢体动作驱动参数;
根据所述人脸驱动参数、和/或所述皮肤驱动参数、和/或所述声音驱动参数、和或所述肢体动作驱动参数生成所述情绪驱动参数。
6.如权利要求4所述的方法,其特征在于,在基于预设分词算法对所述应答文本进行分词处理,得到多个关键词之前,所述方法还包括:
删除所述应答文本中的预设目标语句,所述预设目标语句为仅含有预设停用词、和/或数字、和/或字母的语句。
7.如权利要求1所述的方法,其特征在于,在基于所述目标驱动参数驱动预设数字人之前,所述方法还包括:
根据所述用户的身份信息判断是否存在与所述用户对应的交互记录;
若存在,根据最近一次的交互记录确定个性化参数;
若不存在,根据所述用户的年龄和预设对应关系确定所述个性化参数;
根据所述个性化参数调整所述目标驱动参数;
其中,所述个性化参数为包括音量、语速和动作中的至少一种,所述预设对应关系为不同年龄和不同个性化参数之间的对应关系。
8.一种数字人的互动控制装置,其特征在于,所述装置包括:
判断模块,用于获取用户发送的提问请求,根据所述提问请求的语义判断预设问题集合中是否存在与所述语义匹配的目标问题;
确定模块,用于若存在所述目标问题,根据与所述目标问题对应的预设驱动参数确定目标驱动参数;
生成模块,用于若不存在所述目标问题,基于预设语言处理模型生成与所述提问请求对应的应答文本,并根据所述应答文本生成所述目标驱动参数;
驱动模块,用于基于所述目标驱动参数驱动预设数字人,以使所述预设数字人展示与所述提问请求对应的应答动画。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的数字人的互动控制方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的数字人的互动控制方法。
CN202310155622.0A 2023-02-23 2023-02-23 数字人的互动控制方法、装置、电子设备和存储介质 Pending CN116414959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310155622.0A CN116414959A (zh) 2023-02-23 2023-02-23 数字人的互动控制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310155622.0A CN116414959A (zh) 2023-02-23 2023-02-23 数字人的互动控制方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116414959A true CN116414959A (zh) 2023-07-11

Family

ID=87055599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310155622.0A Pending CN116414959A (zh) 2023-02-23 2023-02-23 数字人的互动控制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116414959A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033592A (zh) * 2023-08-09 2023-11-10 北京百度网讯科技有限公司 运维处理方法、装置、***、电子设备及存储介质
CN117635785A (zh) * 2024-01-24 2024-03-01 卓世科技(海南)有限公司 一种护工数字人生成方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033592A (zh) * 2023-08-09 2023-11-10 北京百度网讯科技有限公司 运维处理方法、装置、***、电子设备及存储介质
CN117635785A (zh) * 2024-01-24 2024-03-01 卓世科技(海南)有限公司 一种护工数字人生成方法及***
CN117635785B (zh) * 2024-01-24 2024-05-28 卓世科技(海南)有限公司 一种护工数字人生成方法及***

Similar Documents

Publication Publication Date Title
EP3477519B1 (en) Identity authentication method, terminal device, and computer-readable storage medium
CN111368609B (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN107492379B (zh) 一种声纹创建与注册方法及装置
WO2020147428A1 (zh) 交互内容生成方法、装置、计算机设备及存储介质
US20180285595A1 (en) Virtual agent for the retrieval and analysis of information
KR102462426B1 (ko) 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
CN116414959A (zh) 数字人的互动控制方法、装置、电子设备和存储介质
CN112732911A (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN107679033A (zh) 文本断句位置识别方法和装置
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN113205817A (zh) 语音语义识别方法、***、设备及介质
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN109408824A (zh) 用于生成信息的方法和装置
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN113314150A (zh) 基于语音数据的情绪识别方法、装置及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112395887A (zh) 对话应答方法、装置、计算机设备和存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN110931002B (zh) 人机交互方法、装置、计算机设备和存储介质
CN117520498A (zh) 基于虚拟数字人交互处理方法、***、终端、设备及介质
CN112809694B (zh) 机器人控制方法、装置、存储介质和计算机设备
CN112287091A (zh) 智能问答方法及相关产品
CN111914077A (zh) 定制化话术推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination