CN114546326A - 一种虚拟人手语生成方法和*** - Google Patents
一种虚拟人手语生成方法和*** Download PDFInfo
- Publication number
- CN114546326A CN114546326A CN202210162257.1A CN202210162257A CN114546326A CN 114546326 A CN114546326 A CN 114546326A CN 202210162257 A CN202210162257 A CN 202210162257A CN 114546326 A CN114546326 A CN 114546326A
- Authority
- CN
- China
- Prior art keywords
- sign language
- text
- determining
- original text
- simplified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004044 response Effects 0.000 claims abstract description 24
- 230000014509 gene expression Effects 0.000 description 23
- 238000012549 training Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001672767 Godiva Species 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书涉及信息技术领域,特别涉及一种虚拟人手语生成方法和***,该方法包括:识别应答预设条件是否被满足,响应于应答预设条件被满足,基于应答预设条件的内容获取原始文本;基于知识图谱,确定与原始文本有关的关键词;对原始文本进行分类,基于原始文本所属的分类确定简化文本;简化文本能够反映原始文本的意图;基于关键词和简化文本中的至少一个,确定目标手语。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种虚拟人手语生成方法和***。
背景技术
随着科技的发展,虚拟人在人类生活中变得越来越普遍,我们可以在各行业看到虚拟人的身影,例如,在服务行业中用于提供咨询服务的机器人、在娱乐行业进行表演的3D或平面虚拟人物等。但由于虚拟人的行为通常是通过程序提前设定好的,因此,当虚拟人与用户进行谈话时表现较为生硬,甚至显得怪异,使得用户的体验感不好。
因此,希望可以提供一种虚拟人手语生成方法,使得虚拟人能在谈话时做出合适的手语,优化虚拟人的沟通表达效果,提高用户的使用体验。
发明内容
本说明书实施例之一提供一种虚拟人手语生成方法。所述虚拟人手语生成方法包括:识别应答预设条件是否被满足,响应于所述应答预设条件被满足,基于所述应答预设条件的内容获取原始文本;基于知识图谱,确定与所述原始文本有关的关键词;对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本;所述简化文本能够反映所述原始文本的意图;基于所述关键词和所述简化文本中的至少一个,确定目标手语。
本说明书实施例之一提供一种虚拟人手语生成***。所述虚拟人手语生成***包括:判断模块,用于识别应答预设条件是否被满足,响应于所述应答预设条件被满足,基于所述应答预设条件的内容获取原始文本;关键词确定模块,用于基于知识图谱,确定与所述原始文本有关的关键词;简化文本确定模块,用于对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本;所述简化文本能够反映所述原始文本的意图;目标手语确定模块,用于基于所述关键词和所述简化文本中的至少一个,确定目标手语。
本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时,实现上述任一项所述的虚拟人手语生成方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的虚拟人手语生成***的应用场景示意图;
图2是根据本说明书一些实施例所示的虚拟人手语生成方法的示例性流程图;
图3是根据本说明书一些实施例所示的虚拟人手语生成方法的又一示例性流程图;
图4是根据本说明书一些实施例所示的基于知识图谱确定关键词的示例性流程图;
图5是根据本说明书一些实施例所示的虚拟人手语生成***的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“***”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
随着虚拟人的普遍使用,人们希望虚拟人能够更加生动,在外形和行为上都能更加与人相似。在与虚拟人进行谈话时,用户希望其不仅仅只是通过语音进行说明,还可以与人类一样根据语音内容做出相应的肢体动作,以提升用户的使用感。
在一些实施例中,可以在虚拟人上预先设置其面对不同谈话内容应做出的行为,使得虚拟人能在回答用户的同时做出相应的手语。然而,由于语言的复杂性,谈话内容不可能穷尽,而且需要很大的内存空间才能存储庞大的谈话内容和对应的行为的数据,因此,一般的虚拟人仅针对某些固定语句设置相应的手语,然而仅针对少数固定语句设置手语的方式缺乏***的方案设计,只能启发式的设计几个规则的手语方案,使得虚拟人在言语表达内容时做出的手语动作很有限,不能满足用户高自由度的谈话需求。
有鉴于此,在一些实施例中,可以通过提取虚拟人的言语表达内容,并基于言语表达内容确定虚拟人所要做出的手语,以优化虚拟人的沟通表达效果。
图1是根据本说明书一些实施例所示的虚拟人手语生成***的应用场景示意图。如图1所示,虚拟人手语生成***的应用场景可以包括服务器110、虚拟人120、数据库130、网络140等。
服务器110是指具有计算能力的***。服务器110中可以包括处理设备,以针对虚拟人的言语表达内容确定虚拟人所要做出的手语。例如,服务器110可以获取虚拟人120的原始文本,并对获取的原始文本进行处理,并基于处理结果确定虚拟人所要做出的目标手语,虚拟人结合该处理出的目标手语与用户进行谈话。关于原始文本和目标手语的更多内容,参见图2及其相关描述,此处不再赘述。
虚拟人120可以为通过程序控制的能与用户进行互动的对象,其表现的形式包括手机、平板电脑、台式电脑、笔记本电脑等,在一些实施例中,还可以是机器人设备(如为用户提供咨询服务的服务型机器人)、VR/AR/MR技术实现的三维立体人物或虚拟偶像等。在一些实施例中,虚拟人120可以包括手语执行模块,其中,手语执行模块可以为虚拟人120执行手语的模块,如机械臂、手臂等;虚拟人120可以通过手语执行模块执行与言语表达内容相关的手语。例如,虚拟人通过机械臂做出点赞的手语120-1、指向的手语120-2和鼓掌的手语120-3等。
数据库130可以为提供数据支持的设备。例如,服务器110可以基于原始文本和数据库130中的数据提取原始文本中的关键词。又例如,数据库130中存储有知识图谱,供服务器110使用。
网络140可以连接***的各个组成部分和/或连接***与外部资源部分。网络140使得各组成部分之间,以及与***之外其他部分可以进行通信。例如,虚拟人120通过网络140将言语表达内容传输至服务器110进行处理,服务器110通过网络140获取数据库130中的数据处理接收到的言语表达内容,并再经过网络140将处理好的言语表达内容对应的手语发送至虚拟人120。
图2是根据本说明书一些实施例所示的虚拟人手语生成方法的示例性流程图。在一些实施例中,流程200中的一个或多个步骤可以由图1中的服务器110执行。如图2所示,流程200可以包括以下步骤:
步骤210,识别应答预设条件是否被满足,响应于应答预设条件被满足,基于应答预设条件的内容获取原始文本。在一些实施例中,步骤210可以由图5中的判断模块510执行。
应答预设条件可以为预先设置的虚拟人进行沟通表达的条件。例如,对于用于接待的虚拟人,应答预设条件可以为开门,当识别到门被打开时,确定应答预设条件被满足。又例如,应答预设条件可以为用户是否向虚拟人进行交流,当识别到用户对虚拟人进行交流时,确定应答预设条件被满足。在一些实施例中,应答预设条件可以是预设唤醒词,或预设声纹。
原始文本可以为虚拟人所要表达的内容。在一些实施例中,虚拟人可以识别应答预设条件的内容,并基于应答预设条件的内容获取针对该应答预设条件所要进行应答的原始文本。例如,当识别到开门时,可以将欢迎语“欢迎你来到我家”作为原始文本。又例如,识别到用户想要购买某样商品时,可以将提示用户进行支付的“下单购买”作为原始文本。在一些实施例中,可以基于文本的形式构建原始文本。
在一些实施例中,虚拟人还可以通过机器学习模型生成原始文本。例如,机器学习模型可以对获取的用户与虚拟人进行谈话的语音进行处理,得到用于回答用户的原始文本。示例性的,当用户向虚拟人打招呼“你好”,虚拟人相应的确定原始文本为“欢迎你来到我家”。
步骤220,基于知识图谱,确定与原始文本有关的关键词。在一些实施例中,步骤220可以由图5中的关键词确定模块520执行。
知识图谱可以包括实体与实体的关系和实体的属性等。
关键词可以为原始文本中描述具体内容的词。在一些实施例中,关键词可以为原始文本中的动词和/或名称等,对于一段原始文本,可以利用分词器将原始文本分为至少一个词,对于每个词,分别在知识图谱中查找其属性,当词的属性为动词或名词时,将该词作为关键词。例如,继续采用上述示例,对于原始文本“欢迎你来到我家”,通过知识图谱可以知道其中的“你”、“我”和“家”为名词,因此可以将“你”、“我”、“家”这三个词作为关键词。
在一些实施例中,还可以基于知识图谱获取原始文本中的实体信息,并基于实体信息确定关键词。关于实体信息和确定关键词的更多内容,参见图3及其相关描述,此处不再赘述。
步骤230,对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本。在一些实施例中,步骤230可以由图5中的简化文本确定模块530执行。
简化文本能够反映原始文本的意图,意图可以理解为希望达到某种目的打算。
在一些实施例中,可以按意图将原始文本进行分类,基于分类确定合适的词语,并组合成简化文本。例如,对于原始文本“你和我在一起”所要表达的意图为你和我之间的联系,因此,可以将其分类到“联系”类,其简化文本可以包括“你联系我”。
在一些实施例中,还可以剔除原始文本中重复的词语,并对剔除后的文本进行分类,并基于分类确定简化文本。例如,“下单购买”中“下单”和“购买”的所要表达的意思类似,因此,可以将“下单购买”简化为“下单”或“购买”,然后将其分类到“支付”类,其简化文本可以包括“支付”。
在一些实施例中,还可以基于原始文本的意象图式分类确定简化文本。关于基于意象图式分类和确定简化文本的更多内容,参见图3及其相关描述,此处不再赘述。
步骤240,基于关键词和简化文本中的至少一个,确定目标手语。在一些实施例中,步骤240可以由图5中的目标手语确定模块540执行。
在一些实施例中,目标手语可以包括虚拟人进行言语表达时做出的手部动作(如果虚拟人具备类似于人类的“手”或“手臂”的部件);在一些实施例中,目标手语也可以包括虚拟人进行言语表达时做出的其他肢体动作(如果虚拟人不具备类似于人类的“手”或“手臂”的部件)。在一些实施例中,虚拟人可以将目标手语和原始文本对应的语音和/或文字同时表示。例如,虚拟人可以在与用户谈话的时候先后用手指向谈话人和自己,以表达“你和我”的手语。在一些实施例中,虚拟人进行目标手语的媒介可以不仅限于与手相关的部位、也可以是显示屏或其他设备。例如,显示屏中的手所做出的手部动作等。
在一些实施例中,在基于关键词和/或简化文本确定目标手语时,还可以基于用户偏好或候选手语的时长等条件,确定目标手语。关于用户偏好、候选手语的时长和确定目标手语的更多内容,参见图3及其相关描述,此处不再赘述。
在一些实施例中,在基于关键词或简化文本时,还可以通过第四模型生成目标手语。关于第四模型和确定目标手语的更多内容,参见图3及其相关描述,此处不再赘述。
本说明书中的一些实施例基于文字层面的原始文本分别确定表达形象的关键词和表达意图的简化文本,并基于关键词或简化文本确定虚拟人在表达时所要做出的目标手语,优化了虚拟人的沟通表达效果,提高了用户的使用感受。
图3是根据本说明书一些实施例所示的虚拟人手语生成方法的又一示例性流程图。在一些实施例中,流程300中的一个或多个步骤可以由图1中的服务器110执行。如图3所示,流程300可以包括以下步骤:
步骤310,基于第一模型获取原始文本中的实体信息。
实体信息可以为与实体相关的字或词语。例如,原始文本“欢迎你到我家来”中的“你”、“我”和“家”可以被提取为实体信息,可选的,若仅选取一个实体信息时,可以选择“家”作为原始文本“欢迎你到我家来”的实体信息。
第一模型可以用于获取实体信息。在一些实施例中,第一模型的输入为原始文本,输出为原始文本对应的实体信息。继续采用上述示例,若将“欢迎你到我家来”输入第一模型,第一模型可以输出“你”、“我”和“家”,或仅输出“家”。
在一些实施例中,第一模型类型可以是关键字提取算法通过训练得到的模型,包括但不限于如命名实体识别(NER)或TF-IDF算法等,本说明书中不做限制。
在一些实施例中,第一模型可以通过多个带有标签的第一训练样本训练得到。例如,可以将多个带有标签的第一训练样本输入初始第一模型,通过标签和初始第一模型的结果构建损失函数,基于损失函数迭代更新初始第一模型的参数。当初始第一模型的损失函数满足预设条件时模型训练完成,得到训练好的第一模型。其中,预设条件可以是损失函数收敛、迭代的次数达到阈值等。需要说明的是,在一些其他实施例中,还可以通过非监督学习算法对第一模型进行训练。
在一些实施例中,第一训练样本可以包括多段对话内容;第一训练样本可以通过日常交流提取,其标签可以为每段对话内容中的关键字。在一些实施例中,标签至少可以通过人工标注的方式得到。
步骤320,基于实体信息确定关键词。
关于关键词的更多内容,参见图2及其相关描述,此处不再赘述。
在一些其他实施例中,可以将与实体有关的信息作为关键词。例如,对于关键词“下单”,可以将与其相关的实体“钱”作为其关键词。
在一些实施例中,还可以基于知识图谱判断实体信息是否为形象描述,并基于判断结果确定关键词。关于基于知识图谱确定关键词的更多内容,参见图4及其相关描述,此处不再赘述。
本说明书中的一些实施例通过使用第一模型提取原始文本中的实体信息,并基于实体信息确定关键字,可以提高关键字的提取效率和准确率。
步骤330,基于第二模型获取原始文本的意象图式分类。
意象图式分类可以为对文本进行分类得到的多种分类结果。在一些实施例中,可以通过认知语言学确定多种类型的意象图式分类,包括但不限于起点-路径-目标、中心-边缘、部分-整体、容器、连接、力量、线性和/或平衡图示等。
在一些实施例中,可以识别原始文本的意象,然后基于原始文本的意象对原始文本进行分类。示例性的,例如,对于原始文本“你和我在一起”,其所要表达的意象为“你”“我”的联系,因此,可以将该文本分类到“连接”类。又例如“我在家里”,可以将其分类到“容器”类。
第二模型可以用于获取意象图式分类。在一些实施例中,第二模型的输入为原始文本,输出为原始文本的意象图式分类。例如,将原始文本“我和你在一起”输入至第二模型,得到该原始文本对应所有分类结果的概率值,如“容器”分类的概率为47%、“连接”分类的概率为80%、“力量”分类的概率为3%等。
在一些实施例中,第二模型可以输出概率最高的一个分类。例如,对于上述原始文本“你和我在一起”,第二模型可以将概率最大的“连接”分类作为第二模型的输出。在一些实施例中,第二模型可以设置预设输出阈值,并将大于预设阈值的意向图式分类的概率输出。例如,预设阈值可以为40%,对于上述原始文本“你和我在一起”可以将“容器”和“连接”分类输出。又例如,预设输出阈值可以设置为90%,此时没有符合条件的输出,可以不输出意象图式分类。
在一些实施例中,第二模型的类型可以是基于NLP(自然语言处理)的预训练语言模型(Language model pre-training),实现分类任务如BERT模型或XLNET模型等。
在一些实施例中,第二模型可以通过多个第二训练样本通过监督训练或非监督训练得到。例如,可以将多个带有标签的第二训练样本输入初始第二模型(如BERT预训练语言模型),通过标签和初始第二模型的结果构建损失函数,基于损失函数迭代更新初始第二模型的参数。当初始第二模型的损失函数满足预设条件时模型训练完成,得到训练好的第二模型。其中,预设条件可以是损失函数收敛、迭代的次数达到阈值等。在一些实施例中,与第一训练样本类似,第二训练样本可以包括多段对话内容。第二训练样本可以通过日常交流提取,标签可以为人工分类确定的每段对话对应的一种或多种意象图式分类。
步骤340,至少基于意象图式分类确定简化文本。
在一些实施例中,可以用意象图式分类部分替换原始文本中与分类表达的意思类似的内容或生成新的简化内容。例如,对于原始文本“你和我在一起”,其意象图式分类为“连接”,可以将基于原始文本与意象图式分类将“你和我在一起”简化为“我连接你”。
在一些实施例中,还可以将意象图式分类和原始文本输入第三模型,通过第三模型输出简化文本。
例如,第三模型可以基于原始文本“你和我在一起”与该原始文本对应的意象图式分类“连接”,重新编译该语句,得到表达更简单的简化文本“你和我”。
在一些实施例中,第三模型的类型可以是包括Encoder-decoder(编码-解码)结构的模型可以包括但不限于如Seq2Seq模型和BERT模型等。
在一些实施例中,第三模型可以通过多个第三训练样本通过监督训练或非监督训练得到。
本说明书中的一些实施例通过对原始文本进行改写,得到结构更简单的简化文本,使得文本的内容更集中,简化了原始文本的结构,减少了无关词语,更有利于后续将文本内容转化为目标手语。
步骤350,通过第四模型,基于关键词和简化文本中的至少一个生成目标手语。
第四模型可以用于确定目标手语。在一些实施例中,步骤320和步骤340由于预设阈值或策略的设置,可能会没有生成关键词或简化文本,第四模型的输入为关键词和/或简化文本,输出可以为根据关键词和/或简化文本确定好的目标手语。例如,对于原始文本“我和你在一起”,其关键词可以为“我”、“你”和“一起”,其简化文本可以为“我连接你”,将该原始文本的关键词或简化文本输入第四模型,第四模型分别根据关键词“我”、“你”和“一起”输出第一候选目标手语“手指指向自身表示‘我’然后指向谈话人表示‘你’,然后再用拥抱来表示‘一起’”,根据简化文本“我连接你”输出第二候选目标手语“手指指向自身表示‘我’然后指向谈话人表示‘你’,然后在谈话人和自身之间来回滑动表示‘连接’”。
在一些实施例中,第四模型可以是将文本转化为手语的模型,如GODIVA模型等。在一些实施例中,第四模型可以通过第四训练样本训练得到。例如,可以通过带有手语的媒体信息或手语课程,获取手语及对应的文本,并以此作为第四训练样本对模型进行训练。
在一些实施例中,对于输入的关键词和/或简化文本,第四模型可能没有合适的手语输出,或生成的目标手语不符合用户偏好等情况,在这种情况下,可以基于原始文本重新确定关键词和/或简化文本,在重新确定关键词和/或简化文本的过程中,可以遵循更宽松的生成策略(如降低前述预设阈值),以便第四模型可以基于重新确定的关键词和/或简化文本输出目标手语。
本说明书中的一些实施例通过第四模型确定目标手语,提高了生成目标手语的效率和准确率。
在一些实施例中,确定目标手语的方式可以包括:基于用户偏好确定关键词和简化文本中的至少一个。
用户偏好可以为用户对于虚拟人做出的手语的喜爱程度。例如,年长的用户可能更喜欢手语时长更长的手语。
在一些实施例中,可以基于用户的历史行为确定用户偏好。例如,统计用户历史选择的目标手语对应的形成依据(如,目标手语是基于关键词生成的还是基于简化文本生成的)确定用户偏好。
在一些实施例中,虚拟人可以基于用户对关键词形成的目标手语和对简化文本形成的目标手语的喜爱程度确定与该用户进行交流时是使用关键词还是简化文本辅助言语表达。
在一些实施例中,服务器110可以基于推荐信息获取用户偏好。
推荐信息可以是为用户推荐目标手语的***。在一些实施例中,推荐信息可以自动为用户推荐虚拟人与之进行言语表达时的目标手语,并基于用户对推荐的目标手语的反馈更新推荐信息。例如,对于原始文本“下单购买”可以得到关键词“钱”和“向下”,推荐信息可以随机将基于“钱”或“向下”形成的目标手语展示给用户A,用户A可以反馈“喜欢”或“不喜欢”,以形成对用户A的偏好。又例如,对于用户群体B,可能用户群体B中有一部分倾向于基于“钱”形成的目标手语,另一部分倾向于基于“向下”形成的目标手语,推荐信息可以基于用户群体B对这两个目标手语的喜爱率设置阈值,如,50%,如果该用户群体B对基于“钱”形成的目标手语的喜爱率超过50%,则将“钱”作为虚拟人在表达“下单”时对该用户群体B做出的目标手语,将“钱”作为该用户群体B对这一类文本(如,下单、购买、支付等)的偏好。
在一些实施例中,基于原始文本确定的关键词和简化文本可能有多个,推荐信息可以基于用户对多个简化文本或关键词形成的目标手语的反馈来确定后续生成的关键词和简化文本。例如,对于“下单”,其关键词可以为“钱”或“向下”,推荐信息可以随机选取关键词(如,钱)生成目标手语,当用户与该虚拟人进行交流时,若用户反馈不喜欢该目标手语,对于该用户则可以在后续基于“向下”形成“下单”的目标手语。
基于确定的关键词或简化文本中的至少一个确定目标手语。
在一些实施例中,用户对基于关键词或简化文本生成的目标手语的偏好可能有所不同,因此,虚拟人还可以基于用户对根据关键词或简化文本生成的目标手语的喜爱程度,确定如何生成针对该用户的目标手语。例如,用户C偏爱基于关键词生成的目标手语,因此,虚拟人可以在与用户C进行交流时均使用基于关键词生成的目标手语。
本说明书中的一些实施例通过基于用户偏好确定目标手语,提升了用户的使用感受。
在一些实施例中,确定目标手语的方式还可以包括:分别基于关键词和简化文本生成候选手语。
候选手语可以为有望被选为目标手语的手语。在一些实施例中,候选手语可以包括基于关键词生成的第一候选目标手语和基于简化文本生成的第二候选目标手语。
在一些实施例中,可以通过第四模型生成第一候选目标手语和第二候选目标手语。
基于候选手语的时长确定目标手语。
手语的时长可以是指虚拟人做手语所消耗的时间。候选手语的时长可以为虚拟人做候选手语所要消耗的时间。
在一些实施例中,为了保证动作的简洁,可以将候选手语时长更短的候选手语选为目标手语。在一些实施例中,也可以基于用户的偏好选择合适的时长的候选手语作为目标手语,如对听障用户选用时长更长的手语。
图4是根据本说明书一些实施例所示的基于知识图谱判断实体信息并确定关键词的示例性流程图。在一些实施例中,流程400中的一个或多个步骤可以由图1中的服务器110执行。如图4所示,流程400可以包括以下步骤:
步骤410,基于知识图谱判断实体信息是否为形象描述。
知识图谱包括节点和节点之间的边,在一些实施例中,节点对应实体,节点之间的边反映实体之间的关系,因此可以通过该知识图谱反映实体和实体的关系、实体的属性等信息。例如,知识图谱中可以包括实体“下单”和“钱”,“下单”和“钱”两者形成的边可以用于反映“下单”和“钱”之间的关系,包括但不限于如“钱为下单的工具”的关系。在一些实施例中,知识图谱中的节点还可以包括属性值,实体和属性值之间形成的边可以为属性值对应的属性,通过实体、属性和属性值可以反映实体的属性。例如,对于知识图谱中的实体“家”,由于“家”是一种形象表述,因此“家”具有“形象表述”的属性,所以“家”对于属性“是否形象”的属性值为“是”;同理,对于实体“下单”,由于“下单”不是一种形象表述,因此“下单”不具有“形象表述”的属性,所以“下单”对于属性“是否形象”的属性值为“否”。在一些实施例中,可以根据专家经验构建知识图谱。
在一些实施例中,可以将知识图谱中反映实体和实体之间的关系的节点和边称为关系三元组,可以记为(实体,关系,实体)。例如,知识图谱中反映“下单工具为钱”的关系三元组可以包括节点“下单”、“钱”和关系“工具”,可以记为(下单,工具,钱)。在一些实施例中,可以将知识图谱中反映实体的属性的节点和边称为属性三元组,可以记为(实体,属性,属性值)。例如,知识图谱中反映“家为形象表述”的节点“家”、“是”和边“是否形象”,可以记为(家,是否形象,是)。
形象描述可以为形象的描述,与形象描述相对的可以为抽象描述。例如,对于“家”,是形象的,因此,“家”可以被认为是一种形象描述。又例如,对于“下单”,是抽象的,因此,“下单”不可以被认为是一种形象描述。
在一些实施例中,可以通过图谱查询判断实体信息是否为形象描述。
步骤420,若实体信息为形象描述,确定实体信息为关键词。例如,对于实体“家”,可以通过图谱查询确定其是否形象的属性三元组(家,是否形象,是),响应于属性值为“是”则可以将“家”提取出来作为关键词。
步骤430,若实体信息为非形象描述,基于知识图谱确定与实体信息相关的其他形象描述实体为关键词。例如,对于实体“下单”,可以在知识图谱中查询到表示其是否形象的属性三元组(下单,是否形象,否),由于属性值为“否”,因此“下单”不能直接作为关键词,需要基于知识图谱确定与“下单”相关的其他形象描述实体为其关键词。
其他形象描述实体可以为与实体信息相关的其他形象的实体信息。例如,通过查询边与节点相连的其他节点所代表的实体是否形象的属性值。
在一些实施例中,可以通过知识图谱中的关系三元组确定与实体信息相关的其他形象描述实体。例如,对于实体“下单”,通过图谱联想可以查询到其关系三元组为(下单,工具,钱)和(下单,趋向性,下),因此可以将“钱”和“下”提取出来,并查询“钱”和“下”的属性三元组,对于“钱”和“下”的属性三元组分别为(钱,是否形象,是)和(下,是否形象,是),因此可以将“钱”和“下”作为“下单”相关的其他形象描述实体。
在一些实施例中,可能出现查询多次仍未查找到与实体信息相关的其他形象描述实体,因此为了避免无限次查找或查找时间过长的情况,可以设置查找上限,使虚拟人能在一定时间范围内做出反应,其中,查找上限可以通过遍历的边的数量进行限制,如限制查询时边不超过4条。
在一些实施例中,可能会出现达到查找上限仍未查找到与实体信息相关的其他形象描述实体,即查找失败。在一些实施例中,当查找失败时,可以将与实体信息相关的其他实体信息作为新的实体信息,并基于新的实体信息查找与该新的实体信息相关的其他形象描述实体,或选择不输出。
本说明中的一些实施例通过知识图谱查找与非形象描述实体信息相关的其他形象描述实体,可以提高查询与实体信息相关的其他形象描述实体的准确度和查找效率。
本说明书中的一些实施例通过使用知识图谱确定实体信息是否为形象描述,并将形象描述的实体作为关键词,将非形象描述的实体的其他形象描述实体作为关键词,使得可以根据形象描述的实体生成目标手语,由于形象描述的实体更容易用手语表达出来,因此提高了后续生成的目标手语的生动程度,使得生成的目标手语更容易被用户接受。本说明书中的一些实施例通过知识图谱查找实体的属性和其他形象描述实体,使得可以无需进行复杂计算,提高了查询效率。
图5是根据本说明书一些实施例所示的虚拟人手语生成***的示例性模块图。在一些实施例中,***500中的一个或多个模块可以设置在图1中的服务器110中。如图5所示,***500可以包括以下模块:
判断模块510,用于识别应答预设条件是否被满足,响应于所述应答预设条件被满足,基于所述应答预设条件的内容获取原始文本。关于应答预设条件、原始文本和获取原始文本的更多内容,参见图2及其相关描述,此处不再赘述。
关键词确定模块520,用于基于知识图谱,确定与所述原始文本有关的关键词。关于关键词及确定关键词的更多内容,参见图2及其相关描述,此处不再赘述。
简化文本确定模块530,用于对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本;所述简化文本能够反映所述原始文本的意图。关于简化文本及确定简化文本的更多内容,参见图2及其相关描述,此处不再赘述。
目标手语确定模块540,用于基于所述关键词和所述简化文本中的至少一个,确定目标手语。关于目标手语及确定目标手语的更多内容参见图2及其相关描述,此处不再赘述。
本说明书实施例还提供一种计算机可读存储介质。存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机实现前述的虚拟人手语生成方法。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (10)
1.一种虚拟人手语生成方法,其包括:
识别应答预设条件是否被满足,响应于所述应答预设条件被满足,基于所述应答预设条件的内容获取原始文本;
基于知识图谱,确定与所述原始文本有关的关键词;
对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本;所述简化文本能够反映所述原始文本的意图;
基于所述关键词和所述简化文本中的至少一个,确定目标手语。
2.如权利要求1所述的方法,所述基于知识图谱,确定与所述原始文本有关的关键词,包括:
基于第一模型获取所述原始文本中的实体信息;
基于所述实体信息和所述知识图谱确定所述关键词。
3.如权利要求2所述的方法,所述基于所述实体信息和所述知识图谱确定关键词,包括:
基于知识图谱判断所述实体信息是否为形象描述;所述知识图谱中的节点对应实体,节点之间的边反映实体之间的关系;
若是,则确定所述实体信息为所述关键词;
若否,则基于所述知识图谱确定与所述实体信息相关的其他形象描述实体为所述关键词。
4.如权利要求1所述的方法,所述对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本,包括:
基于第二模型,获取所述原始文本的意象图式分类;
至少基于所述原始文本所属的意象图式分类确定所述简化文本。
5.如权利要求4所述的方法,所述至少基于所述原始文本所属的意象图式分类确定所述简化文本,包括:将所述意象图式分类和所述原始文本输入第三模型,得到所述简化文本。
6.如权利要求1所述的方法,所述基于所述关键词和所述简化文本中的至少一个,确定目标手语,包括:
基于用户偏好确定所述关键词和所述简化文本中的至少一个;
基于确定的所述关键词或所述简化文本中的至少一个确定所述目标手语。
7.如权利要求1所述的方法,所述基于所述关键词和所述简化文本中的至少一个,确定目标手语,包括:
分别基于所述关键词和简化文本生成候选手语;
基于所述候选手语的时长确定所述目标手语。
8.如权利要求1所述的方法,所述基于所述关键词和所述简化文本中的至少一个,确定目标手语,包括:通过第四模型,基于所述关键词和简化文本中的至少一个生成所述目标手语。
9.一种虚拟人手语生成***,其包括:
判断模块,用于识别应答预设条件是否被满足,响应于所述应答预设条件被满足,基于所述应答预设条件的内容获取原始文本;
关键词确定模块,用于基于知识图谱,确定与所述原始文本有关的关键词;
简化文本确定模块,用于对所述原始文本进行分类,基于所述原始文本所属的分类确定简化文本;所述简化文本能够反映所述原始文本的意图;
目标手语确定模块,用于基于所述关键词和所述简化文本中的至少一个,确定目标手语。
10.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~8任一项所述的虚拟人手语生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210162257.1A CN114546326A (zh) | 2022-02-22 | 2022-02-22 | 一种虚拟人手语生成方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210162257.1A CN114546326A (zh) | 2022-02-22 | 2022-02-22 | 一种虚拟人手语生成方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114546326A true CN114546326A (zh) | 2022-05-27 |
Family
ID=81677122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210162257.1A Pending CN114546326A (zh) | 2022-02-22 | 2022-02-22 | 一种虚拟人手语生成方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114546326A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024008047A1 (zh) * | 2022-07-04 | 2024-01-11 | 阿里巴巴(中国)有限公司 | 数字人手语播报方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409255A (zh) * | 2018-10-10 | 2019-03-01 | 长沙千博信息技术有限公司 | 一种手语场景生成方法及装置 |
CN109461039A (zh) * | 2018-08-28 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种文本处理方法及智能客服方法 |
CN110598576A (zh) * | 2019-08-21 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种手语交互方法、装置及计算机介质 |
US20200005673A1 (en) * | 2018-06-29 | 2020-01-02 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, apparatus, device and system for sign language translation |
-
2022
- 2022-02-22 CN CN202210162257.1A patent/CN114546326A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200005673A1 (en) * | 2018-06-29 | 2020-01-02 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, apparatus, device and system for sign language translation |
CN109461039A (zh) * | 2018-08-28 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种文本处理方法及智能客服方法 |
CN109409255A (zh) * | 2018-10-10 | 2019-03-01 | 长沙千博信息技术有限公司 | 一种手语场景生成方法及装置 |
CN110598576A (zh) * | 2019-08-21 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种手语交互方法、装置及计算机介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024008047A1 (zh) * | 2022-07-04 | 2024-01-11 | 阿里巴巴(中国)有限公司 | 数字人手语播报方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019200437B2 (en) | A method to build an enterprise-specific knowledge graph | |
US9081411B2 (en) | Rapid development of virtual personal assistant applications | |
US9489625B2 (en) | Rapid development of virtual personal assistant applications | |
US11138212B2 (en) | Natural language response recommendation clustering for rapid retrieval | |
US20180314689A1 (en) | Multi-lingual virtual personal assistant | |
WO2018196684A1 (zh) | 对话机器人生成方法及装置 | |
Aleedy et al. | Generating and analyzing chatbot responses using natural language processing | |
US20150039292A1 (en) | Method and system of classification in a natural language user interface | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
KR20190095333A (ko) | 앵커식 검색 | |
US10902209B2 (en) | Method for content search and electronic device therefor | |
US20230350929A1 (en) | Method and system for generating intent responses through virtual agents | |
WO2020139865A1 (en) | Systems and methods for improved automated conversations | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111368555A (zh) | 一种数据识别方法、装置、存储介质和电子设备 | |
Abro et al. | Natural language processing challenges and issues: A literature review | |
KR102430285B1 (ko) | 시각장애인용 키오스크 장치 및 이의 동작방법 | |
CN114546326A (zh) | 一种虚拟人手语生成方法和*** | |
CN109783677A (zh) | 回复方法、回复装置、电子设备及计算机可读存储介质 | |
US20230351257A1 (en) | Method and system for training virtual agents through fallback analysis | |
US10282417B2 (en) | Conversational list management | |
CN117272977A (zh) | 人物描写语句的识别方法、装置、电子设备及存储介质 | |
CN109002498A (zh) | 人机对话方法、装置、设备及存储介质 | |
CN114048319A (zh) | 基于注意力机制的幽默文本分类方法、装置、设备、介质 | |
CN111062207A (zh) | 表情图像处理方法、装置、计算机存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |