CN105991847B - 通话方法和电子设备 - Google Patents

通话方法和电子设备 Download PDF

Info

Publication number
CN105991847B
CN105991847B CN201510084928.7A CN201510084928A CN105991847B CN 105991847 B CN105991847 B CN 105991847B CN 201510084928 A CN201510084928 A CN 201510084928A CN 105991847 B CN105991847 B CN 105991847B
Authority
CN
China
Prior art keywords
information
voice
virtual
emotional state
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510084928.7A
Other languages
English (en)
Other versions
CN105991847A (zh
Inventor
文学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201510084928.7A priority Critical patent/CN105991847B/zh
Priority to KR1020150172647A priority patent/KR102420564B1/ko
Priority to PCT/KR2016/001488 priority patent/WO2016133319A1/en
Priority to EP16752649.0A priority patent/EP3259754B1/en
Priority to US15/044,467 priority patent/US10468052B2/en
Publication of CN105991847A publication Critical patent/CN105991847A/zh
Application granted granted Critical
Publication of CN105991847B publication Critical patent/CN105991847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)

Abstract

本申请公开了一种通话方法和电子设备。所述方法的一具体实施方式包括:获取输入到通话终端的语音信息;获取状态信息;根据语音信息和所述状态信息,生成具有表达属性的虚拟语音;输出虚拟语音。该实施方式丰富了通话中的交互方式。

Description

通话方法和电子设备
技术领域
本申请涉及计算机技术领域,具体涉及终端技术领域,尤其涉及通话方法和电子设备。
背景技术
随着人工智能技术的发展,尤其是随着人工智能技术在各种设备上的应用,虚拟人物借助于虚拟语音与用户进行智能交互成为了可能。自动化的呼叫中心是一个在服务器端应用虚拟人物的例子,其中,用户可以通过数据网络(如电话网络)同呼叫中心的自动代理(即虚拟人物)交流。然而,不仅仅是在大型的服务器中,在便携式的移动终端中也存在着应用虚拟人物以便为通话提供更多交互方式的需求。
发明内容
本申请提供了通话方法和电子设备。
一方面,本申请提供了一种通话方法,所述方法包括:获取输入到通话终端的语音信息;获取状态信息;根据语音信息和状态信息,生成具有表达属性的虚拟语音;输出虚拟语音。
在某些实施方式中,生成的虚拟语音的内容可以是依据语音信息和所述状态信息确定的。
在某些实施方式中,语音信息可以包含内容和/或表达属性;表达属性可以包括情绪状态和/或表达方式。
在某些实施方式中,如果语音信息的内容中包含状态信息中的预定敏感关键词,则虚拟语音的内容可以包括预定提示信息或与当前话题不同的话题信息。
在某些实施方式中,如果语音信息的内容中包含状态信息中的预定敏感关键词,则通话方法还可以包括:延迟输出语音信息,并在接收到输出指令时再输出语音信息。
在某些实施方式中,如果语音信息的内容中包含预定类型的关键词,则虚拟语音的内容可以包括与所述预定类型相对应的提示信息。
在某些实施方式中,上述预定类型可以包括:数值类型和/或时间类型。如果语音信息的内容中包含数值类型的关键词,则虚拟语音的内容可以包括与更新联系人或数值换算相关的提示信息;如果语音信息的内容中包含时间类型的关键词,则虚拟语音的内容可以包括与日程冲突、时间提醒、时差提醒或者出行提醒相关的提示信息。
在某些实施方式中,如果语音信息的情绪状态异常,则虚拟语音的内容可以包括预定提示信息或与当前话题不同的话题信息。
在某些实施方式中,情绪状态异常可以包括情绪状态类型异常和/或情绪状态持续时间异常。
在某些实施方式中,如果语音信息所针对的用户为此次通话用户或者话题中包含预定话题,则虚拟语音的内容可以包括根据语音信息的情绪状态生成的预定提示信息或与当前话题不同的话题信息。
在某些实施方式中,生成的虚拟语音的表达属性可以是对先前的表达属性的调整。
在某些实施方式中,表达属性可以包括情绪状态和/或表达方式。
在某些实施方式中,对情绪状态的调整可以包括抑制情绪状态和/或提升情绪状态。
在某些实施方式中,如果语音信息的内容中包含状态信息中的预定感兴趣关键词,则可以提升先前的情绪状态;如果语音信息的内容中包含状态信息中的预定反感关键词,则可以抑制先前的情绪状态。
在某些实施方式中,如果语音信息的内容中包含呼应句型,则可以提升先前的情绪状态;如果语音信息的内容中包含祈使句型,则可以抑制先前的情绪状态。
在某些实施方式中,如果状态信息中包含针对输入所述语音信息的用户设置的好感度,则可以对先前的情绪状态进行调整。
在某些实施方式中,如果语音信息的内容中包含预定感兴趣话题,则可以提升先前的情绪状态;如果语音信息的内容包含包括了预定反感话题,则可以抑制先前的情绪状态。
在某些实施方式中,如果语音信息所针对的用户为此次通话用户和/或者话题信息中包括了预定话题,则可以根据预定义调整规则对先前的虚拟语音的情绪状态信息进行调整。
在某些实施方式中,如果语音信息的情绪状态类型异常或情绪状态持续时间异常,则可以对先前的情绪状态进行调整。
在某些实施方式中,情绪状态类型异常可以包含单方用户的情绪状态异常、通话双方用户的情绪状态共性异常或通话双方用户的情绪状态互动性异常;情绪状态持续时间异常单方用户的同一情绪状态类型的持续时间异常包含单方用户的同一情绪状态类型的持续时间异常或通话双方用户的相同情绪状态类型的持续时间异常。
在某些实施方式中,表达方式可以包括:语言组织方式、口音类型、方言频率、方言程度、方言语调、情景模式或者背景音。
在某些实施方式中,可以根据语音信息的表达方式中的方言频率和方言程度,调整先前的表达方式中的方言频率和方言程度。
在某些实施方式中,通话方法还可以包括:根据针对通话双方预设的通话情景模式,来调整先前的表达方式中的方言频率和方言程度。
第二方面,本申请提供了一种电子设备,该电子设备包括:语音解析器,用于对输入到电子设备的音频进行解析,提取出语音信息;状态机,用于保存状态信息;控制器,用于根据语音信息以及状态信息,生成具有表达属性的虚拟语音;输出设备,用于输出虚拟语音。
在某些实施方式中,表达属性可以包括情绪状态和/或表达方式。
在某些实施方式中,控制器可以包括:动作决策器,用于根据语音信息和状态信息决策所生成的虚拟语音的内容和表达属性,并根据内容生成文本描述符,根据表达属性生成表达属性描述符;语音合成器,用于根据文本描述符和所述表达属性描述符生成虚拟语音。
在某些实施方式中,语音合成器可以进一步包括:前端文本处理模块,用于根据文本描述符生成语音学标签;前段韵律处理模块,用于根据表达属性描述符生成韵律调制描述符;后端波形合成器,用于根据语音学标签和韵律调制描述符生成虚拟语音。
在某些实施方式中,所述虚拟语音的内容可以包含自发内容和交互内容,其中,自发内容可以包含以下至少一项:问候、对用户的指示、事件提醒、发表意见、提问;交互内容可以包含以下至少一项:回复问候、发表意见、回答问题、提出问题。
在某些实施方式中,控制器还可以用于更新所述状态信息。
在某些实施方式中,状态信息可以包含个性变量和状态变量。控制器具体可以用于根据以下中的至少一项来更新个性变量:用户的更新指令、语音信息;以及根据以下中的至少一项来更新状态变量:用户的更新指令、语音信息以及个性变量。
在某些实施方式中,个性变量可以包括以下中的至少一项:偏好话题、偏好关键词、好感度、口音、适应性、敏锐性、好奇性、逆反性、演说性、习语、多话症、怪癖、回复度、情感度、休息时间;状态变量包括以下中的至少一项:活跃度、情绪状态、表达方式、主动性。
在某些实施方式中,表达方式可以包括以下中的至少一项:口音类型、口音程度、口音频率、正式程度、亲近程度、发音方法。
在某些实施方式中,语音解析器包括:语音识别模块,用于从输入到电子设备的音频中识别内容信息;表达属性识别模块,用于从音频中识别表达属性信息。
在某些实施方式中,电子设备还可以包括知识库,用于存储知识信息。控制器具体可以用于根据语音信息、状态信息以及知识信息,生成具有表达属性的虚拟语音。
在某些实施方式中,知识库可以包括:人物数据库,用于存储人物信息;词典数据库,用于存储常识性信息和音标标注信息;记事数据库,用于存储物品信息、事件信息和话题信息。
在某些实施方式中,人物数据库存储的人物信息可以包括人物的声音特征信息。语音解析器可以进一步包括:说话人识别器,用于根据声音特征信息来识别与输入到电子设备的音频相关联的人物的身份。
在某些实施方式中,语音解析器可以进一步包括:模式匹配器,用于根据词典数据库存储的信息提取出已存模式句中的信息。
在某些实施方式中,语音解析器可以进一步包括:关键词检测器,用于根据词典数据库和记事数据库存储的信息,识别输入到电子设备的音频中的关键词。
在某些实施方式中,控制器还可以用于更新所述知识信息。
在某些实施方式中,控制器具体可以用于根据以下中的至少一项来更新知识信息:在线搜索、询问用户、自动推理、匹配空白字段、匹配待确认字段、发现新字段、发现新字段值。
在某些实施方式中,控制器,还可以用于确定以下中的一项作为输出的语音:输入到电子设备的音频;所生成的具有表达属性的虚拟语音;音频和虚拟语音的叠加。
在某些实施方式中,在控制器确定上述音频和虚拟语音的叠加作为输出的语音的情况下,输出设备还可以用于先对上述音频和虚拟语音进行空间滤波,再叠加并输出。
在某些实施方式中,在所述控制器确定输入到所述电子设备的音频作为输出的语音的情况下,控制器还可以用于控制所述输出设备延迟输出上述音频,并在接收到输出指令时再控制输出设备输出上述音频。
本申请提供的通话方法和电子设备,通过获取输入到通话终端的语音信息和状态信息,而后根据上述语音信息和状态信息生成具有表达属性的虚拟语音并最后输出,丰富了通话中的交互方式,实现了对传统的双方通话的帮助。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是双方通话与三方通话的效果对比示意图;
图2是根据本申请的通话方法的一个实施例的流程图;
图3是根据本申请的电子设备的一个实施例的结构示意图;
图4是根据本申请的状态信息中的活跃度的一种变化方式的示意图;
图5是根据本申请的控制器的一个实施例的结构示意图;
图6是根据本申请的语音合成器的一个实施例的结构示意图;
图7是根据本申请的控制器控制输出设备输出语音的示意图;
图8是根据本申请的在输出设备中对音频进行滤波的示意图;
图9是根据本申请的知识库的一个实施例的结构示意图;
图10是根据本申请的知识库中的人物数据库、词典数据库和记事数据库的关系的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本申请。
首先,请参考图1,其示出了双方通话与三方通话的效果对比示意图。如图1所示,双方的通话可能会出现沟通不畅或情绪紧张的情况,而三个人之间的沟通相对而言更加开放和轻松愉快。因此,当双方进行通话时,如果有第三方参与通话,则有可能将双方通话的封闭、针锋相对的气氛改变成开放、放松的气氛,从而帮助通话轻松愉快地进行。本申请的实施例中,借助于通话终端所生成的代表着虚拟人物的虚拟语音,虚拟人物可以作为第三方(例如图1中的通话者Vicky)参与通话,下面将通过实施例具体说明。
请参考图2,其示出了根据本申请的通话方法的一个实施例的流程200。本实施例主要以该方法应用于包含有麦克风和扬声器的通话终端中来举例说明,该通话终端可以包括智能手机、平板电脑、个人数字助理、膝上型便携计算机和台式计算机等等。上述通话方法,包括以下步骤:
步骤210,获取输入到通话终端的语音信息。
在本实施例中,参与通话的通话终端可以包括一个以上的支持通话功能的终端,该终端可以是本端通话终端,也可以是参与通话的对端通话终端。通话终端可以获取由本地用户或对端用户输入的语音信息。具体地,通话终端可以首先接收由本地用户和对端用户输入的音频,接着再对所述音频进行音频分析从而获取语音信息。
用户可以采用多种方式进行音频输入,例如,用户可以通过本端通话终端的麦克风直接输入音频;也可以通过无线连接方式/有线连接方式接收外部(例如对端通话终端)输入的音频;还可以先通过键盘和按钮等方式编辑非音频信息(例如曲谱),之后再由通话终端的处理器将该非音频信息转化为音频。上述无线连接方式包括但不限于2G/3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband,超宽带)连接、以及其他现在已知或将来开发的无线连接方式。
步骤220,获取状态信息。
在本实施例中,通话终端(例如参与通话的本端通话终端)可以从本地或者远程地获取状态信息,其中,状态信息是对虚拟人物的个性和行为等进行描述的信息,其可以根据先前的状态信息、输入到通话终端的语音信息等发生变化。对于实际进行通话的各方而言,虚拟人物可以通过虚拟语音而体现出来,并借助于虚拟语音而参与到通话中。因此,上述虚拟人物的虚拟语音的生成将受到上述状态信息的约束,具体将在后文中详细描述。
上述状态信息可以存储在通话终端自身的存储器中,这时,该通话终端可以直接本地获得该状态信息;该状态信息还可以存储在远程服务器(例如与通话终端相关联的后台服务器)中,这时,该通话终端可以通过有线连接方式或者无线连接方式从远程服务器接收该状态信息。
在一些可选的实现方式中,状态信息可以包括个性变量和状态变量。其中,个性变量用于描述虚拟人物对输入到通话终端的语音信息做出反应的一般倾向,其可以通过长期与通话终端的用户以及其他人的交流而发生改变。例如,个性变量可以包括但不限于以下中的至少一项:偏好/敏感话题、偏好/敏感关键词、好感度、口音、适应性、敏锐性、好奇性、逆反性、演说性、习语、多话症、怪癖、回复度、情感度、休息时间。具体而言,偏好/敏感话题,用于描述虚拟人物可能积极参与的话题,或可能不想参与的话题;偏好/敏感关键词,用于描述虚拟人物可能感兴趣的关键词(例如“运动”)或者不感兴趣的关键词(例如“恐怖”);好感度,用于描述虚拟人物可能对其持有正面或负面意见的人、物体或概念;口音,用于描述虚拟人物可能的口音类型和口音程度;适应性,用于描述虚拟人物的个性变量长期变化的快慢程度;敏锐性,用于描述虚拟人物对输入的语音信息的敏感程度;好奇性,用于描述虚拟人物提出问题的积极性;逆反性,用于描述虚拟人物执行指令的积极性;演说性,用于描述虚拟人物使用流利的经修饰的语言的倾向;习语,用于描述虚拟人物经常使用的短语或语言模式;多话症描述虚拟人物大量使用语言的倾向性;怪癖,用于描述虚拟人物对特定话题的特殊反应方式;回复度,用于描述虚拟人物回应要求和问题的积极性;情感度,用于描述虚拟人物产生强烈情感的倾向性;休息时间,用于描述虚拟人物的反应迟钝的时间段。
其中,状态变量用于描述虚拟人物的行为特点,其可以根据先前的状态变量、输入到通话终端的语音信息以及上述个性变量等而发生变化。例如,状态变量可以包括但不限于以下中的至少一项:活跃度、情绪状态、表达方式、主动性。具体而言,活跃度,用于描述虚拟人物发出语音的积极程度(例如高活跃度表示虚拟人物倾向于频繁发出语音、使用长句、高语速和主动发出语音等);情绪状态,用于描述虚拟人物传递的情绪类型(至少可以包括高兴和郁闷)和程度;说话方式,用于描述呈现虚拟人物的虚拟语音的方式,至少包括使用方言的频率和程度、正式程度、亲近程度和特定的发音方法;主动性,用于描述虚拟人物主动发出虚拟语音的倾向性。
步骤230,根据语音信息和状态信息,生成具有表达属性的虚拟语音。
在本实施例中,通话终端可以根据在步骤210中获取的语音信息和在步骤220中获取的状态信息,生成对上述语音信息作出反应的具有表达属性的虚拟语音。其中,虚拟语音或语音信息的表达属性是用于对语音的情感和语言组织形式等非内容信息进行描述的信息,其可以包括情绪状态和/或表达方式。
可选地,表达属性所包括的情绪状态可以包括但不限于以下类型:高兴、愤怒、悲伤、郁闷、温和。对于每种类型的情绪状态,还可以通过类型的程度来进一步限定,例如,对于“高兴”类型的情绪状态,还可以进一步通过低、中、高等若干程度等级来限定。上述表达方式可以包括但不限于以下中的至少一项:语言组织方式、口音类型、方言频率、方言程度、方言语调、情景模式或者背景音。
在本实施例的一些可选的实现方式中,虚拟语音的内容可以依据上述状态信息以及输入到通话终端的语音信息的内容和/或表达属性来确定。作为示例,通话终端可以通过语音处理技术(例如语音识别技术)对输入到通话终端的语音信息进行分析从而得到其内容,再根据该内容以及虚拟人物的状态信息生成具有表达属性的虚拟语音。作为另一示例,通话终端还可以对输入到通话终端的语音信息进行语音分析从而得到其表达属性,再根据该表达属性以及虚拟人物的状态信息生成具有表达属性的虚拟语音。
例如,如果输入到通话终端的语音信息包含“足球”话题,而“足球”话题也是虚拟人物的偏好话题(该偏好话题由虚拟人物的状态信息所包括的个性变量来限定),则可以将待生成虚拟语音的内容确定为与“足球”话题相关的内容,且将上述待生成虚拟语音的表达属性中的情绪状态的类型确定为“高兴”。
再例如,如果对输入到通话终端的语音信息进行语音分析后确定其表达属性包括了“伤心”类型的情绪状态,则可以将待生成虚拟语音的内容确定为与“安慰”话题相关的内容,且将上述待生成虚拟语音的表达属性中的情绪状态的类型确定为“温和”。
在一些实施例中,如果输入到通话终端的语音信息的内容中包含虚拟人物的状态信息中的预定敏感关键词,则虚拟语音的内容可以包括预定提示信息或与当前话题不同的话题信息。该预定敏感关键词可以被保存在状态信息的个性变量中的敏感关键词这一项中,当通话内容中涉及该预定敏感关键词时,通话的进行可能会受到负面的影响。例如,如果所述语音信息的内容中包括了关键词“恐怖”,而该关键词“恐怖”是虚拟人物的状态信息中的敏感关键词之一,则待生成的虚拟语音的内容可以包括预定提示信息“请更换话题”或者直接包括与当前的话题不同的话题信息,例如包括了与“运动”话题相关的信息。
在一些可选的实现方式中,如果输入到通话终端的语音信息的内容中包含预定类型的关键词,则虚拟语音的内容可以包括与预定类型相对应的提示信息。例如,如果通话内容中包含地址类型的关键词,则虚拟语音的内容中可以与地址类型相关的提示信息,例如提示地址更新或提示会面地址之类的信息。
可选地,上述预定类型包括:数值类型和/或时间类型。此时,如果输入到通话终端的语音信息的内容中包含数值类型的关键词,则虚拟语音的内容可以包括与更新联系人或数值换算相关的提示信息;如果上述语音信息的内容中包含时间类型的关键词,则虚拟语音的内容可以包括与日程冲突、时间提醒、时差提醒或者出行提醒相关的提示信息。例如,如果上述语音信息的内容中包括了关键词“明天上午7点”,则通话终端可以检索用户在“明天上午7点”的日程安排信息,并在冲突的情况下则在生成的虚拟语音的内容中包括冲突提示信息。
在一些可选的实现方式中,虚拟语音的内容可以依据输入到通话终端的语音信息的表达属性(例如情绪状态)确定。在通话过程中,可以分析获取来自本地用户和对端用户的语音信息中的情绪状态,并根据该情绪状态调整虚拟语音的内容。例如,如果上述语音信息的情绪状态异常,则所述虚拟语音的内容可以包括预定提示信息或与当前话题不同的话题信息。其中,上述情绪状态异常可以包括但不限于情绪状态类型异常和/或情绪状态持续时间异常。情绪状态类型可以包括正面类型,如高兴、兴奋、愉快等;负面类型,如悲伤、郁闷、愤怒、恐惧等;以及中性类型,如温和等。通常,负面类型的情绪状态类型可以被视为异常的情绪状态类型。如果“悲伤”或者“郁闷”之类的负面类型的情绪状态持续达到预定时间段(例如1分钟),则这可以视为情绪状态持续时间异常;当然,如果“兴奋”之类的正面类型的情绪状态持续达到预定时间段(例如10分钟),则这也可以视为情绪状态持续时间异常。
在一些可选的实现方式中,如果输入到通话终端的语音信息所针对的用户为此次通话用户(即参与通话的本地用户或对端用户),或者话题中包含预定话题,则虚拟语音的内容可以包括根据该语音信息的情绪状态生成的预定提示信息或与当前话题不同的话题信息。该预定话题可以是可能引起用户情绪状态剧烈变化的话题,也可以是用户反感的话题,这样的话题可以预先储存在用于记录与用户有关的信息的知识库中。例如,当本地用户输入到通话终端的语音信息是针对此次通话的对端用户、且该语音信息的情绪状态的类型为“愤怒”时,虚拟语音的内容中可以包含提示本地用户控制情绪的提示信息。再例如,当本地用户的语音信息的话题中包含了可能引起对端用户反感的话题(例如对端用户的年龄),则虚拟语音的内容中可以包括与上述话题不同的另一个话题,例如天气、新闻等话题。
在一些可选的实现方式中,步骤230中生成的虚拟语音的表达属性是对上述虚拟语音的先前的表达属性的调整。由于虚拟语音的表达属性包括了情绪状态和/或表达方式,则对先前的表达属性的调整包括相应地调整情绪状态和/或调整表达方式。
可选地,对情绪状态的调整可以包括抑制情绪状态和/或提升情绪状态。其中,抑制情绪状态可以包括将正面类型的情绪状态调整为中性类型或负面类型的情绪状态,将中性类型的情绪状态调整为负面类型的情绪状态,例如将情绪状态由“高兴”调整为“温和”或“郁闷”。抑制情绪状态也可以包括将情绪状态的程度由高向低调整,例如将情绪状态“高兴”的程度由“高”调整为“低”。而提升情绪状态可以包括将负面类型的情绪状态调整为中性类型或正面类型的情绪状态,将中性类型的情绪状态调整为正面类型的情绪状态,例如将情绪状态由“温和”或“郁闷”调整为“高兴”。同样,提升情绪状态也可以包括将情绪状态的程度由低向高调整,例如将情绪状态“高兴”的程度由“低”调整为“高”。
可选地,可以根据输入到通话终端的语音信息的内容来调整虚拟语音的表达属性。例如,如果上述语音信息的内容中包含虚拟人物的状态信息中的预定感兴趣关键词(例如该预定感兴趣关键词是虚拟人物的个性变量中所包括的偏好关键词),则提升先前的虚拟语音的情绪状态;如果所述语音信息的内容中包含所述状态信息中的预定反感关键词(例如该预定反感关键词是虚拟人物的个性变量中所包括的敏感关键词),则抑制先前的虚拟语音的情绪状态。
再例如,如果输入到通话终端的语音信息的内容中包含呼应句型,则可以提升先前的虚拟语音的情绪状态;而如果所述语音信息的内容中包含祈使句型,则抑制先前的虚拟语音的情绪状态。其中,呼应句型可以指用于招呼人或对招呼进行应答的句型,例如“早上好,小张”,“早上好,小王”。如果输入到通话终端的语音信息的内容中包括了对虚拟人物Jim的招呼,例如“早上好,Jim”,则可以提升该虚拟人物Jim的先前的虚拟语音的情绪状态。其中,祈使句型可以指用于请求或命令的句型,该句型的作用通常是要求、请求、命令、劝告、叮嘱、或建议别人做或不做一件事,例如“禁止吸烟!”。如果输入到通话终端的语音信息的内容中包括了祈使句型,例如“小声点,Jim”,则可以抑制该虚拟人物Jim的先前的虚拟语音的情绪状态。
在一些可选的实现方式中,生成的虚拟语音的表达属性所包括的情绪状态也可以由步骤220获取的状态信息来确定。如果上述状态信息中包含针对输入语音信息的用户设置的好感度(该好感度由虚拟人物的上述状态信息所包括的个性变量来限定),则可以对先前的情绪状态进行调整。例如,如果状态信息中对输入语音信息的用户设置的好感度较高,则可以提升先前的虚拟语音的情绪状态,而如果状态信息中对上述用户设置的好感度较低,则可以抑制先前的虚拟语音的情绪状态。
在一些可选的实现方式中,如果输入到通话终端的语音信息的内容中包含预定感兴趣话题,则可以提升先前的情绪状态;如果上述语音信息的内容包含包括了预定反感话题,则可以抑制先前的情绪状态。其中,上述预定感兴趣话题和预定反感兴趣话题均可以在虚拟人物的状态信息的个性变量“偏好/敏感话题”中预先设置。例如,如果“艺术”话题是个性变量中的预定感兴趣话题(即偏好话题),而“***”是个性变量中的预定反感话题(即敏感话题),则当语音信息的内容中包含“艺术”话题时,可以提升先前的虚拟语音的情绪状态,而当上述内容中包含“***”话题时,可以抑制先前的虚拟语音的情绪状态。
在一些可选的实现方式中,如果输入到通话终端的语音信息所针对的用户为此次通话用户和/或者话题信息中包括了预定话题,则根据预定义调整规则对先前的虚拟语音的情绪状态信息进行调整。其中,预定义调整规则可以是以下规则:如果上述语音信息所针对的用户为此次通话用户,则提升先前的虚拟语音的情绪状态;如果上述语音信息的话题信息中包括了预定感兴趣话题,则提升先前的虚拟语音的情绪状态;如果上述语音信息的话题信息中包括了预定反感话题,则抑制先前的虚拟语音的情绪状态。
在一些可选的实现方式中,生成的虚拟语音的表达属性中的情绪状态也可以由输入到通话终端的语音信息的表达属性中的情绪状态来确定。如果上述语音信息的情绪状态类型异常或情绪状态持续时间异常,则可以对先前的情绪状态进行调整。可选地,情绪状态类型异常可以是单方用户的情绪状态异常、通话双方用户的情绪状态共性异常或通话双方用户的情绪状态互动性异常;而情绪状态持续时间异常可以是单方用户的同一情绪状态类型的持续时间异常或通话双方用户的相同情绪状态类型的持续时间异常。
在此,通话中的用户的情绪状态可以由该用户输入到通话终端的语音信息的情绪状态来确定。如果通话中的用户之一的语音信息的情绪状态为负面类型(例如“愤怒”类型)时,这可以表示单方用户的情绪状态异常;如果通话中的两个用户的语音信息的情绪状态都为负面类型(例如都为“愤怒”类型或者一个为“愤怒”类型而另一个为“郁闷”类型)时,这可以表示通话双方用户的情绪状态共性异常;如果通话中的两个用户的语音信息的情绪状态分别为正面类型和负面类型(例如一个为“高兴”类型,一个为“郁闷”类型)时,这可以表示通话双方用户的情绪状态互动性异常。同样,如果单方用户的同一情绪状态类型(例如“愤怒”类型)的持续时间达到预定时间段(例如1分钟),则表示该单方用户的同一情绪状态类型的持续时间异常;而如果通话双方用户的同一情绪状态类型(例如“愤怒”类型)的持续时间达到预定时间段(例如1分钟),则表示该双方用户的相同情绪状态类型的持续时间异常。如果判断出语音信息的情绪状态类型异常或情绪状态持续时间异常,则可以对先前的情绪状态进行调整。作为示例,当判断出单方/双方用户的情绪状态类型异常时,可以对先前的虚拟语音的情绪状态进行调整,例如从先前的“愤怒”类型调整为“温和”类型,以帮助该单方/双方用户将异常类型的情绪状态调整为中性类型的或者正面类型的情绪状态。
在一些可选的实现方式中,生成的虚拟语音的表达方式可以由输入到通话终端的语音信息的表达方式来确定。更具体地,可以根据上述语音信息的表达方式对待生成的虚拟语音的表达方式进行调整,使虚拟语音具有与上述语音信息相同或相类似的表达方式。作为示例,可以根据上述语音信息的表达方式中的方言频率和方言程度,调整虚拟语音的先前的表达方式中的方言频率和方言程度。例如,如果一个用户的通话内容中四川方言的频率和程度都较高,则可以对虚拟语音的先前的表达方式进行调整,生成四川方言的频率和程度都较高的虚拟语音。
在一些可选的实现方式中,本实施例提供的通话方法还可以包括:根据针对通话双方预设的通话情景模式,来调整先前的虚拟语音的表达方式中的方言频率和方言程度。其中,通话情景模式可以包括但不限于工作模式和休息模式。工作模式和休息模式又可以包括多种子模式,例如,工作模式可以包含咨询模式、交流模式、讨论模式等,休息模式可以包括家庭模式,闲聊模式等。作为示例,当预设的通话情景模式为工作模式时,可以降低虚拟语音的表达方式中的方言频率和方言程度,例如采用普通话或英语作为虚拟语音的表达方式;当预设的通话情景模式为家庭模式时,可以增加虚拟语音的表达方式中的方言频率和方言程度,例如采用较高频率和程度的家乡话(例如四川方言)作为虚拟语音的表达方式。
步骤240,输出虚拟语音。
在本实施例中,通话终端在步骤230中生成具有表达属性的虚拟语音之后,可以通过多种方式输出该虚拟语音。例如,可以直接通过本地通话终端的扬声器输出该虚拟语音,也可以经过编码处理后借助于电话网络发送给对端通话终端,对端通话终端再通过其扬声器输出该虚拟语音。
在一些可选的实现方式中,如果输入到通话终端的语音信息的内容中包含虚拟人物的状态信息中的预定敏感关键词,上述通话方法实施例还可以包括延迟输出该语音信息的步骤,并在接收到输出指令时再输出该语音信息。其中,该输出指令可以由通话终端的用户发出,或者也可以由通话终端在预定时间间隔(例如1分钟)之后自动发出。例如,在通话期间,如果输入到本地通话终端的语音信息中包含可能引起争吵的预定敏感关键词(诸如“反对”),则本地通话终端的虚拟人物可以延迟将该语音信息发送给对端通话终端,在延迟期间通过隐私模式利用虚拟语音与本地用户或者对端用户对话,建议用户调整情绪或换个话题。
本申请的上述实施例提供的方法通过获取输入到通话终端的语音信息和虚拟人物的状态信息,再根据上述语音信息和状态信息生成具有表达属性的虚拟语音并最后输出,实现了借助于虚拟语音的多方通话。
进一步参考图3,其示出了根据本申请的电子设备的一个实施例的结构示意图。作为对上述图2所示的方法的实现,该设备实施例与图2所示的方法实施例相对应。
如图3所示,本实施例所述的电子设备300可以包括:语音解析器310,状态机320,控制器330以及输出设备340。其中,语音解析器310可以用于对输入到上述电子设备的音频进行解析,提取出语音信息;状态机320可以用于保存状态信息;控制器330可以用于根据语音信息以及状态信息,生成具有表达属性的虚拟语音;输出设备340可以用于输出虚拟语音。其中,语音信息和虚拟语音都可以包括表达属性,该表达属性是用于对语音的情感和语言组织形式等非内容信息进行描述的信息,其可以包括情绪状态和/或表达方式。当然,语音信息还可以包括别的信息,例如输入上述音频的用户的嗓音信息。
可选地,表达属性所包括的情绪状态可以包括但不限于以下类型:高兴、愤怒、悲伤、郁闷、温和。表达属性所包括的表达方式可以包括但不限于以下中的至少一项:语言组织方式、口音类型、方言频率、方言程度、方言语调、情景模式或者背景音。
在本实施例中,语音解析器310可以对输入电子设备的音频进行解析,从中提取出语音信息。其中,所提取的语音信息可以包括但不限于内容信息(例如话题、关键词)、表达方式信息(例如口音类型)和情绪状态信息(例如输入音频的用户的“高兴”的情绪状态)。可选地,语音解析器310可以进一步包括:语音识别模块(未示出),用于从输入到所述电子设备的音频中识别内容信息;表达属性识别模块(未示出),用于从所述音频中识别表达属性信息。
在本实施例中,状态机320用于保存状态信息。其中,状态信息是对虚拟人物的个性和行为等进行描述的信息,其可以根据先前的状态信息、语音解析器310所获取的语音信息等发生变化或更新。对于实际进行通话的各方而言,虚拟人物可以通过虚拟语音而体现出来,并借助于虚拟语音而参与到通话中。因此,上述虚拟人物的虚拟语音的生成将受到状态机320中的状态信息的约束。
在一些可选的实现方式中,状态信息可以包括个性变量和状态变量。其中,个性变量用于描述虚拟人物对输入到通话终端的语音信息做出反应的一般倾向,其可以通过长期与通话终端的用户以及其他人的交流而发生改变。例如,个性变量可以包括但不限于以下中的至少一项:偏好/敏感话题、偏好/敏感关键词、好感度、口音、适应性、敏锐性、好奇性、逆反性、演说性、习语、多话症、怪癖、回复度、情感度、休息时间。而状态变量用于描述虚拟人物的行为特点,其可以根据先前的状态变量、输入到通话终端的语音信息以及上述个性变量等而发生变化。例如,状态变量可以包括但不限于以下中的至少一项:活跃度、情绪状态、表达方式、主动性。个性变量和状态变量可以是缺省设置的或者根据用户的指令而获取的。例如,电子设备的用户可以通过向控制器330发送复制/更新指令而复制其喜欢的虚拟人物的状态信息并以此来更新其电子设备的状态机中的状态信息。
可选地,状态机320可以在控制器330的控制下,根据状态机320自身先前保存的状态信息、语音解析器310所获取的语音信息等来对所保存的状态信息进行更新。控制器330可以根据以下中的至少一项来更新状态信息中的个性变量:用户的更新指令、语音解析器310所获取的语音信息。并且,控制器330可以根据以下中的至少一项来更新状态信息中的状态变量:用户的更新指令、语音解析器310所获取的语音信息以及状态信息中的个性变量。
具体地,控制器330可以根据用户的更新指令来直接更新个性变量。例如,通过接收电子设备的用户的复制/更新指令而复制该用户喜欢的虚拟人物的个性变量并以此来更新状态机中的个性变量。此外,控制器330还可以根据语音解析器310所获取的语音信息来更新个性变量。例如,通过对上述语音信息的内容中的习语的进行分析和统计,用出现次数较多的习语来更新或增加个性变量中的习语。
具体地,控制器330可以根据个性变量与状态变量的关联性来更新状态变量。作为示例,个性变量中的敏锐性、好奇性、偏好话题、偏好关键词、好感度、多话症和回复度可以正面影响状态变量中的活跃度,例如,当敏锐性、好奇性、偏好话题、偏好关键词、好感度、多话症和回复度较高或较强时,活跃度较强;个性变量中的休息时间可以负面影响活跃度,例如,当处于休息时间时,活跃度较差;个性变量中的怪癖也可以依据情况正面或负面地影响活跃度。
控制器330还可以根据语音解析器310所获取的语音信息来更新状态变量。作为示例,当输入上述语音信息的通话用户与虚拟人物频繁交互时,状态变量中的活跃度上升;而当该通话用户与虚拟人物交互较少或将注意力集中在其他地方时,状态变量中的活跃度下降。可选地,个性变量和状态变量的数据还可以由用户直接指定,例如上述活跃度可以根据用户发出的指令直接调整成某一数据。
参考图4,其示出了根据本申请的状态信息中的活跃度的一种变化方式的示意图400。当启用电子设备中的虚拟人物时,状态信息中的活跃度从关闭状态(例如,这时活跃度的数值对应为0)变化为消极被动状态(例如,这时活跃度的数值对应为1);接着,当用户唤起虚拟人物即跟其打招呼时,活跃度变化为积极主动状态(例如,这时活跃度的数值对应为2);之后,当用户与虚拟人物的互动频率较高时,活跃度变化为多动症状态(例如,这时活跃度的数值对应为3);再然后,当用户注意力转移到其他地方即较少与虚拟人物互动时,活跃度变化为积极主动状态;之后,如果用户持续不关注虚拟人物或直接发指令指示虚拟人物“安静”时,活跃度转化为消极被动状态;如果用户继续不关注虚拟人物,或不与其进行交互,则活跃度变化为关闭状态。
在一些可选的实现方式中,控制器可以包括动作决策器以及语音合成器。请参考图5,图5是根据本申请的控制器的一个实施例的结构示意图。如图5所示,控制器500包括了动作决策器510以及语音合成器520。其中,动作决策器510用于根据语音解析器所获取的语音信息和状态机所保存的状态信息来决策所生成的虚拟语音的内容和表达属性,并根据上述内容生成文本描述符,根据上述表达属性生成表达属性描述符;而语音合成器520用于根据上述文本描述符和上述表达属性描述符生成虚拟语音。具体地,动作决策器510可以对语音解析器所获取的语音信息进行分析,根据该语音信息的内容和表达属性来识别出提及的人、话题、关键词、句型等信息,再根据这些信息来对虚拟语音的内容进行决策。
在一些可选的实现方式中,根据动作决策器510的决策而生成的虚拟语音的内容可以包含自发内容和交互内容,其中,自发内容可以包含但不限于以下至少一项:问候、对用户的指示、事件提醒、发表意见、提问;交互内容可以包含但不限于以下至少一项:回复问候、发表意见、回答问题、提出问题。举例而言,当根据上述语音信息中的嗓音信息识别出了输入音频的用户的身份(例如通过用户信息数据库来识别身份)时,则根据动作决策器510的决策而生成的虚拟语音的自发内容中可以包含对该用户的问候或回复问候,并且问候的内容可以包括该用户的姓名;当检测到上述语音信息中包含一个感兴趣的主题时,则根据动作决策器510的决策而生成的虚拟语音的交互内容可以包含就该主题发表的意见。
在一些可选的实现方式中,语音合成器可以包括前端文本处理模块、前端韵律处理模块以及后端波形合成器。请参考图6,图6是根据本申请的语音合成器的一个实施例的结构示意图。如图6所示,语音合成器520包括了前端文本处理模块5201,用于根据文本描述符生成语音学标签;前端韵律处理模块5202,用于根据表达属性描述符生成韵律调制描述符;以及后端波形合成器5203,用于根据语音学标签和韵律调制描述符生成虚拟语音。其中,语音学标签可以用于描述待生成的语音中每一个字的发音、声调等特性;韵律调制符可以用于描述待生成的语音中的词语、语句的韵律、节奏和情绪等特性。
在一些可选的实现方式中,控制器还可以用于确定以下中的一项作为待由输出设备输出的语音:输入到电子设备的音频;所生成的具有表达属性的虚拟语音;上述音频和虚拟语音的叠加。由此,在通话时,控制器可以选择只将用户输入到电子设备的音频进行输出,从而形成通话中不存在第三方的效果;或者输出所生成的虚拟语音,形成上述音频和虚拟语音之间的具有隐私性的交互效果;或者输出上述音频和虚拟语音的叠加,形成三方通话的效果。
参考图7,其示出了根据本申请的控制器控制输出设备输出语音的示意图。如图7所示,控制器330可以将虚拟语音710(诸如与本地用户进行交互的虚拟语音)和对端用户输入的音频720经本地混声器770叠加后作为到本地输出设备750(例如本地用户的扬声器)的语音输出;也可以将虚拟语音740(诸如与对端用户进行交互的虚拟语音)和本地用户输入的音频730经远程混声器780叠加后作为到远程输出设备760(例如对端用户的扬声器)的语音输出;可以将本地用户输入的音频730作为到远程输出设备760的语音输出;还可以将对端用户输入的音频720作为到本地输出设备750的语音输出;当然,也可以将虚拟语音710作为到本地输出设备750的语音输出或者将虚拟语音740作为到远程输出设备760的语音输出。在上述过程中,控制器330还可以接收用户的非语音输入,例如来自键盘和鼠标的输入。
在一些可选的实现方式中,在控制器确定输入到电子设备的音频作为输出的语音的情况下,控制器还可以用于控制输出设备延迟输出上述音频,并在接收到输出指令时再控制输出设备输出上述音频。也就是说,在通话期间,控制器可以将输入到电子设备的音频延迟输出,在延迟期间可以通过隐私模式向通话双方的其中一方或两方输出虚拟语音。被延迟的音频可以被放弃输出,形成在通话中取消一句或一段话的效果。
在一些可选的实现方式中,在控制器确定由音频和虚拟语音的叠加作为输出的语音的情况下,上述输出设备还可以先对上述音频和虚拟语音进行空间滤波,再叠加并输出。进一步参考图8,其示出了根据本申请的在输出设备中对音频进行滤波的示意图。如图8所示,静音选择开关810可以在控制器的控制下选取音频820和虚拟语音830这两路语音中的一路或者两路进行输出。在控制器确定由音频和虚拟语音的叠加作为输出的语音的情况下,静音选择开关810同时选取音频820和虚拟语音830这两路语音进行输出,并且在这两路语音的叠加之前分别对二者进行空间滤波(例如伪空间滤波)。
在一些可选的实现方式中,电子设备还可以包括知识库,用于存储知识信息,其中,知识信息可以是任何对人和事物进行描述的信息。这时,电子设备的控制器可以具体用于根据语音解析器所获取的语音信息、状态机中的状态信息以及知识库所存储的知识信息,生成具有表达属性的虚拟语音。例如,当上述语音信息中包含知识库中保存的的主题时,控制器可以利用知识库中与该主题相关的知识信息,结合状态信息生成对该主题发表意见的虚拟语音。
请参考图9,其示出了根据本申请的知识库的一个实施例的结构示意图900。如图9所示,知识库900可以包括:人物数据库910,用于存储人物信息;词典数据库920,用于存储常识性信息和音标标注信息;记事数据库930,用于存储物品信息、事件信息和话题信息。
其中,人物数据库910中保存记录的对象可以包括电子设备的用户、用户的联系人(例如通讯录中的联系人)以及其他关系人(例如父母、同事、朋友等),该人物数据库910可以全面地保存上述对象的相关数据,具体内容可以包括但不限于:人物信息,如姓名、性别、年龄等;社会关系信息,用于确定该对象与其他对象之间的关系;与人物信息或社会关系信息的来源有关的信息,用于后续(例如通话结束后的一段时间内)该数据库的整理。上述人物数据库910中的信息可以通过用户输入、通讯录自动查找、自动在线检索等方式获取。
词典数据库920中保存的信息至少可以包括用于知识查找的一般性的知识信息和用于语音解析器的音标标注信息。其具体可以包括关键词(以及该关键词的同义词)、常识性知识(例如常识性人名、地名和基本词汇),音标标注以及这些词条的来源。上述词典数据库920中的信息至少可以通过用户输入、公共词典和自动在线检索等方式获取。
记事数据库930可以保存除了人物相关信息之外的非一般性的信息,除了可以保存物品信息、事件信息和话题信息之外,还可以保存这些信息的来源有关的信息,以便于该数据库的后续整理。上述记事数据库930中的信息至少可以通过用户输入、用户日历(日志)分析等方式获取。
进一步参考图10,其示出了根据本申请的知识库中的人物数据库、词典数据库和记事数据库的关系的示意图1000。如图10所示,人物数据库910中包含了用户的通讯录1010中的多个联系人的姓名、嗓音特征、社会关系、年龄、联系电话等数据。而对人物数据库910中一些数据的一般性/常识性的介绍数据可以保存在词典数据库920中。例如,词典数据库920中包含对人物“Dolly”的购买物品“伏特加”的介绍数据。在图10中,记事数据库930包括了事件信息(例如“给Dolly打电话”)和话题信息(例如“上次电话的话题:1)…2)…”)等。根据图10,如果通话对象是Dolly,则控制器可以生成问候Dolly的配偶Stephan的虚拟语音,且生成的虚拟语音中可以包含“伏特加”、“莫斯科”等相关的话题。
在一些可选的实现方式中,人物数据库存储的人物信息可以包括人物的声音/嗓音特征信息。这时,语音解析器可以进一步包括说话人识别器(未示出),用于根据上述声音特征信息来识别与输入到电子设备的音频相关联的人物的身份。由此,作为示例,电子设备可以在通话时识别出与之通话的对端用户的声音特征信息,并根据该声音特征信息,通过对人物数据库的检索来识别出上述对端用户的身份。
在一些可选的实现方式中,语音解析器可以进一步包括模式匹配器(未示出),用于根据上述词典数据库存储的信息提取出已存模式句中的信息,其中已存模式句可以是具有特定句型的句子,该特定句型包括但不限于疑问句型、呼应句型、祈使句型。
在一些可选的实现方式中,语音解析器可以进一步包括关键词检测器(未示出),用于根据上述词典数据库和记事数据库存储的信息,识别输入到上述电子设备的音频中的关键词。
在一些可选的实现方式中,控制器还可以用于更新知识库中的知识信息。具体地,控制器可以根据以下中的至少一项来主动地或被动地更新知识信息:在线搜索、询问用户、自动推理、匹配空白字段、匹配待确认字段、发现新字段、发现新字段值。例如,控制器可以周期性地检测语音解析器所获取的语音信息中的空白字段及待确认字段,通过上述更新的方式对这些字段进行确认,进而更新知识信息。作为另一示例,控制器可以在通话期间持续监测关键词、关键话题和模式句子来收集知识库中的各项知识信息。
在一些可选的实现方式中,控制器还可以在通话结束后执行知识库中的数据的整理操作。例如,如果在通话时未能及时完成对端用户的嗓音特征与人物数据库所存储的人物的声音特征的匹配,则控制器可以在通话结束后尝试将对端用户的嗓音特征与人物数据库中的所有声音特征进行比对,直到找到这个嗓音特征所对应的人物的身份信息或比对完人物数据库中的所有声音特征信息。得到的人物的身份信息可以用于对电子设备的用户进行信息提示。
本领域技术人员可以理解,上述电子设备300还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图3中未示出。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述设备中所包含的计算机可读存储介质;也可以是单独存在,未装配入所述设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的通话方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (44)

1.一种通话方法,其特征在于,所述方法包括:
获取输入到通话终端的语音信息,所述语音信息由第一方提供,所述语音信息与第一话题相关;
将所述语音信息提供给第二方;
根据所述语音信息,生成虚拟语音,所述虚拟语音包括与第一话题不同的第二话题相关的内容;
为所述第一方或所述第二方提供所述虚拟语音;
其中,所述提供所述虚拟语音,包括:获取状态信息,所述状态信息基于所述第一方的情绪状态,当所述第一方的情绪状态异常时,根据所述状态信息输出所述虚拟语音。
2.根据权利要求1所述的通话方法,其特征在于,生成的所述虚拟语音的内容是依据所述语音信息和所述状态信息确定的。
3.根据权利要求2所述的通话方法,其特征在于,所述语音信息包含内容和/或表达属性;
所述表达属性包括情绪状态和/或表达方式。
4.根据权利要求3所述的通话方法,其特征在于,如果所述语音信息的内容中包含所述状态信息中的预定敏感关键词,则所述虚拟语音的内容包括预定提示信息或与当前话题不同的话题信息。
5.根据权利要求3或4所述的通话方法,其特征在于,如果所述语音信息的内容中包含所述状态信息中的预定敏感关键词,则所述通话方法还包括:
延迟输出所述语音信息,并在接收到输出指令时再输出所述语音信息。
6.根据权利要求3至5任一项所述的通话方法,其特征在于,如果所述语音信息的内容中包含预定类型的关键词,则所述虚拟语音的内容包括与所述预定类型相对应的提示信息。
7.根据权利要求6所述的通话方法,其特征在于,所述预定类型包括:数值类型和/或时间类型;
如果所述语音信息的内容中包含数值类型的关键词,则所述虚拟语音的内容包括与更新联系人或数值换算相关的提示信息;
如果所述语音信息的内容中包含时间类型的关键词,则所述虚拟语音的内容包括与日程冲突、时间提醒、时差提醒或者出行提醒相关的提示信息。
8.根据权利要求3至7任一项所述的通话方法,其特征在于,如果所述语音信息的情绪状态异常,则所述虚拟语音的内容包括预定提示信息或与当前话题不同的话题信息。
9.根据权利要求8所述的通话方法,其特征在于,情绪状态异常包括情绪状态类型异常和/或情绪状态持续时间异常。
10.根据权利要求3至9任一项所述的通话方法,其特征在于,如果所述语音信息所针对的用户为此次通话用户或者话题中包含预定话题,则所述虚拟语音的内容包括根据所述语音信息的情绪状态生成的预定提示信息或与当前话题不同的话题信息。
11.根据权利要求1所述的通话方法,其特征在于,生成的所述虚拟语音的表达属性是对先前的表达属性的调整。
12.根据权利要求11所述的通话方法,其特征在于,所述表达属性包括情绪状态和/或表达方式。
13.根据权利要求12所述的通话方法,其特征在于,对情绪状态的调整包括抑制情绪状态和/或提升情绪状态。
14.根据权利要求13所述的通话方法,其特征在于,如果所述语音信息的内容中包含所述状态信息中的预定感兴趣关键词,则提升先前的情绪状态;如果所述语音信息的内容中包含所述状态信息中的预定反感关键词,则抑制先前的情绪状态。
15.根据权利要求13或14所述的通话方法,其特征在于,如果所述语音信息的内容中包含呼应句型,则提升先前的情绪状态;如果所述语音信息的内容中包含祈使句型,则抑制先前的情绪状态。
16.根据权利要求13至15任一项所述的通话方法,其特征在于,如果所述状态信息中包含针对输入所述语音信息的用户设置的好感度,则对先前的情绪状态进行调整。
17.根据权利要求13至16任一项所述的通话方法,其特征在于,如果所述语音信息的内容中包含预定感兴趣话题,则提升先前的情绪状态;如果所述语音信息的内容包含包括了预定反感话题,则抑制先前的情绪状态。
18.根据权利要求13至17任一项所述的通话方法,其特征在于,如果所述语音信息所针对的用户为此次通话用户和/或者话题信息中包括了预定话题,则根据预定义调整规则对先前的所述虚拟语音的情绪状态信息进行调整。
19.根据权利要求13至18任一项所述的通话方法,其特征在于,如果所述语音信息的情绪状态类型异常或情绪状态持续时间异常,则对先前的情绪状态进行调整。
20.根据权利要求19所述的通话方法,其特征在于,情绪状态类型异常包含单方用户的情绪状态异常、通话双方用户的情绪状态共性异常或通话双方用户的情绪状态互动性异常;
情绪状态持续时间异常包含单方用户的同一情绪状态类型的持续时间异常或通话双方用户的相同情绪状态类型的持续时间异常。
21.根据权利要求13至20任一项所述的通话方法,其特征在于,所述表达方式包括:语言组织方式、口音类型、方言频率、方言程度、方言语调、情景模式或者背景音。
22.根据权利要求21所述的通话方法,其特征在于,根据所述语音信息的表达方式中的方言频率和方言程度,调整先前的表达方式中的方言频率和方言程度。
23.根据权利要求21所述的通话方法,其特征在于,所述通话方法还包括:
根据针对通话双方预设的通话情景模式,来调整先前的表达方式中的方言频率和方言程度。
24.一种电子设备,其特征在于,所述电子设备包括:
语音解析器,用于对输入到所述电子设备的音频进行解析,提取出语音信息,所述语音信息由第一方提供,所述语音信息与第一话题相关;
控制器,用于根据所述语音信息,生成虚拟语音,所述虚拟语音包括与第一话题不同的第二话题相关的内容;
输出设备,用于将所述语音信息提供给第二方,为所述第一方或所述第二方提供所述虚拟语音;
其中,所述输出设备进一步用于按照如下方式执行所述提供所述虚拟语音:获取状态信息,所述状态信息基于所述第一方的情绪状态;所述输出设备进一步用于当所述第一方的情绪状态异常时,根据所述状态信息输出所述虚拟语音。
25.根据权利要求24所述的电子设备,其特征在于,所述虚拟语音具有表达属性,所述表达属性包括情绪状态和/或表达方式。
26.根据权利要求24或25所述的电子设备,其特征在于,所述控制器包括:
动作决策器,用于根据所述语音信息和所述状态信息决策所生成的虚拟语音的内容和表达属性,并根据所述内容生成文本描述符,根据所述表达属性生成表达属性描述符;
语音合成器,用于根据所述文本描述符和所述表达属性描述符生成虚拟语音。
27.根据权利要求26所述的电子设备,其特征在于,所述语音合成器进一步包括:
前端文本处理模块,用于根据所述文本描述符生成语音学标签;
前段韵律处理模块,用于根据所述表达属性描述符生成韵律调制描述符;
后端波形合成器,用于根据所述语音学标签和所述韵律调制描述符生成虚拟语音。
28.根据权利要求26所述的电子设备,其特征在于,所述虚拟语音的内容包含自发内容和交互内容,其中,
自发内容包含以下至少一项:问候、对用户的指示、事件提醒、发表意见、提问;
交互内容包含以下至少一项:回复问候、发表意见、回答问题、提出问题。
29.根据权利要求24或25所述的电子设备,其特征在于,所述控制器,还用于更新所述状态信息。
30.根据权利要求29所述的电子设备,其特征在于,所述状态信息包含个性变量和状态变量;
所述控制器,具体用于根据以下中的至少一项来更新所述个性变量:用户的更新指令、所述语音信息;以及
根据以下中的至少一项来更新所述状态变量:用户的更新指令、所述语音信息以及所述个性变量。
31.根据权利要求30所述的电子设备,其特征在于,所述个性变量包括以下中的至少一项:偏好话题、偏好关键词、好感度、口音、适应性、敏锐性、好奇性、逆反性、演说性、习语、多话症、怪癖、回复度、情感度、休息时间;
所述状态变量包括以下中的至少一项:活跃度、情绪状态、表达方式、主动性。
32.根据权利要求31所述的电子设备,其特征在于,所述表达方式包括以下中的至少一项:口音类型、口音程度、口音频率、正式程度、亲近程度、发音方法。
33.根据权利要求24或25所述的电子设备,其特征在于,所述语音解析器包括:
语音识别模块,用于从输入到所述电子设备的音频中识别内容信息;
表达属性识别模块,用于从所述音频中识别表达属性信息。
34.根据权利要求24或25所述的电子设备,其特征在于,所述电子设备还包括知识库,用于存储知识信息;
所述控制器,具体用于根据所述语音信息、所述状态信息以及所述知识信息,生成具有表达属性的虚拟语音。
35.根据权利要求34所述的电子设备,其特征在于,所述知识库包括:
人物数据库,用于存储人物信息;
词典数据库,用于存储常识性信息和音标标注信息;
记事数据库,用于存储物品信息、事件信息和话题信息。
36.根据权利要求35所述的电子设备,其特征在于,所述人物数据库存储的人物信息包括人物的声音特征信息;
所述语音解析器进一步包括:说话人识别器,用于根据所述声音特征信息来识别与输入到所述电子设备的音频相关联的人物的身份。
37.根据权利要求35或36所述的电子设备,其特征在于,所述语音解析器进一步包括:模式匹配器,用于根据所述词典数据库存储的信息提取出已存模式句中的信息。
38.根据权利要求35-37中任一项所述的电子设备,其特征在于,所述语音解析器进一步包括:关键词检测器,用于根据所述词典数据库和记事数据库存储的信息,识别输入到所述电子设备的音频中的关键词。
39.根据权利要求34-38中任一项所述的电子设备,其特征在于,所述控制器还用于更新所述知识信息。
40.根据权利要求39所述的电子设备,其特征在于,所述控制器,具体用于根据以下中的至少一项来更新所述知识信息:在线搜索、询问用户、自动推理、匹配空白字段、匹配待确认字段、发现新字段、发现新字段值。
41.根据权利要求24或25所述的电子设备,其特征在于,所述控制器,还用于确定以下中的一项作为输出的语音:输入到所述电子设备的音频;所生成的具有表达属性的虚拟语音;所述音频和所述虚拟语音的叠加。
42.根据权利要求41所述的电子设备,其特征在于,在所述控制器确定所述音频和所述虚拟语音的叠加作为输出的语音的情况下,所述输出设备还用于先对所述音频和所述虚拟语音进行空间滤波,再叠加并输出。
43.根据权利要求41所述的电子设备,其特征在于,在所述控制器确定输入到所述电子设备的音频作为输出的语音的情况下,所述控制器还用于控制所述输出设备延迟输出所述音频,并在接收到输出指令时再控制所述输出设备输出所述音频。
44.一种电子设备,包括处理器和存储器,其中,
所述存储器用于存储计算机程序,
所述计算机程序被所述处理器用于执行如权利要求1-23任一所述的方法。
CN201510084928.7A 2015-02-16 2015-02-16 通话方法和电子设备 Active CN105991847B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201510084928.7A CN105991847B (zh) 2015-02-16 2015-02-16 通话方法和电子设备
KR1020150172647A KR102420564B1 (ko) 2015-02-16 2015-12-04 정보 제공 방법 및 디바이스
PCT/KR2016/001488 WO2016133319A1 (en) 2015-02-16 2016-02-15 Method and device for providing information
EP16752649.0A EP3259754B1 (en) 2015-02-16 2016-02-15 Method and device for providing information
US15/044,467 US10468052B2 (en) 2015-02-16 2016-02-16 Method and device for providing information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510084928.7A CN105991847B (zh) 2015-02-16 2015-02-16 通话方法和电子设备

Publications (2)

Publication Number Publication Date
CN105991847A CN105991847A (zh) 2016-10-05
CN105991847B true CN105991847B (zh) 2020-11-20

Family

ID=56884268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510084928.7A Active CN105991847B (zh) 2015-02-16 2015-02-16 通话方法和电子设备

Country Status (2)

Country Link
KR (1) KR102420564B1 (zh)
CN (1) CN105991847B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683672B (zh) * 2016-12-21 2020-04-03 竹间智能科技(上海)有限公司 一种基于情感和语义的智能对话方法及***
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集***
CN108304154B (zh) * 2017-09-19 2021-11-05 腾讯科技(深圳)有限公司 一种信息处理方法、装置、服务器及存储介质
CN107765856A (zh) * 2017-10-26 2018-03-06 北京光年无限科技有限公司 基于多模态交互的虚拟人视觉处理方法及***
JP7192222B2 (ja) * 2018-03-08 2022-12-20 トヨタ自動車株式会社 発話システム
KR20190133100A (ko) * 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
CN108986804A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 人机交互处理方法、装置、用户终端、处理服务器及***
CN109036433A (zh) * 2018-07-27 2018-12-18 重庆柚瓣家科技有限公司 基于ai的社交辅助***及方法
CN109274819A (zh) * 2018-09-13 2019-01-25 广东小天才科技有限公司 通话时用户情绪调整方法、装置、移动终端及存储介质
US11423895B2 (en) * 2018-09-27 2022-08-23 Samsung Electronics Co., Ltd. Method and system for providing an interactive interface
CN109040471B (zh) * 2018-10-15 2020-09-22 Oppo广东移动通信有限公司 情绪提示方法、装置、移动终端以及存储介质
CN111192568B (zh) * 2018-11-15 2022-12-13 华为技术有限公司 一种语音合成方法及语音合成装置
WO2020111835A1 (ko) * 2018-11-28 2020-06-04 김훈 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
KR102341634B1 (ko) * 2018-11-28 2021-12-22 김훈 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
CN109616116B (zh) * 2019-01-10 2023-02-03 上海言通网络科技有限公司 通话***及其通话方法
CN109639444B (zh) * 2019-02-20 2021-06-18 腾讯科技(深圳)有限公司 消息处理方法、装置、电子设备及存储介质
KR102536372B1 (ko) * 2019-11-28 2023-05-26 김훈 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
CN110728133B (zh) * 2019-12-19 2020-05-05 北京海天瑞声科技股份有限公司 个性语料获取方法及个性语料获取装置
CN111522929A (zh) * 2020-04-22 2020-08-11 深圳创维-Rgb电子有限公司 一种开导减压数据处理方法、显示设备及存储介质
US11356792B2 (en) 2020-06-24 2022-06-07 International Business Machines Corporation Selecting a primary source of text to speech based on posture

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202171B2 (en) * 2008-11-11 2015-12-01 Digideal Corporation Virtual game assistant based on artificial intelligence
US20130007635A1 (en) * 2011-06-30 2013-01-03 Avaya Inc. Teleconferencing adjunct and user interface to support temporary topic-based exclusions of specific participants
US9269073B2 (en) * 2012-09-20 2016-02-23 Avaya Inc. Virtual agenda participant

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备

Also Published As

Publication number Publication date
KR102420564B1 (ko) 2022-07-14
CN105991847A (zh) 2016-10-05
KR20160100811A (ko) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105991847B (zh) 通话方法和电子设备
US10468052B2 (en) Method and device for providing information
CN108536802B (zh) 基于儿童情绪的交互方法及装置
McTear et al. The conversational interface
CN106201424B (zh) 一种信息交互方法、装置及电子设备
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
US20080240379A1 (en) Automatic retrieval and presentation of information relevant to the context of a user's conversation
US20150348538A1 (en) Speech summary and action item generation
US10872609B2 (en) Method, apparatus, and program of dialog presentation steps for agents
KR101891496B1 (ko) 사용자간 대화 세션에 대한 능동적 모니터링 및 개입을 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
Bevacqua et al. A listener model: introducing personality traits
CN111542814A (zh) 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
Siegert et al. “Speech Melody and Speech Content Didn’t Fit Together”—Differences in Speech Behavior for Device Directed and Human Directed Interactions
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
JP2017219845A (ja) 発話促進装置及び発話促進プログラム
KR101891489B1 (ko) 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
Waterschoot et al. BLISS. An Agent for Collecting Spoken Dialogue data about Health and Well-being
Kölln et al. Identifying User Experience Aspects for Voice User Interfaces with Intensive Users.
CN117094690A (zh) 信息处理方法、电子设备及存储介质
US20200335079A1 (en) Dialogue system and method for controlling the same
KR101891495B1 (ko) 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치
Rohmahwati et al. Violation of politeness maxims in the television series the big bang theory
Zobel et al. Improving the scalability of MOOC platforms with automated, dialogue-based systems
Minker et al. Next-generation human-computer interfaces-towards intelligent, adaptive and proactive spoken language dialogue systmes
Zhang [Retracted] Learning Chinese Classical Music with the Aid of Soundscape by Using Intelligent Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant