CN109643540A

CN109643540A - 用于人工智能语音演进的***和方法

Info

Publication number: CN109643540A
Application number: CN201780051296.1A
Authority: CN
Inventors: N·奥索蒂奥
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-08-24
Filing date: 2017-08-17
Publication date: 2019-04-16
Also published as: EP3504702A1; WO2018039009A1; US20180061393A1

Abstract

本文中提供了用于演进AI语音的***和方法。更具体地，***和方法基于一个或多个用户口语输入和/或对其他已知用户数据的评估来修改AI语音的音高、持续时间、音量和/或音色。因此，本文中公开的***和方法提供了基于用户来随时间改变或演进的AI语音，以增加与用户的参与度、信任和/或情感连接，而不需要用户进行任何AI语音设置改变。

Description

用于人工智能语音演进的***和方法

背景技术

语言理解***、个人数字助理、代理和人工智能正在改变用户与计算机交互的方式。计算机、web服务和/或应用的开发者总是试图改善人与计算机之间的交互。例如，开发者可能会寻找使智能语音输出人性化的新方式。

关于这些和其他一般考虑因素，已经进行了本文中公开的各方面。而且，尽管可以讨论相对具体的问题，但是应当理解，这些方面不应当限于解决在背景技术中或本公开中的其他地方被标识的具体问题。

发明内容

总之，本公开总体上涉及用于演进AI语音的***和方法。更具体地，本文中公开的***和方法基于一个或多个用户输入和/或其他已知用户数据的评估来修改AI语音的音高、持续时间、音量和/或音色。因此，本文中公开的***和方法提供了随时间演进或基于用户改变的AI语音，以增加与用户的参与度、信任和/或情感连接，而不需要用户进行任何AI语音设置改变。

本公开的一个方面涉及一种用于演进的AI语音生成的***。该***包括至少一个处理器和存储器。存储器编码计算机可执行指令，计算机可执行指令当由至少一个处理器执行时，操作以：

提供具有第一组音频特性的第一AI语音以输出响应；

经由麦克风接收用户输入；

评估用户输入以确定用户上下文和用户情感中的至少一项；

基于用户输入和先前接收的用户输入来确定历史上下文；

将用户上下文、用户情感和历史上下文中的至少一项与演进阈值比较；

确定演进阈值已经被满足；

响应于演进阈值已经被满足的确定，修改第一AI语音的第一组音频特性以形成具有第二组音频特性的第二AI语音；以及

响应于演进阈值已经被满足的确定，利用第二AI语音来输出后续响应。

本公开的另一方面涉及一种用于演进的AI语音生成的***。该***包括至少一个处理器和存储器。存储器编码计算机可执行指令，计算机可执行指令当由至少一个处理器执行时，操作以：

提供具有第一组音频特性的第一AI语音以输出客户端计算设备响应；

经由客户端计算设备上的麦克风接收用户口语输入；

评估用户口语输入以形成评估信息；以及

基于评估信息来演进第一AI语音的第一组音频特性以形成具有第二组音频特性的第二AI语音。

音频特性包括音高、持续时间和/或音色。第一AI语音的第一组音频特性通过以下各项基于评估信息而被演进以形成具有第二组音频特性的第二AI语音：

提供音高、持续时间和音色中的至少一项中的增量改变以形成第二组音频特性；以及

响应于第二AI语音的形成，提供具有第二组音频特性的第二AI语音以输出后续客户端计算设备响应。

本公开的又一方面包括一种用于演进的AI语音生成的方法。该方法包括：

提供具有第一组音频特性的第一AI语音以输出响应；

接收用户口语输入；

评估用户口语输入以确定用户上下文并且确定用户情感；

基于可访问数据来确定环境上下文；

基于用户口语输入和先前接收的用户口语输入来确定历史上下文；

将用户上下文、用户情感、环境上下文和历史上下文与演进阈值比较；

确定演进阈值已经被满足；

响应于演进阈值已经被满足的确定，基于用户上下文、用户情感、环境上下文和历史上下文来演进第一AI语音的第一组音频特性以形成第二组音频特性；以及

响应于演进阈值已经被满足的确定，提供具有第二组音频特性的第二AI语音以输出后续响应。

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式中被进一步描述。本发明内容并不旨在标识要求保护的主题的关键特征或必要特征，也并不旨在用于限制所要求保护的主题的范围。

附图说明

参考以下附图描述非限制性和非穷举性实施例。

图1是示出根据本公开的各方面的用于演进的AI语音生成的***的示意图。

图2是示出根据本公开的各方面的用于演进的AI语音生成的***的示意图。

图3是示出根据本公开的各方面的用于演进的AI语音生成的***的示意图。

图4是示出根据本公开的各方面的用于演进的AI语音生成的方法的流程图。

图5是示出利用其可以实践本公开的各个方面的计算设备的示例物理组件的框图。

图6A是利用其可以实践本公开的各个方面的移动计算设备的简化框图。

图6B是利用其可以实践本公开的各个方面的图10A中所示的移动计算设备的简化框图。

图7是利用其可以实践本公开的各个方面的分布式计算***的简化框图。

图8示出了利用其可以实践本公开的各个方面的平板计算设备。

具体实施方式

在以下详细描述中，参考附图，附图形成以下详细描述的一部分，并且在附图中通过图示的方式示出了具体方面或示例。在不脱离本公开的精神或范围的情况下，可以组合这些方面，可以利用其他方面，并且可以进行结构改变。因此，以下详细描述不应当被视为具有限制意义，并且本公开的范围由权利要求及其等同物限定。

机器学习、语言理解和人工智能的进步正在改变用户与计算机交互的方式。诸如Siri、Google Now和Cortana的数字助理应用是人机交互中的转变(shift)的示例。

当前，用于这种应用的人工智能(AI)语音包括使用预先记录的真人讲话的变体，并且让用户手动地选择他或她想要哪个AI语音作为来自平台的口头输出。例如，预先记录的AI语音可以是男性与女性，并且具有引入情感等的各种音调裱花。然而，由于创建这样的预先记录的AI声音所需要的时间和资源量，通常在设备上仅提供有限数目的AI语音选择。虽然先前的***和方法已经基于用户输入调节了响应(诸如响应的措辞、语法和方言)，但是当前的***和方法并不调节AI语音本身的实际声音。因此，当前没有用于响应于用户输入来动态地修改或逐渐演进AI语音的声音的***或方法。

本文中公开的***和方法涉及演进AI语音的声音。更具体地，本文中公开的***和方法基于一个或多个用户输入和/或其他已知用户数据的评估来修改AI语音的音高、持续时间、音量和/或音色。因此，本文中公开的***和方法提供了随时间演进或基于用户改变的AI语音，以增加与用户的参与度、信任和/或情感连接，而不需要用户进行任何AI语音设置改变。

图1至图3示出了根据本公开的各方面的由用户102经由客户端计算设备104利用的AI语音***100的不同示例。AI语音***100是能够使用语音输出来响应于用户输入的任何***。AI语音***100提供演进的AI语音生成。这样，AI语音***100包括AI语音演进***108。

在一些方面中，AI语音***100在如图1至图2中所示的客户端计算设备104上被实现。在基本配置中，客户端计算设备104是具有输入元件和输出元件两者的计算机。客户端计算设备104被配置为从用户102接收口语输入和其他模态输入。在一些方面中，客户端计算设备104经由客户端计算设备104上的传感器(诸如麦克风)接收口语输入。客户端计算设备104可以是用于实现AI语音***100的任何合适的计算设备。例如，客户端计算设备104可以是移动电话、智能电话、平板计算机、平板手机、智能手表、可穿戴计算机、个人计算机、游戏***、台式计算机、膝上型计算机、增强现实设备、虚拟现实设备、智能扬声器等。该列表仅是示例性的，并且不应当被视为限制。可以使用用于实现AI语音***100的任何合适的客户端计算设备104。AI语音***100允许用户102经由口语输入和来自用户设备104的其他模态输入来请求动作。

在其他方面中，AI语音***100在服务器计算设备105上被实现，如图3中所示。服务器计算设备105可以通过网络116向客户端计算设备104提供数据和/或从客户端计算设备104接收数据。在一些方面中，网络116是分布式计算网络，诸如互联网。在其他方面中，AI语音***100在多于一个服务器计算设备105(诸如多个服务器计算设备105或服务器计算设备105的网络)上被实现。在一些方面中，AI语音***100是其中AI语音***100的部分在客户端计算设备104上并且AI语音***100的部分在服务器计算设备105上的混合***。

AI语音***100的AI语音演进***108经由客户端计算设备104接收用户输入。用户输入可以是口语/语音输入和/或任何其他形式的用户输入，诸如文本、手势、触摸、手写、点击、选择、派系表达、眼睛跟踪等。AI语音演进***108评估用户输入以确定用户上下文和/或用户情感。如本文中所使用的，用户上下文是有助于完全地理解用户的与用户有关的任何信息，诸如用户环境、用户想法、用户条件、用户因素、用户背景、用户的事务的当前状态等。例如，如果用户输入请求附近殡仪馆的列表，则AI语音演进***108可以能够确定用户的上下文是用户正在计划葬礼并且接近用户的某个人已经去世。如本文中所使用的，用户情感指的是用户的当前情感状态，诸如快乐、悲伤、愤怒、沮丧、兴奋、担心等。例如，基于上面的相同用户输入和如上所述的口语输入的语音特性，AI语音演进***108可以能够在评估之后确定用户是悲伤和愤怒的。

在一些方面中，除了用户输入之外，AI语音演进***108还评估其他可访问用户数据或信息以确定用户上下文和/或用户情感。其他可访问数据是由AI语音***100可访问的、关于用户的任何数据。例如，可访问数据可以是被存储在客户端计算设备104上的用户数据106，或者被存储在服务器105、知识后端112、或由AI语音演进***108经由网络116可访问的用户的其他客户端计算设备114上的其他用户数据110。可访问数据可以包括用户上下文信息、用户环境信息和/或用户历史信息。例如，可访问数据可以包括用户日历信息、提供的背景信息、信用历史、来自使用的搜索引擎的搜索历史、种族、公民身份、用户爱好、用户就业、社交媒体信息、朋友、家庭、教育、家乡、体重、身高健康、电影偏好、餐馆偏好、活动水平等。该列表仅是示例性的，并且不表示限制。在一些方面中，AI语音***100和/或客户端计算设备104从一个或多个其他计算设备收集可访问用户数据。例如，如果客户端计算设备104是游戏***，则自然用户界面可以与用户102交互并且收集所有这些模态作为用户输入。在其他方面中，客户端计算设备104可以运行多个应用(app)，诸如一个或多个电子邮件app、社交联网app、全球定位***(GPS)app、日历app、天气app等。用户102与在客户端计算设备104上操作的各种app之间的交互生成与用户相关联的用户数据，该用户数据包含可以被收集和分析的各种主题中的信息。例如，由经由电子邮件app而被发送和/或接收的电子邮件消息生成的用户数据、经由社交网络app而被发布和/或阅读的社交网络帖子、命令的语音识别、经由搜索app而被提交的搜索、经由浏览器app而被访问的网站等可以被评估以标识用户上下文和/或用户情感。

在一些方面中，AI语音演进***108利用学习算法来确定用户上下文和/或用户情感。在一些方面中，AI语音演进***108利用当前用户输入和同一线程中的任何其他用户输入来确定用户上下文和/或用户情感。用于确定接收的用户输入的用户上下文和/或用户情感的任何已知方法可以由AI语音演进***108利用。

另外，在一些方面中，AI语音***100的AI语音演进***108评估用户输入和/或其他可访问用户数据以确定用户环境。本文中被使用的用户环境是关于用户的当前环境的信息。例如，用户环境可以包括用户的GPS位置、一天中的当前时间、当前天气等。例如，客户端计算设备通常具有可以被利用以确定用户的GPS位置、一天中的时间和用户的给定GPS位置的天气的GPS定位***、时钟和天气应用。

此外，在附加方面中，AI语音***100的AI语音演进***108评估用户输入和/或可访问数据以更新关于用户的历史信息。历史信息还可以包括过去确定的用户情感和/或用户上下文。此外，在一些方面中，用户历史信息可以包括过去的用户环境。历史信息可以包括关于用户的任何过去或历史信息。例如，历史信息可以包括历史用户上下文，诸如用户两周前从假期返回或上个月购买新车。在另一示例中，历史信息可以包括情感趋势或历史(诸如用户经常在与某个同事会面后生气)或历史情感信息(诸如用户在观看体育赛事时经常兴奋)。

一旦AI语音演进***108确定了用户上下文、用户情感和/或用户历史信息，AI语音演进***108就将用户上下文、用户情感和/或用户历史信息与演进阈值比较。在一些方面中，AI语音演进***108还将确定的用户环境与演进阈值比较。在一些方面中，演进阈值包括环境阈值、上下文阈值、历史阈值和/或情感阈值。在一些实施例中，演进阈值是上下文信息、情感信息和环境信息和/或历史信息的加权组合。然而，AI语音演进***可以利用用于基于确定的用户上下文、用户情感、用户环境和/或用户历史信息来确定AI语音的改变适合于用户的任何合适的阈值。如果AI语音演进***108确定演进阈值未被打破，则AI语音演进***108将先前利用的AI语音提供给AI语音***100以用于输出响应。

如果AI语音演进***108确定演进阈值已经被打破，则AI语音演进***108基于用户上下文、用户情感、用户历史信息和/或用户环境来演进或修改当前利用的AI语音的声音。AI语音的声音基于以下音频特性中的一个或多个：持续时间、音高、音量和音色。这样，AI语音演进***108基于用户上下文、用户情感、用户历史信息和/或用户环境来演进或修改AI语音的持续时间、音高、音量和/或音色。如本文中被使用的，AI语音的音高指示AI语音的声音的高低程度。持续时间指示AI语音的声音的每个音节的长短程度。音量指示AI声音的声音大小或柔和程度。音色指示AI语音的声音的质量和/或原点(声音的声音身份的预先分配)。

在一些方面中，AI语音演进***108提供AI语音的持续时间、音高、音量和/或音色中的增量变化，因此AI语音中的变化对于用户来说不是很清楚。例如，如果基于接收的用户的口语输入而确定用户偏好与较老且更聪明的个人交谈，则AI语音可以随时间逐渐改变或演进，直到AI语音听起来更老和更聪明。在这些方面中，AI语音基于用户缓慢地随时间改变。例如，AI语音可以被修改为与用户一起慢慢老化，然而为了慢慢老化而对语音进行的每次改变都不容易被用户注意到。在其他实施例中，AI语音演进***108提供AI语音的持续时间、音高、音量和/或音色的显著变化，因此AI语音的变化容易地反映或响应于确定的用户情感或用户上下文。例如，如果基于接收的口语输入而确定用户兴奋并且匆忙，则可以修改AI语音以使用明显更快的持续时间和更高的音量来响应以匹配接收的用户的口语输入。在另一示例中，如果基于用户输入而确定用户生气，则可以显著地改变音频特性以提供更舒缓的AI语音。在这些方面，AI语音基于用户上下文和用户情感来立即且显著地改变。一旦AI语音已经被修改，则经修改或演进的AI语音被提供给AI语音***100以响应于用户输入。

图4示出了概念性地示出用于演进的AI语音生成的方法400的示例的流程图。在一些方面中，方法400由如上所述的AI语音***100执行。方法400提供了一种用于基于一个或多个用户口语输入和/或其他已知用户数据的评估来修改AI语音的音高、持续时间、音量和/或音色的方法。因此，方法400提供随时间演进或基于用户改变的AI语音，以增加与用户的参与度、信任和/或情感连接，而无需用户进行任何AI语音设置改变。

方法400包括操作402。在操作402，用户输入被接收。在一些方面中，用户输入是口语输入。在其他方面中，用户输入是文本、触摸或表单用户输入。在其他方面中，在操作402用户输入经由客户端计算设备被接收。例如，客户端计算设备可以经由客户端计算设备上的传感器(诸如麦克风)接收口语输入。

在一些方面中，方法400包括操作404。在操作404，可访问用户数据被取回。可访问用户数据可以包括被存储在当前客户端计算设备上的关于用户的数据，或者是通过网络从另一计算设备或应用访问的用户数据，诸如用户的搜索历史、日历、背景等。在一些方面中，可访问用户数据包括取回关于用户的历史数据。例如，用户可访问数据可以从服务器计算设备、客户端计算设备、web浏览器、日历应用、数据库等被取回。

在操作406，用户输入被评估以形成评估信息。在一些实施例中，用户输入以及取回的用户数据被评估以形成评估信息。可以评估用户输入和/或用户数据以确定用户上下文、用户情感和/或用户历史数据。在一些方面中，可以评估用户输入和/或用户数据以确定用户环境。这样，评估信息可以包括用户上下文、用户情感、用户历史信息和/或用户环境。

在操作406之后，执行操作408。在操作408，做出是否演进具有一组音频特性的先前提供的AI语音的确定。在一些方面中，在操作408，诸如用户上下文、用户环境、用户情感和/或用户历史数据的评估信息被与演进阈值比较。如果评估信息基于在操作408的比较评估信息不满足演进阈值，则执行操作410。如果基于在操作408的比较评估信息满足演进阈值，则执行操作412。

在操作410，具有一组音频特性的先前利用的AI语音被提供以响应于用户输入。这样，在操作410提供的AI语音与用于响应于最后用户输入的先前提供的AI语音相同。

在操作412，先前利用的AI语音被修改以形成经修改的AI语音。在操作412，先前利用的AI语音的音频特性基于诸如用户上下文、用户环境、用户情感和/或用户历史数据的评估信息被修改或演进以形成经修改的AI语音。如上所述，音频特性包括音高、音量、音色和/或持续时间。在一些方面中，对音高、音量、音色和/或持续时间的增量改变在操作412被提供以形成经修改的或演进的AI语音。用户不应当轻易注意到新AI语音的增量变化。在其他方面中，AI语音的持续时间、音高、音量和/或音色的显著变化在操作412处被提供，因此AI语音中的变化对于用户是很清楚的并且可以容易地反映或响应于确定的用户情感或用户上下文。

在操作412之后，在操作414，经修改的或演进的AI语音被提供以响应于用户输入。在操作414处被利用或提供的经修改的AI语音基于或利用在操作412期间被形成的经修改的音频特性。

图5至图8和相关联的描述提供了对利用其可以实践本公开的各方面的各种操作环境的讨论。然而，关于图5至图8而被示出和讨论的设备和***是出于示例和说明的目的，并且不限制可以用于实践本文所述的本公开的各方面的大量计算设备配置。

图5是示出利用其可以实践本公开的各方面的计算设备500的物理组件(例如，硬件)的框图。例如，AI语音***100的AI语音演进***108可以由计算设备500实现。在一些方面中，计算设备500是移动电话、智能电话、平板计算机、平板手机、智能手表、可穿戴计算机、个人计算机、台式计算机、游戏***、膝上型计算机、增强现实设备、虚拟现实设备、智能扬声器等。下面描述的计算设备组件可以包括AI语音演进***108和/或AI语音***100的计算机可执行指令，这些计算机可执行指令可以被执行以采用方法400来生成如本文中被公开的演进或经修改的AI语音。在基本配置中，计算设备500可以包括至少一个处理单元502和***存储器504。取决于计算设备的配置和类型，***存储器504可以包括但不限于易失性存储器(例如，随机存取存储器)、非易失性存储器(例如，只读存储器)、闪存或这样的存储器的任何组合。***存储器504可以包括操作***505和适合于运行软件应用520的一个或多个程序模块506。例如，操作***505可以适合于控制计算设备500的操作。此外，本公开的各方面可以结合图形库、其他操作***或任何其他应用程序而被实践，并且不限于任何特定应用或***。这一基本配置在图5中用虚线508内的那些组件被示出。计算设备500可以具有附加特征或功能。例如，计算设备500还可以包括附加数据存储设备(可移除和/或不可移除)，诸如例如磁盘、光盘或磁带。这样的附加存储器在图5中用可移除存储设备509和不可移除存储设备510示出。例如，AI语音***100和/或AI语音演进***108的用户数据、用户上下文、用户情感、用户环境和/或用户历史数据可以被存储在图示的存储设备中的任何存储设备上。

如上所述，多个程序模块和数据文件可以被存储在***存储器504中。当在处理单元502被上执行时，程序模块506(例如，AI语音***100、AI语音演进***108)可以执行各种过程，包括但不限于执行如本文所述的方法400。例如，处理单元502可以实现AI语音演进***108和/或AI语音***100。可以根据本公开的各方面而被使用的并且特别地是用于生成屏幕内容的其他程序模块可以包括数字助理应用、语音识别应用、电子邮件应用、社交联网应用、协作应用、企业管理应用、消息接发应用、文字处理应用、电子表格应用、数据库应用、演示应用、联系人应用、游戏应用、电子商业应用、电子商务应用、交易应用、交换应用、设备控制应用、web界面应用、日历应用等。在某些方面中，AI语音***100允许用户通过口语输入和/或口语输出与一个或多个以上引用的应用进行交互。

此外，本公开的各方面可以在电路中被实践，这些电路包括分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或包含电子元件或微处理器的单个芯片。例如，本公开的各方面可以经由片上***(SOC)而被实践，其中图5中所示的每个或很多组件可以被集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、***虚拟化单元和各种应用功能，所有这些都作为单个集成电路被集成(或“烧制”)到芯片基底上。当经由SOC操作时，本文中描述的关于客户端切换协议的能力的功能可以经由与计算设备500的其他组件一起被集成在单个集成电路(芯片)上的专用逻辑而***作。

本公开的各方面还可以使用能够执行逻辑运算(诸如例如，AND、OR和NOT)的其他技术而被实践，这些技术包括但不限于机械、光学、流体和量子技术。另外，本公开的各方面可以在通用计算机或任何其他电路或***中被实践。

计算设备500还可以具有一个或多个输入设备512，诸如键盘、鼠标、笔、麦克风或其他声音或口语输入设备、触摸或滑动输入设备等。还可以包括输出设备514，诸如显示器、扬声器、打印机等。上述设备是示例，并且可以使用其他设备。计算设备500可以包括允许与其他计算设备550通信的一个或多个通信连接516。合适的通信连接516的示例包括但不限于RF发射器、接收器和/或收发器电路、通用串行总线(USB)、并行和/或串行端口。

本文中使用的术语计算机可读介质或存储介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构或程序模块等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。***存储器504、可移除存储设备509和不可移除存储设备510都是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、磁带盒、磁带、磁盘存储装置或者其他磁存储设备、或者可以用于存储信息并且可以由计算设备500访问的任何其他制品。任何这样的计算机存储介质可以是计算设备500的一部分。计算机存储介质不包括载波或其他传播或调制数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制等调制数据信号中的其他数据来实施，并且包括任何信息传递介质。术语“调制数据信号”可以描述一个或多个特性以使得能够在信号中对信息进行编码的方式设置或改变的信号。作为示例而非限制，通信介质可以包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、射频(RF)、红外和其他无线介质等无线介质。

图6A和图6B示出了可以用来实施本公开的各方面中的移动计算设备600，例如移动电话、智能电话、平板计算机、平板手机、智能手表、可穿戴计算机、个人计算机、台式计算机、游戏***、膝上型计算机、增强现实设备、虚拟现实***、智能扬声器等。参考图6A，示出了适合于实现这些方面中的移动计算设备600的一个方面。在基本配置中，移动计算设备600是具有输入元件和输出元件两者的手持式计算机。移动计算设备600通常包括显示器605和允许用户向移动计算设备600中输入信息的一个或多个输入按钮610。移动计算设备600的显示器605也可以用作输入设备(例如，触摸屏显示器)。

如果包括，则可选的侧输入元件615允许另外的用户输入。侧输入元件615可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代方面中，移动计算设备600可以包含更多或更少的输入元素。例如，在一些方面中，显示器605可以不是触摸屏。在又一替代方面中，移动计算设备600是便携式电话***，诸如蜂窝电话。移动计算设备600还可以包括可选的键盘635。可选的键盘635可以是物理键盘或在触摸屏显示器上生成的“软”键盘。

除了或代替与显示器605和/或键盘635相关联的触摸屏输入设备，自然用户界面(NUI)可以并入移动计算设备600中。如本文中使用的，NUI包括使得用户能够以“自然”方式与设备交互而不受诸如鼠标、键盘、遥控器等输入设备施加的人为约束的任何接口技术。NUI方法的示例包括依赖于语音识别、触摸和手写笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、声音和语音、视觉、触摸、手势和机器智能的那些NUI方法。

在各个方面中，输出元件包括用于示出图形用户界面(GUI)的显示器605。在本文中公开的各方面中，各种用户信息集合可以显示在显示器605上。其他输出元件可以包括视觉指示器620(例如，发光二极管)和/或音频换能器625(例如，扬声器)。在一些方面中，移动计算设备600包括用于向用户提供触觉反馈的振动换能器。在又一方面中，移动计算设备600包括用于向外部设备发送信号或从外部设备接收信号的输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)。

图6B是示出移动计算设备的一个方面中的架构的框图。也就是说，移动计算设备600可以包括***(例如，架构)602以实现某些方面。在一个方面中，***602被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息传递客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面中，***602被集成为计算设备，诸如集成的个人数字助理(PDA)和无线电话。

一个或多个应用程序666和/或AI语音***100在操作***664上或与操作***664相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息传递程序等。***602还包括存储器662内的非易失性存储区域668。非易失性存储区域668可以用于存储在***602断电时不应当丢失的持久信息。应用程序666可以在非易失性存储区域668中使用和存储信息，诸如电子邮件或由电子邮件应用使用的其他消息等。同步应用(未示出)也驻留在***602上，并且被编程为与驻留在主计算机上的相应同步应用交互以使存储在非易失性存储区域668中的信息与存储在主计算机中的相应信息保持同步。应当理解，其他应用可以加载到存储器662中并且在移动计算设备600上运行。

***602具有电源670，电源670可以实现为一个或多个电池。电源670还可以包括外部电源，诸如补充或重新充电电池的AC适配器或电源对接支架。

***602还可以包括执行发射和接收射频通信的功能的无线电672。无线电672经由通信运营商或服务提供商促进***602与“外部世界”之间的无线连接。去往和来自无线电672的传输在操作***664的控制下进行。换言之，由无线电672接收的通信可以经由操作***664传播到应用程序666，反之亦然。

视觉指示器620可以用于提供视觉通知，和/或音频接口674可以用于经由音频换能器625产生可听通知。在所示的方面中，视觉指示器620是发光二极管(LED)，并且音频换能器625是扬声器。这些设备可以直接耦合到电源670，使得它们在被激活时保持开启持续由通知机制指示的持续时间，即使处理器660和其他组件可能关闭以节省电池电量。LED可以被编程为无限期地保持开启，直到用户采取行动来指示设备的通电状态。音频接口674用于向用户提供可听信号并且从用户接收可听信号。例如，除了耦合到音频换能器625之外，音频接口674还可以耦合到麦克风以接收可听输入。***602还可以包括使得车载相机630的操作能够记录静止图像、视频流等的视频接口676。

实现***602的移动计算设备600可以具有附加的特征或功能。例如，移动计算设备600还可以包括附加的数据存储设备(可移除和/或不可移除的)，诸如磁盘、光盘或磁带。这种附加存储装置在图6B中用非易失性存储区域668示出。

如上所述，由移动计算设备600生成或捕获并且经由***602存储的数据/信息可以本地存储在移动计算设备600上，或者数据可以存储在任何数目的存储介质上，这些介质可以由设备经由无线电672或经由移动计算设备600和与移动计算设备600相关联的单独计算设备(例如，诸如因特网等分布式计算网络中的服务器计算机)之间的有线连接来访问。应当理解，这样的数据/信息可以经由无线电672或经由分布式计算网络经由移动计算设备600来访问。类似地，根据公知的数据/信息传送和存储装置，包括电子邮件和协作数据/信息共享***，这样的数据/信息可以在计算设备之间容易地传送以用于存储和使用。

图7示出了用于处理在计算***处从远程源(诸如通用计算设备704、平板计算机706或移动设备708)接收的数据的***的架构的一个方面，如上所述。在服务器设备702处显示和/或利用的内容可以存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务722、web门户724、邮箱服务726、即时消息接发存储库728和/或社交网络站点730来存储各种文档。作为示例，AI语音演进***108和/或AI语音***100可以在通用计算设备704(例如，游戏***、虚拟现实***、台式计算机或其他智能非移动设备)、平板计算设备706和/或移动计算设备708(例如，智能电话、智能手表或其他智能移动设备)中实现。在一些方面中，服务器702被配置为经由如图7所示的网络715来实现AI语音***100和/或AI语音演进***108。

图8示出了可以执行本文中公开的一个或多个方面中的示例性平板计算设备800。此外，本文中描述的各方面和功能可以在分布式***(例如，基于云的计算***)上操作，其中应用功能、存储器、数据存储和取回以及各种处理功能可以通过诸如互联网或内联网等分布式计算网络彼此远程操作。各种类型的用户界面和信息可以经由车载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示。例如，可以在墙面上显示和交互各种类型的用户界面和信息，在该墙面上投影有各种类型的用户界面和信息。与可以用来实施本发明的各方面中的多个计算***的交互包括键击输入、触摸屏输入、语音或其他音频输入、手势输入，其中相关联的计算设备配备有用于捕获和解释用户手势以用于控制计算设备的功能的检测(例如，相机)功能等。

例如，以上参考根据本公开的各方面的方法、***和计算机程序产品的框图和/或操作图示描述了本公开的实施例。框中记录的功能/动作可以不按任何流程图所示的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以按照相反的顺序被执行，这取决于所涉及的功能/动作。

本公开参考附图描述了本技术的一些实施例，附图中仅描述了一些可能的方面。然而，其他方面可以按照很多不同的形式被实施，并且本文中公开的特定实施例不应当被解释为限于本文中阐述的本公开的各个方面。相反，提供这些示例性方面是为了使得本公开能够彻底和完整并且向本领域技术人员充分传达其他可能方面的范围。例如，在不脱离本公开的范围的情况下，可以修改和/或组合本文中公开的各种实施例的各方面。

尽管本文中描述了特定方面，但是本技术的范围不限于这些具体方面。本领域技术人员将认识到在本技术的范围和精神内的其他方面或改进。因此，特定结构、动作或介质被公开仅为说明性方面。本技术的范围由以下权利要求及其中的任何等同物限定。

Claims

1.一种用于演进的人工智能(AI)语音生成的***，所述***包括：

至少一个处理器；以及

存储器，所述存储器用于存储和编码计算机可执行指令，所述计算机可执行指令当由所述至少一个处理器执行时，操作以：

提供具有第一组音频特性的第一AI语音以输出响应；

经由麦克风接收用户输入；

评估所述用户输入以确定用户上下文和用户情感中的至少一项；

基于所述用户输入和先前接收的用户输入来确定历史上下文；

将所述用户上下文、所述用户情感和所述历史上下文中的至少一项与演进阈值比较；

确定所述演进阈值已经被满足；

响应于所述演进阈值已经被满足的所述确定，修改所述第一AI语音的所述第一组音频特性以形成具有第二组音频特性的第二AI语音；以及

响应于所述演进阈值已经被满足的所述确定，利用所述第二AI语音输出后续响应。

2.根据权利要求1所述的***，其中所述音频特性包括音高、持续时间、音量和音色。

3.根据权利要求2所述的***，其中演进所述第一AI语音的所述第一组音频特性以形成具有所述第二组音频特性的所述第二AI语音包括：

所述音高、所述持续时间、所述音量和所述音色中的至少一项中的增量改变。

4.根据权利要求1所述的***，其中所述演进阈值包括情感阈值、上下文阈值和历史阈值中的至少一项。

5.根据权利要求1所述的***，其中所述至少一个处理器操作以：

从一个或多个源取回可访问用户数据，

其中所述用户上下文和所述用户情感也基于所述可访问用户数据。

6.根据权利要求1所述的***，其中所述***是客户端计算设备，并且所述客户端计算设备是以下的至少一项：

智能电话；

平板计算机；

智能手表；

可穿戴计算机；

虚拟现实***；

智能扬声器；

个人计算机；

台式计算机；

游戏***；以及

膝上型计算机。

7.一种用于演进的AI语音生成的***，所述***包括：

至少一个处理器；以及

提供具有第一组音频特性的第一AI语音以输出客户端计算设备响应，

其中所述音频特性包括音高、持续时间和音色；

经由客户端计算设备上的麦克风接收用户口语输入；

评估所述用户口语输入以形成评估信息；

基于所述评估信息来演进所述第一AI语音的所述第一组音频特性以形成具有第二组音频特性的第二AI语音，

其中基于所述评估信息来演进所述第一AI语音的所述第一组音频特性以形成具有所述第二组音频特性的所述第二AI语音包括：

提供所述音高、所述持续时间和所述音色中的至少一项中的增量改变以形成所述第二组音频特性；以及

响应于所述第二AI语音的所述形成，提供具有所述第二组音频特性的所述第二AI语音以输出后续客户端计算设备响应。

8.根据权利要求7所述的***，其中所述音频特性还包括音量。

9.根据权利要求8所述的***，其中所述第二AI语音听起来比所述第一AI语音旧。

10.根据权利要求7所述的***，其中所述评估信息包括用户上下文、用户情感和用户历史上下文中的至少一项。