CN104718569A

CN104718569A - 改进语音发音

Info

Publication number: CN104718569A
Application number: CN201380053185.6A
Authority: CN
Inventors: 马丁·扬斯什; 马克·爱德华·爱泼斯坦; 奇普里安·I·凯尔巴
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-09-11
Filing date: 2013-09-09
Publication date: 2015-06-17
Anticipated expiration: 2033-09-09
Also published as: WO2014043027A3; EP2896039B1; WO2014043027A2; US20140074470A1; EP2896039A4; EP2896039A2; CN104718569B

Abstract

用于改进的发音的方法、***和装置，包括编码在计算机存储介质上的计算机程序。所述方法中的一个包括从用户设备接收表示个体的名字的可听发音的数据。所述方法包括识别一个或多个其他用户，所述一个或多个其他用户是所述个体作为成员的社交圈的成员。所述方法包括识别与其他用户相关联的一个或多个设备。所述方法还包括提供识别所述个体的信息和表示所述可听发音的数据给所述一个或多个所识别的设备。

Description

改进语音发音

相关申请的交叉引用

本申请要求于2012年9月11日提交的题为“IMPROVINGPHONETIC PRONUNCIATION”的美国临时申请No.61/699,335和于2013年7月23日提交的题为“IMPROVING PHONETICPRONUNCIATION”的美国申请No.13/948,996的优先权，其全部内容在此通过引用合并于此。

技术领域

本说明书涉及语音识别。

背景技术

语音识别是指将说出的词转换成文本的过程。语音识别***将口头表达翻译成计算机可读声音的序列，其可以与已知词相比较。例如，麦克风可以接受模拟信号，模拟信号被转换成数字形式，数字形式被分割为较小的段。数字段可以与说出的语言的最小元素相比较。通过这一比较，语音识别***可以通过分析所识别的声音的序列来确定例如对应文本信息从而识别词。

发明内容

一般地，本说明书中所描述的主题的一个创新方面可以体现为包括从用户设备接收表示个体(individual)的名字的可听发音的数据的动作的方法。所述方法包括识别与个体具有预先确定的关联的一个或多个其他用户的动作。所述方法包括识别与其他用户相关联的一个或多个设备的动作。所述方法还包括提供识别个体的信息和表示可听发音的数据给一个或多个所识别的设备的动作。

该方面的其他实施例包括对应的计算机***、装置、和记录在一个或多个计算机存储设备上的计算机程序，每个都被配置为执行所述方法的动作。一个或多个计算机的***可以被配置为通过具有安装在操作中的***上、使得***执行动作的软件、固件、硬件或它们的组合来执行特定动作。一个或多个计算机程序可以被配置为通过包括当被数据处理装置执行时使得所述装置执行动作的指令来执行特定动作。

前述和其他实施例每个都可以可选地单独或组合地包括下述特征中的一个或多个。一个或多个设备可以能够可听到地再现发音。用户设备可以是在与社交圈相关联的社交网络站点注册的智能电话。发音可以与在所述一个或多个用户设备中的至少一个上与用户相关联的联系人条目相关联。所述方法可包括从表示可听发音的数据生成语音识别数据的动作。所述方法可包括由一个或多个设备中的一个接收语音识别数据的动作。所述方法可包括使用识别信息来识别与个体相关联的联系人条目的动作。所述方法可包括将语音识别数据与联系人条目相关联的动作。所述方法可包括使用语音识别数据来更新设备上的新的发音的动作。

本说明书中所描述的主题的特定实施例可以实现为实现下述优点中的一个或多个。与改进语音识别一起，通过使得设备正确对其名字发音且通过改进用户名字的识别，用户的体验可以得到改进。语音识别可以得到改进。用户名字的正确发音和识别可以改进用户体验。用户体验的个性化可以得到改进。

本说明书中所述的主题的一个或多个实施例的细节在附图以及下面的描述中阐述。根据描述、附图和权利要求，主题的其他特征、方面和优点将变得明显。

附图说明

图1图示用户提供其名字的发音的示例。

图2是社交图信息的示例源的图200。

图3图示用于语音识别的示例***。

图4是改进名字发音的示例过程的流程图。

各种附图中类似的参考数字和指示表示类似的元素。

具体实施方式

语音识别应用正变得普遍。用户访问在其电话上的语音识别***来拨叫其联系人。但是，个体名字的发音可能不符合用户语言的标准发音。例如，名字“Mara”可能被发音为“mair-uh”或“mar-uh”；但是，许多语音识别应用不能正确地识别前者的发音。语音识别的质量可以通过允许用户提供对其名字发音的声音文件并且在可能引用其名字的情形下使用该发音来得到改进。

图1图示用户提供其名字或者其社交圈的另一个体的名字的发音的示例，使得由用户提供的该发音可用于应用和其他用户。用户104可以使用麦克风106或其他类型的换能器来提供名字的发音给计算机***102。在一个安排中，用户104可以访问与社交网络站点相关联的简档页面来收集可听信息。例如，简档页面可以包括链接，允许用户上传声音文件或者直接把用户的名字直接记录到新声音文件中。声音文件可以被发送到托管社交网络站点的计算机***108。计算机***108可以处理声音文件以确定发音信息。发音信息可以包括例如用户104陈述其名字的声音文件记录。发音信息还可以包括可以由语音识别或者合成语音软件直接使用来正确地对用户名字发音的信息。

在一些实现中，用户可以通过与社交网络站点相关联的其他设备来提供发音。例如，用户可以提供其名字给智能电话，智能电话可用于访问社交网络站点。通过用户的许可，智能电话可以提供发音给社交网络站点，智能电话能够利用其来传送数据(例如同步的)。

发音信息可以分发(例如在提供给社交网络站点后)给用户104的设备，例如智能电话110和平板112。发音可以由设备使用以定制用户体验。例如，设备可以使用发音信息用于文本到语音应用。

计算机***108还可以提供发音信息给社交网络站点上与用户104相关联的其他用户(例如用户116和用户118)的设备(例如智能电话114、平板116)。发音信息可以由这些设备使用以正确地识别用户104。例如，发音信息可以连同在智能电话114上存储的联系人信息(诸如在智能电话的存储器中的用户104的联系人条目)一起使用。当用户116使用智能电话114上的语音识别应用提到用户104时，智能电话114可以正确地识别用户104。在一些实现中，智能电话114能够播放用户104的名字的发音给用户116。

在一些实现中，社交网络站点可以以其他方式使用发音信息。例如，当用户104在社交网络站点上进入聊天室或者闲逛时，社交网络站点可以使用发音信息和文本到语音应用来播报该用户并且可以播放用户陈述其名字的声音文件。

社交网络站点还可以分发发音信息给用户社交圈的其他成员。例如，如果用户提供其名字的发音或者社交圈的另一成员的名字，该发音可以被分发给用户社交圈或被提供发音的用户的社交圈的其他成员。

在一些实现中，发音信息可以从若干源被聚合，例如，如果社交网络的若干不同成员提供对特定用户的发音信息，可以聚合发音信息。例如，如果四个不同的用户通过说出“Mair-uh”来提到“Mara”且一个用户通过说出“Mar-uh”来提到“Mara”，则***可以聚合信息并且达成发音“Mair-uh”。

在一些实现中，发音信息或声音文件可被访问社交网络站点的用户访问。例如，寻找有关用户104的信息的个体可以能够播放声音文件来确定用户如何被适当寻址。类似地，用户104可以播放声音文件来确认发音正确。

图2是社交图信息的示例源的图200。用户的社交图是被识别为在指定分离度内与用户具有关系的连接(例如用户、资源)的集合。用户的社交图可以包括以不同分离度的人和特定内容。例如，用户的社交图可以包括朋友、朋友的朋友(例如被用户、社交图站点或其他度量所定义)、用户的社交圈、用户所关注的人(例如订阅的博客、馈送或网站)、同事、以及其他特别识别的用户感兴趣的内容(例如特定网站)。

图200示出了用户和在***内并跨越一个或多个外部网络并且以不同分离度示出的可能扩展用户社交图到人和内容二者的不同连接。例如，用户可以具有简档或联系人列表，其包括一组识别的朋友、一组指向外部资源(例如网页)的链接以及对***(例如提供包括电子邮件、聊天、视频、相册、馈送或博客的各种内容和应用的***)的内容的订阅。这些组中的每个都可以以与用户的另一分离度连接到其他用户或资源。例如，用户的朋友每个都具有其自己的简档，其包括指向资源的链接以及各朋友的朋友。在指定分离度数内到用户的连接可以被认为是用户的社交图。在一些实现中，确定用户的社交图所使用的分离度数是用户设置的。替选地，使用缺省的分离度数。而且，可以使用动态分离度数，其基于例如连接的类型。

在一些实现中，社交图中的成员和分离度基于其他因素，包括交互的频率。例如，用户交互的频率(例如用户多久访问特定社交图站点一次)或者交互的类型(例如支持或选择与朋友相关联的项目)。随着交互改变，特定联系人在社交图中的关系也可以动态改变。因此，社交图可以是动态的，而非静态的。

在一些替选实现中，社交信号可以层加于社交图之上(例如使用加权边或者社交图形中的连接之间的其他权重)。这些信号(例如用户和特定连接之间的交互的频率或交互的类型)然后可以用来对社交图中的特定连接进行加权，而不修改实际的社交图连接。这些权重可以随着与用户的交互的改变而改变。

图3图示用于语音识别的示例***。在这个特定安排中，用户104向与计算机***102通信(或集成于其中)的麦克风106讲话。计算机***102可以是连接到网络的单机计算机或者连接到麦克风的任何计算设备，例如个人电脑、平板电脑、智能电话等等。

用户的语音被通过例如因特网的网络(未示出)发送给计算机***108。计算机***包括语音处理组件310。语音处理组件310包括声学模型312、语言模型314和词典/语音词典316。

声学模型312将从用户104收集到的声音映射到分量部分、被称为音素，并且可以被认为是语音的基本元素。例如，英语语言可以使用大约40-60个音素来说出。声学模型312接受声音并且将它们映射到对应的音素。在一些***中，音素同相邻音素相组合来创建三音素。这些模型音素在它们出现的环境中。例如，“Tim”中的“t”的发音与“butter”中的“t”不同。根据音素或三音素，声学模型312可以确定用户104可能说出的一个或多个词。

即使当使用合适的声学模型时，语音的基本元素可以是相同的或者非常相似的。例如，声学模型独自不能区分诸如“red”和“read”的同音字。作为另一示例，声学模型可能对不是同音字但声音非常类似的词如“Boston”和“Austin”具有困难。为了改进准确性并且选择正确词，语音处理组件310使用语言模型314。这类语言模型被称为n元模型。其他语言模型存在模型较长期关系，甚至句子内的语法和语义分量。所有这些方法都可以从这里所述的该技术中获益。

语言模型314包含词同现频率的统计表示。如果词在句子中使用而无任何中间词，则词被称为同现。例如，在短语“the quick brown foxjumped over the lazy dog”中，两个词的同现包括“the quick”、“quickbrown”、“brown fox”、“fox jumped”、“jumped over”、“over the”、“the lazy”和“lazy dog”。三个词的同现包括“The quick brown”、“quick brown fox”、“brown fox jumped”、“fox jumped over”、“jumped over the”、“over the lazy”、“the lazy dog”。

词典/语音词典316将词拼写映射到语音音素。例如，词典/语音词典316可以将名字“Mara”映射到“Mar-uh”。用户104所提供的名字的发音和文本版本可以被用来更新词典/语音词典316。例如，语音处理组件310可以使用发音信息来调整词典/语音词典316。发音信息可以提供要与文本相关联的新声学音素，例如“mair ah”可以与Mara相关联。进一步，语言模型可以被更新以增加包括Mara的双元例如“Call Mara”将被视为有效的可能性。

在一些实现中，在更新任何模型之前，语音处理组件310比较用户所提供的发音与所期望的发音。例如，如果用户提供名字“Bob”的发音“Bɑb”，则可能不必更新。

图4是用来改进名字发音的示例过程400的流程图。该过程可以由数据处理装置例如图1的计算机***108来执行。为了简化，过程400将在执行过程400的***方面来描述。

接收表示可听发音的数据(402)。该数据可包括音频文件中个体的名字的发音。在一些实现中，该数据可以被处理以生成可用于语音识别***中的语音识别数据。

识别相关的用户(404)。用户可以与社交圈中的例如社交网络站点上的个体相关。在一些实现中，设备可以包括扬声器或音频输出并且可能能够产生数据的可听表示。

识别相关用户的设备(406)。在一些实现中，设备与社交网络站点上的相关用户相关联。

提供发音数据给识别的设备(408)。在一些实现中，还可以提供识别个体的信息。设备可以将发音数据与例如联系人记录中的个体相关联。设备可以使用数据来更新设备上的语音识别或合成语音应用。

对于这里讨论的***收集有关用户的个人信息，或者可以利用个人信息的情形，用户可被提供机会来控制程序或特征是否收集个人信息(例如有关用户的社交网络、社交行为或活动、职业、用户的偏好或用户的当前位置的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更加相关的内容。此外，某些数据在被存储或使用之前可能以一个或多个方式匿名，使得个人可识别的信息被去除。例如，用户的身份可以被匿名，使得不会为用户确定任何个人可识别的信息，或者在获得位置信息时用户的地理位置可以被一般化(诸如被一般化到城市、ZIP代码或州水平)，使得不能确定用户的特定位置。这样，用户可具有对怎样收集以及使用有关他或她的信息的控制。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中实现，在有形体现的计算机软件或固件中实现，在计算机硬件中实现，包括在本说明书中公开的结构及其结构等价物中实现，或者在它们中的一个或多个的组合中实现。本说明书中所述的主题的实施例可以被实现为一个或多个计算机程序，即在有形程序载体上编码的计算机程序指令的一个或多个模块，用于由数据处理装置执行或者控制数据处理装置的操作。替选地或者此外，程序指令可以编码在传播信号上，传播信号是人工生成的信号，例如机器生成的电、光、或者电磁信号，其被生成以编码信息以便传送到合适接收机装置由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基片、随机或序列存取存储器设备、或者它们中的一个或多个的组合。

术语“数据处理装置”包括用于处理数据的所有种类的装置、设备和机器，举例来说包括可编程处理器、计算机、或多处理器或计算机。装置可以包括特殊用途逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件以外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理***、操作***、或它们中的一个或多个的组合的代码。

计算机程序(也可称为程序、软件、软件应用、脚本或代码)可以是用任何形式的编程语言来写成的，包括编译或解释语言、声明性或过程性语言，并且其可以用任何形式部署，包括作为单机程序或者作为模块、组件、子程序、或适合用于计算环境中的其他单元。计算机程序可以但不必对应于文件***中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或者在多个协调的文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或多个计算机上执行，多个计算机位于一个站点或分布在多个站点且通过通信网络互连。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序来通过对输入数据进行操作并生成输出而执行功能的一个或多个可编程计算机来执行。过程和逻辑流程还可以由特殊用途逻辑电路来执行，且装置也可以实现为特殊用途逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的计算机包括(举例来说可以基于)通用或专用微处理器或二者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的必要元素是用于执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或者可操作耦合以从以下接收数据或者向以下传送数据，或二者都有：用于存储数据的一个或多个大容量存储设备，例如磁、磁光盘、或光盘。但是，计算机不需要具有这样的设备。而且，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收机、或者便携存储设备(例如通用串行总线(USB)闪存驱动器)，仅举上述几个例子。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说包括半导体存储器设备，例如EPROM、EEPROM，以及闪存存储器设备；磁盘，例如内部硬盘或可移除盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊用途逻辑电路补充或集成其中。

为了提供与用户的交互，本说明书中所述的主题的实现可以在具有诸如CRT(阴极射线管)或LCD(液晶显示器)监视器的用于显示信息给用户的显示设备、键盘和例如鼠标或轨迹球的指示设备的计算机上实现，用户通过键盘和指示设备可以提供输入给计算机。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感知反馈，例如视觉反馈、听觉反馈或触觉反馈；来自用户的输入可以以任何方式接收，包括声学、语音或触觉输入。此外，计算机可以通过发送文档给用户使用的设备或从用户使用的设备接收文档而与用户交互；例如，通过响应于从web浏览器接收到的请求而发送网页给用户的客户端设备上的web浏览器。

本说明书中描述的主题的实施例可以在计算***中实现，计算***包括后端组件，例如作为数据服务器，或者包括中间件组件，例如应用服务器，或者包括前端组件，例如具有用户可以用来同本说明书中描述的主题的实现进行交互的图形用户界面或web浏览器的客户端计算机，或者一个或多个这样的后端、中间件、或前端组件的任意组合。***组件可以以例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算***可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系是由于运行在相应计算机上且彼此具有客户端-服务器关系的计算机程序而产生。

尽管本说明书包含许多特定实现细节，但是这些不应被解释为对任何发明的范围或所要求权利的限制，而应解释为可以特定于特定发明的特定实施例的特征的描述。本说明书中在分立的实施例的上下文中所描述的某些特征也可以在单独实施例中组合来实现。反之，在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中实现或者在任何合适的子组合中实现。而且，尽管特征在上面可能被描述为在某些组合中行为而且甚至最初就是这样要求的，但是来自所要求的组合的一个或多个特征在一些情况下可以从组合中去除，并且所要求的组合可以指向子组合或子组合的变体。

类似地，尽管在附图中以特定次序描绘了操作，其不应该被理解为要求这样的操作以所示的特定次序或按顺序的次序来执行，或者所有图示的操作都要执行，才能获得所需结果。在某些情况下，多任务和并行处理可能是有利的。而且，上述实施例中的各个***组件的分离不应被理解为在所有实施例中都要求这样的分离，而应该理解，所描述的程序组件和***通常可以一起集成到单个软件产品中或封装在多个软件产品中。

已经描述了主题的特定实施例。其他实施例都在所附权利要求的范围之内。例如，权利要求中所述的动作可以以不同次序来执行并且仍获得所需结果。作为一个示例，附图中描绘的过程不必需要求所示的特定次序、或顺序次序，才能获得所需结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种由数据处理装置执行的方法，所述方法包括：

从用户设备接收表示个体的名字的可听发音的数据；

识别与所述个体具有预先确定的关联的一个或多个其他用户；

识别与所述其他用户相关联的一个或多个设备；以及

将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备。

2.如权利要求1所述的方法，其中，所述一个或多个设备能够可听地再现所述发音。

3.如权利要求1所述的方法，其中，所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。

4.如权利要求1所述的方法，其中，所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。

5.如权利要求1所述的方法，进一步包括：

从表示所述可听发音的数据生成语音识别数据。

6.如权利要求5所述的方法，进一步包括：

由所述一个或多个设备中的一个接收所述语音识别数据；

使用所述识别信息来识别与所述个体相关联的联系人条目；

将所述语音识别数据与所述联系人条目相关联；以及

使用所述语音识别数据来更新所述设备上的新的发音。

7.一种编码有计算机程序指令的计算机可读存储设备，所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作：

从用户设备接收表示个体的名字的可听发音的数据；

识别与所述其他用户相关联的一个或多个设备；以及

8.如权利要求7所述的计算机可读存储设备，其中，所述一个或多个设备能够可听地再现所述发音。

9.如权利要求7所述的计算机可读存储设备，其中，所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。

10.如权利要求7所述的计算机可读存储设备，其中，所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。

11.如权利要求7所述的计算机可读存储设备，进一步编码有计算机程序指令，所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作：

从表示所述可听发音的数据生成语音识别数据。

12.如权利要求11所述的计算机可读存储设备，进一步编码有计算机程序指令，所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作：

由所述一个或多个设备中的一个接收所述语音识别数据；

使用所述识别信息来识别与所述个体相关联的联系人条目；

将所述语音识别数据与所述联系人条目相关联；以及

使用所述语音识别数据来更新所述设备上的新的发音。

13.一种***，包括：

一个或多个计算机和存储指令的一个或多个存储设备，所述指令当被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作：

从用户设备接收表示个体的名字的可听发音的数据；

识别与所述其他用户相关联的一个或多个设备；以及

14.如权利要求13所述的***，其中，所述一个或多个设备能够可听地再现所述发音。

15.如权利要求13所述的***，其中，所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。

16.如权利要求13所述的***，其中，所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。

17.如权利要求13所述的***，所述一个或多个存储设备进一步存储指令，所述指令在被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作：

从表示所述可听发音的数据生成语音识别数据。

18.如权利要求17所述的***，所述一个或多个存储设备进一步存储指令，所述指令在被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作：

由所述一个或多个设备中的一个接收所述语音识别数据；

使用所述识别信息来识别与所述个体相关联的联系人条目；

将所述语音识别数据与所述联系人条目相关联；以及

使用所述语音识别数据来更新所述设备上的新的发音。