CN104718569A - 改进语音发音 - Google Patents
改进语音发音 Download PDFInfo
- Publication number
- CN104718569A CN104718569A CN201380053185.6A CN201380053185A CN104718569A CN 104718569 A CN104718569 A CN 104718569A CN 201380053185 A CN201380053185 A CN 201380053185A CN 104718569 A CN104718569 A CN 104718569A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- equipment
- data
- computing machine
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004590 computer program Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000000926 separation method Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000014121 butter Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
用于改进的发音的方法、***和装置,包括编码在计算机存储介质上的计算机程序。所述方法中的一个包括从用户设备接收表示个体的名字的可听发音的数据。所述方法包括识别一个或多个其他用户,所述一个或多个其他用户是所述个体作为成员的社交圈的成员。所述方法包括识别与其他用户相关联的一个或多个设备。所述方法还包括提供识别所述个体的信息和表示所述可听发音的数据给所述一个或多个所识别的设备。
Description
相关申请的交叉引用
本申请要求于2012年9月11日提交的题为“IMPROVINGPHONETIC PRONUNCIATION”的美国临时申请No.61/699,335和于2013年7月23日提交的题为“IMPROVING PHONETICPRONUNCIATION”的美国申请No.13/948,996的优先权,其全部内容在此通过引用合并于此。
技术领域
本说明书涉及语音识别。
背景技术
语音识别是指将说出的词转换成文本的过程。语音识别***将口头表达翻译成计算机可读声音的序列,其可以与已知词相比较。例如,麦克风可以接受模拟信号,模拟信号被转换成数字形式,数字形式被分割为较小的段。数字段可以与说出的语言的最小元素相比较。通过这一比较,语音识别***可以通过分析所识别的声音的序列来确定例如对应文本信息从而识别词。
发明内容
一般地,本说明书中所描述的主题的一个创新方面可以体现为包括从用户设备接收表示个体(individual)的名字的可听发音的数据的动作的方法。所述方法包括识别与个体具有预先确定的关联的一个或多个其他用户的动作。所述方法包括识别与其他用户相关联的一个或多个设备的动作。所述方法还包括提供识别个体的信息和表示可听发音的数据给一个或多个所识别的设备的动作。
该方面的其他实施例包括对应的计算机***、装置、和记录在一个或多个计算机存储设备上的计算机程序,每个都被配置为执行所述方法的动作。一个或多个计算机的***可以被配置为通过具有安装在操作中的***上、使得***执行动作的软件、固件、硬件或它们的组合来执行特定动作。一个或多个计算机程序可以被配置为通过包括当被数据处理装置执行时使得所述装置执行动作的指令来执行特定动作。
前述和其他实施例每个都可以可选地单独或组合地包括下述特征中的一个或多个。一个或多个设备可以能够可听到地再现发音。用户设备可以是在与社交圈相关联的社交网络站点注册的智能电话。发音可以与在所述一个或多个用户设备中的至少一个上与用户相关联的联系人条目相关联。所述方法可包括从表示可听发音的数据生成语音识别数据的动作。所述方法可包括由一个或多个设备中的一个接收语音识别数据的动作。所述方法可包括使用识别信息来识别与个体相关联的联系人条目的动作。所述方法可包括将语音识别数据与联系人条目相关联的动作。所述方法可包括使用语音识别数据来更新设备上的新的发音的动作。
本说明书中所描述的主题的特定实施例可以实现为实现下述优点中的一个或多个。与改进语音识别一起,通过使得设备正确对其名字发音且通过改进用户名字的识别,用户的体验可以得到改进。语音识别可以得到改进。用户名字的正确发音和识别可以改进用户体验。用户体验的个性化可以得到改进。
本说明书中所述的主题的一个或多个实施例的细节在附图以及下面的描述中阐述。根据描述、附图和权利要求,主题的其他特征、方面和优点将变得明显。
附图说明
图1图示用户提供其名字的发音的示例。
图2是社交图信息的示例源的图200。
图3图示用于语音识别的示例***。
图4是改进名字发音的示例过程的流程图。
各种附图中类似的参考数字和指示表示类似的元素。
具体实施方式
语音识别应用正变得普遍。用户访问在其电话上的语音识别***来拨叫其联系人。但是,个体名字的发音可能不符合用户语言的标准发音。例如,名字“Mara”可能被发音为“mair-uh”或“mar-uh”;但是,许多语音识别应用不能正确地识别前者的发音。语音识别的质量可以通过允许用户提供对其名字发音的声音文件并且在可能引用其名字的情形下使用该发音来得到改进。
图1图示用户提供其名字或者其社交圈的另一个体的名字的发音的示例,使得由用户提供的该发音可用于应用和其他用户。用户104可以使用麦克风106或其他类型的换能器来提供名字的发音给计算机***102。在一个安排中,用户104可以访问与社交网络站点相关联的简档页面来收集可听信息。例如,简档页面可以包括链接,允许用户上传声音文件或者直接把用户的名字直接记录到新声音文件中。声音文件可以被发送到托管社交网络站点的计算机***108。计算机***108可以处理声音文件以确定发音信息。发音信息可以包括例如用户104陈述其名字的声音文件记录。发音信息还可以包括可以由语音识别或者合成语音软件直接使用来正确地对用户名字发音的信息。
在一些实现中,用户可以通过与社交网络站点相关联的其他设备来提供发音。例如,用户可以提供其名字给智能电话,智能电话可用于访问社交网络站点。通过用户的许可,智能电话可以提供发音给社交网络站点,智能电话能够利用其来传送数据(例如同步的)。
发音信息可以分发(例如在提供给社交网络站点后)给用户104的设备,例如智能电话110和平板112。发音可以由设备使用以定制用户体验。例如,设备可以使用发音信息用于文本到语音应用。
计算机***108还可以提供发音信息给社交网络站点上与用户104相关联的其他用户(例如用户116和用户118)的设备(例如智能电话114、平板116)。发音信息可以由这些设备使用以正确地识别用户104。例如,发音信息可以连同在智能电话114上存储的联系人信息(诸如在智能电话的存储器中的用户104的联系人条目)一起使用。当用户116使用智能电话114上的语音识别应用提到用户104时,智能电话114可以正确地识别用户104。在一些实现中,智能电话114能够播放用户104的名字的发音给用户116。
在一些实现中,社交网络站点可以以其他方式使用发音信息。例如,当用户104在社交网络站点上进入聊天室或者闲逛时,社交网络站点可以使用发音信息和文本到语音应用来播报该用户并且可以播放用户陈述其名字的声音文件。
社交网络站点还可以分发发音信息给用户社交圈的其他成员。例如,如果用户提供其名字的发音或者社交圈的另一成员的名字,该发音可以被分发给用户社交圈或被提供发音的用户的社交圈的其他成员。
在一些实现中,发音信息可以从若干源被聚合,例如,如果社交网络的若干不同成员提供对特定用户的发音信息,可以聚合发音信息。例如,如果四个不同的用户通过说出“Mair-uh”来提到“Mara”且一个用户通过说出“Mar-uh”来提到“Mara”,则***可以聚合信息并且达成发音“Mair-uh”。
在一些实现中,发音信息或声音文件可被访问社交网络站点的用户访问。例如,寻找有关用户104的信息的个体可以能够播放声音文件来确定用户如何被适当寻址。类似地,用户104可以播放声音文件来确认发音正确。
图2是社交图信息的示例源的图200。用户的社交图是被识别为在指定分离度内与用户具有关系的连接(例如用户、资源)的集合。用户的社交图可以包括以不同分离度的人和特定内容。例如,用户的社交图可以包括朋友、朋友的朋友(例如被用户、社交图站点或其他度量所定义)、用户的社交圈、用户所关注的人(例如订阅的博客、馈送或网站)、同事、以及其他特别识别的用户感兴趣的内容(例如特定网站)。
图200示出了用户和在***内并跨越一个或多个外部网络并且以不同分离度示出的可能扩展用户社交图到人和内容二者的不同连接。例如,用户可以具有简档或联系人列表,其包括一组识别的朋友、一组指向外部资源(例如网页)的链接以及对***(例如提供包括电子邮件、聊天、视频、相册、馈送或博客的各种内容和应用的***)的内容的订阅。这些组中的每个都可以以与用户的另一分离度连接到其他用户或资源。例如,用户的朋友每个都具有其自己的简档,其包括指向资源的链接以及各朋友的朋友。在指定分离度数内到用户的连接可以被认为是用户的社交图。在一些实现中,确定用户的社交图所使用的分离度数是用户设置的。替选地,使用缺省的分离度数。而且,可以使用动态分离度数,其基于例如连接的类型。
在一些实现中,社交图中的成员和分离度基于其他因素,包括交互的频率。例如,用户交互的频率(例如用户多久访问特定社交图站点一次)或者交互的类型(例如支持或选择与朋友相关联的项目)。随着交互改变,特定联系人在社交图中的关系也可以动态改变。因此,社交图可以是动态的,而非静态的。
在一些替选实现中,社交信号可以层加于社交图之上(例如使用加权边或者社交图形中的连接之间的其他权重)。这些信号(例如用户和特定连接之间的交互的频率或交互的类型)然后可以用来对社交图中的特定连接进行加权,而不修改实际的社交图连接。这些权重可以随着与用户的交互的改变而改变。
图3图示用于语音识别的示例***。在这个特定安排中,用户104向与计算机***102通信(或集成于其中)的麦克风106讲话。计算机***102可以是连接到网络的单机计算机或者连接到麦克风的任何计算设备,例如个人电脑、平板电脑、智能电话等等。
用户的语音被通过例如因特网的网络(未示出)发送给计算机***108。计算机***包括语音处理组件310。语音处理组件310包括声学模型312、语言模型314和词典/语音词典316。
声学模型312将从用户104收集到的声音映射到分量部分、被称为音素,并且可以被认为是语音的基本元素。例如,英语语言可以使用大约40-60个音素来说出。声学模型312接受声音并且将它们映射到对应的音素。在一些***中,音素同相邻音素相组合来创建三音素。这些模型音素在它们出现的环境中。例如,“Tim”中的“t”的发音与“butter”中的“t”不同。根据音素或三音素,声学模型312可以确定用户104可能说出的一个或多个词。
即使当使用合适的声学模型时,语音的基本元素可以是相同的或者非常相似的。例如,声学模型独自不能区分诸如“red”和“read”的同音字。作为另一示例,声学模型可能对不是同音字但声音非常类似的词如“Boston”和“Austin”具有困难。为了改进准确性并且选择正确词,语音处理组件310使用语言模型314。这类语言模型被称为n元模型。其他语言模型存在模型较长期关系,甚至句子内的语法和语义分量。所有这些方法都可以从这里所述的该技术中获益。
语言模型314包含词同现频率的统计表示。如果词在句子中使用而无任何中间词,则词被称为同现。例如,在短语“the quick brown foxjumped over the lazy dog”中,两个词的同现包括“the quick”、“quickbrown”、“brown fox”、“fox jumped”、“jumped over”、“over the”、“the lazy”和“lazy dog”。三个词的同现包括“The quick brown”、“quick brown fox”、“brown fox jumped”、“fox jumped over”、“jumped over the”、“over the lazy”、“the lazy dog”。
词典/语音词典316将词拼写映射到语音音素。例如,词典/语音词典316可以将名字“Mara”映射到“Mar-uh”。用户104所提供的名字的发音和文本版本可以被用来更新词典/语音词典316。例如,语音处理组件310可以使用发音信息来调整词典/语音词典316。发音信息可以提供要与文本相关联的新声学音素,例如“mair ah”可以与Mara相关联。进一步,语言模型可以被更新以增加包括Mara的双元例如“Call Mara”将被视为有效的可能性。
在一些实现中,在更新任何模型之前,语音处理组件310比较用户所提供的发音与所期望的发音。例如,如果用户提供名字“Bob”的发音“Bɑb”,则可能不必更新。
图4是用来改进名字发音的示例过程400的流程图。该过程可以由数据处理装置例如图1的计算机***108来执行。为了简化,过程400将在执行过程400的***方面来描述。
接收表示可听发音的数据(402)。该数据可包括音频文件中个体的名字的发音。在一些实现中,该数据可以被处理以生成可用于语音识别***中的语音识别数据。
识别相关的用户(404)。用户可以与社交圈中的例如社交网络站点上的个体相关。在一些实现中,设备可以包括扬声器或音频输出并且可能能够产生数据的可听表示。
识别相关用户的设备(406)。在一些实现中,设备与社交网络站点上的相关用户相关联。
提供发音数据给识别的设备(408)。在一些实现中,还可以提供识别个体的信息。设备可以将发音数据与例如联系人记录中的个体相关联。设备可以使用数据来更新设备上的语音识别或合成语音应用。
对于这里讨论的***收集有关用户的个人信息,或者可以利用个人信息的情形,用户可被提供机会来控制程序或特征是否收集个人信息(例如有关用户的社交网络、社交行为或活动、职业、用户的偏好或用户的当前位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更加相关的内容。此外,某些数据在被存储或使用之前可能以一个或多个方式匿名,使得个人可识别的信息被去除。例如,用户的身份可以被匿名,使得不会为用户确定任何个人可识别的信息,或者在获得位置信息时用户的地理位置可以被一般化(诸如被一般化到城市、ZIP代码或州水平),使得不能确定用户的特定位置。这样,用户可具有对怎样收集以及使用有关他或她的信息的控制。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路中实现,在有形体现的计算机软件或固件中实现,在计算机硬件中实现,包括在本说明书中公开的结构及其结构等价物中实现,或者在它们中的一个或多个的组合中实现。本说明书中所述的主题的实施例可以被实现为一个或多个计算机程序,即在有形程序载体上编码的计算机程序指令的一个或多个模块,用于由数据处理装置执行或者控制数据处理装置的操作。替选地或者此外,程序指令可以编码在传播信号上,传播信号是人工生成的信号,例如机器生成的电、光、或者电磁信号,其被生成以编码信息以便传送到合适接收机装置由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基片、随机或序列存取存储器设备、或者它们中的一个或多个的组合。
术语“数据处理装置”包括用于处理数据的所有种类的装置、设备和机器,举例来说包括可编程处理器、计算机、或多处理器或计算机。装置可以包括特殊用途逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件以外,装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理***、操作***、或它们中的一个或多个的组合的代码。
计算机程序(也可称为程序、软件、软件应用、脚本或代码)可以是用任何形式的编程语言来写成的,包括编译或解释语言、声明性或过程性语言,并且其可以用任何形式部署,包括作为单机程序或者作为模块、组件、子程序、或适合用于计算环境中的其他单元。计算机程序可以但不必对应于文件***中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如,在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或者在多个协调的文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或多个计算机上执行,多个计算机位于一个站点或分布在多个站点且通过通信网络互连。
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序来通过对输入数据进行操作并生成输出而执行功能的一个或多个可编程计算机来执行。过程和逻辑流程还可以由特殊用途逻辑电路来执行,且装置也可以实现为特殊用途逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于执行计算机程序的计算机包括(举例来说可以基于)通用或专用微处理器或二者,或者任何其他种类的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的必要元素是用于执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或者可操作耦合以从以下接收数据或者向以下传送数据,或二者都有:用于存储数据的一个或多个大容量存储设备,例如磁、磁光盘、或光盘。但是,计算机不需要具有这样的设备。而且,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位***(GPS)接收机、或者便携存储设备(例如通用串行总线(USB)闪存驱动器),仅举上述几个例子。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如EPROM、EEPROM,以及闪存存储器设备;磁盘,例如内部硬盘或可移除盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊用途逻辑电路补充或集成其中。
为了提供与用户的交互,本说明书中所述的主题的实现可以在具有诸如CRT(阴极射线管)或LCD(液晶显示器)监视器的用于显示信息给用户的显示设备、键盘和例如鼠标或轨迹球的指示设备的计算机上实现,用户通过键盘和指示设备可以提供输入给计算机。其他类型的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感知反馈,例如视觉反馈、听觉反馈或触觉反馈;来自用户的输入可以以任何方式接收,包括声学、语音或触觉输入。此外,计算机可以通过发送文档给用户使用的设备或从用户使用的设备接收文档而与用户交互;例如,通过响应于从web浏览器接收到的请求而发送网页给用户的客户端设备上的web浏览器。
本说明书中描述的主题的实施例可以在计算***中实现,计算***包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有用户可以用来同本说明书中描述的主题的实现进行交互的图形用户界面或web浏览器的客户端计算机,或者一个或多个这样的后端、中间件、或前端组件的任意组合。***组件可以以例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如因特网。
计算***可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系是由于运行在相应计算机上且彼此具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包含许多特定实现细节,但是这些不应被解释为对任何发明的范围或所要求权利的限制,而应解释为可以特定于特定发明的特定实施例的特征的描述。本说明书中在分立的实施例的上下文中所描述的某些特征也可以在单独实施例中组合来实现。反之,在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中实现或者在任何合适的子组合中实现。而且,尽管特征在上面可能被描述为在某些组合中行为而且甚至最初就是这样要求的,但是来自所要求的组合的一个或多个特征在一些情况下可以从组合中去除,并且所要求的组合可以指向子组合或子组合的变体。
类似地,尽管在附图中以特定次序描绘了操作,其不应该被理解为要求这样的操作以所示的特定次序或按顺序的次序来执行,或者所有图示的操作都要执行,才能获得所需结果。在某些情况下,多任务和并行处理可能是有利的。而且,上述实施例中的各个***组件的分离不应被理解为在所有实施例中都要求这样的分离,而应该理解,所描述的程序组件和***通常可以一起集成到单个软件产品中或封装在多个软件产品中。
已经描述了主题的特定实施例。其他实施例都在所附权利要求的范围之内。例如,权利要求中所述的动作可以以不同次序来执行并且仍获得所需结果。作为一个示例,附图中描绘的过程不必需要求所示的特定次序、或顺序次序,才能获得所需结果。在某些情况下,多任务和并行处理可能是有利的。
Claims (18)
1.一种由数据处理装置执行的方法,所述方法包括:
从用户设备接收表示个体的名字的可听发音的数据;
识别与所述个体具有预先确定的关联的一个或多个其他用户;
识别与所述其他用户相关联的一个或多个设备;以及
将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备。
2.如权利要求1所述的方法,其中,所述一个或多个设备能够可听地再现所述发音。
3.如权利要求1所述的方法,其中,所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。
4.如权利要求1所述的方法,其中,所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。
5.如权利要求1所述的方法,进一步包括:
从表示所述可听发音的数据生成语音识别数据。
6.如权利要求5所述的方法,进一步包括:
由所述一个或多个设备中的一个接收所述语音识别数据;
使用所述识别信息来识别与所述个体相关联的联系人条目;
将所述语音识别数据与所述联系人条目相关联;以及
使用所述语音识别数据来更新所述设备上的新的发音。
7.一种编码有计算机程序指令的计算机可读存储设备,所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作:
从用户设备接收表示个体的名字的可听发音的数据;
识别与所述个体具有预先确定的关联的一个或多个其他用户;
识别与所述其他用户相关联的一个或多个设备;以及
将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备。
8.如权利要求7所述的计算机可读存储设备,其中,所述一个或多个设备能够可听地再现所述发音。
9.如权利要求7所述的计算机可读存储设备,其中,所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。
10.如权利要求7所述的计算机可读存储设备,其中,所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。
11.如权利要求7所述的计算机可读存储设备,进一步编码有计算机程序指令,所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作:
从表示所述可听发音的数据生成语音识别数据。
12.如权利要求11所述的计算机可读存储设备,进一步编码有计算机程序指令,所述计算机程序指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括下述的操作:
由所述一个或多个设备中的一个接收所述语音识别数据;
使用所述识别信息来识别与所述个体相关联的联系人条目;
将所述语音识别数据与所述联系人条目相关联;以及
使用所述语音识别数据来更新所述设备上的新的发音。
13.一种***,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令当被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作:
从用户设备接收表示个体的名字的可听发音的数据;
识别与所述个体具有预先确定的关联的一个或多个其他用户;
识别与所述其他用户相关联的一个或多个设备;以及
将识别所述个体的信息和表示所述可听发音的数据提供给所述一个或多个所识别的设备。
14.如权利要求13所述的***,其中,所述一个或多个设备能够可听地再现所述发音。
15.如权利要求13所述的***,其中,所述用户设备是在与社交圈相关联的社交网络站点上注册的智能电话。
16.如权利要求13所述的***,其中,所述发音与所述一个或多个用户设备中的至少一个上与所述用户相关联的联系人条目相关联。
17.如权利要求13所述的***,所述一个或多个存储设备进一步存储指令,所述指令在被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作:
从表示所述可听发音的数据生成语音识别数据。
18.如权利要求17所述的***,所述一个或多个存储设备进一步存储指令,所述指令在被所述一个或多个计算机执行时可操作以使得所述一个或多个计算机执行包括下述的操作:
由所述一个或多个设备中的一个接收所述语音识别数据;
使用所述识别信息来识别与所述个体相关联的联系人条目;
将所述语音识别数据与所述联系人条目相关联;以及
使用所述语音识别数据来更新所述设备上的新的发音。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261699335P | 2012-09-11 | 2012-09-11 | |
US61/699,335 | 2012-09-11 | ||
US13/948,996 US20140074470A1 (en) | 2012-09-11 | 2013-07-23 | Phonetic pronunciation |
US13/948,996 | 2013-07-23 | ||
PCT/US2013/058754 WO2014043027A2 (en) | 2012-09-11 | 2013-09-09 | Improving phonetic pronunciation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104718569A true CN104718569A (zh) | 2015-06-17 |
CN104718569B CN104718569B (zh) | 2018-12-07 |
Family
ID=50234200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380053185.6A Active CN104718569B (zh) | 2012-09-11 | 2013-09-09 | 改进语音发音 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140074470A1 (zh) |
EP (1) | EP2896039B1 (zh) |
CN (1) | CN104718569B (zh) |
WO (1) | WO2014043027A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660384A (zh) * | 2019-10-14 | 2020-01-07 | 内蒙古工业大学 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
Families Citing this family (157)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9747895B1 (en) * | 2012-07-10 | 2017-08-29 | Google Inc. | Building language models for a user in a social network from linguistic information |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和*** |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) * | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
AU2017100208B4 (en) * | 2014-09-30 | 2017-05-11 | Apple Inc. | A caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10102852B2 (en) * | 2015-04-14 | 2018-10-16 | Google Llc | Personalized speech synthesis for acknowledging voice actions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9947311B2 (en) * | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US9910836B2 (en) | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US10102189B2 (en) | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US10102203B2 (en) | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US11322172B2 (en) | 2017-06-01 | 2022-05-03 | Microsoft Technology Licensing, Llc | Computer-generated feedback of user speech traits meeting subjective criteria |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020065656A1 (en) * | 2000-11-30 | 2002-05-30 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
US20060215821A1 (en) * | 2005-03-23 | 2006-09-28 | Rokusek Daniel S | Voice nametag audio feedback for dialing a telephone call |
US20080037720A1 (en) * | 2006-07-27 | 2008-02-14 | Speechphone, Llc | Voice Activated Communication Using Automatically Updated Address Books |
CN101194305A (zh) * | 2005-08-19 | 2008-06-04 | 思科技术公司 | 用于分发语音识别语法的***和方法 |
CN101632316A (zh) * | 2007-02-28 | 2010-01-20 | 索尼爱立信移动通讯股份有限公司 | 音频别名标签 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208964B1 (en) * | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US7283964B1 (en) * | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US6397182B1 (en) * | 1999-10-12 | 2002-05-28 | Nortel Networks Limited | Method and system for generating a speech recognition dictionary based on greeting recordings in a voice messaging system |
CA2499545C (en) | 2002-09-19 | 2009-06-30 | Research In Motion Limited | System and method for accessing contact information on a communication device |
US7467087B1 (en) * | 2002-10-10 | 2008-12-16 | Gillick Laurence S | Training and using pronunciation guessers in speech recognition |
US7280963B1 (en) * | 2003-09-12 | 2007-10-09 | Nuance Communications, Inc. | Method for learning linguistically valid word pronunciations from acoustic data |
US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
WO2007145856A2 (en) * | 2006-06-14 | 2007-12-21 | Mahesh Lalwani | Computer enabled method and apparatus for connecting individuals via telephone |
US8502876B2 (en) * | 2006-09-12 | 2013-08-06 | Storz Endoskop Producktions GmbH | Audio, visual and device data capturing system with real-time speech recognition command and control system |
US20080082316A1 (en) * | 2006-09-30 | 2008-04-03 | Ms. Chun Yu Tsui | Method and System for Generating, Rating, and Storing a Pronunciation Corpus |
US20080189122A1 (en) * | 2007-02-02 | 2008-08-07 | Coletrane Candice L | Competitive friend ranking for computerized social networking |
US8719027B2 (en) * | 2007-02-28 | 2014-05-06 | Microsoft Corporation | Name synthesis |
US8416926B2 (en) * | 2007-03-26 | 2013-04-09 | Cisco Technology, Inc. | Method and system for providing an audio representation of a name |
US8401157B2 (en) * | 2008-01-24 | 2013-03-19 | Alcatel Lucent | System and method for providing audible spoken name pronunciations |
US10680840B2 (en) * | 2008-08-28 | 2020-06-09 | Lawrence A. Jonas | System for integrating multiple IM networks and social networking websites |
US20100250592A1 (en) * | 2009-03-31 | 2010-09-30 | Paquet Vincent F | Unifying Web And Phone Presence |
WO2011091516A1 (en) * | 2010-01-29 | 2011-08-04 | Antvibes Inc. | System, method and computer program for sharing audible name tags |
CA2795812A1 (en) * | 2010-04-07 | 2011-10-13 | Max Value Solutions INTL, LLC | Method and system for name pronunciation guide services |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US9640175B2 (en) * | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
US20130110511A1 (en) * | 2011-10-31 | 2013-05-02 | Telcordia Technologies, Inc. | System, Method and Program for Customized Voice Communication |
US9275633B2 (en) * | 2012-01-09 | 2016-03-01 | Microsoft Technology Licensing, Llc | Crowd-sourcing pronunciation corrections in text-to-speech engines |
US9620128B2 (en) * | 2012-05-31 | 2017-04-11 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
-
2013
- 2013-07-23 US US13/948,996 patent/US20140074470A1/en not_active Abandoned
- 2013-09-09 EP EP13836614.1A patent/EP2896039B1/en active Active
- 2013-09-09 CN CN201380053185.6A patent/CN104718569B/zh active Active
- 2013-09-09 WO PCT/US2013/058754 patent/WO2014043027A2/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020065656A1 (en) * | 2000-11-30 | 2002-05-30 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
US20060215821A1 (en) * | 2005-03-23 | 2006-09-28 | Rokusek Daniel S | Voice nametag audio feedback for dialing a telephone call |
CN101194305A (zh) * | 2005-08-19 | 2008-06-04 | 思科技术公司 | 用于分发语音识别语法的***和方法 |
US20080037720A1 (en) * | 2006-07-27 | 2008-02-14 | Speechphone, Llc | Voice Activated Communication Using Automatically Updated Address Books |
CN101632316A (zh) * | 2007-02-28 | 2010-01-20 | 索尼爱立信移动通讯股份有限公司 | 音频别名标签 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660384A (zh) * | 2019-10-14 | 2020-01-07 | 内蒙古工业大学 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
CN110660384B (zh) * | 2019-10-14 | 2022-03-22 | 内蒙古工业大学 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2014043027A3 (en) | 2014-05-08 |
EP2896039B1 (en) | 2020-04-29 |
WO2014043027A2 (en) | 2014-03-20 |
US20140074470A1 (en) | 2014-03-13 |
EP2896039A4 (en) | 2016-05-25 |
EP2896039A2 (en) | 2015-07-22 |
CN104718569B (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104718569A (zh) | 改进语音发音 | |
US20210132986A1 (en) | Back-end task fulfillment for dialog-driven applications | |
EP3504705B1 (en) | Multi computational agent performance of tasks | |
US10331791B2 (en) | Service for developing dialog-driven applications | |
CN112270925B (zh) | 用于创建可定制对话***引擎的平台 | |
US20190272817A1 (en) | Synthesized voice selection for computational agents | |
CN112292674A (zh) | 为助理***处理多模态用户输入 | |
US8856007B1 (en) | Use text to speech techniques to improve understanding when announcing search results | |
JP2017515134A (ja) | 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア | |
US9741259B2 (en) | Identification for performing tasks in open social media | |
CN110289015B (zh) | 一种音频处理方法、装置、服务器、存储介质及*** | |
US20180096284A1 (en) | Multi computational agent performance of tasks | |
EP3839800A1 (en) | Recommending multimedia based on user utterances | |
CN105488096A (zh) | 动态概要生成器 | |
US20220308987A1 (en) | Debugging applications for delivery via an application delivery server | |
CN106202087A (zh) | 一种信息推荐方法及装置 | |
Nees et al. | Auditory icons, earcons, spearcons, and speech: A systematic review and meta-analysis of brief audio alerts in human-machine interfaces | |
US11385990B2 (en) | Debugging applications for delivery via an application delivery server | |
CN113761158A (zh) | 基于话语树的焦点信息共享对话的管理 | |
CN107622052B (zh) | 自然语言处理方法、装置、存储介质及终端设备 | |
Torres-Cruz et al. | Evaluation of Performance of Artificial Intelligence System during Voice Recognition in Social Conversation | |
CN111368099B (zh) | 核心信息语义图谱生成方法及装置 | |
CN111161706A (zh) | 交互方法、装置、设备和*** | |
Griol et al. | Adaptive dialogue management using intent clustering and fuzzy rules | |
Chinnakali et al. | Organising the knowledge from stack overflow about location‐sensing of Android applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |