CN106133826B - 用于语言模型自定义的灵活模式 - Google Patents
用于语言模型自定义的灵活模式 Download PDFInfo
- Publication number
- CN106133826B CN106133826B CN201580016605.2A CN201580016605A CN106133826B CN 106133826 B CN106133826 B CN 106133826B CN 201580016605 A CN201580016605 A CN 201580016605A CN 106133826 B CN106133826 B CN 106133826B
- Authority
- CN
- China
- Prior art keywords
- language model
- prompt
- model components
- computing device
- components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 230000000712 assembly Effects 0.000 description 7
- 238000000429 assembly Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/02—Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
- G06F15/0225—User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems
- G06F15/0233—User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems with printing provisions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
- Stored Programmes (AREA)
- Machine Translation (AREA)
Abstract
提供了对用于语音识别的语言模型组件的自定义。可以使得语言模式组件的列表可以由计算设备使用。接着,将用于对来自列表的多个语言模型组件进行组合的提示发送至识别服务提供者。该提示可以基于多个不同的领域。接着,可以从识别服务提供者处接收基于该提示的语言模型组件的自定义的组合。
Description
背景技术
诸如智能手机、台式机、笔记本电脑、平板电脑、游戏主控台等之类的许多计算设备都利用包含了自动语音识别(ASR)以在多个不同领域(例如,语音搜索和短消息听写)上使用的应用。为了改进语音识别的质量,常常利用语言模型(例如,购物、游戏、音乐、电影等)来促进对专注于不同领域的语音的识别。目前与语言模型的使用相关联的缺点包括ASR场景,其中不同的领域需要由识别服务提供者同时服务。在这些场景中,可能需要将许多潜在的大语言模型保存在存储器中,这可能会对服务提供者的资源造成负担。关于这些问题和其他问题而完成了本发明的各种实施例。
发明内容
提供了该发明内容以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在帮助确定所要求保护的主题的范围。
实施例提供了对用于语音识别的语言模型组件的自定义。可以使语言模型组件的列表可由计算设备使用。接着,将用于对来自列表的多个语言模型组件进行组合的提示发送至识别服务提供者。该提示可以是基于多个不同领域的。接着,可以基于该提示而由计算设备来接收语言模型组件的经自定义的组合。
从对以下的具体实施方式的阅读以及对附图的查看,这些和其他特征及优点将是显然的。应当理解的是,前述的一般描述和以下的详细描述都仅是说明性的而不对所要求保护的发明进行限制。
附图说明
图1是根据实施例的示出了用于对用于语音识别的语言模型组件进行自定义的***的框图;
图2是根据实施例的示出了可以由图1的***所利用的各种提示的框图;
图3是根据实施例的示出了可以在图1的***中利用的各种领域的框图;
图4是根据实施例的示出了用于对用于语音识别的语言模型组件进行自定义的例程的流程图;
图5是利用其可以实现各种实施例的计算设备的简化框图;
图6A是利用其可以实现各种实施例的移动计算设备的简化框图;
图6B是利用其可以实现各种实施例的移动计算设备的简化框图;和
图7是其中可以实现各种实施例的分布式计算***的简化框图。
具体实施方式
实施例提供了对用于语音识别的语言模型组件的自定义。可以使语言模型组件的列表对计算设备可用。接着,将用于对来自列表的多个语言模型组件进行组合的提示发送至识别服务提供者。该提示可以是基于多个领域中的一个领域的。接着,可以基于该提示而由计算设备来接收对语言模型组件的经自定义的组合。
在以下的具体描述中,对形成了本文的一部分并且作为图示而示出了具体的实施例或示例的附图进行了参考。可以组合这些实施例、利用其他实施例、并且进行结构改变而不脱离本发明的精神和范围。因此,以下的详细描述不应被看作限制性意义,并且本发明的范围是由所附的权利要求及其等同物所限定的。
现在将参考附图来描述本发明的各种方面,在几幅图通篇中的相同的附图标记表示相同的元素。图1是根据实施例的示出了可以用于对用于语音识别的语言模型组件进行自定义的***100的框图。***100可以包括可以与被配置为从一个或多个用户(未示出)处接收音频和/或文本输入的计算设备150进行通信的识别服务提供者102。在一个实施例中,识别服务提供者102可以基于由在计算设备150上执行的应用170所提供的、用于针对具体的语音识别领域或场景而定制的语言模型组件的各种组合的“提示”160(即“提示”)(即指引)而被配置为针对对于语音识别的“即时(on-the-fly)”或在线语言模型插值。特别地,并且如将在本文中更加详细地描述的,由应用170所提供的提示160可以包括用于由识别服务提供者102进行的用于语言模型自定义的灵活模式。
根据各种实施例,计算设备150可以包括而不限于:台式计算机、膝上型计算机、智能电话、视频游戏控制台、或电视机。计算设备150还可以包括用于检测语音和接收视频/图像的一个或多个记录设备(未示出)(例如,MICROSOFT KINECT、麦克风等)或者与其进行通信。计算设备150可以存储应用170,所述应用170可以被配置为提供可以由识别服务提供者102利用以对语言模型(LM)组件120进行自定义的提示160。根据实施例(并且如将在下文中所详细描述的),应用170可以被配置为生成包括LM组件120的LM组件列表165。在实施例中,LM组件120可以包括可以用于语音识别的组件125A-125N。在一些实施例中,基于具体的领域、场景、或情境,组件125A-125N的各种组合可以包括或被提供有权重130(例如,由应用开发者)。例如,包括针对主要用于游戏的领域或场景而定制的组件125A-125N的组合的语言模型可以具有以下的所应用的权重:游戏:0.5,电影,0.3以及音乐0.2)。其他组件类型(例如,购物等)及权重组合也是可能的。
在一些实施例中,可以在对由服务提供者102基于包含在从应用170所接收的提示160中的指引而自定义的组件组合进行选择(即,语言模型105)时来利用LM组件120。特别地,语言模型105可以包括但不限于:预编译的组件组合110、基于主题的组件组合112、固定权重的组件组合114、以及其他组件组合116。例如,包括预编译的组件组合110的语言模型可以针对具体的领域(例如,短消息听写的语音搜索)而定制,包括基于主题的组件组合112的语言模型可以基于可用的项目的预编译列表,所述可用的项目基于与在***100中当前可用的LM组件相对应的一个或多个主题/风格(例如,购物、游戏、音乐等),并且包括固定权重的组合组件114的语言模型可以包括针对开发者对特定的场景的直觉而定制的LM组件的现有固定权重组合(例如,权重130已被应用于LM组件)。
如将在本文中更加详细地描述的,识别服务提供者102可以在针对各种识别情境或场景而选择合适的LM组件组合时利用提示160。在一个实施例中,提示160可以由应用170作为识别请求175(即,针对“即时”)的一部分的语言模型插值而提交至识别服务提供者102。在另一个实施例中,提示160可以由应用170作为离线初始化过程的一部分而提交至识别服务提供者102。根据实施例,应用170可以包括语音识别应用,例如来自华盛顿州Redmond市的MICROSOFT CORPORATION的BING VOICE SEARCH、WINDOWS PHONE SHORTMESSAGE DICTATION、以及XOBX MARKET PLACE VOICE SEARCH应用。然而应当理解的是,可以可替代地利用根据在本文中所描述的各种实施例的来自其他厂家的其他应用(包括操作***)。
图2是根据实施例的示出了可以由图1的***100利用的各种提示160的框图。提示160可以包括预定义组合提示210、识别主题提示220、重新使用现有组合提示230、文本语料库提示240、以及音频语料库提示250。预定义组合提示210可以包括对覆盖宽泛的领域(例如,语音搜索、短消息听写等)的LM组件(例如,LM组件120)的预定义的选择(例如,由应用开发者)。预定义的选择可以包含,例如,由识别服务提供者102对针对“即时”的组件插值的LM组件的预编译的语言模型或现有的固定权重组合。
识别主题提示220可以包含对来自与LM组件120相对应的可用的项目的预编译列表中的一个或多个主题/风格的手动选择。例如,如果LM组件包括购物、游戏、音乐、电影等,则预编译列表可以包括与由被确定为关于特定的语音识别应用(例如,针对游戏控制台的游戏、电影和音乐)的应用开发者所选择的LM组件相对应的项目。如在上文中所讨论的,在一些实施例中,也可以由应用开发者向LM组件提供权重。应当理解的是,在识别服务提供者102接收到识别主题提示220之后,识别服务提供者102可以在从应用170接收到的识别请求后而利用所提供的权重来对经选择的LM组件进行插值。
重新使用现有组合提示230可以参考对LM组件的现有的特定于场景的组合的重新使用。例如,应用开发者可以已经具有现有的识别应用,其中,LM组件的组合之前已经针对该现有的识别应用进行了优化。响应于该重新使用现有组合提示230,可以由识别服务提供者102针对新的但是类似的场景来重新使用相同的组合。
文本语料库提示240可以包括供***100来学习关于该语料库而插值系数的最佳LM组件的领域内文本语料库。例如,如果应用开发者提供一批有关软件的副本,则可以期望该所得到的语言模型来处理有关软件的音频请求。本领域技术人员应当理解的是,可以利用诸如期望值最大化算法之类的技术来优化关于该语料库的LM组件权重向量。应当理解的是,与在上文中所讨论的提示210-230相反,文本语料库提示240(以及在下文中所讨论的音频语料库提示250)是隐含的提示。
音频语料库提示250可以包括供***100来学习关于该语料库而插值系数的最佳LM组件的领域内音频语料库。应当理解的是,在实施例中,为了获得类似的识别准确度,可能需要比领域内文本语料库所需的样本数量更多的样本。
图3是根据实施例的示出了可以在图1的***100中利用的各种领域300的框图。领域300可以包括宽泛的领域,例如语音搜索领域310和短消息听写领域320。领域300也可以包括狭窄的领域,例如游戏控制台领域330。在一些实施例中,应用170可以被配置为分配直观的领域名称(例如,“XBOX领域”),以用于指定LM组件组合。除了在上文中所标识的那些领域之外,领域300还可以包括其他领域340,所述其他领域340可以包括宽泛的或狭窄的领域。
图4是根据实施例的示出了用于对用于语音识别的语言模型组件进行自定义的例程400的流程图。当阅读对在本文中所呈现的例程的讨论时,应当理解的是,可以将本发明的各种实施例的逻辑操作实现为(1)在计算***上运行的计算机实现的行为或程序模块的序列,和/或(2)计算***内的互连的机器逻辑电路或电路模块。实现是取决于实现本发明的计算***的性能要求的选择问题。从而,在图4中所示出并且组成在本文中所描述的各种实施例的逻辑操作不同地被称为操作、结构性设备、行为、或模块。本领域技术人员应当理解的是,这些操作、结构性设备、行为、和模块可以在软件、在硬件、在固件、在专用数字逻辑、及其任意组合中被实现,而不偏离如在本文中所阐述的权利要求中所述的本发明的精神和范围。
例程400在操作405处开始,其中在计算设备150上执行的应用170可以呈现语言模型(LM)组件的列表以供用户(例如,应用开发者)选择。在各种实施例中,该列表可以被显示在用户界面155中,或者,可替代地,经由程序访问被提供至应用开发者。例如,该列表可以包括在上文中关于图1所描述的LM组件列表165。
从操作405开始,程序400继续至操作410,其中,在计算设备150上执行的应用170可以发送用于对从该列表中所选择的LM组件进行组合的提示160。提示160可以基于领域300中的一个或多个领域。例如,在一个实施例中,提示160可以包括对基于一个或多个领域的预编译的语言模型(例如,预编译的组件组合110)的选择。在另一个实施例中,提示160可以包括对基于一个或多个领域的LM组件的固定权重的组合(例如,固定权重的组件组合114)的选择。而在另一个实施例中,提示160可以包括对与LM组件中的一个或多个相对应的一个或多个识别主题(例如,来自预编译列表)(例如,基于主题的组合112)的选择。如在上文中关于图1所讨论的,也可以将一个或多个权重130应用至LM组件。如在上文中关于图2所描述的,在另一个实施例中,提示160可以包括领域内文本语料库或者领域内音频语料库。在另一个实施例中,提示160可以包括用于重新使用的LM组件的现有的组合。应当理解的是,在一个实施例中,可以由应用170将提示160与识别请求一起发送至识别服务提供者102。在另一个实施例中,可以在发送识别请求之前而将提示160作为离线初始化过程的一部分发送至识别服务提供者102。例如,应用开发者可以在启动应用之前作为注册过程的一部分而提交提示160,以便给识别服务提供者102提供足够的时间来处理提示160。应当理解的是,可以以该方式发送诸如领域内文本语料库和领域内语音语料库(在上文中所讨论的)之类的隐含的提示。
例程400从操作410继续至操作415,其中,在计算设备150上执行的应用170可以接收基于提示160而对LM组件的经自定义的组合。特别地,计算设备150可以接收由识别服务提供者102基于在提示160中所接收到的引导而自定义的语音模型(例如,语言模型105中的一个语言模型)。
例程400从操作415继续至操作420,其中,在计算设备150上执行的应用170可以维持所提交的提示160与相关联的LM组件之间的连接。例如,应用170可以被配置为维持包括由应用开发者手动选择的主题的提示与由识别服务提供者102所自定义的对应的LM组合或语言模型的寿命周期之间的稳定的连接。特别地,并且根据实施例,可以给应用开发者提供唯一的ID,可以利用该唯一的ID来引用用于根据由应用开发者所标识的特定的场景(或类似的场景)而进行识别的特定的经自定义的语言模型。应当理解的是,可以在各种粒度等级上应用前述的方法,包括但不限于:每领域、每场景、每应用、每应用领域、以及每应用用户、及其组合。接着例程400从操作415结束。
图5-7和相关联的描述提供了对其中可以实践本发明的多种操作环境的讨论。然而,关于图5-7所示出并讨论的设备和***是出于示例和图示的目的的,并且不限于可以用于实践在本文中所描述的本发明的实施例的大量计算设备配置。
图5是示出了利用其可以实践计算设备500的示例物理组件的框图。在基本配置中,计算设备500可以包括至少一个处理单元502和***存储器504。取决于计算设备的配置和类型,***存储器504可以包括但不限于:易失性(例如随机存取存储器(RAM))、非易失性(例如,只读存储器(ROM))、闪速存储器、或任何组合。***存储器504可以包括操作***505和应用170。例如,操作***505可以适用于控制计算设备500的操作,并且根据实施例,可以包括来自华盛顿州Redmond市的MICROSOFT CORPORATION的WINDOWS操作***。应用170(在一些实施例中,其可以被包括在操作***505中)可以包括用于执行例程的功能,所述例程包括例如,如在上文中关于图4的例程400中的操作所描述的那样对语言模型组件进行自定义。
计算设备500可以具有额外的特征和功能。例如,计算设备500还可以包括额外的数据存储设备(可移动的和/或不可移动的),例如,磁盘、光盘、固态存储设备(“SSD”)、闪速存储器、或磁带。在图5中由可移动存储设备509和不可移动存储设备510示出了这样的额外的存储设备。计算设备500还可以具有诸如键盘、鼠标、笔、声音输入设备(例如,麦克风)、用于接收手势的触摸输入设备、加速度计、或旋转传感器等之类的输入设备512。还可以包括诸如显示器、扬声器、打印机等之类的输出设备514。前述的设备是示例并且可以使用其他的设备。计算设备500可以包括允许与其他计算设备518进行通信的一个或多个通信连接516。合适的通信连接516的示例包括但不限于:RF发射机、接收机、和/或收发机电路;通用串行总线(USB)、并行、和/或串行端口。
此外,可以在包括分立的电子元件的电气电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或包含电子元件或微处理器的单片机上实践各种实施例。例如,可以经由片上***(SOC)来实践各种实施例,其中在片上***中,可以将在图5中所示出的组件中的每个或许多个集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、***虚拟化单元、以及各种应用功能,其全部都作为单集成电路而集成(或“烧”)到芯片基板上。当经由SOC进行操作时,可以经由在单个集成电路(芯片)上与设备/***500的其他组件集成的专用逻辑,来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如,AND、OR和NOT)的其他技术来实践本发明的实施例,所述其它技术包括但不限于机械、光学、流体、和量子技术。另外,可以在通用计算机内或在任何其他电路或***中实践本发明的实施例。
如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质包括以用于存储信息(例如,计算机可读指令、数据结构、或程序模块)的任何方法或技术来实现的易失性和非易失性的、可移动和不可移动的介质。***存储器504、可移动存储设备509、以及不可移动存储设备510都是计算机存储介质的示例(即,存储器存储)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其它存储技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备、或者可用于存储信息并可由计算设备500访问的任何其它制品。任何这样的计算机存储介质可以是计算设备500的一部分。计算机存储介质不包括载波或其他传播的或已调的数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块、或已调数据信号(例如,载波或其他传输机制)中的其他数据来实施,并且包括任何信息传递介质。术语“已调数据信号”可以描述具有一个或多个特征集合或者以将信息编码在信号中的方式进行改变的信号。作为示例而非限制,通信介质可以包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学的、射频(RF)的、红外的、和其他无线介质之类的无线介质。
图6A和图6B示出了利用其可以实践各种实施例的合适的移动计算环境,例如,可以包括但不限于智能电话、平板个人计算机、膝上型计算机等的移动计算设备650。参考图6A,示出了用于实现实施例的示例移动计算设备650。在基本配置中,移动计算设备650是具有输入元件和输出元件两者的手持计算机。输入元件可以包括允许用户将信息输入到移动计算设备650中的触屏显示器625以及输入按钮610。移动计算设备650还可以包含允许进一步的用户输入的可选的侧输入元件620。可选的侧输入元件620可以是旋转开关、按钮、或任何其他类型的手动输入元件。在可替代的实施例中,移动计算设备650可以包含更多或更少的输入元件。在另一个可替代的实施例中,移动计算设备是便携式电话***,例如,具有显示器625和输入按钮610的蜂窝电话。移动计算设备650还可以包括可选的小键盘605。可选的小键盘605可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。
移动计算设备650包含输出元件,例如,可以显示图形用户界面(GUI)的显示器625。其他输出元件包括扬声器630和LED 680。额外地,移动计算设备650可以包含使得移动计算设备650进行振动以通知用户关于事件的振动模块(未示出)。在另一个实施例中,移动计算设备650可以包含耳机插孔(未示出)以用于提供另一个方式来提供输出信号。
尽管在本文中结合移动计算设备650进行了描述,但在可替代的实施例中可以结合任何数量的计算机***来使用,例如,在台式计算机环境、膝上型或笔记本计算机***、在多处理器***、基于微处理器的或可编程的消费性电子产品、网络PC、微型计算机、大型计算机等中。还可以在分布式计算环境中实践各种实施例,其中在分布式环境中,由通过分布式计算环境中的通信网络所链接的远程处理设备来执行任务;程序既可以位于本地,又可以位于远程存储器存储设备中。总而言之,具有多个环境传感器、用于向用户提供通知的多个输出元件、以及多个通知事件类型的计算机***可以包含在本文中所描述的各种实施例。
图6B是示出了在一个实施例中所使用的移动计算设备(例如,在图1中所示出的移动计算设备650)的组件的框图。即,移动计算设备650可以包含用于实现一些实施例的***602。例如,可以在实现可以运行类似于台式计算机或笔记本计算机的应用的一个或多个应用的“智能电话”时使用***602。在一些实施例中,将***602集成为计算设备,例如,集成的个人数字助理(PDA)和无线电话。
应用170可以被加载到存储器662中,并且在操作***664上运行或结合操作***664运行。***602还包括存储器662内的非易失性存储668。非易失性存储668可以用于存储如果***602断电而不应该丢失的持续的信息。应用170可以使用非易失性存储668中的信息并且将信息存储在非易失性存储668中。例如,应用170可以包括用于执行例程的功能,所述例程包括,例如,如在上文中关于图4的例程400中的操作所描述的那样对语言模型组件进行自定义。同步应用(未示出)还驻留在***602上并且被编程以与驻留在主机计算机上的对应的同步应用进行交互,从而保持存储在非易失性存储668中的信息与存储在主机计算机上的对应的信息相同步。应当理解的是,还可以将其他应用加载到存储器662中并且在移动计算设备650上运行。
***602具有可以被实现为一个或多个电池的电源670。电源670还可以包括外置电源,例如,AC适配器或者给电池供电或充电的加电对接托架。
***602还可以包括执行发送和接收射频通信的功能的无线电设备672(即,无线电接口层)。无线电设备672经由通信载波或服务提供者来促成***602与“外部世界”之间的连通性。来往于无线电设备672的传输是在OS 664的控制下进行的。换句话说,可以将由无线电设备672所接收的通信经由OS 664散播至应用170,并且反之亦然。
无线电设备672允许***602例如通过网络与其他计算设备进行通信。无线电设备672是通信介质的一个示例。***602的实施例被示出具有两种类型的通知输出设备:可以用于提供视觉通知的LED 680以及可以与扬声器630一起使用以提供音频通知的音频接口674。这些设备可以直接耦合至电源670,因此当被激活时,即使处理器660和其他组件可以关闭以节省电池电量,这些设备保持通电并持续由通知机制所指示的一段时间。LED 680可以被编程为无限期地保持通电,直到用户采取动作来指示设备的通电状态为止。音频接口674用于向用户提供能够听见的信号,并且从用户接收能够听到的信号。例如,除了耦合至扬声器630,音频接口674还可以耦合至麦克风(未示出)以接收能够听见的(例如,语音)输入,例如,从而促进电话会话。根据实施例,麦克风还可以充当音频传感器以促进对通知的控制。***602还可以包括支持用于记录静止的图像、视频流等的板载相机的操作的视频接口676。
实现***602的移动计算设备可以具有额外的特征或功能。例如,设备还可以包括额外的数据存储设备(可移动的和/或不可移动的),例如,磁盘、光盘、或磁带。在图6B中由存储668示出了这样额外的存储。
如在上文中所描述的,可以将由移动计算设备650所生成或捕获的数据/信息以及经由***602所存储的数据/信息本地地存储在移动计算设备650上,或者可以将数据存储在可以经由无线电设备672或经由移动计算设备650和与移动计算设备650相关联的单独的计算设备(例如,分布式计算网络(例如,互联网)中的服务器计算机)之间的有线连接由设备来访问的任何数量的存储介质上。应当理解的是,可以经由移动计算设备650、经由无线电设备672、或者经由分布式计算网络来访问这样的数据/信息。类似地,根据公知的数据/信息传输和存储方式(包括电子邮件和协同数据/信息共享***),这样的数据/信息可以容易地在计算设备之间传输以供存储和使用。
图7是其中可以实践各种实施例的分布式计算***的简化框图。分布式计算***可以包括多个客户端设备,例如计算设备703、平板计算设备705、以及移动计算设备710。客户端设备703、705、710可以与分布式计算网络715(例如,互联网)进行通信。服务器720通过网络715与客户端设备703、705、710进行通信。服务器720可以存储可以执行例程的应用170,所述例程包括,如在上文中关于图4的例程400中的操作所描述的那样对语言模型组件进行自定义。
可以将与应用170相关联地开发、交互、或编辑的内容存储在不同的通信信道中或其他存储类型中。例如,可以使用目录服务722、门户网站724、邮箱服务726、即时消息传送存储728、或社交网络网站730来存储各种文档。如在本文中所描述的,应用170可以使用用于使能数据利用的这些类型的***等中的任何一种。服务器720可以向客户端提供接近度应用170。作为一个示例,服务器720可以是提供通过网络的应用170的网络服务器。服务器720可以通过网络715来提供通过网络的应用170。作为示例,计算设备10可以被实现为计算设备703并且以个人计算、平板计算设备705、和/或移动计算设备710(例如,智能电话)来实施。计算设备703、705、和710的这些实施例中的任何一个可以从存储716中获得内容。
在上文中参考方法、***、和计算机程序产品的框图和/或操作图描述了各种实施例。在方框中所记录的功能/操作可以按照不同于在任何流程图中所示出的顺序来进行。例如,取决于所涉及的功能/操作,连续地示出的两个方框可以实际上大体上同时执行,或者方框可以有时以相反的顺序执行。
在该公开中所提供的一个或多个实施例的描述或图示不旨在以任何方式限制或约束所要求保护的发明的范围。在该公开中所提供的实施例、示例、和细节被认为足以传达所有物,并且使得本领域技术人员能够制造并使用所要求保护的发明的最佳模式。所要求保护的发明不应该被解释为限于在该申请中所提供的任何实施例、示例、或细节。无论是共同地还是单独地示出或描述,(结构上和方法上两者的)各种特征旨在选被择性地包括或省略,以产生具有特定组的特征的实施例。在已经提供有本申请的描述和图示之后,本领域技术人员可以预想落入在该申请中所实施的一般的发明概念的更宽泛的方面的精神内的变型、修改和替代实施例,而不脱离所要求保护的发明的更宽泛的范围。
Claims (10)
1.一种对语言模型组件进行自定义的方法,包括:
由计算设备呈现语言模型组件的列表;
由包括语音识别应用的所述计算设备上的应用发送(410)用于对来自所述列表的多个语言模型组件进行组合的提示,所述提示是基于多个领域中的一个或多个领域的;以及
由所述计算设备上的所述应用接收(415)语言模型,所述语言模型是基于所述提示的对所述多个语言模型组件的自定义的组合;
其中,由所述计算设备上的所述应用发送用于对来自所述列表的多个语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对所述多个语言模型组件的固定权重的组合的选择。
2.根据权利要求1所述的方法,还包括保持(420)所述提示与所述多个语言模型组件中的一个或多个语言模型组件之间的连接。
3.根据权利要求1所述的方法,其中,由所述计算设备发送用于对来自所述列表的多个语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对预编译语言模型的选择。
4.根据权利要求1所述的方法,其中,识别服务提供者接收所述提示并且基于所述固定权重的组合来对所述语言模型组件进行插值。
5.一种用于对语言模型组件进行自定义的***,包括:
用于存储可执行程序代码的存储器;以及
功能地耦合至所述存储器的处理器,所述处理器对包含在所述程序代码内的计算机可执行指令进行响应并且可操作以:
呈现语言模型组件的列表;
发送(410)用于对来自所述列表的多个语言模型组件进行组合的提示,所述提示是基于多个领域中的一个或多个领域的;
接收(415)基于所述提示的对多个语言模型组件的自定义的组合;并且
保持(420)所述提示与所述多个语言模型组件中的一个或多个语言模型组件之间的连接;
其中,当发送用于对来自所述列表的所述多个语言模型组件进行组合的提示时,所述处理器可操作以发送基于所述多个领域中的所述一个或多个领域的对所述多个语言模型组件的固定权重的组合的选择。
6.根据权利要求5所述的***,其中,当发送用于对来自所述列表的所述多个语言模型组件进行组合的提示时,所述处理器可操作以发送基于所述多个领域中的所述一个或多个领域的对预编译语言模型的选择。
7.根据权利要求5所述的***,还包括被配置为接收所述提示并且基于所述固定权重的组合来对所述语言模型组件进行插值的识别服务提供者。
8.一种存储计算机可执行指令的计算机可读存储介质,其中,当由计算机执行时,所述计算机可执行指令将使得计算机执行对语言模型组件进行自定义的方法,所述方法包括:
呈现不同的语言模型组件的列表;
发送(410)用于对来自所述列表的多个不同的语言模型组件进行组合的提示,所述提示是基于多个领域中的一个或多个领域的,所述多个领域中的一个或多个领域包括语音搜索域和短消息听写域中的一个或多个领域;
接收(415)基于所述提示的对所述多个不同的语言模型组件的自定义的组合;以及
保持(420)所述提示与所述多个不同的语言模型组件中的一个或多个语言模型组件之间的连接;
其中,发送用于对来自所述列表的所述多个不同的语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对所述多个不同的语言模型组件的固定权重的组合的选择。
9.根据权利要求8所述的计算机可读存储介质,其中,发送用于对来自所述列表的所述多个不同的语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对预编译语言模型的选择。
10.根据权利要求8所述的计算机可读存储介质,其中,所述提示被发送至识别服务提供者,其中,对所述多个不同的语言模型组件的所述自定义的组合是基于所述固定权重的组合的对所述不同的语言模型组件的插值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/227,492 | 2014-03-27 | ||
US14/227,492 US9529794B2 (en) | 2014-03-27 | 2014-03-27 | Flexible schema for language model customization |
PCT/US2015/021921 WO2015148333A1 (en) | 2014-03-27 | 2015-03-23 | Flexible schema for language model customization |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106133826A CN106133826A (zh) | 2016-11-16 |
CN106133826B true CN106133826B (zh) | 2019-12-17 |
Family
ID=53039568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580016605.2A Active CN106133826B (zh) | 2014-03-27 | 2015-03-23 | 用于语言模型自定义的灵活模式 |
Country Status (10)
Country | Link |
---|---|
US (2) | US9529794B2 (zh) |
EP (1) | EP3123467B1 (zh) |
JP (1) | JP6571106B2 (zh) |
KR (1) | KR102315104B1 (zh) |
CN (1) | CN106133826B (zh) |
AU (1) | AU2015236417B2 (zh) |
CA (1) | CA2940430C (zh) |
MX (2) | MX2016012195A (zh) |
RU (1) | RU2689203C2 (zh) |
WO (1) | WO2015148333A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181205B2 (en) | 2002-09-24 | 2012-05-15 | Russ Samuel H | PVR channel and PVR IPG information |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
CN104281626B (zh) * | 2013-07-12 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 基于图片化处理的网页展示方法及网页展示装置 |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
US9717006B2 (en) | 2014-06-23 | 2017-07-25 | Microsoft Technology Licensing, Llc | Device quarantine in a wireless network |
CN110111780B (zh) * | 2018-01-31 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 数据处理方法和服务器 |
US11182565B2 (en) | 2018-02-23 | 2021-11-23 | Samsung Electronics Co., Ltd. | Method to learn personalized intents |
US11314940B2 (en) | 2018-05-22 | 2022-04-26 | Samsung Electronics Co., Ltd. | Cross domain personalized vocabulary learning in intelligent assistants |
CN110908667B (zh) * | 2019-11-18 | 2021-11-16 | 北京迈格威科技有限公司 | 神经网络联合编译的方法、装置和电子设备 |
CN111161739B (zh) * | 2019-12-28 | 2023-01-17 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
KR20240076977A (ko) * | 2022-11-24 | 2024-05-31 | 고려대학교 산학협력단 | 개체 유형 및 관계 정보에 대한 프롬프트 및 빈칸 추론을 이용한 대화 관계 추출 방법 및 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003280683A (ja) * | 2002-03-20 | 2003-10-02 | Toshiba Corp | 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置 |
JP2007264128A (ja) * | 2006-03-27 | 2007-10-11 | Toshiba Corp | 音声認識装置及びその方法 |
JP2009230068A (ja) * | 2008-03-25 | 2009-10-08 | Denso Corp | 音声認識装置及びナビゲーションシステム |
WO2013171481A2 (en) * | 2012-05-14 | 2013-11-21 | Touchtype Limited | Mechanism for synchronising devices, system and method |
Family Cites Families (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2631864B2 (ja) | 1988-06-13 | 1997-07-16 | 大成建設株式会社 | 偏平トンネルの施工方法 |
US5170499A (en) | 1989-03-06 | 1992-12-08 | Motorola, Inc. | Method and apparatus for adjusting the volume level of a radio |
DE69126983T2 (de) | 1991-08-19 | 1998-03-05 | Lernout & Hauspie Speechprod | Einrichtung zur mustererkennung mit einem kuenstlichen neuronalen netzwerk fuer kontextabhaengige modellierung |
US5233681A (en) | 1992-04-24 | 1993-08-03 | International Business Machines Corporation | Context-dependent speech recognizer using estimated next word context |
US6405132B1 (en) | 1997-10-22 | 2002-06-11 | Intelligent Technologies International, Inc. | Accident avoidance system |
US6167377A (en) | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
KR100241901B1 (ko) * | 1997-08-28 | 2000-02-01 | 윤종용 | 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법 |
ITTO980383A1 (it) | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
US20050091057A1 (en) | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US6647270B1 (en) | 1999-09-10 | 2003-11-11 | Richard B. Himmelstein | Vehicletalk |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6263308B1 (en) | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
WO2002003152A2 (en) | 2000-06-29 | 2002-01-10 | Aspen Technology, Inc. | Computer method and apparatus for constraining a non-linear approximator of an empirical process |
US6807536B2 (en) | 2000-11-16 | 2004-10-19 | Microsoft Corporation | Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices |
US6622136B2 (en) | 2001-02-16 | 2003-09-16 | Motorola, Inc. | Interactive tool for semi-automatic creation of a domain model |
US20050234727A1 (en) | 2001-07-03 | 2005-10-20 | Leo Chiu | Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response |
US6970947B2 (en) | 2001-07-18 | 2005-11-29 | International Business Machines Corporation | Method and apparatus for providing a flexible and scalable context service |
US20030149566A1 (en) | 2002-01-02 | 2003-08-07 | Esther Levin | System and method for a spoken language interface to a large database of changing records |
US7006972B2 (en) | 2002-03-20 | 2006-02-28 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more different corpora |
US7191119B2 (en) | 2002-05-07 | 2007-03-13 | International Business Machines Corporation | Integrated development tool for building a natural language understanding application |
US7548847B2 (en) | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7756531B2 (en) | 2002-09-04 | 2010-07-13 | Farhad John Aminzadeh | Method and apparatus for avoiding call disturbances and facilitating urgent calls based on a caller's decision |
US7274741B2 (en) * | 2002-11-01 | 2007-09-25 | Microsoft Corporation | Systems and methods for generating a comprehensive user attention model |
JP2004227468A (ja) | 2003-01-27 | 2004-08-12 | Canon Inc | 情報提供装置、情報提供方法 |
US20040176083A1 (en) | 2003-02-25 | 2004-09-09 | Motorola, Inc. | Method and system for reducing distractions of mobile device users |
US7366655B1 (en) | 2003-04-02 | 2008-04-29 | At&T Corp. | Method of generating a labeling guide for spoken dialog services |
US7835910B1 (en) | 2003-05-29 | 2010-11-16 | At&T Intellectual Property Ii, L.P. | Exploiting unlabeled utterances for spoken language understanding |
CA2473195C (en) * | 2003-07-29 | 2014-02-04 | Microsoft Corporation | Head mounted multi-sensory audio input system |
EP1654728A1 (en) | 2003-08-01 | 2006-05-10 | Philips Intellectual Property & Standards GmbH | Method for driving a dialog system |
US20050065789A1 (en) | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US7774196B2 (en) | 2003-10-01 | 2010-08-10 | Dictaphone Corporation | System and method for modifying a language model and post-processor information |
JP2005157494A (ja) | 2003-11-20 | 2005-06-16 | Aruze Corp | 会話制御装置及び会話制御方法 |
EP1687807B1 (en) | 2003-11-21 | 2016-03-16 | Nuance Communications, Inc. | Topic specific models for text formatting and speech recognition |
CN100539763C (zh) | 2003-11-27 | 2009-09-09 | 国际商业机器公司 | 控制来自移动车辆的无线通信的方法 |
JP4581441B2 (ja) * | 2004-03-18 | 2010-11-17 | パナソニック株式会社 | 家電機器システム、家電機器および音声認識方法 |
US8412521B2 (en) | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US7693713B2 (en) | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US8321220B1 (en) | 2005-11-30 | 2012-11-27 | At&T Intellectual Property Ii, L.P. | System and method of semi-supervised learning for spoken language understanding using semantic role labeling |
US20070128979A1 (en) | 2005-12-07 | 2007-06-07 | J. Shackelford Associates Llc. | Interactive Hi-Tech doll |
US7835911B2 (en) | 2005-12-30 | 2010-11-16 | Nuance Communications, Inc. | Method and system for automatically building natural language understanding models |
US7603330B2 (en) | 2006-02-01 | 2009-10-13 | Honda Motor Co., Ltd. | Meta learning for question classification |
DE102006006551B4 (de) | 2006-02-13 | 2008-09-11 | Siemens Ag | Verfahren und System zum Bereitstellen von Sprachdialoganwendungen sowie mobiles Endgerät |
IL174522A0 (en) | 2006-03-23 | 2006-08-01 | Jonathan Agmon | Method for predictive typing |
US7627536B2 (en) | 2006-06-13 | 2009-12-01 | Microsoft Corporation | Dynamic interaction menus from natural language representations |
US7716049B2 (en) | 2006-06-30 | 2010-05-11 | Nokia Corporation | Method, apparatus and computer program product for providing adaptive language model scaling |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008081543A1 (ja) | 2006-12-28 | 2008-07-10 | Fujitsu Limited | 携帯端末装置、その通話制御プログラム、その通話制御プログラムを格納した記録媒体、及びその通話制御方法 |
US7912700B2 (en) | 2007-02-08 | 2011-03-22 | Microsoft Corporation | Context based word prediction |
TW200836893A (en) | 2007-03-01 | 2008-09-16 | Benq Corp | Interactive home entertainment robot and method of controlling the same |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20070150428A1 (en) | 2007-03-20 | 2007-06-28 | Brandyn Webb | Inference engine for discovering features and making predictions using generalized incremental singular value decomposition |
JP2008233678A (ja) | 2007-03-22 | 2008-10-02 | Honda Motor Co Ltd | 音声対話装置、音声対話方法、及び音声対話用プログラム |
US8301757B2 (en) | 2007-06-11 | 2012-10-30 | Enghouse Interactive Inc. | System and method for obtaining in-use statistics for voice applications in interactive voice response systems |
US8275615B2 (en) | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
JP2009075582A (ja) * | 2007-08-29 | 2009-04-09 | Advanced Media Inc | 端末装置、言語モデル作成装置、および分散型音声認識システム |
CN101415039A (zh) | 2007-10-17 | 2009-04-22 | 宏达国际电子股份有限公司 | 通话管理方法 |
US8229729B2 (en) | 2008-03-25 | 2012-07-24 | International Business Machines Corporation | Machine translation in continuous space |
US8332394B2 (en) | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8412529B2 (en) | 2008-10-29 | 2013-04-02 | Verizon Patent And Licensing Inc. | Method and system for enhancing verbal communication sessions |
US20100114890A1 (en) | 2008-10-31 | 2010-05-06 | Purediscovery Corporation | System and Method for Discovering Latent Relationships in Data |
CN102272754B (zh) * | 2008-11-05 | 2015-04-01 | 谷歌公司 | 定制语言模型 |
RU2509350C2 (ru) | 2008-11-07 | 2014-03-10 | Матрокс Профешнл Инк | Способ семантической обработки естественного языка с использованием графического языка-посредника |
US20100128863A1 (en) | 2008-11-21 | 2010-05-27 | Robert Bosch Gmbh | Context aware voice communication proxy |
US8447608B1 (en) * | 2008-12-10 | 2013-05-21 | Adobe Systems Incorporated | Custom language models for audio content |
CA2751557A1 (en) | 2009-02-16 | 2010-08-19 | Comverse, Ltd. | Context-aware communications |
US8930179B2 (en) | 2009-06-04 | 2015-01-06 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
US9177557B2 (en) | 2009-07-07 | 2015-11-03 | General Motors Llc. | Singular value decomposition for improved voice recognition in presence of multi-talker background noise |
US8886641B2 (en) * | 2009-10-15 | 2014-11-11 | Yahoo! Inc. | Incorporating recency in network search using machine learning |
US8571866B2 (en) | 2009-10-23 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for improving speech recognition accuracy using textual context |
KR101622111B1 (ko) | 2009-12-11 | 2016-05-18 | 삼성전자 주식회사 | 대화 시스템 및 그의 대화 방법 |
US8315597B2 (en) | 2009-12-21 | 2012-11-20 | Julia Olincy | “I am driving/busy” automatic response system for mobile phones |
US8249627B2 (en) | 2009-12-21 | 2012-08-21 | Julia Olincy | “I am driving/busy” automatic response system for mobile phones |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US8400332B2 (en) | 2010-02-09 | 2013-03-19 | Ford Global Technologies, Llc | Emotive advisory system including time agent |
JP2012038239A (ja) | 2010-08-11 | 2012-02-23 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US8972253B2 (en) | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
FR2965377A1 (fr) * | 2010-09-24 | 2012-03-30 | Univ D Avignon Et Des Pays De Vaucluse | Procede de classification de donnees biometriques |
JP2012075047A (ja) | 2010-09-29 | 2012-04-12 | Toshiba Corp | Ip交換システム及びip交換装置 |
US8812321B2 (en) | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
JP5704692B2 (ja) * | 2010-11-30 | 2015-04-22 | 独立行政法人情報通信研究機構 | パターン分類装置の学習装置及びそのためのコンピュータプログラム |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
JP5861649B2 (ja) | 2011-02-03 | 2016-02-16 | 日本電気株式会社 | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム |
US9081760B2 (en) * | 2011-03-08 | 2015-07-14 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
US9679561B2 (en) * | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US8489529B2 (en) | 2011-03-31 | 2013-07-16 | Microsoft Corporation | Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization |
WO2012135157A2 (en) | 2011-03-31 | 2012-10-04 | Microsoft Corporation | Task driven user intents |
US8260615B1 (en) | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
US20120290293A1 (en) | 2011-05-13 | 2012-11-15 | Microsoft Corporation | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding |
US8918352B2 (en) | 2011-05-23 | 2014-12-23 | Microsoft Corporation | Learning processes for single hidden layer neural networks with linear output units |
US20130031476A1 (en) | 2011-07-25 | 2013-01-31 | Coin Emmett | Voice activated virtual assistant |
KR20130022513A (ko) | 2011-08-24 | 2013-03-07 | 한국전자통신연구원 | 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치 |
DE102012019178A1 (de) | 2011-09-30 | 2013-04-04 | Apple Inc. | Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten |
US8698621B2 (en) | 2011-11-22 | 2014-04-15 | Verizon Patent And Licensing Inc. | Method and system for providing notifications of a mobile device in motion to determine call treatment |
US9235799B2 (en) * | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
US9082402B2 (en) | 2011-12-08 | 2015-07-14 | Sri International | Generic virtual personal assistant platform |
US9324323B1 (en) * | 2012-01-13 | 2016-04-26 | Google Inc. | Speech recognition using topic-specific language models |
US9263040B2 (en) | 2012-01-17 | 2016-02-16 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance speech recognition |
JP2012128440A (ja) | 2012-02-06 | 2012-07-05 | Denso Corp | 音声対話装置 |
CN102609264A (zh) | 2012-02-14 | 2012-07-25 | 深圳市同洲视讯传媒有限公司 | 一种调用应用程序编程接口生成调用代码的方法及装置 |
WO2013149123A1 (en) * | 2012-03-30 | 2013-10-03 | The Ohio State University | Monaural speech filter |
US8346563B1 (en) | 2012-04-10 | 2013-01-01 | Artificial Solutions Ltd. | System and methods for delivering advanced natural language interaction applications |
US8600525B1 (en) | 2012-05-31 | 2013-12-03 | Honeywell Asca Inc. | Efficient quadratic programming (QP) solver for process control and optimization |
US9053708B2 (en) | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
US9424840B1 (en) | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
US10282419B2 (en) | 2012-12-12 | 2019-05-07 | Nuance Communications, Inc. | Multi-domain natural language processing architecture |
KR101559124B1 (ko) | 2013-02-28 | 2015-10-12 | 한양대학교 산학협력단 | 리튬황전지용 양극, 이를 포함하는 리튬황전지 및 이의 제조 방법 |
US9177550B2 (en) | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
CN103456299B (zh) * | 2013-08-01 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 一种控制语音识别的方法和装置 |
CN103400577B (zh) * | 2013-08-01 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
US9280968B2 (en) | 2013-10-04 | 2016-03-08 | At&T Intellectual Property I, L.P. | System and method of using neural transforms of robust audio features for speech processing |
US9721561B2 (en) | 2013-12-05 | 2017-08-01 | Nuance Communications, Inc. | Method and apparatus for speech recognition using neural networks with speaker adaptation |
US9373324B2 (en) | 2013-12-06 | 2016-06-21 | International Business Machines Corporation | Applying speaker adaption techniques to correlated features |
US9400955B2 (en) | 2013-12-13 | 2016-07-26 | Amazon Technologies, Inc. | Reducing dynamic range of low-rank decomposition matrices |
KR101937655B1 (ko) | 2013-12-31 | 2019-01-11 | 코오롱인더스트리 주식회사 | 복합 중공사막 및 그 제조방법 |
US10339920B2 (en) | 2014-03-04 | 2019-07-02 | Amazon Technologies, Inc. | Predicting pronunciation in speech recognition |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US20150325236A1 (en) | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Context specific language model scale factors |
-
2014
- 2014-03-27 US US14/227,492 patent/US9529794B2/en active Active
-
2015
- 2015-03-23 RU RU2016138130A patent/RU2689203C2/ru active
- 2015-03-23 CN CN201580016605.2A patent/CN106133826B/zh active Active
- 2015-03-23 MX MX2016012195A patent/MX2016012195A/es unknown
- 2015-03-23 KR KR1020167026586A patent/KR102315104B1/ko active IP Right Grant
- 2015-03-23 WO PCT/US2015/021921 patent/WO2015148333A1/en active Application Filing
- 2015-03-23 JP JP2016559328A patent/JP6571106B2/ja active Active
- 2015-03-23 EP EP15719880.5A patent/EP3123467B1/en active Active
- 2015-03-23 CA CA2940430A patent/CA2940430C/en active Active
- 2015-03-23 AU AU2015236417A patent/AU2015236417B2/en active Active
-
2016
- 2016-09-20 MX MX2021008012A patent/MX2021008012A/es unknown
- 2016-12-22 US US15/389,088 patent/US10497367B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003280683A (ja) * | 2002-03-20 | 2003-10-02 | Toshiba Corp | 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置 |
JP2007264128A (ja) * | 2006-03-27 | 2007-10-11 | Toshiba Corp | 音声認識装置及びその方法 |
JP2009230068A (ja) * | 2008-03-25 | 2009-10-08 | Denso Corp | 音声認識装置及びナビゲーションシステム |
WO2013171481A2 (en) * | 2012-05-14 | 2013-11-21 | Touchtype Limited | Mechanism for synchronising devices, system and method |
Also Published As
Publication number | Publication date |
---|---|
MX2016012195A (es) | 2017-01-05 |
AU2015236417A1 (en) | 2016-09-08 |
KR102315104B1 (ko) | 2021-10-19 |
KR20160138424A (ko) | 2016-12-05 |
MX2021008012A (es) | 2021-08-05 |
RU2689203C2 (ru) | 2019-05-24 |
RU2016138130A (ru) | 2018-04-27 |
WO2015148333A1 (en) | 2015-10-01 |
JP6571106B2 (ja) | 2019-09-04 |
AU2015236417B2 (en) | 2019-12-19 |
CA2940430C (en) | 2022-05-03 |
US20170103753A1 (en) | 2017-04-13 |
US20150278191A1 (en) | 2015-10-01 |
EP3123467B1 (en) | 2019-09-11 |
US9529794B2 (en) | 2016-12-27 |
CN106133826A (zh) | 2016-11-16 |
EP3123467A1 (en) | 2017-02-01 |
CA2940430A1 (en) | 2015-10-01 |
US10497367B2 (en) | 2019-12-03 |
JP2017515141A (ja) | 2017-06-08 |
RU2016138130A3 (zh) | 2018-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106133826B (zh) | 用于语言模型自定义的灵活模式 | |
US11012385B2 (en) | App powered extensibility of messages on an existing messaging service | |
EP3114680B1 (en) | Low-footprint adaptation and personalization for a deep neural network | |
US9942358B2 (en) | Recommending applications | |
CN107209781B (zh) | 使用自然语言的上下文搜索 | |
US9520127B2 (en) | Shared hidden layer combination for speech recognition systems | |
US20150325236A1 (en) | Context specific language model scale factors | |
CN105378708B (zh) | 环境感知对话策略和响应生成 | |
US9699298B2 (en) | Smart automatic composition of short messaging responses | |
US10592534B2 (en) | Automated aggregation of social contact groups | |
CN109313589B (zh) | 实现与外部功能的交互 | |
EP3036628A1 (en) | Application implemented context switching | |
EP3319328A1 (en) | Streaming service method and device | |
KR101532909B1 (ko) | 메신저 서비스의 첨부파일 관리 방법, 이를 위한 시스템 및 이를 위한 단말 장치 | |
KR20140018549A (ko) | 메신저 서비스의 첨부파일 관리 방법, 이를 위한 시스템, 이를 위한 단말기 및 이를 위한 서비스장치 | |
KR20150105560A (ko) | 메시지 전송 방법, 이를 위한 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |