CN107210040A - 语音功能的操作方法和支持该方法的电子设备 - Google Patents
语音功能的操作方法和支持该方法的电子设备 Download PDFInfo
- Publication number
- CN107210040A CN107210040A CN201680008892.7A CN201680008892A CN107210040A CN 107210040 A CN107210040 A CN 107210040A CN 201680008892 A CN201680008892 A CN 201680008892A CN 107210040 A CN107210040 A CN 107210040A
- Authority
- CN
- China
- Prior art keywords
- speech
- information
- speech information
- function
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000011017 operating method Methods 0.000 title claims description 7
- 230000006870 function Effects 0.000 claims description 253
- 238000012549 training Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 230000006386 memory function Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 44
- 230000005236 sound signal Effects 0.000 description 38
- 230000004048 modification Effects 0.000 description 22
- 238000012986 modification Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 21
- 238000013480 data collection Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000036299 sexual function Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Calculators And Similar Devices (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
提供了一种电子设备。所述电子设备包括:存储器,配置为存储用于语音识别的多条讲话信息的至少一部分;以及处理器,可操作地连接至所述存储器,其中所述处理器基于互相似性从所述多条讲话信息的至少一部分中选择说话者讲话信息,并且基于所述说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。
Description
技术领域
本公开涉及一种电子设备中的语音功能的操作。
背景技术
包括麦克风等的电子设备提供收集和识别用户的语音的功能。例如,近来的电子设备提供识别用户的语音并且输出与所识别的语音相对应的信息的功能。
发明内容
技术问题
同时,根据典型的语音功能,只识别所收集的语音的内容并且提供与所述内容相对应的服务。因此,典型电子设备的语音功能提供方法可以提供与输入语音的人无关的特定功能。
问题的解决方案
本发明一些实施例的目的在于,至少部分地解决、减轻或消除与现有技术相关联的问题和/或缺点中的至少一个。某些实施例目的在于提供下述优点中的至少一个优点。
根据本公开的一个方案,提供了一种电子设备。所述电子设备可以包括:存储器,用于存储用于语音识别的多条讲话信息的至少一部分;以及控制模块(或处理器),配置为基于所述多条讲话信息的至少一部分来产生语音识别信息,其中所述控制模块可以配置为基于互相似性从所述多条讲话信息的至少一部分中选择说话者讲话信息,并且可以配置为基于所述说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。应该理解的是说话者讲话信息是来自单个具体说话者(即人或用户)或者与其相对应的讲话信息。换句话说,所述控制模块可以配置为基于多条讲话信息之间的相似性,确定所述多条讲话信息来自于同一说话者或者与同一说话者相对应,并且选择所述多条讲话信息作为“说话者讲话信息”。
根据本公开的另一方面,提供了一种语音功能操作方法。所述语音功能操作方法可以包括:存储多条讲话信息的至少一部分用于语音识别;基于互相似性从所述多条讲话信息的至少一部分选择说话者讲话信息;以及基于所选择的说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。
所述方法还可以包括:收集与由所述个人化语音信息相对应的特定说话者输入的其他讲话信息;以及使用所述特定说话者的其他讲话信息来修改所述个人化语音信息的模型。
在特定实施例中,所述修改包括:从所述特定说话者输入的讲话信息中提取与在所述个人化语音信息中包括的已注册音素模型相对应的音素样本,并且使用所述音素样本来修改所注册的音素模型。
在特定实施例中,所述方法还包括:如果请求功能的新讲话信息不是与所述个人化语音信息相对应的特定说话者的讲话,则基于所述新讲话信息输出无法执行所述功能的消息;以及基于由所述新讲话信息请求的功能的类型来选择性地执行所述功能。
在特定实施例中,执行所述功能包括:如果所述功能是指定的安全功能,则不进行所述功能的执行;以及如果所述功能是未指定的非安全功能,则进行所述功能的执行。
在特定实施例中,所述方法还包括以下中的至少一个:响应于由基于个人化语音信息指定的说话者输入的讲话信息,输出用于设置要基于语音功能执行的至少一个功能项目的设置屏幕;或者输出所产生的语音识别信息。
特定实施例的目的在于当执行某个计算机或者设备交互时实现降低用户负担(例如,认知、实施、操作或者操作开销)的技术效果。
特定实施例的目的在于实现提供更有效的人机(用户-机器)接口的技术效果。
本发明的另一方面提供了一种包括指令的计算机程序,所述指令在被执行时被布置为实现根据上述方面中的任何一个方面的方法和/或装置。另一方面提供了存储这种程序的机器可读存储器。
有益效果
因此,本公开(即本发明)的一个方面是为了提供一种支持电子设备的语音功能的语音功能操作方法和支持该方法的电子设备,使得以取决于用户(即说话者)的方式操作语音功能。
本公开的另一个方面是为了提供一种基于输入的音频信号的类型来选择性地提供语音功能的语音功能操作方法和支持该方法的电子设备。
附图说明
根据以下结合附图的详细描述,本公开的这些和/或其他方面和优点将更加清楚并易于理解,在附图中相同的附图标记指示相同的元素,并且其中:
图1是示出了根据本公开各种示例实施例的示例个人化语音功能提供环境的图;
图2是示出了根据本公开各种示例实施例的支持语音功能的电子设备的示例的框图;
图3是示出了根据本公开各种示例实施例的控制模块的示例的框图;
图4是示出了根据本公开各种示例实施例的与取决于说话者的设置相关的示例候选组处理方法的图;
图5是示出了根据本公开各种示例实施例的示例个人化语音信息更新的图;
图6是示出了根据本公开各种示例实施例的在语音功能的操作期间的个人化语音的示例方法的流程图;
图7是示出了根据本公开各种示例实施例的示例个人化语音信息更新方法的流程图;
图8是示出了根据本公开各种示例实施例的与个人化语音功能的执行相关的屏幕界面的示例的图;
图9是示出了根据本公开各种示例实施例的与个人化语音信息的设置相关的屏幕界面的示例的图;
图10是示出了根据本公开各种示例实施例的电子设备的示例的框图;以及
图11是示出了根据本公开各种示例实施例的电子设备的另一个示例的框图。
具体实施方式
在下文中,将参照附图详细地描述本公开的各种示例实施例。然而,应当理解的是,本公开并不限于具体示例实施例,而是包括本公开各种示例实施例的各种修改、等同和/或替代。至于附图的描述,类似的附图标记可以表示类似的元件。
本文使用的术语“具有”、“可以具有”、“包括”、“可以包括”、“包含”等表示存在相应的特征(例如,数值、功能、操作或元件),但是不排除其他特征的存在。
术语“A或B”、“A或/和B中的至少一项”或“A或/和B中的一个或多个”可以包括所列出项目的所有可能组合。例如,术语“A或B”、“A和B中至少一项”或“A或B中至少一项”可以表示以下所有情形:(1)包括至少一个A,(2)包括至少一个B,以及(3)包括至少一个A和至少一个B。
本文中使用的诸如“第一”、“第二”等的术语可以修饰各种元件,而与顺序和/或重要性无关,并且不意图限制这些元件。例如,“第一用户设备”和“第二用户设备”可以表示不同的用户设备,而与顺序或优先级无关。例如,在不脱离本公开的范围的情况下,第一元件可以被称为第二元件,反之亦然。
应理解,当特定元件(例如,第一元件)被称为“操作地或者通信地耦接至”或者“连接至”另一元件(例如,第二元件)时,该特定元件可以直接耦接或连接至该另一元件,或者可以经由其它元件(例如第三元件)耦接或连接至该另一元件。然而,当特定元件(例如,第一元件)被称为“直接耦接至”或者“直接连接至”另一元件(例如,第二元件)时,在该元件和该另一元件之间不存在中间元件(例如,第三元件)。
术语“被配置(或设置)为”可以与术语例如“适合于”、“具有……的能力”、“被设计为”、“适于”、“使……”或者“能够……”互换使用。术语“被配置(或设置)为”可以不必须具有“被专门设计为”的意义。在一些示例中,术语“设备被配置为”可以表示该设备“可以”与其他设备或组件一起“执行”某些操作。例如,术语“处理器被配置(或设置)为执行A、B和C”可以表示用于执行相应操作的专用处理器(例如,嵌入式处理器)、处理电路,或者用于执行存储在存储器中的至少一个软件程序以执行相应操作的通用处理器(例如,CPU或应用处理器)。
本文使用的术语仅用于描述示例实施例,并且不意图限制其他实施例的范围。除非另有规定,否则单数形式的术语可以包括复数形式。本文使用的术语(包括技术或科学术语)具有与本领域技术人员所理解的意义相同的意义。在字典中定义的常用术语可以被解释为具有与在相关技术中定义的上下文意义相同或相似的意义,并且不应被解释为理想化或过于正式的含义,除非这样清楚地定义。本文中定义的术语不应被解释为排除本公开各种示例实施例。
在下文中,将参考附图来描述根据本公开的各种示例实施例的电子设备。这里使用的术语“用户”可以表示使用电子设备的人,或者可以表示使用电子设备的设备(例如,人造电子设备)。
图1是示出了根据本公开各种示例实施例的示例个人化语音功能提供环境的图。
参考图1,个人化语音功能提供环境可以提供电子设备的第一状态语音功能模块10s,用于相关于与讲话无关的设置,接收由多个说话者10a至10c输入的音频信号。例如,第一状态语音功能模块10s可以包括以下项中的至少一个:包括硬件电路在内的硬件模块、包括固件在内的固件模块、或者与在应用个人化语音功能之前提供语音功能相关的软件模块。说话者10a至10c的至少一个可以包括使用第一状态语音功能模块10s来输入语音(或者讲话信息)。
根据本公开各种示例实施例,第一状态语音功能模块10s可以基于说话者10a至10c输入的语音(或讲话信息)来执行语音命令功能(例如,识别所收集的语音、基于识别结果分析语音命令以及基于分析结果由电子设备输出信息或执行可用功能的功能)。关于这种操作,说话者10至10c可以例如使用在第一状态语音功能模块10s中包括的至少一个麦克风来输入语音(或者讲话或讲话信息)。
第一状态语音功能模块10s可以收集关于说话者10a至10c的候选数据(包括例如说话者讲话信息或每个说话者的讲话信息),而不会在没有应用个人化语音功能(例如,限制对每个说话者不同地指定的对电子设备的功能的使用的功能)的状态下执行说话者识别。可以基于指定的条件自动地执行候选数据收集操作。例如,可以在执行语音功能的同时自动地执行候选数据收集操作。另外,可以在执行麦克风激活操作的同时自动地执行候选数据收集操作。根据本公开的各种示例实施例,可以针对通过成功的语音识别而获得的数据来执行候选数据收集操作。
根据本公开的示例实施例,第一状态语音功能模块10s可以收集与第一说话者10a相关的第一候选数据11a。另外,第一状态语音功能模块10s可以收集与第二说话者10b相关的第二候选数据11b以及与第三说话者10c相关的第三候选数据11c。如果收集了至少指定数目的候选数据或者在指定的时间内完成了候选数据的收集,则第一状态语音功能模块10s可以执行语音功能个人化处理(或者语音识别功能个人化处理)。例如,第一状态语音功能模块10s可以分析多个候选数据,并且可以将包括与第一说话者10a相关的第一候选数据11a在内的说话者识别模型(包括例如语音识别信息或者语音识别模型信息)注册为个人化语音信息。因此,第一状态语音功能模块10s可以操作为(或者改变为)第二状态语音功能模块10p。第一状态语音功能模块10s可以本地地存储收集的候选数据(例如在其存储器中)。备选地,第一状态语音功能模块10s可以例如向指定的服务器设备提供所收集的候选数据。在向服务器设备发送所收集的候选数据的示例中,例如可以在服务器设备中执行训练候选数据的识别模型。
如果在执行语音识别功能的同时收集说话者的讲话信息,则第二状态语音识别模块10p可以分析所收集的讲话信息,并且可以将分析结果与注册的个人化语音信息进行比较。作为比较结果,如果确定了讲话信息对应于被注册为个人化语音信息的说话者识别模型,则第二状态语音功能模块10p可以处理与输入的讲话信息的分析结果相对应的功能的执行。如果比较结果表示例如输入的讲话信息是与注册为个人化语音信息(例如,第一说话者10a的讲话信息)的说话者识别模型不同的第二说话者10b或第三说话者10c的讲话信息,则第二状态语音功能模块10p可以不执行与讲话信息相对应的功能,或者可以基于指定策略执行受限的功能。当执行受限的功能时,第二状态语音功能模块10p可以输出功能执行不可用消息或者受限功能执行消息。如上所述,根据本公开各种示例实施例的个人化语音功能提供环境可以基于个人化语音信息的注册,以取决于说话者的方式来处理电子设备的功能的执行(例如,只将特定说话者的语音(或讲话信息)处理为有效信息,或者限制性地处理另一个说话者的语音(或讲话信息)。
图2是示出了根据本公开各种示例实施例的支持语音功能的电子设备的示例的框图。
参考图2,电子设备100可以包括例如通信接口(例如包括通信电路)110、存储器130、麦克风模块(例如包括麦克风或麦克风电路)140、显示器(例如包括显示面板和/或显示处理电路)150和控制模块(例如包括具有处理电路的处理器)160。
电子设备100可以使用麦克风模块140来收集候选数据,并且可以操作控制模块160以便处理候选数据,注册个人化语音信息(例如,特定的说话者识别模型),和/或应用个人化语音信息。基于这种处理,电子设备100可以处理支持取决于说话者的功能的个人化语音功能。
通信接口110可以处理电子设备100的通信功能。例如,通信接口110可以针对电子设备100的呼叫功能、视频呼叫功能等建立到服务器设备等的通信信道。为此,通信接口110可以包括支持诸如2G、3G、4G、LTE、5G等的各种通信标准的至少一个通信模块或通信芯片/电路。另外,通信接口110可以包括覆盖单一频带或多频带的至少一个天线。根据本公开的各种示例实施例,通信接口110可以针对电子设备100的数据传输功能或呼叫功能,建立到另一个电子设备的短距离通信信道。
根据本公开的示例实施例,通信接口110可以与语音功能相关联地操作。例如,通信接口110可以针对诸如呼叫功能或基于语音识别的消息发送/接收功能之类的语音功能,建立通信信道。另外,针对语音命令功能,通信接口110可以建立用于分析语音(或讲话信息)的到服务器设备的通信信道,并且基于分析的结果提供信息。
根据本公开的各种示例实施例,通信接口110可以针对个人化语音功能的应用被限制性地操作。例如,可以基于与注册为个人化语音信息的说话者识别模型相对应地输入的讲话信息来启用通信接口110。备选地,通信接口110可以响应于从特定识别的说话者输入的讲话信息,建立到指定的服务器设备(例如用于管理经济信息、股票信息或特定信息的web服务器设备)的通信信道。
存储器130可以存储与电子设备100的操作有关的各种信息。例如,存储器130可以存储操作电子设备100所要求的操作***、与支持用户功能相关的至少一个程序等。根据本公开的示例实施例,存储器130可以存储用于支持个人化语音功能的个人化语音程序。另外,存储器130可以存储与个人化语音程序的操作相关的语音数据信息131和个人化语音信息133。
语音数据信息131可以包括从至少一个说话者输入的语音信号(例如,讲话信息)或者当启用麦克风模块140时收集的音频信号。根据本公开的示例实施例,可以将已经去除了噪声或者除了人语音频带之外的频带的多条讲话信息存储为语音数据信息131的候选数据。根据本公开的示例实施例,语音数据信息131可以包括多条讲话信息作为多个候选数据,其中所述多条讲话信息的讲话间隔具有至少指定时间的长度。另外,语音数据信息131可以包括指定数目的讲话信息作为候选数据,或者可以包括在指定时间内收集的多条讲话信息作为候选数据。例如,当针对语音功能的执行启用麦克风模块140时,可以自动地执行收集语音数据信息131的功能。另外,可以在完成收集语音数据信息131时自动地结束这一功能。根据本公开的各种示例实施例,如果指定的语音识别成功,则自动地执行收集语音数据信息131的功能,并且在完成收集之后或者在经过指定的时间之后立即自动地结束收集语音数据信息的功能。
个人化语音信息133可以与通过指定的算法或处理应用于语音数据信息131而选择的候选数据相关。例如,个人化语音信息133可以是根据语音数据信息131中包括的多个候选数据中的与特定说话者相关的候选数据(例如,在语音数据信息131中具有相对较多数目的候选数据)而产生的说话者识别模型。备选地,个人化语音信息133可以是通过对与特定说话者相关的候选数据进行建模而获得的候选模型。备选地,个人化语音信息133可以是特定说话者的候选数据、通过将从每一个候选数据检测的音频特征进行组合而获得的信息、或者包括所述音频特征在内的说话者识别模型中的任一个。
根据本公开的示例实施例,个人化语音信息133可以包括的至少一个音素模型(例如,通过用诸如h、ai、g、ae、l、ax、k、s、iy之类的音素划分讲话信息而获得的信号或信息),所述音素模型构成通过特定说话者说出讲话参考信息(例如,可读的指定信息,例如“highgalaxy(大银河)”的词语或数字)而获得的讲话信息(例如,通过由特定说话者说出例如“high galaxy”的讲话参考信息而获得的信号或信息)。另外,即使说话者说出相同的讲话参考信息,取决于说话者的喉咙状态或者环境,可以相对于同一音素模型(例如,通过用例如hi、ga、lax、sy等的音素来划分讲话参考信息而获得的信息)来获得各种形式的不同音素模型(例如,相对于诸如“ha”之类的同一音素模型具有不同音高、音调或音色的音素信号或信息)。例如,可以将“h-a”或“h-ai”收集为与参考音素“hi”相对应的音素模型。这里,可以将“h-a”或“h-ai”收集为针对每一种情况具有各种音高、音调或音色的不同音素模型。如上所述,个人化语音信息133可以包括在通过说出特定讲话参考信息(例如,至少一个指定的词语、短语、分句、句子等)而获得的讲话信息中包括的至少一个音素模型,使得相对于一个参考音素,可以关联针对每一种情况的一个或多个音素模型或可以表示一个参考音素。
麦克风模块140可以包括至少一个麦克风。在设置了一个麦克风的情况下,麦克风模块140可以响应于控制模块160的控制来启用麦克风,并且可以通过启用的麦克风将所收集的音频信号传输至控制模块160。备选地,麦克风模块140可以保持在接通状态,并且可以响应于控制模块160的控制,在向电子设备100被供电或者控制模块160***作的同时收集音频信号。根据本公开各种示例实施例,麦克风模块140可以包括多个麦克风。例如当收集到与语音数据信息131相对应的候选数据时,可以自动地启用麦克风模块140。例如,如果电子设备100处于接通状态,则电子设备100可以通过在指定时间内或者在满足指定数目的候选数据之前自动地启用麦克风模块140来收集候选数据,从而收集与候选数据相对应的讲话信息。备选地,如果启用了麦克风模块140(例如,当执行语音功能时启用),则电子设备100可以确定是否要求收集候选数据以便自动地收集讲话信息。
显示器150可以输出与电子设备100的操作相关的各种屏幕。例如,显示器150可以输出锁定屏幕、菜单屏幕、主页屏幕、布置有至少一个图标的屏幕、输出背景图像的屏幕、特定功能执行屏幕等。根据本公开的示例实施例,存储器150可以输出与语音功能的执行相关的屏幕。例如,显示器150可以响应于相应应用的执行,输出与语音命令功能的执行相关的屏幕、与语音记录功能的执行相关的屏幕、与语音呼叫功能的执行相关的屏幕、与语音识别功能的执行相关的屏幕等。
另外,显示器150可以输出与个人化语音功能的操作相关的至少一个信息(例如,文本、图像等)。例如,显示器150可以输出与个人化语音功能的设置相关的图标、菜单、指示符或者指南文本中的至少一个。另外,显示器150可以输出用于通知个人化语音功能的应用的消息、文本、指示符等。此外,显示器150可以响应于用户输入的控制来输出个人化语音功能设置屏幕。附加地或备选地,电子设备100还可以包括诸如扬声器、振动模块、灯等的各种信息输出单元。信息输出单元可以使用音频、至少一个指定的振动模式或者至少一个指定的闪烁模式来输出与个人化语音功能的操作相关的各种信息。
控制模块160可以配置为执行与电子设备100的操作相关的信号流控制、信号处理控制和信息处理。例如,控制模块160可以配置为控制个人化语音功能的设置(例如,设置用于收集注册个人化语音信息133的语音数据信息131)。控制模块160可以配置为在完成收集语音数据信息131时,处理个人化语音信息133的提取和注册。控制模块160可以配置为基于注册的个人化语音信息133来处理个人化语音功能的应用。基于上述控制,控制模块160可以配置为允许响应于从特定说话者输入的讲话信息来应用指定的语音功能,或者可以可以响应于从非特定说话者输入的讲话信息来限制语音功能(例如,只允许访问所述功能的一部分或者防止执行所述功能)。
图3是示出了根据本公开各种示例实施例的控制模块的示例的框图。
参考图3,控制模块160可以包括麦克风控制模块161、语音数据收集模块163、信息处理模块165和信息更新模块167。例如,前述模块的每一个可以由处理器来实现,所述处理器包括配置为执行各种模块的操作的处理电路。
麦克风控制模块161可以配置为控制麦克风140的启用和音频信号收集。例如,如果电子设备100处于接通状态,则麦克风控制模块161可以基于设置来保持麦克风模块140的接通状态(例如,始终接通状态)。在麦克风模块140中包括多个麦克风的情况下,麦克风模块161可以控制麦克风的操作。
根据本公开的示例实施例,如果从麦克风模块140收集音频信号,则麦克风控制模块161可以将收集的音频信号传输至语音数据收集模块163。在这种操作中,例如,如果所收集的音频信号是人类语音频带的信号(或者讲话信息),则麦克风控制模块161可以将收集的音频信号传输至语音数据收集模块163,或者例如如果收集的音频信号具有所述语音频带之外的频率,则可以将收集的音频信号处理为噪声(或者忽略)。备选地,麦克风控制模块161可以与所收集的音频信号的频带无关地将所收集的音频信号传输至语音数据收集模块163。根据本公开的各种示例实施例,麦克风控制模块161可以只将来自已经成功识别了语音的数据传输至语音数据收集模块163。
麦克风控制模块161可以配置为当启用麦克风模块140时,控制自动地执行收集与个人化语音功能的设置相关的候选数据。例如,如果启用了麦克风模块140以便执行语音呼叫功能、语音命令功能、语音识别功能、语音记录功能等,则麦克风控制模块161可以确定是否注册了个人化语音信息133。如果没有注册个人化语音信息133,则麦克风控制模块161可以自动地收集讲话信息以用作语音数据信息131,并且可以将讲话信息传输至语音数据收集模块163。如果注册了个人化语音信息133,则麦克风控制模块161可以配置为自动终止收集要用作语音数据信息131的讲话信息。
在麦克风控制模块161提供与音频信号频带无关的音频信号的示例中,语音数据收集模块163可以例如分析是否已经根据人的讲话产生了音频信号。另外,语音数据收集模块163可以收集与语音频带相对应的讲话信息作为初级候选组信息。在麦克风控制模块161配置为传输讲话信息的示例中,可以跳过语音数据收集模块163的讲话信息分类操作。
语音数据收集模块163可以配置为将初级候选组中的满足指定条件的初级候选数据分类为语音数据信息131的候选数据。例如,语音数据收集模块163可以只将长度(例如,讲话时间)至少是指定长度的初级候选数据分类为语音数据信息131的候选数据。另外,语音数据收集模块163可以例如只将与指定的讲话参考信息相关的初级候选数据分类为候选数据。
根据本公开的各种示例实施例,语音数据收集模块163可以指定候选数据的数目或与语音数据信息131的收集相关的时间。例如,语音数据收集模块163可以配置为在特定事件发生之后(例如,在电子设备100分配了指定的个人信息(例如,由服务提供商提供的个人电话号码)之后,或者在电子设备100首次接入指定的基站之后)的指定时间内收集语音数据信息131。备选地,如果语音时间收集模块163在关断指定的时间之后被接通,则语音数据收集模块163可以配置为在指定时间内收集语音数据信息131。备选地,语音数据收集模块163可以配置为在开始个人化语音功能的设置之后收集语音数据信息131,直到收集了指定数目的候选数据。可以基于个人化语音功能策略的设置来改变候选数据的数目,或者可以通过用户的设置来改变候选数据的数目。语音数据收集模块163可以向信息处理模块165提供包括指定数目的候选数据或者在指定时间内收集的候选数据在内的语音数据信息131。
信息处理模块165可以配置为从语音数据信息131选择个人化语音信息133。例如,信息处理模块165可以从语音数据信息131中选择任意候选数据,并且可以在所选择的候选数据和另一个候选数据之间执行语音特征(例如,每一个说话者的唯一语音特征,例如音色)比较。信息处理模块165可以通过执行特征比较对候选数据进行分类(例如,通过聚簇进行分类)。例如,可以使用诸如矢量量化之类的无监督学习方法。信息处理模块165可以从已分类的候选数据中选择数目相对较大的候选数据。例如,可以从最初收集的候选数据、最后收集的候选数据以及在指定的某个时隙中收集的候选数据中选择任意候选数据。
信息处理模块165可以配置为将所选择的候选数据注册为个人化语音信息133。在这种操作中,信息处理模块165可以提供与是否注册个人化语音信息133有关的指南,并且例如可以请求用户许可。例如,信息处理模块165可以提供弹出窗口,所述弹出窗口提供与是否将指定的候选数据注册为个人化语音信息133的询问,并且可以基于用户的确认来处理个人化语音信息133的注册。信息处理模块165可以配置为输出与候选数据的收集时间有关的输出时间信息或者与候选数据一起输出的候选数据的语音识别信息,以便区分候选数据。
当执行诸如语音命令功能之类的指定语音功能时,信息处理模块165可以配置为基于所收集的讲话信息和注册的个人化语音信息133来执行说话者识别。信息处理模块165可以配置为基于说话者识别的结果来区分要执行的功能。例如,在收集到在个人化语音信息133中注册的说话者的讲话信息的情况下,信息处理模块165可以执行响应于讲话信息识别而执行的功能。备选地,在收集到没有在个人化语音信息133中注册的说话者的讲话信息的情况下,信息处理模块165可以通知不能执行与讲话信息相对应的信息输出或功能执行。
信息处理模块165可以配置为在基于语音数据信息131中包括的数据执行建模的同时执行多条件训练。与这种操作相关地,信息处理模块165可以处理用于在语音数据信息131中包括的数据的各种效果。例如,信息处理模块165可以向在语音数据信息131中包括的数据施加指定的声音效果,并且可以基于所述声音效果产生候选数据,或者可以产生组合了指定噪声的候选数据。信息处理模块165可以通过将多条件训练的候选数据(例如,添加了指定声音效果的数据或者添加了噪声的数据)与其他语音数据信息131中包括的数据一起应用,来提取要被注册为个人化语音信息133的说话者模型。根据本公开的各种示例实施例,信息处理模块165可以产生与例如对语音数据信息131中包括的候选数据进行聚簇之后具有相对较大数目的候选数据的簇中包括的候选数据相关的多条件训练模型。另外,信息处理模块165可以配置为将基于例如在特定说话者的簇中包括的候选数据而产生的多条件训练模型用于确定说话者识别模型。
信息处理模块165可以在针对语音数据信息131中包括的候选数据的说话者建模过程期间使用通用背景模型(UBM)。UBM信息可以包括基于各种人的讲话信息的特征而产生的统计模型。可以在计算语音数据信息131中指定的说话者的说话者识别模型的处理期间,基于非说话者数据来产生所述UBM信息。例如,非说话者数据可以基于上述聚簇方法与说话者数据相区分。
信息更新模块167可以配置为处理个人化语音信息133的改变、修改或增强。与这种操作相关地,信息更新模块167可以从麦克风控制模块161请求和接收由麦克风模块140收集的音频信号,并且可以提取个人化语音信息133要被修改的信息。例如,信息更新模块167可以检查所收集的音频信号是否包括用户的讲话信息(包括与语音功能相关的唤醒音频信号或语音命令音频信号的至少一个)。在所收集的音频信号中包括讲话信息的示例中,信息更新模块167可以检查在所收集的讲话信息中是否包括与在指定的个人语音信息中包括的音素模型相对应的音素。在这种操作中,信息更新模块167可以通过对所收集的讲话信息执行语音识别来收集与个人化语音信息133中包括的音素模型相对应的新音素样本,并且可以基于所收集的音素样本来执行音素模型训练。另外,信息更新模块167可以根据音素模型训练来执行个人化语音信息133的音素模型的增强(或者修改等)。
信息更新模块167可以检查使用所收集的讲话信息修改的个人化语音信息133的修改比率(或者修改程度或增强比率)。例如,信息更新模块167可以确定经由新收集的讲话信息对个人化语音信息133的信息更新的频率等于还是大于指定值。如果新收集的讲话信息是已经获得的讲话信息,则可以不发生额外的更新。如果更新频率为高(例如,收集的一定数目的讲话信息中用于更新的讲话信息的数目至少是指定值),则信息更新模块167可以确定所述修改比率为高,或者如果更新频率为低,则信息更新模块167可以确定所述修改比率为低并且可以终止个人化语音信息133的修改。
当针对个人化语音信息133的修改而启用麦克风模块140时,信息更新模块167可以自动地收集讲话信息。如果修改个人化语音信息133的功能结束(例如,修改比率等于或小于指定的条件),则信息更新模块167可以自动地结束与个人化语音信息133的修改相关的讲话信息的收集。信息更新模块167可以配置为针对与修改相关的讲话信息收集的开始或自动结束,通过显示器150输出指定的信息。
图4是示出了根据本公开各种示例实施例的与取决于说话者的设置相关的示例候选组处理方法的图。
参考图4,电子设备100可以收集指定数目的语音数据信息131,或者可以在指定时间内收集语音数据信息131。所收集的语音数据信息131可以包括例如与三个说话者说出的候选数据相对应的讲话信息401a至401c。如果完成了讲话信息401a至401c的收集,则电子设备100可以对讲话信息401a至401c进行分类。
与这种操作相关地,电子设备100可以基于指定的条件,从所收集的讲话信息401a至401c中选择任意一条讲话信息401。如果选择了任意讲话信息401,则电子设备100可以将所述任意讲话信息401转换为第一临时模型460a。如果产生了第一临时模型460a,则电子设备100可以将第一临时模型460a与讲话信息401a至401c相比较,并且可以向讲话信息401a至401c的每一个分配分数。例如,电子设备100可以向类似于第一临时模型460a的讲话信息分配低分数,并且可以向与第一临时模块460a不具有相似性的讲话信息分配高分数。电子设备100可以按照分数的顺序对讲话信息401a至401c分类。
另外,电子设备100可以按照图4中心所示分数的顺序对讲话信息401a至401c聚簇。如图4所示,可以将由第一说话者说出的第一讲话信息401a中的三个数据和第二说话者说出的第二讲话信息40ab中的一个数据聚簇为一组。另外,可以将第一说话者说出的聚簇第一讲话信息401a、第二讲话信息401b和第三讲话信息40ac中的一条信息分别为单独的组。
电子设备100可以使用与具有低分数的讲话信息聚簇的信息403来检测临时模型460b。另外,电子设备100可以将讲话信息401a至401c与基于聚簇的信息403而产生的第二临时模型460b进行比较。因此,如图4所示,第一讲话信息401a获得最低的分数(或者大于或大于指定阈值的分数),并且第二讲话信息401b和第三讲话信息401c获得相对较高的分数(或者等于或小于指定阈值的分数)。电子设备100可以重复执行基于分数的聚簇,从而获得包括第一讲话信息401a在内的簇、包括第二讲话信息401b在内的簇以及包括第三讲话信息401c在内的簇,如图4所示。基于以上结果,电子设备100可以将包括第一讲话信息401a在内的簇注册为个人化语音信息133。
图5是示出了根据本公开各种示例实施例的示例个人化语音信息更新的图。
参考图5,指定扬声器的个人化语音信息133可以是与讲话参考信息“Hi Galaxy”相对应的音频信息。在该示例中,如上所述,个人化语音信息133可以包括针对如图5所示的“h-ai-g-ae-l-ax-k-s-iy”的每一个的音素模型。根据本公开的示例实施例,个人化语音信息133可以包括例如“ha”注册音素模型501作为音素模型。另外,个人化语音信息133可以包括与当说话者说出“hi Galaxy”时的相应注册音素模型501相关的注册频率模型510。
电子设备100可以基于指定的条件来启用麦克风模块140。如图5所示,麦克风140可以收集通过特定说话者说出讲话参考信息(例如“How’s the weather?”)而获得的音频信息。在该示例中,电子设备100可以提取针对所述讲话参考信息的音素模型“h-aw-s-th-ax-w-eh-th-er”。电子设备100可以从所提取的音素模型中提取相同的“ha”的新音素模型503。另外,电子设备100可以收集与新音素模型503相对应的新频率模型530。
响应于相同的音素模型“ha”,电子设备100可以将新音素模型503和新频率模型530与注册音素模型501和注册频率模型510相关联地存储,或者可以集成和存储前述模型和频率作为一个音素模型组。如上所述,电子设备100可以从特定说话者说出的讲话信息中提取音素模型和频率模型,以便扩展已注册的个人化语音信息133的模型组。基于这种扩展的模型组,即使说话者在各种情况下说出讲话参考信息,电子设备100也可以更精确地识别被注册为个人化语音信息133的指定语音参考信息。
如上所述,根据本公开的各种示例实施例,根据本公开示例实施例的电子设备可以包括:存储器,用于存储用于语音识别的多条讲话信息的至少一部分;以及控制模块,用于基于所述多条讲话信息的至少一部分来产生语音识别信息,其中所述控制模块可以基于互相似性从所述多条讲话信息的至少一部分中选择说话者讲话信息,并且可以基于所述说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。
根据本公开的各种示例实施例,所述控制模块可以配置为使得输出将语音识别信息应用于语音识别的消息。
根据本公开的各种示例实施例,所述控制模块可以配置为在指定的时间内收集讲话信息,或者收集讲话信息直到满足指定数目的讲话信息。
根据本公开的各种示例实施例,所述控制模块可以配置为产生所述多条讲话信息的多条件训练模型,并且可以使用多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
根据本公开的各种示例实施例,所述控制模块可以配置为产生说话者讲话信息的多条件训练模型,并且可以使用多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
根据本公开的各种示例实施例,所述控制模块可以配置为收集从与个人化语音信息相对应的特定说话者输入的其他讲话信息,并且修改个人化语音信息的模型。
根据本公开的各种示例实施例,所述控制模块可以配置为从特定说话者输入的讲话信息中提取与在个人化语音信息中包括的已注册音素模型相对应的音素样本,并且将所述音素样本用于修改已注册的音素模型。
根据本公开的各种示例实施例,在新输入的新讲话信息不是与个人化语音信息相对应的特定说话者的讲话时,控制模块可以配置为输出基于新讲话信息的功能执行不可用的消息,或者可以基于新讲话信息请求的功能的类型来选择性地控制所述功能的执行。
根据本公开的各种示例实施例,所述控制模块可以配置为如果所述功能是指定的安全功能则不执行所述功能,如果所述功能是非指定的非安全功能则执行所述功能。
根据本公开的各种示例实施例,所述控制模块可以配置为响应于由基于个人化语音信息而指定的说话者输入的讲话信息,输出用于设置要基于语音功能执行的至少一个功能项目的设置屏幕。
如上所述,根据本公开的各种示例实施例,根据本公开的各种示例实施例的电子设备可以包括:存储器,用于存储包括讲话信息在内的语音数据作为候选数据;以及控制模块,配置为从所述候选数据中选择一条与说话者相关的信息,其中所述控制模块可以配置为基于互相似性将所述候选数据聚簇,并且基于数目相对较大的具有相同相似性的候选数据,将指定的个人化语音信息注册为用于基于是否输入了指定讲话信息而限制功能的执行。
图6是示出了根据本公开各种示例实施例的在语音功能的操作期间的个人化语音的示例方法的流程图。
参考图6,在操作601中,如果发生事件,则电子设备100的控制模块160可以配置为确定所述事件是否与个人化语音功能的设置相关。例如,控制模块160可以配置为确定所述事件是用于执行针对个人化语音的指定功能,还是与个人化语音功能的自动执行相关,亦或是用于执行诸如语音识别功能之类的指定功能。
如果所述事件与个人化语音功能的设置不相关,则所述控制模块160可以配置为基于在操作603中发生的事件的类型来控制功能的执行。例如,控制模块160可以检查所述事件的类型,并且可以基于所述事件的类型来处理音乐文件的回放、指定文件的传输、呼叫功能的执行或者web接入功能的执行。
如果所述事件与个人化语音功能的设置相关,则控制模块160可以在操作605中收集候选数据作为语音数据信息131。与这种操作相关地,控制模块160可以在电子设备100处于接通状态的情况下或者在指定时间处启用麦克风140。控制模块160可以在指定的时间段或者实时地或者当发生具有指定强度或更高强度的音频信号时,收集指定数目的候选数据。根据本公开的示例实施例,控制模块160可以配置为执行候选组收集操作,直到候选数据的数目达到指定数目。根据本公开的示例实施例,控制模块160可以配置为在电子设备100被购买之后自动地将麦克风模块140启用指定的时间(例如,一小时、一天、一周、一月等),以便收集候选数据。备选地,控制模块160可以配置为收集候选数据直到收集到指定数目的候选数据、或者在指定的时间内、当操作语音功能(例如,呼叫功能、语音识别功能、记录功能)时,收集候选数据。
在操作607,控制模块160可以配置为处理语音数据信息131,并且可以提取个人化语音信息133。例如,控制模块160可以配置为通过对所收集的语音数据信息131与临时模型进行比较、并且对所收集的语音数据信息131进行聚簇,来提取包括由同一说话者说出的候选数据在内的簇。控制模块160可以配置为对所提取的簇的数据进行比较以便提取具有较大数目数据的簇中的候选数据,并且将所提取的候选数据注册为个人化语音信息133。
在操作609,控制模块160可以配置为处理个人化语音信息的应用。如果注册了个人化语音信息133,则控制模块160可以配置为将随后输入的说话者讲话信息与个人化语音信息133的数据进行比较,以检查它们之间的相似性。另外,如果所述相似性满足指定的条件(例如,相似程度等于或大于指定的值),则控制模块160可以将输入的讲话信息识别为特定说话者的讲话信息。如果确定输入的讲话信息是特定说话者的讲话信息,则控制模块160可以配置为针对所述讲话信息控制语音功能。例如,控制模块160可以对所述讲话信息执行语音识别,并且可以基于语音识别结果来控制指定功能的执行。备选地,控制模块160可以支持相对于语音识别结果对电子设备100的内部信息的检索和输出、或者关于语音识别结果使用外部服务器设备来进行信息的检索和输出中的至少一个。
如果输入的讲话信息不是特定说话者的讲话信息,则控制模块160可以配置为输出用于通知输入讲话信息的说话者不是特定说话者的指南文本,或者可以根据用户的设置或者设置策略来支持指定功能的执行。例如,控制模块160可以使用外部服务器设备执行与对讲话信息进行语音识别的结果相关的信息的检索和输出。备选地,在输入讲话信息的说话者不是特定说话者的情况下,控制模块160可以配置为基于用户的设置或策略来检查要通过讲话信息执行的功能的类型或信息的类型,并且可以限制性地或者选择性地执行功能执行或者信息输出。
图7是示出了根据本公开各种示例实施例的示例个人化语音信息更新方法的流程图。
参考图7,在操作701,控制模块160可以配置为确定当前是否正在执行个人化语音功能,或者已经发生的事件是否与个人化语音功能的执行相关。如果当前没有执行个人化语音功能或者没有发生相关的事件,则在操作703,控制模块160可以支持指定功能的执行或者指定状态的控制。例如,控制模块160可以根据事件的类型支持相机功能或音乐播放功能。备选地,控制模块160可以保持睡眠状态。
如果存在与个人化语音信息的执行相关的设置(例如,用于自动支持始终接通状态的设置)或者如果发生事件(例如,与个人化语音功能相关地请求启用麦克风模块140的事件),则在操作705,控制模块160可以配置为收集修改(或增强)信息。例如,控制模块160可以配置为启用麦克风模块140,并且可以收集具有指定长度或更长长度的讲话信息或者与指定的讲话参考信息相对应的讲话信息。
在操作707,控制模块160可以配置为执行个人化语音信息修改。根据本公开的示例实施例,控制模块160可以配置为从由特定说话者说出的各种信息收集音素模型,并且可以将所收集的模型与具有与在个人化语音信息133中注册的音素模型相同的参考音素的音素模型相关联地集成和存储。备选地,控制模块160可以配置为只收集与指定的讲话参考信息相对应的讲话信息,并且可以通过将音素模型集成到一个模型组中来管理与所收集的讲话信息中的相同参考音素相对应的音素模型。
在操作709,控制模块160可以确定修改比率(或者修改程度或者增强比率)是否满足指定的条件。例如,控制模块160可以配置为检查所收集的讲话信息中的音素模型和正在管理的音素模型之间的相似程度,以及基于相似程度的信息更新比率,并且可以基于更新比率或更新频率来指定修改比率。如果修改比率不满足指定的条件,则所述过程可以返回到操作701,使得控制模块160可以重新执行操作701和后续操作。如果修改比率满足指定的条件,则控制模块160可以结束个人化语音信息修改功能。
图8是示出了根据本公开各种示例实施例的与个人化语音功能的执行相关的屏幕界面的示例的图。
参考图8,电子设备100的控制模块160可以配置为向显示器150输出与语音功能(例如,语音命令功能)的激活相对应的屏幕,如屏幕801所示。在这种操作中,如果当前没有应用个人化功能,则控制模块160可以输出指南消息811,用于提供正在设置个人化功能的通知。指南消息811可以包括文本或图像中的至少一个,用于通知正在针对个人化语音功能的设置收集候选组信息。可以基于设置或者用户输入来跳过指南消息811的输出。备选地,如图8所示,控制模块160可以向指定的区域(例如指示符区域)输出第一指示符810,用于通知正在设置个人化功能。
如果在设置个人化功能的同时输入特定的音频信号,则控制模块160可以配置为通过检查音频信号的频带来确定所收集的音频信号是否是与语音相对应的讲话信息。如果音频信号是讲话信息,则控制模块160可以收集所述音频信号作为语音数据信息131。备选地,即使音频信号是讲话信息,控制模块160还可以确定是否满足指定的条件(例如,具有至少特定长度的讲话信息或者与指定的讲话参考信息相对应的讲话信息)。控制模块160可以配置为在收集满足指定条件的讲话信息作为语音数据信息131。根据本公开的各种示例实施例,控制模块160可以收集音频信号作为语音数据信息131,或者可以收集信号存在状态保持至少特定长度的音频信号作为语音数据信息131。另外,如果收集了指定量或者指定时间的语音数据信息131,则控制模块160可以相对于讲话信息的划分或者与讲话参考信息相对应地评估所收集的语音数据信息131。
如果因为完成了用于执行个人化语音功能的语音数据信息131的收集和处理而注册了个人化语音信息133,则控制模块160可以输出如屏幕803所示的指南消息831,用于通知正在应用个人化功能。指南消息831可以包括对正在应用的个人化语音功能加以表示的文本或图像的至少一个。可以基于设置或者用户控制输入来跳过指南消息831的输出。备选地,控制模块160可以向指定的区域(例如指示符区域)输出第二指示符830,用于通知正在应用个人化语音功能。
控制模块160可以配置为在指定的时间内获得足够的语音样本或者在获得了指定数目或指定量的足够语音样本之后,执行语音建模的训练。如果例如在训练结果产生了指定量(例如,等于或大于指定的样本数量或者指定的可靠性)之后而获得足够的说话者识别性能,则控制模块160可以向用户提供建议或者选择消息,用于引导用户使用个人化语音识别功能。在这种操作中,控制模块160可以请求用户对于更新模型的许可(例如,根据弹出消息输出进行确认)。
如果在应用个人化功能的同时输入音频信号,则控制模块160可以分析输入的音频信号。基于音频信号分析的结果,控制模块160可以支持功能执行或者限制性功能执行。例如,如果收集到第一语音命令820,则控制模块160可以分析第一语音命令820,并且可以将第一语音命令分类为针对非安全功能执行的请求。根据本公开的示例实施例,在所分析的第一语音命令820包括非指定词语(例如,天气、新闻、公交信息等)的情况下,控制模块160可以将第一语音命令820分类为针对非安全功能执行的请求。备选地,在第一语音命令820不包括指定的词语(例如,花费、卡、邮件、消息、呼叫历史等)的情况下,控制模块160可以将第一语音命令820分类为针对安全功能执行的请求。备选地,控制模块160可以确定要由第一语音命令820执行的应用的类型是安全功能还是非安全功能。与这种操作相关地,电子设备100可以包括与每一种应用类型的安全功能或非安全功能有关的分类信息。
如果收集到针对非安全功能或者没有被用户指定为取决于说话者的功能的功能的第一语音命令820,则控制模块160可以收集并输出针对所述第一语音命令820的信息。例如,如屏幕805所示,控制模块160可以输出与第一语音命令820相对应的第一语音识别信息851,并且可以作为执行与第一语音识别信息851相对应的功能或检索的结果而输出第一执行信息853。
如果在应用个人化语音功能的同时收集到第二语音命令840,则控制模块160可以对于第二语音命令840执行说话者分析(例如,与个人化语音信息133的比较),并且只有所分析的说话者信息指示为已注册的说话者才处理第二语音命令840。例如,如果确定分析结果所指示的说话者不是已注册的说话者,则控制模块160可以输出与不可处理第二语音命令840相关的消息。
根据本公开各种示例实施例,控制模块160可以评估所收集的第二语音命令840,并且可以确定第二语音命令840是否与安全功能或者指定为取决于说话者的功能的功能相关。如果第二语音命令840与非安全功能或者未被指定为取决于说话者的功能的功能相关,则控制模块160可以基于第二语音命令840处理功能的执行,而不会附加地检查个人化语音信息133。备选地,如果第二语音命令840与安全功能或者取决于说话者的功能相关,则控制模块160可以使用个人化语音信息133来识别第二语音命令840的说话者。另外,如果确定第二语音命令840的说话者是特定说话者,则控制模块160可以执行与第二语音命令840相对应的功能。如果第二语音命令840不是从特定说话者输入的讲话信息,则控制模块160可以响应于第二语音命令840输出用户识别或者功能执行不可用的限制性消息873。例如,控制模块160可以针对第二语音命令840选择性地输出第二语音识别信息871。
图9是示出了根据本公开各种示例实施例的与个人化语音信息的设置相关的屏幕界面的示例的图。
参考图9,如果发生与语音功能设置相关的事件,则电子设备100的控制模块160可以向显示器150输出如屏幕901所示的设置屏幕。设置屏幕可以包括与语音功能设置相关的项目,例如外部服务器使用项目、个人化功能操作项目和语音输出项目。如图9所示,可以将虚拟重置按钮911分配给与个人化功能设置或应用相关的个人化功能操作项目。
如果选择了虚拟重置按钮911,则控制模块160可以支持与个人化功能设置或应用相关地获得的个人化语音信息133或语音数据信息131的重置。与这种操作相关地,控制模块160可以向显示器150输出如屏幕903中所示的与初始化相关的弹出窗口931。弹出窗口931可以包括例如提供与初始化有关的指南的消息以及用于用户验证的验证信息输入区域。
在屏幕901中,如果与个人化功能操作相关地选择菜单项目913,则控制模块160可以输出如屏幕905中所示的与个人化功能操作相关的菜单屏幕。例如,菜单屏幕可以包括用于选择要应用个人化语音功能的至少一个应用的项目。例如,菜单屏幕可以包括全部功能项目951、密码设置功能项目953和用户定制项目955。
全部功能项目951可以是限制性项目,其只允许特定说话者通过语音功能来使用在电子设备100中安装的应用所支持的所有功能。在没有设置全部功能项目951的情况下,电子设备100可以在不指定说话者的情况下,基于各种用户的讲话信息来操作语音功能。
密码设置功能项目953可以是限制性项目,其基于语音功能和特定说话者的讲话信息而允许与要使用的安全功能相关的功能项目。根据本公开的示例实施例,当选择密码设置功能项目953时,电子设备100可以提供当根据用户指定而操作时要求密码验证的功能的项目,或者在提供的应用中要求针对应用操作调度的密码验证的功能的项目。当解除应用中的密码设置时,可以将特定功能从密码设置功能项目953中排除。
用户定制项目955可以使用户能够基于语音功能和特定说话者的讲话信息来指定将要使用的应用项目。如果选择了用户定制项目955,则电子设备100可以输出由电子设备100支持的应用的列表。这里,电子设备100可以自动地从与用户定制项目955相关的列表中去除密码设置功能项目953,以显示所述列表。
如上所述,根据本公开各种示例实施例,根据本公开示例实施例的语音功能操作方法可以包括:存储多条讲话信息的至少一部分用于语音识别;基于互相似性从所述多条讲话信息的至少一部分选择说话者讲话信息;以及基于所选择的说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。
根据本公开各种示例实施例,所述方法还包括在指定的时间内收集讲话信息或者收集讲话信息直到满足指定数目的候选数据。
根据本公开的各种示例实施例,所述方法还可以包括输出用于将语音识别信息应用于语音识别的消息。
根据本公开的各种示例实施例,所述方法还可以包括:产生所述多条讲话信息的多条件训练模型,并且应用所述多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
根据本公开的各种示例实施例,所述产生可以包括:产生说话者讲话信息的多条件训练模型,并且应用所述多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
根据本公开的各种示例实施例,所述方法还可以包括:收集从与个人化语音信息相对应的特定说话者输入的其他讲话信息,并且使用所述特定说话者的其他讲话信息来修改个人化语音信息的模型。
根据本公开的各种示例实施例,所述修改可以包括:从特定说话者输入的讲话信息中提取与在个人化语音信息中包括的已注册音素模型相对应的音素样本,以使用所述音素样本来修改所述已注册音素模型。
根据本公开的各种示例实施例,所述方法还可以包括:如果新输入的新讲话信息不是与个人化语音信息相对应的特定说话者的讲话时,输出根据新讲话信息的功能执行不可用的消息,并且根据新讲话信息所请求的功能的类型来选择性地执行所述功能。
根据本公开的各种示例实施例,执行所述功能可以包括:如果所述功能是指定的安全功能则不执行所述功能,以及如果所述功能是非指定的非安全功能则执行所述功能。
根据本公开的各种示例实施例,所述方法还可以包括:响应于由基于个人化语音信息指定的说话者输入的讲话信息,输出用于设置要基于语音功能执行的至少一个功能项目的设置屏幕。
如上所述,根据本公开的各种示例实施例,根据本公开示例实施例的语音功能操作方法可以包括:收集讲话信息作为候选数据,基于互相似性对所述候选数据进行聚簇,并且基于数目相对较大的具有相同相似性的候选数据,将指定的个人化语音信息注册为用于基于是否输入了指定讲话信息而限制功能的执行。
图10是示出了根据本公开各种示例实施例的电子设备的示例的框图。
参考图10,电子设备100可以包括控制模块(例如包括处理电路在内的处理器)1060以及麦克风模块(例如包括至少一个麦克风)1040。
麦克风模块1040可以包括例如第一麦克风40_1至第N麦克风40_N。第一麦克风40_1至第N麦克风40_N可以连接至例如控制模块1060。第一麦克风40_1至第N麦克风40_N可以设置在电子设备100的一侧,以便彼此间隔开特定距离。
麦克风模块1060可以控制在麦克风模块1040中包括的麦克风的至少一个。例如,在设置个人化语音功能时,控制模块1060可以启用第一麦克风40_1,并且可以分析由第一麦克风40_1收集的音频信号。另外,控制模块1060可以使用通过第一麦克风40_1收集的音频信号作为语音数据信息131。控制模块1060还可以使用第一麦克风40_1至第N麦克风40_N收集与语音数据信息131相对应的讲话信息。备选地,控制模块1060可以单独地使用第一麦克风40_1来收集语音数据信息131,并且可以使用第一麦克风40_1至第N麦克风40_N来修改(或者增强)个人化语音信息133。
在要求麦克风模块1040在始终开启功能被执行时保持在接通状态的情况下,电子设备100可以启用第一麦克风40_1,并且可以检查是否收集了与指定的讲话参考信息(例如“hi galaxy”)相对应的讲话信息。电子设备100可以使用附加讲话信息来修改个人化语音信息133,其中所述附加讲话信息是在收集到与讲话参考信息相对应的讲话信息之后启用其他麦克风的状态下收集的。在这种操作中,电子设备100可以根据麦克风40_1至40_N收集的讲话信息来支持语音功能的执行。
在没有应用个人化语音功能的状态下,控制模块1060可以单独地使用第一麦克风40_1来支持语音功能。另外,在应用个人化语音功能的状态下,控制模块1060可以使用第一麦克风40_1来检测与讲话参考信息相对应的讲话信息,并且可以使用麦克风40_1至40_N来收集附加讲话信息。
备选地,在没有应用个人化语音功能的状态下,控制模块1060可以收集讲话信息,并且可以单独地使用第一麦克风40_1来分析所收集的讲话信息是否与讲话参考信息相对应。在应用个人化语音功能的状态下,控制模块1060可以使用多个麦克风(例如第一麦克风40_1和第二麦克风40_2)来检测与讲话参考信息相对应的讲话信息。另外,在应用个人化语音功能的状态下,如果收集了与讲话参考信息相对应的讲话信息,则控制模块1060可以启用第一麦克风40_1至第N麦克风40_N来控制对附加讲话信息的收集。
如上所述,考虑到功率的有效利用或者为了收集更清晰的讲话信息,电子设备100可以控制麦克风40_1至40_N的操作。
图11是示出了根据本公开各种示例实施例的电子设备的另一个示例的框图。
参考图11,电子设备100可以包括控制模块(例如包括处理电路在内的处理器)1160以及麦克风模块(例如包括至少一个麦克风)1040。
麦克风模块1040可以按照与以上参考图10所述类似的方式包括第一麦克风40_1至第N麦克风40_N。多个麦克风40_1至40_N可以连接至控制模块1160。例如,多个麦克风40_1至40_N中的第一麦克风40_1可以连接至低功率处理模块1163。例如,多个麦克风40_1至40_N中的第一麦克风40_1可以连接至主控制模块1161。同时,第二麦克风40_2至第N麦克风40_N可以连接至低功率处理模块1163和主控制模块1161两者。另外,第一麦克风40_1不仅可以连接至低功率处理模块1163而且还可以连接至主控制模块1161。因此,第一麦克风40_1可以将收集的音频信号传输至低功率处理模块1163,或者如果主控制模块1161处于唤醒状态,则第一麦克风40_1可以将收集的音频信号传输至主控制模块1161,或者传输至低功率处理模块1163和主控制模块1161两者。
控制模块1160可以包括主控制模块1161和低功率处理模块1163。
例如,低功率处理模块1163可以是与主控制模块1161相比用相对较低的功率驱动的处理器(例如,包括处理电路)。例如,低功率处理模块1163可以是专用于音频信号处理的芯片、传感器集线器或者专用于讲话信息处理的芯片。在主控制模块1161处于休眠模式时可以独立地驱动低功率处理模块1163,以便控制在麦克风模块1040中包括的第一麦克风40_1的驱动,并且分析由第一麦克风40_1收集的音频信号。例如,低功率处理模块1163可以分析由第一麦克风40_1收集的音频信号是与语音相对应的讲话信息,还是与指定的讲话参考信息相对应的讲话信息,还是由特定说话者说出的讲话信息。如果讲话信息满足指定的条件,则低功率处理模块1163可以唤醒主控制模块1161。在这种操作中,低功率处理模块1163可以执行控制,使得启用处于禁用状态的第二麦克风40_2至第N麦克风40_N。
在语音功能操作时,考虑到功率的有效使用,主控制模块1161可以在保持在休眠状态之后被低功率处理模块1163唤醒。在该示例中,主控制模块1161可以启用第二麦克风40_2至第N麦克风40_N,并且可以收集和分析附加的讲话信息。如以上针对控制模块150的描述,主控制模块1161可以根据个人化语音功能的应用来控制针对所收集的讲话信息的语音收集信息131的收集、个人化语音信息133的注册、以及语音功能的限制性执行。
这里使用的术语“模块”可以表示例如包括硬件(包括硬件电路)、软件和固件之一或其组合在内的单元。术语“模块”可以与术语“单元”、“逻辑”、“逻辑块”、“组件”和“电路”互换使用。“模块”可以是集成组件的最小单元或者可以是其一部分。“模块”可以是用于执行一个或多个功能的最小单元或其一部分。可以用机械方式或电子方式来实现“模块”。例如,“模块”可以包括用于执行已知的或将来开发的一些操作的处理电路、硬件电路、固件、专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件中的至少一种。
根据本公开各种示例实施例的设备(例如,其模块或功能)或方法(例如,操作)的至少一部分可以实现为以程序模块形式存储在计算机可读存储介质中的指令。
根据本公开各种示例实施例的模块或程序模块可以包括上述元件中的至少一个元件,或者可以省略一些元件或可以添加其他附加元件。由根据本公开各种示例实施例的模块、程序模块或其他元件执行的操作可以按照顺序、并行、迭代或启发式的方式执行。另外,一些操作可以按不同顺序执行,或者可以被省略,或者可以增加其他操作。
根据本公开的各种示例实施例,可以按照取决于说话者(即取决于用户)的方式来处理可以针对每一个说话者操作的语音功能的类型或者可通过语音识别来执行的应用的类型。
因此,根据本公开的各种示例实施例,可以确保(或者换句话说改进或者增强)与电子设备的语音功能相关的安全性。
将理解,本发明的实施例可以被实现为硬件、软件或硬件和软件结合的形式。作为示例,任何这种软件可以存储为易失性存储器或非易失性存储器件的形式(例如ROM之类的存储器件,不论是否是可擦除的或可重写的),或者存储为存储器的形式(例如RAM、存储器芯片、设备或集成电路),或者存储在光或磁可读介质上(例如,CD、DVD、磁盘或磁带等等)。将认识到,存储设备和存储介质是适于存储程序的机器可读存储器的实施例,所述程序包括在被执行时实施本发明实施例的指令。因此,实施例提供包括用于实现此说明书的任一权利要求中所请求保护的装置或方法的代码在内的程序以及存储这种程序的机器可读存储器。此外,可以经由任意介质(比如,通过有线连接或无线连接携带的通信信号)来电子地传送这些程序,并且多个实施例适当地包括这些程序。
还将认识到,贯穿本说明书的描述和权利要求,具有“用于Y的X”的通用形式的语言(其中,Y是某个动作、活动或步骤,并且X是用于执行该动作、活动或步骤的某个装置)包含专门(但不排他)适于或布置为进行Y的装置X。
本发明的上述示例实施例是说明性的而不是限制性的。各种替代和等同物是可能的。通过本公开容易想到其它的增加、删除或修改,并且所述增加、删除或修改旨在落入所附权利要求的范围内。
Claims (15)
1.一种电子设备,包括:
存储器,配置为存储用于语音识别的多条讲话信息;以及
包括处理电路在内的处理器,所述处理器与所述存储器功能性地连接,
其中所述处理器配置为基于互相似性从所述多条讲话信息的至少一部分中选择说话者讲话信息,并且基于所述说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。
2.根据权利要求1所述的电子设备,其中所述处理器配置为输出提供通知的消息,所述通知表明正在执行将所述语音识别信息应用于语音识别的操作。
3.根据权利要求1或2所述的电子设备,其中所述处理器配置为执行以下操作中的至少一个:在指定时间内收集所述多条讲话信息、或者收集所述多条讲话信息直到收集到指定数目的所述多条讲话信息。
4.根据前述权利要求中任一项所述的电子设备,其中所述处理器配置为产生至少一部分噪声或指定声音效果中的至少一个被应用于所述多条讲话信息的多条件训练模型,并且使用所述多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
5.根据前述权利要求中任一项所述的电子设备,其中所述处理器配置为产生噪声或指定声音效果中的至少一个被应用于所述说话者讲话信息的多条件训练模型,并且基于所述多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
6.根据前述权利要求中任一项所述的电子设备,其中所述处理器配置为收集由与所述个人化语音信息相对应的特定说话者输入的其他讲话信息,并且修改所述个人化语音信息的模型。
7.根据权利要求6所述的电子设备,其中所述处理器配置为从所述特定说话者输入的讲话信息中提取与所述个人化语音信息中包括的已注册音素模型相对应的音素样本,并且使用所述音素样本修改所述已注册音素模型。
8.根据前述权利要求中任一项所述的电子设备,其中当新输入的新讲话信息不是与个人化语音信息相对应的特定说话者的讲话时,所述处理器配置为输出表明所述新讲话信息请求的功能执行不可用的消息,或者基于所述新讲话信息请求的功能的类型来选择性地执行所述功能。
9.根据权利要求8所述的电子设备,其中所述处理器配置为如果所述功能是指定的安全功能则不执行所述功能,或者如果所述功能是非安全功能则执行所述功能。
10.根据前述权利要求中任一项所述的电子设备,其中所述处理器配置为响应于由基于个人化语音信息而指定的说话者输入的讲话信息,输出用于设置要基于语音功能执行的至少一个功能项目的设置屏幕。
11.一种语音功能操作方法,包括:
存储用于语音识别的多条讲话信息;
基于互相似性从所述多条讲话信息的至少一部分中选择说话者讲话信息;以及
基于所选择的说话者讲话信息来产生要被注册为个人化语音信息的语音识别信息。
12.根据权利要求11所述的方法,还包括以下至少一项:
在指定的时间内收集所述讲话信息;或者
收集所述讲话信息,直到收集到指定数目的候选数据。
13.根据权利要求11或12所述的方法,还包括输出提供通知的消息,所述通知表明正在执行将所述语音识别信息应用于语音识别的操作。
14.根据权利要求11至13中的任一项所述的方法,还包括:
产生至少一部分噪声或指定声音效果中的至少一个被应用于所述多条讲话信息的多条件训练模型;以及
应用所述多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
15.根据权利要求11至13中的任一项所述的方法,其中所述产生包括:
产生至少一部分噪声或指定声音效果被应用于所述说话者讲话信息的多条件训练模型;以及
应用所述多条件训练模型来确定要被注册为个人化语音信息的语音识别信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150020786A KR102371697B1 (ko) | 2015-02-11 | 2015-02-11 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
KR10-2015-0020786 | 2015-02-11 | ||
PCT/KR2016/001383 WO2016129930A1 (en) | 2015-02-11 | 2016-02-11 | Operating method for voice function and electronic device supporting the same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107210040A true CN107210040A (zh) | 2017-09-26 |
CN107210040B CN107210040B (zh) | 2021-01-12 |
Family
ID=55349744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680008892.7A Expired - Fee Related CN107210040B (zh) | 2015-02-11 | 2016-02-11 | 语音功能的操作方法和支持该方法的电子设备 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20160232893A1 (zh) |
EP (1) | EP3057093B1 (zh) |
KR (1) | KR102371697B1 (zh) |
CN (1) | CN107210040B (zh) |
WO (1) | WO2016129930A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022584A (zh) * | 2017-11-29 | 2018-05-11 | 芜湖星途机器人科技有限公司 | 办公室语音识别优化方法 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN110709924A (zh) * | 2017-11-22 | 2020-01-17 | 谷歌有限责任公司 | 视听语音分离 |
CN113168837A (zh) * | 2018-11-22 | 2021-07-23 | 三星电子株式会社 | 用于处理语音的人声数据的方法和设备 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10090005B2 (en) * | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
US10931999B1 (en) * | 2016-06-27 | 2021-02-23 | Amazon Technologies, Inc. | Systems and methods for routing content to an associated output device |
US10271093B1 (en) * | 2016-06-27 | 2019-04-23 | Amazon Technologies, Inc. | Systems and methods for routing content to an associated output device |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
KR102596430B1 (ko) * | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
CN107147618B (zh) * | 2017-04-10 | 2020-05-15 | 易视星空科技无锡有限公司 | 一种用户注册方法、装置及电子设备 |
KR102406718B1 (ko) * | 2017-07-19 | 2022-06-10 | 삼성전자주식회사 | 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템 |
KR101995443B1 (ko) * | 2017-07-26 | 2019-07-02 | 네이버 주식회사 | 화자 검증 방법 및 음성인식 시스템 |
KR102483834B1 (ko) | 2018-01-17 | 2023-01-03 | 삼성전자주식회사 | 음성 명령을 이용한 사용자 인증 방법 및 전자 장치 |
KR102629424B1 (ko) * | 2018-01-25 | 2024-01-25 | 삼성전자주식회사 | 보안 기능을 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
US10984795B2 (en) * | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
WO2019216461A1 (ko) * | 2018-05-10 | 2019-11-14 | 주식회사 시스트란인터내셔널 | 인공지능 서비스 방법 및 이를 위한 장치 |
KR102595184B1 (ko) | 2018-05-25 | 2023-10-30 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
CN112313742A (zh) * | 2018-08-23 | 2021-02-02 | 谷歌有限责任公司 | 根据多助理环境的特性来调节助理响应性 |
KR102598057B1 (ko) * | 2018-09-10 | 2023-11-06 | 삼성전자주식회사 | 음소기반 화자모델 적응 방법 및 장치 |
KR102623246B1 (ko) * | 2018-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체. |
KR102346026B1 (ko) | 2019-02-11 | 2021-12-31 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11770872B2 (en) * | 2019-07-19 | 2023-09-26 | Jvckenwood Corporation | Radio apparatus, radio communication system, and radio communication method |
CN110706706A (zh) * | 2019-11-01 | 2020-01-17 | 北京声智科技有限公司 | 一种语音识别方法、装置、服务器及存储介质 |
KR102392318B1 (ko) * | 2022-01-17 | 2022-05-02 | 주식회사 하이 | 혼합 테스트에 기초하여 치매를 식별하는 기법 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
JP2002221990A (ja) * | 2001-01-25 | 2002-08-09 | Matsushita Electric Ind Co Ltd | 個人認証装置 |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
CN1403953A (zh) * | 2002-09-06 | 2003-03-19 | 浙江大学 | 掌上声纹验证*** |
CN1462366A (zh) * | 2001-05-10 | 2003-12-17 | 皇家菲利浦电子有限公司 | 说话人声音的后台学习 |
CN1465043A (zh) * | 2001-06-08 | 2003-12-31 | 索尼公司 | 语音识别装置和语音识别方法 |
JP2004271561A (ja) * | 2003-03-05 | 2004-09-30 | Sharp Corp | 音声入力装置およびそれを用いた話者識別装置、音声入力方法およびそれを用いた話者識別方法、音声入力プログラム、話者識別プログラム、並びに、プログラム記録媒体 |
CN1666253A (zh) * | 2002-07-11 | 2005-09-07 | 索尼电子有限公司 | 利用优化音素集进行普通话语音识别的***和方法 |
CN1783782A (zh) * | 2004-12-03 | 2006-06-07 | 微软公司 | 通过将说话者验证和反向调整测试相结合的用户认证 |
CN1932974A (zh) * | 2005-09-13 | 2007-03-21 | 东芝泰格有限公司 | 说话者识别设备、说话者识别程序、和说话者识别方法 |
US20080215324A1 (en) * | 2007-01-17 | 2008-09-04 | Kabushiki Kaisha Toshiba | Indexing apparatus, indexing method, and computer program product |
CN101266792A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 语音识别***和语音识别方法 |
CN101334997A (zh) * | 2001-04-17 | 2008-12-31 | 诺基亚有限公司 | 与扬声器无关的语音识别装置 |
CN101547261A (zh) * | 2008-03-27 | 2009-09-30 | 富士通株式会社 | 关联赋予装置、关联赋予方法和记录介质 |
US8543834B1 (en) * | 2012-09-10 | 2013-09-24 | Google Inc. | Voice authentication and command |
CN103477342A (zh) * | 2011-03-21 | 2013-12-25 | 苹果公司 | 使用话音验证的装置存取 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3931638A1 (de) * | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
JP3014177B2 (ja) * | 1991-08-08 | 2000-02-28 | 富士通株式会社 | 話者適応音声認識装置 |
JPH07113838B2 (ja) * | 1991-12-20 | 1995-12-06 | 松下電器産業株式会社 | 音声認識方法 |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
JP2991288B2 (ja) * | 1997-01-30 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
US6014624A (en) * | 1997-04-18 | 2000-01-11 | Nynex Science And Technology, Inc. | Method and apparatus for transitioning from one voice recognition system to another |
EP1058926A1 (en) * | 1998-03-03 | 2000-12-13 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
US6487530B1 (en) * | 1999-03-30 | 2002-11-26 | Nortel Networks Limited | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US6697779B1 (en) * | 2000-09-29 | 2004-02-24 | Apple Computer, Inc. | Combined dual spectral and temporal alignment method for user authentication by voice |
US20020143540A1 (en) | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
DE10313310A1 (de) * | 2003-03-25 | 2004-10-21 | Siemens Ag | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
US20060122837A1 (en) * | 2004-12-08 | 2006-06-08 | Electronics And Telecommunications Research Institute | Voice interface system and speech recognition method |
GB0513820D0 (en) * | 2005-07-06 | 2005-08-10 | Ibm | Distributed voice recognition system and method |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
US20070156682A1 (en) * | 2005-12-28 | 2007-07-05 | Microsoft Corporation | Personalized user specific files for object recognition |
US7886266B2 (en) * | 2006-04-06 | 2011-02-08 | Microsoft Corporation | Robust personalization through biased regularization |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US7966171B2 (en) * | 2007-10-31 | 2011-06-21 | At&T Intellectual Property Ii, L.P. | System and method for increasing accuracy of searches based on communities of interest |
KR101056511B1 (ko) | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US9418662B2 (en) | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
US8639516B2 (en) * | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
JP6024180B2 (ja) * | 2012-04-27 | 2016-11-09 | 富士通株式会社 | 音声認識装置、音声認識方法、及びプログラム |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9070367B1 (en) * | 2012-11-26 | 2015-06-30 | Amazon Technologies, Inc. | Local speech recognition of frequent utterances |
US9117451B2 (en) * | 2013-02-20 | 2015-08-25 | Google Inc. | Methods and systems for sharing of adapted voice profiles |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
KR102185564B1 (ko) * | 2014-07-09 | 2020-12-02 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어방법 |
US9549273B2 (en) * | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
-
2015
- 2015-02-11 KR KR1020150020786A patent/KR102371697B1/ko active IP Right Grant
-
2016
- 2016-02-08 US US15/017,957 patent/US20160232893A1/en not_active Abandoned
- 2016-02-11 EP EP16155228.6A patent/EP3057093B1/en active Active
- 2016-02-11 CN CN201680008892.7A patent/CN107210040B/zh not_active Expired - Fee Related
- 2016-02-11 WO PCT/KR2016/001383 patent/WO2016129930A1/en active Application Filing
-
2018
- 2018-08-20 US US15/998,997 patent/US10733978B2/en active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
JP2002221990A (ja) * | 2001-01-25 | 2002-08-09 | Matsushita Electric Ind Co Ltd | 個人認証装置 |
CN101334997A (zh) * | 2001-04-17 | 2008-12-31 | 诺基亚有限公司 | 与扬声器无关的语音识别装置 |
CN1462366A (zh) * | 2001-05-10 | 2003-12-17 | 皇家菲利浦电子有限公司 | 说话人声音的后台学习 |
CN1465043A (zh) * | 2001-06-08 | 2003-12-31 | 索尼公司 | 语音识别装置和语音识别方法 |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
CN1666253A (zh) * | 2002-07-11 | 2005-09-07 | 索尼电子有限公司 | 利用优化音素集进行普通话语音识别的***和方法 |
CN1403953A (zh) * | 2002-09-06 | 2003-03-19 | 浙江大学 | 掌上声纹验证*** |
JP2004271561A (ja) * | 2003-03-05 | 2004-09-30 | Sharp Corp | 音声入力装置およびそれを用いた話者識別装置、音声入力方法およびそれを用いた話者識別方法、音声入力プログラム、話者識別プログラム、並びに、プログラム記録媒体 |
CN1783782A (zh) * | 2004-12-03 | 2006-06-07 | 微软公司 | 通过将说话者验证和反向调整测试相结合的用户认证 |
CN1932974A (zh) * | 2005-09-13 | 2007-03-21 | 东芝泰格有限公司 | 说话者识别设备、说话者识别程序、和说话者识别方法 |
US20080215324A1 (en) * | 2007-01-17 | 2008-09-04 | Kabushiki Kaisha Toshiba | Indexing apparatus, indexing method, and computer program product |
CN101266792A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 语音识别***和语音识别方法 |
CN101547261A (zh) * | 2008-03-27 | 2009-09-30 | 富士通株式会社 | 关联赋予装置、关联赋予方法和记录介质 |
CN103477342A (zh) * | 2011-03-21 | 2013-12-25 | 苹果公司 | 使用话音验证的装置存取 |
US8543834B1 (en) * | 2012-09-10 | 2013-09-24 | Google Inc. | Voice authentication and command |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110709924A (zh) * | 2017-11-22 | 2020-01-17 | 谷歌有限责任公司 | 视听语音分离 |
CN110709924B (zh) * | 2017-11-22 | 2024-01-09 | 谷歌有限责任公司 | 视听语音分离 |
US11894014B2 (en) | 2017-11-22 | 2024-02-06 | Google Llc | Audio-visual speech separation |
CN108022584A (zh) * | 2017-11-29 | 2018-05-11 | 芜湖星途机器人科技有限公司 | 办公室语音识别优化方法 |
CN109065023A (zh) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音鉴定方法、装置、设备及计算机可读存储介质 |
CN113168837A (zh) * | 2018-11-22 | 2021-07-23 | 三星电子株式会社 | 用于处理语音的人声数据的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
US10733978B2 (en) | 2020-08-04 |
EP3057093B1 (en) | 2020-08-19 |
WO2016129930A1 (en) | 2016-08-18 |
KR102371697B1 (ko) | 2022-03-08 |
EP3057093A2 (en) | 2016-08-17 |
US20190005944A1 (en) | 2019-01-03 |
US20160232893A1 (en) | 2016-08-11 |
CN107210040B (zh) | 2021-01-12 |
KR20160098771A (ko) | 2016-08-19 |
EP3057093A3 (en) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107210040A (zh) | 语音功能的操作方法和支持该方法的电子设备 | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
CN110970018B (zh) | 语音识别方法和装置 | |
CN102292766B (zh) | 用于语音处理的方法和装置 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN106356059A (zh) | 语音控制方法、装置及投影仪设备 | |
CN103021409A (zh) | 一种语音启动拍照*** | |
US20240005918A1 (en) | System For Recognizing and Responding to Environmental Noises | |
CN108632653B (zh) | 语音管控方法、智能电视及计算机可读存储介质 | |
CN107819929A (zh) | 优选表情符号的识别和生成 | |
US11657800B2 (en) | Electronic device with wakeup word determined multi-mode operation | |
CN108665895A (zh) | 用于处理信息的方法、装置和*** | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
CN109272991A (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN110428832A (zh) | 一种自定义语音实现屏幕控制的方法 | |
US11626104B2 (en) | User speech profile management | |
CN110570873A (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN108647002A (zh) | 信息处理方法及电子设备 | |
CN103811000A (zh) | 语音识别***及方法 | |
CN111081260A (zh) | 一种唤醒词声纹的识别方法及*** | |
KR20140067687A (ko) | 대화형 음성인식이 가능한 차량 시스템 | |
CN110858479B (zh) | 语音识别模型更新方法、装置、存储介质及电子设备 | |
EP4095850A1 (en) | Instruction execution method and apparatus, storage medium, and electronic device | |
CN111710339A (zh) | 一种基于数据可视化展示技术的语音识别交互***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210112 Termination date: 20220211 |