CN111145735B - 电子设备及其操作方法 - Google Patents
电子设备及其操作方法 Download PDFInfo
- Publication number
- CN111145735B CN111145735B CN201911065435.3A CN201911065435A CN111145735B CN 111145735 B CN111145735 B CN 111145735B CN 201911065435 A CN201911065435 A CN 201911065435A CN 111145735 B CN111145735 B CN 111145735B
- Authority
- CN
- China
- Prior art keywords
- electronic device
- asr
- user
- speech
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 59
- 230000004044 response Effects 0.000 claims abstract description 66
- 230000005236 sound signal Effects 0.000 claims description 147
- 230000015654 memory Effects 0.000 claims description 41
- 230000007613 environmental effect Effects 0.000 claims description 30
- 238000013473 artificial intelligence Methods 0.000 claims description 26
- 230000000875 corresponding effect Effects 0.000 description 97
- 238000012545 processing Methods 0.000 description 54
- 230000009471 action Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000007781 pre-processing Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 230000001276 controlling effect Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
通过获得电子设备或电子设备的用户的情境信息来提供对用户的语音或话语的响应,基于情境信息来确定电子设备还是外部设备将对用户的语音或话语执行自动语音识别(ASR),并且基于执行ASR的电子设备或外部设备的结果提供对用户的语音或话语的响应。
Description
相关申请的交叉引用
本申请基于并要求于2018年11月5日向韩国特许厅提交的第10-2018-0134432号韩国专利申请和于2019年7月5日向韩国特许厅提交的第10-2019-0081529号韩国专利申请的优先权,其全部内容通过引用合并于此。
技术领域
本公开的各种实施例涉及电子设备及其操作方法,并且更具体地,涉及可以提供对用户的语音或话语的响应的电子设备及其操作方法。
背景技术
虚拟助手是一项通过处理音频信号提供对用户的语音或话语的响应的服务。音频信号的处理可以包括将自动语音识别(ASR)处理,自然语言理解(NLU)处理,对话管理(DM)处理,自然语言生成(NLG)处理以及文本到语音(TTS)处理应用到音频信号。
通常,与虚拟助手相关联的大多数音频信号和/或语音处理由服务器执行,并且用户设备接收用户的语音或话语的输入,并从服务器接收处理结果,从而将处理结果输出给用户。可以通过基于除人工智能(AI)之外的规则的算法来执行每个操作,并且AI可以与音频信号处理结合以提高虚拟助手的性能。
发明内容
本公开的各种实施例提供一种电子设备及其操作方法,其中,基于电子设备的情境(context)信息,从各种可能设备中选择设备对用户的语音或话语执行自动语音识别(ASR),并且基于ASR的结果向用户提供对用户语音或话语的响应。
另外的方面将在下面的描述中部分地阐述,并且部分地从该描述中将是显而易见的,或者可以通过实践本公开的所呈现的实施例而获知。
根据本公开的实施例,提供一种电子设备,包括:存储器,存储一个或多个指令;以及至少一个处理器,被配置为执行存储在存储器中的一个或多个指令,以基于从电子设备的用户的语音或话语的音频信号获得的电子设备的环境噪声信息,确定电子设备将执行电子设备的用户的语音或话语的自动语音识别(ASR),基于确定电子设备将执行电子设备的用户的语音或话语的ASR,执行电子设备的用户的语音或话语的ASR,以及基于执行电子设备的用户的语音或话语的ASR的结果,输出对电子设备的用户的语音或话语的响应。
根据本公开的实施例,可以使用人工智能(AI)算法处理ASR。
根据本公开的实施例,至少一个处理器还可以被配置为执行一个或多个指令,以基于环境噪声信息来预测ASR的准确度,以及基于ASR的准确度确定电子设备将执行ASR。
根据本公开的实施例,至少一个处理器还可以被配置为执行一个或多个指令,以基于指示电子设备的环境噪声水平小于预设值的环境噪声信息来确定电子设备将执行电子设备的用户的语音或话语的ASR。
根据本公开的实施例,电子设备还可以包括通信器,被配置为向外部设备发送数据并从外部设备接收数据,以及至少一个处理器,还可以被配置为执行一个或多个指令,以将电子设备的用户的语音或话语的音频信号发送到外部设备,以及基于指示电子设备的环境噪声水平大于或等于预设值的环境噪声信息,从外部设备接收电子设备的用户的语音或话语的ASR结果。
根据本公开的实施例,至少一个处理器还可以被配置为执行一个或多个指令,以基于指示电子设备的环境噪声水平具有预设范围内的值的环境噪声信息来提取包括在电子设备的用户的语音或话语中的关键词,以及基于关键词是预设关键词并基于电子设备的环境噪声信息,确定电子设备将执行电子设备的用户的语音或话语的ASR。
根据本公开的实施例,电子设备还可以包括通信器,被配置为向外部设备发送数据和从外部设备接收数据,以及至少一个处理器,还被配置为执行一个或多个指令,以通过执行电子设备的用户的语音或话语的ASR获得第一ASR结果,控制通信器将电子设备的用户的语音或话语的音频信号发送到外部设备,从外部设备接收第二ASR结果,从第一ASR结果和第二ASR结果当中选择ASR结果,以及基于ASR结果,输出对电子设备的用户的语音或话语的响应。
根据本公开的实施例,所述处理器还可以被配置为执行一个或多个指令,以基于电子设备的环境噪声信息从第一ASR结果和第二ASR结果当中选择ASR结果。
根据本公开的实施例,所述处理器还可以被配置为执行一个或多个指令,以基于环境噪声信息或执行电子设备的用户的语音或话语的ASR的结果中的至少一个,确定电子设备是否将执行NLU或DM中的至少一个。
根据本公开的实施例,所述处理器还可以被配置为执行一个或多个指令,以基于执行电子设备的用户的语音或话语的ASR的结果,通过执行NLU或DM中的至少一个来确定响应。
根据本公开的实施例,提供一种电子设备的操作方法,包括:基于从电子设备的用户的语音或话语的音频信号获得的电子设备的环境噪声信息,确定电子设备将执行电子设备的用户的语音或话语的自动语音识别(ASR);基于确定电子设备将执行电子设备的用户的语音或话语的ASR,执行电子设备的用户的语音或话语的ASR;以及基于执行电子设备的用户的语音或话语的ASR的结果,输出对电子设备的用户的语音或话语的响应。
根据本公开的实施例,提供一种ASR***,包括:电子设备,被配置为接收电子设备的用户的语音或话语;以及服务器,被配置为基于从电子设备接收的电子设备的用户的语音的或话语的音频信号来执行电子设备的用户的语音或话语的ASR,其中,所述电子设备包括至少一个处理器,其中,所述至少一个处理器可以被配置为:基于从电子设备的用户的语音或话语的音频信号获得的电子设备的环境噪声信息,确定电子设备还是服务器将执行电子设备的用户的语音或话语的ASR,以及基于确定服务器将执行电子设备的用户的语音或话语的ASR,将电子设备的用户的语音或话语的音频信号发送到服务器,或者基于确定电子设备将执行电子设备的用户的语音或话语的ASR,执行电子设备的用户的语音或话语的ASR。
附图说明
通过以下结合附图的描述,本公开的特定实施例的上述和其他方面,特征和优点将变得更加明显,在附图中:
图1是根据本公开的实施例的用于描述自动语音识别(ASR)***的示图;
图2是根据本公开的实施例的用于描述确定和提供对用户的语音或话语的响应的方法的示图;
图3是根据本公开的实施例的电子设备的操作方法的流程图;
图4是根据本公开的实施例的ASR***的操作方法的流程图;
图5是根据本公开的实施例的ASR***的操作方法的流程图;
图6是根据本公开的实施例的ASR***的操作方法的流程图;
图7是根据本公开的实施例的ASR***的操作方法的流程图;
图8是根据本公开的实施例的ASR***的操作方法的流程图;
图9是根据本公开的实施例的ASR***的操作方法的流程图;
图10是根据本公开的实施例的ASR***的操作方法的流程图;
图11是根据本公开的实施例的用于描述由电子设备执行的,基于用户的语音或话语中包括的关键词来执行ASR的方法的示图;
图12是根据本公开的实施例的用于描述由电子设备执行的,提供ASR相关设置的方法的示图;
图13示出根据本公开的实施例的ASR设置屏幕;
图14是根据本公开的实施例的电子设备的框图;
图15是根据本公开的实施例的处理器的框图;
图16是根据本公开实施例的电子设备的框图;
图17是根据本公开实施例的服务器的框图;
图18示出根据本公开实施例的电子设备和服务器通过彼此交互来学习和识别数据;以及
图19是根据本公开实施例的电子设备的操作方法的流程图。
具体实施方式
将简要描述本文使用的术语,并且将详细描述本公开。
尽管在考虑到本公开中的功能的情况下,以当前普遍使用的通用术语来选择本公开中使用的术语,但是这些术语可以根据本领域普通技术人员的意图,司法判例或新技术的引入而变化。另外,在特定情况下,可以选择特定术语,并且在这种情况下,这些术语的含义在本公开的相应描述部分中公开。因此,本公开中使用的术语不应由术语的简单名称来定义,而应由贯穿本公开内容的术语和内容的含义来定义。
在本公开的整个说明书中,当特定部分包括特定组件时,术语“包括”是指相应组件可以进一步包括其他组件,除非描写了与该相应组件相反的特定含义。在本公开的实施例中使用的术语(诸如“单元”或“模块”)指示用于处理至少一个功能或操作的单元,并且可以以硬件,软件或以硬件和软件的组合来实现。
在下文中,将参照附图详细描述本公开的实施例,以使本领域普通技术人员能够容易地实施本公开的实施例。然而,本公开可以以各种形式实现,并且不限于本文描述的本公开的实施例。为了清楚地描述本公开,已经从附图中省略了与描述不相关的部分,并且在整个说明书中,相同的附图标记表示相同的部分。
图1是用于描述根据本公开的实施例的自动语音识别(ASR)***的示图。
根据本公开的实施例的ASR***可以包括电子设备100和服务器2000。
根据本公开的实施例的电子设备100可以由各种电子设备来体现和/或实现,诸如蜂窝电话,平板个人计算机(PC),数码相机,便携式摄像机,膝上型计算机,台式计算机,电子书终端,数字广播终端,个人数字助理(PDA),便携式多媒体播放器(PMP),导航器,MP3播放器,便携式摄像机,互联网协议电视(IPTV),数字电视(DTV),可穿戴设备等。
根据本公开的实施例的服务器2000可以通过但不限于网络(诸如经由WiFi的互联网或局域网)或短距离通信(诸如蓝牙或近场通信(NFC))与电子设备100互连。
在本公开的实施例中,术语“用户”是指控制电子设备100的功能或电子设备100的操作的人,并且可以包括管理员或安装工程师。
根据本公开的实施例的电子设备100可以提供交互界面。交互界面可以是用于用户的界面,并且交互界面从用户接收输入(例如,语音输入或文本输入),并提供对用户输入的响应。根据本公开的实施例,交互界面可以包括但不限于虚拟助手,人工智能(AI)助手等。虚拟助手或AI助手可以是基于用户的一个或多个命令或用户和/或电子设备100的情境处理用户要求的任务并向用户提供用户特定服务的软件代理。
参照图1,用户可以提供由电子设备100检测的语音或话语。语音或话语可以包括使电子设备100执行指定功能(例如,对电子设备100中包括的硬件/软件组件的操作控制,内容搜索等)的自然语言。
电子设备100可以通过使用内部或外部音频输入模块(例如,麦克风)将用户的语音或话语转换为作为一种电信号的音频信号。电子设备100可以从外部设备接收与用户的话语相对应的音频信号。例如,当用户对包括音频输入模块的外部设备说出语音或话语时,外部设备可以将用户的语音或话语转换为音频信号,并将音频信号发送到电子设备100。
根据本公开的实施例的电子设备100可以获得电子设备100的情境信息和/或电子设备100的用户的情境信息。电子设备100的情境信息和/或电子设备100的用户的情境信息可以包括计算情境信息、用户情境信息、物理情境信息、时间情境信息等。例如,计算情境信息可以包括电子设备100和服务器2000之间的网络连接状态信息、通信带宽信息等。用户情境信息可以包括用户的位置信息、用户的语音特征信息等。物理情境信息可以包括电子设备100的环境噪声水平信息、位置信息等,并且时间情境信息可以包括电子设备100的时间信息等。
具体地,根据本公开的实施例的电子设备100可以从音频信号获得关于噪声的信息(例如,在电子设备100周围的环境中的环境噪声信息)。关于噪声的信息可以包括信噪比(SNR)、噪声的幅度、噪声的模式等,并且可以包括以噪声的另一种形式的信息。然而,关于环境噪声的信息不限于这些示例。
根据本公开的实施例的电子设备100可以通过使用提供情境信息的各种传感器、与提供情境信息的一个或多个设备的通信等来获得情境信息。
电子设备100可以基于获得的情境信息来确定电子设备100和服务器2000中的哪个将对用户的语音或话语执行自动语音识别(ASR)。
例如,当检测的噪声水平小于预设值时,电子设备100可以检测环境噪声水平并且确定电子设备100将执行ASR。例如,如果信噪比(SNR)或噪声的幅度小于预设值,则电子设备100可以执行ASR。如果噪声的模式是可以从音频信号中容易地检测和过滤的重复模式,则电子设备100可以执行ASR。另一方面,当检测的噪声水平例如大于或等于预设值时,电子设备100可以确定服务器2000将执行ASR并将与用户的语音或话语相对应的音频信号发送到服务器2000。例如,如果信号的信噪比(SNR)或噪声的幅度大于预设值,则服务器200可以执行ASR。如果噪声的模式是可能无法容易地从音频信号中检测和过滤的任意模式或非重复模式,则服务器200可以执行ASR。然而,本公开不限于这些示例。
相对于ASR的结果,根据本公开的实施例的电子设备100可以确定电子设备100和服务器2000中的哪个将执行NLU处理和DM处理或任何其他音频信号处理。
图2是描述根据本公开的实施例的确定和提供对用户的语音或话语的响应的方法的视图。
参照图2,根据本公开的实施例,用户可以对电子设备100说出语音或话语。电子设备100可以通过使用音频输入模块将用户的语音或话语转换为作为一种电信号的音频信号。
根据本公开的实施例的电子设备100或服务器2000可以对音频信号执行预处理201、ASR 210、自然语言理解(NLU)220、对话管理(DM)230、自然语言生成(NLG)240或文本语音转换(TTS)250中的至少一个,因此可以确定对用户的语音或话语的响应,并且电子设备100可以将确定的响应提供给用户。
根据本公开的实施例的电子设备100或服务器2000可以在对音频信号执行ASR210之前执行预处理201。
预处理201可以包括从音频信号中识别噪声和用户的语音或话语,以及衰减或去除噪声。预处理201还可包括:识别包括用户的声音的话语周期和不包括用户的声音的非话语周期,并去除非话语周期。可以在完成噪声的衰减或去除之后执行识别和去除非话语周期。
根据本公开的实施例的电子设备100可以在预处理201中获得电子设备100的环境噪声信息。电子设备100可以获得SNR作为噪声信息。
例如,当电子设备100衰减或去除噪声时,电子设备100可以获得SNR,其中SNR可以被定义为与用户的话语相对应的信号相对于与噪声相对应的信号的相对幅度。SNR通常可以以分贝(dB)为单位进行测量。
当执行识别话语周期和非话语周期并去除非话语周期时,可以获得SNR。为了识别话语周期和非话语周期,可以使用语音活动检测(VAD)技术,并且在该处理中,可以在话语周期期间获得SNR。关于噪声幅度的信息可以在非话语周期期间获得,并且可以代替SNR使用。
根据本公开的实施例的电子设备100可以通过使用在预处理201中输入的整个音频信号来获得噪声信息,并且可以通过使用与音频信号的预设部分周期相对应的信号或与音频信号中的预设时间点相对应的信号来获得噪声信息。
预处理201可以在使用诸如关键词识别(keyword spotting)等的技术检测到唤醒词或接收到预定义输入时启动。预定义输入可以是按下物理按钮的输入或选择在电子设备100的显示器上显示的图标的输入。在预处理201开始时,电子设备100可以获得关于输入音频信号的噪声信息。在这种情况下,通过使用结束点(endpoint)检测,可以在与预处理201的开始相对应的时间点到与结束点相对应的时间点从音频信号中获得噪声信息。
电子设备100可以从这样的音频信号中获得噪声信息:该音频信号在始自与预处理201的开始相对应的时间点的预设时间段期间被输入。在另一示例中,电子设备100可以从从这样的音频信号中获得噪声信息:该音频信号在从与预处理201的开始相对应的时间点经过预设时间之后的时间点被输入。
具体地,当电子设备100在预处理201中识别话语周期和非话语周期并去除非话语周期以获得噪声信息时,电子设备100可以从音频信号中获得关于从其去除了非话语周期的整个信号的噪声信息。电子设备100还可以从与非话语周期的预设部分周期相对应的信号获得噪声信息,以及从在非话语周期的预设时间点的信号获得噪声信息。
当电子设备100从与特定时间段相对应的信号获得噪声信息时,电子设备100可以通过使用与特定时间段相对应的信号中噪声的幅度和语音或话语的幅度的最大值、中值或平均值中的至少一个来获取噪声信息。当电子设备100从输入音频信号获得噪声信息以及当电子设备100从与话语周期相对应的信号获得噪声信息时,电子设备100也可以以这种方式获得噪声信息。另外,当电子设备100从与非话语周期相对应的信号中获得噪声信息时,电子设备100可以通过使用与非话语周期相对应的信号中噪声的幅度的最大值、中值或平均值中的至少一个来获得噪声信息。
在本公开的另一个实施例中,噪声信息可以包括关于噪声模式的信息。噪声模式可以是指噪声分布的形式,并且其示例可以是噪声均匀地分布在音频信号中或幅度大于或等于特定幅度的噪声在音频信号的特定周期中分布的形式。例如,ASR 210的准确度可以随噪声分布的形式而变化。
ASR 210可以包括诸如通过语音到文本转换来获得与音频信号相对应的文本数据的处理。例如,ASR 210可以支持语音到文本的转换处理,以将用户发出的语音信号识别为字符串。作为ASR 210的结果而获得的文本可以是自然语言的句子、单词或短语。然而,语音到文本的转换不限于该示例。
NLU 220可以包括识别由ASR获得的文本数据中的用户语音或话语的含义的处理。例如,NLU 220可以包括通过使用包括在通过ASR获得的文本数据中的字符串生成用于用户的语音或话语的语言结构(linguistic structure)的处理。NLU 220还可以包括通过语音或话语识别意图(诸如用户所期望的动作)以及理解关键词的处理。
DM 230可以包括基于作为NLU 220的结果而提取的用户的意图搜索信息、或者规定诸如控制设备等的动作的处理。例如,DM 230可以包括确定相应动作(诸如控制电子设备100中包括的硬件/软件组件的操作)的处理。DM230还可以包括:当确定多个动作时,确定多个动作的顺序作为对用户的语音或话语的响应的处理。
NLG 240可以包括生成与DM 230的结果相对应的文本表达(例如,句子)的处理。
TTS 250可以包括通过语音将生成的文本表达传递给用户的处理。
图3是根据本公开实施例的电子设备的操作方法的流程图。
参照图3,在操作S310中,根据本公开的实施例的电子设备100可以获得情境信息。例如,情境信息可以包括关于与服务器2000的网络连接状态的信息(或网络连接状态信息)、电子设备100的位置信息、电子设备100的时间信息、电子设备100的环境噪声信息、用户的语音特征信息、用户的位置信息等。
根据本公开的实施例的电子设备100可以接收用户的语音或话语,并将语音转换为音频信号。在操作S320中,电子设备100可以基于在操作S310中获得的情境信息来确定对用户的语音或话语执行ASR的设备。例如,电子设备100可以基于噪声信息(诸如环境噪声的幅度,SNR等)确定电子设备100还是服务器2000将执行ASR。当环境噪声的幅度小于预设值时,电子设备100可以确定电子设备100将执行ASR,并且当环境噪声的幅度大于或等于预设值时,电子设备100可以确定外部设备(例如,服务器2000)将执行ASR。当电子设备100未与外部设备网络连接时,电子设备100可以确定电子设备100将执行ASR。当电子设备100与说出话语的用户之间的距离是预设距离或更大时,电子设备100可以确定服务器2000将执行ASR。当环境噪声的幅度小于或等于预设值或者与用户的语音或话语相对应的音频信号的SNR大于或等于预设值时,电子设备100也可以确定电子设备100将执行ASR。另一方面,当音频信号的噪声的幅度超过预设值或音频信号的SNR小于预设值时,电子设备100可以确定服务器2000将执行ASR。
当电子设备100的位置信息处于预设位置或者电子设备100的时间信息是预设时间时,电子设备100也可以确定服务器2000将执行ASR。然而,执行音频处理的设备的选择性确定不限于这些示例。
在操作S340中,当电子设备100在操作S320-否中确定外部设备将执行ASR时,电子设备100可以将与用户的语音或话语相对应的音频信号发送到外部设备。
在操作S350中,电子设备100可以从外部设备接收ASR的结果。
另一方面,在操作S330中,当电子设备100在操作S320-是中确定电子设备100将执行ASR时,电子设备100可以对音频信号执行ASR。
例如,电子设备100可以获得与音频信号相对应的文本数据。文本数据可以包括但不限于与用户说出的语音相对应的至少一个字符串。可以通过对音频信号执行至少语音到文本处理来获得文本数据。
在操作S360中,电子设备100可以基于在操作S330中在电子设备100上执行的ASR的结果或者在操作S350中从已经执行ASR的外部设备(例如,服务器2000)接收的ASR结果提供对用户的语音或话语的响应。
例如,电子设备100可以通过对ASR的结果执行NLU、DM、NLG、TTS等来生成对用户的语音或话语的响应,并且将生成的响应作为文本显示或将生成的响应作为音频输出。电子设备100可以操作以执行与响应相对应的功能。然而,由电子设备100提供的响应不限于这些示例。
可以通过处理器、操作***(OS)和应用程序之间的交互运作来执行根据本公开的实施例的电子设备100的操作方法。可以由处理器中的专用模块在操作S310中执行获得噪声信息(诸如噪声的幅度或SNR)。在这种情况下,可以在OS或应用指令的控制下执行操作S320至S360。然而,操作S330的一部分可以由处理器中用于相应操作专用模块执行。当通过执行OS或应用指令来执行操作S320至S360时,可以向OS或应用提供执行操作S310的结果以执行操作S320至S360。
根据本公开的实施例的电子设备100的操作方法可以通过执行OS或应用指令来执行。在这种情况下,可以通过执行与每个操作相对应的指令来执行操作S310至S360中的每一个。可以通过OS与应用程序之间的交互运作来执行操作S310至S360。在这种情况下,操作S310和S320可以由应用指令执行,并且操作S330至S360可以由OS指令执行。当作为通过应用指令执行操作S320的结果,电子设备100确定电子设备100将执行ASR时,应用可以执行用于控制用于执行操作S330的OS指令的运行的指令。当作为执行操作S320的结果,电子设备100确定服务器2000将执行ASR时,应用可以执行用于控制用于执行操作S340的OS指令的运行的指令。
图4是根据本公开的实施例的ASR***的操作方法的流程图。
参照图4,ASR***可以包括电子设备100和服务器2000。服务器2000可以通过网络或短距离通信与电子设备100连接。
在操作S410中,根据本公开的实施例的电子设备100可以获得与用户的语音或话语相对应的音频信号。
例如,用户可以对根据本公开的实施例的电子设备100说出语音或话语。电子设备100可以通过使用音频输入模块将用户的语音或话语转换为作为一种电信号的音频信号。用户还可以对通过网络或短距离通信与电子设备100连接的外部设备(例如,与电子设备100配对的智能手表)说出语音或话语。外部设备可以通过使用音频输入模块将用户的语音或话语转换为作为电信号的音频信号,并将音频信号发送到电子设备100。
在操作S420中,电子设备100可以获得情境信息。例如,电子设备100可以测量电子设备100所在的环境的外界环境信息(ambient environment information)。电子设备100可以通过使用噪声测量传感器等来测量环境噪声水平。电子设备100还可以测量与用户的语音或话语相对应的音频信号的SNR,获得说出语音或话语的用户的语音特征信息,或获得用户与电子设备100之间的物理距离。可以获得电子设备100的位置信息和时间信息。然而,情境信息不限于这些示例。
如参照图2所描述的,根据本公开的实施例的电子设备100可以在对音频信号的预处理201中获得电子设备100的环境噪声信息。
例如,当电子设备100衰减或去除噪声时,电子设备100可以获得SNR,其中SNR可以被定义为与用户的话语相对应的信号相对于与噪声相对应的信号的相对幅度。通常可以以分贝(dB)为单位测量SNR。
当执行识别话语周期和非话语周期并去除非话语周期时,可以获得SNR。为了识别话语周期和非话语周期,可以使用VAD技术,并且在该处理中,可以在话语周期期间获得SNR。关于噪声幅度的信息可以在非话语周期期间获得,并且可以代替SNR使用。
根据本公开的实施例的电子设备100可以通过使用在预处理201中输入的整个音频信号来获得噪声信息,并且可以通过使用与音频信号的预设部分周期相对应的信号或与音频信号中的预设时间点相对应的信号来获得噪声信息。
电子设备100可以从始自与预处理201的开始相对应的时间点的音频信号获得噪声信息。
电子设备100可以从这样的音频信号获得噪声信息:该音频信号在始自与预处理201的开始相对应的时间点的预设时间段期间被输入。在另一示例中,电子设备100可以从这样的音频信号获得噪声信息:该音频信号在从与预处理201的开始相对应的时间点开始经过预设时间之后的时间点处被输入。
特别地,当电子设备100在预处理201中识别话语周期和非话语周期并去除非话语周期时,电子设备100可以从音频信号获得关于从其去除了非话语周期的整个信号的剩余部分的噪声信息。电子设备100还可以从与非话语周期的预设部分周期相对应的信号获得噪声信息,以及从在非话语周期的预设时间点的信号获得噪声信息。
当电子设备100从与特定时间段相对应的信号获得噪声信息时,电子设备100可以通过使用在与特定时间段相对应的信号中的噪声的幅度和语音或话语的幅度的最大值、中值或平均值中的至少一个来获得噪声信息。当电子设备100从输入音频信号获得噪声信息并且当电子设备100从与话语周期相对应的信号获得噪声信息时,电子设备100也可以以这种方式获得噪声信息。另外,当电子设备100从与非话语周期相对应的信号获得噪声信息时,电子设备100可以通过使用与非话语周期相对应的信号中的噪声的幅度的最大值、中值或平均值中的至少一个获得噪声信息。
在本公开的另一个实施例中,噪声信息可以包括关于噪声模式的信息。噪声模式可以是指噪声分布的形式。噪声可以分布的形式的示例是噪声均匀地分布在音频信号中或幅度大于或等于特定幅度的噪声分布在音频信号的特定周期的形式。例如,ASR的准确度可以随噪声分布的形式而变化。
在操作S430中,电子设备100可以基于情境信息预测电子设备100上的ASR的准确度。例如,电子设备100可以通过使用先前存储的查找表(例如,将ASR准确度值与噪声水平匹配的表)来确定与环境噪声水平值相对应的ASR的准确度。例如,当测量的环境噪声水平大于或等于预设值(例如,70分贝)时,电子设备100可以预测在电子设备100上执行的ASR的准确度较低(例如,60%的准确度)。
可选地,当音频信号的SNR小于预设值(例如,10dB)时,电子设备100可以预测ASR的准确度低(例如,50%的准确度)。然而,ASR准确度的预测不限于此,并且与环境噪声水平相对应的ASR结果的准确度的值或与音频信号的SNR相对应的ASR的准确度的值可能随电子设备100的硬件或软件的能力而不同。
电子设备100可以通过可学***和ASR的准确度的预测值作为学习数据而学习的模型,并且可以是AI模型。可学习模型可以包括准确度预测模型,该准确度预测模型学习在电子设备100上执行的ASR的结果以及对ASR的音频信号的噪声信息,并反映电子设备100的独特特性或用户语音的独特特性。
在操作S440中,电子设备100可以确定在操作S430中预测的ASR的准确度是否大于或等于预设值,并且当预测的ASR的准确度大于或等于预设值(S440-是)时,可以在操作S450中在电子设备100上对音频信号执行ASR。在操作S460中,电子设备100可以基于ASR的结果执行NLU。
另一方面,当在操作S430中ASR的准确度小于预设值(S440-否)时,在操作S470中,电子设备100可以将音频信号发送到服务器2000。服务器2000可以在操作S480中对接收的音频信号执行ASR,并且在操作S490中基于ASR的结果执行NLU。在操作S495中,在服务器2000上执行的NLU的结果可以被发送到电子设备100。
电子设备100可以基于NLU的结果执行DM以确定与用户的语音或话语相对应的动作。
例如,作为NLU的结果,电子设备100可以根据提取的用户的意图来搜索信息,或者确定相应的动作,诸如控制电子设备100中包括的硬件/软件组件的操作。当确定了多个动作时,电子设备100还可以确定多个动作的顺序作为对用户的语音或话语的响应。然而,对用户语音的响应并不限于这些示例。
图5是根据本公开的实施例的ASR***的操作方法的流程图。
参照图5,在操作S510中,根据本公开的实施例的电子设备100可以相对音频信号执行ASR。例如,图5的操作S510可以对应于图4的操作S450。
电子设备100可以确定ASR结果的准确度。例如,ASR结果可以包括可靠性数据。电子设备100可以基于可靠性数据确定准确度。
当ASR结果的准确度(例如,可靠性数据)大于或等于预设值(S520-是)时,在操作S530中,电子设备100可以执行NLU,包括分析ASR结果(例如,文本数据)的含义,以及利用包括在文本数据中的字符串生成用于用户的语音或话语的语言结构。
另一方面,当ASR结果的准确度(例如,可靠性数据)小于预设值时,电子设备100可以将音频信号发送到服务器2000。服务器2000可以在操作S550中对接收的音频信号执行ASR,并且可以在操作S560中执行NLU,以将音频信号转换为文本数据并分析文本数据的含义。在操作S570中,电子设备100可以从服务器2000接收NLU的结果。
电子设备100可以基于NLU的结果执行DM以确定与用户的语音或话语相对应的动作。
图6是根据本公开的实施例的ASR***的操作方法的流程图。
参照图6,在操作S610中,根据本公开的实施例的电子设备100可以对音频信号执行ASR。例如,图6的操作S610可以对应于图4的操作S450。
在操作S620中,电子设备100可以执行NLU以分析作为ASR的结果而获得的文本数据的含义。
电子设备100可以确定包括可靠性数据的NLU的结果的准确度。在操作S630中,电子设备100可以基于可靠性数据来确定NLU的结果的准确度。
当NLU的结果的准确度(例如,可靠性数据)大于或等于预设值(S630-是)时,在操作S640中,电子设备100可以执行DM,以基于NLU的结果确定与用户的语音或话语相对应的至少一个动作。例如,作为NLU的结果,电子设备100可以根据提取的用户的意图来搜索信息,或者确定并执行相应的动作,诸如控制电子设备100中包括的硬件/软件组件的操作。当确定多个动作时,设备100还可以确定多个动作的顺序作为对用户的语音或话语的响应。然而,NLU和DM的操作不限于这些示例。
另一方面,当NLU结果的准确度(例如,可靠性数据)小于预设值(S630-否)时,在操作S650中,电子设备100可以将音频信号发送到服务器2000。在操作S660中,服务器2000可以对接收的音频信号执行ASR,并且在操作S670中,可以执行NLU以将音频信号转换为文本数据并分析文本数据的含义。
在操作S680中,服务器2000可以执行DM以基于NLU的结果来确定与用户的语音或话语相对应的动作。
可选地,电子设备100可以在操作S675中从服务器2000接收NLU的结果,并且在操作S640中执行DM,以基于从服务器2000接收的NLU的结果确定与用户的语音或话语相对应的动作。
图7是根据本公开的实施例的ASR***的操作方法的流程图。
参照图7,在操作S710中,根据本公开的实施例的电子设备100可以将音频信号发送到服务器2000,并且在操作S720中,服务器2000可以对接收到的音频信号执行ASR。例如,图7的操作S720可对应于图4的操作S480。
在操作S730中,服务器2000可以执行NLU以分析作为ASR的结果而获得的文本数据的含义。
在操作S760中,服务器2000可以执行DM,以基于NLU的结果确定与用户的语音或话语相对应的至少一个动作。例如,作为NLU的结果,电子设备100可以确定相应的动作,诸如根据提取的用户意图来搜索信息,并且执行确定的相应动作,从而向电子设备100发送执行该动作的结果(例如,信息搜索结果)。然而,DM操作不限于这些示例。
电子设备100可以在操作S740中从服务器2000接收NLU的结果,并在操作S750中执行DM,以基于接收的NLU的结果确定与用户的语音或话语相对应的动作。例如,电子设备100可以根据用户的意图来确定并执行相应的动作,诸如控制电子设备100中包括的硬件/软件组件的操作。
根据本公开的实施例,电子设备100或服务器2000可以基于NLU的结果来确定电子设备100和服务器2000中的哪个将执行DM。
当在操作S760中在服务器2000上执行DM时,在操作S770中,服务器2000可以将DM的结果发送到电子设备100。
在操作S780中,电子设备100可以基于DM的结果向用户提供响应。例如,电子设备100可以通过对DM的结果执行NLG和TTS等来生成对用户的语音或话语的响应,并且将生成的响应作为文本显示或者将生成的响应作为音频输出。电子设备100可以操作以执行与响应相对应的功能。
图8是根据本公开的实施例的ASR***的操作方法的流程图。
参照图8,根据本公开的实施例的电子设备100可以在操作S810中向服务器2000发送音频信号,并且在操作S820中对音频信号执行ASR,从而获得第一ASR结果。在操作S830中,服务器2000还可以对从电子设备100接收的音频信号执行ASR,从而获得第二ASR结果。在操作S840中,服务器2000可以将第二ASR结果发送到电子设备100。
在操作S850中,电子设备100可以基于第一ASR结果来确定在电子设备100上对ASR的NLU是否可能。
例如,当第一ASR结果的准确度低(准确度小于预设值)时,使用第一ASR结果执行的NLU的结果的准确度可能低。
当第一ASR结果的准确度高(准确度大于或等于预设值)(S850-是)时,电子设备100可以在操作S860中使用第一ASR结果来执行NLU并且在操作S865中执行DM。
另一方面,当第一ASR结果的准确度低(S850-否)时,电子设备100可以在操作S855中将处理请求发送到服务器2000。在从电子设备100接收到处理请求之后,在操作S870中,服务器2000可以基于第二ASR结果来执行NLU。
在操作S880中,服务器2000可以执行DM,以基于NLU的结果确定与用户的语音或话语相对应的至少一个动作。例如,作为NLU的结果,服务器2000可以确定相应的动作,诸如根据提取的用户意图来搜索信息,并执行确定的相应动作,从而在操作S885中,向电子设备100发送执行该动作的结果(例如,信息搜索结果)。然而,DM和NLU操作不限于这些示例。
电子设备100可以在操作S875中从服务器2000接收NLU的结果,并在操作S865中执行DM,以基于接收的NLU的结果确定与用户的语音或话语相对应的动作。例如,电子设备100可以根据用户的意图来确定并执行相应的动作,诸如控制电子设备100中包括的硬件/软件组件的操作。
在操作S890中,基于DM的结果,根据本公开的实施例的电子设备100可以向用户提供响应。例如,电子设备100可以通过对DM的结果执行NLG和TTS等来生成对用户的语音或话语的响应,并且将生成的响应作为文本显示或者将生成的响应作为音频输出。电子设备100可以操作以执行与响应相对应的功能。
图9是根据本公开的实施例的ASR***的操作方法的流程图。
参照图9,根据本公开的实施例的电子设备100可以在操作S910中向服务器2000发送音频信号,并且在操作S920中对音频信号执行ASR,从而获得第一ASR结果。在操作S930中,服务器2000还可以对从电子设备100接收的音频信号执行ASR,从而获得第二ASR结果。在操作S940中,服务器2000可以将第二ASR结果发送到电子设备100。
在操作S950中,电子设备100可以基于情境信息选择第一ASR结果和第二ASR结果中的一个。例如,当环境噪声水平大于或等于预设值时,电子设备100可以将关于第一ASR结果的可靠性数据与关于第二ASR结果的可靠性数据进行比较,并且选择具有更高可靠性的ASR结果。
当环境噪声水平小于预设值时,电子设备100可以选择第一ASR结果和第二ASR结果中由电子设备100和服务器2000最快速确定的一个。考虑电子设备100向服务器2000发送音频信号所需的时间以及服务器2000向电子设备100发送第二ASR结果所需的时间,电子设备100可以在从服务器200接收到第二ASR结果之前获得第一ASR结果。然而,ASR结果的选择不限于该示例。
同时,电子设备100可以基于噪声水平信息以及电子设备100的时间信息和/或位置信息、音频信号的SNR信息、用户的话语位置信息等来选择第一ASR结果和第二ASR结果中的任何一个。例如,可以基于电子设备100的时间信息和位置信息、音频信号的SNR信息、用户的话语位置信息来确定用于选择ASR结果的一个或多个选择标准。
在操作S960中,电子设备100可以基于选择的ASR结果来执行NLU。
在操作S970中,电子设备100可以执行DM,以基于NLU的结果确定与用户的语音或话语相对应的动作。
在操作S980中,电子设备100可以基于DM的结果提供对用户语音输入的响应。例如,电子设备100可以通过对DM的结果执行NLG和TTS等来生成对用户的语音或话语的响应,并且将生成的响应作为文本显示或者将生成的响应作为音频输出。电子设备100可以操作以执行与响应相对应的功能。
图10是根据本公开的实施例的ASR***的操作方法的流程图。
参照图10,在操作S1010中,根据本公开的实施例的电子设备100可以将音频信号发送到服务器2000。在操作S1020中,电子设备100可以对音频信号执行ASR,从而获得第一ASR结果。在操作S1030中,服务器2000还可以对从电子设备100接收的音频信号执行ASR,从而获得第二ASR结果。在操作S1035中,服务器2000可以将第二ASR结果发送到电子设备100。
电子设备100可以在操作S1040中基于第一ASR结果执行NLU,从而获得第一NLU结果。
服务器2000可以在操作S1050中基于第二ASR结果执行NLU,从而获得第二NLU结果。在操作S1055中,服务器2000可以将第二NLU结果发送到电子设备100。
在操作S1060中,电子设备100可以基于情境信息选择第一NLU结果和第二NLU结果中的一个。例如,当环境噪声水平大于或等于预设值时,电子设备100可以将关于第一NLU结果的可靠性数据与关于第二NLU结果的可靠性数据进行比较,并选择具有更高可靠性的NLU结果(即,基于可靠性数据选择NLU结果)。另一方面,当环境噪声水平小于预设值时,电子设备100可以选择最快速确定的NLU结果(即,基于获得NLU结果的时间来选择NLU结果)。例如,考虑电子设备100向服务器2000发送音频信号所需的时间以及服务器2000向电子设备100发送第二NLU结果所需的时间,电子设备100可以在从服务器2000接收第二NLU结果之前获得第一NLU。然而,对NLU结果的选择不限于该示例。
同时,电子设备100可以基于噪声水平信息以及电子设备100的时间信息和/或位置信息、音频信号的SNR信息、用户的话语位置信息等选择第一NLU结果和第二NLU结果中的任何一个。例如,可以基于电子设备100的时间信息和位置信息、音频信号的SNR信息、用户的话语位置信息等来确定用于选择NLU结果的标准。
在操作S1070中,电子设备100可以基于NLU的选择结果执行DM以确定与用户的语音或话语相对应的动作。
在操作S1080中,电子设备100可以基于DM的结果向用户提供响应。例如,电子设备100可以通过对DM的结果执行NLG和TTS等来生成对用户的语音或话语的响应,并且将生成的响应作为文本显示或者将生成的响应作为音频输出。电子设备100可以操作以执行与响应相对应的一个或多个功能。
图11是用于描述根据本公开实施例的由电子设备执行的、基于包括在用户的语音或话语中的关键词执行ASR的方法的示图。
根据本公开的实施例的电子设备100可以根据情境信息(诸如噪声信息等)以及在用户的音频信号中是否识别出特定关键词来确定将在哪里执行ASR或NLU。例如,当电子设备100的环境噪声水平在预设范围内(例如,50dB到70dB)时,电子设备100可以确定在音频信号中是否识别出特定关键词。在这种情况下,可以使用诸如关键词识别的技术。
参照图11,用户可以提供由电子设备100检测的语音或话语的输入。电子设备100可以将用户的语音或话语转换为作为电信号的音频信号1120,并对音频信号1120执行ASR。例如,电子设备100可以分析音频信号1120并提取音频信号1120的特征。电子设备100可以通过将提取的特征输入到使用一个或多个神经网络学习的神经网络模型来确定与音频信号相对应的关键词。例如,当将音频信号的特征作为输入提供给神经网络模型时,神经网络模型可以输出一个或多个关键词以及与每个关键词相对应的可靠性数据。例如,如图11所示,第一关键词(例如“是”)和对于第一关键词的第一可靠性数据(例如,0.91),第二关键词(例如“否”)和对于第二关键词的第二可靠性数据(例如,0.02),第三关键词(例如,“打开”)和对于第三关键词的第三可靠性数据(例如,0.01),以及第四关键词(例如,“关闭”)和对于第四关键词的第四可靠性数据(例如,0.01)。
电子设备100可以通过比较对于关键词的可靠性数据来确定与音频信号1120相对应的一个关键词。例如,电子设备100可以在第一至第四关键词当中选择具有最高可靠性的第一关键词(例如,“是”)作为与音频信号1120相对应的关键词。
通过将与音频信号1120相对应的关键词与预设关键词进行比较,电子设备100可以确定与音频信号1120相对应的关键词是否为预设关键词。例如,当在电子设备100中获得的环境噪声水平在预设范围内(例如,50dB至70dB)并且与音频信号相对应的关键词与预设关键词相对应时,电子设备100可以确定电子设备100将执行ASR。然而,关键词处理不限于该示例。
同时,电子设备100也可以在环境噪声水平小于预设水平时确定电子设备100将执行ASR,以及根据环境噪声水平是否在预设范围内确定电子设备100是否将执行ASR。当SNR大于或等于预设值时,电子设备100可以确定电子设备100将执行ASR。
在确定要输入预设关键词时的预设环境噪声水平可以高于在确定不输入预设关键词时的预设环境噪声水平。对于基于SNR而不是噪声水平的确定,在确定要输入预设关键词时的SNR的预设值可以低于在确定不输入预设关键词时的SNR的预设值。也就是说,当输入预设关键词时,即使当环境噪声的幅度大于未输入预设关键词时,也可以在电子设备100上执行ASR。
电子设备100可以将用于用户的语音或话语的音频信号的特征与先前存储的与特定关键词相关的音频信号的特征进行比较以确定两个特征之间的相似度,并当相似度高于参考值时,确定用户的语音或话语对应于特定关键词。当用户的语音或话语对应于特定关键词并且环境噪声水平小于或等于预设水平时,电子设备100可以确定电子设备100将执行ASR。当SNR大于或等于预设值时,电子设备100可以确定电子设备100将执行ASR。
图12是根据本公开的实施例的用于描述由电子设备执行的,提供ASR相关设置的方法的示图。
参照图12,根据本公开的实施例的电子设备100可以提供交互界面。交互界面可以是从用户接收输入(例如,语音输入或文本输入)并提供作为对用户的输入的答复的输出响应的界面。例如,交互界面可以包括但不限于虚拟助手、AI助手等。
根据本公开的实施例的电子设备100可以从用户接收语音输入。例如,用户可以与选择麦克风图标1210的输入(例如,触摸输入)一起,或者与选择麦克风图标1210的输入(例如,触摸输入)依次地,向电子设备100提供由电子设备100检测的语音或话语。电子设备100可以在接收语音输入的同时测量环境噪声水平,并显示测量的噪声水平。例如,电子设备100可以显示指示噪声水平的指示器1230。然而,用户语音的输入及其检测不限于此,并且可以以各种方式指示噪声水平。
用户可以基于噪声水平选择执行ASR的设备。参照图12,用户可以通过使用快速面板1250中包括的ASR图标1260来选择执行ASR的设备。快速面板1250可以是但不限于通过在电子设备100的屏幕的上部区域触摸或拖动鼠标而出现的菜单屏幕。
例如,当噪声水平高时,可以基于用户输入停用快速面板1250中包括的ASR图标1260,从而将ASR设置为在服务器2000上执行。另一方面,当噪声水平低时,可以基于用户输入启用快速面板1250中包括的ASR图标1260,从而将ASR设置为在电子设备100上执行。用于启用或停用ASR图标1260的输入可以是用于选择ASR图标1260的输入,其中当选择处于启用状态的ASR图标1260时,ASR图标1260可以切换到停用状态,并且当选择处于停用状态的ASR图标1260时,ASR图标1260可以切换到启用状态。如图12所示,处于启用状态的ASR图标1260可以被突出显示,但是ASR图标1260和用户界面的布置不限于图示。
图13示出根据本公开实施例的ASR设置屏幕。
参照图13,根据本公开的实施例的电子设备100可以提供与ASR相关的设置菜单。例如,如图13所示,设置菜单可以包括ASR设置菜单1310和NLU设置菜单1320。
ASR设置菜单1310可以包括用于设置将要在电子设备100、服务器20000中的哪一个上以及电子设备100和服务器2000两者上执行ASR的项。例如,当在ASR设置菜单1310中将“在设备上”设置为“打开”并且将“在服务器上”设置为“关闭”时,可以在电子设备100上执行ASR。
另一方面,当在ASR设置菜单1310中将“在设备上”设置为“关闭”并且将“在服务器上”设置为“打开”时,可以在服务器2000上执行ASR。可选地,当在ASR设置菜单1310中将“在设备上”为“打开”并且将“在服务器上”设置为“打开”时,可以在电子设备100和服务器2000两者上执行ASR。电子设备100也可以基于电子设备100的情境信息在电子设备100或服务器2000上执行ASR。然而,ASR设置不限于该示例。
NLU设置菜单1320可以包括用于设置将要在电子设备100、服务器20000中的哪个上以及电子设备100和服务器2000两者上执行NLU的项目。例如,当在NLU设置菜单1320中将“在设备上”设置为“打开”并且将“在服务器上”设置为“关闭”时,可以在电子设备100上执行NLU。
另一方面,当在NLU设置菜单1320中将“在设备上”设置为“关闭”并且将“在服务器上”设置为“打开”时,可以在服务器2000上执行NLU。可选地,当在NLU设置菜单1320中将“在设备上”设置为“打开”并且将“在服务器上”设置为“打开”时,可以在电子设备100和服务器2000两者上执行NLU。电子设备100也可以基于电子设备100的情境信息在电子设备100或服务器2000上执行NLU。然而,NLU设置不限于该示例。
同时,图13中所示的与ASR相关的设置菜单仅是示例,并且可以以各种方式来实现用于设置ASR和/或NLU的界面。
图14是根据本公开的实施例的电子设备的框图。
参照图14,根据本公开的实施例的电子设备100可以包括处理器130和存储器120。
根据本公开的实施例的处理器130可以执行存储在存储器120中的一个或多个程序。处理器130可以包括单核、双核、三核、四核以及其任何倍数的核。处理器130还可包括多个处理器。例如,处理器130可以用主处理器和在睡眠模式下操作的子处理器来实现。
根据本公开的实施例的存储器120可以存储用于驱动和控制电子设备100的各种数据、程序或应用。存储器120可以存储ASR模型、NLU模型、DM模型、NLG模型或TTS模型中的至少一个,以提供对用户语音或话语的响应。
存储在存储器120中的程序可以包括一个或多个指令。存储器120中存储的程序(例如,一个或多个指令)或应用可以由处理器130执行。
根据本公开的实施例的处理器130可以通过执行存储在存储器120中的一个或多个程序来获得情境信息。例如,情境信息可以包括关于与根据本公开的实施例的服务器2000的网络连接状态的信息(或网络连接状态信息)、电子设备100的位置信息、电子设备100的时间信息、电子设备100的环境噪声水平信息、用户的语音特征信息、用户的位置信息等。
处理器130可以基于获得的情境信息来确定对用户的语音或话语执行ASR的设备。例如,处理器130可以基于环境噪声水平来确定电子设备100还是服务器2000将执行ASR。当环境噪声水平小于预设值时,处理器130可以确定电子设备100将执行ASR,并且当环境噪声水平大于或等于预设值时,处理器130可以确定外部设备(例如,服务器2000)将执行ASR。当电子设备100未与外部设备网络连接时,处理器130可以确定电子设备100将执行ASR。
当环境噪声水平具有在预设范围内的值时,处理器130可以提取包括在用户的语音或话语中的关键词,并且当提取的关键词是预设关键词时,处理器130确定电子设备100将执行ASR。
当处理器130确定外部设备(例如,服务器2000)将执行ASR时,处理器130可以控制与用户的语音或话语相对应的音频信号被发送到外部设备,并控制将从外部设备接收ASR结果。
另一方面,当电子设备100确定电子设备100将执行ASR时,处理器130可以对音频信号执行ASR。
处理器130可以通过对用户的语音或话语执行ASR来获得第一ASR结果,从外部设备接收第二ASR结果,并且选择第一ASR结果和第二ASR结果中的一个。
处理器130可以基于ASR的结果通过执行NLU、DM、NLG、TTS等来生成对用户的语音或话语的响应。处理器130可以将生成的响应作为文本显示,或者将生成的响应作为音频输出。处理器130可以控制与响应相对应的一个或多个功能的执行。
图15是根据本公开的实施例的处理器的框图。
参照图15,根据本公开的实施例的处理器130可以包括数据学习器1400和数据处理器1500。数据学习器1400和数据处理器1500可以被实现为处理器130上的专用硬件组件。可选地,数据学习器1400和数据处理器1500可以被实现为被配置为执行功能的硬件和/或软件。
根据本公开的实施例,数据学习器1400可以学习用于确定与用户的语音或话语相对应的响应的标准。例如,数据学习器1400可以学习用于学习ASR模型、NLU模型、DM模型、NLG模型或TTS模型中的至少一个的标准。例如,数据学习器1400可以学习用于将音频信号转换成文本数据以学习ASR模型的标准。数据学习器1400可以学习用于从文本数据识别用户意图以学习NLU模型的标准。数据学习器1400可以学习用于确定与用户的语音或话语相对应的动作以学习DM模型的标准。
可以考虑设备的数据处理模型的应用领域、学习目的、计算机的能力等来建立数据处理模型(例如,ASR模型、NLU模型、DM模型、NLG模型和TTS模型)。数据处理模型可以是AI模型。
数据学习器1400可以通过使用包括误差反向传播或梯度下降的学习算法等来学习数据处理模型。
数据学习器1400使用将学习数据作为输入值的监督学习来使数据处理模型学习。数据学习器1400可以使数据处理模型使用无监督学习来学习,在无监督学习中,数据处理模型在无需单独监督的情况下通过学习数据处理所需的数据的类型来发现用于数据处理的标准。数据学习器1400可以基于关于基于学习的结果是否正确的反馈,通过使用强化学习来学习数据处理模型。
一旦学习了数据处理模型,数据学习器1400就可以存储学习的数据处理模型。在这种情况下,数据学习器1400可以将学习的数据处理模型存储在电子设备的存储器中。可选地,数据学习器1400可以将学习的数据处理模型存储在服务器的存储器、存储器或连接至电子设备100的其他设备中。
在这种情况下,存储有学习的数据处理模型的存储器还可以存储与电子设备100的至少一个其他元件相关的命令或数据。存储器还可以存储软件和/或程序。程序可以包括内核,中间件,应用程序编程接口(API)和/或应用程序(或“应用”)等。
数据处理器1500可以通过使用学习的数据处理模型(例如,ASR模型、NLU模型、DM模型、NLG模型和TTS模型)来提供对用户的语音或话语的响应。
数据学习器1400或数据处理器1500中的至少一个可以以至少一个硬件芯片的形式制造并安装在电子设备上。例如,数据学习器1400或数据处理器1500中的至少一个可以以用于AI的专用硬件芯片的形式制造,或者可以作为现有通用处理器(例如,中央处理器单元(CPU)或应用处理器)或专用图形处理器(例如,图形处理单元(GPU))制造并在各种电子设备上实现。
在这种情况下,数据学习器1400和数据处理器1500可以在一个电子设备上以及在分开的电子设备上实现。例如,数据学习器1400和数据处理器1500中的一个可以包括在一个电子设备中,而另一个可以被包括在服务器中。数据学习器1400和数据处理器1500可以有线或无线方式通信地连接,使得可以将由数据学习器1400建立的模型信息提供给数据处理器1500,或者可以将输入到数据处理器1500的数据提供给数据学习器1400作为附加学习数据。
同时,数据学习器1400或数据处理器1500中的至少一个可以用软件模块来实现。当数据学习器1400或数据处理器1500中的至少一个可以用软件模块(或包括指令的程序模块)来实现时,软件模块可以存储在非暂时性计算机可读介质中,该介质可以是存储器或处理器130的其他微处理资源。在这种情况下,至少一个软件模块由OS或应用程序提供。可选地,至少一个软件模块的一部分可以由OS提供,而其另一部分可以由应用提供。
通过处理器和存储器执行根据本公开的与AI相关的功能。处理器可以包括微处理器,一个处理器或多个处理器。在这种情况下,一个处理器或多个处理器可以包括通用处理器(诸如CPU,应用处理器(AP),数字信号处理器(DSP)等),图形专用处理器(诸如GPU,视觉处理单元(VPU)等),以及AI专用处理器(诸如神经处理单元(NPU))。一个处理器或多个处理器可以根据存储在存储器中的预定义操作规则或AI模型来控制要处理的数据。当一个处理器或多个处理器包括AI专用处理器时,可以将AI专用处理器设计为专用于处理特定AI模型的硬件结构。
可以通过学习来优化预定义的操作规则或AI模型。在此,当通过学习优化预定的操作规则或AI模型时,通过使用多个学习数据执行期望的特性(或目的)来通过学习算法来训练基本的AI模型,从而制成预定义的操作规则或AI模型。这种学习可以由在其上在实现了根据本公开的AI的设备或者由单独的服务器和/或***来执行。学习算法的示例可以包括但不限于监督学习、非监督学习、半监督学习或强化学习。
AI模型可以包括多个神经网络层。多个神经网络层中的每一个可以具有多个权重值,并且使用先前层的操作结果和多个权重值之中的操作来执行神经网络操作。可以通过AI模型的学习结果来优化多个神经网络层的多个权重值。例如,可以在学习期间更新多个权重值以减小或最小化在AI模型中获得的损失值或成本值。AI神经网络的示例可以包括但不限于深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)和深度Q网络。
图16是根据本公开的实施例的电子设备的框图。图16所示的电子设备1600可以是图1中所示的电子设备100的示例。
参照图16,根据本公开的实施例的电子设备1600可以包括控制器1630、感测单元1620、通信器1640、输出器1650、用户输入器1660、音频/视频(A/V)输入器1670和储存器1680。
图16的控制器1630可以对应于图14的处理器130,图16的储存器1680可以对应于图14的存储器120。省略了关于这些组件的冗余描述。
通信器1640可以包括用于在电子设备1600与外部设备(例如,服务器等)之间执行通信的一个或多个组件。例如,通信器1640可以包括短距离无线通信器1641、移动通信器1642和广播接收器1643。根据本公开的实施例的电子设备1600可以通过使用通信器1640向服务器发送音频信号。例如,控制器1630可以通过控制通信器1640将与用户的语音或话语相对应的音频信号发送到服务器。
短程无线通信器1641可以包括但不限于蓝牙通信器、近场通信(NFC)单元、无线局域网(WLAN)通信器、ZigBee通信器、红外数据协会(IrDA)通信器、WiFi直接(WFD)通信器、超宽带(UWB)通信器和Ant+通信器。
移动通信器1642通过移动通信网络向基站、外部终端或服务器中的至少一个发送无线电信号并从基站、外部终端或服务器中的至少一个接收无线电信号。在此,无线电信号可以包括与语音呼叫信号、视频通信呼叫信号或文本/多媒体消息的发送/接收相对应的各种形式的数据。
广播接收器1643通过广播信道从外部源接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和地面信道。根据实现示例,电子设备1600可以不包括广播接收器1643。
输出器1650可以输出音频信号、视频信号或振动信号,并且可以包括显示器1651、音频输出器1652、振动马达1653等。根据本公开的实施例的电子设备1600可以通过使用输出器1650输出对用户的语音或话语的响应。例如,可以以音频信号或视频信号的形式生成对用户的语音或话语的响应,并且可以通过显示器1651或音频输出器1652输出。
显示器1651转换由控制器1630处理的图像信号、数据信号、屏幕显示(OSD)信号、控制信号等,以生成用于向用户显示图像的驱动信号。显示器1651可以用等离子体显示面板(PDP)、液晶显示器(LCD)、有机发光二极管(OLED)、柔性显示器等来实现,并且也可以用三维(3D)显示器来实现。显示器1651可以包括触摸屏,并且因此可以被用作输入设备以及输出设备。
音频输出器1652可以输出从通信器1640接收的或存储在储存器1680中的音频数据。音频输出器1652可以输出与在电子设备1600上执行的功能相关的音频信号(例如,呼叫信号接收声音、消息接收声音、警报声音)。音频输出器1652可以包括扬声器,蜂鸣器等。
振动马达1653可以输出振动或触觉信号。例如,振动马达1653可以输出与音频数据或视频数据的输出相对应的振动信号(例如,呼叫信号接收声音、消息接收声音等)。当向触摸屏输入触摸时,振动马达1653可以输出振动信号。
控制器1630可以控制电子设备1600的整体操作。例如,控制器1630可以通过执行存储在储存器1680中的程序整体控制通信器1640、输出器1650、用户输入器1660、感测单元1620或A/V输入器1670。
用户输入器1660可以是用户输入用于控制电子设备1600的数据的接口。例如,用户输入器1660可以包括但不限于小键盘、圆顶开关、触摸板(电容式叠加型、电阻叠加型、红外线束型、声表面波型、积分应变仪型、压电效应型等)、滚轮、滚动开关等。根据本公开的实施例的用户输入器1660可以包括触摸板,以在接收图2描述的预设输入的本公开的实施例中用于接收用户的输入以选择显示在显示器1651上的图标。用户输入器1660可以包括键盘、诸如按钮开关的物理按钮等。
感测单元1620可以包括用于感测电子设备1600的状态或电子设备1600的环境状态的传感器以及用于感测用户的生物信息的传感器。感测单元1620可以将由传感器1621-1629感测的信息传递到控制器1630。
感测单元1620可以包括但不限于磁传感器1621、加速度传感器1622、温度/湿度传感器1623、红外传感器1624、陀螺仪传感器1625、定位传感器(例如,全球定位***(GPS))1626、压力传感器1627、接近传感器1628或红/绿/蓝(RGB)传感器(或照度传感器)1629。普通技术人员从每个传感器的名称理解每个传感器的功能,因此将不再详细描述。根据本公开的实施例的感测单元1620可以包括噪声测量传感器。
A/V输入器1670可以接收音频信号或视频信号的输入,并且可以包括照相机1671、麦克风1672等。相机1671可以通过图像传感器在视频通信模式或拍摄模式下获得图像帧,诸如静止图像或运动图像。由图像传感器捕获的图像由控制器1630或单独的图像处理器处理。
由相机1671处理的图像帧可以存储在储存器1680中,或者可以通过通信器1640发送到外部源。根据电子设备1600的结构方面,可以提供两个或更多个相机1671。
麦克风1672可以接收外部音频信号,并将接收的信号处理成电语音数据。例如,麦克风1672可以从外部设备或扬声器接收音频信号。根据本公开的实施例的麦克风1672可以用于获得与用户的语音或话语相对应的音频信号的输入。麦克风1672可以使用各种噪声消除算法来消除在接收外部音频信号期间产生的噪声。根据本公开的实施例,可以在预处理阶段中使用用于消除麦克风1672的噪声的算法。
储存器1680可以存储用于由控制器1630处理和控制电子设备1600的程序,并且储存输入/输出数据(例如,应用、内容、外部设备的时区信息、地址簿等)。在根据本公开的实施例的电子设备的操作中,由OS或应用执行的操作可以以程序的形式存储在储存器1680中。为了执行相应的操作,可以将程序加载到存储设备1680中。当程序被储存以及程序被加载时,可以使用不同类型的存储器。
储存器1680可以包括闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如,安全数字(SD)或极限数字(XD)存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘等中的至少一种类型的存储介质。电子设备1600可以操作在互联网上执行储存器1680的储存功能的网络储存器或云服务器。
储存在储存器1680中的程序可以根据其功能而分类为多个模块,并且储存器1680可以包括例如ASR模块1681、NLU模块1682、DM模块1683、NLG模块和TTS模块。上面已经参照图2描述了ASR,NLU,DM,NLG和TTS,因此将不描述模块的冗余操作。
同时,ASR模块1681可以包括ASR模型,NLU模块1682可以包括NLU模型,DM模块1683可以包括DM模型,NLG模块可以包括NLG模型,并且TTS模块可以包括TTS模型。在这种情况下,ASR模型、NLU模型、DM模型、DM模型、NLG模型或TTS模型中的至少一个可以基于神经网络。例如,诸如但不限于DNN、RNN、BRDNN等的模型可以用作数据处理模型。
储存器1680可以进一步包括UI模块、触摸屏模块、通知模块等。
UI模块可以为每个应用提供与电子设备1600交互运作的专用UI或图形UI(GUI)。触摸屏模块可以感测用户在诸如显示器1651的触摸屏上的触摸手势,并且将关于触摸手势的信息传递给控制器1630。当在根据本公开的实施例的显示器中以GUI形式显示图标或显示响应时,可以使用UI模块。
触摸屏模块可以识别并分析触摸代码。触摸屏模块可以配置有包括控制器的单独硬件。
通知模块可以生成用于通知电子设备1600的事件的发生的信号。在电子设备1600中发生的事件的示例可以包括呼叫信号接收、消息接收、键信号输入、调度通知等。
同时,分别在图14和图16中示出的电子设备100和1600的框图是本公开的实施例的框图。根据电子设备100和1600的已实现规范,可以集成,添加或省略框图的元件。也就是说,当需要时,可以将两个或更多个元件集成到一个元件中,或者可以将一个元件分为两个或更多元件。在每个元件(或模块)中执行的功能旨在描述本公开的实施例,并且其详细的操作或装置不限制本公开的范围。
图17是根据本公开的实施例的服务器的框图。
参照图17,根据本公开的实施例的服务器2000可以包括通信器2010、处理器2030和存储器2020。
通信器2010可以在处理器2030的控制下向外部设备或外部服务器发送数据或信号,并从外部设备或外部服务器接收数据或信号。根据本公开实施例的通信器2010可以通过与本公开的实施例的电子设备执行通信来发送和接收数据或信号。例如,通信器2010可以从电子设备接收用户的音频信号,并向电子设备发送对音频信号执行ASR的结果(ASR结果)、执行NLU的结果(NLU结果)、执行DM的结果(DM结果)等。
通信器2010可以包括能够通过局域网(LAN)、广域网(WAN)、增值网络(VAN)、移动无线电通信网络、卫星通信网络及其组合通信的一个或多个组件。通信器2010可以通过使用WLAN(例如,WiFi)等直接无线地向外部设备或外部服务器发送数据或信号以及从外部设备或外部服务器接收数据或信号。
根据本公开的实施例的处理器2030可以控制服务器2000的操作。根据本公开的实施例的处理器2030可以执行存储在存储器2020中的一个或多个程序。根据本公开的实施例的存储器2020可以存储用于驱动和控制服务器2000的各种数据、程序或应用。可以将存储器2020中存储的程序根据其功能分类为多个模块。例如,存储器2020可以包括用于执行ASR的ASR模块,用于执行NLU的NLU模块以及用于执行DM的DM模块。ASR模块可以包括ASR模型,NLU模块可以包括NLU模型,并且DM模块可以包括DM模型。在这种情况下,ASR模型,NLU模型或DM模型中的至少一个可以基于神经网络。例如,诸如但不限于DNN、RNN、BRDNN等的模型可以用作数据处理模型。
存储在存储器2020中的程序可以包括一个或多个指令,并且存储在存储器2020中的程序(例如,一个或多个指令)或应用可以由处理器2030执行。
根据本公开的实施例的处理器2030可以基于从电子设备接收的音频信号执行ASR、NLU或DM中的至少一个。例如,处理器2030可以通过使用存储在存储器2020中的ASR模型来获得与音频信号相对应的文本数据。处理器2030可以通过使用NLU模型来识别语音或话语的含义(例如,用户的意图)。处理器2030可以通过使用DM模型基于NLU结果根据提取的用户意图来确定与用户的语音或话语相对应的动作。
图18示出根据本公开的实施例的电子设备和服务器通过彼此交互运作来学习和识别数据。
参照图18,根据本公开的实施例,服务器2000可以学习用于确定与用户的语音或话语相对应的响应的标准。例如,服务器2000可以学习用于学习ASR模型、NLU模型、DM模型、NLG模型或TTS模型中的至少一个的标准。在这种情况下,服务器2000可以执行图15所示的数据学习器1400的功能。
服务器2000可以通过使用学习数据来学习ASR模型、NLU模型、DM模型、NLG模型或TTS模型中的至少一个。
电子设备100可以向服务器2000发送数据(例如,与用户的语音或话语相对应的音频信号),并且请求服务器2000通过将数据应用于数据处理模型(例如,ASR模型、NLU模型、DM模型、NLG模型和TTS模型)来处理数据。例如,服务器2000可以通过使用数据处理模型(例如,ASR模型、NLU模型、DM模型、NLG模型和TTS模型)根据预设目的来处理音频信号。例如,服务器2000可以对音频信号执行ASR,NLU或DM。
可选地,电子设备100可以接收由服务器2000生成的数据处理模型,并通过使用接收的数据处理模型来处理数据。例如,电子设备100可以通过使用接收的数据处理模型(例如,ASR模型、NLU模型、DM模型、NLG模型和TTS模型)根据预设目的来处理数据(例如,与用户的语音或话语相对应的音频信号)。例如,电子设备100可以通过对音频信号执行ASR、NLU、DM、NLG、TTS等来确定与用户的语音或话语相对应的响应,并将确定的响应提供给用户。
图19是根据本公开实施例的电子设备的操作方法的流程图。
参照图19,在操作S1910中,根据本公开的实施例的电子设备100可以获得电子设备100的环境噪声信息。
例如,电子设备100可以通过使用噪声测量传感器等来测量环境噪声水平,其中可以以dB为单位测量噪声水平。可以根据特征以dB(A),dB(B),dB(C)和dB(D)为单位测量噪声水平。以dB(A)为单位测量的特征A类似于人耳的感觉质量,并且可以主要使用(但不限于)特征A来测量噪声水平。
电子设备100可以测量与用户的语音或话语相对应的音频信号的SNR作为噪声信息,其中可以以dB为单位来测量SNR。随着SNR的幅度增加,噪声的幅度可能会减少。
电子设备100可以周期性地获得电子设备100的环境噪声信息,或者在接收用户的语音或话语之前获得环境噪声信息。可选地,电子设备100可以在接收用户的语音或话语的同时获得环境噪声信息。
例如,电子设备100可以通过使用用于接收用户语音或话语的麦克风和单独的麦克风来测量环境噪声。可选地,电子设备100可以使用一个麦克风来接收用户的语音或话语,并测量环境噪声。在这种情况下,麦克风可以在用于识别用户语音的模式(第一模式)或用于测量噪声的模式(第二模式)下操作。
电子设备100可以通过周期性地以第二模式操作来测量环境噪声。噪声测量的周期可以由用户设置或者可以基于电子设备100的剩余电力来确定。
可选地,电子设备100可以在以第一模式操作之前通过在第二模式下操作来测量环境噪声,然后在第一模式下操作。电子设备100还可以通过使用第一模式和第二模式在接收用户的话语的同时测量环境噪声,但不限于此。
在操作S1920中,根据本公开的实施例的电子设备100可以接收用户的语音或话语。
电子设备100可以将接收的用户的语音或话语转换为音频信号。
在操作S1930中,电子设备100可以基于在操作S1910中获得的电子设备100的环境噪声信息来确定对用户的语音或话语执行ASR的设备。
例如,电子设备100可以基于环境噪声水平来确定电子设备100还是服务器2000将执行ASR。当环境噪声水平小于预设值时,电子设备100可以确定电子设备100将执行ASR,而当环境噪声水平大于或等于预设值时,电子设备100可以确定外部设备(例如服务器2000)将执行ASR。
当与用户的语音或话语相对应的音频信号的SNR大于或等于预设值时,电子设备100也可以确定电子设备100将执行ASR。另一方面,当音频信号的SNR小于预设值时,电子设备100可以确定服务器2000将执行ASR。然而,本公开不限于该示例。
电子设备100可以基于环境噪声信息以及电子设备100和服务器2000之间的网络连接状态信息、通信带宽信息、用户的位置信息、用户的语音特征信息、电子设备100的位置和时间信息等确定哪个设备对用户的语音或话语执行ASR。
虽然在图19中示出了电子设备100在接收到用户的语音或话语之后确定执行ASR的设备,但是电子设备100也可以在接收到用户的语音或话语之前基于环境噪声信息来确定执行ASR的设备。
当电子设备100在操作S1940-否中确定外部电子设备将执行ASR时,在操作S1955中,电子设备100可以将与用户的语音或话语相对应的音频信号发送到外部设备。
在操作S1960中,服务器2000可以基于接收的音频信号来执行ASR。
在操作S1965中,电子设备100可以从外部设备接收ASR的结果。
另一方面,当电子设备100在操作S1940-是中确定电子设备100将执行ASR时,在操作S1950中,电子设备100可以对音频信号执行ASR。
例如,电子设备100可以获得与音频信号相对应的文本数据。文本数据可以包括,但不限于,指示用户说出的语音的至少一个字符串。
在操作S1970中,电子设备100可以基于在S1950中在电子设备100上执行的ASR的结果或者在操作S1965中从已经执行了ASR的从外部设备(例如,服务器2000)接收的ASR结果,提供对用户的语音或话语的响应。
例如,电子设备100可以通过对ASR的结果执行NLU、DM、NLG、TTS等来生成对用户的语音或话语的响应,并且将生成的响应作为文本显示或将生成的响应作为音频输出。电子设备100可以操作以执行与响应相对应的功能。然而,本公开不限于该示例。
根据本公开的实施例的电子设备的操作方法可以以可以通过各种计算机组件执行并记录在计算机可读记录介质中的程序命令的形式来实现。计算机可读记录介质可以单独地或以组合的方式包括计算机可读指令、程序命令、数据文件、数据结构等。计算机可读记录介质中的程序可以是为本公开的当前实施例专门设计和配置的程序,或者是计算机软件领域的技术人员已知使用的程序命令。计算机可读记录介质的示例可以包括磁性介质(诸如硬盘,软盘和磁带)、光学介质(诸如光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光介质(诸如软盘)、以及专门配置用于存储和执行程序命令的硬件设备(诸如只读存储器(ROM),随机存取存储器(RAM)和闪存)等。此外,程序命令的示例包括由编译器创建的机器语言代码和由计算机使用解释器可执行的高级语言代码。
根据本公开的实施例的电子设备或电子设备的操作方法可以包括在计算机程序产品中并在计算机程序产品中提供。计算机程序产品可以作为产品在卖方和买方之间进行交易。
计算机程序产品可以包括软件(S/W)程序和存储有S/W程序的非暂时性计算机可读记录介质。例如,计算机程序产品可以包括通过制造商或电子设备或电子市场(例如,Google Play商店或App Store)以电子方式分发的S/W程序形式的产品(例如,可下载的应用程序)。对于电子分发,可以将S/W程序的至少一部分存储在存储介质中或临时生成。在这种情况下,存储介质可以是制造商或电子市场中的服务器的存储介质,也可以是临时存储S/W程序的中继服务器。
在包括服务器和客户端设备的***中,计算机程序产品可以包括服务器的存储介质或客户端设备的存储介质。可选地,当存在与服务器或客户端设备通信的第三设备(例如,智能电话)时,计算机程序产品可以包括第三设备的存储介质。可选地,计算机程序产品可以包括S/W程序本身,其从服务器发送到客户端设备或第三设备,或者从第三设备发送到客户端设备。
在这种情况下,服务器、客户端设备和第三设备中的一个可以执行计算机程序产品以执行根据本公开的实施例的方法。可选地,服务器,客户端设备和第三设备中的两个或更多个可以执行计算机程序产品以分布式方式执行根据本公开的实施例的方法。
例如,服务器(例如,云服务器或AI服务器等)可以执行存储在服务器中的计算机程序程序,以控制与服务器通信的客户端设备执行根据本公开的实施例的方法。
根据本公开的实施例的电子设备可以基于环境噪声信息确定电子设备和服务器中的哪个将执行ASR,并且处理在电子设备上可处理的话语,从而防止资源浪费和增加延迟时间。
尽管已经详细描述了本公开的实施例,但是本公开的范围不限于该描述,并且还包括本领域普通技术人员使用所附权利要求书中限定的本公开的概念进行的各种修改和改进。
Claims (13)
1.一种电子设备,包括:
存储器,存储一个或多个指令;以及
至少一个处理器,被配置为执行存储在存储器中的一个或多个指令,其中,当执行所述一个或多个指令时,所述至少一个处理器被配置为:
基于从电子设备的用户的语音或话语的音频信号获得的电子设备的环境噪声信息和是否在电子设备的用户的语音或话语中识别出预设关键词,确定电子设备还是外部服务器将执行电子设备的用户的语音或话语的自动语音识别(ASR),
基于确定电子设备将执行电子设备的用户的语音或话语的ASR,执行电子设备的用户的语音或话语的ASR,以及
基于执行电子设备的用户的语音或话语的ASR的结果,输出对电子设备的用户的语音或话语的响应,
其中,所述至少一个处理器还被配置为执行所述一个或多个指令以:
基于指示电子设备的环境噪声水平具有预设范围内的值的环境噪声信息提取包括在电子设备的用户的语音或话语中的关键词,以及
基于提取的关键词是预设关键词确定电子设备将执行电子设备的用户的语音或话语的ASR,否则确定外部服务器将执行电子设备的用户的语音或话语的ASR。
2.根据权利要求1所述的电子设备,其中,使用人工智能(AI)算法处理ASR。
3.根据权利要求1所述的电子设备,其中,所述至少一个处理器还被配置为执行所述一个或多个指令以:
基于环境噪声信息预测ASR的准确度,以及
基于ASR的准确度确定电子设备将执行ASR。
4.根据权利要求1所述的电子设备,其中,所述至少一个处理器还被配置为执行所述一个或多个指令,以基于指示电子设备的环境噪声水平小于预设值的环境噪声信息来确定电子设备将执行电子设备的用户的语音或话语的ASR。
5.根据权利要求4所述的电子设备,还包括:通信器,被配置为向外部设备发送数据和从外部设备接收数据,
其中,所述至少一个处理器还被配置为执行所述一个或多个指令以:
控制通信器将电子设备的用户的语音或话语的音频信号发送到外部设备,以及
基于指示电子设备的环境噪声水平大于或等于预设值的环境噪声信息,从外部设备接收电子设备的用户的语音或话语的ASR结果。
6.根据权利要求1所述的电子设备,还包括:通信器,被配置为向外部设备发送数据和从外部设备接收数据,
其中,所述至少一个处理器还被配置为执行所述一个或多个指令以:
通过执行电子设备的用户的语音或话语的ASR获得第一ASR结果,控制通信器将电子设备的用户的语音或话语的音频信号发送到外部设备,
从外部设备接收第二ASR结果,
从第一ASR结果和第二ASR结果当中选择ASR结果,以及
基于ASR结果,输出对电子设备的用户的语音或话语的响应。
7.根据权利要求6所述的电子设备,其中,所述至少一个处理器还被配置为执行所述一个或多个指令,以基于电子设备的环境噪声信息从第一ASR结果和第二ASR结果中选择ASR结果。
8.根据权利要求1所述的电子设备,其中,所述至少一个处理器还被配置为执行所述一个或多个指令,以基于环境噪声信息或执行电子设备的用户的语音或话语的ASR的结果中的至少一个,确定电子设备是否将执行自然语言理解(NLU)或对话管理(DM)中的至少一个。
9.根据权利要求1所述的电子设备,其中,所述至少一个处理器还被配置为执行所述一个或多个指令,以基于执行电子设备的用户的语音或话语的ASR的结果,通过执行自然语言理解(NLU)或对话管理(DM)中的至少一个来确定响应。
10.一种电子设备的操作方法,所述操作方法包括:
基于从电子设备的用户的语音或话语的音频信号获得的电子设备的环境噪声信息和是否在电子设备的用户的语音或话语中识别出预设关键词,确定电子设备还是外部服务器将执行电子设备的用户的语音或话语的自动语音识别(ASR);
基于确定电子设备将执行电子设备的用户的语音或话语的ASR,执行电子设备的用户的语音或话语的ASR;以及
基于执行电子设备的用户的语音或话语的ASR的结果,输出对电子设备的用户的语音或话语的响应,
其中,所述确定电子设备还是外部服务器将执行ASR包括:
基于指示电子设备的环境噪声水平具有预设范围内的值的环境噪声信息提取包括在电子设备的用户的语音或话语中的关键词,以及
基于关键词是预设关键词确定电子设备将执行电子设备的用户的语音或话语的ASR,否则确定外部服务器将执行电子设备的用户的语音或话语的ASR。
11.根据权利要求10所述的操作方法,还包括将电子设备的用户的语音或话语转换为电子设备的用户的语音或话语的音频信号。
12.根据权利要求10所述的操作方法,其中,所述确定包括:
基于环境噪声信息预测ASR的准确度,以及
基于ASR的准确度确定电子设备将执行电子设备的用户的语音或话语的ASR。
13.根据权利要求10所述的操作方法,还包括:基于指示电子设备的环境噪声水平大于或等于预设值的环境噪声信息来确定电子设备将不执行电子设备的用户的语音或话语的ASR;
将电子设备的用户的语音或话语的音频信号发送到外部设备;以及
从外部设备接收执行电子设备的用户的语音或话语的ASR的外部设备的结果。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180134432 | 2018-11-05 | ||
KR10-2018-0134432 | 2018-11-05 | ||
KR10-2019-0081529 | 2019-07-05 | ||
KR1020190081529A KR20200051462A (ko) | 2018-11-05 | 2019-07-05 | 전자 장치 및 그 동작방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111145735A CN111145735A (zh) | 2020-05-12 |
CN111145735B true CN111145735B (zh) | 2023-10-24 |
Family
ID=68342638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911065435.3A Active CN111145735B (zh) | 2018-11-05 | 2019-11-04 | 电子设备及其操作方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200143807A1 (zh) |
EP (1) | EP3651153B1 (zh) |
CN (1) | CN111145735B (zh) |
WO (1) | WO2020096218A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087778B2 (en) * | 2019-02-15 | 2021-08-10 | Qualcomm Incorporated | Speech-to-text conversion based on quality metric |
US11176940B1 (en) * | 2019-09-17 | 2021-11-16 | Amazon Technologies, Inc. | Relaying availability using a virtual assistant |
US20230134400A1 (en) * | 2021-11-03 | 2023-05-04 | Merlyn Mind, Inc. | Automatic adaptation of multi-modal system components |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903362A (zh) * | 2011-09-02 | 2013-01-30 | 微软公司 | 集成的本地和基于云的语音识别 |
US8798995B1 (en) * | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
WO2015041892A1 (en) * | 2013-09-20 | 2015-03-26 | Rawles Llc | Local and remote speech processing |
CN107146613A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音交互方法及装置 |
CN107257996A (zh) * | 2015-03-26 | 2017-10-17 | 英特尔公司 | 环境敏感自动语音识别的方法和*** |
CN107430870A (zh) * | 2015-03-12 | 2017-12-01 | 索尼公司 | 低功率语音命令检测器 |
CN107622767A (zh) * | 2016-07-15 | 2018-01-23 | 青岛海尔智能技术研发有限公司 | 家电***的语音控制方法与家电控制*** |
CN108665890A (zh) * | 2017-03-28 | 2018-10-16 | 三星电子株式会社 | 操作语音识别服务的方法、电子设备和支持该设备的*** |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191646A1 (en) * | 2002-04-08 | 2003-10-09 | D'avello Robert F. | Method of setting voice processing parameters in a communication device |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
JP4769121B2 (ja) * | 2006-05-15 | 2011-09-07 | 日本電信電話株式会社 | サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体 |
WO2009019783A1 (ja) * | 2007-08-09 | 2009-02-12 | Panasonic Corporation | 音声認識装置及び音声認識方法 |
US8359020B2 (en) * | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
WO2014055076A1 (en) * | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US9552825B2 (en) * | 2013-04-17 | 2017-01-24 | Honeywell International Inc. | Noise cancellation for voice activation |
JP6754184B2 (ja) * | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
CA2979614C (en) * | 2015-03-13 | 2018-07-03 | Trint Limited | Media generating and editing system |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
US10482904B1 (en) * | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US11062710B2 (en) * | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US11132989B2 (en) * | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
-
2019
- 2019-10-17 WO PCT/KR2019/013637 patent/WO2020096218A1/en active Application Filing
- 2019-10-23 EP EP19204833.8A patent/EP3651153B1/en active Active
- 2019-11-01 US US16/671,317 patent/US20200143807A1/en active Pending
- 2019-11-04 CN CN201911065435.3A patent/CN111145735B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903362A (zh) * | 2011-09-02 | 2013-01-30 | 微软公司 | 集成的本地和基于云的语音识别 |
US8798995B1 (en) * | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
WO2015041892A1 (en) * | 2013-09-20 | 2015-03-26 | Rawles Llc | Local and remote speech processing |
CN107430870A (zh) * | 2015-03-12 | 2017-12-01 | 索尼公司 | 低功率语音命令检测器 |
CN107257996A (zh) * | 2015-03-26 | 2017-10-17 | 英特尔公司 | 环境敏感自动语音识别的方法和*** |
CN107622767A (zh) * | 2016-07-15 | 2018-01-23 | 青岛海尔智能技术研发有限公司 | 家电***的语音控制方法与家电控制*** |
CN108665890A (zh) * | 2017-03-28 | 2018-10-16 | 三星电子株式会社 | 操作语音识别服务的方法、电子设备和支持该设备的*** |
CN107146613A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音交互方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3651153B1 (en) | 2022-01-19 |
WO2020096218A1 (en) | 2020-05-14 |
US20200143807A1 (en) | 2020-05-07 |
CN111145735A (zh) | 2020-05-12 |
EP3651153A1 (en) | 2020-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829235B (zh) | 语音数据处理方法和支持该方法的电子设备 | |
US11670302B2 (en) | Voice processing method and electronic device supporting the same | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
CN110288987B (zh) | 用于处理声音数据的***和控制该***的方法 | |
US10777193B2 (en) | System and device for selecting speech recognition model | |
US11170768B2 (en) | Device for performing task corresponding to user utterance | |
EP3531416A1 (en) | System for processing user utterance and controlling method thereof | |
EP3608906B1 (en) | System for processing user voice utterance and method for operating same | |
US20190258456A1 (en) | System for processing user utterance and controlling method thereof | |
CN111145735B (zh) | 电子设备及其操作方法 | |
CN108694944B (zh) | 通过使用框架生成自然语言表达的方法和设备 | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
US11120792B2 (en) | System for processing user utterance and controlling method thereof | |
KR20200051462A (ko) | 전자 장치 및 그 동작방법 | |
KR102508863B1 (ko) | 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버 | |
US11176934B1 (en) | Language switching on a speech interface device | |
KR102369083B1 (ko) | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 | |
EP3794809B1 (en) | Electronic device for performing task including call in response to user utterance and operation method thereof | |
US20200264839A1 (en) | Method of providing speech recognition service and electronic device for same | |
EP3627502A1 (en) | System and method for providing voice assistant service | |
KR20200016774A (ko) | 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법 | |
JP2019175453A (ja) | ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置 | |
KR102421745B1 (ko) | Tts 모델을 생성하는 시스템 및 전자 장치 | |
KR102617265B1 (ko) | 사용자 음성 입력을 처리하는 장치 | |
KR20190130202A (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |