CN116686046A - 电子设备及其控制方法 - Google Patents

电子设备及其控制方法 Download PDF

Info

Publication number
CN116686046A
CN116686046A CN202180081721.8A CN202180081721A CN116686046A CN 116686046 A CN116686046 A CN 116686046A CN 202180081721 A CN202180081721 A CN 202180081721A CN 116686046 A CN116686046 A CN 116686046A
Authority
CN
China
Prior art keywords
speech input
user
verification
input
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180081721.8A
Other languages
English (en)
Inventor
卢在英
梁希汀
陈昊俊
张东韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN116686046A publication Critical patent/CN116686046A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

提供了电子装置及其控制方法。电子装置包括麦克风、通信接口、存储器和处理器,其中,存储器用于存储至少一个指令,处理器用于执行至少一个指令,其中处理器可以:通过麦克风获得用于登记唤醒语音输入的用户语音输入;将用户语音输入输入到经训练的神经网络模型中以获得与包括在用户语音输入中的文本对应的第一特征向量;通过通信接口从外部服务器接收基于与包括在用户语音输入中的文本有关的信息确定的验证数据集;将包括在验证数据集中的验证语音输入输入到经训练的神经网络模型中以获得与验证语音输入对应的第二特征向量;以及基于第一特征向量和第二特征向量之间的相似度,识别是否将用户语音输入登记为唤醒语音输入。

Description

电子设备及其控制方法
技术领域
本公开涉及电子装置和用于控制电子装置的方法。更具体地,本公开涉及配置成登记用于唤醒电子装置的用户语音输入的电子装置及其控制方法。
背景技术
最近,已经开发了用于通过用户语音输入来控制电子装置的技术。特别地,电子装置可以接收唤醒语音输入以激活电子装置,或者可以激活电子装置的特定应用(例如,人工智能应用)。
为了登记传统的唤醒语音输入,或者为了清楚地识别包括在要登记为唤醒语音输入的用户语音输入中的文本,电子装置100能够仅通过发出相同的词多次(例如,5次或更多次)的过程登记唤醒语音输入。在这种情况下,由于用户在发出相同的词多次的情况下经常感觉尴尬或不舒服,因此在可用性方面存在限制。如果通过发出要登记为唤醒语音输入的用户语音输入仅一次来登记唤醒语音输入,则可能存在其中电子装置100通过包括登记文本和相似文本的用户语音输入激活的问题。
此外,当用户想要登记为唤醒语音输入的用户语音输入不适合作为唤醒语音输入时,可能需要通知用户这一点。
发明内容
技术问题
本公开提供了能够登记高质量的唤醒语音输入同时最小化用于登记唤醒语音输入的用户的发声的次数的电子装置及其控制方法。
技术方案
根据示例性实施例的一个方面,电子装置可以包括麦克风、通信接口、存储器和处理器,其中,存储器配置成存储至少一个指令,处理器配置成执行至少一个指令以:经由麦克风获得用于登记唤醒语音输入的用户语音输入;将用户语音输入输入到经训练的神经网络模型中以获得与包括在用户语音输入中的文本对应的第一特征向量;经由通信接口从外部服务器接收基于与包括在用户语音输入中的文本有关的信息确定的验证数据集;将包括在验证数据集中的验证语音输入输入到经训练的神经网络模型中以获得与验证语音输入对应的第二特征向量;以及基于第一特征向量和第二特征向量之间的相似度,识别是否将用户语音输入登记为唤醒语音输入。
处理器可以识别用户语音输入以获得与包括在用户语音输入中的文本有关的信息;以及经由通信接口向外部服务器发送与包括在用户语音输入中的文本有关的信息。外部服务器可以使用与文本有关的信息基于验证语音文本的第一音素序列来获得验证语音输入,其中所述验证语音文本的第一音素序列与包括在用户语音输入中的文本的第二音素序列具有一数量的公共音素。
验证语音输入是与公共音素的数量等于或大于阈值的验证语音文本对应的语音数据。
处理器可以基于第一特征向量和第二特征向量之间的相似度小于阈值,将包括在验证数据集中的另一验证语音输入输入到经训练的神经网络模型中以获得与另一验证语音输入对应的第三特征向量;比较第一特征向量和第三特征向量之间的另一相似度;以及基于第一特征向量和第三特征向量之间的所述另一相似度等于或大于阈值,提供请求用于登记唤醒语音输入的附加用户语音输入的引导消息。
处理器可以基于与包括在验证数据集中的所有验证语音输入对应的特征向量和第一特征向量之间的多个相似度小于阈值,将用户语音输入登记为唤醒语音输入。
处理器可以将用户语音输入输入到语音识别模型中以获得包括在用户语音中的文本;以及基于包括在用户语音输入中的文本的音素的长度和重复性中的至少一种,识别是否将包括在用户语音输入中的文本登记为唤醒语音输入的文本。
处理器可以基于包括在用户语音输入中的文本的音素的数量小于第一阈值或者包括在用户语音输入中的文本的音素的数量重复了大于第二阈值,提供请求包括用于登记唤醒词的另一文本附加用户语音输入的发声的引导消息。
引导消息配置成包括用于推荐基于电子装置的使用历史信息确定的另一文本作为唤醒语音输入的文本的消息。
处理器可以将用户语音输入输入到经训练的语音识别模型中,以获得指示用户语音输入是否为发出特定文本的用户语音输入的特征值;以及基于特征值识别是否将用户语音输入登记为唤醒语音输入。
处理器可以基于特征值小于阈值,提供请求用于登记唤醒语音输入的附加用户语音输入的引导消息。
根据示例性实施例的一个方面,控制电子装置的方法可以包括:获得用于登记唤醒语音输入的用户语音输入;将用户语音输入输入到经训练的神经网络模型中以获得与包括在用户语音输入中的文本对应的第一特征向量;从外部服务器接收基于与包括在用户语音输入中的文本有关的信息确定的验证数据集;将包括在验证数据集中的验证语音输入输入到经训练的神经网络模型中以获得与验证语音输入对应的第二特征向量;以及基于第一特征向量与第二特征向量之间的相似度,识别是否将用户语音输入登记为唤醒语音输入。
该方法可以包括:识别用户语音输入以获得与包括在用户语音输入中的文本有关的信息;以及向外部服务器发送与包括在用户语音输入中的文本有关的信息。服务器可以基于验证语音文本的第一音素序列来获得验证语音,所述验证语音文本的第一音素序列与包括在用户语音输入中的文本的第二音素序列具有一数量的公共音素。
验证语音输入可以是与公共音素的数量等于或大于阈值的验证语音文本对应的语音数据。
该方法可以包括:基于第一特征向量和第二特征向量之间的相似度小于阈值,将包括在验证数据集中的另一验证语音输入输入到经训练的神经网络模型中以获得与另一验证语音输入对应的第三特征向量;比较第一特征向量和第三特征向量之间的另一相似度;以及基于第一特征向量和第三特征向量之间的所述另一相似度等于或大于阈值,提供请求用于登记唤醒语音输入的附加用户语音输入的引导消息。
该方法可以包括:基于与包括在验证数据集中的所有验证语音输入对应的特征向量和第一特征向量之间的多个相似度小于阈值,将用户语音输入登记为唤醒语音输入。
有益效果
根据如上所述的本公开的实施例,可以通过将用于登记唤醒语音的用户的发声的数量减小到最小来增加唤醒语音输入登记过程的便利性或可用性,以及通过登记高质量的唤醒语音来实现能够通过语音识别控制电子装置的技术。
附图说明
本公开的某些实施例的上述和其他方面、特征和优点将从以下结合附图的描述中变得更加明显,其中:
图1a是示出登记唤醒语音输入的过程的图;
图1b是示出使用登记的唤醒语音输入唤醒电子装置的过程的图;
图2是示意性地示出根据实施例的电子装置的配置的框图;
图3是示出根据实施例的文本评估模块的配置的框图;
图4是示出根据实施例的非语音输入评估模块的配置的框图;
图5是示出根据实施例的获得验证数据集的方法的序列图;
图6是示出根据实施例的使用验证数据集来验证用户语音输入的方法的流程图;
图7a至图8是示出根据实施例的引导消息的图;
图9是示出根据实施例的控制电子装置的方法的流程图;以及
图10是示出根据实施例的电子装置的配置的详细框图。
具体实施方式
本公开可以具有若干实施例,并且可以对实施例进行各种修改。在以下描述中,利用附图及其详细描述提供了特定实施例。然而,应当理解,本公开不限于下文中描述的特定实施例,而是包括本公开的实施例的各种修改、等同和/或替换。关于附图的解释,相似的附图标记可以用于相似的组成元件。
在描述示例性实施例中,如果相关的已知功能或部件的详细描述使主题的描述不清楚,则可以省略其详细描述。
此外,示例性实施例可以以各种形式改变,并且因此,技术范围不限于以下示例性实施例。相反,提供这些示例性实施例以使本公开彻底和完整。
本文所用的术语仅旨在解释特定的示例性实施例,并且不限制本公开的范围。除非上下文清楚地另有指示,否则单数形式旨在包括复数形式。
在本公开的实施例中使用的术语“具有”、“可以具有”、“包括”和“可以包括”指示相应特征(例如,诸如数值、功能、操作或部分的元件)的存在,并且不排除附加特征的存在。
在本说明书中,术语“A或B”、“A和/或B中的至少一个”、或“A和/或B中的一个或多个”可以包括一起列举的项目的所有可能的组合。例如,术语“A或B”或“A和/或B中的至少一个”可以指定(1)至少一个A;(2)至少一个B;或(3)至少一个A和至少一个B两者。
如本文所用的表述“1”、“2”、“第一”或“第二”可以修饰各种各样的元件,不管其顺序和/或重要性,并且仅用于将一个元件与另一元件区分开。因此,不限制相应的元件。
当元件(例如,第一元件)与另一元件(例如,第二元件)可操作地或通信地联接或者可操作地或通信地联接至或连接至另一元件(例如,第二元件)时,元件可以直接与另一元件联接,或者可以通过其他元件(例如,第三元件)联接。当元件(例如,第一元件)与另一元件(例如,第二元件)直接联接或者直接联接至或直接连接至另一元件(例如,第二元件)时,在另一元件之间可以不存在元件(例如,第三元件)。
当元件(例如,第一元件)直接与另一元件(例如,第二元件)联接或者直接联接至或直接连接至另一元件(例如,第二元件)时,在该元件和另一元件之间可以不存在元件(例如,第三元件)
在本说明书中,术语“配置成”在某些情况下可以改变为例如“适于”、“有能力”、“设计成”、“适应于”、“制成”或“能够”。术语“配置成(设置成)”不一定意指硬件级别的“具体地设计成”。
在某些情况下,术语“设备配置成”可以指“设备能够”与另一设备或部件一起做某些事情。例如,配置成执行“A、B和C”的处理器可以通过运行存储在存储器设备(例如,中央处理单元(CPU)或应用处理器(AP))中的一个或多个软件程序,实现为用于执行功能的专用处理器(例如,嵌入式处理器)或用于执行功能的通用处理器。
在本文公开的实施例中,术语“模块”或“单元”指执行至少一个功能或操作的元件。“模块”或“单元”可以实现为硬件、软件或其组合。此外,除了应该在特定硬件中实现的“模块”或“单元”之外,多个“模块”或“单元”可以集成到至少一个模块中,并且可以以集成的方式实现为至少一个处理器。
此外,示意性地绘出附图中的各种元件和区域。因此,技术思想不受附图中绘出的相对尺寸或间隔的限制。
根据本公开的各种实施例可以包括例如智能电话、平板个人计算机(PC)、台式PC、膝上型PC和可穿戴设备中的至少一种。可穿戴设备可以包括附件(例如手表、戒指、手镯、脚链、项链、眼镜、隐形眼镜或头戴设备(HMD))、织物或衣服(例如电子衣服)、身体附着类型(例如皮垫或纹身)或生物可植入电路中的至少一种。
根据另一实施例,电子装置可以是家用电器。家用电器包括例如电视、数字视频盘(DVD)播放器、音频、冰箱、空调、真空吸尘器、烘箱、微波炉、洗衣机、空气吸尘器、机顶盒、家庭自动化控制面板、安全控制面板、电视箱(例如,Samsung HomeSyncTM、Apple TVTM或Google TVTM)、游戏控制台(例如,XboxTM、PlayStationTM等)、电子词典、电子钥匙、便携式摄像机或电子相框。
根据本公开的实施例,唤醒语音输入可以是使电子装置100执行唤醒操作的用户语音输入。在这种情况下,唤醒操作可以意指用于激活电子装置100、激活特定应用、或激活电子装置100的特定功能的操作。此外,激活可以意指电子装置100的电源、应用或功能关闭或从待机模式切换到开启状态的状态。此外,根据本公开的实施例的唤醒语音输入可以用作诸如触发语音输入等的另一术语。
下面将以本领域的普通技术人员将理解的方式更详细地描述本公开的示例性实施例。
图1a是示出登记唤醒语音输入的过程的图。
当进入唤醒语音输入登记模式时,电子装置100可以经由麦克风接收要登记为唤醒语音输入的第一用户语音输入。在这种情况下,第一用户语音输入可以包括作为要登记的唤醒语音输入的关键词的特定文本。
电子装置100可以在操作10中对所接收的第一用户语音输入执行预处理。具体地,电子装置100可以执行诸如噪音去除和声音质量增强的预处理操作。
电子装置100可以在操作20中提取经预处理的第一用户语音输入的语音特征。具体地,电子装置100可以通过将经预处理的第一用户语音输入从时间维度转换为频率维度来提取语音特征。
电子装置100可以将转换为频率维度的用户语音输入输入到第一神经网络模型30-1和第二神经网络模型30-2中的每一个。在这种情况下,第一神经网络模型(例如,关键词识别模型、语音识别模型等)可以是训练成获得与包括在用户语音输入中的文本对应的特征向量的神经网络模型,并且第二神经网络模型(例如,说话者识别模型)可以是训练成获得与发出用户语音输入的说话者的语音的唯一特征(例如,声门)对应的特征向量的神经网络模型。
此外,电子装置100可以登记输出到第一神经网络模型30-1的、与包括在第一用户语音输入中的文本对应的特征向量作为关键词特征向量40-1,并且输出到神经网络模型30-2的、与发出第一用户语音输入的说话者的语音特征对应的特征向量可以登记为说话者特征向量40-2,以将第一用户语音输入登记为唤醒语音输入。
具体地,电子装置100可以引导用户发出包括相同文本的用户语音输入约5次,并且可以通过与图1a中相同的过程将第一用户语音输入登记为唤醒语音输入多次。
图1b是示出使用登记的唤醒语音输入唤醒电子装置的过程的图。
电子装置100可以接收用于通过麦克风唤醒电子装置100的第二用户语音输入。
电子装置100可以在操作10中对所接收的第二用户语音输入执行预处理,并且可以在操作20中提取经预处理的第二用户语音输入的语音特征。
电子装置100可以将用户语音输入输入到第一神经网络模型30-1和第二神经网络模型30-2中的每一个。
电子装置100可以比较输出到第一神经网络模型30-1的、与包括在第二用户语音输入中的文本对应的特征向量和预登记的关键词特征向量40-1之间的相似度(在操作50-1中),以识别输出到第二神经网络模型30-2的、与发出第二用户语音输入的说话者的语音特征对应的特征向量和先前登记的说话者特征向量40-2之间的相似度(在操作50-2中)。在这种情况下,特征向量的相似度可以通过特征向量之间的距离识别。更具体地,当特征向量之间的距离较短时,可以识别出特征向量的相似度高,并且当特征向量之间的距离较大时,可以识别出特征向量的相似度低。
当与包括在第二用户语音输入中的文本对应的特征向量和预登记的关键词特征向量40-1之间的相似度以及与发出第二用户语音输入的说话者的语音特征对应的特征向量和预登记的说话者特征40-2之间的相似度等于或大于阈值(操作60)时,电子装置100可以基于第二用户语音输入唤醒电子装置100。
然而,当与包括在第二用户语音输入中的文本对应的特征向量和预登记的关键词特征向量40-1之间的相似度以及与发出第二用户语音输入的说话者的语音特征对应的特征向量和预登记的说话者特征40-2之间的相似度小于阈值(操作60)时,电子装置100可以忽略第二用户语音输入,而不会根据所获取的第二用户语音输入唤醒电子装置100。
本公开的实施例将如参考图1a和图1b所述的那样登记用于执行唤醒电子装置100的操作的唤醒语音输入。更具体地,本公开涉及在最小化登记唤醒语音输入的过程的情况下登记较高质量的唤醒语音输入的方法。
在下文中,将参考附图详细描述示例性实施例。图2是示出根据示例性实施例的控制设备的配置的框图。
电子装置100可以包括麦克风110、通信接口120、存储器130和处理器140。这里,电子装置100可以是智能电话。然而,根据本公开的电子装置100不限于特定类型的设备,并且可以实现为诸如平板PC、笔记本PC和数字TV的各种类型的电子装置100。
麦克风110可以接收由用户发出的用户语音输入。在这种情况下,麦克风110可以将所接收的用户语音输入转换为表示电压随时间变化的电信号。
在这种情况下,麦克风110可以设置在电子装置100内部,但这仅是示例性实施例,并且可以位于装置外部并且电连接至装置。
通信接口120包括电路并且可以与外部设备通信。具体地,处理器140可以从通过通信接口120连接的外部设备接收各种数据或信息,并且可以向外部设备发送各种数据或信息。
通信接口120可以包括无线保真(Wi-Fi)模块、蓝牙模块、无线通信模块和近场通信(NFC)模块中的至少一种。具体地,Wi-Fi模块和蓝牙模块可以分别使用Wi-Fi方法和蓝牙方法执行通信。如果使用Wi-Fi模块或蓝牙模块,则首先发送和接收诸如服务集标识符(SSID)、会话密钥等各种类型的连接信息,并且在建立通信之后,可以发送和接收各种类型的信息。
无线通信芯片可以根据诸如IEEE、ZigBee、第三代(3G)、第三代合作伙伴计划(3GPP)和长期演进(LTE)的各种通信标准执行通信。NFC模块表示在诸如135kHz、13.56MHz、433MHz、860~960MHz、2.45GHz等各种射频识别(RFID)频段之中使用13.56MHz频段的NFC方法操作的模块。
具体地,根据本公开的各种实施例,通信接口120可以向外部服务器200发送与要登记为唤醒语音输入的用户语音输入对应的文本有关的信息,并且可以从外部服务器200接收基于要登记为唤醒语音输入的用户语音输入获得的验证数据集。在这种情况下,验证数据集可以包括包含在要记录为唤醒语音输入的用户语音输入中的音素序列和具有等于或大于阈值的公共音素序列的至少一个验证语音输入。
存储器130可以存储用于控制电子装置100的指令。指令意指可以由处理器140以程序编写语言直接执行的一个动作语句,并且是用于程序执行或动作的最小单元。
特别地,存储器130可以存储针对用于登记唤醒语音输入以执行各种操作的模块的数据。用于登记唤醒语音输入的模块可以包括预处理模块141、语音特征提取模块142、文本评估模块143、非语音输入评估模块144、验证集评估模块145、唤醒语音输入登记模块146和消息提供模块147。此外,存储器130可以存储关键词识别模型、语音识别模型、说话者识别模型和语音活动检测模型,其中,关键词识别模型训练成识别包括在用户语音输入中的用于登记唤醒语音输入的特定关键词,语音识别模型训练成获取与用户语音输入对应的文本,说话者识别模型训练成获取发出用户语音输入的说话者的语音特征,语音活动检测模型训练成检测在包含用户语音的音频中的语音部分。此外,存储器130可以存储包括使用电子装置100的用户的记录(例如,搜索记录、执行记录、购买记录等)的使用历史数据库(DB)。
存储器130可以包括非易失性存储器和易失性存储器,其中,非易失性存储器即使当电力供应中断时也能够保持存储的信息,易失性存储器需要连续的电力供应以保持所存储的信息。用于登记唤醒语音输入以执行各种操作的模块的数据可以存储在非易失性存储器中。此外,诸如关键词识别模型(或语音识别模型)、说话者识别模型和语音部分检测模型的各种神经网络模型也可以存储在非易失性存储器中。
处理器140可以电连接至存储器130以控制电子装置100的总体功能和操作。
当输入用于登记唤醒语音输入的用户指令时,处理器140可以将存储在非易失性存储器中的、用于登记唤醒语音输入的模块的数据加载到易失性存储器中以执行各种操作。此外,处理器140可以将诸如关键词识别模型、说话者识别模型、语音活动检测模型等的神经网络模型加载到易失性存储器中。处理器140可以基于加载到易失性存储器中的数据通过各种模块和神经网络模型执行各种操作。这里,加载是指将存储在非易失性存储器中的数据加载并且存储到易失性存储器中使得处理器140可以访问所述数据的操作。
当输入用于登记唤醒语音输入的用户指令时,处理器140可以进入用于登记唤醒语音输入的模式。特别地,处理器140可以提供用于引导唤醒语音输入的登记的用户接口(UI)。UI可以包括引导用户语音输入的发声的消息。
处理器140可以通过麦克风110获取要登记为唤醒语音输入的用户语音输入。要登记为唤醒语音输入的用户语音输入可以包括关键词,该关键词是诸如用于唤醒电子装置100的口令之类的文本。
当通过麦克风110获取用户语音输入时,处理器140可以通过预处理模块141对所获取的用户语音输入执行预处理操作。具体地,预处理模块141可以去除包括在所获取的用户语音输入中的噪音,并且可以执行诸如用于澄清包括在音频信号中的用户语音输入的声音质量增强之类的操作。
处理器140可以通过语音特征提取模块142针对经预处理的用户语音输入提取语音特征。在这种情况下,提取语音特征可以意指将经预处理的用户语音输入从时间维度转换为频率维度。在这种情况下,语音特征提取模块142可以通过使用傅立叶变换等将在时间维度上的用户语音输入变换为频率维度。
处理器140可以使用文本评估模块143评估包括在经频率维度变换的用户语音输入中的文本,以验证用户语音输入是否登记为唤醒语音输入。
如图3中所示,文本评估模块143可以包括音素长度评估模块310、音素重复评估模块320和代词评估模块330。
具体地,文本评估模块143可以通过经由语音识别模型对用户语音输入执行语音识别来获取与包括在用户语音输入中的文本有关的信息。在这种情况下,与文本有关的信息可以是与包括在文本中的音素有关的信息。
音素长度评估模块310可以基于包括在文本中的音素的长度验证用户语音输入是否可以登记为唤醒语音输入。在这种情况下,音素长度评估模块310可以通过识别包括在文本中的音素的长度是否等于或小于阈值来验证用户语音输入是否可以登记为唤醒语音输入。例如,当用户语音输入为“cha”时,文本评估模块143可以获得“JA”作为用于用户语音输入的音素,并且音素长度评估模块310可以识别音素的数量等于或小于阈值(例如,2),并且可以识别用户语音输入不适于登记为唤醒语音输入。
音素重复评估模块320可以基于包括在文本中的音素是否重复来验证用户语音输入是否可以登记为唤醒语音输入。在这种情况下,音素重复评估模块320可以通过识别包括在文本中的重复音素的数量是否等于或大于阈值来验证用户语音输入是否可以登记为唤醒语音。例如,如果用户语音输入是“yayaya”,则文本评估模块143可以获得“JA papayaJA”作为用于用户语音输入的音素,并且音素重复评估模块320可以识别音素重复为阈值(例如,三次),并且识别出用户语音输入不适于登记为唤醒语音输入。
代词评估模块330可以基于文本是否包含代词来验证用户语音输入是否可以登记为唤醒语音输入。例如,如果用户语音为“那个”,则代词评估模块330可以识别出用户语音输入包括代词,并且识别出用户语音输入不适于登记为唤醒语音输入。
在上述实施例中,文本评估模块143可以基于音素的长度、其是否重复以及其是否包括代词来识别用户语音输入适于登记为唤醒语音输入,但这仅是实施例,并且文本评估模块143可以基于文本的其他特征(例如,当文本的长度等于或大于阈值时)来识别用户语音输入适于登记为唤醒语音输入。
返回参考图2,处理器140可以通过非语音输入评估模块144识别用户语音输入是否为发出特定文本的用户语音输入。换言之,非语音输入评估模块144可以识别通过麦克风110获取的用户语音输入是否不是人类语音输入,或者语音输入是否是不旨在发出文本的语音输入(诸如打鼾、休息等之类),以验证是否将用户语音输入登记为唤醒语音输入。
具体地,如图4中所示,非语音输入评估模块144可以包括语音活动检测模块410和语音评估模块420。在这种情况下,语音活动检测模块410可以通过经学习的语音活动检测模型识别在用户语音输入中是否包括非语音输入。具体地,语音活动检测模型是使用用于语音输入和非语音输入的训练数据而学习过的神经网络模型,并且可以获取指示语音活动是否包括在用户语音输入中的特征值。语音评估模块420可以基于通过语音活动检测模块410获得的特征值识别非语音输入包括在用户语音输入中。具体地,当通过语音活动检测模块410获得的特征值小于阈值时,语音评估模块420可以识别出用户语音输入除了包括语音活动之外还包括非语音输入,并且当通过语音活动检测模块410获得的特征值等于或大于阈值时,语音评估模块420可以识别出非语音输入不包括在用户语音输入中。
在上述实施例中,非语音评估模块144使用语音活动检测模型验证非语音输入是否包括在用户语音输入中,但这仅是实施例,并且模块可以通过使用另一方法来验证用户语音输入是否包含非语音输入。例如,非语音输入评估模块144可以对与语音输入的特征有关的特征(例如,过零率、谱熵等)进行建模,并且基于所建模的特征是否出现在用户语音输入中来识别是否在用户语音输入中检测到语音活动。换言之,当在用户语音中检测到非语音活动而不是语音活动时,非语音输入评估模块144可以识别出用户语音输入包括非语音输入,并且识别不将用户语音输入登记为唤醒语音输入。
返回参考图2,处理器140可以通过验证集评估模块145验证与包括在用户语音输入中的文本相似的文本是否唤醒电子装置100。
具体地,验证集评估模块145可以基于包括在用户语音输入中的文本获得用于验证用户语音输入的验证数据集。这将参考图5进行描述。
电子装置100可以获得包括在用户语音输入中的文本(操作S510)。在这种情况下,电子装置100可以通过将用户语音输入输入到语音识别模型中来获得包括在用户语音输入中的文本。
电子装置100可以将所获得的文本转换为音素序列(操作S520)。在这种情况下,音素是区分词的含义的最小声音单元,并且音素序列意指包括在词中的音素顺序地排列。
电子装置100可以向服务器200发送作为与文本有关的信息的音素序列信息(操作S530)。在这种情况下,电子装置100可以发送除了音素序列信息之外的与其他文本有关的信息。
服务器200可以基于最大公共音素序列获得验证数据集(操作S540)。具体地,服务器200可以基于存储在服务器200中的多个文本的音素序列以及包括在包含于音素序列信息中的音素序列中的音素序列的长度来获得验证数据集。换言之,服务器200可以识别存储在服务器200中的多个文本之中的、其中与包括在所接收的音素序列信息中的音素序列共同包括的音素序列的长度等于或大于阈值的文本。服务器200可以将与所识别的文本对应的语音数据识别为验证语音输入,并且获得包括至少一个所识别的验证语音的验证数据集。
与包括在所接收的音素序列信息中的音素序列共同包括的音素序列的长度可以指既包括在文本的音素序列中又包括在所接收的音素序列信息中所包含的音素序列中的音素序列的数量。
例如,当用户语音为“Halli Galli”时,与用户语音对应的音素序列可以是(HH AAL R IY K AA L R IY)。此外,服务器200可以获得用于Halli Geondam(HH AA L R IY K AAL R IY)(其是与用户语音对应的音素序列共同包括的音素序列的长度等于或大于阈值(例如,5)的文本)的语音数据、用于Harleys(HH AA LR IY SS)的语音数据等作为验证语音。
服务器200可以向电子装置100发送所获得的验证数据集(操作S550)。
电子装置100可以使用验证数据集验证用户语音输入(操作S560)。将参考图6描述其中电子装置100的验证集评估模块145使用验证数据集验证用户语音输入的方法。
在上述实施例中,已经描述了最大公共音素序列用于获得与包括在用户语音输入中的文本相似的文本,但这仅是实施例,并且可以通过其他方法来获得与包括在用户语音输入中的文本相似的文本。
图6是示出根据本公开的实施例的电子装置100通过验证集评估模块145使用验证数据集验证用户语音输入的方法的流程图。
验证集评估模块145可以从自服务器200接收的验证数据集之中选择验证语音输入(操作S610)。在这种情况下,验证集评估模块145可以从验证数据集之中选择对应于与用户语音输入的文本具有最高相似度的文本(例如,包括最多公共音素序列)的验证语音输入。
此时,验证集评估模块145可以通过预处理模块141对所获得的验证语音输入执行预处理,并且通过语音特征提取模块142针对经预处理的验证语音输入提取语音特征。然而,当从服务器200接收的验证语音输入是已经经历预处理过程和语音提取过程的语音数据时,可以省略预处理过程和语音提取过程。
验证集评估模块145可以通过将所选择的验证语音输入输入到神经网络模型来获得与所选择的验证语音输入对应的特征向量(操作S620)。在这种情况下,神经网络模型可以是训练成检测用户语音输入是否包括特定文本的关键词识别模型或训练成获取包括在用户语音输入中的文本的语音识别模型中的一个。
验证集评估模块145可以比较与所选择的验证语音输入对应的特征向量和与用户语音输入对应的特征向量之间的相似度(操作S630)。具体地,验证集评估模块145可以比较在操作S620中获得的特征向量和通过将由用户发出的用户语音输入输入到神经网络模型中获得的特征向量之间的相似度。在这种情况下,验证集评估模块145可以基于两个特征向量之间的余弦距离计算相似度。
验证集评估模块145可以识别相似度是否等于或大于阈值(操作S640)。具体地,当所选择的验证语音的特征向量和用户语音的特征向量之间的相似度低时,在包括相似关键词的用户语音输入发出时,用于执行唤醒操作的关键词的误识别概率低,并且因此电子装置100可能高估登记用户语音输入的可能性;并且当所选择的验证语音输入的特征向量和用户语音输入的特征向量之间的相似度高时,在包括相似关键词的用户语音输入发出时,用于执行唤醒操作的关键词的误识别概率高,验证集评估模块145可能低估用户语音输入的登记概率。
当相似度小于阈值时(操作S640-否)时,验证集评估模块145可以识别是否已经对所有验证语音输入执行评估(操作S650)。
当未对所有验证语音输入执行评估(操作S650-是)时,验证集评估模块145可以选择下一个验证语音输入并且重复执行操作S610至S640。当对所有验证语音输入执行了评估(操作S650-否)时,验证集评估模块145可以将相应的用户语音输入登记为唤醒语音输入(操作S660)。
然而,当相似度等于或大于阈值(操作S640-是)时,验证集评估模块145可以提供引导消息。在这种情况下,引导消息可以包括用于引导以另外发出包括相同文本的用户语音输入的消息。换言之,当用户语音输入的发音不准确或用户语音输入因外部因素而失真时,通过相似关键词错误识别的可能性高,并且因此可以提供请求用户的附加发声的引导消息。
换言之,如图6中所示,通过使用验证数据集经由内部验证来验证用户语音输入,当第一个发出的用户语音输入清楚时,用户语音输入登记为仅一次发声,并且当登记唤醒语音时可以发出最小次数以将用户语音输入登记为唤醒语音输入。
返回参考图2,处理器140可以通过唤醒语音输入登记模块146将用户语音输入登记为唤醒语音输入。在这种情况下,唤醒语音输入登记模块146可以基于文本评估模块143、非语音输入评估模块144和验证集评估模块145的验证结果将用户语音输入登记为唤醒语音输入。换言之,当文本评估模块143的验证结果、非语音输入评估模块144的验证结果和验证集评估模块145的验证结果都验证为将用户语音输入登记为唤醒语音输入时,唤醒语音输入登记模块146可以将用户语音输入登记为唤醒语音输入,并且将由第一神经网络模型30-1(例如,关键词识别模型或语音识别模型)获得的特征向量和通过由模型30-2(说话者输入模型)获得的第二神经网络获得的特征向量存储在存储器130中。
在这种情况下,唤醒语音输入登记模块146可以顺序地获得文本评估模块143、非语音输入评估模块144和验证集评估模块145的验证结果,但这仅是实施例,并且文本评估模块143、非语音输入评估模块144和验证集评估模块145的验证结果可以并行地被获取而不管其顺序。
消息提供模块147可以基于文本评估模块143、非语音输入评估模块144和验证集评估模块145的验证结果提供引导消息。换言之,如果文本评估模块143、非语音输入评估模块144和验证集评估模块145的验证结果中的一个确定为不适当,则消息提供模块147可以提供与识别为不适当的模块对应的引导消息
具体地,如果识别出文本评估模块143的验证结果不适当,则消息提供模块147可以提供引导不适当的原因的引导消息和替代文本。在这种情况下,可以基于使用历史DB来确定替代文本。换言之,基于用户历史DB,替代文本可以确定为由用户经常使用的文本、在用户感兴趣的领域中的文本等。例如,当用户想要将“yayaya”登记为唤醒语音输入时,消息提供模块147可以通知用户语音输入重复,并且提供如图7a中所示的用于引导替代文本的引导消息710。在这种情况下,确定为替代文本的“Cheolsooya”可以是由用户经常使用的文本,同时一些音素与“yayaya”(其是包括在用户语音输入中的文本)重复。作为另一示例,当用户想要将“cha”登记为唤醒语音输入时,消息提供模块147可以提供用于引导用户语音输入短和引导替代文本的引导消息720,如图7b中所示。在这种情况下,确定为替代文本的“Jadongcha”可以是与用户感兴趣的领域有关的文本,同时一些音素与“cha”(其是包括在用户语音输入中的文本)重复。作为另一示例,当用户想要将“Geugue”登记为唤醒语音输入时,消息提供模块147可以通知用户语音输入包括代词,如图7C中所示,并且提供用于引导替代文本的引导消息730。在这种情况下,确定为替代文本的“Galaxy”可以是由用户经常使用的文本。
当识别出非语音输入评估模块144和验证集评估模块145中的一个的验证结果不适当时,消息提供模块147可以提供请求包含与包括在用户语音输入中的文本相同的文本的附加用户语音输入的引导消息。例如,消息提供模块147可以提供请求附加用户语音输入的引导消息810,如图8中所示。然而,当非语音输入评估模块144和验证集评估模块145的验证结果识别为不适当的次数多于阈值次数(例如,5次)时,消息提供模块147可以提供请求包括另一文本的用户语音输入的引导消息。
图9是示出根据本公开的实施例的控制电子装置的方法的流程图。图9是示出在电子装置100进入用于登记唤醒语音输入的模式之后的操作的图。
电子装置100可以获得用户语音输入(操作S910)。在这种情况下,用户语音输入可以通过麦克风110接收,但这仅是实施例,并且可以从外部源接收,并且用户语音输入可以包括用户想要登记为唤醒语音输入的文本。
电子装置100可以预处理所获取的用户语音输入(操作S920)。具体地,电子装置100可以对用户语音输入执行诸如噪音去除、声音质量增强之类的预处理。
电子装置100可以提取经预处理的用户语音输入的语音特征(操作S930)。具体地,电子装置100可以通过将时间维度的语音数据转换为频率维度的用户语音数据的用户语音数据来提取语音特征。
电子装置100可以验证包括在用户语音输入中的文本(操作S940)。具体地,如参考图2和图3所述,电子装置100可以通过文本评估模块143验证包括在用户语音输入中的文本是否可以登记为唤醒语音输入的文本。
如果识别出文本验证结果是适当的(操作S950-否),则电子装置100可以验证非语音输入是否包括在用户语音输入中(操作S960)。具体地,如参考图2和图4所述,电子装置100可以通过非语音输入评估模块144验证非语音输入是否包括在用户语音输入中。
如果识别出非语音输入验证结果是适当的(操作S970-否),则电子装置100可以使用验证数据集验证用户语音输入(操作S980)。具体地,如参考图2、图5和图6所述,电子装置100可以通过验证集评估模块145获得验证数据集,并且使用包括在验证数据集中的验证语音来验证用户语音输入。
如果使用验证数据集识别出验证结果是适当的(操作S990-否),则电子装置100可以将用户语音输入登记为唤醒语音输入(操作S991)。
然而,如果识别文本验证结果是不适当的(操作S950-是),则电子装置100可以提供引导消息(操作S993)。在这种情况下,如图7a至图7c中所示,电子装置100可以提供包括不适当原因和替代文本的引导消息。
如果识别出非语音输入验证结果是不适当的(操作S970-是)或者作为使用验证数据集的验证的结果识别出是不适当的(操作S990-是),则电子装置100可以提供引导消息(操作S993)。在这种情况下,如图8中所示,电子装置100可以提供用于引导对用户语音输入的附加发声的引导消息。
在图9中,已经描述了文本验证(操作S940)、非语音输入验证(操作S960)和使用验证数据集的验证(操作S980)顺序地执行,但这仅是实施例,并且文本验证(操作S940)、非语音输入验证(操作S960)和使用验证数据集的验证(操作S980)可以并行地执行。
图10是示出根据本公开的实施例的电子装置的配置的详细框图。如图10中所示,根据本公开的电子装置1000可以包括显示器1010、扬声器1020、相机1030、存储器1040、通信接口1050、输入接口1060、传感器1070和处理器1080。然而,这种配置是示例,并且除了实现本公开的这种配置之外,可以添加新的配置或者可以省略一些配置。通信接口1050、存储器1040和处理器1080可以具有与参考图1描述的通信接口120、存储器130和处理器140相同的配置,并且因此将省略冗余描述。
显示器1010可以显示从外部源获取的图像或由相机1030拍摄的图像。此外,显示器1010可以显示用于登记唤醒语音输入的UI屏幕,并且可以显示用于引导作为用户语音输入的验证的结果的不适当的引导消息。
显示器1010可以实现为液晶显示面板(LCD)、有机发光二极管(OLED)等,并且在一些情况下,显示器1010可以实现为柔性显示器、透明显示器等。然而,根据本公开的显示器1010不限于特定类型。
扬声器1020可以输出语音消息。特别地,扬声器1020可以包括在电子装置1000中,但这仅是实施例,并且可以电连接至电子装置1000并且位于外部。在这种情况下,扬声器1020可以输出引导用户语音验证结果的语音消息。
相机1030可以拍摄图像。特别地,相机1030可以拍摄包括用户的图像。在这种情况下,图像可以是静止图像或移动图像。此外,相机1030可以包括彼此不同的多个镜头。这里,彼此不同的多个镜头可以包括其中多个镜头中的每一个的视场(FOV)彼此不同的情况、以及其中多个镜头中的每一个在其处布置的位置不同的情况等。
输入接口1060可以包括电路,并且处理器1080可以通过输入接口1060接收用于控制电子装置1000的操作的用户指令。具体地,输入接口1060可以包括作为触摸屏的显示器1010,但这仅是实施例,并且可以包括诸如按钮、麦克风110和遥控信号接收器的部件。
传感器1070可以获取与电子装置1000有关的各种信息。特别地,传感器1070可以包括能够获取电子装置1000的位置信息的全球定位***(GPS)以及用于获取使用电子装置1000的用户的生物测量信息的生物测量传感器(例如,心率传感器、光容量成像(PPG)传感器等)和诸如用于检测电子装置1000的运动的运动传感器的各种传感器。
处理器1080可以电连接至作为图10中所示的部件的显示器1010、扬声器1020、相机1030、存储器1040、通信接口1050、输入接口1060、传感器1070,以控制电子装置1000的总体功能和操作。
具体地,处理器1080可以使用验证数据集来验证要登记为唤醒语音输入的用户语音输入。具体地,处理器1080可以通过麦克风110获得用于登记唤醒语音输入的用户语音输入,将用户语音输入输入到经学习的神经网络模型(例如,关键词识别模型)以获得与包括在用户语音输入中的文本对应的第一特征向量,通过通信接口1050从外部服务器200接收基于与包括在用户语音输入中的文本有关的信息确定的验证数据集,通过将包括在接收到的验证数据集中的验证语音输入到神经网络模型来获得与验证语音输入对应的第二特征向量,并且基于第一特征向量和第二特征向量之间的相似度来验证是否将用户语音输入登记为唤醒语音。
具体地,处理器1080可以识别用户语音输入以获得关于包括在用户语音输入中的文本的信息,并且通过通信接口1050向外部服务器200发送关于包括在用户语音输入中的文本的信息。在这种情况下,外部服务器200可以基于存储在外部服务器200中的多个文本的音素序列和与包括在关于文本的信息中的音素序列共同包括的音素序列的长度来获得验证语音输入。验证语音输入可以是与存储在外部服务器200中的多个文本之中的这样的文本对应的语音数据,该文本的、公共地包括在所述关于文本的信息中的音素序列中所包含的音素序列的长度等于或大于阈值。
当第一特征向量和第二特征向量之间的相似度小于阈值时,处理器1080可以将包括在验证数据集中的另一验证语音输入输入到神经网络模型以获得与其他验证语音输入对应的第三特征向量,并且通过比较第一特征向量和第三特征向量之间的相似度来验证用户语音输入。然而,当第一特征向量和第二特征向量之间的相似度等于或大于阈值时,处理器1080可以提供请求用于登记唤醒语音输入的附加用户语音输入的引导消息,如图8中所示。
当第一特征向量和与包括在验证数据集中的所有验证语音对应的特征向量之间的相似度小于阈值时,处理器1080可以将用户语音输入登记为唤醒语音输入。
此外,处理器1080可以验证包括在用户语音输入中的文本。具体地,处理器1080可以将用户语音输入输入到语音识别模型以获得包括在用户语音输入中的文本,并且基于包括在用户语音输入中的文本的音素的长度和重复性中的至少一种来验证是否将唤醒语音输入的文本登记为唤醒语音输入的文本。换言之,当包括在用户语音输入中的文本的音素的数量小于第一阈值或者包括在用户语音输入中的文本的音素的数量重复超过第二阈值时,如图7a至图7c中所示,处理器1080可以提供请求包括用于登记唤醒语音输入的其他文本的附加用户语音输入的发声的引导消息。在这种情况下,引导消息可以包括用于将基于电子装置的使用历史信息确定的文本推荐为唤醒语音输入的文本的消息。
此外,处理器1080可以验证非语音输入是否包括在用户语音输入中。具体地,处理器1080可以将用户语音输入输入到经学习的语音确定模型中以获得指示用户语音输入是否是发出特定文本的用户语音输入的特征值,并且基于特征值验证是否通过唤醒语音输入来登记用户语音输入。在这种情况下,如果特征值小于阈值,则处理器1080可以提供请求用于登记唤醒语音的附加用户语音输入的引导消息,如图8中所示。
根据如上所述的本公开的实施例,可以通过将用于登记唤醒语音输入的用户的发声的次数减少到最小来增加唤醒语音输入登记过程的便利性或可用性,并且通过登记高质量的唤醒语音输入来改善能够通过语音识别控制电子装置的技术的性能。
通过处理器1080和存储器1040操作根据本公开的与人工智能有关的功能。处理器1080可以包括一个或多个处理器。在这种情况下,一个或多个处理器可以包括诸如CPU、AP、数字信号处理器(DSP)等的通用处理器和诸如图形处理单元(GPU)和视觉处理单元(VPU)的单一图形处理器。或者,其可以是致力于诸如神经处理单元(NPU)的人工智能的处理器。
一个或多个处理器1080可以控制成根据存储在存储器1040中的预定操作规则或人工智能模型来处理输入数据。或者,当一个或多个处理器是单一AI处理器时,单一AI处理器可以设计为专用于处理特定AI模型的硬件结构。
如上所述的与神经网络模型有关的功能可以通过存储器和处理器执行。处理器可以包括一个或多个处理器。在这种情况下,一个或多个处理器可以是通用处理器(诸如CPU和AP)、GPU、单一图形处理器(诸如VPU)或单一人工智能处理器(诸如NPU)。一个或多个处理器控制成根据存储在非易失性存储器和易失性存储器中的预定操作规则或人工智能模型来处理输入数据。预定动作规则或人工智能模型配置成通过学习产生。
这里,通过学习产生意指通过将学习算法应用到多个学习数据而产生期望特征的预定操作规则或人工智能模型。这种学习可以在其上执行根据本公开的人工智能的设备本身中执行,或者可以通过单独的服务器/***执行。
人工智能模型可以由多个神经网络层组成。每个层具有多个权重值,并且层操作通过上一层的操作和多个权重值的操作来执行。神经网络的示例包括卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、产生对抗网络(GAN)、深度Q-网络,并且本公开中的神经网络不限于上述示例,除非另有说明。
学习算法是使用多个学习数据训练预定目标设备(例如,机器人)的方法,使得预定目标设备可以自己做出决定或预测。学习算法的示例可以包括监督学习、无监督学习、半监督学习或强化学习,并且本公开中的学习算法不限于上述示例。
机器可读存储介质可以以非暂时性存储介质的形式提供。“非暂时性存储介质”意指存储介质不包括信号(例如,电磁波)并且是有形的,但是不区分数据是半永久地还是临时地存储在存储介质中。例如,术语“非暂时性”可以包括临时存储数据的缓存。
此外,根据实施例,根据上述各种实施例的方法可以作为计算机程序产品的部分提供。计算机程序产品可以在卖方和买方之间交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分布或通过应用商店(例如,PlayStoreTM)在线分布。在在线分布的情况下,计算机程序产品(例如,可下载的app)的至少一部分可以至少临时存储或暂时产生在存储介质(诸如制造商的服务器、应用商店的服务器或中继服务器中的存储器)上。
此外,根据上述各种实施例的部件(例如,模块或程序)中的每一个可以由单个实体或多个实体组成,并且可以省略上述子部件中的一些子部件,或者其他子部件还可以包括到各种实施例。通常,或另外,一些部件(例如,模块或程序)可以集成到单个实体中以执行由每个相应部件在集成之前执行的相同或相似的功能。根据各种实施例,由模块、程序或其他部件执行的操作可以是顺序的、并行的、或者两者迭代地或试探地执行,或者至少一些操作可以以不同的顺序执行、被省略,或者可以添加其他操作。
根据各种示例性实施例,由模块、程序模块或其他部件执行的操作可以是顺序的、并行的、或者两者迭代地或试探地执行,或者至少一些操作可以以不同的顺序执行、被省略,或者可以添加其他操作。
如本文所用的术语“模块”包括由硬件、软件或固件组成的单元,并且可以与诸如逻辑、逻辑块、部件或电路的术语互换使用。“模块”可以是执行一个或多个功能的整体构造部件或最小单元或其部分。例如,模块可以配置为专用集成电路(ASIC)。
根据实施例,上述各种实施例可以实现为包括存储在可由机器(例如,计算机)读取的机器可读存储介质中的指令的软件。设备可以包括根据所公开的实施例的电子设备,作为从存储介质调用所存储的指令并且能够根据所调用的指令进行操作的设备。
当由处理器执行指令时,处理器可以指导使用其他部件来执行与指令对应的功能,或者所述功能可以在处理器的控制下执行。指令可以包括由编译器或解释器产生或执行的代码。
前述示例性实施例和优点仅仅是示例性的,并且不应理解为限制本公开。本教导可以容易地应用到其他类型的装置。此外,本公开的示例性实施例的描述旨在是说明性的,并且不是旨在限制权利要求的范围,并且对于本领域技术人员来说,许多替换、修改和变化将是显而易见的。

Claims (15)

1.电子装置,包括:
麦克风;
通信接口;
存储器,配置成存储至少一个指令;以及
处理器,配置成执行所述至少一个指令以:
经由所述麦克风获得用于登记唤醒语音输入的用户语音输入;
将所述用户语音输入输入到经训练的神经网络模型中以获得与包括在所述用户语音输入中的文本对应的第一特征向量;
经由所述通信接口从外部服务器接收验证数据集,所述验证数据集是基于与包括在所述用户语音输入中的文本有关的信息而确定的;
将包括在所述验证数据集中的验证语音输入输入到所述经训练的神经网络模型中以获得与所述验证语音输入对应的第二特征向量;以及
基于所述第一特征向量和所述第二特征向量之间的相似度,识别是否将所述用户语音输入登记为所述唤醒语音输入。
2.根据权利要求1所述的装置,其中,所述处理器还配置成:
识别所述用户语音输入以获得与包括在所述用户语音输入中的文本有关的所述信息;以及
经由所述通信接口向所述外部服务器发送与包括在所述用户语音输入中的文本有关的所述信息,
其中,所述外部服务器配置成:使用与所述文本有关的所述信息,基于验证语音文本的第一音素序列来获得所述验证语音输入,所述验证语音文本的第一音素序列与包括在所述用户语音输入中的文本的第二音素序列具有一数量的公共音素。
3.根据权利要求2所述的装置,其中,所述验证语音输入是与所述公共音素的数量等于或大于阈值的所述验证语音文本对应的语音数据。
4.根据权利要求2所述的装置,其中,所述处理器还配置成:
基于所述第一特征向量和所述第二特征向量之间的所述相似度小于所述阈值,将包括在所述验证数据集中的另一验证语音输入输入到所述经训练的神经网络模型中以获得与所述另一验证语音输入对应的第三特征向量;
比较所述第一特征向量和所述第三特征向量之间的另一相似度;以及
基于所述第一特征向量和所述第三特征向量之间的所述另一相似度等于或大于所述阈值,提供请求用于登记唤醒语音输入的附加用户语音输入的引导消息。
5.根据权利要求4所述的装置,其中,所述处理器还配置成:
基于与包括在所述验证数据集中的所有验证语音输入对应的特征向量和所述第一特征向量之间的多个相似度小于所述阈值,将所述用户语音输入登记为所述唤醒语音输入。
6.根据权利要求1所述的装置,其中,所述处理器还配置成:
将所述用户语音输入输入到语音识别模型中以获得包括在所述用户语音中的文本;以及
基于包括在所述用户语音输入中的文本的音素的长度和重复性中的至少一种,识别是否将包括在所述用户语音输入中的文本登记为所述唤醒语音输入的文本。
7.根据权利要求6所述的装置,其中,所述处理器还配置成:
基于包括在所述用户语音输入中的文本的音素的数量小于第一阈值或者包括在所述用户语音输入中的文本的音素的数量重复了大于第二阈值,提供请求包括用于登记唤醒词的另一文本的附加用户语音输入的发声的引导消息。
8.根据权利要求7所述的装置,其中,所述引导消息配置成包括用于推荐基于所述电子装置的使用历史信息确定的所述另一文本作为所述唤醒语音输入的文本的消息。
9.根据权利要求1所述的装置,其中,所述处理器还配置成:
将所述用户语音输入输入到经训练的语音识别模型中以获得指示所述用户语音输入是否为发出特定文本的用户语音输入的特征值;以及
基于所述特征值识别是否将所述用户语音输入登记为所述唤醒语音输入。
10.根据权利要求9所述的装置,其中,所述处理器还配置成:
基于所述特征值小于所述阈值,提供请求用于登记所述唤醒语音输入的所述附加用户语音输入的所述引导消息。
11.控制电子装置的方法,所述方法包括:
获得用于登记唤醒语音输入的用户语音输入;
将所述用户语音输入输入到经训练的神经网络模型中以获得与包括在所述用户语音输入中的文本对应的第一特征向量;
从外部服务器接收验证数据集,所述验证数据集是基于与包括在所述用户语音输入中的文本有关的信息而确定的;
将包括在所述验证数据集中的验证语音输入输入到所述经训练的神经网络模型中以获得与所述验证语音输入对应的第二特征向量;以及
基于所述第一特征向量与所述第二特征向量之间的相似度,识别是否将所述用户语音输入登记为所述唤醒语音输入。
12.根据权利要求11所述的方法,还包括:
识别所述用户语音输入以获得与包括在所述用户语音输入中的文本有关的所述信息;以及
向所述外部服务器发送与包括在所述用户语音输入中的文本有关的所述信息,
其中,所述服务器配置成:基于验证语音文本的第一音素序列来获得所述验证语音,所述验证语音文本的第一音素序列与包括在所述用户语音输入中的文本的第二音素序列具有一数量的公共音素。
13.根据权利要求12所述的方法,其中,所述验证语音输入是与所述公共音素的数量等于或大于阈值的所述验证语音文本对应的语音数据。
14.根据权利要求12所述的方法,还包括:
基于所述第一特征向量和所述第二特征向量之间的所述相似度小于所述阈值,将包括在所述验证数据集中的另一验证语音输入输入到所述经训练的神经网络模型中以获得与所述另一验证语音输入对应的第三特征向量;
比较所述第一特征向量和所述第三特征向量之间的另一相似度;以及
基于所述第一特征向量和所述第三特征向量之间的所述另一相似度等于或大于所述阈值,提供请求用于登记唤醒语音输入的附加用户语音输入的引导消息。
15.根据权利要求14所述的方法,还包括:
基于与包括在所述验证数据集中的所有验证语音输入对应的特征向量和所述第一特征向量之间的多个相似度小于所述阈值,将所述用户语音输入登记为所述唤醒语音输入。
CN202180081721.8A 2021-01-05 2021-09-17 电子设备及其控制方法 Pending CN116686046A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020210000983A KR20220099003A (ko) 2021-01-05 2021-01-05 전자 장치 및 이의 제어 방법
KR10-2021-0000983 2021-01-05
PCT/KR2021/012883 WO2022149688A1 (ko) 2021-01-05 2021-09-17 전자 장치 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
CN116686046A true CN116686046A (zh) 2023-09-01

Family

ID=82357965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180081721.8A Pending CN116686046A (zh) 2021-01-05 2021-09-17 电子设备及其控制方法

Country Status (5)

Country Link
US (1) US20230017927A1 (zh)
EP (1) EP4207188A4 (zh)
KR (1) KR20220099003A (zh)
CN (1) CN116686046A (zh)
WO (1) WO2022149688A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
KR102623272B1 (ko) * 2016-10-12 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
JP6844472B2 (ja) * 2017-08-24 2021-03-17 トヨタ自動車株式会社 情報処理装置
KR102033218B1 (ko) * 2017-09-18 2019-10-16 주식회사 시그널비젼 음성 인식 방법 및 그 장치
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
KR20200023088A (ko) * 2018-08-24 2020-03-04 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR102061206B1 (ko) * 2019-05-30 2019-12-31 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법

Also Published As

Publication number Publication date
WO2022149688A1 (ko) 2022-07-14
EP4207188A1 (en) 2023-07-05
KR20220099003A (ko) 2022-07-12
US20230017927A1 (en) 2023-01-19
EP4207188A4 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
EP3525205B1 (en) Electronic device and method of performing function of electronic device
JP6452708B2 (ja) オーディオパスワードの強度を評価するためのシステムおよび方法
US11238871B2 (en) Electronic device and control method thereof
CN112074900B (zh) 用于自然语言处理的音频分析
CN105654952B (zh) 用于输出语音的电子设备、服务器和方法
KR102590914B1 (ko) 전자 장치 및 이의 제어 방법
US11455989B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
KR20160011709A (ko) 지불 확인을 위한 방법, 장치 및 시스템
US20200135212A1 (en) Speech recognition method and apparatus in environment including plurality of apparatuses
US20210335360A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
KR102531654B1 (ko) 음성 입력 인증 디바이스 및 그 방법
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
KR20190105182A (ko) 전자 장치 및 그 제어 방법
US10560576B1 (en) Electronic device for performing task including call in response to user utterance and operation method thereof
US11830501B2 (en) Electronic device and operation method for performing speech recognition
CN112639965A (zh) 在包括多个设备的环境中的语音识别方法和设备
CN116686046A (zh) 电子设备及其控制方法
EP4350690A1 (en) Artificial intelligence device and operating method thereof
US11893976B2 (en) Electronic device and operation method thereof
US12002457B1 (en) Action eligibility for natural language processing systems
EP4394762A1 (en) Electronic device, and voice recognition method of electronic device
KR20200021400A (ko) 음성 인식을 수행하는 전자 장치 및 그 동작 방법
KR20220120052A (ko) 데이터를 생성하는 전자 장치 및 그 동작 방법
KR20230013826A (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
Sinha et al. Speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination