CN111699528B - 电子装置及执行电子装置的功能的方法 - Google Patents

电子装置及执行电子装置的功能的方法 Download PDF

Info

Publication number
CN111699528B
CN111699528B CN201980010934.4A CN201980010934A CN111699528B CN 111699528 B CN111699528 B CN 111699528B CN 201980010934 A CN201980010934 A CN 201980010934A CN 111699528 B CN111699528 B CN 111699528B
Authority
CN
China
Prior art keywords
electronic device
user
voice input
authentication
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980010934.4A
Other languages
English (en)
Other versions
CN111699528A (zh
Inventor
崔奎哲
金碤圭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111699528A publication Critical patent/CN111699528A/zh
Application granted granted Critical
Publication of CN111699528B publication Critical patent/CN111699528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

公开了电子装置和方法,该电子装置包括通信电路、扬声器、麦克风和处理器。处理器实施方法,包括:通过麦克风接收第一语音输入;对第一语音输入执行第一声纹认证,包括确定第一语音输入是否与对应于存储在电子装置中的用户的语音信息相匹配;当第一语音输入与语音信息不匹配时,向至少一个外部电子装置发送用于执行第二声纹认证的请求消息;接收指示第一语音输入是否经由第二声纹认证而被认证的响应消息;通过麦克风接收第二语音输入;以及通过通信电路将与第二语音输入相关的第二数据发送至外部服务器,以对第二数据进行自动语音识别(ASR)或自然语言理解(NLU)。

Description

电子装置及执行电子装置的功能的方法
技术领域
本公开涉及电子装置和执行该电子装置的功能的方法。
背景技术
人工智能***是用于实现计算机化智能的计算机***,计算机化智能能够学习,做出决策,并且其使用频率越高,识别率提高。
人工智能技术包括使用用于自行对输入数据的特征进行分类/学习的算法的机器学习(例如,深度学习)技术和用于通过机器学习算法来复制人脑的认知和决策功能的元素技术。
元素技术可包括以下技术中的一个或多个:用于识别人类语言/字符的语言理解技术、用于通过诸如人类视觉的***来识别对象的视觉理解技术、用于确定信息并执行逻辑推理和预测的推理/预测技术、用于将人类体验信息处理成知识数据的知识表示技术、以及用于控制车辆的自主驾驶或机器人的运动的运动控制技术。
例如,语言理解对应于用于识别和应用/处理人类语言/文本的技术,并且可包括自然语言处理、机器翻译、对话***、问答处理以及语音识别/合成。
例如,视觉理解对应于用于通过诸如人类视觉的***识别对象并对其进行处理的技术,并且可包括对象识别、对象跟踪、图像搜索、人员识别、场景理解、空间理解和图像改进。
例如,推理和预测对应于用于确定信息并对其进行逻辑推理和预测的技术,并且可包括基于知识/概率的推理、优化预测、基于偏好的规划和推荐。
例如,知识表示对应于用于将人类经验信息自动处理为知识数据的技术,并且可包括数据结构(例如,数据创建/分类)和数据管理(例如,数据的使用)。
例如,运动控制对应于用于控制车辆的自主驾驶或机器人的运动的技术,并且可包括运动控制(例如,导航、冲击或驾驶)和操纵控制(例如,行为控制)。
发明内容
技术问题
具有语音识别功能的电子装置可在第一模式(例如,唤醒模式或空闲模式)下从用户获取话语。当话语包括预置单词(例如,唤醒单词)时,电子装置的模式切换至第二模式(例如,指令执行模式),并且电子装置可执行相关操作以执行话语中所包括的指令。例如,辨识所获取的话语是否包括预置单词的方法可包括以下方法中的一个或多个:分析所获取的话语的音频特征并将其与所存储的话语的音频特征进行比较,以及将所获取的话语转换为字符串(语音到文本(STT))并将所转换的字符串与预置单词进行比较。
在各种示例中,具有讲话者认证功能的电子装置可接收用户的话语(或语音),并确定是否通过话语的声纹来认证电子装置的用户。例如,电子装置可在第一模式下从接收到的话语中获取声纹,并将所获取的声纹存储为认证声纹。电子装置可接收在第二模式下另外接收的用户的话语,并将从话语中提取的声纹与所存储的认证声纹进行比较,以便执行用户认证程序。
比较音频特征的方法或通过STT比较字符串的方法的缺点在于,对未在电子装置中注册的用户的话语执行操作。使用声纹认证来执行对认证用户的话语的操作的方法的缺点在于,声纹应进行注册以使用相应的装置,并且未注册的用户不能使用该装置。
问题的解决方案
根据本公开的一方面,提供了一种电子装置。该电子装置包括至少一个通信电路、扬声器、麦克风、操作性地连接至通信电路、扬声器和麦克风的至少一个处理器、以及存储指令的存储器,其中,指令可由至少一个处理器执行以使电子装置:通过麦克风接收第一语音输入;对第一语音输入执行第一声纹认证,包括确定第一语音输入是否与对应于存储在电子装置中的用户的语音信息相匹配;当第一语音输入与语音信息不匹配时,使用通信电路向至少一个外部电子装置发送包括与第一语音输入相关的第一数据的请求消息,以对第一语音输入执行第二声纹认证;从至少一个外部电子装置接收指示第一语音输入是否经由第二声纹认证而被认证的响应消息;通过麦克风接收第二语音输入;以及通过通信电路将与第二语音输入相关的第二数据发送至外部服务器,以对与第二语音输入相关的第二数据执行自动语音识别(ASR)和自然语言理解(NLU)中的至少一种。
根据本公开的另一方面,提供了一种操作电子装置的方法。该方法包括:通过麦克风接收第一语音输入;对第一语音输入执行第一声纹认证,包括确定第一语音输入是否与对应于存储在电子装置中的用户的语音信息相匹配;当第一语音输入与语音信息不匹配时,使用通信电路向至少一个外部电子装置发送包括与第一语音输入相关的第一数据的请求消息,以对第一语音输入执行第二声纹认证;从至少一个外部电子装置接收指示第一语音输入是否经由第二声纹认证而被认证的响应消息;通过麦克风接收第二语音输入;以及将与第二语音输入相关的第二数据发送至外部服务器,以对与第二语音输入相关的第二数据执行自动语音识别(ASR)和自然语言理解(NLU)中的至少一种。根据本公开的另一方面,提供了一种电子装置。该电子装置包括至少一个通信电路、麦克风、操作性地连接至通信电路和麦克风的至少一个处理器、以及存储指令的存储器,其中,指令可由至少一个处理器执行以使电子装置:通过麦克风接收第一语音输入;对第一语音输入执行第一声纹认证,包括确定第一语音输入是否与对应于存储在电子装置中的用户的语音信息相匹配,当第一语音输入与在电子装置中注册的用户不对应时,使用通信电路向至少一个外部电子装置发送包括与第一语音输入相关的第一数据的请求消息,以使外部电子装置执行用于第一语音输入的第二声纹认证处理;使用通信电路从外部电子装置接收包括认证结果的响应消息;以及基于认证结果执行与接收到的第一语音输入或通过麦克风接收到的第二语音输入相对应的操作。根据各种实施方式的电子装置可对未在接收话语的电子装置中注册的用户的话语执行声纹认证,并且可执行根据各种实施方式的与话语相关的操作。
发明的有益效果
本公开的各种实施方式可提供能够基于未注册的用户的话语执行声纹认证并执行与该话语相关的操作的电子装置,以及由电子装置执行功能的方法。
附图说明
从以下结合附图的详细描述中,本公开的上述和其它方面、特征和有益效果将变得更加明显,其中:
图1示出了根据本公开的各种实施方式的***环境;
图2是示出根据本公开的各种实施方式的电子装置的详细配置的框图;
图3是示出根据本公开的各种实施方式的电子装置和云服务器的详细配置的框图;
图4是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图;
图5示出了根据本公开的各种实施方式的讲话者识别***;
图6是示出根据本公开的各种实施方式的讲话者识别模型的图;
图7是示出根据本公开的各种实施方式的通过讲话者识别的电子装置的功能的流程图;
图8是示出根据本公开的各种实施方式的电子装置的通过讲话者识别的详细功能的流程图;
图9是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图;
图10是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图;
图11是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图12是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图13是示出根据本公开的各种实施方式的装置之间的操作的***;
图14是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图;
图15是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图;
图16是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图17是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图;
图18是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图;
图19是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图20是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图;
图21是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图;
图22是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图23是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图24是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图25是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图26是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图;
图27示出了根据本公开的各种实施方式的在用户终端中显示的话语认证请求屏幕;
图28示出了根据本公开的各种实施方式的在用户终端中显示的话语认证请求屏幕;
图29示出了根据本公开的各种实施方式的在用户终端中显示的话语认证请求屏幕;
图30示出了根据本公开的各种实施方式的集成智能***;
图31是示出根据本公开的实施方式的集成智能***的用户终端的框图;
图32示出了根据本公开的实施方式的用户终端的智能应用程序的执行;以及
图33是示出根据本公开的各种实施方式的电子装置的框图。
具体实施方式
下文中,将参考附图描述本公开的各种实施方式。实施方式和其中使用的术语不旨在将本文公开的技术限制为具体形式,而是应当理解为包括相应实施方案的各种修改、等同物和/或替代方案。在描述附图时,相同的参考标记可用于表示相同的组成元件。单数表述可包括复数表述,除非它们在上下文中明确不同。如本文中使用的,除非上下文另外清楚地指示,否则单数形式也可包括复数形式。在本公开的各种实施方式中使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种组件,而不管顺序和/或重要性,但不限制相应的组件。当元件(例如,第一元件)被称为“(功能地或通信地)连接”或“直接联接”至另一元件(第二元件)时,该元件可直接连接至另一元件或通过又一元件(例如,第三元件)连接至所述另一元件。表述“多个”可意指至少两个。表述“至少A、B或C”可仅包括A、仅B、仅C、A和B两者、A和C两者、B和C两者、所有A、B和E,或其变型。
在本公开的各种实施方式中使用的表述“配置成”可根据情况在硬件或软件方面与例如“适合于”、“具有……的能力”、“设计成”、“适于”、“制成”或“能够”互换使用。可替代地,在一些情况下,表述“配置成……的装置”可意指该装置与其它装置或组件一起“能够……”。例如,短语“适于(或配置成)执行A、B和C的处理器”可意指用于执行相应操作的专用处理器(例如,嵌入式处理器),或者可通过执行存储在存储器装置中的一个或多个软件程序来执行相应操作的通用处理器(例如,中央处理单元(CPU)或应用处理器(AP))。
根据本公开的各种实施方式的电子装置可包括例如以下中的一个或多个:智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器(电子书阅读器)、台式PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MPEG-1音频层-3(MP3)播放器、移动医疗装置、相机和可佩戴装置。HMD装置可包括以下中的一个或多个:附件类型装置(例如手表、戒指、手链、脚链、项链、一副眼镜、隐形眼镜、头戴式装置(HMD)或头戴式显示器(HMD))、织物或衣服集成装置(例如,电子衣服)、身体附着装置(例如,皮肤垫或纹身)和生物可植入电路。在一些实施方式中,电子装置可包括例如以下中的一个或多个:电视、数字视频光盘(DVD)播放器、音频、冰箱、空调、真空清洁器、烤箱、微波炉、洗衣机、空气清洁器、机顶盒、家庭自动化控制面板、安全控制面板、TV盒(例如,SamsungHomeSyncTM、Apple TVTM或Google TVTM)、游戏控制台(例如,XboxTM和PlayStationTM)、电子词典、电子钥匙、摄录像机和电子相框。
在其它实施方式中,电子装置可包括以下中的一个或多个:各种医疗装置(例如,各种便携式医疗测量装置(血糖监测装置、心率监测装置、血压测量装置、体温测量装置等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层造影(CT)机以及超声机)、导航装置、全球定位***(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐装置、用于船舶的电子装置(例如,用于船舶的导航装置和陀螺仪)、航空电子装置、安全装置、汽车头部单元、用于家庭或工业的机器人、银行中的自动出纳机(ATM)、商店中的销售点(POS)、或物联网装置(例如,灯泡、各种传感器、电表或燃气表、喷洒器装置、火灾报警器、恒温器、路灯、面包机、体育用品、热水箱、加热器、锅炉等)。
根据一些实施方式,电子装置可包括以下中的一个或多个:家具或建筑物/结构的一部分、电子板、电子签名接收装置、投影仪和各种类型的测量仪器(例如,水表、电表、燃气表、无线电波表等)。在各种实施方式中,电子装置可以是柔性的,或者可以是前述各种装置中的一个或多个的组合。根据本公开的实施方式的电子装置不限于上述装置。在本公开中,术语“用户”可指示使用电子装置的人或者使用电子装置的装置(例如,人工智能电子装置)。
图1示出了根据本公开的各种实施方式的网络环境。参照图1,J假设根据各种实施方式的***环境100包括用户A的家110、用户B的家120和云服务器130。
根据各种实施方式,用户A的电子装置111(在下文中,为了便于描述而称为“第一电子装置”)、用户A的智能扬声器101(在下文中,为了便于描述而称为“第一智能扬声器”、“智能扬声器”或“电子装置”)、用户B的电子装置112(在下文中,为了便于描述而称为“第二电子装置”)以及用户C的电子装置113(在下文中,为了便于描述而称为“第三电子装置”)可位于用户A的家110中。根据各种实施方式,用户B的智能扬声器121(在下文中,为了便于描述而称为“第二智能扬声器”)可位于用户B的家120中。
根据各种实施方式,云服务器130可存储用户A的数据131、用户B的数据132或用户C的数据133。
参照图1中所示的每个装置的布置,假设用户B或用户C访问用户A的家,通过用户A的扬声器(第一智能扬声器101)执行声纹认证,然后接收服务。
根据各种实施方式,第一智能扬声器101可从用户获取话语并分析所获取的话语,以便执行相关操作或使得执行该操作。第一智能扬声器101可注册多个用户帐号并接收一个或多个用户的语音话语。第一智能扬声器101可使用通过网络连接的智能服务(未示出)来分析语音话语。
根据本公开的各种实施方式,第一智能扬声器101可获取用户的话语并且从所获取的话语中获取话语声纹。第一智能扬声器101可将该话语声纹存储为用于用户认证的认证声纹。例如,为了执行用户注册操作,第一智能扬声器101可从用户接收话语,并基于话语声纹生成和存储认证声纹。此后,第一智能扬声器101可将从另一用户的话语获取的话语声纹与所存储的认证声纹进行比较,并获取话语声纹与认证声纹之间的相似度。第一智能扬声器101可执行话语中所包括的操作,或者可基于话语声纹与认证声纹之间的相似度的结果来执行该操作。第一智能扬声器101可向外部电子装置发送用于搜索外部电子装置的扫描指令,并且从一个或多个外部装置接收对应于扫描指令的存在响应。当发送和接收与话语中所包括的操作的执行相关的信息时,第一智能扬声器101可与外部电子装置执行加密通信。
根据本公开的各种实施方式,用户的电子装置111、电子装置112和电子装置113(例如,智能电话)可响应于第一智能扬声器101的装置扫描指令来发送存在响应。根据各种实施方式,每个电子装置111、电子装置112或电子装置113均可获取和发送用于响应于来自第一智能扬声器101的对与基于用户话语的操作相关的信息的请求而执行操作的相关信息。每个电子装置111、电子装置112或电子装置113均可执行该操作,或者响应于来自第一智能扬声器101的对与基于用户的话语的操作相关的信息的请求来执行该操作。每个电子装置111、电子装置112或电子装置113均可执行用于与第一智能扬声器101进行信息交换的加密通信。
云服务器130可执行用于存储和管理用户的数据的功能。此外,云服务器130可执行用于与另一服务(例如,智能服务)连接的功能。根据本公开的各种实施方式,云服务器130可存储和管理与电子装置111、电子装置112和电子装置113的用户有关的信息。云服务器130可存储和管理与用户A的家110内的装置有关的信息。云服务器130可通过用户A的第一智能扬声器101或用户的电子装置111、电子装置112和电子装置113提供音乐服务。
用户数据131、用户数据132和用户数据133可存储在云服务器130内的特定位置中,可参考分配给云服务器130中的用户特定空间的帐号或访问认证信息(证书)来控制用户的访问。
图2是示出根据本公开的各种实施方式的电子装置(例如,智能扬声器101)的详细配置的框图。
根据实施方式,图1中的用户B的智能扬声器121可包括与电子装置(例如,智能扬声器101)的元件相同的元件或至少一些元件。
处理器201(处理单元)可通过控制智能扬声器101的各种元件来执行预定的操作。
存储器202(存储器单元)可包括语音分析模块203、用户辨识模块204、编解码器205、操作***206、云服务客户端207、反馈模块208、智能代理209或用户数据210。根据各种实施方式,存储器202可存储用于驱动智能扬声器101的软件、用于驱动软件的数据以及用户数据。软件可包括操作***、框架和应用程序中的一个或多个。用于驱动软件的数据可包括在驱动软件时临时生成和使用的一条或多条临时数据以及通过驱动软件生成和存储的程序数据。用户数据可以是由用户生成或获取的各种类型的内容。例如,用户数据可包括音乐、视频、照片和文档中的一个或多个。
语音分析模块203可获取和分析用户的话语。该分析可包括以下中的一个或多个:从话语获取声纹、将所获取的声纹存储为认证声纹、以及将所存储的认证声纹与话语声纹进行比较。此外,该分析可包括从话语中提取文本(语音到文本(STT))以及处理自然语言的一个或多个功能,或者执行一个或多个功能以及辨识其结果的功能。
用户辨识模块204可管理用户账号,通过该用户账号可使用智能扬声器101和链接至智能扬声器101的服务。用户辨识模块204可存储用户账号和用于认证用户账号的相关信息。用户辨识模块204可参考诸如ID/密码、装置认证和声纹认证的各种认证方法中的一个或多个来为希望使用智能扬声器的用户执行认证程序。此外,用户辨识模块204可执行用于使用连接至智能扬声器的外部电子装置或外部服务的认证程序。
编解码器205可执行压缩和存储(编码器,编码)图像或语音数据以及将压缩的图像或语音数据解压缩(解码器,解码)以输出模拟信号的操作。编解码器205可以以S/W的形式存储在存储器202中,并且可由处理器201驱动。编解码器205可以以固件的形式存储在DSP211中并被驱动。编解码器205可包括从诸如MPEG、Indeo、DivX、Xvid、H.264、WMV、RM、MOV、ASF和RA的视频编解码器或诸如MP3、AC3、AAC、OGG、WMA、FLAC和DTS的音频编解码器中选择的一个或多个编解码器。
操作***206可以为智能扬声器101的操作提供基本功能,并且可控制其整个操作状态。操作***206可检测各种事件并执行对应于这些事件的操作。操作***206可安装用于执行扩展功能的第三应用程序,并且可提供驱动环境。
云服务客户端207可将智能扬声器101连接至云服务器130并执行相关操作。云服务客户端207可执行使存储在智能扬声器101中的数据与存储在云服务器130中的数据同步的功能。此外,云服务客户端207可从云服务器130接收云服务。云服务可以是具有包括数据存储或内容流送的各种形式中的任一种的外部第三方服务。
反馈模块208可创建和生成要从智能扬声器101提供给智能扬声器101的用户的反馈。反馈可包括声音反馈、LED反馈、振动反馈和控制装置的一部分的方法中的一个或多个。
智能代理209可基于通过智能扬声器101获取的用户的话语来执行智能功能,或者可通过与外部智能服务的链接来获取智能功能的执行结果。智能功能可包括用于识别和处理用户的话语的ASR、STT、NLU、NLG、TTS、动作规划和推理功能中的一个或多个。根据各种实施方式,智能代理209可识别通过智能扬声器101获取的用户的话语,并且可基于从所识别的话语中提取的文本来确定相应指令所属的类别。例如,当用户说出“播放重制2播放列表”时,智能代理209可分析该话语并确定它是与“音乐回放”相关的类别。
用户数据210可以是由用户生成或获取的数据或由用户执行的功能生成或获取的数据。
数字信号处理器(DSP)211可将模拟图像或模拟语音信号转换为可由电子装置处理的数字信号,或者可将存储的数字图像或数字语音信号转换为可由用户识别的模拟信号。为了以高速执行操作,数字信号处理器211可以以电路的形式实现操作所需的计算。数字信号处理器211可包括编解码器205,或者可执行与编解码器205相关的操作。
接口(接口单元)212可执行智能扬声器101从用户获取输入、为用户输出信息、或与外部电子装置交换信息的功能。更具体地,接口212可在功能地连接至麦克风215和扬声器216以进行声音信号处理的同时操作。在另一示例中,接口212可在功能地连接至显示器217的同时操作,以便向用户输出信息。此外,接口212可在功能地连接至输入/输出端口218和输入/输出单元219的同时操作,以便以各种形式在用户或外部电子装置与智能扬声器之间执行输入/输出操作。
通信模块(网络单元)213可允许智能扬声器101通过联网协议与外部装置交换信息。联网协议可包括以下中的一个或多个:诸如NFC、蓝牙/BLE、ZigBee和Z-Wave的短距离通信协议以及诸如TCP和UDP的因特网网络协议。通信电路(或模块)213可支持有线通信网络和无线通信网络中的一个或多个。
电源管理模块(或单元)214可从电源终端220获取用于驱动智能扬声器101的电源,以及通过控制电源终端220来提供用于驱动智能扬声器101的电源。电源管理模块214可用从电源终端220获取的电源对电池充电。电源管理模块214可执行用于驱动或对智能扬声器101充电所获取的电源的电压变化、DC/AC转换、电流控制和电流电路控制中的一个或多个操作。
麦克风(MIC)215可从用户或周围环境获取声音信号。扬声器216可输出声音信号。显示器217可输出图像信号。
输入/输出端口(I/O端口)218可提供用于与外部电子装置连接的工具,以便扩展智能扬声器101的功能。输入/输出端口218可包括音频输入端口、音频输出端口、USB扩展端口和LAN端口中的一个或多个。
输入/输出单元(I/O单元)219可包括用于从用户获取输入并向用户输出信息的各种装置。输入/输出单元219可包括按钮、触摸面板、轮子、转轮、传感器、LED、振动发生装置和蜂鸣声发生装置中的一个或多个。电源终端220可接收用于驱动智能扬声器101的AC/DC电源。
图3是示出根据本公开的各种实施方式的电子装置和云服务器的详细配置的框图。参照图3,电子装置101可包括麦克风301(例如,图2的麦克风215)、DSP 302、主关键词识别模块303、主关键词模型数据库304、处理器305(例如,图2的处理器201)、通信电路(或模块)306(例如,图2的通信模块213)、二级关键词识别模块307、二级讲话者识别模型数据库308、主讲话者识别模块309或主讲话者识别模型数据库310,以及云服务器130可包括处理器351、通信电路352、ASR模块353、ASR模型数据库354、二级讲话者识别模块356、NLU/DM模块355和二级讲话者识别模型数据库357。
麦克风301可接收用户的话语。数字信号处理器(DSP)302可包括音频编解码器(连接至麦克风或扬声器以执行简单的声音预处理,诸如声音输入/输出、DA/AD转换或增益控制)。处理器305可包括一个或多个处理器以及应用处理器(AP)。
云服务器130可包括识别服务器,并且可执行更复杂和准确的语音识别。例如,云服务器130可执行大词汇量话语识别、讲话者验证/辨识和自然语言理解的功能。
主关键词识别模块303(关键词识别)可识别指定给包括在DPS302中的语音识别器的少量单词。主关键词模型数据库304可包括在识别期间由主关键词识别模块303参考的识别模型。
二级关键词识别模块307可识别被指定给包括在处理器305中的语音识别器的少量单词,并且可比主关键词识别模块303相对更复杂和精确。例如,用于识别的特征向量的维度的数目可更高,以及用于识别的音素模型可更复杂(例如,识别的集群的数目可更大,或者音素n元语法的维度可更高)。二级关键词模型数据库308可包括在识别期间由二级关键词识别模块307参考的识别模型。
主关键词识别模块303和二级关键词识别模块307可使用相同的解码算法或不同的解码算法。二级关键词模型数据库308可包括由二级关键词识别模块307参考的识别模型,并且可包括至少部分与主关键词模型数据库304相同或者可与主关键词模型数据库304相同的模型。
主讲话者识别模块309和二级讲话者识别模块356可执行讲话者认证(验证)/识别(辨识)功能。主讲话者识别模块309和二级讲话者识别模块356中的每个均可包括参考存储在主讲话者识别模型数据库310或二级讲话者识别模型数据库357中的数据的与文本无关的讲话者识别(包括基于GMM或基于i向量的识别方法)和与文本相关的讲话者识别(包括基于HMM的方法或DTW)。
ASR模块353可通过大词汇量的话语识别来识别相对大量的单词或其组合。ASR模型数据库354可包括识别模型,该识别模型在识别期间被用于大词汇量的话语识别。NLU/DM模块355可包括用于通过自然语言理解来理解人类语言表达的模型。例如,NLU/DM模块355可检测用户为语音指令限定要执行的动作的意图,并使得该动作由装置执行。
根据本公开的各种实施方式中的一个的电子装置可包括:一个或多个通信电路213;扬声器216;麦克风326;处理器201,其操作性地连接至通信电路213、扬声器216和麦克风215;以及存储器202,其操作性地连接至处理器201,使得存储器202可存储指令,该指令在由处理器执行时使得处理器201:通过麦克风接收第一语音输入;执行第一声纹认证(语音生物识别)处理,以便确定第一语音输入是否与在电子装置中注册的用户相对应;将包括与第一语音输入相关的第一数据的请求消息发送至通过通信电路连接至电子装置的一个或多个外部电子装置,以便当第一语音输入与在电子装置中注册的用户不对应时,使外部电子装置对第一语音输入执行第二声纹认证处理;通过通信电路从外部电子装置接收包括基于第二声纹认证处理的认证结果的响应消息;通过麦克风接收第二语音输入;以及通过通信电路将与第二语音输入相关的第二数据发送至外部服务器,至少部分地用于自动语音识别(ASR)和/或自然语言理解(NLU)。
根据本公开的各种实施方式,指令可使处理器至少部分地通过外部服务器执行第一声纹认证。
根据本公开的各种实施方式,一个或多个外部电子装置可通过短距离通信连接至电子装置,短距离通信包括无线保真(Wi-Fi)、光保真(Li-Fi)、蓝牙、低功耗蓝牙(BLE)、ZigBee,近场通信(NFC)或磁安全传输中的一个或多个。
根据本公开的各种实施方式,电子装置可以是智能扬声器。
根据本公开的各种实施方式,指令可使处理器从外部电子装置接收用于访问外部服务器的信息,并且基于所接收的用于访问外部服务器的信息来访问外部服务器。
根据本公开的各种实施方式,指令可使处理器通过分析第一语音输入来确定要执行包括在第一语音输入中的操作的主体,并且基于所确定的主体来确定是否利用声纹认证。
根据本公开的各种实施方式,指令可使处理器通过分析第一语音输入来确定包括在第一语音输入中的操作,并且确定所确定的操作是否利用声纹认证。
根据本公开的各种实施方式,指令可使处理器通过分析第一语音输入来确定要执行包括在第一语音输入中的操作的主体,基于确定的结果,当执行操作的主体是电子装置时,从外部电子装置请求操作相关信息,并且至少基于从外部电子装置接收的操作相关信息,执行与第一语音输入相对应的操作。
根据本公开的各种实施方式,指令可使处理器通过分析第一语音输入来确定要执行包括在第一语音输入中的操作的主体,并且基于确定的结果,当执行操作的主体是外部电子装置时,可将操作相关信息发送至外部电子装置。
根据本公开的各种实施方式中的一个的电子装置可包括:一个或多个通信电路213;麦克风215;处理器201,其操作性地连接至通信电路213和麦克风215;以及存储器202,其操作性地连接至处理器201,使得存储器202可存储指令,指令在被执行时使得处理器201:通过麦克风接收第一语音输入;执行第一声纹认证(语音生物识别)处理,以便确定第一语音输入是否与在电子装置中注册的用户相对应;当第一语音输入与在电子装置中注册的用户不对应时,将包括与第一语音输入相关的第一数据的请求消息发送至通过通信电路连接至电子装置的一个或多个外部电子装置,以便使外部电子装置对第一语音输入执行第二声纹认证处理;通过通信电路从外部电子装置接收包括基于第二声纹认证处理的认证结果的响应消息;以及基于认证结果,执行与通过麦克风进行的接收到的第一语音输入或第二语音输入相对应的操作。
根据本公开的各种实施方式,指令可使处理器至少部分地通过外部服务器执行第一声纹认证。
根据本公开的各种实施方式,电子装置可以是包括一个或多个扬声器216的智能扬声器。
图4是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图。参照图4,在操作402中,电子装置101(例如,智能扬声器)可通过麦克风215接收第一语音输入。
在操作404中,电子装置可执行第一声纹认证(语音生物识别),以便确定第一语音输入是否与电子装置的注册用户相对应。
当在操作406中电子装置确定第一语音输入与电子装置的注册用户相对应时,电子装置可执行与第一语音输入和/或在操作408中另外进行的第二语音输入相对应的操作。
当在操作406中电子装置确定第一语音输入与电子装置的注册用户不对应时,在操作410中,电子装置可将包括与第一语音输入相关的第一数据的请求消息发送至通过通信电路213连接至电子装置的一个或多个外部电子装置,以便通过外部电子装置111、外部电子装置112或外部电子装置113对第一语音输入执行第二声纹认证处理。
在操作412中,电子装置可通过通信电路从外部电子装置接收包括基于第二声纹认证处理的认证结果的响应消息。
在操作414中,电子装置可基于认证结果执行与接收到的第一语音输入和/或通过麦克风进行的附加输入相对应的操作。例如,电子装置可接收来自用户的第二语音输入并基于第二语音输入执行操作。
根据本公开的各种实施方式中的一个,由电子装置(例如,处理器201)执行功能的方法可包括:通过麦克风215接收第一语音输入的操作;执行第一声纹认证(语音生物识别)处理以便确定第一语音输入是否与在电子装置中注册的用户相对应的操作;当第一语音输入与在电子装置中注册的用户不对应时,向连接至电子装置的一个或多个外部电子装置发送包括与第一语音输入相关的第一数据的请求消息,以便使外部电子装置对第一语音输入执行第二声纹认证处理的操作;通过通信电路从外部电子装置接收包括基于第二声纹认证处理的认证结果的响应消息的操作;通过麦克风215接收第二语音输入的操作;以及将与第二语音输入相关的第二数据至少部分地发送至外部服务器以用于自动语音识别(ASR)和/或自然语言理解(NLU)的操作。
根据本公开的各种实施方式,该方法还可包括至少部分地通过外部服务器执行第一声纹认证的操作。
根据本公开的各种实施方式,一个或多个外部电子装置可通过短距离通信连接至电子装置,短距离通信包括无线保真(Wi-Fi)、光保真(Li-Fi)、蓝牙、低功耗蓝牙(BLE)、ZigBee、近场通信(NFC)或磁安全传输中的一个或多个。
根据本公开的各种实施方式,该方法还可包括从外部电子装置接收用于访问外部服务器的信息的操作,以及基于所接收的用于访问外部服务器的信息来访问外部服务器的操作。
根据本公开的各种实施方式,该方法还可包括通过分析第一语音输入来确定要执行包括在第一语音输入中的操作的主体的操作,以及基于所确定的主体来确定是否利用声纹认证的操作。
根据本公开的各种实施方式,该方法还可包括通过分析第一语音输入来确定包括在第一语音输入中的操作的操作,以及确定所确定的操作是否利用声纹认证的操作。
根据本公开的各种实施方式,该方法还可包括:通过分析第一语音输入来确定要执行包括在第一语音输入中的操作的主体的操作;当要执行操作的主体是外部电子装置时,基于确定的结果向外部电子装置请求操作相关信息的操作;以及至少基于从外部电子装置接收的操作相关信息来执行与第一语音输入相对应的操作的操作。
根据本公开的各种实施方式,该方法还可包括:通过分析第一语音输入来确定要执行包括在第一语音输入中的操作的主体的操作;以及当要执行操作的主体是外部电子装置时,基于确定的结果向外部电子装置发送操作相关信息的操作。
根据本公开的各种实施方式,智能扬声器101可从用户获取话语并且从所获取的话语中辨识话语声纹。智能扬声器101可将所辨识的话语声纹与存储在智能扬声器101中的一个或多个认证声纹进行比较,并辨识它们之间的相似度。智能扬声器101可基于所辨识的相似度来确定是否要执行认证。当在认证过程中话语声纹与认证声纹之间的相似度大于或等于阈值时,智能扬声器101可确定话语的主体是认证声纹的主体。声纹认证还可通过服务器执行。
图5示出了根据本公开的各种实施方式的讲话者识别***。参照图5,根据各种实施方式,讲话者识别***500可包括讲话者识别处理程序510和模型训练处理程序520。讲话者识别处理程序510可使用预处理模块511、特征提取模块513或模式匹配模块515。模型训练处理程序520可使用预处理模块521、特征提取模块523或讲话者建模模块525。
根据各种实施方式,讲话者识别处理程序510可通过预处理模块511对输入语音信号进行预处理,并输出分析帧。特征提取模块513可从通过预处理模块511输出的分析帧中提取特征,并输出特征向量。模式匹配模块515可通过将特征向量与讲话者建模模块525的结果进行比较来验证特征向量,并且可对验证结果进行评分和输出。
根据各种实施方式,模型训练处理程序520可通过预处理模块521对输入语音信号进行预处理,并输出分析帧。特征提取模块523可从通过预处理模块521输出的分析帧中提取特征,并输出特征向量。讲话者建模模块525可通过特征向量对讲话者进行建模和注册。根据各种实施方式,电子装置(例如,智能扬声器101)的DSP(例如,图2的DSP 211)可执行主关键词识别(例如,简单关键词识别)。当用户执行用于唤醒的话语(例如,“Bixby HongGildong”)时,DSP可辨识输入的话语是否是预定关键词。在辨识方法中,可通过从输入的话语中提取特征(X)并将这些特征放入主关键词识别模型中来计算得分(例如,SCOREkw1),如下面的等式(1)中所示。当SCOREkw1超过Thkw1(阈值kw1)时,可执行作为识别步骤的下一阶段。
[数学图1]
SCOREkw1=P(X|λkw1)
如果SCOREkw1>Thkw1,则成功。
处理器(例如,图2的处理器201)可向服务器发送输入语音数据。服务器可通过ASR更准确地分析相应的语音数据,检查单词,并辨识单词是否对应于唤醒指令。
此后,处理器最终可根据分析结果基于ASR结果来确定是否唤醒电子装置。
处理器最终可通过组合关键词识别结果和讲话者识别结果来确定是否唤醒终端。例如,当关键词识别结果和讲话者识别结果都是肯定的时,处理器可唤醒电子装置。另一方面,当关键词识别结果和讲话者识别结果中的一个或多个不是肯定的时,电子装置可不被唤醒。
处理器可执行二级关键词识别(例如,复杂关键词识别)。复杂关键词识别可使用比主关键词识别(例如,简单关键词识别)相对更大的资源来识别和确定(例如,存储器、计算或相似度的测量),并且它可具有比主关键词识别更高的识别率。
由处理器执行的关键词识别可实现为用于基于维特比解码提取目标词的识别算法,并且处理器可具有比DSP相对更小的关键词识别误识别率。
处理器可通过从二级关键词模型(例如,图3的二级关键词模型数据库308)新提取的或由DSP提取的特征值(X)来计算得分(例如,SCOREkw2),如以下等式(2)中所示。当SCOREkw2超过阈值kw2时,可执行作为识别步骤的下一阶段。
[数学图2]
SCOREkw2=P(X|λkw2)
如果SCOREkw2>Thkw2,则成功。
阈值kw1可不同于阈值kw2。例如,主关键词识别和二级关键词识别可使用相同的关键词识别模型,它们在阈值kw1方面不同、用阈值kw2进行代替。在这种情况下,通过解码算法的不同计算,这两个值可不同。根据另一实施方式,计算可相同,并且参考值可不同。可替代地,主关键词识别和二级关键词识别可使用单独的关键词识别模型。在这种情况下,得分计算方法可根据模型而不同。Thkw1(阈值kw1)和Thkw2(阈值kw2)可具有不同的值,而其间没有任何关系。
处理器可执行讲话者识别和关键词识别。
在图5中所示的模型训练处理程序中,当预处理模块521接收到语音信号时,可对语音数据进行预处理(例如,噪声消除),并且可从相应的语音数据中提取特征值。为了生成精确的模型,输入语音信号的操作可执行数次。通过所提取的特征值,可生成讲话者识别模型。
当接收到语音信号时,预处理模块521可对语音数据进行预处理(例如,噪声消除),特征提取模块523可从相应的语音数据中提取特征值,以及讲话者建模模块525可将该特征值与所得到的讲话者识别模型进行比较,以辨识它们的相似程度,输出得分,并且基于结果确定讲话者是否是相同的讲话者。
通过处理器的讲话者识别可实现为例如以下中的一个或多个的组合:基于深度神经网络的识别算法、基于多神经网络的识别算法和基于UBM-GMM的识别算法。基于多神经网络的识别算法可通过其中存在隐藏层的神经网络考虑诸如关键词识别结果、信噪比(SNR)和背景噪声去除等多个因素来确定认证成功/失败。UBM-GMM(通用背景模型-高斯混合模型)算法可通过比较基于GMM的背景模型得分和讲话者模型得分的二元确定方法,通过以帧为单位比较UBM值和讲话者模型值来确定认证成功/失败。
讲话者识别模型可表示为诸如隐马尔可夫模型(HMM)、神经网络等的统计模型。当使用诸如动态时间规整(DTW)或向量量化(VQ)的识别算法时,可通过语音信号的特征向量列来表示讲话者识别模型。当将诸如降维或线性变换的变换方法应用于识别过程时,用于变换的参数可以是模型信息。除了列出的讲话者识别模型之外,还可存在各种识别模型,这些识别模型包括表示通常可被识别的语音的信息。此外,讲话者识别模型可包括输入语音的属性信息。例如,属性信息可包括输入语音的长度和大小、音素的数量和音素的长度中的一个或多个。
[数学图3]
如果SCORESV<Th1SV,则失败;
如果Th1SV≤SCORESV<Th2SV,则服务器决策;
如果Th2SV≤SCORESV,则成功。
图6是示出根据本公开的各种实施方式的讲话者识别模型的图。参考图6中所示的使用基于UM-GMM的识别算法的图形600、USB图形610和扬声器模型图形620可彼此重叠。对于讲话者识别,可使用两个参考点。输入话语与讲话者识别模型越相似,讲话者模型值变得越大。输入话语与讲话者识别模型越不同,UBM模型值变得越大。在两个模型之间几乎没有差别的间隔中,可能难以准确地确定输入话语是否与讲话者识别模型完全相同。例如,当得分SV(对应于图6中的水平轴的值)小于阈值spk1时,可确定讲话者是不同的。当得分SV大于阈值spk2时,可确定讲话者是相同的。当得分SV在阈值spk1与阈值spk2之间时,可能难以确定它们是否是相同的讲话者。在这种情况下,可对发送至服务器的语音数据的分析结果进行高速缓存,然后用于最终确定讲话者。
根据各种实施方式,在模型训练过程中,由于模型根据各自的模块是不同的,所以可针对一个话语训练多个模型。例如,可针对一个话语来训练主关键词模型、二级关键词模型和讲话者识别模型。例如,当用户希望将“Bixby Hong Gildong”注册为用于唤醒的话语时,用户可通过由应用程序提供的UI进行注册。此时,用户可多次说出相同的话语。
当用户说出“Bixby Hong Gildong”时,相应的话语通过麦克风(例如,图2的麦克风215)输入,DSP可训练主关键词模型,以及处理器可训练二级关键词模型和讲话者识别模型。各个模型可具有不同的算法,或者可具有相同的算法,但是具有提取的不同的特征值用于计算。
此外,电子装置可将输入的语音数据传送至服务器中的用于识别模型的服务器。服务器的ASR可将语音数据转换为文本,并将结果发送至装置,并且该结果可存储在电子装置中。电子装置可将所存储的结果与从服务器发送的文本值进行比较,并且辨识关键词是否匹配。
图7是示出根据本公开的各种实施方式的电子装置的通过讲话者识别的功能的流程图。
参照图7,在操作702中,电子装置(例如,图2的智能扬声器101)可通过麦克风(例如,图2的麦克风215)接收用于唤醒电子装置的语音(或话语)。在操作704,电子装置可通过关键词分析来辨识相应的话语是否包括特定的单词或短语。例如,该操作可由电子装置的DSP(例如,图2的DSP 211)和处理器(例如,图2的处理器201)执行。在操作706中,电子装置可辨识相应的讲话者是否是先前通过讲话者分析生成的模型的讲话者。讲话者分析操作可由处理器执行。根据实施方式,处理器可同时执行关键词分析和讲话者分析。
在操作708中,电子装置可将输入的语音数据发送至服务器以进行更准确的分析。服务器可通过分析从电子装置接收的语音数据来执行关键词识别和讲话者识别,并且可将其结果发送至电子装置。根据各种实施方式,当关键词识别结果或讲话者识别结果大于阈值(例如,阈值kw2或阈值spk2)时,可省略操作708。在操作710中,电子装置可根据由电子装置或服务器执行的语音数据分析结果来执行唤醒。
图8是示出根据本公开的各种实施方式的电子装置的通过讲话者识别的详细功能的流程图。参照图8,在操作802中,电子装置(例如,图2的智能扬声器101)可通过麦克风(例如,图2的麦克风215)接收对应于用户的话语(例如,Bixby Hong Gildong)的语音数据。在操作804中,电子装置可通过DSP(例如,图2的DSP 211)执行辨识输入的语音数据是否与先前注册的关键词匹配的主关键词分析。电子装置可通过得分来表示在辨识操作中它们是否彼此匹配。在操作806中,当得分大于或等于预定值(例如,阈值key1)时,电子装置可前进到识别的下一阶段。否则,电子装置可结束识别操作。
在操作808中,处理器(例如,图2的处理器201)可将输入的语音数据发送至服务器。服务器可通过ASR分析将输入的语音数据转换为文本,并通过讲话者识别模块检查讲话者是否是注册的人员。
在操作810中,处理器可对输入内容执行关键词识别。通过处理器的关键词分析可以是二级关键词分析,它是通过比由DSP执行的主关键词分析更复杂的计算执行的关键词识别。根据各种实施方式,处理器可使用与用于由DSP执行的关键词分析的模型不同的模型来执行关键词分析。根据实施方式,处理器可在将语音数据发送至服务器的同时执行二级关键词分析。
在操作812中,当关键词分析是肯定的时(例如,当分析得分大于或等于预定值(例如,阈值key2)时,处理器可在操作814中执行辨识对应于话语的用户是否是先前注册的用户的讲话者识别。在讲话者识别的情况下,在操作816和操作818中存在两个参考值,当得分小于最小值(例如,阈值SPK1)时,识别操作可结束,并且当得分大于最大值(例如,阈值SPK2)时,讲话者可确定为是注册用户。当确定接收到的语音输入的讲话者是注册用户时,电子装置可在操作820中执行唤醒操作。根据实施方式,当得分在最小值与最大值之间时,在操作822,电子装置可执行用于将语音数据发送至服务器并接收分析结果的操作。在操作824中,电子装置可基于分析结果来确定讲话者是否是注册用户。当从服务器接收的语音数据的分析结果与注册用户相对应时,电子装置可在操作820中执行唤醒操作。在操作824中,当从服务器接收的语音数据的分析结果与注册用户不对应时,电子装置可在操作826中结束操作。
图9是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图。参照图9,在操作902中,电子装置101(例如,图2的智能扬声器101)可通过麦克风(例如,图2的麦克风215)从用户获取话语,并通过ASR(STI)和NLU的功能来分析所获取的话语。
在操作904中,电子装置可通过分析话语的含义来辨识操作(例如,要执行的操作)和操作的主体。根据各种实施方式,用户话语的含义可包括要执行的指令、用户的输入参数、结果输出方法、执行指令的主体以及执行指令的条件中的一个或多个。这些条件可包括是否利用用户认证。
在操作906中,当电子装置分析话语的含义并且包括在用户话语中的指令是利用用户认证的指令(例如,用于再现特定用户的播放列表或购买产品的指令)时,电子装置可执行用于用户认证的操作。在操作908中,根据本公开的各种实施方式,电子装置可从用户的话语中提取话语声纹,并辨识话语声纹以用于用户认证。声纹提取可由电子装置或通过外部服务器的讲话者识别模块来执行。
在操作910中,电子装置可通过将话语声纹与存储在智能扬声器101中的认证声纹进行比较来执行用户认证程序。在操作912中,当通过用户认证程序发现话语声纹与认证声纹之间的匹配率大于或等于预定值时,电子装置可确定用户认证程序的结果是“已认证的”。在操作912中,当通过用户认证程序发现话语声纹与认证声纹之间的匹配率小于(或等于)预定值时,电子装置可确定用户认证程序的结果是“非认证的”。当话语声纹与认证声纹之间的匹配率未达到用于确定为“已认证的”的值但匹配指数与该值之间的差等于或者小于用户认证程序中的预定值时,电子装置可确定用户认证结果的结果是“需要附加验证”。
当确定用户认证程序的结果是“已认证的”时,电子装置可执行包括在用户话语中的指令。
当确定用户认证程序的结果是“非认证的”或“需要附加验证”时,电子装置可在操作914中执行二级话语声纹验证操作,以及然后在操作916中执行相应的操作。根据各种实施方式,可在主验证失败时执行二级话语声纹验证。即使讲话者不是电子装置的用户,通过经由连接至电子装置的另一电子装置执行二级声纹验证,可提供下面描述的各种服务。根据本公开的各种实施方式,电子装置可根据主话语声纹验证的用户认证程序结果来执行二级话语声纹验证。当二级话语声纹验证失败时,电子装置可输出对应于失败的结果,或者可不执行通过话语声纹指示的操作。
图10是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图。参照图10,当用户认证程序的结果是如图9中所述的“非认证的”或“需要附加验证”时,在操作1002中,电子装置101(例如,智能扬声器)可搜索一个或多个外部电子装置(例如,外部电子装置111、外部电子装置112和外部电子装置113),以便在外部电子装置中执行二级话语声纹验证。搜索外部电子装置可包括以下方法中的一个或多个:外部电子装置通过其广播用于请求辨识存在的消息以接收响应的方法,辨识存储在电子装置101中的外部电子装置的信息的方法,以及向功能地连接至电子装置101的外部装置(IoT服务器/集线器)请求外部电子装置的信息的方法。电子装置101可响应于搜索外部电子装置来获取外部电子装置的列表。
在操作1004中,电子装置101可向包括在外部电子装置的列表中的电子装置发送讲话者辨识请求消息。该消息可直接或间接地传送至电子装置。讲话者辨识请求消息可包括话语的至少一部分。例如,该消息可包括该话语中所包括的指令的内容。
当用户认证程序的结果是“非认证的”时,电子装置101可不向电子装置101的用户所拥有的其它电子装置发送消息。当用户认证程序的结果是“需要附加验证”时,电子装置101可向所获取的外部电子装置发送消息。电子装置101可向所获取的外部电子装置中的电子装置101的用户不拥有的个人电子装置发送消息。
电子装置101可将消息发送至存在于所获取的外部电子装置中距电子装置101预定范围内的区域中的电子装置。可参考使用接收信号强度指示器(RSSI)的各种方法来确定预定范围内的区域,并且可控制室内定位或发射功率。
在操作1006、操作1008和操作1010中,从电子装置101接收讲话者辨识请求消息的外部电子装置111、外部电子装置112或外部电子装置113可向用户显示讲话者辨识请求消息,并辨识对应于辨识请求的用户输入。
例如,用户的话语的内容可以以文本显示或通过语音输出,并且可添加关于相应话语的主体的查询。在另一示例中,用户的话语的内容和与其相对应的操作的描述可以以文本显示或通过语音输出,并且可添加关于对应话语的主体的查询和关于是否修改对应话语的查询。此外,作为对查询的响应的示例,可存在对应于“是”和“否”中的一个或多个的用户响应。
讲话者辨识请求消息可以以诸如弹出窗口的可视类型和诸如语音通知的听觉类型中的一个或多个向用户提供。对应于辨识请求的用户输入可以是触摸输入、语音输入、手势输入和物理装置控制输入中的一个。
在操作1010中,将对应于“是”的用户响应辨识为对讲话者辨识请求的响应之后,在操作1012中,外部电子装置113可向电子装置101发送至少包括用户响应的答复。电子装置可发送包括电子装置113的公共密钥的答复。电子装置113可发送包括电子装置113的用户的识别信息(辨识信息:姓名、昵称、装置名称、账号ID或电话号码的一部分)的答复。
在操作1014中,电子装置101可从外部电子装置(例如,电子装置113)接收包括用户响应和公共密钥的答复。响应于答复的接收,电子装置101可确定答复是否有效。关于答复是否有效的信息可包括答复消息的数量是否为1的确定。例如,附近的用户可能响应于讲话者辨识请求,错误地或以恶意意图发送“是”,即使用户实际上并没有说话。在这种情况下,电子装置101可接收两个或更多个答复消息。接收两个或更多个答复消息的电子装置101可向发送答复消息的电子装置发送讲话者重新辨识请求消息。讲话者重新辨识请求消息可包括讲话者辨识请求消息和接收两个或更多个答复消息的电子装置的用户的识别信息。接收讲话者重新辨识请求消息的两个或更多个电子装置可根据上述过程来辨识对讲话者重新辨识请求消息的用户响应并对电子装置101进行答复。最后,电子装置101可确定发送响应的外部电子装置113是讲话者的电子装置113。
在操作1016中,电子装置101可对话语进行加密。根据本公开的实施方式的电子装置101可通过非对称密码***使用从外部电子装置113接收的公共密钥对话语进行加密。根据本公开的另一实施方式,电子装置101可通过对称密码***使用与外部电子装置113共享的秘密密钥对话语进行加密。电子装置101可向外部电子装置113发送至少包括加密话语的验证请求消息。验证请求消息可包括该话语中所包括的指令的内容。
在操作1018中,从电子装置101接收包括加密话语的验证请求消息的外部电子装置113可对加密话语进行解密,以便辨识该话语。根据本公开的实施方式,外部电子装置113可通过非对称密码***使用外部电子装置113的私有密钥对加密话语进行解密。根据本公开的另一实施方式,外部电子装置113可通过对称密码***使用与电子装置101共享的秘密密钥对加密话语进行解密。
外部电子装置113可从解密的话语中提取话语声纹。
在操作1020中,外部电子装置113可将所提取的话语声纹与存储在外部电子装置113中的一个或多个认证声纹进行比较,并辨识它们之间的相似度。外部电子装置113可基于所辨识的相似度来确定认证是否成功。当在认证过程期间发现话语声纹与认证声纹之间的相似度大于或等于阈值时,外部电子装置113可确定话语的主体是认证声纹的主体。当在认证过程中发现话语声纹与认证声纹之间的相似度等于或小于阈值时,外部电子装置113可确定对话语的主体的认证失败。
在操作1022中,外部电子装置113可向电子装置101发送至少包括认证结果的认证结果答复消息。当包括在认证结果答复消息中的认证结果对应于认证失败时,接收认证结果答复消息的电子装置101可向用户通知认证失败,并且可结束整个过程或者请求附加的用户动作。在操作1024中,当包括在认证结果答复消息中的认证结果对应于认证成功时,电子装置101可连续地执行用于执行包括在用户的话语中的指令的操作。
根据本公开的各种实施方式,电子装置101可根据二级话语声纹验证的结果来执行包括在用户的话语中的功能。电子装置101可执行包括在用户的话语中的功能,或者可使外部电子装置(例如,外部电子装置113)参考关于主体的信息来执行该功能,以便执行包括在图9中辨识的用户的话语中的功能。
图11是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。根据各种实施方式,图11示出了与电子装置(例如,电子装置101)是执行操作的主体的情况相对应的实施方式。例如,当用户C通过用户A的电子装置(例如,第一电子装置101)指示回放其自己的音乐播放列表时,用户A的智能扬声器可通过用户C的电子装置(例如,外部电子装置113)执行二级声纹认证,如图10中所示。当二级声纹认证成功时,第一电子装置101可从用户C的电子装置(外部电子装置113)接收与操作相关的信息(例如,关于音乐播放列表的信息),并通过第一电子装置101再现用户C的音乐播放列表,如图11中所示。
参照图11,在操作1102中,电子装置101可向外部电子装置113发送操作相关信息请求消息,该消息请求用于执行包括在用户的话语中的功能的信息。操作相关信息请求消息可包括用于执行操作的信息类型。例如,用于执行操作的信息类型可包括用于执行操作的一条或多条用户数据(例如,音乐播放列表)和从中获取用户数据的用户数据存储空间信息(例如,音乐站点访问信息)。
在操作1104中,接收操作相关信息消息的外部电子装置113可辨识操作相关信息,并且在操作1106中,将所辨识的操作相关信息发送至电子装置101。根据各种实施方式,外部电子装置113可从云服务器130请求操作相关信息并接收该信息。外部电子装置113可从云服务器130接收操作相关信息,并将其发送至电子装置101。
根据各种实施方式,当操作相关信息请求消息包括用于执行操作的用户数据时,外部电子装置113可将用户数据直接发送至电子装置101。可替代地,外部电子装置113可将用户数据上载到外部存储空间(例如,云服务器130),如图11中的虚线所示,并将其访问信息(URI和访问权限信息)发送至电子装置101。
当操作相关信息请求消息包括用于执行操作的用户数据存储空间信息时,外部电子装置113可查询存储用户数据访问信息的用户数据的用户数据存储空间(例如,云服务器130),如图11中的虚线所示,并且可将存储在用户数据存储空间中的用户数据访问信息(URI和访问权限信息)发送至电子装置101。在操作1108中,电子装置101可从外部电子装置113接收操作相关信息(例如,用户数据访问信息)。
当对应于操作相关信息请求消息的操作相关信息包括用户数据访问信息时,在操作1110中,电子装置101可参考用户数据访问信息从云服务器130(例如,用户数据存储空间)请求用户数据。在操作1112中,响应于来自电子装置101的用户数据请求,云服务器130可参考包括在用户数据访问信息中的访问权限信息和用户数据URI信息将用户数据发送至电子装置101。
在操作1116中,电子装置101可参考从外部电子装置113直接/间接获取的用户数据来执行包括在用户的话语中的功能。
图12是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。根据各种实施方式,图12示出了与执行操作的主体是外部电子装置113的情况相对应的实施方式。例如,当用户C指示用户A的电子装置101(例如,智能扬声器)用他/她自己的账号购买产品时,用户A的电子装置101可通过用户C的电子装置(例如,外部电子装置113)执行二级声纹认证,如图10中所示。当二级声纹认证成功时,电子装置101可向用户C的电子装置(例如,外部电子装置113)发送操作相关信息(例如,关于产品购买的信息),并通过用户C的电子装置(第三电子装置113)购买用户C所请求的产品,如图12中所示。
参照图12,在操作1202中,外部电子装置113可向电子装置101(例如,智能扬声器)发送操作相关信息请求,该信息请求请求用于执行包括在用户的话语中的操作的信息。外部电子装置113可通过ASR(STT)或NLU功能来分析所获取的用户的话语。外部电子装置113可从电子装置101请求用于执行所分析的话语的信息的至少一部分。
在操作1204中,电子装置101可从外部电子装置113接收操作相关信息请求,在操作1206中辨识操作相关信息,以及在操作1208中将操作相关信息(例如,关于产品购买的信息)发送至外部电子装置113。
在操作1210中,外部电子装置113可接收操作相关信息,并且在操作1212中参照用户的话语来执行包括在用户的话语中的操作。例如,当从电子装置101接收关于产品购买的信息作为操作相关信息时,外部电子装置113可通过云服务器130购买产品。
在操作1214中,外部电子装置113可通过外部电子装置113向用户通知操作的结果,或者可向电子装置101发送操作的结果,并且因此电子装置101可向用户通知操作的结果。
在操作1216中,电子装置101可从外部电子装置113接收操作结果,并且在操作1218中显示操作结果。例如,显示操作结果的操作可包括视觉和听觉效果中的一个或多个。
图13是示出根据本公开的各种实施方式的装置之间的操作的***。参照图13,当在操作1331中,讲话者(例如,Bob)通过智能扬声器1301(例如,图1的电子装置101)说“播放重制2播放列表”时,根据各种实施方式,可由讲话者的智能电话1312而不是智能扬声器1301或智能扬声器1301的用户(例如,Alice)的智能电话1311执行声纹认证,以及在操作1332中,可将对音乐站点访问信息的请求发送至讲话者的智能电话1312。
在操作1333中,讲话者的智能电话1312可从云服务器1320(例如图1的云服务器130)请求播放列表URL和临时证书。在操作1334中,云服务器1320可辨识预先存储的讲话者的数据1322,并将播放列表URL和临时证书发送至讲话者的智能电话1312。在操作1335中,智能电话1312可将播放列表URL和临时证书发送至智能扬声器1301。
根据各种实施方式,在操作1336中,智能扬声器1301可通过从讲话者的智能电话1312接收的播放列表URL和临时证书来访问云服务器1320,并请求再现播放列表。
图14是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图。参照图14,在朋友的家中,用户可向朋友的智能扬声器给出指令,并再现“我的音乐库”中的音乐。
在操作1402中,根据本公开的实施方式,电子装置101(例如,智能扬声器)可从用户接收话语“播放重制2播放列表”。
在操作1404中,电子装置101可分析用户的话语,以及在操作1406中,可确定要执行包括在用户的话语中的功能的主体是电子装置101,以及要执行的操作是再现包括在播放列表中的音乐。
在操作1408中,电子装置101可参考所分析的话语的操作来确定该操作是否利用用户认证。
当包括在用户的话语中的操作利用用户认证时,电子装置101可在操作1410中从话语中提取话语声纹,并且在操作1412中,将所提取的话语声纹与在电子装置101中注册的认证声纹进行比较,并辨识话语的主体。
当在操作1414中话语声纹与在电子装置101中注册的认证声纹中的一个匹配时,智能扬声器可确定话语的主体是认证声纹的主体,并参考认证声纹的主体的用户信息执行话语中用于再现包括在播放列表中的音乐的操作。
当在操作1414中话语声纹与在电子装置101中注册的认证声纹中的任一个都不匹配时,电子装置101可确定话语是未注册用户的话语并确定利用附加认证。当在操作1414中对话语声纹的认证失败时,在操作1416中,电子装置101可通过外部电子装置执行二级话语声纹认证,并且当第二认证成功时,在操作1418中,可基于话语来执行操作。
当在操作1408中包括在用户的话语中的操作不利用用户认证时,电子装置101可在操作1418中基于话语执行操作。
图15是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图。参照图15,当话语声纹的认证失败时,在操作1502中,电子装置101(例如,图1的智能扬声器101)可搜索或辨识外部电子装置以用于二级话语声纹验证。例如,电子装置101可通过低功耗蓝牙(BLE)通信来搜索相邻的个人装置(例如,智能电话和平板PC)。在操作1504中,电子装置101可广播讲话者辨识请求,该请求询问外部电子装置关于其各自的用户是否说出了对应于话语声纹的话语。
在操作1506、操作1510和操作1512中,接收讲话者辨识请求的外部电子装置111、外部电子装置112和外部电子装置113向用户呈现话语“你刚才说“播放重制2播放列表”了吗?”的内容,并从用户接收对此的响应。当预定外部电子装置113的用户输入对应于“是”的响应时,在操作1514中,外部电子装置113可向电子装置101发送响应的内容及其自己的公共密钥。外部电子装置113可发送包括外部电子装置113的用户的识别信息(辨识信息:姓名、昵称、装置名称、账号ID或电话号码的一部分)的答复。
在操作1516中,电子装置101可从外部电子装置113接收讲话者辨识响应,以及在操作1518中,可参考公共密钥或基于公共密钥共享的秘密密钥来对话语进行加密,并且将加密的话语发送至外部电子装置113。
在操作1520中,外部电子装置113可参考对应于公共密钥或秘密密钥的私有密钥来对加密的话语进行解密,以便辨识话语,并且可从话语中提取话语声纹。在操作1522中,外部电子装置113可将话语声纹与存储在外部电子装置113中的认证声纹进行比较,并辨识认证结果。当认证成功时,在操作1524中,外部电子装置113可向电子装置101发送包括认证是否成功的认证成功答复消息。在操作1526中,电子装置101可从外部电子装置113接收认证成功答复消息。
图16是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图16,在操作1602中,接收认证成功答复消息的电子装置101(例如,智能扬声器)可辨识用于再现播放列表的信息,并将包括该信息的操作相关信息消息发送至外部电子装置113。用于再现播放列表的信息可包括播放列表提供服务、关于访问播放列表提供服务的权限的信息以及播放列表ID信息中的一个或多个。
在操作1604中,外部电子装置113可辨识操作相关信息,诸如音乐站点信息(名称和URL)、音乐站点访问权限信息(证书和令牌)以及播放列表URL。例如,播放列表URL可以是用于播放列表“重制2”的URL,以及音乐站点访问权限信息可以是用于允许电子装置101访问播放列表的临时证书。在操作1606中,外部电子装置113可将包括该信息的操作相关信息消息发送至电子装置101。为了获取音乐站点访问权限信息,外部电子装置113可向音乐站点发送用于生成临时访问权限信息(证书和令牌)的请求,并获取该请求。
在操作1608中,电子装置101可从外部电子装置113接收操作相关信息,并且参考所接收的信息访问音乐站点,以便再现播放列表。根据各种实施方式,在操作1612中,电子装置101可向云服务器130(例如图1的云服务器130)发送操作相关信息请求消息。例如,电子装置101可向云服务器130请求用于播放列表“重制2”的临时URL证书。在操作1614中,云服务器130可向电子装置101发送操作相关信息(例如,临时URL证书)。
在操作1616中,电子装置101可从云服务器130接收操作相关信息,并且在操作1618中执行相应的操作(例如,再现播放列表“重制2”的操作)。
图17是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图。参照图17,根据各种实施方式,在朋友的家中,用户可向朋友的智能扬声器给出指令并通过“我的账号”购买产品。
在操作1702中,根据本公开的实施方式,电子装置101(例如,图1的电子装置101)可通过麦克风(例如,图2的麦克风215)从用户接收话语“购买现在在TV上显示的产品”。
在操作1704中,电子装置101可分析用户的话语,以及在操作1706中,可确定要执行包括在用户的话语中的功能的主体是个人电子装置,以及要执行的操作是购买包括在话语中的产品。根据各种实施方式,电子装置101可参考所分析的话语中的操作确定该操作利用用户认证。在操作1708中,电子装置101可确定包括在用户的话语中的操作是否利用用户认证。当操作利用用户认证时,在操作1710中,电子装置101可从话语中提取话语声纹,并且可在操作1712中将所提取的话语声纹与存储在电子装置101中的认证声纹进行比较,以便辨识话语的主体。
在操作1714中,电子装置101可确定对话语的主体的认证是否成功。当话语声纹与在电子装置101中注册的认证声纹中的一个匹配时,智能扬声器可确定话语的主体是认证声纹的主体,并且可在操作1718中参考认证声纹的主体的用户信息来执行话语中的用于再现播放列表中所包括的音乐的操作。
当在操作1714中话语声纹与在电子装置101中注册的认证声纹中的任一个都不匹配时,电子装置101可确定话语是未注册用户的话语并且确定利用附加认证。当在操作1714中对话语声纹的认证失败时,在操作1716中,电子装置101可通过外部电子装置执行二级话语声纹认证,并且当二级认证完成时,在操作1718中,可执行预定的操作。
图18是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图。参照图18,当话语声纹的认证失败时,电子装置101(例如,智能扬声器)可在操作1802中辨识外部电子装置以用于二级话语声纹验证,并在操作1804中广播讲话者辨识请求,该请求查询外部电子装置的相应用户是否说出与话语声纹相对应的话语。
在操作1806、操作1810和操作1812中,接收讲话者辨识请求的电子装置111、电子装置112和电子装置113可向用户呈现话语“你刚才说“购买现在在电视上显示的产品”了吗?购买产品:三星级U/站点:亚马逊/价格:70,000韩元”的内容,并且可从用户接收对其的响应。
当预定外部电子装置113的用户在操作1812中输入对应于“是”的响应(例如,“我做了”)时,外部电子装置113可在操作1814中向电子装置101发送响应的内容及其自己的公共密钥。例如,外部电子装置113可向电子装置101发送其自己的公共密钥,并且可共享该公共密钥以便建立主通信信道安全。根据各种实施方式,外部电子装置113可发送包括外部电子装置113的用户的识别信息(辨识信息:姓名、昵称、装置名称、账号ID或电话号码的一部分)的答复。
在操作1816中从外部电子装置113接收讲话者辨识响应的电子装置101可在操作1818中参考公共密钥或基于公共密钥共享的秘密密钥对话语进行加密,并将加密的话语发送至外部电子装置113。根据各种实施方式,当对话语进行加密和发送时,电子装置101还可发送用于认证成功答复的认证信息。
在操作1820中,外部电子装置113可参考对应于公共密钥或秘密密钥的私有密钥来对加密的话语进行解密,以便辨识话语,并且可从话语中提取话语声纹。在操作1822中,外部电子装置113可将话语声纹与存储在外部电子装置113中的认证声纹进行比较,并辨识认证结果。当认证成功时,在操作1824中,外部电子装置113可向电子装置101发送包括关于认证是否成功的信息的认证成功答复消息。在操作1826中,电子装置101可从外部电子装置113接收认证成功答复消息。
图19是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图19,在操作1902中,发送认证成功答复消息的外部电子装置113可确定利用产品购买相关信息,以便执行包括在话语中的操作,并将包括对产品购买相关信息的请求的内容的操作相关信息请求发送至电子装置101(例如,智能扬声器)。产品购买相关信息可包括产品信息(姓名、价格和属性)和产品广告信息(站点和公司信息)中的一条或多条。
在操作1904中接收包括产品购买相关信息请求的操作相关信息请求消息的电子装置101在操作1906中可在获取用户的话语时参考用户的话语和周围环境信息来辨识产品购买相关信息。为此,智能扬声器可存储在获取用户话语的时间点的周围环境。
在操作1908中,辨识产品购买相关信息的电子装置101可向外部电子装置113发送包括产品购买相关信息的操作相关信息消息。
在操作1910中,接收操作相关信息消息的外部电子装置113可参考产品购买相关信息来访问购物中心站点,搜索包括在产品购买相关信息中的产品信息,并购买相应的产品。在操作1912中,外部电子装置113还可执行与产品购买选项信息、发货地址信息或支付信息相关的用户输入的步骤。
当产品购买完成时,在操作1914中,外部电子装置113可通过外部电子装置113向用户通知产品购买的结果。在操作1914中,外部电子装置113可向电子装置101发送包括产品购买结果的操作结果消息,并且电子装置101可向用户通知产品购买的结果。
在操作1916中,电子装置101可从外部电子装置113接收操作结果,并且在操作1918中显示操作结果。
图20是示出根据本公开的各种实施方式的电子装置的功能执行程序的流程图。参照图20,根据各种实施方式,在朋友的家中,用户可向朋友的智能扬声器给出指令,并控制用户家中的IoT装置信息。
在操作2002中,根据本公开的实施方式,电子装置101(例如,智能扬声器)可从用户接收话语“关闭我房屋中的起居室的灯”。电子装置101可在操作2004中分析用户的话语,并且在操作2006中确定要执行包括在用户的话语中的功能的主体是链接至讲话者的电子装置的IoT云服务器(例如,图1的云服务器130)以及要执行的操作是关闭灯。电子装置10可辨识操作和/或操作的主体,如要执行的功能以及执行该功能的具体装置,如在操作2006中那样。根据各种实施方式,电子装置101可确定该操作利用用户认证来进行所分析的话语中的操作。
当在操作2008中包括在用户的话语中的操作利用用户认证时,电子装置101可在操作2010中从话语中提取话语声纹,并且可在操作2012中将所提取的话语声纹与在电子装置101中注册的认证声纹进行比较,以便辨识话语的主体。
当话语声纹与在电子装置101中注册的认证声纹中的一个匹配时,智能扬声器可确定话语的主体是认证声纹的主体,并参考认证声纹的主体的用户信息执行该话语中包括的关闭灯的操作。
当在操作2014中发现话语声纹与在电子装置101中注册的认证声纹中的任一个都不匹配时,电子装置101可确定话语是未注册用户的话语并确定利用附加认证。当在操作2014中对话语声纹的认证失败时,电子装置101可在操作2016中通过外部电子装置执行二级话语声纹认证,并且当二级认证完成时,在操作2018中基于接收到的话语执行操作(例如,控制灯的操作)。
当在操作2008中确定包括在用户的话语中的操作不利用用户认证时,电子装置101可在操作2018中基于接收到的话语来执行操作。
图21是示出根据本公开的各种实施方式的装置之间的二级声纹认证执行程序的信号流程图。参照图21,当话语声纹的认证失败时,电子装置101(例如,智能扬声器)可在操作2102中辨识外部电子装置以用于二级话语声纹验证,并且可在操作2104中广播讲话者辨识请求,该请求查询一个或多个外部电子装置111、外部电子装置112和外部电子装置113关于其各自的用户是否说出与话语声纹相对应的话语。
在操作2106、操作2110和操作2112中,接收讲话者辨识请求的外部电子装置111、外部电子装置112和外部电子装置113可向用户呈现话语“你刚才说“关闭我房屋中的起居室的灯?”了吗”的内容,并从用户接收对此的响应。当预定外部电子装置113的用户在操作2112中输入对应于“是”的响应(例如,“我做了”)时,外部电子装置113可在操作2114中向电子装置101发送响应的内容及其自己的公共密钥。例如,外部电子装置113可向电子装置101发送其自己的公共密钥并共享该公共密钥,以便建立主通信信道安全。根据各种实施方式,外部电子装置113可发送包括外部电子装置113的用户的识别信息(辨识信息:姓名、昵称、装置名称、账号ID或电话号码的一部分)的答复。
在操作2116中,从外部电子装置113接收讲话者辨识响应的电子装置101可参考公共密钥或基于公共密钥共享的秘密密钥来对话语进行加密,并在操作2118中将加密的话语发送至外部电子装置113。根据各种实施方式,当对话语进行加密和发送时,电子装置101还可发送用于认证成功答复的认证信息。
在操作2120中,外部电子装置113可参考对应于公共密钥或秘密密钥的私有密钥对加密的话语进行解密,以辨识话语,并且可从话语中提取话语声纹。在操作2122中,电子装置113可将话语声纹与存储在电子装置113中的认证声纹进行比较,并辨识认证结果。当认证成功时,在操作2124中,电子装置113可向电子装置101发送包括关于认证是否成功的信息的认证成功答复消息。在操作2126中,电子装置101可从电子装置113接收认证成功答复消息。例如,电子装置101可通过视觉和听觉效果中的一个或多个向讲话者提供认证成功的结果。
图22是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图22,发送认证成功答复消息的外部电子装置113(例如,图1的电子装置113)可确定需要装置信息和属性信息以便执行包括在话语中的操作,并且可执行用于获取这些信息的操作。
在操作2202中,外部电子装置113可向电子装置101发送包括对装置信息和属性信息的请求的内容的操作相关信息请求。在操作2204中,接收包括对装置信息和属性信息的请求的操作相关信息请求消息的电子装置101可在操作2206中参考用户的话语来辨识包括装置信息和属性信息的操作相关信息。
在操作2208中,辨识装置信息(例如,起居室的灯)和属性信息(例如,关闭)的电子装置101可将包括装置信息和属性信息的操作相关信息消息发送至电子装置113。
在操作2210中接收到操作相关信息之后,然后,根据各种实施方式,电子装置113可通过包括在电子装置中的外部服务或者功能地连接至电子装置113的外部服务来直接辨识装置信息和属性信息。
在操作2212中,辨识装置信息和属性信息的电子装置113可将用于将装置信息(例如,起居室的灯)的属性改变为属性信息(例如,关闭)的请求消息发送至功能地连接至电子装置113的云服务器130(例如,IoT服务服务器)(例如,根据各种实施方式,电子装置113可发送“关灯指令执行”消息,并且可选择性地显示弹出消息)。.
当关灯操作完成时,在操作2214中,电子装置113可通过电子装置112向用户通知操作结果。根据各种实施方式,在操作2214中,电子装置113可向电子装置101发送包括操作结果的操作结果消息,并且电子装置101可向用户通知操作结果。
在操作2216中,电子装置101可从电子装置113接收操作结果,并且在操作2218中显示操作结果。例如,电子装置101可通过用户接口(例如,显示器、扬声器或LED)显示操作结果。
根据各种实施方式,电子装置101可在使用另一人的账号的同时返回至原始账号。当在执行另一用户的指令的同时检测到原始用户的话语时,其中,该另一用户不是在智能扬声器中注册的账号的用户,根据本公开的实施方式,电子装置101可响应并可首先操作来自原始用户的指令。例如,原始用户可以是在用户账号中注册的用户或电子装置101通过认证声纹注册的用户。
根据各种实施方式,原始用户返回策略,诸如向原始用户提供最高优先级的策略(例如,当在使用另一用户的智能扬声器的同时检测到原始用户的话语时无条件地首先执行原始用户的操作)可根据由用户预先做出的设置而改变。
返回策略可在智能扬声器识别到输入指示另一个用户已完成使用原始用户的智能扬声器的话语的操作时执行。
当在预定基准内(例如,在预定次数的尝试之后或在预定时间间隔内)未通过智能扬声器101接收到用于通过原始用户的智能扬声器101以及另一用户的电子装置112的网络单元(例如,BT或Wi-Fi)辨识智能扬声器101和另一用户是否处于相同空间内的信号(Ack/Ping)时,可执行返回策略。
图23是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图23,当用户认证程序的结果是“非认证的”或“需要附加验证”时,电子装置101(例如,智能扬声器)可搜索外部电子装置,以便在外部电子装置中执行二级话语声纹验证。
在操作2302中,电子装置101可从输入话语中提取文本。在操作2304中,电子装置101可向包括在外部电子装置的列表中的电子装置发送讲话者辨识请求消息。该消息可直接或间接地传送至电子装置。根据各种实施方式,讲话者辨识请求消息可包括在操作2302中提取的文本的至少一部分。该消息可包括该话语中所包括的指令的内容。
在操作2306、操作2310和操作2314中,从电子装置101接收讲话者辨识请求消息的外部电子装置111、外部电子装置112或外部电子装置113可向用户显示讲话者辨识请求消息并辨识对应于辨识请求的用户输入。
例如,用户的话语的内容可以以文本显示或通过语音输出,并且可添加关于相应话语的主体的查询。在另一示例中,用户的话语的内容和与其相对应的操作的描述可以以文本显示或通过语音输出,并且可添加关于对应话语的主体的查询。根据各种实施方式,在操作2308、操作2312和操作2316中,作为对查询的响应的示例,可辨识对应于“是”和“否”中的一个或多个的用户响应。
在操作2316中响应于讲话者辨识请求而辨识对应于“是”的用户响应的电子装置113可在操作2318中向电子装置101发送至少包括用户响应的答复。
图24是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图24,当用户认证程序的结果是“非认证的”或“需要附加验证”时,电子装置101(例如,智能扬声器)可搜索外部电子装置,以便在外部电子装置中执行二级话语声纹验证。
在操作2402中,电子装置101可从输入话语中提取声纹。在操作2404中,电子装置101可向包括在外部电子装置的列表中的电子装置发送讲话者辨识请求消息。该消息可直接或间接地传送至电子装置。根据各种实施方式,讲话者辨识请求消息可包括在操作2302中提取的声纹的一个或多个部分。该消息可包括在该话语中包括的指令的内容。
在操作2406、操作2412和操作2418中,外部电子装置111、外部电子装置112和外部电子装置113可从电子装置101接收讲话者辨识请求消息,并且在操作2408、操作2414和操作2420中,将存储在它们中的声纹与包括在接收到的消息中的声纹进行比较。在操作2410和操作2416中,第一外部电子装置111和第二外部电子装置112基于比较结果指示声纹不匹配,并且在操作2422中,第三外部电子装置113可在屏幕上显示声纹匹配结果,或者可在后台中操作。
在操作2422中响应于讲话者辨识请求指示声纹匹配的电子装置113可在操作2424中向电子装置101发送至少包括用户响应的答复。
图25是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图25,当用户认证程序的结果是“非认证的”或“需要附加验证”时,电子装置101(例如,智能扬声器)可搜索外部电子装置,以便在外部电子装置中执行二级话语声纹验证。
在操作2502中,电子装置101可通过辨识请求消息将输入话语的至少一部分发送至包括在外部电子装置的列表中的外部电子装置。该消息可直接或间接地传送至外部电子装置。根据各种实施方式,讲话者辨识请求消息可包括通过电子装置101的麦克风(例如,图2的麦克风215)输入的话语的至少一部分。该消息可包括在话语中包括的指令的内容的至少一部分。
在操作2504、操作2512和操作2520中从电子装置101接收讲话者辨识请求消息的外部电子装置111、外部电子装置112和外部电子装置113可在操作2506、操作2514和操作2522中从包括在接收到的消息中的话语中提取声纹。
在操作2508、操作2516和操作2524中,电子装置111、电子装置112和电子装置113可将存储在其中的声纹与从话语中提取的声纹进行比较。在操作2510和操作2518中,第一电子装置111和第二电子装置112基于比较结果指示声纹不匹配,并且在操作2526中,第三电子装置113可在屏幕上显示声纹匹配结果,或者可在后台中操作。
在操作2526中响应于讲话者辨识请求指示声纹匹配的电子装置113可在操作2528中向电子装置101发送至少包括用户响应的答复。
图26是示出根据本公开的各种实施方式的装置之间的操作程序的信号流程图。参照图26,当用户认证程序的结果是“非认证的”或“需要附加验证”时,电子装置101(例如,智能扬声器)可搜索外部电子装置,以便在外部电子装置中执行二级话语声纹验证。
在操作2602中,电子装置101可从输入话语中提取文本。在操作2604中,电子装置101可基于所提取的文本来辨识指令类别信息。例如,指令类别信息可包括音乐再现、产品购买、灯控制或家用电器控制。
在操作2606中,电子装置101可向包括在外部电子装置的列表中的电子装置发送讲话者辨识请求消息。该消息可直接或间接地传送至电子装置。根据各种实施方式,讲话者辨识请求消息可包括在操作2604中辨识的类别信息。该消息可包括在话语中包括的指令的内容的至少一部分。
在操作2608、操作2614和操作2620中从电子装置101接收讲话者辨识请求消息的外部电子装置111、外部电子装置112和外部电子装置113可在操作2610、操作2616和操作2622中向用户显示讲话者辨识请求消息并辨识对应于辨识请求的用户输入。
例如,用户的话语的内容可以以文本显示或通过语音输出,并且可添加关于相应话语的主体的查询。在另一示例中,用户的话语的内容和与其相对应的操作的描述可以以用文本显示或者可通过语音输出,并且可添加关于对应话语的主体的查询和关于是否修改对应话语的查询。根据各种实施方式,在操作2612、操作2618和操作2624中,作为对查询的响应的示例,可辨识对应于“是”和“否”中的一个或多个的用户响应。
在操作2624中,响应于讲话者辨识请求辨识对应于“是”的用户响应的外部电子装置113可在操作2626中向电子装置101发送至少包括用户响应的答复。
图27、图28和图29示出了根据本公开的各种实施方式在用户终端中显示的话语认证请求屏幕。参照图27、图28和图29,根据各种实施方式,当电子装置101(例如,智能扬声器)向发现的外部电子装置发送讲话者辨识请求以进行二级声纹认证时,一个或多个外部电子装置(例如,电子装置113)可请求辨识,如屏幕上所示。例如,话语认证请求通知消息“你刚才向Alice的扬声器给出了指令吗?”可显示在图27的屏幕2700上。当选择图27的屏幕2700上的“是”按钮2710时,可辨识话语认证,并且可将辨识响应发送至相应的智能扬声器。当选择图27的屏幕2700上的“否”按钮2720时,可不执行认证,并且因此可不向相应的智能扬声器发送辨识响应,或者可发送与认证拒绝相关的消息。
根据各种实施方式,话语认证请求通知消息“你刚才向Alice的扬声器给出了“播放重制2播放列表”的指令吗?”可显示在图28的屏幕2800上。当选择图28的屏幕2800上的“是”按钮2810时,可辨识话语认证,并且可向相应的智能扬声器发送辨识响应。当选择图28的屏幕2800上的“否”按钮2820时,可不执行认证,并且因此可不向相应的智能扬声器发送辨识响应,或者可发送与认证拒绝相关的消息。
根据各种实施方式,话语认证请求通知消息“你刚才向Alice的扬声器给出了音乐回放相关指令吗?”可显示在图29的屏幕2900上。当选择图29的屏幕2900上的“是”按钮2910时,可辨识话语认证,并且可向相应的智能扬声器发送辨识响应。当选择图29的屏幕2900上的“否”按钮2920时,可不执行认证,并且因此可不向相应的智能扬声器发送辨识响应,或者可发送与认证拒绝相关的消息。在下文中,将描述可应用于本公开的各种实施方式的集成智能***。
图30示出了根据本公开的各种实施方式的集成智能***。
参照图30,集成智能***3000可包括用户终端3010、智能服务器3020、个人信息服务器3030或提供服务器3040。
用户终端3010可通过存储在用户终端3010内的应用程序(或应用)(例如,警报应用程序、消息应用程序或照片(图库)应用程序)向用户提供利用的服务。例如,用户终端3010可通过存储在用户终端3010内的智能应用程序(或音乐识别应用程序)来执行和操作另一应用程序。通过用户终端3010的智能应用程序,可接收用于运行另一应用程序并执行操作的用户输入。用户输入可通过例如物理按钮、触摸板、语音输入或远程输入来接收。根据实施方式,用户终端3010可对应于能够连接至因特网的各种类型的终端装置(或电子装置),例如移动电话、智能电话、个人数字助理(PDA)或笔记本计算机。
根据实施方式,用户终端3010可接收用户的话语作为用户输入。用户终端3010可接收用户的话语并基于用户的话语生成用于执行应用程序的指令。因此,用户终端3010可通过指令操作应用程序。
智能服务器3020可通过通信网络3050从用户终端3010接收用户的语音输入,并将该语音输入转换为文本数据。在另一示例中,智能服务器3020可基于文本数据生成(或选择)路径规则。路径规则可包括关于用于执行应用程序的功能的动作(或操作)的信息或关于用于执行操作的参数的信息。此外,路径规则可包括应用程序的操作序列。用户终端3010可接收路径规则,根据路径规则选择应用程序,并执行包括在所选应用程序中的路径规则中的操作。
在本文件中术语“路径规则”通常可指电子装置执行由用户请求的任务的状态序列,但不限于此。换言之,路径规则可包括关于状态序列的信息。任务可以是例如可由智能应用程序提供的动作。任务可包括生成时间表、将照片传输至期望的对方、或提供天气信息。用户终端3010可顺序地具有一个或多个状态(例如,用户终端3010的操作状态)并执行任务。
根据实施方式,路径规则可由人工智能(AI)***提供或生成。AI***可以是基于规则的***、基于神经网络的***(例如,前馈神经网络(FNN))或递归神经网络(RNN)。可替代地,AI***可以是它们的组合或另一AI***。根据实施方式,路径规则可从一组预定路径规则中选择,或者可响应于用户请求而实时生成。例如,AI***可从多个预定路径规则中选择至少一个路径规则,或者可动态地(或实时地)生成路径规则。此外,用户终端3010可使用混合***来提供路径规则。
根据实施方式,用户终端3010可执行操作,并且可在显示器上显示与已执行操作的用户终端3010的状态相对应的屏幕。根据另一实施方式,用户终端3010可执行操作,并且可不在显示器上显示操作结果。用户终端3010可执行例如多个操作并在显示器上显示多个操作中的一些操作的结果。例如,用户终端3010可在显示器上显示最后操作的结果。根据另一实施方式,用户终端3010可接收用户输入并在显示器上显示操作的结果。
个人信息服务器3030可包括存储用户信息的数据库。例如,个人信息服务器3030可从用户终端3010接收用户信息(例如,上下文信息和应用程序执行),并将用户信息存储在数据库中。智能服务器3020可通过通信网络从个人信息服务器3030接收用户信息,并使用该信息为用户输入生成路径规则。根据实施方式,用户终端3010可通过通信网络从个人信息服务器3030接收用户信息,并将其用作用于管理数据库的信息。
提供服务器3040可包括存储终端内的功能或应用程序的介绍或关于要提供的功能的信息的数据库。例如,提供服务器3040可从个人信息服务器3030接收用户终端3010的用户信息,并且可包括用户可使用的功能的数据库。用户终端3010可通过通信网络从提供服务器3040接收关于要提供的功能的信息,并将该信息提供给用户。
图31是示出根据本公开的实施方式的集成智能***的用户终端的框图3100。
参照图31,用户终端3010可包括输入模块3011、显示器3013、扬声器3014、存储器3012或处理器3015。用户终端3010还可包括外壳,并且用户终端3010的元件可位于外壳内或外壳上。
根据实施方式,输入模块3011可从用户接收用户输入。例如,输入模块3011可从连接的外部装置(例如,键盘或耳机)接收用户输入。在另一示例中,输入模块3011可包括联接至显示器3013的触摸屏(例如,触摸屏显示器)。在另一示例中,输入模块3011可包括位于用户终端3010(或用户终端3010的外壳)中的硬件键(或物理键)。
根据实施方式,输入模块3011可包括麦克风3011a,用于接收作为语音信号的用户的话语。例如,输入模块3011可包括话语输入***,并通过话语输入***接收作为语音信号的用户话语。
根据实施方式,显示器3013可显示图像、视频和/或应用程序的执行屏幕。例如,显示器3013可显示应用程序的图形用户界面(GUI)。
根据实施方式,扬声器3014可输出语音信号。例如,扬声器3014可将在用户终端3010内生成的语音信号输出至外部。
根据实施方式,存储器3012可存储多个应用程序(或应用3018和应用3019)。存储在存储器3012中的多个应用程序3018和应用程序3019可由用户输入来选择,并且可被执行和操作。
根据实施方式,存储器3012可包括数据库,该数据库可存储用于识别用户输入的信息。例如,存储器3012可包括用于存储日志信息的日志数据库。在另一示例中,存储器3012可包括用于存储用户信息的个人数据库。
根据实施方式,存储器3012可存储多个应用程序3018和3019,并且多个应用程序3018和3019可被加载和操作。例如,存储在存储器3012中的多个应用程序3018和3019可由处理器3015的执行管理器模块3017加载和操作。多个应用程序3018和3019可包括用于执行功能的执行服务模块3018a和3019a。根据实施方式,多个应用程序3018和3019可通过执行服务模块3018a和3019a执行多个操作3018b和3019b(例如,状态序列),以便执行这些功能。即,执行服务模块3018a和3019a可由执行管理器模块3017激活,并且可执行多个操作3018b和3019b。
根据实施方式,当执行应用程序3018和3019的操作3018b和3019b时,可在显示器3013上显示根据操作3018b和3019b的执行的执行状态屏幕。执行状态屏幕例如可以是处于完成操作3018b和3019b的状态的屏幕。在另一示例中,执行状态屏幕可以是处于操作3018b和3019b的执行被停止(部分登陆)的状态(例如,处于操作3018b和3019b所使用的参数未被输入的状态)的屏幕。
根据实施方式,执行服务模块3018a和3019a可根据路径规则执行操作3018b和3019b。例如,执行服务模块3018a和3019a可由执行管理器模块3017激活,可根据路径规则从执行管理器模块3017接收执行请求,并且可根据执行请求执行操作3018b和3019b,以便执行应用程序3018和3019的功能。当操作3018b和3019b完全执行时,执行服务模块3018a和3019a可向执行管理器模块3017发送完成信息。
根据实施方式,当在应用程序3018和3019中执行多个操作3018b和3019b时,多个操作3018b和3019b可顺序地执行。当一个操作(例如,第一应用程序3018的操作1或第二应用程序3019的操作1)完全执行时,执行服务模块3018a和3019a可开放以下操作(例如,第一应用程序3018的操作2或第二应用程序3019的操作2),并将完成信息发送至执行管理器模块3017。这里,开放预定操作可理解为将预定操作转换到可执行状态或准备执行预定操作。换言之,当预定操作不开放时,不能执行相应的操作。当接收到完成信息时,执行管理器模块3017可向执行服务模块3018a和3019a发送用于执行后续操作(第一应用程序3018的操作2或第二应用程序3019的操作2)的请求。根据实施方式,当执行多个应用程序3018和3019时,该多个应用程序3018和3019可顺序地执行。例如,当第一应用程序3018的最后操作(例如,第一应用程序3018的操作3)完全执行并且完成信息被接收时,执行管理器模块3017可向执行服务模块3019a发送用于执行第二应用程序3019的第一操作(例如,第二应用程序3019的操作1)的请求。
根据实施方式,当在应用程序3018和3019中执行多个操作3018b和3019b时,根据多个执行的操作3018b和3019b的执行,结果屏幕可显示在显示器3013上。根据实施方式,根据多个执行的操作3018b和3019b的执行的多个结果屏幕中的一些可显示在显示器3013上。
根据实施方式,存储器3012可存储链接至智能代理3015a的智能应用程序(例如,语音识别应用程序)。链接至智能代理3015a的应用程序可接收和处理用户的话语作为语音信号。根据实施方式,链接至智能代理3015a的应用程序可由通过输入模块3011进行的特定输入(例如,通过硬件键输入、通过触摸屏输入、或特定语音输入)来操作。
根据实施方式,处理器3015可控制用户终端3010的整体操作。例如,处理器3015可通过控制输入模块3011来接收用户输入。处理器3015可通过控制显示器3013来显示图像。处理器3015可通过控制扬声器3014来输出语音信号。处理器3015可通过控制存储器3012来加载或存储所利用的信息。
根据实施方式,处理器3015可包括智能代理3015a、执行管理器模块3017或智能服务模块3016。根据实施方式,处理器3015可通过执行存储在存储器3012中的指令来驱动智能代理3015a、执行管理器模块3017或智能服务模块3016。在本公开的各种实施方式中提到的各种模块可以以硬件或软件来实现。在本公开的各种实施方式中,由智能代理3015a、执行管理器模块3017或智能服务模块3016执行的操作可理解为由处理器3015执行的操作。
根据实施方式,智能代理3015a可基于作为用户输入接收的语音信号生成用于执行应用程序的指令。根据实施方式,执行管理器模块3017可从智能代理3015a接收所生成的指令,并选择、执行和操作存储在存储器3012中的应用程序3018和3019。根据实施方式,智能服务模块3016可管理用户信息并且使用该用户信息来处理用户输入。
智能代理3015a可通过将通过输入模块3011接收的用户输入发送至智能服务器3020来处理该用户输入。
根据实施方式,智能代理3015a可在将用户输入发送至智能服务器3020之前对用户输入进行预处理。根据实施方式,为了对用户输入进行预处理,智能代理3015a可包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、端点检测(EPD)模块或自动增益控制(AGC)模块。AEC可从用户输入中去除回声。NS模块可抑制包括在用户输入中的背景噪声。EPD模块可检测包括在用户输入中的用户的语音的端点,并且可找到存在用户的语音的部分。AGC模块可识别用户输入并控制用户输入的音量,以便适于进行处理。根据实施方式,智能代理3015a可包括针对性能的所有预处理元件,但是根据另一实施方式也可包括预处理元件中的一些,以便以低功率操作。
根据实施方式,智能代理3015a可包括用于识别用户的呼叫的唤醒识别模块。唤醒识别模块可通过语音识别模块识别用户的唤醒指令,并且当接收到唤醒指令时,可激活智能代理3015a以接收用户输入。根据实施方式,智能代理3015a的唤醒识别模块可实施为低功率处理器(例如,包括在音频编解码器中的处理器)。根据实施方式,智能代理3015a可根据通过硬件键的用户输入来激活。当智能代理3015a激活时,可执行链接至智能代理3015a的智能应用程序(例如,语音识别应用程序)。
根据实施方式,智能代理3015a可包括用于执行用户输入的语音识别模块。语音识别模块可识别用于在应用程序中执行操作的用户输入。例如,语音识别模块可识别用于执行操作的有限范围的用户(语音)输入(诸如应用程序3018和3019中的唤醒指令)(例如,诸如“点击”的话语,用于在执行相机应用程序时执行拍摄操作)。用于帮助智能服务器3020识别用户输入的语音识别模块可识别例如可由用户终端3010处理的用户指令,并且可快速地处理用户的指令。根据实施方式,用于执行用户输入的智能代理3015a的语音识别模块可由应用程序处理器来实现。
根据实施方式,智能代理3015a的语音识别模块(包括唤醒模块的语音识别模块)可通过用于识别语音的算法来识别用户输入。用于识别语音的算法可以是例如隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(DTW)算法中的一个或多个。
根据实施方式,智能代理3015a可将用户语音输入转换为文本数据。根据实施方式,智能代理3015a可将用户的语音传送至智能服务器3020并接收转换后的文本数据。因此,智能代理3015a可在显示器3013上显示文本数据。
根据实施方式,智能代理3015a可从智能服务器3020接收路径规则。根据实施方式,智能代理3015a可将路径规则发送至执行管理器模块3017。
根据实施方式,智能代理3015a可根据从智能服务器3020接收的路径规则将执行结果日志发送至智能服务模块3016,并且可在个人模块3016b的用户偏好信息中累积和管理所发送的执行结果日志。
根据实施方式,执行管理器模块3017可从智能代理3015a接收路径规则并执行应用程序3018或3019,并且因此应用程序3018或3019可执行包括在路径规则中的操作3018b或3019b。例如,执行管理器模块3017可向应用程序3018和3019发送用于执行操作3018b和3019b的指令信息(例如,路径规则信息),并且从应用程序3018和3019接收操作3018b和3019b的完成信息。
根据实施方式,执行管理器模块3017可在智能代理3015a与应用程序3018和3019之间发送和接收用于执行应用程序3018和3019的操作3018b和3019b的指令信息(例如,路径规则信息)。执行管理器模块3017可绑定要根据路径规则执行的应用程序3018和3019,并将包括在路径规则中的操作3018b和3019b的指令信息(例如,路径规则信息)发送至应用程序3018和3019。例如,执行管理器模块3017可将包括在路径规则中的操作3018b和3019b顺序地发送至应用程序3018和3019,并且根据路径规则顺序地执行应用程序3018和3019的操作3018b和3019b。
根据实施方式,执行管理器模块3017可管理应用程序3018和3019的操作3018b和3019b的执行状态。例如,执行管理器模块3017可从应用程序3018和3019接收关于操作3018b和3019b的执行状态的信息。当操作3018b和3019b的执行状态例如是停止状态(部分登陆)(例如,用于操作3018b和3019b的参数未被输入的状态)时,执行管理器模块3017可向智能代理3015a发送关于停止状态的信息。智能代理3015a可基于接收到的信息向用户发送用于输入利用的信息(例如,参数信息)的请求。当操作3018b和3019b的执行状态例如是操作状态时,可从用户接收话语,并且执行管理器模块3017可向智能代理3015a发送关于正在执行的应用程序3018和3019的信息以及应用程序3018和3019的执行状态。智能代理3015a可通过智能服务器3020接收用户的话语的参数信息,并将接收到的参数信息发送至执行管理器模块3017。执行管理器模块3017可基于所接收的参数信息将操作3018b和3019b的参数改变为新参数。
根据实施方式,执行管理器模块3017可将包括在路径规则中的参数信息传送至应用程序3018和3019。当根据路径规则顺序地执行多个应用程序3018和3019时,执行管理器模块3017可将包括在路径规则中的参数信息从一个应用程序传送至另一应用程序。
根据实施方式,执行管理器模块3017可接收多个路径规则。执行管理器模块3017可基于用户的话语来选择多个路径规则。例如,当用户的话语指定用于执行预定操作3018b的预定应用程序3018且未指定用于执行剩余操作3019b的另一应用程序3019时,执行管理器模块3017可接收用于运行执行预定操作3018b的相同应用程序3018(例如,图库应用程序)以及用于运行执行剩余操作3019b的另一应用程序3019(例如,消息应用程序或电报应用程序)的多个不同路径规则。执行管理器模块3017可执行例如多个路径规则的相同操作3018b和3019b(例如,相同的连续操作3018b和3019b)。当执行相同的操作时,执行管理器模块3017可在显示器3013上显示用于选择包括在多个路径规则中的不同应用程序3018和3019的状态屏幕。
根据实施方式,智能服务模块3016可包括上下文模块3016a、个人模块3016b或提供模块3016c。
上下文模块3016a可从应用程序3018和3019收集应用程序3018和3019的当前状态。例如,上下文模块3016a可接收指示应用程序3018和3019的当前状态的上下文信息,并收集应用程序3018和3019的当前状态。
个人模块3016b可管理使用用户终端3010的用户的个人信息。例如,个人模块3016b可收集用户终端3010的使用信息和执行结果,并且可管理用户的个人信息。
提供模块3016c可预测用户的意图并向用户推荐指令。例如,提供模块3016c可考虑用户的当前状态(例如,时间、地点、情况和应用程序)向用户推荐指令。
图32示出了根据本公开的实施方式的用户终端的智能应用程序的执行。
参照图32,示出了用户终端3200接收用户输入并执行链接至智能代理3015a的智能应用程序(例如,语音识别应用程序)。
根据实施方式,用户终端3200可通过硬件键3212执行用于识别语音的智能应用程序。例如,当通过硬件键3212接收用户输入时,用户终端3200可在显示器3220上显示智能应用程序的用户界面3221。用户可触摸智能应用程序的UI 3221中的语音识别按钮3221a,以便在智能应用程序的UI 3221显示在显示器3220上的状态下输入语音,如参考标记3211b所示。在另一示例中,为了如参考标记3211b所示输入语音,用户可通过连续按压硬件键3212来如参考标记3211b所示输入语音。
根据实施方式,用户终端3200可通过麦克风(例如,图2的麦克风215)执行用于识别语音的智能应用程序。例如,当预定语音(例如,“唤醒!”)如参考标记3211a所示通过麦克风(例如,图2的麦克风215)输入时,用户终端3200可在显示器3220上显示智能应用程序的UI 3221。
图33是示出根据各种实施例的网络环境3300中的电子装置3301的框图。参照图33,网络环境3300中的电子装置3301可经由第一网络3398(例如,短距离无线通信网络)与电子装置3302进行通信,或者经由第二网络3399(例如,长距离无线通信网络)与电子装置3304或服务器3308进行通信。根据实施例,电子装置3301可经由服务器3308与电子装置3304进行通信。根据实施例,电子装置3301可包括处理器3320、存储器3330、输入装置3350、声音输出装置3355、显示装置3360、音频模块3370、传感器模块3376、接口3377、触觉模块3379、相机模块3380、电力管理模块3388、电池3389、通信模块3390、用户识别模块(SIM)3396或天线模块3397。在一些实施例中,可从电子装置3301中省略所述部件中的至少一个(例如,显示装置3360或相机模块3380),或者可将一个或更多个其它部件添加到电子装置3301中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块3376(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置3360(例如,显示器)中。
处理器3320可运行例如软件(例如,程序3340)来控制电子装置3301的与处理器3320连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器3320可将从另一部件(例如,传感器模块3376或通信模块3390)接收到的命令或数据加载到易失性存储器3332中,对存储在易失性存储器3332中的命令或数据进行处理,并将结果数据存储在非易失性存储器3334中。根据实施例,处理器3320可包括主处理器3321(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器3321在操作上独立的或者相结合的辅助处理器3323(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器3323可被适配为比主处理器3321耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器3323实现为与主处理器3321分离,或者实现为主处理器3321的部分。
在主处理器3321处于未激活(例如,睡眠)状态时,辅助处理器3323可控制与电子装置3301(而非主处理器3321)的部件之中的至少一个部件(例如,显示装置3360、传感器模块3376或通信模块3390)相关的功能或状态中的至少一些,或者在主处理器3321处于激活状态(例如,运行应用)时,辅助处理器3323可与主处理器3321一起来控制与电子装置3301的部件之中的至少一个部件(例如,显示装置3360、传感器模块3376或通信模块3390)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器3323(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器3323相关的另一部件(例如,相机模块3380或通信模块3390)的部分。
存储器3330可存储由电子装置3301的至少一个部件(例如,处理器3320或传感器模块3376)使用的各种数据。所述各种数据可包括例如软件(例如,程序3340)以及针对与其相关的命令的输入数据或输出数据。存储器3330可包括易失性存储器3332或非易失性存储器3334。非易失性存储器可包括内部存储器3336和外部存储器3338。
可将程序3340作为软件存储在存储器3330中,并且程序3340可包括例如操作***(OS)3342、中间件3344或应用3346。
输入装置3350可从电子装置3301的外部(例如,用户)接收将由电子装置3301的其它部件(例如,处理器3320)使用的命令或数据。输入装置3350可包括例如麦克风、鼠标、键盘或数码笔(例如,手写笔)。
声音输出装置3355可将声音信号输出到电子装置3301的外部。声音输出装置3355可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置3360可向电子装置3301的外部(例如,用户)视觉地提供信息。显示装置3360可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置3360可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块3370可将声音转换为电信号,反之亦可。根据实施例,音频模块3370可经由输入装置3350获得声音,或者经由声音输出装置3355或与电子装置3301直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置3302)的耳机输出声音。
传感器模块3376可检测电子装置3301的操作状态(例如,功率或温度)或电子装置3301外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块3376可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口3377可支持将用来使电子装置3301与外部电子装置(例如,电子装置3302)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口3377可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端3378可包括连接器,其中,电子装置3301可经由所述连接器与外部电子装置(例如,电子装置3302)物理连接。根据实施例,连接端3378可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块3379可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块3379可包括例如电机、压电元件或电刺激器。
相机模块3380可捕获静止图像或运动图像。根据实施例,相机模块3380可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块3388可管理对电子装置3301的供电。根据实施例,可将电力管理模块3388实现为例如电力管理集成电路(PMIC)的至少部分。
电池3389可对电子装置3301的至少一个部件供电。根据实施例,电池3389可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块3390可支持在电子装置3301与外部电子装置(例如,电子装置3302、电子装置3304或服务器3308)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块3390可包括能够与处理器3320(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块3390可包括无线通信模块3392(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星***(GNSS)通信模块)或有线通信模块3394(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络3398(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络3399(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块3392可使用存储在用户识别模块3396中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络3398或第二网络3399)中的电子装置3301。
天线模块3397可将信号或电力发送到电子装置3301的外部(例如,外部电子装置)或者从电子装置3301的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块3397可包括天线,该天线包括由形成在基板(例如,PCB)中或上的导电材料或导电图案组成的辐射元件。根据实施例,天线模块3397可以包括多个天线。在这种情况下,可由例如通信模块3390(例如,无线通信模块3392)从多个天线中选择适合于在通信网络(诸如第一网络3398或第二网络3399)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块3390和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另一组件(例如,射频集成电路(RFIC))可以另外形成为天线模块3397的一部分。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络3399连接的服务器3308在电子装置3301和外部电子装置3304之间发送或接收命令或数据。电子装置3302和电子装置3304中的每一个可以是与电子装置3301相同类型的装置,或者是与电子装置3301不同类型的装置。根据实施例,将在电子装置3301运行的全部操作或一些操作可在外部电子装置3302、外部电子装置3304或服务器3308中的一个或更多个运行。例如,如果电子装置3301应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置3301可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置3301除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置3301。电子装置3301可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“操作性地”或“通信地”的情况下或者在不使用术语“操作性地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器3336或外部存储器3338)中的可由机器(例如,电子装置101)读取的一个或更多个指令的软件(例如,程序3340)。例如,在处理器的控制下,所述机器(例如,电子装置3301)的处理器(例如,处理器3320)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。
计算机可读记录媒介可包括硬盘、软盘、磁介质(例如,磁带)、光介质(例如,光盘只读存储器(CD-ROM)和数字通用光盘(DVD))、磁光介质(例如,光磁软盘)、硬件装置(例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存)等。此外,程序指令可包括可通过使用解释器在计算机中执行的高级语言代码以及由编译器产生的机器代码。前述硬件装置可配置成作为一个或多个软件模块操作以执行本公开的操作,且反之亦然。
根据本公开的编程模块可包括前述组件中的一个或多个,或者还可包括其他附加组件,或者可省略前述组件中的一些。根据本公开的各种实施方式,由模块、编程模块或其它组件元件执行的操作可顺序地、并行地、重复地或以启发式方式执行。此外,一些操作可以以不同的顺序执行,或者可省略,或者可添加其它操作。
根据各种实施方式,提供了一种存储指令的存储媒介。指令可配置成在由至少一个处理器执行时致使该至少一个处理器执行至少一个操作。在由电子装置执行功能的方法中,至少一个操作可包括:通过麦克风接收第一语音输入的操作;执行第一声纹认证(语音生物识别)处理以便确定第一语音输入是否与在电子装置中注册的用户相对应的操作;当第一语音输入与在电子装置中注册的用户不对应时,将包括与第一语音输入相关的第一数据的请求消息发送至连接至电子装置的至少一个外部电子装置,以便使外部电子装置对第一语音输入执行第二声纹认证处理的操作;从外部电子装置接收包括基于第二声纹认证处理的认证结果的响应消息的操作;通过麦克风接收第二语音输入的操作;以及将与第二语音输入相关的第二数据至少部分地发送至外部服务器以用于自动语音识别(ASR)和/或自然语言理解(NLU)的操作。
在说明书和附图中公开的本公开的实施方式是为了容易地描述本公开的技术主题并且帮助理解本公开而提出的特定示例,并且不限制本公开。因此,除了本文中公开的实施方式之外,本公开的各种实施方式应当解释为包括基于本公开的各种实施方式的技术思想得到的所有修改或修改形式。

Claims (12)

1.电子装置(3300),包括:
至少一个通信电路(3390);
扬声器(3355);
麦克风(3350);
至少一个处理器(3320),操作性地连接至所述通信电路、所述扬声器和所述麦克风;以及
存储器(3330),存储指令,
其中,所述指令能够由所述至少一个处理器执行,以使所述电子装置:
通过所述麦克风接收第一语音输入(402),
对所述第一语音输入执行第一声纹认证,包括确定所述第一语音输入是否与对应于存储在所述电子装置中的用户的语音信息相匹配(404、406),
当所述第一语音输入与所述语音信息不匹配时,使用所述通信电路将包括与所述第一语音输入相关的第一数据的请求消息发送到至少一个外部电子装置(3304),以对所述第一语音输入执行第二声纹认证(410),
从所述至少一个外部电子装置(3304)接收指示所述第一语音输入是否经由所述第二声纹认证而被认证的响应消息(412),通过所述麦克风接收第二语音输入(414),当所述响应消息指示所述第一语音输入由所述第二声纹认证而被认证时(412),从所述至少一个外部电子装置接收用于访问外部服务器(3308)的访问信息,
基于所接收到的访问信息访问所述外部服务器(3308),以及
通过所述通信电路将与所述第二语音输入相关的第二数据发送至外部服务器(3308),以对与所述第二语音输入相关的所述第二数据执行自动语音识别(ASR)或自然语言理解(NLU)中的至少一种(414、822)。
2.根据权利要求1所述的电子装置,其中,所述第一声纹认证还包括将与所述第一语音输入相关的所述第一数据发送至所述外部服务器,使得所述第一声纹认证至少部分地通过所述外部服务器执行。
3.根据权利要求1所述的电子装置,其中,所述至少一个外部电子装置通过无线保真(Wi-Fi)、光保真(Li-Fi)、蓝牙、低功耗蓝牙(BLE)、ZigBee、近场通信(NFC)或磁安全传输中的至少一种通信地联接至所述电子装置。
4.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器执行以:
通过分析所述第一语音输入来辨识被请求执行如所述第一语音输入中所指示的功能的特定装置;以及
至少部分地基于所辨识的特定装置来确定是否执行声纹认证。
5.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器执行以:
通过分析所述第一语音输入来辨识所述第一语音输入中指示的操作;以及
根据所辨识的操作来确定是否执行声纹认证。
6.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器执行以:
通过分析所述第一语音输入来辨识被请求执行如所述第一语音输入中所指示的功能的特定装置;
当所述特定装置是所述电子装置时,向所述至少一个外部电子装置发送对操作相关信息的请求;以及
至少基于从所述至少一个外部电子装置接收的所述操作相关信息,执行在所述第一语音输入中辨识的所述功能。
7.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器执行以:
通过分析所述第一语音输入来辨识被请求执行如所述第一语音输入中所指示的功能的特定装置;
当所述特定装置为所述至少一个外部电子装置时,将操作相关信息发送至所述至少一个外部电子装置,以由所述至少一个外部电子装置执行所述功能。
8.电子装置(3300)中的方法,所述方法包括:
通过麦克风(3350)接收第一语音输入;
由至少一个处理器(3320)对所述第一语音输入执行第一声纹认证,包括确定所述第一语音输入是否与对应于存储在所述电子装置中的用户的语音信息相匹配;
当所述第一语音输入与所述语音信息不匹配时,使用通信电路(3390)向至少一个外部电子装置(3304)发送包括与所述第一语音输入相关的第一数据的请求消息,以对所述第一语音输入执行第二声纹认证;
从所述至少一个外部电子装置(3304)接收指示所述第一语音输入是否经由所述第二声纹认证而被认证的响应消息;
通过所述麦克风(3350)接收第二语音输入;
当所述响应消息指示所述第一语音输入由所述第二声纹认证而被认证时,从所述至少一个外部电子装置接收用于访问外部服务器(3308)的访问信息,
基于所接收到的访问信息访问所述外部服务器(3308),以及
将与所述第二语音输入相关的第二数据发送至所述外部服务器(3308),以对与所述第二语音输入相关的所述第二数据执行自动语音识别(ASR)或自然语言理解(NLU)中的至少一种。
9.根据权利要求8所述的方法,其中,所述第一声纹认证还包括将与所述第一语音输入有关的所述第一数据发送至所述外部服务器,使得所述第一声纹认证至少部分地通过所述外部服务器执行。
10.根据权利要求8所述的方法,其中,所述至少一个外部电子装置通过无线保真(Wi-Fi)、光保真(Li-Fi)、蓝牙、低功耗蓝牙(BLE)、ZigBee、近场通信(NFC)或磁安全传输中的至少一种通信地联接至所述电子装置。
11.根据权利要求8所述的方法,还包括:
通过分析所述第一语音输入来辨识被请求执行如所述第一语音输入中所指示的功能的特定装置;以及
至少部分地基于所辨识的特定装置来确定是否执行声纹认证。
12.根据权利要求8所述的方法,还包括:
通过分析所述第一语音输入来辨识所述第一语音输入中指示的操作;以及
基于所辨识的操作确定是否执行声纹认证。
CN201980010934.4A 2018-02-09 2019-02-08 电子装置及执行电子装置的功能的方法 Active CN111699528B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0016277 2018-02-09
KR1020180016277A KR102513297B1 (ko) 2018-02-09 2018-02-09 전자 장치 및 전자 장치의 기능 실행 방법
PCT/KR2019/001565 WO2019156499A1 (en) 2018-02-09 2019-02-08 Electronic device and method of performing function of electronic device

Publications (2)

Publication Number Publication Date
CN111699528A CN111699528A (zh) 2020-09-22
CN111699528B true CN111699528B (zh) 2023-11-03

Family

ID=65365849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980010934.4A Active CN111699528B (zh) 2018-02-09 2019-02-08 电子装置及执行电子装置的功能的方法

Country Status (5)

Country Link
US (1) US10923130B2 (zh)
EP (1) EP3525205B1 (zh)
KR (1) KR102513297B1 (zh)
CN (1) CN111699528B (zh)
WO (1) WO2019156499A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6657025B2 (ja) * 2016-06-17 2020-03-04 シャープ株式会社 操作者推定システム
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
KR102623246B1 (ko) * 2018-10-12 2024-01-11 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
US10902851B2 (en) * 2018-11-14 2021-01-26 International Business Machines Corporation Relaying voice commands between artificial intelligence (AI) voice response systems
US11043222B1 (en) * 2018-12-03 2021-06-22 Amazon Technologies, Inc. Audio encryption
US11115597B2 (en) * 2019-02-20 2021-09-07 Lg Electronics Inc. Mobile terminal having first and second AI agents interworking with a specific application on the mobile terminal to return search results
US11531736B1 (en) * 2019-03-18 2022-12-20 Amazon Technologies, Inc. User authentication as a service
KR102135182B1 (ko) * 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
US10802843B1 (en) 2019-05-31 2020-10-13 Apple Inc. Multi-user configuration
CN110290468B (zh) * 2019-07-04 2020-09-22 英华达(上海)科技有限公司 虚拟隔音通信方法、装置、***、电子设备、存储介质
CN110364151B (zh) * 2019-07-15 2024-01-30 华为技术有限公司 一种语音唤醒的方法和电子设备
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
KR20210028422A (ko) 2019-09-04 2021-03-12 삼성전자주식회사 전자장치 및 그 제어방법
CN110610704A (zh) * 2019-09-09 2019-12-24 上海赛连信息科技有限公司 一种标识展示的方法、介质、装置和计算设备
CN110531632B (zh) * 2019-09-27 2022-08-26 北京声智科技有限公司 控制方法及***
CN111028835B (zh) * 2019-11-18 2022-08-09 北京小米移动软件有限公司 资源置换方法、装置、***、计算机可读存储介质
US11152000B1 (en) 2019-12-19 2021-10-19 Express Scripts Strategic Development, Inc. Predictive analysis system
CN110970036B (zh) * 2019-12-24 2022-07-12 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111081249A (zh) * 2019-12-30 2020-04-28 腾讯科技(深圳)有限公司 一种模式选择方法、装置及计算机可读存储介质
CN111600782B (zh) * 2020-04-28 2021-05-18 百度在线网络技术(北京)有限公司 智能语音设备的控制方法、装置、电子设备和存储介质
CN111583932A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于人声模型的声音分离方法和装置以及设备
CN111640434A (zh) * 2020-06-05 2020-09-08 三星电子(中国)研发中心 用于控制语音设备的方法和装置
US11503372B2 (en) * 2020-06-17 2022-11-15 Google Llc Automation and recommendation based on device control protocols
US11206052B1 (en) * 2020-06-18 2021-12-21 HAJEN Co., Ltd Smart speaker
CN111785284B (zh) * 2020-08-19 2024-04-30 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
WO2022043675A2 (en) * 2020-08-24 2022-03-03 Unlikely Artificial Intelligence Limited A computer implemented method for the automated analysis or use of data
JP2022041553A (ja) * 2020-09-01 2022-03-11 ヤマハ株式会社 通信制御方法
US20220129144A1 (en) * 2020-10-26 2022-04-28 Apple Inc. Methods and user interfaces for handling user requests
US20220172729A1 (en) * 2020-12-01 2022-06-02 Soundhound, Inc. System and Method For Achieving Interoperability Through The Use of Interconnected Voice Verification System
EP4017021A1 (en) 2020-12-21 2022-06-22 Sonova AG Wireless personal communication via a hearing device
US11942094B2 (en) * 2021-03-24 2024-03-26 Google Llc Hybrid multilingual text-dependent and text-independent speaker verification
CN114301723A (zh) * 2021-12-21 2022-04-08 珠海格力电器股份有限公司 一种智能家居控制***及方法
CN115460166A (zh) * 2022-09-06 2022-12-09 网易(杭州)网络有限公司 即时语音通信方法、装置、电子设备及存储介质
WO2024058524A1 (ko) * 2022-09-16 2024-03-21 삼성전자주식회사 오거부 판단 방법 및 이를 수행하는 전자 장치
CN117201879B (zh) * 2023-11-06 2024-04-09 深圳市微浦技术有限公司 机顶盒显示方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007014885A1 (de) * 2007-03-26 2008-10-02 Voice Trust Ag Verfahren und Vorrichtung zur Steuerung eines Nutzerzugriffs auf einen in einem Datennetz bereitgestellten Dienst
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
US9251787B1 (en) * 2012-09-26 2016-02-02 Amazon Technologies, Inc. Altering audio to improve automatic speech recognition
CN106796791A (zh) * 2014-09-30 2017-05-31 苹果公司 扬声器识别和不受支持的扬声器适配技术
CN107079282A (zh) * 2014-11-21 2017-08-18 卡诺爱股份有限公司 用于提供多号码服务的方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085189A1 (en) 2004-10-15 2006-04-20 Derek Dalrymple Method and apparatus for server centric speaker authentication
US20060277043A1 (en) * 2005-06-06 2006-12-07 Edward Tomes Voice authentication system and methods therefor
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8447619B2 (en) 2009-10-22 2013-05-21 Broadcom Corporation User attribute distribution for network/peer assisted speech coding
EP2515497B1 (en) * 2011-04-18 2018-07-04 Werner Blessing Method for performing authentication in a distributed authentication system and authentication system
US8949958B1 (en) 2011-08-25 2015-02-03 Amazon Technologies, Inc. Authentication using media fingerprinting
US9147399B1 (en) 2012-08-31 2015-09-29 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9286899B1 (en) 2012-09-21 2016-03-15 Amazon Technologies, Inc. User authentication for devices using voice input or audio signatures
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9299350B1 (en) 2013-03-15 2016-03-29 Amazon Technologies, Inc. Systems and methods for identifying users of devices and customizing devices to users
CN105283836B (zh) * 2013-07-11 2019-06-04 英特尔公司 用于设备唤醒的设备、方法、装置及计算机可读存储介质
US20150025888A1 (en) * 2013-07-22 2015-01-22 Nuance Communications, Inc. Speaker recognition and voice tagging for improved service
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
KR102405793B1 (ko) * 2015-10-15 2022-06-08 삼성전자 주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US10681032B2 (en) * 2016-06-01 2020-06-09 Ov Loop, Inc. System and method for voice authentication
US10127926B2 (en) * 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007014885A1 (de) * 2007-03-26 2008-10-02 Voice Trust Ag Verfahren und Vorrichtung zur Steuerung eines Nutzerzugriffs auf einen in einem Datennetz bereitgestellten Dienst
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
US9251787B1 (en) * 2012-09-26 2016-02-02 Amazon Technologies, Inc. Altering audio to improve automatic speech recognition
CN106796791A (zh) * 2014-09-30 2017-05-31 苹果公司 扬声器识别和不受支持的扬声器适配技术
CN107079282A (zh) * 2014-11-21 2017-08-18 卡诺爱股份有限公司 用于提供多号码服务的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VLSI SUPPORT FOR VOICE OVER INTERNET PROTOCOL SCHEDULING AND BUFFERING IN HIGH SPEED PACKET SWITCHED NETWORK;Jyothi Noubade;《VLSI SUPPORT FOR VOICE OVER INTERNET PROTOCOL SCHEDULING AND BUFFERING IN HIGH SPEED PACKET SWITCHED NETWORK 》;第1-5页 *
基于Internet 的嵌入式分布式 远程测控***的设计;谢东 等;《自动化与仪器仪表》(第3期);第11-14页 *

Also Published As

Publication number Publication date
US20190251975A1 (en) 2019-08-15
KR20190096618A (ko) 2019-08-20
EP3525205B1 (en) 2021-06-02
WO2019156499A1 (en) 2019-08-15
CN111699528A (zh) 2020-09-22
US10923130B2 (en) 2021-02-16
EP3525205A1 (en) 2019-08-14
KR102513297B1 (ko) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
US10490195B1 (en) Using system command utterances to generate a speaker profile
CN105940407B (zh) 用于评估音频口令的强度的***和方法
US11094316B2 (en) Audio analytics for natural language processing
WO2021008538A1 (zh) 语音交互方法及相关装置
KR102590914B1 (ko) 전자 장치 및 이의 제어 방법
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
KR20200113105A (ko) 응답을 제공하는 전자 장치와 이의 동작 방법
US11631406B2 (en) Method for responding to user utterance and electronic device for supporting same
CN112840396A (zh) 用于处理用户话语的电子装置及其控制方法
US11514890B2 (en) Method for user voice input processing and electronic device supporting same
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
US20140146644A1 (en) Methods and systems for ambient system comtrol
CN109474658A (zh) 用外部设备支持任务运行的电子设备、服务器和记录介质
US20220270605A1 (en) Electronic apparatus and assistant service providing method thereof
US20230362026A1 (en) Output device selection
US10952075B2 (en) Electronic apparatus and WiFi connecting method thereof
US11670294B2 (en) Method of generating wakeup model and electronic device therefor
US11516039B2 (en) Performance mode control method and electronic device supporting same
US11893976B2 (en) Electronic device and operation method thereof
US20230017927A1 (en) Electronic apparatus and method for controlling thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant