CN113449068A - 一种语音交互方法及电子设备 - Google Patents

一种语音交互方法及电子设备 Download PDF

Info

Publication number
CN113449068A
CN113449068A CN202010232268.3A CN202010232268A CN113449068A CN 113449068 A CN113449068 A CN 113449068A CN 202010232268 A CN202010232268 A CN 202010232268A CN 113449068 A CN113449068 A CN 113449068A
Authority
CN
China
Prior art keywords
user
voice
information
electronic device
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010232268.3A
Other languages
English (en)
Inventor
李伟国
钱莉
蒋欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010232268.3A priority Critical patent/CN113449068A/zh
Priority to PCT/CN2021/077514 priority patent/WO2021190225A1/zh
Priority to EP21774325.1A priority patent/EP4116839A4/en
Publication of CN113449068A publication Critical patent/CN113449068A/zh
Priority to US17/952,401 priority patent/US20230017274A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供一种语音交互方法及电子设备,涉及人工智能AI技术领域和语音处理技术领域,可以提高电子设备与用户交互的性能,从而为用户提供个性化的语音交互体验。具体方案包括:电子设备可以接收第二用户发出的第一语音信息;并响应于该第一语音信息,电子设备识别该第一语音信息。其中,第一语音信息用于请求与第一用户进行语音对话。基于电子设备识别第一语音信息是第二用户的语音信息,电子设备可以模拟第一用户的声音,并且按照第一用户与第二用户进行语音对话的方式,与第二用户进行语音对话。该方法可应用于通过智能机器人代替父母实现陪伴和教育儿童的场景中。

Description

一种语音交互方法及电子设备
技术领域
本申请实施例涉及人工智能技术领域和语音处理技术领域,尤其涉及一种语音交互方法及电子设备。
背景技术
现有的智能设备大多可以接收用户发出的语音信息(如语音命令),并执行该语音信息对应的操作。示例性的,上述智能设备可以是手机、智能机器人、智能手表或者智能家居设备(如智能电视机)等设备。例如,手机可以接收用户发出的语音命令“调低音量”,然后自动调低手机的音量。
一些智能设备还可以提供语音交互功能。例如,智能机器人可以接收用户的语音信息,并根据该语音信息与用户进行语音会话,从而实现语音交互功能。但是,现有的智能设备与用户进行语音会话时,只能按照设定的语音模式给出一些模式化的语音回复。智能设备与用户的交互性能较差,无法为用户提供个性化的语音交互体验。
发明内容
本申请提供一种语音交互方法及电子设备,提高电子设备与用户交互的性能,从而为用户提供个性化的语音交互体验。
为实现上述技术目的,本申请采用如下技术方案:
第一方面,本申请提供了一种语音交互方法,该方法可以包括:电子设备可以接收第二用户发出的第一语音信息;并响应于第一语音信息,电子设备识别该第一语音信息。其中,第一语音信息用于请求与第一用户进行语音对话。基于电子设备识别第一语音信息是第二用户的语音信息,电子设备可以模拟第一用户的声音,并且按照第一用户与第二用户进行语音对话的方式,与第二用户进行语音对话。
上述方案中,电子设备可以接收到第一语音信息,并识别出该第一语音信息是第二用户发出的。由于第一语音信息是请求与第一用户进行语音对话,则电子设备可以识别出第一语音信息是第二用户想和第一用户语音对话。这样,电子设备可以模拟第一用户的声音,按照第一用户与第二用户进行语音对话的对话方式,智能的与第二用户进行语音对话。如此,电子设备便可以模拟第一用户,为第二用户提供与第一用户进行真实语音对话的交流体验。这种语音交互方式提高了电子设备的交互性能,并且可以为用户提供个性化的语音交互体验。
在一种可能的实施方式中,上述对话方式用于指示第一用户与第二用户进行语音对话的语气和用词。
电子设备按照第一用户与第二用户进行语音对话的对话方式,与第二用户进行语音对话。也就是说,电子设备按照第一用户与第二用户对话时的语气和用词,与第一用户进行语音对话。为第二用户提供更真实与第一用户语音对话的交流体验,提高了电子设备的交互性能。
另一种可能的实施方式中,电子设备中可以保存有第一用户的图像信息。那么,在电子设备模拟第一用户的声音,并按照第一用户与第二用户的对话方式,与第二用户进行语音对话时,电子设备还可以显示第一用户的图像信息。
如果电子设备可以显示图像,并且,电子设备中保存有第一用户的图像信息。那么电子设备在模拟第一用户和第二用户进行语音对话时,显示出第一用户的图像信息。如此,电子设备模拟第一用户与第二用户进行语音对话时,第二用户不仅可以听到第一用户的声音,还可以看到第一用户的图像。通过本方案,可以为用户提供类似于与第一用户面对面语音对话的交流体验。
另一种可能的实施方式中,电子设备中可以保存有第一用户的人脸模型。那么,在电子设备模拟第一用户的声音,并按照第一用户与第二用户的对话方式,与第二用户进行语音对话时,电子设备可以模拟第一用户与第二用户进行语音对话的表情,显示第一用户的人脸模型。其中,电子设备显示的人脸模型中第一用户的表情可以动态变化的。
如果电子设备中保存有第一用户的人脸模型,电子设备模拟第一用户与第二用户进行语音交互时,电子设备显示第一用户的人脸模型。而且,电子设备显示的人脸模型可以动态变化,使得用户以为在和第一用户语音对话。如此,电子设备模拟第一用户与第二用户进行语音对话时,第二用户可以在和第一用户语音对话时不仅能听见第一用户的声音,还能看见第一用户的面部表情。通过本方案,可以为用户提供更真实的与第一用户面对面语音对话的体验。
另一种可能的实施方式中,电子设备在接收到第一语音信息之前,上述方法还可以包括:该电子设备还可以获取第二语音信息,第二语音信息是第一用户与第二用户进行语音对话时的语音信息。电子设备分析获取到第二语音信息,从而可以得到第一用户和第二用户进行语音对话时的语音特征,并保存该语音特征
可以理解的,语音特诊可以包括声纹特征、语气特征和用词特征。语气特征用于指示第一用户与第二用户进行语音对话时语气;用词特征用于指示第一用户与第二用户进行语音对话时的惯用词汇。为第二用户提供更真实与第一用户语音对话的交流体验,进一步提高了电子设备的交互性能。
其中,电子设备模拟第一用户和第二用户语音交互之前,电子设备获取第二语音信息,第二语音信息是第一用户和第二用户语音对话的语音信息。电子设备可以根据该第二语音信息分析第一用户和第二用户语音对话时的语音特征。这样一来,电子设备模拟第一用户与第二用户语音对话的对话方式时,电子设备可以发出和第一用户相似的语音对话,从而为用户提供个性化的语音交互体验。
另一种可能的实施方式中,电子设备在第二语音信息中,还可以保存上述电子设备模拟第一用户与第二用户的语音对话记录。
另一种可能的实施方式中,上述基于电子设备识别出第一语音信息是第二用户的语音信息,电子设备可以模拟第一用户的声音,按照第一用户与第二用户进行语音对话的对话方式,与第二用户进行语音对话。可以为,电子设备识别出第一语音是第二用户的语音信息,电子设备模拟第一用户的声音,按照第一用户与第二用户进行语音对话的对话方式,发出第一语音的语音响应信息。如果电子设备在发出第一语音的语音响应信息之后,接收到第三语音信息,并且,电子设备识别出该第三语音是第二用户的语音信息。则电子设备识别出第三语音是第二用户的语音信息,电子设备可以模拟第一用户的声音,并按照第一用户与第二用户进行语音对话的对话方式,发出第三语音信息的语音响应信息。
可以理解的,当电子设备模拟第一用户与第二用户的对话方式响应第一语音信息,则电子设备在接收到第三语音信息后,需要识别出第三语音是第二用户发出的。则电子设备需要识别第三语音信息是第二用户的语音信息之后,发出响应第三语音信息的响应信息。假如电子设备与第二用户语音对话的环境中还有其他用户在发出语音信息,电子设备在接收到第三语音信息后,识别该第三语音信息是第二用户发出的,可以更好的与第二用户进行语音对话。从而提高语音交互功能,并提升用户体验。
另一种可能的实施方式中,电子设备可以获取第一用户的日程信息,该日程信息用于是指第一用户的日程安排。上述电子设备发出第三语音的语音响应信息可以为,电子设备参考该日程信息,发出第三语音信息的语音响应信息。
如果第三语音是第二用户发出用于询问第一用户日程安排的信息,由于电子设备已经获取到第一用户的日程信息,则电子设备可以直接根据日程信息响应第三语音信息。从而为第一用户提供个性化的交互体验。
另一种可能的实施方式中,电子设备可以保存上述电子设备模拟第一用户的声音,与第二用户的语音对话记录,电子设备还可以向第一用户的电子设备发送该语音对话记录。
电子设备向第一用户的电子设备发送语音对话记录,使得第一用户可以了解对话内容。电子设备为第二用户提供更个性化的语音交互。
另一种可能的实施方式中,电子设备保存上述电子设备模拟第一用户与第二用户的语音对话记录,电子设备还可以从上述的语音对话记录中提取语音对话中的关键字。电子设备可以向第一用户的电子设备发送该关键字。
另一种可能的实施方式中,电子设备模拟第一用户的声音,按照第一用户与第二用户语音对话的对话方式,与第二用户语音交互。电子设备还可以获取第二用户的图像信息和动作信息,并保存第二用户的图像信息和动作信息。
其中,电子设备在模拟第一用户与第二用户语音对话时,获取第二用户的图像信息和动作信息,可以学习第二用户与第一用户语音对话时的表情和动作。以便电子设备模拟第二用户与第一用户语音的对话方式。
第二方面,本申请还提供一种电子设备,该电子设备可以包括存储器、语音模块和一个或多个处理器。存储器、语音模块和一个或多个处理器耦合。
麦克风可以用于接收第一语音信息。存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当处理器执行计算机指令时,处理器用于,响应于第一语音信息,识别第一语音信息,第一语音信息用于请求与第一用户进行语音对话。基于第一语音被识别出是第二用户的语音信息,模拟第一用户的声音,按照第一用户和第二用户语音对话的对话方式,与第二用户语音对话。
在一种可能的实施方式中,电子设备还可以包括显示屏,显示屏与处理器耦合。显示屏用于显示第一用户的图像信息。
另一种可能的实施方式中,电子设备中保存有第一用户的人脸模型。电子设备中的显示屏还用于,模拟第一用户与第二用户进行语音对话的表情,显示人脸模型;其中,人脸模型中第一用户的表情动态变化。
另一种可能的实施方式中,麦克风还用于,获取第二语音信息,第二语音信息是第一用户与第二用户进行语音对话时的语音信息。
处理器,还用于分析第二语音信息,得到第一用户与第二用户进行语音对话时的语音特征,并保存语音特征。
其中,语音特征包括声纹特征、语气特征和用词特征,语气特征用于指示第一用户与第二用户进行语音对话时的语气,用词特征用于指示第一用户与第二用户进行语音对话时的惯用词汇。
另一种可能的实施方式中,处理器还用于在第二语音信息中,保存电子设备模拟第一用户与第二用户的语音对话记录。
另一种可能的实施方式中,麦克风还用于,接收第三语音信息。处理器还用于,响应于第三语音信息,识别第三语音信息。基于第三语音信息被识别出是第二用户的语音信息,电子设备模拟第一用户的声音,按照第一用户与第二用户进行语音对话的对话方式,扬声器还用于发出第三语音信息的语音响应信息。
另一种可能的实施方式中,处理器还用于获取第一用户的日程信息,日程信息用于指示第一用户的日程安排。其中,发出第三语音信息的语音响应信息,包括:电子设备参考日程信息,发出第三语音信息的语音响应信息。
另一种可能的实施方式中,处理器还用于,保存电子设备模拟第一用户的声音,与第二用户的语音对话记录;向第一用户的电子设备发送语音对话记录。
另一种可能的实施方式中,处理器还用于,保存电子设备模拟第一用户与第二用户的语音对话记录。从语音对话记录提取电子设备模拟第一用户与第二用户的语音对话的关键字;向第一用户的电子设备发送关键字。
另一种可能的实施方式中,电子设备还包括摄像头,摄像头与处理器耦合;摄像头用于获取第二用户的图像信息和动作信息,处理器还用于保存第二用户的图像信息和动作信息。
第三方面,本申请还提供一种服务器,该服务器可以包括:存储器和一个或多个处理器。存储器和一个或多个处理器耦合。其中,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行计算机指令时,使服务器执行上述第一方面及其任一种可能的实施方式中的方法。
第四方面,本申请还提供一种计算机可读存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得该电子设备可以执行上述第一方面及其任一种可能的实施方式中的方法。
第五方面,本申请还提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面及其任一种可能的实施方式中的方法。
可以理解的是,上述本申请提供的第二方面的电子设备,第三方面的服务器、第四方面的计算机可读存储介质以及计算机程序产品所能达到的有益效果,可参考如第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1A为本申请实施例提供的一种***架构图;
图1B为本申请实施例提供的另一种***架构图;
图2A为本申请实施例提供的一种电子设备的结构示意图;
图2B为本申请实施例提供的一种电子设备的软件结构示意图;
图3A为本申请实施例提供的语音交互方式的流程图;
图3B为本申请实施例提供的一种智能音箱的显示界面示意图;
图4为本申请实施例提供的一种智能音箱的结构示意图。
具体实施方式
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
一般的具备语音交互功能的电子设备,可以根据识别到的语音信息发出对应的语音响应。但是,电子设备不能识别出语音信息是哪个用户发出的,也就是说,电子设备处于语音交互功能时,一旦识别出语音信息就会发出对应的语音响应。另外,电子设备发出的对应的语音响应也是固定的。电子设备的语音交互功能使得电子设备可以和用户语音对话,如果电子设备可以识别出发出语音信息的用户,可以根据发出语音信息的用户以及针对性的发出对应的语音响应。则可以为用户提供个性化的语音交互体验,从而提高用户使用电子设备进行语音交互的兴趣。
另外,电子设备一般不能“扮演”其他用户。其中,“扮演”的意思是电子设备在和用户2语音交互时,模拟用户1的声音,以及使用用户1与用户2的对话方式,与用户2语音交互。在一些实际情况中,如父母需要出门上班,不能随时和孩子沟通。如果电子设备可以“扮演”父亲或母亲与孩子语音对话,以满足孩子想要和家长沟通的想法。使得电子设备可以为孩子提供更个性化、人性化的语音交互。
本申请实施例提供一种语音交互方法,应用于电子设备。使得电子设备可以“扮演”用户1和用户2语音交互。提高了电子设备的语音交互性能,而且还可以为用户2提供个性化的交互体验。
示例性的,本申请实施例中的电子设备可以是手机、电视机、智能音箱、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等,本申请实施例对该电子设备的具体形态不作特殊限制。
以下将结合附图,对本申请实施例中的技术方案进行说明。
请参考图1A,为本申请实施例提供的一种***架构图。假设电子设备“扮演”用户1,与用户2语音交互。如图1A电子设备可以采集用户2发出的语音信息,电子设备可以通过互联网与远程服务器交互,向服务器发送用户2的语音信息,由服务器生成该语音信息对应的响应信息,并向电子设备发送生成的语音信息对应的响应信息。电子设备用于播放该语音信息对应的响应信息,以实现“扮演”用户1与用户2语音交互的目的。也就是说,电子设备可以采集并识别出用户2发出的语音信息,并且可以播放该语音信息对应的响应信息。这种实现方式,通过与电子设备连接的服务器识别用户2的语音信息,并生成语音信息对应的响应信息。电子设备播放语音信息对应的响应信息,可以降低电子设备的运算需求,降低电子设备的生产成本。
请参考图1B,为本申请实施例提供的另一种***架构图。假设电子设备“扮演”用户1,与用户2语音交互。如图1B电子设备可以采集用户2发出的语音信息,电子设备根据语音信息识别出是用户2的语音信息,该语音信息是请求与用户1语音对话。电子设备根据该语音信息生成对应的响应信息,并播放该响应信息。这种实现方式中,电子设备可以实现语音交互,降低了电子设备对互联网的依赖。
请参考图2A,为本申请实施例提供的一种电子设备200的结构示意图。如图2A所示,该电子设备200可以包括处理器210,外部存储器接口220,内部存储器221,通用串行总线(universal serial bus,USB)接口230,充电管理模块240,电源管理模块241,电池242,天线1,天线2,移动通信模块250,无线通信模块260,音频模块270,传感器模块280,摄像头293和显示屏294等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备200的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了***的效率。
在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备200的结构限定。在本申请另一些实施例中,电子设备200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
外部存储器接口220可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令,从而执行电子设备200的各种功能应用以及数据处理。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
充电管理模块240用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块241用于连接电池242,充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210,内部存储器221,外部存储器,显示屏294,无线通信模块260和音频模块270等供电。
电子设备200的无线通信功能可以通过天线1,天线2,移动通信模块250,无线通信模块260,调制解调处理器以及基带处理器等实现。
移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块250可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块250还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。
无线通信模块260可以提供应用在电子设备200上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。其中,无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
显示屏294用于显示图像,视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备200可以包括1个或N个显示屏294,N为大于1的正整数。
摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备200可以包括1个或N个摄像头293,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备200在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备200可以支持一种或多种视频编解码器。这样,电子设备200可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
电子设备200可以通过音频模块270,扬声器270A,麦克风270B,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块270用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中,音频模块270可以设置于处理器210中,或将音频模块270的部分功能模块设置于处理器210中。
扬声器270A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备200可以通过扬声器270A收听音乐,或收听免提通话。在一些实施例中,扬声器270A可以播放语音信息的响应信息。
麦克风270B,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风270B发声,将声音信号输入到麦克风270B。例如,麦克风270B可以采集用户发出的语音信息。电子设备200可以设置至少一个麦克风270B。在一些实施例中,电子设备200可以设置两个麦克风270B,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备200还可以设置三个,四个或更多麦克风270B,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
电子设备200的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的Android***为例,示例性说明电子设备200的软件结构。
图2B是本发明实施例的电子设备200的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图2B所示,应用程序包可以包括相机,图库,日历,WLAN,语音对话,蓝牙,音乐,视频等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2B所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。例如,该数据可以是用户2的声纹特征,用户2和用户1的关系等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。
电话管理器用于提供电子设备200的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒,蓝牙配对成功提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
以下实施例中的方法均可以在具备上述硬件结构的电子设备中实现。
请参考图3A,为本申请实施例提供的语音交互方法的流程图。其中,本申请实施例以电子设备是智能音箱,智能音箱“扮演”用户1与用户2进行语音对话为例,对语音交互方法进行具体说明。如图3A所示,该方法包括步骤301-步骤304。
步骤301:用户2向智能音箱发出第一语音信息。
其中,第一语音信息用于请求智能音箱“扮演”用户1与自己(用户2)语音对话。
在一种可能的场景中,家庭中父母外出上班,孩子在家需要父母的陪伴,想要跟父母语音对话是,便可以向家里的智能音箱发出语音信息,请求智能音箱“扮演”父亲或母亲陪伴自己。例如,第一语音信息可以是“我想和爸爸说话”或者“音箱音箱,我想和爸爸说话”。
可以理解的,智能音箱需要唤醒才能工作,智能音箱的唤醒语音可以是固定的。在一些实施例中,在步骤301之前,用户2可以先向智能音箱发出唤醒词,使得智能音箱处于唤醒状态。
实现方式1,该唤醒词可以是“音箱音箱”、“智能音箱”或者“语音音箱”等。该唤醒词可以预先配置在智能音箱中,也可以由用户在智能音箱中设置。在该实施例中,上述第一语音信息可以不包括唤醒词。例如,该第一语音信息可以是“我想和爸爸说话”。
实现方式2,第一语音信息中可以包括上述唤醒词,还可以包括用户2向智能音箱发出的语音命令。例如,该第一语音信息可以是“音箱音箱,我想和爸爸说话”。
步骤302:智能音箱接收用户2发出的第一语音信息。
其中,智能音箱未被唤醒时,处于休眠状态。用户2想要使用智能音箱时,可以对语音助手进行语音唤醒。语音唤醒过程可以包括:智能音箱通过低功耗的数字信号处理器(Digital Signal Processing,DSP)监测语音数据。当DSP监测到语音数据与上述唤醒词的相似度满足一定条件时,DSP将监测到的语音数据交给应用处理器(ApplicationProcessor,AP)。由AP对上述语音数据进行文本校验,以判断该语音数据是否可以唤醒智能音箱。
可以理解的,智能音箱处于休眠状态时,可以随时监听用户发出的语音信息,如果该语音信息不是唤醒自己(智能音箱)工作的唤醒语音,智能音箱不会响应该语音信息,也不会记录该语音信息。
在上述实现方式1中,智能音箱处于唤醒状态,则第一语音信息中可以不包括智能音箱的唤醒词,智能音箱接收到第一语音信息并响应于第一语音信息。
在上述实现方式2中,智能音箱处于休眠状态,则第一语音信息中包括智能音箱的唤醒词,智能音箱接收到第一语音信息被唤醒,并响应于第一语音信息。
步骤303:智能音箱响应于第一语音信息,识别第一语音信息;并确定第一语音信息用于请求与用户1语音对话。
其中,智能音箱可以对第一语音信息进行文本识别,根据文本识别的结果,确定第一语音信息用于请求与用户1语音对话。也就是说,第一语音信息中包括智能音箱要“扮演”的角色的名字或称谓,使得智能设备可以根据名字或称谓识别出要“扮演”的角色。当智能音箱识别出第一语音信息中的名字时,可以确定出要“扮演”的角色。例如,第一语音信息为“我要和李明说话”,智能音箱可以确定要“扮演”的角色为李明。当智能音箱识别出第一语音信息中的称谓时,可以确定发出第一语音信息的是用户2,智能音箱根据用户2和第一语音信息中称谓的关系确定出要“扮演”的角色。
以智能音箱的使用场景是家庭环境为例,智能音箱中可以预先存储家庭成员关系。则智能音箱接收到第一语音信息后,可以根据家庭成员关系确定出要“扮演”的角色。
示例一:智能音箱接收到的用户2发出的第一语音信息为“我想和爸爸说话”,智能音箱识别第一语音信息之后,识别出“爸爸”这个称谓,可以确定用户2和要扮演的角色是父子关系。智能音箱可以识别出第一语音信息是孩子“李小明”发出的,并且根据预存的家庭成员关系中李小明和李明的父子关系确定出要“扮演”的是“李明”(爸爸)的角色。
示例二:智能音箱接收到的用户2发出的第一语音信息为“我想和李明说话”,智能音箱识别出第一语音信息中包括的人名“李明”。智能音箱还可以识别出第一语音信息是“李小明”发出的,智能音箱根据预存的家庭成员关系确定李明和李小明是父子关系,智能音箱确定要“扮演”的角色是李小明的“爸爸”(李明)。
以智能音箱应用于家庭场景为例,智能音箱初始设置时,需要将家庭中的成员之间关系录入智能音箱中。在一种可能的实施方式中,智能音箱在获取到一个家庭人物和已知的另一家庭人物之间的关系即可,智能音箱可以推断出该家庭人物与其他的家庭人物之间的关系。例如,在家庭成员中包括:爷爷、奶奶、爸爸、妈妈和孩子。如果已经输入爷爷、奶奶和妈妈,当输入爸爸之后,可以只说明爸爸和妈妈是夫妻关系即可。智能音箱可以根据妈妈和爸爸的关系推断出爸爸和爷爷是父子关系,以及爸爸和奶奶是母子关系。其中,上述推理实现可以通过知识图谱等技术实现。
在一些实施例中,预先存储家庭成员信息可以包括:姓名、年龄、性别、通讯方式、声音信息、图像信息、喜好和性格等。同时,记录该家庭成员与已有家庭成员之间的关系信息。其中,在记录每个家庭成员的信息还可以记录该成员的称谓,如“爸爸”、“爷爷”、“李老爷子”和“李先生”等,其中,“爸爸”和“李先生”都是指李明;“爷爷”和“李老先生”都是指李明的父亲。例如,李小明是用户2,第一语音信息为“我想和李先生对话”或者,第一语音信息为“我想和爸爸对话”,智能音箱可以确定包“扮演”的是爸爸李明。
步骤304:基于第一语音信息被识别出是用户2的语音信息,智能音箱可以模拟用户1的声音,并按照用户1与用户2语音对话的对话方式,发出第一语音信息的响应信息。
可以理解的,智能音箱识别出第一语音是用户2发出的语音信息,并且,智能音箱可以按照用户1与用户2对话的对话方式生成第一语音信息的响应信息。也就是说,智能音箱可以“扮演”用户1,推测用户1听到用户2发出的第一语音信息后可能回应的信息。
其中,智能音箱中预先存储有用户1的声音,以及用户1和用户2的对话方式。智能音箱按照用户1和用户2的对话方式,并且模拟用户1的声音发出语音信息,使得用户2以为真的在和用户1语音对话。从而为用户2提供个性化的语音交互体验。
一方面,智能音箱可以分析用户1的声音,包括分析用户1的声纹特征。其中,每个人的声纹特征都是独特的,因此可以根据声音中的声纹特征辨别发声人。智能音箱分析用户1的声音并保存用户1的声纹特征,以便智能音箱要“扮演”用户1时可以模拟用户1的声音。
具体地说,智能音箱接收到用户1的语音信息,就可以分析出用户1的声纹特征。智能音箱保存用户1的声纹特征,使得智能音箱确定要“扮演”用户1时,可以根据存储用户1的声纹特征模拟用户1的声音。可以理解的,智能音箱和用户1语音对话时,可以根据用户1的声音变化更新用户1的声纹特征。或者,随着时间的改变,智能音箱可以在间隔预设时间之后,和用户1语音对话时更新用户1的声纹特征。
另一方面,用户1和用户2的对话方式可以体现用户1的语言表达特点,用户1和用户2的对话方式包括用户1和用户2语音对话的语气和用词。其中,一个人和不同的人语音对话时,因为对话的人不同可能有不同的语气。例如,一个人和爱人沟通时语气温柔,和家里长辈沟通时语气尊敬。因此,智能音箱可以根据要“扮演”的角色与用于2的关系,推测要扮演的用户1的语气。用户1和用户2语音对话时的用词也可以体现用户1的语言表达特点,使得智能音箱根据用户1和用户2语音对话时的用词生成的第一语音信息的响应信息,更接近用户1的语言表达。智能音箱可以模拟用户1的声音,并按照用户1和用户2的对话方式发出第一语音信息的响应信息,使得用户2以为在和用户1语音对话。
具体地说,用户1与用户2语音对话的对话可以方式包括:用户1和用户2对话时的语气、用词习惯(例如,口头禅)以及语音表达习惯等。用户1和用户2对话时的语气包括,严肃、温柔、严厉、慢悠悠以及咄咄逼人等。用词习惯是一个人说话时的语言表达特点,例如,讲话时习惯使用“然后”,“就是”,“是的”,“明白了么”等词语。语音表达习惯能够体现一个人的语言表达特点。例如,有人说话喜欢说倒装句,如“你饭吃了没?”、“那我走先了”等。
示例性的,智能音箱中可以预先存储用户1和用户2的语音对话,智能音箱可以学习这段语音对话。了解用户1和用户2语音对话时的语气、用词习惯和语言表达特点等信息,并将了解到的信息保存到该人物的对话信息中。其中,对话信息中可以保存该人物与其他任务对话的对话信息。如果智能音箱接收到用户2请求智能音箱“扮演”用户1对话,智能音箱可以根据存储的用户1与用户2的对话方式发出语音对话。
可以理解的,智能音箱得到的用户1和用户2之间的语音对话越多,智能音箱学习总结到的用户1和用户2的对话方式信息就越准确。智能音箱“扮演”用户1时,智能音箱发出的第一语音信息的响应信息就越接近用户1会给出的语音回复。同理,智能音箱也能够在用户1和用户2的语音对话中学习到用户2和用户1对话时的对话方式,并将用户2的对话方式作为用户2的信息存储到用户2的对话信息中。
又示例性的,如果智能音箱中并没有存储过用户1和用户2的语音对话,智能音箱可以根据用户1和用户2的关系推断出用户1可能使用的语气。例如,智能音箱识别出用户1和用户2的关系是父子,并且智能音箱要“扮演”父亲的角色,智能音箱可以默认用户1的语气是严厉。
其中,智能音箱根据用户1和用户2的关系推断出用户1发出语音响应时的语气。智能音箱推断出的用户1的语气可以是至少一种,例如,智能音箱确定用户1和用户2的关系是祖孙,智能音箱推断的用户1的语气是宠爱、慢慢的和开心的。
在一些实施例中,智能音箱具有显示屏,则智能音箱“扮演”用户1和用于2语音对话时,可以在显示屏上显示用户1的照片。如图3B所示,图3B中智能音箱的显示屏上显示有用户1的照片。或者,智能音箱中存储有用户1的人脸模型,则智能音箱在“扮演”用户1与用户2语音对话时,可以在显示屏上显示用户1的表情动态变化。
另外,智能音箱“扮演”用户1和用户2语音交互时,智能音箱也可以开启摄像头获取用户2的图像信息。智能音箱识别获取到的用户2的图像信息,也就是获取用户2的外貌动作等信息。这样,智能音箱可以通过用户2的语音信息和用户2的图像信息建立用户2的人物模型。智能音箱建立用户2的人物模型,可以方便以后“扮演”用户2时更形象、生动。
示例性的,智能音箱“扮演”用户1和用户2语音交互时,智能音箱也可以开启摄像头获取用户2表情、动作等。以便智能音箱可以通过用户2的语音信息和用户2的图像信息建立用户2的人物模型,确定出用户2和用户1对话时的动作信息和表情信息。
假如用户2与智能音箱语音交互的过程中,智能音箱接收到用户2的语音信息询问用户1的日程安排。智能音箱可以获取用户1的日程信息,日程信息用于指示用户的日程安排。这样一来,智能音箱就可以根据用户1的日程信息响应询问日程安排的语音信息。例如,智能音箱“扮演”李明与儿子李小明语音对话,儿子李小明发出语音信息询问父亲的日程安排。假设该语音信息为“我周五的毕业典礼你来么”,智能音箱通过查询用户1(即爸爸)的日程信息,确定爸爸的日程安排中周五要去出差,智能音箱可以回复“儿子,爸爸刚收到公司的通知,得出差北京参加一个重要的会,可能没法参加你周五的毕业典礼了”。
值得一提的是,智能音箱还可以保存每次“扮演”角色的对话信息。并且在下一次“扮演”角色时,如果涉及相关的日程信息,智能音箱可以将更新的日程安排反馈给用户2。又例如,上述智能音箱“扮演”爸爸和李小明的语音对话结束后。智能音箱“扮演”小明和小明妈妈(用户2)语音对话。小明妈妈发出的语音信息为“儿子,周五的毕业典礼我和你爸陪你去参加”,智能音箱可以根据上次“扮演”爸爸的语音对话可以回复“我爸说他需要出差北京参加会议,没办法参加我的毕业典礼了”。
需要说明的是,上述步骤301-步骤304是用户2和智能音箱的一次对话,步骤304之后,智能音箱可以继续和用户2语音对话。例如,用户2再次向智能音箱发出语音信息,智能音箱接收到该语音信息之后,基于该语音信息是用户2发出的语音信息。智能音箱继续模拟用户1的声音、并按照用户1和用户2的对话方式与用户2语音对话。也就是说,智能音箱继续接收到用户2的语音信息,才会模拟用户1的声音,并按照用户1和用户2的对话方式发出语音信息。如果该语音信息不是用户2发出的,智能音箱可以不模拟用户1的声音。
在一些实施例中,智能音箱每次响应用户2的语音信息之后,可以等待预设时间。其中,等待的预设时间是用户2的反应时间,使得智能音箱可以保持与用户2的语音对话。如果预设时间内没有接收到用户2的语音信息,智能音箱可以结束此次语音对话。
示例性的,假如智能音箱确定与用户2的语音对话结束了,可以将此次语音对话的内容发送给用户1的电子设备,以供用户1了解智能音箱“扮演”他(用户1)与用户2的对话详情。或者,智能音箱确定与用户2的语音对话结束了,智能音箱可以总结此次语音对话的摘要,将语音对话的摘要发送给用户1的电子设备。使得用户1可以简单了解到智能音箱“扮演”他(用户1)与用户2的对话情况。
在一种实施例中,智能音箱可以在接收到语音对话结束之后,经过预设时间之后再将语音对话的摘要发送给用户1的电子设备。例如,用户2为小明妈妈,智能音箱扮演的用户1为小明。如果小明妈妈准备出门买菜,对智能音箱说道“妈妈出门去买菜了,你要先写完作业才可以看电视”。稍后,用户2为小明奶奶,智能音箱扮演的用户1为小明。如果小明奶奶准备出门散步,对智能音箱说道“奶奶去散步了,给你留了个蛋糕在冰箱里,记得拿去吃”。经过预设时间之后,智能音箱对发生在不同角色和小明之间的对话进行文本摘要和汇总,然后生成对话摘要,该摘要可以为“妈妈提醒要及时完成作业,奶奶给你留了蛋糕在冰箱”。智能音箱可以通过通信方式(如短信)向小明的手机发送该对话摘要。
通过上述方式,智能音箱可以识别出第一语音信息是用户2发出的,并且可以识别出第一语音信息指示智能音箱“扮演”用户1。响应于第一语音信息,智能音箱可以模拟用户1的声音,按照用户1和用户2的对话方式发出第一语音信息的响应信息。这样就实现可智能音箱“扮演”用户1与用户2语音对话的目的。这种语音交互方式提高了智能音箱的交互性能,并且可以为用户2提供个性化的语音交互体验。
可以理解的是,上述智能音箱为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对智能音箱进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图4所示,为上述实施例中所涉及的智能音箱的一种可能的结构示意图。智能音箱可以包括:语音识别模块401、关系推理模块402、角色扮演模块403、知识预存模块404、角色信息知识库405和音频模块406。可选的,该智能音箱中还可以包括摄像头模块、通信模块和传感器模块等。
其中,语音识别模块401用于识别智能音箱接收到的第一语音信息。关系推理模块402用于根据已有的家庭人物关系推理出新录入的人物与已有家庭人物的关系。角色扮演模块403用于智能音箱可以模拟用户1的声音,并发出第一语音信息对应的响应信息。知识预存模块404用于存储每个用户的信息,以便角色扮演模块403获取用户信息,使得角色扮演模块403可以根据用户信息生成语音信息对应的响应信息。角色信息知识库405用于存储用户的对话信息,并且可以根据第一语音信息生成该语音信息的响应信息。
在一些实施例中,智能音箱还可以包括总结摘要模块。总结摘要模块用于提取对话信息中的关键词,将关键词作为对话信息的摘要;或者,用于总结对话信息的信息。其中,总结摘要模块可以向智能音箱“扮演”的用户1的智能设备发送对话信息的摘要。或者,智能音箱中的通信模块将总结摘要模块提取对话信息中的关键字发送给智能音箱“扮演”的用户1的智能设备。
当然,上述智能音箱中的单元模块包括但不限于上述语音识别模块401、关系推理模块402、角色扮演模块403、知识预存模块404、角色信息知识库405和音频模块406等。例如,智能音箱中还可以包括存储模块。存储模块用于保存电子设备的程序代码和数据。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序代码,当上述处理器执行该计算机程序代码时,智能音箱可以执行图3A中相关方法步骤实现上述实施例中的方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行图3A中相关方法步骤实现上述实施例中的方法。
其中,本申请实施例提供的智能音箱、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以使用硬件的形式实现,也可以使用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (23)

1.一种语音交互方法,其特征在于,所述方法包括:
电子设备接收第一语音信息;
响应于所述第一语音信息,所述电子设备识别所述第一语音信息,所述第一语音信息用于请求与第一用户进行语音对话;
基于所述第一语音信息被识别出是第二用户的语音信息,所述电子设备模拟所述第一用户的声音,按照所述第一用户与所述第二用户进行语音对话的对话方式,与所述第二用户进行语音对话。
2.根据权利要求1所述的方法,其特征在于,所述对话方式用于指示所述第一用户与所述第二用户进行语音对话的语气和用词。
3.根据权利要求1或2所述的方法,其特征在于,所述电子设备中保存有所述第一用户的图像信息;所述方法还包括:
所述电子设备显示所述第一用户的图像信息。
4.根据权利要求1或2所述的方法,其特征在于,所述电子设备中保存有所述第一用户的人脸模型;所述方法还包括:
所述电子设备模拟所述第一用户与所述第二用户进行语音对话的表情,显示所述人脸模型;其中,所述人脸模型中所述第一用户的表情动态变化。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述电子设备接收第一语音信息之前,所述方法还包括:
所述电子设备获取第二语音信息,所述第二语音信息是所述第一用户与所述第二用户进行语音对话时的语音信息;
所述电子设备分析所述第二语音信息,得到所述第一用户与所述第二用户进行语音对话时的语音特征,并保存所述语音特征;
其中,所述语音特征包括声纹特征、语气特征和用词特征,所述语气特征用于指示所述第一用户与所述第二用户进行语音对话时的语气,所述用词特征用于指示所述第一用户与所述第二用户进行语音对话时的惯用词汇。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述电子设备在所述第二语音信息中,保存所述电子设备模拟所述第一用户与所述第二用户的语音对话记录。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述基于所述第一语音信息被识别出是第二用户的语音信息,所述电子设备模拟所述第一用户的声音,按照所述第一用户与所述第二用户进行语音对话的对话方式,与所述第二用户进行语音对话,包括:
基于所述第一语音信息被识别出是所述第二用户的语音信息,所述电子设备模拟所述第一用户的声音,按照所述第一用户与所述第二用户进行语音对话的对话方式,发出所述第一语音信息的语音响应信息;
所述电子设备接收第三语音信息;
响应于所述第三语音信息,所述电子设备识别所述第三语音信息;
基于所述第三语音信息被识别出是所述第二用户的语音信息,所述电子设备模拟所述第一用户的声音,按照所述第一用户与所述第二用户进行语音对话的对话方式,发出所述第三语音信息的语音响应信息。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述电子设备获取所述第一用户的日程信息,所述日程信息用于指示所述第一用户的日程安排;
其中,所述发出所述第三语音信息的语音响应信息,包括:
所述电子设备参考所述日程信息,发出所述第三语音信息的语音响应信息。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述方法还包括:
所述电子设备保存所述电子设备模拟所述第一用户的声音,与所述第二用户的语音对话记录;
所述电子设备向所述第一用户的电子设备发送所述语音对话记录。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述方法还包括:
所述电子设备保存所述电子设备模拟所述第一用户与所述第二用户的语音对话记录;
所述电子设备从所述语音对话记录提取所述电子设备模拟所述第一用户与所述第二用户的语音对话的关键字;
所述电子设备向所述第一用户的电子设备发送所述关键字。
11.根据权利要求1-10中任一项所述的方法,其特征在于,所述方法还包括:
所述电子设备获取第二用户的图像信息和动作信息,并保存所述第二用户的图像信息和动作信息。
12.一种电子设备,其特征在于,所述电子设备包括:存储器、麦克风、扬声器和处理器;所述存储器、所述麦克风和所述扬声器与所述处理器耦合;所述麦克风用于接收第一语音信息;所述存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当所述处理器执行上述计算机指令时,
所述处理器,用于响应于所述第一语音信息,识别所述第一语音信息,所述第一语音信息用于请求与第一用户进行语音对话;
基于所述第一语音信息被识别出是第二用户的语音信息,模拟所述第一用户的声音,按照所述第一用户与所述第二用户进行语音对话的对话方式,与所述第二用户进行语音对话;
所述扬声器用于发出所述第一语音信息对应的响应信息。
13.根据权利要求12所述的电子设备,其特征在于,所述电子设备还包括显示屏,所述显示屏与所述处理器耦合;所述显示屏用于显示所述第一用户的图像信息。
14.根据权利要求13所述的电子设备,其特征在于,所述电子设备中保存有所述第一用户的人脸模型;
所述显示屏还用于,模拟所述第一用户与所述第二用户进行语音对话的表情,显示所述人脸模型;其中,所述人脸模型中所述第一用户的表情动态变化。
15.根据权利要求12-14任一项所述的电子设备,其特征在于,
所述麦克风,还用于获取第二语音信息,所述第二语音信息是所述第一用户与所述第二用户进行语音对话时的语音信息;
所述处理器,还用于分析所述第二语音信息,得到所述第一用户与所述第二用户进行语音对话时的语音特征,并保存所述语音特征;
其中,所述语音特征包括声纹特征、语气特征和用词特征,所述语气特征用于指示所述第一用户与所述第二用户进行语音对话时的语气,所述用词特征用于指示所述第一用户与所述第二用户进行语音对话时的惯用词汇。
16.根据权利要求15所述的电子设备,其特征在于,所述处理器还用于在所述第二语音信息中,保存所述电子设备模拟所述第一用户与所述第二用户的语音对话记录。
17.根据权利要求12-16中任一项所述的电子设备,其特征在于,
所述麦克风还用于,接收第三语音信息;
所述处理器还用于,响应于所述第三语音信息,识别所述第三语音信息;
基于所述第三语音信息被识别出是所述第二用户的语音信息,所述电子设备模拟所述第一用户的声音,按照所述第一用户与所述第二用户进行语音对话的对话方式,所述扬声器还用于发出所述第三语音信息的语音响应信息。
18.根据权利要求17所述的电子设备,其特征在于,所述处理器还用于获取所述第一用户的日程信息,所述日程信息用于指示所述第一用户的日程安排;
其中,所述发出所述第三语音信息的语音响应信息,包括:
所述电子设备参考所述日程信息,发出所述第三语音信息的语音响应信息。
19.根据权利要求12-18所述的电子设备,其特征在于,所述处理器还用于,保存所述电子设备模拟所述第一用户的声音,与所述第二用户的语音对话记录;
向所述第一用户的电子设备发送所述语音对话记录。
20.根据权利要求12-19所述的电子设备,其特征在于,所述处理器还用于,
保存所述电子设备模拟所述第一用户与所述第二用户的语音对话记录;
从所述语音对话记录提取所述电子设备模拟所述第一用户与所述第二用户的语音对话的关键字;
向所述第一用户的电子设备发送所述关键字。
21.根据权利要求12-20任一项所述的电子设备,其特征在于,所述电子设备还包括摄像头,所述摄像头与所述处理器耦合;
所述摄像头用于获取第二用户的图像信息和动作信息,所述处理器还用于保存所述第二用户的图像信息和动作信息。
22.一种服务器,其特征在于,包括存储器和一个或多个处理器;所述存储器和一个或多个所述处理器耦合;
其中,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,使所述服务器执行如权利要求1-11中任一项所述的方法。
23.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-11任一项所述的方法。
CN202010232268.3A 2020-03-27 2020-03-27 一种语音交互方法及电子设备 Pending CN113449068A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010232268.3A CN113449068A (zh) 2020-03-27 2020-03-27 一种语音交互方法及电子设备
PCT/CN2021/077514 WO2021190225A1 (zh) 2020-03-27 2021-02-23 一种语音交互方法及电子设备
EP21774325.1A EP4116839A4 (en) 2020-03-27 2021-02-23 VOICE INTERACTION METHOD AND ELECTRONIC DEVICE
US17/952,401 US20230017274A1 (en) 2020-03-27 2022-09-26 Voice interaction method and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010232268.3A CN113449068A (zh) 2020-03-27 2020-03-27 一种语音交互方法及电子设备

Publications (1)

Publication Number Publication Date
CN113449068A true CN113449068A (zh) 2021-09-28

Family

ID=77808191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010232268.3A Pending CN113449068A (zh) 2020-03-27 2020-03-27 一种语音交互方法及电子设备

Country Status (4)

Country Link
US (1) US20230017274A1 (zh)
EP (1) EP4116839A4 (zh)
CN (1) CN113449068A (zh)
WO (1) WO2021190225A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893985B2 (en) * 2021-01-15 2024-02-06 Harman International Industries, Incorporated Systems and methods for voice exchange beacon devices
CN114500419A (zh) * 2022-02-11 2022-05-13 阿里巴巴(中国)有限公司 信息交互方法、设备以及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9634855B2 (en) * 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
CN107026943B (zh) * 2017-03-30 2020-04-24 联想(北京)有限公司 语音交互方法及***
WO2018195276A1 (en) * 2017-04-19 2018-10-25 Cyara Solutions Pty Ltd Automated contact center agent workstation testing
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
TW202009924A (zh) * 2018-08-16 2020-03-01 國立臺灣科技大學 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體
CN110633357A (zh) * 2019-09-24 2019-12-31 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和介质

Also Published As

Publication number Publication date
EP4116839A4 (en) 2023-03-22
WO2021190225A1 (zh) 2021-09-30
EP4116839A1 (en) 2023-01-11
US20230017274A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
WO2021052263A1 (zh) 语音助手显示方法及装置
WO2021063343A1 (zh) 语音交互方法及装置
WO2020192456A1 (zh) 一种语音交互方法及电子设备
WO2021027267A1 (zh) 语音交互方法、装置、终端及存储介质
WO2022052776A1 (zh) 一种人机交互的方法、电子设备及***
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
WO2021232913A1 (zh) 语音信息处理方法及装置、存储介质和电子设备
CN109286725B (zh) 翻译方法及终端
WO2020006711A1 (zh) 一种消息的播放方法及终端
US20230017274A1 (en) Voice interaction method and electronic device
WO2020259514A1 (zh) 一种调用服务的方法及装置
WO2020239001A1 (zh) 一种哼唱识别方法及相关设备
WO2022161077A1 (zh) 语音控制方法和电子设备
CN113488042B (zh) 一种语音控制方法及电子设备
WO2022143258A1 (zh) 一种语音交互处理方法及相关装置
CN115223579A (zh) 一种编解码器协商与切换方法
EP4343756A1 (en) Cross-device dialogue service connection method, system, electronic device, and storage medium
WO2022088964A1 (zh) 一种电子设备的控制方法和装置
CN113742460A (zh) 生成虚拟角色的方法及装置
CN113380240B (zh) 语音交互方法和电子设备
CN117012189A (zh) 一种语音识别方法和电子设备
CN114765026A (zh) 一种语音控制方法、装置及***
WO2020253694A1 (zh) 一种用于识别音乐的方法、芯片和终端
WO2023231936A1 (zh) 一种语音交互方法及终端
WO2024078419A1 (zh) 语音交互方法、语音交互装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination