CN112581937A - 一种语音指令的获得方法及装置 - Google Patents

一种语音指令的获得方法及装置 Download PDF

Info

Publication number
CN112581937A
CN112581937A CN201910947282.9A CN201910947282A CN112581937A CN 112581937 A CN112581937 A CN 112581937A CN 201910947282 A CN201910947282 A CN 201910947282A CN 112581937 A CN112581937 A CN 112581937A
Authority
CN
China
Prior art keywords
voice
user
information
breakpoint
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910947282.9A
Other languages
English (en)
Inventor
杜国威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Anyun Century Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Anyun Century Technology Co Ltd filed Critical Beijing Anyun Century Technology Co Ltd
Priority to CN201910947282.9A priority Critical patent/CN112581937A/zh
Publication of CN112581937A publication Critical patent/CN112581937A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音指令的获得方法,应用于电子设备中,包括:采集用户输入的第一语音信息;确定所述用户的年龄信息;基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。

Description

一种语音指令的获得方法及装置
技术领域
本发明涉及语音识别的技术领域,尤其涉及一种与语音指令的获得方法及装置。
背景技术
VAD:(Voice Activity Detection,语音端点检测技术),目的是从语音信息中准确定位出语音的开始和结束点,把静音和噪声作为干扰信息从原始语音中去除,以达到在不降低业务质量的情况下节省话路资源的作用,它作为语音识别***的起点,对于语音识别***的性能至关重要。
带屏智能音箱作为一个家庭设备,使用的人群主要是家里的老人、小孩。但年龄越小的儿童就越存在一个共同的特点:因为逻辑思维不成熟,往往与成年人的表达存在较大的差异,在通过语音指令表达自身意图的时候,存在大量断句等问题,例如:“小猪-佩奇-听”。现有的VAD在面对儿童时,不能完整地定位出儿童的语音指令,致使现有的语音识别***在识别儿童的意图时存在不准确、精确度低的技术问题。
发明内容
本申请实施例通过提供一种语音指令的获得方法、装置、电子设备及计算机存储介质,解决了现有技术中的语音识别***在面向儿童用户群体时,存在不准确、检测精度低的技术问题。
第一方面,本申请通过本申请的一实施例,提供如下技术方案:
一种语音指令的获得方法,应用于电子设备中,包括:采集用户输入的第一语音信息;确定所述用户的年龄信息;基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。
在一个实施例中,在所述确定所述用户的年龄信息之前,还包括:判断所述第一语音信息是否具有完整可理解的语义,所述完整可理解的语义包含预设语法结构;当所述第一语音信息不具有所述完整可理解的语义时,判断所述用户是否为特定用户,所述特定用户的年龄小于一预设年龄;当所述用户为所述特定用户时,执行所述确定所述用户的年龄信息的步骤。
在一个实施例中,所述判断所述用户是否为特定用户,包括以下方式中的一种或任意组合:基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定所述用户是否为所述特定用户;采集所述用户的人脸信息,基于人脸识别技术对所述用户的人脸信息进行特征提取和分析,确定所述用户是否为所述特定用户;基于所述电子设备的当前模式是否为特定模式,确定所述用户是否为所述特定用户。
在一个实施例中,所述确定所述用户的年龄信息,包括:采集所述用户的人脸信息,基于人脸识别技术对所述人脸信息进行特征提取和分析,确定出所述用户的年龄信息;和/或基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定出所述用户的年龄信息。
在一个实施例中,所述基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,包括:将所述第一语音信息和所述用户的年龄信息上传至服务器,以使所述服务器基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,并将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长,其中,所述服务器存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;接收服务器返回的所述断点时长。
在一个实施例中,所述基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,包括:基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,其中,所述电子设备存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长。
在一个实施例中,在所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令之前,还包括:获取所述用户的使用时长信息和/或所述用户输入语音指令的熟练程度信息,其中,所述使用时长信息用于表示所述用户使用所述电子设备的总时长;基于所述使用时长信息和/或所述用户输入语音指令的熟练程度信息,对所述断点时长进行调整,得到调整后的断点时长;所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,包括:基于所述调整后的断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令。
在一个实施例中,所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,包括:将所述第一语音信息的开始点确定为所述语音指令的开始端点;确定所述第一语音信息的第一结束点,并基于所述断点时长对所述第一结束点进行调整,得到第二结束点;检测在所述第一结束点与所述第二结束点之间是否有音频输入;若有,则采集获得第二语音信息;确定所述第二语音信息的第三结束点,并基于所述断点时长对所述第三束点进行调整,得到第四结束点;检测在所述第三结束点与所述第四结束点之间是否有音频输入;若无,则将所述第四结束点确定为所述语音指令的结束端点,基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息和第二语音信息;若有,则采集第三语音信息;确定所述第三语音信息的第五结束点,并基于所述断点时长对所述第五束点进行调整,得到第六结束点;检测在所述第五结束点与所述第六结束点之间是否有音频输入;若无,则将所述第六结束点确定为所述语音指令的结束端点,基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息至第三语音信息;若有,继续采集第四语音信息。
第二方面,基于相同的发明构思,本申请通过本申请的一实施例,提供如下技术方案:
一种语音指令的获得装置,应用于电子设备中,所述装置包括:采集模块,用于采集用户输入的第一语音信息;确定模块,用于确定所述用户的年龄信息;第一获得模块,基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;第二获得模块,基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。
在一个实施例中,还包括:第一判断模块,用于在确定所述用户的年龄信息之前,判断所述第一语音信息是否具有完整可理解的语义,所述完整可理解的语义包含预设语法结构;第二判断模块,用于当所述第一语音信息不具有所述完整可理解的语义时,判断所述用户是否为特定用户,所述特定用户的年龄小于一预设年龄;当所述用户为所述特定用户时,通过所述确定模块执行所述确定所述用户的年龄信息的步骤。
在一个实施例中,所述第二判断单元,包括以下模块中的一种或任意组合:第一确定子模块,基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定所述用户是否为所述特定用户;第二确定子模块,用于采集所述用户的人脸信息,基于人脸识别技术对所述用户的人脸信息进行特征提取和分析,确定所述用户是否为所述特定用户;第三确定子模块,基于所述电子设备的当前模式是否为特定模式,确定所述用户是否为所述特定用户。
在一个实施例中,所述确定模块包括:第四确定子模块,用于采集所述用户的人脸信息,基于人脸识别技术对所述人脸信息进行特征提取和分析,确定出所述用户的年龄信息;和/或第五确定子模块,基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定出所述用户的年龄信息。
在一个实施例中,所述第一获得模块,包括:上传子模块,用于将所述第一语音信息和所述用户的年龄信息上传至服务器,以使所述服务器基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,并将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长,其中,所述服务器存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;接收子模块,用于接收服务器返回的所述断点时长。
在一个实施例中,所述第一获得模块,包括:选择子模块,基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,其中,所述电子设备存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;得到子模块,用于将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长。
在一个实施例中,还包括:第一获取模块,用于获取所述用户的使用时长信息和/或所述用户输入语音指令的熟练程度信息,其中,所述使用时长信息用于表示所述用户使用所述电子设备的总时长;得到模块,基于所述使用时长信息和/或所述用户输入语音指令的熟练程度信息,对所述断点时长进行调整,得到调整后的断点时长;所述第二获得模块,还用于基于所述调整后的断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令。
在一个实施例中,所述第二获得模块包括:第六确定子模块,用于将所述第一语音信息的开始点确定为所述语音指令的开始端点;第二得到子模块,用于确定所述第一语音信息的第一结束点,并基于所述断点时长对所述第一结束点进行调整,得到第二结束点;第一检测子模块,用于检测在所述第一结束点与所述第二结束点之间是否有音频输入;第一采集子模块,用于当所述第一结束点与所述第二结束点之间有音频输入时,采集第二语音信息;第三得到子模块,用于确定所述第二语音信息的第三结束点,并基于所述断点时长对所述第三束点进行调整,得到第四结束点;第二检测子模块,用于检测在所述第三结束点与所述第四结束点之间是否有音频输入;第一获得子模块,用于当所述第三结束点与所述第四结束点之间无音频输入时,将所述第四结束点确定为所述语音指令的结束端点;基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息和第二语音信息;第二采集子模块,用于当所述第三结束点与所述第四结束点之间有音频输入时,采集第三语音信息;第四得到子模块,用于确定所述第三语音信息的第五结束点,并基于所述断点时长对所述第五束点进行调整,得到第六结束点;第三检测子模块,用于检测在所述第五结束点与所述第六结束点之间是否有音频输入;第二获得子模块,用于当所述第五结束点与所述第六结束点之间无音频输入时,将所述第六结束点确定为所述语音指令的结束端点;基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息至第三语音信息;第三采集子模块,用于当所述第五结束点与所述第六结束点之间有音频输入时,继续采集第四语音信息。
第三方面,基于相同的发明构思,本申请通过本申请的一实施例,提供如下技术方案:
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可以实现上述任一实施例所述的方法步骤。
第四方面,基于相同的发明构思,本申请通过本申请的一实施例,提供如下技术方案:
一种计算机存储介质,其上存储有计算机程序,其特征在于,包括:该程序被处理器执行时可以实现如上述任一实施例所述的方法步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例基于与用户的年龄信息关联的目标语音断点模型对用户输入的第一语音信息进行处理,得到断点时长,并基于得到的断点时长,完成语音指令的获取。相比于现有技术,本申请根据用户输入的年龄信息及用户输入的第一语音信息,能够精准地获得用户的断点时长,后续基于此精准的断点时长提取的语音指令也能更加精准,即使儿童在使用语音指令表达自身意图时存在大量的断句,只要后续的语音信息在断点时长内基本能够被采集到,而此断点时长是针对儿童精准分析的,符合儿童的断点习惯,因此相比于现有技术,本方案能够更加完整地采集到儿童的语音信息,只有更加完整地采集到儿童的语音信息,才能够保证后续语音识别***能够更加准确的识别出儿童的意图,解决了现有技术中的语音识别***在面向儿童用户群体时,存在不准确、检测精度低的技术问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种语音指令的获得方法的流程图;
图2示出了根据本发明一个实施例的一种语音指令的获得装置的架构图;
图3示出了根据本发明一个实施例的一种电子设备的结构图;
图4示出了根据本发明一个实施例的一种计算机存储介质的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种语音指令的获得方法、装置、电子设备及计算机存储介质,解决了现有技术中的语音识别***在面向儿童用户群体时,存在不准确、检测精度低的技术问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种语音指令的获得方法,应用于电子设备中,包括:采集用户输入的第一语音信息;确定所述用户的年龄信息;基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。相比于现有技术,本申请根据用户输入的年龄信息及用户输入的第一语音信息,能够精准地获得用户的断点时长,后续基于此精准的断点时长提取的语音指令也能更加精准,即使儿童在使用语音指令表达自身意图时存在大量的断句,只要后续的语音信息在断点时长内基本能够被采集到,而此断点时长是针对儿童精准分析的,符合儿童的断点习惯,因此相比于现有技术,本方案能够更加完整地采集到儿童的语音信息,只有更加完整地采集到儿童的语音信息,才能够保证后续语音识别***能够更加准确的识别出儿童的意图,解决了现有技术中的语音识别***在面向儿童用户群体时,存在不准确、检测精度低的技术问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
如图1所示,本实施例提供了一种语音指令的获得方法,应用于电子设备中,所述方法包括:
步骤S101:采集用户输入的第一语音信息。
具体的,上述电子设备,可以是:手机、平板、电脑、智能音箱等具有声音采集单元的设备。本申请的实施例中重点以智能带屏音箱为应用对象进行叙述。对应于智能带屏音箱的实际产品,通常包括声音采集单元、触摸显示屏、具有高音质、更立体的声音输出单元。该智能带屏音箱主要基于用户的语音指令,提供相匹配的服务:例如:播放音乐及视频、视频通话等。
当用户输入语音指令时,智能带屏音箱通过麦克风采集用户输入的第一语音信息。
步骤S102:确定用户的年龄信息。
为避免用户的隐私被随意获取,可以设置前置第一语音信息所表达的意图是否完整的判定,在一种可选的实施例中,在确定用户的年龄信息之前,还包括:
判断第一语音信息是否具有完整可理解的语义,完整可理解的语义包含预设语法结构。
具体的,预设语法结构至少包括谓语、宾语两种语法成分,更进一步地,包含包括谓语、宾语两种语法成分的语法结构,可以为谓语+宾语的语法结构、也可以为宾语+谓语的语法结构,此两种语法结构均在预设语法结构的范围内,当第一语音信息满足上述两种语法结构中的任意一种,即确定第一语音信息具有完整可理解的语义。另外,预设语法结构还可以设置为包括更复杂全面的语法成分,例如:主语+谓语+宾语。实际实施过程中,可以通过分词模型对第一语音信息进行分词,并对分词结果进行判断,确定语法成分。
当第一语音信息不具有完整可理解的语义时,判断用户是否为特定用户,特定用户的年龄小于一预设年龄。
具体的,可以根据需要对预设年龄进行调整,一般默认为7岁以下的儿童未接触语法结构的学习,表达上存在逻辑混乱、断句的情况更加严重。基于此,特定用户应该指7岁以下的儿童。
当用户为特定用户时,执行确定用户的年龄信息的步骤S102。
在一种可选的实施例中,判断用户是否为特定用户,包括以下方式中的一种或任意组合:
基于声纹识别技术对第一语音信息进行特征提取和分析,确定用户是否为特定用户。
声纹识别技术作为生物识别技术的一种,对说话者进行辨别,是非常成熟的技术,此处不进行拓展。
采集用户的人脸信息,基于人脸识别技术对用户的人脸信息进行特征提取和分析,确定用户是否为特定用户。
具体的,智能带屏音箱包括图像采集单元,例如:摄像头,智能带屏音箱利用摄像头采集用户的人脸信息,对采集到的人脸信息通过现有的已经非常成熟的人脸识别技术,对说话者进行脸龄分析,此处不进行拓展。
基于电子设备的当前模式是否为特定模式,确定用户是否为特定用户。
具体的,电子设备还包括输入模块,例如:触摸屏,用于用户选择电子设备的当前模式。
当用户在工作模式——儿童模式输入时,直接确定用户是否为儿童。当然,此方案同样可以针对老年人、限制民事行为能力人等具有大量断句习惯的人群使用,那么,电子设备的工作模式还可以包括老年人模式,当用户在老年人模式输入时,则确定用户为老年人。
实际实施过程中,在判断用户是否为特定用户时,可以为上述三种方式中的任意一种、任意两种组合或三种组合,以对用户进行判断。例如:人脸识别技术和声纹识别技术结合,同时用于判断用户是否为特定用户。
在一种可选的实施例中,确定用户的年龄信息,包括:
采集用户的人脸信息,基于人脸识别技术对人脸信息进行特征提取和分析,确定出用户的年龄信息。
具体的,智能带屏音箱利用摄像头采集用户的人脸信息,对采集到的人脸信息通过现有的已经非常成熟的人脸识别技术,对说话者进行脸龄分析,从而确定用户的年龄信息,此处不进行拓展。
和/或,基于声纹识别技术对第一语音信息进行特征提取和分析,确定出用户的年龄信息。
声纹识别技术作为生物识别技术的一种,对说话者的年龄进行辨别,是非常成熟的技术,此处不进行拓展。
步骤S103:基于第一语音信息和用户的年龄信息,获得第一语音信息用户对应的断点时长,其中,断点时长是利用与用户的年龄信息对应的目标语音断点模型对第一语音信息处理后获得的,目标语音断点模型是从多个语音断点模型中选择的。
具体的,通过目标语音断点模型获取断点时长的过程如下:
基于用户的年龄信息,获得与年龄信息对应的目标语音断点模型后,目标语音断点模型对第一语音信息进行分析,获得第一语音信息的词性特征,根据第一语音信息的词性特征,预测用户在表达语法指令时以第一语音信息的词性特征为首可能使用的语法结构,目标语音断点模型对预测后的语法结构进行处理,得出断点时长,并输出。例如:用户想表达:小猪佩奇......看......,第一语音信息就是“小猪佩奇”,第一语音信息的词性特征是名词,那么以名词为首的语法结构可能为:宾语+谓语、主语+谓语,宾语+谓语出现的概率系数为m,主语+谓语出现的概率系数为n,那么,目标语音断点模型基于概率系数为m、n,对在对应年龄段的用户的断点时长进行预估。
模型建立过程:
首先,获取语音样本集,语音样本集数量为多个,每个语音样本集对应不同的年龄段,每个语音样本集包含多个语音样本信息,每个语音样本信息包含多段语音信息。为了使最后的语音断点模型更加精准,在每个语音样本集的筛选过程中,每个语音信息样本集中的多个语音信息最好包含多种不同的语法结构,并且量要足够大。
其次,对每个年龄段的语音样本集中的每个语音样本信息进行大数据分析,获得该年龄段的每个语音样本信息的语法结构及对应的断点时长,得到该年龄段的儿童习惯使用的所有语法结构及对应的断点时长。可以参照现有的机器学习的方式,获取该年龄段的儿童的语法结构和与该语法结构对应的断点时长。
接着,对每个语音样本信息的第一语音信息的词性特征以及以该词性特征为首的各种语法结构进行大数据分析,得出以第一语音信息的词性特征为首的该年龄段的儿童可能使用的各种语法结构出现的概率系数。
最后,根据获得的该年龄段的儿童习惯使用的语法结构及对应的断点时长,以及以第一语音信息的词性特征为首的各种语法结构出现的概率系数,进行建模,获得与年龄段对应的语音断点模型,该语音断点模型在用户输入第一语音信息时,能够预测用户想要表达的整个语音指令的各种语法结构,及各种语法结构对应的断点时长,以及各种语法结构出现的概率,并输出与第一语音信息、各种语法结构出现的概率相关的断点时长。
具体的,多个语音断点模型中的每个语音断点模型对应不同的年龄信息,实际实施过程中,1岁以下的小孩还不会通过语言表达自己的意图,1岁-2岁的儿童说话逻辑非常混乱,断句特别多,可以对应语音断点模型A;2岁-3岁是儿童的语言快速发展期,说话的***处于比较平稳的发展状态,可以对应语音断点模型D。每个年龄段的儿童的断点习惯具有较大的区别,经过细分后的同一年龄段的儿童的断点习惯大致相同,因此,为每个年龄段的儿童建立一个相应的语音断点模型,能够更加精准得得出用户的断点时长。对于同一用户而言,随着年龄的增长,说话的逻辑更加清楚,断句更加少,断点时长更加短,那么,基于用户的年龄信息,将会调用新的语音断点模型作为目标语音断点模型。
在一种可选的实施例中,步骤S103,包括:
将第一语音信息和用户的年龄信息上传至服务器,以使服务器基于用户的年龄信息,从多个语音断点模型中选择目标语音断点模型,并将第一语音信息输入到目标语音断点模型中,得到第一语音信息用户对应的断点时长,其中,服务器存储有多个语音断点模型,多个语音断点模型对应不同年龄信息,目标语音断点模型与用户的年龄信息对应;接收服务器返回的第一语音信息用户对应的断点时长。
本实施例将需要大量计算的工作放在服务器,本地端仅仅是起着发送和接收数据的作用,能够减轻本地智能带屏音箱的运算量,避免本地智能带屏音箱在采集语音信息时,出现卡顿。
在一种可选的实施例中,可以基于用户的年龄信息,从多个语音断点模型中选择目标语音断点模型,其中,电子设备存储有多个语音断点模型,多个语音断点模型对应不同年龄信息,目标语音断点模型与用户的年龄信息对应;将第一语音信息输入到目标语音断点模型中,得到第一语音信息用户对应的断点时长。
根据实际需要,在本地端处理器运算速度和存储空间有保证的前提下,将通过目标语音断点模型获取断点时长的工作放在本地智能带屏音箱,能够节省数据传输的时间,能够更加快速的响应的。
步骤S104:基于断点时长,获得用户输入的与第一语音信息相关的语音指令,其中,语音指令包含N段语音信息,N段语音信息包含第一语音信息,N为大于1的正整数。
具体的,一段语音信息应该理解为连续的语音音帧构成的音频信息,语音音帧应该理解为此音帧的能量大于阈值K,为用户意图输入的语音,区别于静音和杂音,例如:“小猪”为一段语音信息;“小......猪”包含两段语音信息,分别为“小”、“猪”,因为小猪中间为能量小于阈值K的静音或外界杂音,那么“小”“猪”并不连续。
断点时长为用户在输入语音指令时相邻两段语音信息之间习惯的停顿时间
在一种可选的实施中,在步骤S104之前,还包括:
获取用户的使用时长信息和/或用户输入语音指令的熟练程度信息,其中,使用时长信息用于表示用户使用电子设备的总时长;基于使用时长信息和/或用户输入语音指令的熟练程度信息,对断点时长进行调整,得到调整后的断点时长;
此时,步骤S104,包括:基于调整后的断点时长,获得用户输入的与第一语音信息相关的语音指令。
具体的,作为一种可选的方式,用户的使用时长信息存储在服务器,当服务器基于目标语音断点模型得出断点时长后,在服务器端根据使用时长信息对断点时长进行调整,得到调整后的断点时长,服务器将调整后的断点时长返回给智能带屏音箱,智能带屏音箱基于调整后的断点时长,获得用户输入的与第一语音信息相关的语音指令。作为另一种可选的方式,用户的使用时长信息存储在智能带屏音箱的数据库中,当智能带屏音箱或者服务器基于目标语音断点模型得出断点时长后,智能带屏音箱根据使用时长信息对断点时长进行调整,得到调整后的断点时长,智能带屏音箱基于调整后的断点时长,获得用户输入的与第一语音信息相关的语音指令。
具体的,用户输入语音指令的熟练程度信息是根据用户输入的历史语音指令获得的。当每次用户使用完智能带屏音箱后,智能带屏音箱对获得的语音指令进行的语法结构进行分析,获得用户当前的语音指令的熟练程度信息,基于用户当前的语音指令的熟练程度信息更新用户输入语音指令的熟练程度信息,以备用户下一次对断点时长进行调整。
实际实施过程中,语音指令的熟练程度信息可以采用积分或者等级的方式进行表示,具体的方式:判断用户的语音指令对应的语法结构与预设的语法结构之间的相似性,越相似,说明等级越高,或者积分增加,从而获得用户当前的语音指令的熟练程度信息,利用用户当前的语音指令的熟练程度信息更新用户输入语音指令的熟练程度信息,具体方式:利用模型:Yn=(1-a)*Xn+a*Y(n-1),其中,Xn为用户当前的语音指令的熟练程度信息,Y(n-1)为历史的用户输入语音指令的熟练程度信息,Yn为利用用户当前的语音指令的熟练程度信息更新后的用户输入语音指令的熟练程度信息。利用此模型进行更新,能够避免偶然性。
进一步,在用户每次使用智能带屏音箱后,根据本次的使用时间,更新数据库存储的使用时长信息。
在一种可选的实施中,步骤S104,包括:
将第一语音信息的开始点确定为语音指令的开始端点;
具体的,判断第一语音信息的开始点的方法为:VAD模型设定一个阈值k,并计算第一语音信息的每个时刻的能量,如果大于阈值k,输出1(1表示该点是语言),否则就是0(0表示该点是静音或杂音)。因此,当用户在输入第一语音信息时,VAD模型突然检测到某点的能量大于阈值k,识别出此点为第一语音信息的开始点,将此点确定为语音指令的开始端点,即VAD模型持续获取语音指令时的开始端点。
确定第一语音信息的第一结束点,并基于断点时长对第一结束点进行调整,得到第二结束点;
检测在第一结束点与第二结束点之间是否有音频输入;
若有,则采集获得第二语音信息;
确定第二语音信息的第三结束点,并基于断点时长对第三束点进行调整,得到第四结束点;
检测在第三结束点与第四结束点之间是否有音频输入;
若无,则将第四结束点确定为语音指令的结束端点,基于语音指令的开始端点和语音指令的结束端点,获得语音指令,语音指令包含第一语音信息和第二语音信息;
若有,则采集第三语音信息;
确定第三语音信息的第五结束点,并基于断点时长对第五束点进行调整,得到第六结束点;
检测在第五结束点与第六结束点之间是否有音频输入;
若无,则将第六结束点确定为语音指令的结束端点,基于语音指令的开始端点和语音指令的结束端点,获得语音指令,语音指令包含第一语音信息至第三语音信息;
若有,继续采集第四语音信息。
具体的,判断第i语音信息的结束点的方法同样为:VAD模型设定一个阈值k,并计算第i语音信息的每个时刻的能量,如果大于阈值k,输出1(1表示该点是语言),否则就是0(0表示该点是静音或杂音)。因此,当用户在输入第i语音信息时,VAD模型突然检测到某点的能量突然小于阈值k,将此点作为第i语音信息的结束点。其中,i为大于1的正整数。
需要说明的是,在本实施例中,第i语音信息的结束点并非等价于语音指令的结束端点(即VAD模型最终提取语音指令的结束端点)。原因在于,儿童在说话时,存在严重的逻辑混乱、断句的情况,若将VAD模型检测到的第i语音信息的结束点作为提取语音指令的结束端点,势必会遗失掉大量后续断掉的语音信息,从而不能准确地识别到儿童的意图。本方案是在第i语音信息的结束点的基础上基于儿童的习惯的断点时长做了调整,也就是说VAD模型提取语音指令的结束端点为VAD模型检测到的第i语音信息的结束点叠加断点时长后的点,在此期间,如果VAD模型如果检测到有音频输入,则i将取下一个正整数,进而将重新定位第i语音信息的结束点,并基于断点时长对第i语音信息的结束点进行调整,重新定位VAD模型提取语音指令的结束端点。由于断点时长是根据训练好的目标语音断点模型处理得到的,而此模型是针对儿童所在年龄段的语法结构的习惯训练的,此断点时长符合儿童的习惯,利用此断点时长对当前语音信息的结束点做调整,如果儿童确实存在断句,就能够检测到后续的语音信息。
需要说明的是,在第i语音信息的结束点与调整后的第i语音信息的结束点(即当第i语音信息的结束点叠加断点时长后的点)之间,VAD模型检测是否有音频输入的方法同样为:VAD模型设定一个阈值k,并计算每个时刻的能量,如果大于阈值k,输出1(1表示该点是语言),否则就是0(0表示该点是静音或杂音)。因此,当有音频输入时,VAD模型突然检测到某点的能量突然大于阈值k,代表有音频输入。
具体的,当得到VAD模型提取语音指令的开始端点和结束端点,VAD模型将会去除开始端点和结束端点两端的静音部分,仅保留开始端点和结束端点之间的语音部分,将此部分确定为语音指令,送给后续语音识别***进行处理。
需要说明的是,本实施例除了针对儿童以外,还能够针对存在逻辑混乱、大量断句的其他年龄段的人群,例如:老人、患有结巴症的人。那么,语音端点模型需要针对老人、患有结巴症的人的语音信息样本进行训练,在本实施例已经公开,使用断点时长来调整VAD模型获得语音指令的结束端点,以准确地获取用户的意图的情况下,本领域技术人员能够很容易的将本实施例进行适应性调整。那么,依照此发明构思做出适应性调整后的方法依然输出本发明的保护范围。
下面通过具体实例,对智能带屏音箱获得语音指令的过程进行详细阐述,以便理解。
两岁的儿童,想看小猪佩奇,然而两岁的儿童在表达自己的意图的时候,说的语音可能是:“小猪......(中断2s)佩奇......(中断1.5s)看......”,智能带屏音箱至少包括:触摸显示屏、摄像头、麦克风、处理器、通讯模块、存储器及具有音质较好的扬声器。
当儿童输入第一语音信息“小猪”时,智能带屏音箱的采集到用户输入的第一语音信息“小猪”,对应第一语音信息进行判断,确定“小猪”的语法成分属于“主语”、“宾语”或“表语”,不满足预设语法结构(预设语法结构包含宾语、谓语),不能识别出儿童的意图,因此,确定第一语音信息不是完整可理解的语义,此时调用摄像头获取儿童的人脸信息,通过人脸识别技术确定用户是儿童,进一步获得儿童的年龄信息为2岁。智能带屏音箱通过通讯模块将获得的第一语音信息“小猪”及儿童的年龄信息“2岁”上传至服务器以获得服务器返回的该第一语音信息对应的断点时长2.3s。
接下来,VAD模型就要基于获得的断点时长2.3s进行语音指令的提取,当VAD模型检测检测出第一语音信息“小猪”的第一个音帧的能量大于阈值K时,确定语音指令的开始端点,持续检测,检测到第一语音信息“小猪”的最后一个音帧的下一个音帧小于阈值K时,确定第一语音信息的结束点,利用断点时长2.3s对第一语音信息的结束点进行调整,得到调整后的第一语音信息的结束点,VAD模型继续对第一语音信息的结束点后的每个时刻的能量持续检测,并在调整后的第一语音信息的结束点之前检测到儿童输入了第二语音信息“佩奇”,此时,持续检测,检测到第二语音信息“佩奇”的最后一个音帧的下一个音帧小于阈值K时,确定第二语音信息的结束点,利用断点时长2.3s对第二语音信息的结束点进行调整,得到调整后的第二语音信息的结束点,VAD模型继续对第二语音信息的结束点后的每个时刻的能量持续检测,并在调整后的第二语音信息的结束点之前检测到儿童输入了第三语音信息“看”,此时,持续检测,检测到第三语音信息“看”的最后一个音帧的下一个音帧小于阈值K时,确定第三语音信息的结束点,利用断点时长2.3s对第三语音信息的结束点进行调整,得到调整后的第三语音信息的结束点,VAD模型继续对第三语音信息的结束点后的每个时刻的能量进行检测,直至调整后的第三语音信息的结束点仍未检测到有音频输入,将调整后的第三语音信息的结束点(即“看”的最后一个音帧叠加断电时长2.3s对应的音帧),确定为语音指令的结束端点。将开始端点和结束端点之间的语音部分提取出来,获得语音指令,将获得的语音指令送给后续语音识别***进行识别。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本申请实施例基于与用户的年龄信息关联的目标语音断点模型对用户输入的第一语音信息进行处理,得到用户在输入语音指令时相邻两个语音信息之间习惯的停顿时间,即断点时长,并基于得到的断点时长,完成语音指令的获取。相比于现有技术,本申请根据用户输入的年龄信息及用户输入的第一语音信息,能够精准地获得用户的断点时长,后续基于此精准的断点时长提取的语音指令也能更加精准,即使儿童在使用语音指令表达自身意图时存在大量的断句,只要后续的语音信息在断点时长内基本能够被采集到,而此断点时长是针对儿童精准分析的,符合儿童的断点习惯,因此相比于现有技术,本方案能够更加完整地采集到儿童的语音信息,只有更加完整地采集到儿童的语音信息,才能够保证后续语音识别***能够更加准确的识别出儿童的意图,解决了现有技术中的语音识别***在面向儿童用户群体时,存在不准确、检测精度低的技术问题。
实施例二
如图2所示,基于相同的发明构思,本实施例提供了一种语音指令的获得装置,应用于电子设备中,装置包括:
采集模块201,用于采集用户输入的第一语音信息;
确定模块202,用于确定用户的年龄信息;
第一获得模块203,基于第一语音信息和用户的年龄信息,获得一断点时长,其中,断点时长是利用与用户的年龄信息对应的目标语音断点模型对第一语音信息处理后获得的,目标语音断点模型是从多个语音断点模型中选择的;
第二获得模块204,基于断点时长,获得用户输入的与第一语音信息相关的语音指令,其中,语音指令包含N段语音信息,N段语音信息包含第一语音信息,N为大于1的正整数。
在一种可选的实施中,所述语音指令的获得装置,还包括:
第一判断模块,用于在确定用户的年龄信息之前,判断第一语音信息是否具有完整可理解的语义,完整可理解的语义包含预设语法结构;
第二判断模块,用于当第一语音信息不具有完整可理解的语义时,判断用户是否为特定用户,特定用户的年龄小于一预设年龄;当用户为特定用户时,通过确定模块202执行确定用户的年龄信息的步骤。
在一种可选的实施中,第二判断单元,包括以下模块中的一种或任意组合:
第一确定子模块,基于声纹识别技术对第一语音信息进行特征提取和分析,确定用户是否为特定用户;
第二确定子模块,用于采集用户的人脸信息,基于人脸识别技术对用户的人脸信息进行特征提取和分析,确定用户是否为特定用户;
第三确定子模块,基于电子设备的当前模式是否为特定模式,确定用户是否为特定用户。
在一种可选的实施中,确定模块202包括:
第四确定子模块,用于采集用户的人脸信息,基于人脸识别技术对人脸信息进行特征提取和分析,确定出用户的年龄信息;和/或
第五确定子模块,基于声纹识别技术对第一语音信息进行特征提取和分析,确定出用户的年龄信息。
在一种可选的实施中,第一获得模块203,包括:
上传子模块,用于将第一语音信息和用户的年龄信息上传至服务器,以使服务器基于用户的年龄信息,从多个语音断点模型中选择目标语音断点模型,并将第一语音信息输入到目标语音断点模型中,得到断点时长,其中,服务器存储有多个语音断点模型,多个语音断点模型对应不同年龄信息,目标语音断点模型与用户的年龄信息对应;
接收子模块,用于接收服务器返回的断点时长。
在一种可选的实施中,第一获得模块203,包括:
选择子模块,基于用户的年龄信息,从多个语音断点模型中选择目标语音断点模型,其中,电子设备存储有多个语音断点模型,多个语音断点模型对应不同年龄信息,目标语音断点模型与用户的年龄信息对应;
得到子模块,用于将第一语音信息输入到目标语音断点模型中,得到断点时长。
在一种可选的实施中,所述语音指令的获得装置,还包括:
第一获取模块,用于获取用户的使用时长信息和/或用户输入语音指令的熟练程度信息,其中,使用时长信息用于表示用户使用电子设备的总时长;
得到模块,基于使用时长信息和/或用户输入语音指令的熟练程度信息,对断点时长进行调整,得到调整后的断点时长;
第二获得模块204,还用于基于调整后的断点时长,获得用户输入的与第一语音信息相关的语音指令。
在一种可选的实施中,第二获得模块204包括:
第六确定子模块,用于将第一语音信息的开始点确定为语音指令的开始端点;
第二得到子模块,用于确定第一语音信息的第一结束点,并基于断点时长对第一结束点进行调整,得到第二结束点;
第一检测子模块,用于检测在第一结束点与第二结束点之间是否有音频输入;
第一采集子模块,用于当第一结束点与第二结束点之间有音频输入时,采集第二语音信息;
第三得到子模块,用于确定第二语音信息的第三结束点,并基于断点时长对第三束点进行调整,得到第四结束点;
第二检测子模块,用于检测在第三结束点与第四结束点之间是否有音频输入:
第一获得子模块,用于当第三结束点与第四结束点之间无音频输入时,将第四结束点确定为语音指令的结束端点;基于语音指令的开始端点和语音指令的结束端点,获得语音指令,语音指令包含第一语音信息和第二语音信息;
第二采集子模块,用于当第三结束点与第四结束点之间有音频输入时,采集第三语音信息;
第四得到子模块,用于确定第三语音信息的第五结束点,并基于断点时长对第五束点进行调整,得到第六结束点;
第三检测子模块,用于检测在第五结束点与第六结束点之间是否有音频输入;
第二获得子模块,用于当第五结束点与第六结束点之间无音频输入时,将第六结束点确定为语音指令的结束端点;基于语音指令的开始端点和语音指令的结束端点,获得语音指令,语音指令包含第一语音信息至第三语音信息;
第三采集子模块,用于当第五结束点与第六结束点之间有音频输入时,继续采集第四语音信息。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本申请实施例基于与用户的年龄信息关联的目标语音断点模型对用户输入的第一语音信息进行处理,得到用户在输入语音指令时相邻两个语音信息之间习惯的停顿时间,即断点时长,并基于得到的断点时长,完成语音指令的获取。相比于现有技术,本申请根据用户输入的年龄信息及用户输入的第一语音信息,能够精准地获得用户的断点时长,后续基于此精准的断点时长提取的语音指令也能更加精准,即使儿童在使用语音指令表达自身意图时存在大量的断句,只要后续的语音信息在断点时长内基本能够被采集到,而此断点时长是针对儿童精准分析的,符合儿童的断点习惯,因此相比于现有技术,本方案能够更加完整地采集到儿童的语音信息,只有更加完整地采集到儿童的语音信息,才能够保证后续语音识别***能够更加准确的识别出儿童的意图,解决了现有技术中的语音识别***在面向儿童用户群体时,存在不准确、检测精度低的技术问题。
实施例三
基于同一发明构思,如图3所示,本实施例提供了一种电子设备300,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311,处理器320执行程序311时可以实现如下方法步骤:
采集用户输入的第一语音信息;确定用户的年龄信息;基于第一语音信息和用户的年龄信息,获得第一语音信息用户对应的断点时长,其中,断点时长是利用与用户的年龄信息对应的目标语音断点模型对第一语音信息处理后获得的,目标语音断点模型是从多个语音断点模型中选择的;基于断点时长,获得用户输入的与第一语音信息相关的语音指令,其中,语音指令包含N段语音信息,N段语音信息包含第一语音信息,N为大于1的正整数。
在具体实施过程中,处理器320执行程序311时,还可以实现实施例一中的任一方式步骤。
实施例四
基于同一发明构思,如图4所示,本实施例提供了一种计算机可读存储介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实现以下步骤:
采集用户输入的第一语音信息;确定用户的年龄信息;基于第一语音信息和用户的年龄信息,获得第一语音信息用户对应的断点时长,其中,断点时长是利用与用户的年龄信息对应的目标语音断点模型对第一语音信息处理后获得的,目标语音断点模型是从多个语音断点模型中选择的;基于断点时长,获得用户输入的与第一语音信息相关的语音指令,其中,语音指令包含N段语音信息,N段语音信息包含第一语音信息,N为大于1的正整数。
在具体实施过程中,该计算机程序411被处理器执行时,可以实现实施例二中的任一方法步骤。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音指令的获得装置、电子设备、计算机存储介质中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了,A1,一种语音指令的获得方法,应用于电子设备中,其特征在于,所述方法包括:
采集用户输入的第一语音信息;
确定所述用户的年龄信息;
基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;
基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。
A2,如A1所述的语音指令的获得方法,其特征在于,在所述确定所述用户的年龄信息之前,还包括:
判断所述第一语音信息是否具有完整可理解的语义,所述完整可理解的语义包含预设语法结构;
当所述第一语音信息不具有所述完整可理解的语义时,判断所述用户是否为特定用户,所述特定用户的年龄小于一预设年龄;
当所述用户为所述特定用户时,执行所述确定所述用户的年龄信息的步骤。
A3,如A2所述的语音指令的获得方法,其特征在于,所述判断所述用户是否为特定用户,包括以下方式中的一种或任意组合:
基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定所述用户是否为所述特定用户;
采集所述用户的人脸信息,基于人脸识别技术对所述用户的人脸信息进行特征提取和分析,确定所述用户是否为所述特定用户;
基于所述电子设备的当前模式是否为特定模式,确定所述用户是否为所述特定用户。
A4,如A1所述的语音指令的获得方法,其特征在于,所述确定所述用户的年龄信息,包括:
采集所述用户的人脸信息,基于人脸识别技术对所述人脸信息进行特征提取和分析,确定出所述用户的年龄信息;和/或
基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定出所述用户的年龄信息。
A5,如A1所述的语音指令的获得方法,其特征在于,所述基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,包括:
将所述第一语音信息和所述用户的年龄信息上传至服务器,以使所述服务器基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,并将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长,其中,所述服务器存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;
接收服务器返回的所述断点时长。
A6,如A1所述的语音指令的获得方法,其特征在于,所述基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,包括:
基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,其中,所述电子设备存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;
将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长。
A7,如A1所述的语音指令的获得方法,其特征在于,在所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令之前,还包括:
获取所述用户的使用时长信息和/或所述用户输入语音指令的熟练程度信息,其中,所述使用时长信息用于表示所述用户使用所述电子设备的总时长;
基于所述使用时长信息和/或所述用户输入语音指令的熟练程度信息,对所述断点时长进行调整,得到调整后的断点时长;
所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,包括:
基于所述调整后的断点时长,获得所述语音指令。
A8,如A1-A7任一项所述的语音指令的获得方法,其特征在于,所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,包括:
将所述第一语音信息的开始点确定为所述语音指令的开始端点;
确定所述第一语音信息的第一结束点,并基于所述断点时长对所述第一结束点进行调整,得到第二结束点;
检测在所述第一结束点与所述第二结束点之间是否有音频输入;
若有,则采集获得第二语音信息;
确定所述第二语音信息的第三结束点,并基于所述断点时长对所述第三束点进行调整,得到第四结束点;
检测在所述第三结束点与所述第四结束点之间是否有音频输入;
若无,则将所述第四结束点确定为所述语音指令的结束端点,基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息和第二语音信息;
若有,则采集第三语音信息;
确定所述第三语音信息的第五结束点,并基于所述断点时长对所述第五束点进行调整,得到第六结束点;
检测在所述第五结束点与所述第六结束点之间是否有音频输入;
若无,则将所述第六结束点确定为所述语音指令的结束端点,基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息至第三语音信息;
若有,继续采集第四语音信息。
B9,一种语音指令的获得装置,应用于电子设备中,其特征在于,所述装置包括:
采集模块,用于采集用户输入的第一语音信息;
确定模块,用于确定所述用户的年龄信息;
第一获得模块,基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;
第二获得模块,基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。
B10,如B9所述的语音指令的获得装置,其特征在于,还包括:
第一判断模块,用于在确定所述用户的年龄信息之前,判断所述第一语音信息是否具有完整可理解的语义,所述完整可理解的语义包含预设语法结构;
第二判断模块,用于当所述第一语音信息不具有所述完整可理解的语义时,判断所述用户是否为特定用户,所述特定用户的年龄小于一预设年龄;当所述用户为所述特定用户时,通过所述确定模块执行所述确定所述用户的年龄信息的步骤。
B11,如B10所述的语音指令的获得装置,其特征在于,所述第二判断单元,包括以下模块中的一种或任意组合:
第一确定子模块,基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定所述用户是否为所述特定用户;
第二确定子模块,用于采集所述用户的人脸信息,基于人脸识别技术对所述用户的人脸信息进行特征提取和分析,确定所述用户是否为所述特定用户;
第三确定子模块,基于所述电子设备的当前模式是否为特定模式,确定所述用户是否为所述特定用户。
B12,如B9所述的语音指令的获得装置,其特征在于,所述确定模块包括:
第四确定子模块,用于采集所述用户的人脸信息,基于人脸识别技术对所述人脸信息进行特征提取和分析,确定出所述用户的年龄信息;和/或
第五确定子模块,基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定出所述用户的年龄信息。
B13,如B9所述的语音指令的获得装置,其特征在于,所述第一获得模块,包括:
上传子模块,用于将所述第一语音信息和所述用户的年龄信息上传至服务器,以使所述服务器基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,并将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长,其中,所述服务器存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;
接收子模块,用于接收服务器返回的所述断点时长。
B14,如B9所述的语音指令的获得装置,其特征在于,所述第一获得模块,包括:
选择子模块,基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,其中,所述电子设备存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;
第一得到子模块,用于将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长。
B15,如B9所述的语音指令的获得装置,其特征在于,还包括:
第一获取模块,用于获取所述用户的使用时长信息和/或所述用户输入语音指令的熟练程度信息,其中,所述使用时长信息用于表示所述用户使用所述电子设备的总时长;
得到模块,基于所述使用时长信息,对所述断点时长进行调整,得到调整后的断点时长;
所述第二获得模块,还用于基于所述调整后的断点时长和/或所述用户输入语音指令的熟练程度信息,获得所述用户输入的与所述第一语音信息相关的语音指令。
B16,如B9-B15任一所述的语音指令的获得装置,其特征在于,所述第二获得模块,包括:
第六确定子模块,用于将所述第一语音信息的开始点确定为所述语音指令的开始端点;
第二得到子模块,用于确定所述第一语音信息的第一结束点,并基于所述断点时长对所述第一结束点进行调整,得到第二结束点;
第一检测子模块,用于检测在所述第一结束点与所述第二结束点之间是否有音频输入;
第一采集子模块,用于当所述第一结束点与所述第二结束点之间有音频输入时,采集第二语音信息;
第三得到子模块,用于确定所述第二语音信息的第三结束点,并基于所述断点时长对所述第三束点进行调整,得到第四结束点;
第二检测子模块,用于检测在所述第三结束点与所述第四结束点之间是否有音频输入;
第一获得子模块,用于当所述第三结束点与所述第四结束点之间无音频输入时,将所述第四结束点确定为所述语音指令的结束端点;基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息和第二语音信息;
第二采集子模块,用于当所述第三结束点与所述第四结束点之间有音频输入时,采集第三语音信息;
第四得到子模块,用于确定所述第三语音信息的第五结束点,并基于所述断点时长对所述第五束点进行调整,得到第六结束点;
第三检测子模块,用于检测在所述第五结束点与所述第六结束点之间是否有音频输入;
第二获得子模块,用于当所述第五结束点与所述第六结束点之间无音频输入时,将所述第六结束点确定为所述语音指令的结束端点;基于所述语音指令的开始端点和所述语音指令的结束端点,获得所述语音指令,所述语音指令包含所述第一语音信息至第三语音信息;
第三采集子模块,用于当所述第五结束点与所述第六结束点之间有音频输入时,继续采集第四语音信息。
C17,一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可以实现如A1~A8任一权项所述的方法步骤。
D18,一种计算机存储介质,其特征在于,其上存储有计算机程序,其特征在于,包括:该程序被处理器执行时可以实现如A1~A8任一权项所述的方法步骤。

Claims (10)

1.一种语音指令的获得方法,应用于电子设备中,其特征在于,所述方法包括:
采集用户输入的第一语音信息;
确定所述用户的年龄信息;
基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;
基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。
2.如权利要求1所述的语音指令的获得方法,其特征在于,在所述确定所述用户的年龄信息之前,还包括:
判断所述第一语音信息是否具有完整可理解的语义,所述完整可理解的语义包含预设语法结构;
当所述第一语音信息不具有所述完整可理解的语义时,判断所述用户是否为特定用户,所述特定用户的年龄小于一预设年龄;
当所述用户为所述特定用户时,执行所述确定所述用户的年龄信息的步骤。
3.如权利要求2所述的语音指令的获得方法,其特征在于,所述判断所述用户是否为特定用户,包括以下方式中的一种或任意组合:
基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定所述用户是否为所述特定用户;
采集所述用户的人脸信息,基于人脸识别技术对所述用户的人脸信息进行特征提取和分析,确定所述用户是否为所述特定用户;
基于所述电子设备的当前模式是否为特定模式,确定所述用户是否为所述特定用户。
4.如权利要求1所述的语音指令的获得方法,其特征在于,所述确定所述用户的年龄信息,包括:
采集所述用户的人脸信息,基于人脸识别技术对所述人脸信息进行特征提取和分析,确定出所述用户的年龄信息;和/或
基于声纹识别技术对所述第一语音信息进行特征提取和分析,确定出所述用户的年龄信息。
5.如权利要求1所述的语音指令的获得方法,其特征在于,所述基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,包括:
将所述第一语音信息和所述用户的年龄信息上传至服务器,以使所述服务器基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,并将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长,其中,所述服务器存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;
接收服务器返回的所述断点时长。
6.如权利要求1所述的语音指令的获得方法,其特征在于,所述基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,包括:
基于所述用户的年龄信息,从多个语音断点模型中选择所述目标语音断点模型,其中,所述电子设备存储有所述多个语音断点模型,所述多个语音断点模型对应不同年龄信息,所述目标语音断点模型与所述用户的年龄信息对应;
将所述第一语音信息输入到所述目标语音断点模型中,得到所述断点时长。
7.如权利要求1所述的语音指令的获得方法,其特征在于,在所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令之前,还包括:
获取所述用户的使用时长信息和/或所述用户输入语音指令的熟练程度信息,其中,所述使用时长信息用于表示所述用户使用所述电子设备的总时长;
基于所述使用时长信息和/或所述用户输入语音指令的熟练程度信息,对所述断点时长进行调整,得到调整后的断点时长;
所述基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,包括:
基于所述调整后的断点时长,获得所述语音指令。
8.一种语音指令的获得装置,应用于电子设备中,其特征在于,所述装置包括:
采集模块,用于采集用户输入的第一语音信息;
确定模块,用于确定所述用户的年龄信息;
第一获得模块,基于所述第一语音信息和所述用户的年龄信息,获得一断点时长,其中,所述断点时长是利用与所述用户的年龄信息对应的目标语音断点模型对所述第一语音信息处理后获得的,所述目标语音断点模型是从多个语音断点模型中选择的;
第二获得模块,基于所述断点时长,获得所述用户输入的与所述第一语音信息相关的语音指令,其中,所述语音指令包含N段语音信息,所述N段语音信息包含第一语音信息,N为大于1的正整数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可以实现如权利要求1~8任一权项所述的方法步骤。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,其特征在于,包括:该程序被处理器执行时可以实现如权利要求1~8任一权项所述的方法步骤。
CN201910947282.9A 2019-09-29 2019-09-29 一种语音指令的获得方法及装置 Withdrawn CN112581937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910947282.9A CN112581937A (zh) 2019-09-29 2019-09-29 一种语音指令的获得方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910947282.9A CN112581937A (zh) 2019-09-29 2019-09-29 一种语音指令的获得方法及装置

Publications (1)

Publication Number Publication Date
CN112581937A true CN112581937A (zh) 2021-03-30

Family

ID=75117149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910947282.9A Withdrawn CN112581937A (zh) 2019-09-29 2019-09-29 一种语音指令的获得方法及装置

Country Status (1)

Country Link
CN (1) CN112581937A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707154A (zh) * 2021-09-03 2021-11-26 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707154A (zh) * 2021-09-03 2021-11-26 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质
CN113707154B (zh) * 2021-09-03 2023-11-10 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US10825470B2 (en) Method and apparatus for detecting starting point and finishing point of speech, computer device and storage medium
CN108735201B (zh) 连续语音识别方法、装置、设备和存储介质
CN109509470A (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN106875936A (zh) 语音识别方法及装置
CN112825248A (zh) 语音处理方法、模型训练方法、界面显示方法及设备
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
WO2023222089A1 (zh) 基于深度学习的物品分类方法和装置
CN115062143A (zh) 语音识别与分类方法、装置、设备、冰箱及存储介质
KR20180106817A (ko) 전자 장치 및 제어 방법
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN110853669B (zh) 音频识别方法、装置及设备
CN114242064A (zh) 语音识别方法及装置、语音识别模型的训练方法及装置
CN112309398B (zh) 工作时长监控方法、装置、电子设备和存储介质
CN110099332B (zh) 一种音频环境展示方法及装置
CN112581937A (zh) 一种语音指令的获得方法及装置
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN116070020A (zh) 基于知识图谱的食材推荐方法、设备及存储介质
CN107123420A (zh) 一种语音识别***及其交互方法
CN116108176A (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
CN115098765A (zh) 基于深度学习的信息推送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210330