CN114360508A - 一种标记方法、装置、设备及存储介质 - Google Patents

一种标记方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114360508A
CN114360508A CN202111605160.5A CN202111605160A CN114360508A CN 114360508 A CN114360508 A CN 114360508A CN 202111605160 A CN202111605160 A CN 202111605160A CN 114360508 A CN114360508 A CN 114360508A
Authority
CN
China
Prior art keywords
audio
target
marked
phoneme
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111605160.5A
Other languages
English (en)
Inventor
黄丽莉
李良斌
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202111605160.5A priority Critical patent/CN114360508A/zh
Publication of CN114360508A publication Critical patent/CN114360508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种标记方法、装置、设备及存储介质,该方法包括:获取待标记音频和唤醒词中的目标音素;确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度,当所述相似度满足预设条件时,采用特征标签标记所述目标音频,所述目标音频为所述待标记音频的首端音频,所述特征标签表征所述目标音频为所述唤醒词的残留音频。本申请实施例提供的方法能够提高标记音频中唤醒词的残留音频的效率。

Description

一种标记方法、装置、设备及存储介质
技术领域
本申请属于语音识别术领域,尤其涉及一种标记方法、装置、设备及存储介质。
背景技术
语音交互在各行业的应用越来越广泛,语音唤醒技术是与终端进行语音交互的门户。目前,终端有时在未采集到完整的唤醒词时,便能够从待机状态切换到工作状态,切换到工作状态后采集到的残留的唤醒词会对用户与终端的后续交互产生不良影响。
技术人员通过优化语音识别方法减少这种不良影响时,需要先经过人工对音频中唤醒词的残留音频进行标记。
目前,通过人工标记音频中唤醒词的残留音频效率较低。
发明内容
本申请实施例提供一种标记方法、装置、设备及存储介质,能够提高标记音频中唤醒词的残留音频的效率。
第一方面,本申请实施例提供一种标记方法,该方法包括:
获取待标记音频和唤醒词中的目标音素;
确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。
在一种可能的实现方式中,待标记音频中包括指令信息的音频,方法还包括:
接收用户对指令信息的音频的标记操作和用户输入的指令信息对应的指令文本;
响应于标记操作,采用指令标签标记待标记音频中指令信息的音频;
将特征标签和指令标签标记的待标记音频记为标记音频,根据标记音频和标记音频的指令文本训练指令识别模型,得到目标指令识别模型,目标指令识别模型用于剔除标记音频中的唤醒词的残留音频,并识别指令信息的音频,得到指令信息对应的指令文本。
在一种可能的实现方式中,在确定待标记音频中目标音频的第一音素与目标音素的相似度之前,方法还包括:
根据待标记音频的首端音频的振幅变化规律,确定目标音频。
在一种可能的实现方式中,根据待标记音频的首端音频的振幅变化规律,确定目标音频,包括:
确定待标记音频的首端振幅变化规律为从高降低至零的音频,为目标音频。
在一种可能的实现方式中,目标音素包括唤醒词尾端预设长度的音素。
在一种可能的实现方式中,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,包括:
采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频。
在一种可能的实现方式中,采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频之前,方法还包括:
获取正样本和负样本,正样本首端包括唤醒词的残留音频,负样本首端不包括唤醒词的残留音频;
根据正样本和负样本,训练待训练模型,得到标记模型。
第二方面,本申请实施例提供一种标记装置,该装置包括:
获取模块,用于获取待标记音频和唤醒词中的目标音素;
标记模块,用于确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。
第三方面,本申请实施例提供一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面或者第一方面的任一可能实现方式中的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
第五方面,本申请实施例提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如第一方面或者第一方面的任一可能实现方式中的方法。
本申请实施例提供的一种标记方法、装置、设备及存储介质,先获取待标记音频和唤醒词中的目标音素;然后,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。自动采用特征标签标记待标记音频的首端音频中,与唤醒词的残留音素相似度满足预设条件的音频,为唤醒词的残留音频,提高了标记音频中唤醒词的残留音频的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种标记方法的流程示意图;
图2是本申请实施例提供的一种标记装置的结构示意图;
图3是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
语音交互在各行业的应用越来越广泛,语音唤醒技术是与终端进行语音交互的门户。目前,终端有时在未采集到完整的唤醒词时,便能够从待机状态切换到工作状态,切换到工作状态后继续采集唤醒词的残留,并采集用户的语音指令,将唤醒词的残留和语音指令一起输入指令识别模型,识别出用户的指令,但是由于存在唤醒词的残留,会导致指令识别模型难以准确识别出用户的指令。技术人员面对存在唤醒词的残留,指令识别模型难以准确识别出用户的指令的问题,需要将指令识别模型进行优化以提高识别指令的准确率。首先,需要先人工将大量音频中包括唤醒词的残留音频的音频筛选出来,并对唤醒词的残留音频进行标记,得到用于训练指令识别模型的样本,但是人工筛选和标记唤醒词的残留音频的效率较低。
针对上述问题,本申请实施例提供了一种标记方法、装置、设备及存储介质,先获取待标记音频和唤醒词中的目标音素;然后,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。自动采用特征标签标记待标记音频的首端音频中,与唤醒词的残留音素相似度满足预设条件的音频,为唤醒词的残留音频,提高了标记音频中唤醒词的残留音频的效率。
本申请实施例提供的方法执行主体为具备音频处理能力的终端,如电脑等。
下面将结合图1详细阐述本申请实施例提供的一种标记方法。
如图1所示,该方法可以包括以下步骤:
S110,获取待标记音频和唤醒词中的目标音素。
终端获取待标记的音频和唤醒词中的目标音素。
待标记音频为终端切换到工作状态后接收到的音频。用户语音唤醒终端时,若终端在未接收到完整的唤醒词时便已被唤醒,终端切换到工作状态后继续接收唤醒词的残留的语音,并接受用户的语音指令,所以待标记音频包括指令信息的同时,还可能包括唤醒词的残留音频。指令信息表征用户对终端的指令,终端根据指令信息做相应的响应。目标音素包括唤醒词的残留音素。
在一个示例中,唤醒词为“宝贝”,若终端在接收到“宝”时已被唤醒,则终端切换到工作状态后接收到的音频包括唤醒词的残留:“贝”。唤醒词中的目标音素包括唤醒词的残留音素,即“贝”的音素“bei”。
S120,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频。
目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。
由于唤醒词的残留音频为终端切换到工作状态后接收首先到的音频,终端先识别待标记音频的首端目标音频的第一音素,确定第一音素与目标音素的相似度,当相似度满足预设条件时,表征目标音频为唤醒词的残留音频,采用特征标签标记目标音频。
在一个示例中,唤醒词为“宝贝”,目标音素为“贝”的音素“bei”,预设条件为相似度大于60%。终端识别出目标音频的第一音素为“bei”,所以第一音素与目标音素的相似度为100%,满足预设条件,所以终端确定目标音频为唤醒词的残留音频,采用特征标签标记目标音频。
在一个示例中,唤醒词为“宝贝”,目标音素为“贝”的音素“bei”,预设条件为相似度大于60%。终端识别出目标音频的第一音素为“ei”或“pei”,所以第一音素与目标音素的相似度为66.7%,满足预设条件,所以终端确定目标音频为唤醒词的残留音频,采用特征标签标记目标音频。
在一个示例中,唤醒词为“宝贝”,目标音素为“贝”的音素“bei”,预设条件为相似度大于60%。终端识别出目标音频的第一音素为“i”,所以第一音素与目标音素的相似度为33.3%,不满足预设条件,所以终端确定目标音频不是唤醒词的残留音频,不采用特征标签标记目标音频。
本申请实施例提供的方法,先获取待标记音频和唤醒词中的目标音素;然后,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。自动采用特征标签标记待标记音频的首端音频中,与唤醒词的残留音素相似度满足预设条件的音频,为唤醒词的残留音频,提高了标记音频中唤醒词的残留音频的效率。
在一些实施例中,待标记音频中包括指令信息的音频,该方法还可以包括以下步骤:
首先,接收用户对指令信息的音频的标记操作和用户输入的指令信息对应的指令文本。
指令信息表征用户对终端的指令,终端根据指令信息做相应的响应。
为了训练指令识别模型,使指令识别模型更加准确地识别音频中的指令信息,技术人员对待标记音频中的指令信息的音频进行标记,并得到指令信息对应的指令文本。
指令文本表征指令信息的文本。例如某条指令信息的指令文本为“开灯”。
用户可以通过人机交互界面,操作终端对待标记音频中指令信息的音频进行标记,并输入指令信息对应的指令文本,终端接收用户对指令信息的音频的标记操作和用户输入的指令信息对应的指令文本。
其次,响应于标记操作,采用指令标签标记待标记音频中指令信息的音频。
终端响应于用户的标记操作,采用指令标签标记待标记音频中指令信息的音频。
指令标签为预先设置的标签,表征被标记的音频为指令信息的音频。
终端响应于标记操作,采用指令标签标记待标记音频中指令信息的音频后,得到了人工标记的指令信息的音频。
再次,将特征标签和指令标签标记的待标记音频记为标记音频,根据标记音频和标记音频的指令文本训练指令识别模型,得到目标指令识别模型。
终端将特征标签和指令标签标记的待标记音频记为标记音频,将标记音频输入指令识别模型,得到识别结果,将识别结果与指令文本比较,得到识别的准确率,若准确率满足预先设置的准确率,则得到目标指令识别模型;若准确率不满足预先设置的准确率,则终端自动调整或技术人员调整指令识别模型,将标记音频输入调整后的指令识别模型,若调整后的指令识别模型的准确率满足预先设置的准确率,则得到了目标指令识别模型。
目标指令识别模型用于剔除标记音频中的唤醒词的残留音频,并识别指令信息的音频,得到指令信息对应的指令文本。
在一个实施例中,待标记音频中不包括唤醒词的残留音频,则目标指令识别模型用于识别指令信息的音频,得到指令信息对应的指令文本。
将终端的指令识别模型更新为目标指令识别模型,终端采用目标指令识别模型,在终端切换至工作状态后接收的音频中包括唤醒词的残留音频时,也能够准确地识别指令信息的音频。
本申请实施例提供的方法,终端接收用户对指令信息的音频的标记操作和用户输入的指令信息对应的指令文本;响应于标记操作,采用指令标签标记待标记音频中指令信息的音频;将特征标签和指令标签标记的待标记音频记为标记音频,根据标记音频和标记音频的指令文本训练指令识别模型,得到目标指令识别模型。训练得到的目标指令识别模型能够剔除标记音频中的唤醒词的残留音频,并识别指令信息的音频,得到指令信息对应的指令文本,终端采用目标指令识别模型,在终端切换至工作状态后接收的音频中包括唤醒词的残留音频时,也能够准确地识别指令信息的音频。
在一些实施例中,在确定待标记音频中目标音频的第一音素与目标音素的相似度之前,即S120之前,该方法还可以包括:
根据待标记音频的首端音频的振幅变化规律,确定目标音频。
终端识别待标记音频首端音频的振幅变化规律,根据振幅变化规律确定首端音频中的目标音频。
本申请实施例提供的方法根据待标记音频的首端音频的振幅变化规律确定了目标音频,得到了可能包括唤醒词的残留音频。
在一些实施例中,根据待标记音频的首端音频的振幅变化规律,确定目标位置音频,可以包括:
确定待标记音频的首端振幅变化规律为从高降低至零的音频,为目标音频。
用户的说话习惯一般为,说出完整唤醒词后,经过微小的间隔,再说出语音指令,所以终端从开始接收唤醒词的残留音频到接收指令信息的音频之前,接收到的音频的振幅变化规律为高降低至零,终端确定待标记音频的首端振幅变化规律为从高降低至零的音频为目标音频。
本申请实施例提供的方法中,终端确定待标记音频的首端振幅变化规律为从高降低至零的音频为目标音频,得到了更加准确的可能包括唤醒词的残留音频。
在一些实施例中,根据待标记音频的首端音频的振幅变化规律,确定目标音频,可以包括:
采用标记模型,根据待标记音频的首端音频的振幅变化规律,确定目标音频。
采用标记模型识别待标记音频的首端音频的振幅变化规律,根据振幅变化规律,确定目标音频。
本申请实施例提供的方法中,提供了标记模型,标记模型识别待标记音频的首端音频的振幅变化规律,并根据振幅变化规律确定目标音频,提高识别目标音频的效率。
在一些实施例中,确定待标记音频的首端振幅变化规律为从高降低至零的音频,为目标音频,可以包括:
采用标记模型,确定待标记音频的首端振幅变化规律为从高降低至零的音频,为目标音频。
采用标记模型识别待标记音频的首端音频的振幅变化规律,标记模型将振幅变化规律为从高降低至零的音频确定为目标音频。
终端从开始接收唤醒词的残留音频到接收指令信息的音频之前,接收到的音频的振幅变化规律为高降低至零,标记模型将振幅变化规律为从高降低至零的音频确定为目标音频,即标记模型将可能包括唤醒词的残留音频确定为目标音频。
本申请实施例提供的方法中,提供了标记模型,标记模型识别待标记音频的首端音频的振幅变化规律,根据振幅变化规律,确定将振幅变化规律为从高降低至零的音频确定为目标音频,提高识别目标音频的效率的同时,将可能包括唤醒词的残留音频确定为目标音频。
在一些实施例中,在采用标记模型,确定待标记音频的首端振幅变化规律为从高降低至零的音频,为目标音频之前,该方法还可以包括:
先获取正样本和负样本。
终端获取大量的正样本和负样本,用于训练待训练模型。
正样本和负样本均为待标记音频,正样本首端包括振幅变化规律为从高降低至零的音频,负样本首端不包括振幅变化规律为从高降低至零的音频。
然后,根据正样本和负样本,训练待训练模型,得到标记模型。
终端将正样本和负样本输入待训练模型,待训练模型识别正样本和负样本的首端音频的振幅变化规律,将变化规律为高降低至零的样本确定为目标音频,并统计准确率,根据准确率调整待训练模型,直至准确率满足预设的准确率时,停止训练,得到标记模型。
本申请实施例提供的方法通过训练得到了标记模型,能够自动识别待标记音频中首端音频的振幅规律,自动确定振幅变化规律为高降低至零的样本,确定为目标音频,从而实现提高确定待标记音频中目标音频的效率。
在一些实施例中,目标音素包括唤醒词尾端预设长度的音素。
唤醒词的残留为唤醒词尾端的字,唤醒词中的目标音素包括唤醒词尾端预设长度的音素,也就是说,唤醒词中的目标音素包括唤醒词的残留音素。
预设长度是根据唤醒词的音素数量设置的。
在一个示例中,唤醒词为“宝贝”,唤醒词的残留为“贝”,唤醒词中的音素包括“baobei”,预设长度等于唤醒词的残留音素数量3,终端获取唤醒词中的目标音素“bei”。
在一个示例中,唤醒词为“宝贝”,唤醒词的残留为“贝”,唤醒词中的音素包括“baobei”,预设长度等于唤醒词的残留音素数量2,终端获取唤醒词中的目标音素“ei”。
本申请实施例提供的方法,将唤醒词尾端预设长度的音素作为目标音素,便于识别出待标记音频中唤醒词的残留音频。
在一些实施例中,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,即S120可以包括:
采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频。
采用标记模型,识别待标记音频中目标音频的第一音素,计算待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频。
本申请实施例提供的方法中,提供了标记模型,并采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,实现自动标记唤醒词的残留。
在一些实施例中,在采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频之前,该方法还可以包括以下步骤:
先获取正样本和负样本。
终端获取大量的正样本和负样本,用于训练待训练模型。
正样本和负样本均为音频,正样本首端包括唤醒词的残留音频,且唤醒词的残留音频已被特征标签标记,负样本首端不包括唤醒词的残留音频。
然后,根据正样本和负样本,训练待训练模型,得到标记模型。
终端将正样本和负样本输入待训练模型,并统计标记的准确率,根据准确率调整待训练模型,直至准确率满足预设的准确率时,停止训练,得到标记模型。
本申请实施例提供的方法通过训练得到了标记模型,能够自动识别和标记待标记音频中的唤醒词的残留音频,从而实现提高标记待标记音频中的唤醒词的残留音频的效率。
本申请实施例还提供一种标记装置,如图2所示,该装置200可以包括获取模块210和标记模块220。
获取模块210,用于获取待标记音频和唤醒词中的目标音素。
标记模块220,用于确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频。
目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。
本申请实施例提供的装置,先获取待标记音频和唤醒词中的目标音素;然后,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,目标音频为待标记音频的首端音频,特征标签表征目标音频为唤醒词的残留音频。自动采用特征标签标记待标记音频的首端音频中,与唤醒词的残留音素相似度满足预设条件的音频,为唤醒词的残留音频,提高了标记音频中唤醒词的残留音频的效率。
在一些实施例中,待标记音频中包括指令信息的音频,装置200还可以包括接收模块230、响应模块240和训练模块250。
接收模块230,用于接收用户对指令信息的音频的标记操作和用户输入的指令信息对应的指令文本。
响应模块240,用于响应于标记操作,采用指令标签标记待标记音频中指令信息的音频。
训练模块250,将特征标签和指令标签标记的待标记音频记为标记音频,根据标记音频和标记音频的指令文本训练指令识别模型,得到目标指令识别模型。
目标指令识别模型用于剔除标记音频中的唤醒词的残留音频,并识别指令信息的音频,得到指令信息对应的指令文本。
在一个实施例中,待标记音频中不包括唤醒词的残留音频,则目标指令识别模型识别指令信息的音频,得到指令信息对应的指令文本。
本申请实施例提供的装置接收用户对指令信息的音频的标记操作和用户输入的指令信息对应的指令文本;响应于标记操作,采用指令标签标记待标记音频中指令信息的音频;将特征标签和指令标签标记的待标记音频记为标记音频,根据标记音频和标记音频的指令文本训练指令识别模型,得到目标指令识别模型。训练得到的目标指令识别模型能够剔除标记音频中的唤醒词的残留音频,并识别指令信息的音频,得到指令信息对应的指令文本,终端采用目标指令识别模型,在终端切换至工作状态后接收的音频中包括唤醒词的残留音频时,也能够准确地识别指令信息的音频。
在一些实施例中,装置200还可以包括确定模块260。
确定模块260,用于根据待标记音频的首端音频的振幅变化规律,确定目标音频。
本申请实施例提供的装置根据待标记音频的首端音频的振幅变化规律确定了目标音频,得到了可能包括唤醒词的残留音频。
在一些实施例中,确定模块260,可以具体用于:
确定待标记音频的首端振幅变化规律为从高降低至零的音频,为目标音频。
本申请实施例提供的装置确定待标记音频的首端振幅变化规律为从高降低至零的音频为目标音频,得到了更加准确的可能包括唤醒词的残留音频。
在一些实施例中,目标音素包括唤醒词尾端预设长度的音素。
本申请实施例提供的装置,将唤醒词尾端预设长度的音素作为目标音素,便于识别出待标记音频中唤醒词的残留音频。
在一些实施例中,标记模块120,可以具体用于:
采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频。
本申请实施例提供的装置,提供了标记模型,并采用标记模型,确定待标记音频中目标音频的第一音素与目标音素的相似度,当相似度满足预设条件时,采用特征标签标记目标音频,实现自动标记唤醒词的残留。
在一些实施例中,获取模块210,还可以用于获取正样本和负样本。
正样本和负样本均为待标记音频,正样本首端包括唤醒词的残留音频,负样本首端不包括唤醒词的残留音频。
训练模块270,还可以用于根据正样本和负样本,训练待训练模型,得到标记模型。
本申请实施例提供的装置通过训练得到了标记模型,能够自动识别和标记待标记音频中的唤醒词的残留音频,从而实现提高标记待标记音频中的唤醒词的残留音频的效率。
本申请实施例提供的标记装置执行图1所示的方法中的各个步骤,并能够达到提高标记音频中唤醒词的残留音频的效率的技术效果,为简洁描述,再此不在详细赘述。
图3示出了本申请实施例提供的一种电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。在特定实施例中,存储器302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现图1所示实施例中的任意一种标记方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的标记方法,从而实现结合图1描述的标记方法。
另外,结合上述实施例中的标记方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种标记方法。
结合上述实施例中的标记方法,本申请实施例可提供一种计算机程序产品来实现。该计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如上述实施例中的任意一种标记方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种标记方法,其特征在于,所述方法包括:
获取待标记音频和唤醒词中的目标音素;
确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度,当所述相似度满足预设条件时,采用特征标签标记所述目标音频,所述目标音频为所述待标记音频的首端音频,所述特征标签表征所述目标音频为所述唤醒词的残留音频。
2.根据权利要求1所述的方法,其特征在于,所述待标记音频中包括指令信息的音频,所述方法还包括:
接收用户对所述指令信息的音频的标记操作和用户输入的所述指令信息对应的指令文本;
响应于所述标记操作,采用指令标签标记所述待标记音频中所述指令信息的音频;
将所述特征标签和所述指令标签标记的所述待标记音频记为标记音频,根据所述标记音频和所述标记音频对应的所述指令文本训练指令识别模型,得到目标指令识别模型,所述目标指令识别模型用于剔除所述标记音频中的所述唤醒词的残留音频,并识别所述指令信息的音频,得到所述指令信息对应的所述指令文本。
3.根据权利要求1所述的方法,其特征在于,在所述确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度之前,所述方法还包括:
根据所述待标记音频的首端音频的振幅变化规律,确定所述目标音频。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待标记音频首端音频的振幅变化规律,确定所述目标音频,包括:
确定所述待标记音频的首端振幅变化规律为从高降低至零的音频,为所述目标音频。
5.根据权利要求1所述的方法,其特征在于,所述目标音素包括所述唤醒词尾端预设长度的音素。
6.根据权利要求1所述的方法,其特征在于,所述确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度,当所述相似度满足预设条件时,采用特征标签标记所述目标音频,包括:
采用标记模型,确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度,当所述相似度满足预设条件时,采用特征标签标记所述目标音频。
7.根据权利要求6所述的方法,其特征在于,在所述采用标记模型,确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度,当所述相似度满足预设条件时,采用特征标签标记所述目标音频之前,所述方法还包括:
获取正样本和负样本,所述正样本首端包括所述唤醒词的残留音频,所述负样本首端不包括所述唤醒词的残留音频;
根据所述正样本和所述负样本,训练待训练模型,得到所述标记模型。
8.一种标记装置,其特征在于,所述装置包括:
获取模块,用于获取待标记音频和唤醒词中的目标音素;
标记模块,用于确定所述待标记音频中目标音频的第一音素与所述目标音素的相似度,当所述相似度满足预设条件时,采用特征标签标记所述目标音频,所述目标音频为所述待标记音频的首端音频,所述特征标签表征所述目标音频为所述唤醒词的残留音频,所述目标音频为所述待标记音频的首端音频,所述特征标签表征所述目标音频为所述唤醒词的残留音频。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的标记方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的标记方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-7任意一项所述的标记方法。
CN202111605160.5A 2021-12-24 2021-12-24 一种标记方法、装置、设备及存储介质 Pending CN114360508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111605160.5A CN114360508A (zh) 2021-12-24 2021-12-24 一种标记方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111605160.5A CN114360508A (zh) 2021-12-24 2021-12-24 一种标记方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114360508A true CN114360508A (zh) 2022-04-15

Family

ID=81100519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111605160.5A Pending CN114360508A (zh) 2021-12-24 2021-12-24 一种标记方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114360508A (zh)

Similar Documents

Publication Publication Date Title
CN107039034B (zh) 一种韵律预测方法及***
CN104078044B (zh) 移动终端及其录音搜索的方法和装置
CN112200273B (zh) 数据标注方法、装置、设备及计算机存储介质
CN111081279A (zh) 语音情绪波动分析方法及装置
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
CN109326305B (zh) 一种批量测试语音识别和文本合成的方法和测试***
CN109801628B (zh) 一种语料收集方法、装置及***
CN111028842B (zh) 触发语音交互响应的方法及设备
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN108111538A (zh) 基于声纹识别技术的智能投影仪语音控制***及其方法
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN114023315A (zh) 语音的识别方法、装置、可读介质和电子设备
CN112509568A (zh) 一种语音唤醒方法及装置
CN110858479B (zh) 语音识别模型更新方法、装置、存储介质及电子设备
CN112417850A (zh) 音频标注的检错方法和装置
CN113380238A (zh) 处理音频信号的方法、模型训练方法、装置、设备和介质
CN111538823A (zh) 信息处理方法、模型训练方法、装置、设备及介质
CN112185425A (zh) 音频信号处理方法、装置、设备及存储介质
CN114360508A (zh) 一种标记方法、装置、设备及存储介质
CN114267342A (zh) 识别模型的训练方法、识别方法、电子设备及存储介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN114360515A (zh) 信息处理方法、装置、电子设备、介质及计算机程序产品
CN111048068B (zh) 语音唤醒方法、装置、***及电子设备
CN114117031A (zh) 名单筛查方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination