CN111916088A - 一种语音语料的生成方法、设备及计算机可读存储介质 - Google Patents

一种语音语料的生成方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111916088A
CN111916088A CN202010808289.5A CN202010808289A CN111916088A CN 111916088 A CN111916088 A CN 111916088A CN 202010808289 A CN202010808289 A CN 202010808289A CN 111916088 A CN111916088 A CN 111916088A
Authority
CN
China
Prior art keywords
voice
request
corpus
target function
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010808289.5A
Other languages
English (en)
Other versions
CN111916088B (zh
Inventor
张晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010808289.5A priority Critical patent/CN111916088B/zh
Publication of CN111916088A publication Critical patent/CN111916088A/zh
Application granted granted Critical
Publication of CN111916088B publication Critical patent/CN111916088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语音语料的生成方法、设备及计算机可读存储介质;该方法包括:当接收到功能指令时,响应于功能指令,接收语音数据;语音数据描述了目标请求;对语音数据进行语音识别,得到语音识别文本,并根据语音识别文本,确定出语音数据对应的目标功能;在执行目标功能的过程中,基于语音识别文本,确定出目标功能的请求完成度;请求完成度用于表征目标请求是否达成;当请求完成度表征目标请求达成时,利用语音数据和语音识别文本,生成语音语料。通过本申请,能够提高语音语料的生成效率。

Description

一种语音语料的生成方法、设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种语音语料的生成方法、设备及计算机可读存储介质。
背景技术
语音识别技术能够对用户的语音进行识别,判断出用户的需求和目的,从而使得各种支持语音交互的智能设备能够通过用户的语音指令,来完成用户所期望的功能。语音识别技术的基础是要通过训练好的声学模型准确地将语音转换为发音序列,而声学模型一般需要大量的经过标注的语音语料才能训练出来。
相关技术中,大多是先准备好语音,再通过人工或是机器来对语音进行标注,得到经过标注的语音语料。然而,准备语音,以及对语音进行标注都需要耗费大量的时间,从而使得经过标注的语音语料的生成效率较低。
发明内容
本申请实施例提供一种语音语料的生成方法、设备及计算机可读存储介质,能够提高语音语料的生成效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种语音语料的生成方法,包括:
当接收到功能指令时,响应于所述功能指令,接收语音数据;所述语音数据描述了目标请求;
对所述语音数据进行语音识别,得到语音识别文本,并根据所述语音识别文本,确定出所述语音数据对应的目标功能;
在执行所述目标功能的过程中,基于所述语音识别文本,确定出所述语目标功能的请求完成度;所述请求完成度用于表征所述目标请求是否达成;
当所述请求完成度表征所述目标请求达成时,利用所述语音数据和所述语音识别文本,生成语音语料。
本申请实施例提供一种语料生成装置,包括:。
接收模块,用于当接收到功能指令时,响应于所述功能指令,接收语音数据;所述语音数据描述了目标请求;
功能模块,用于对所述语音数据进行语音识别,得到语音识别文本,并根据所述语音识别文本,确定出所述语音数据对应的目标功能;
完成度确定模块,用于在执行所述目标功能的过程中,基于所述语音识别文本,确定出所述目标功能的请求完成度;所述请求完成度用于表征所述目标请求是否达成;
语料生成模块,用于当所述请求完成度表征所述目标请求达成时,利用所述语音数据和所述语音识别文本,生成语音语料。
本申请实施例提供一种语料生成设备,包括:
存储器,用于存储可执行语料生成指令;
处理器,用于执行所述存储器中存储的可执行语料生成指令时,实现本申请实施例提供的语音语料的生成方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行语料生成指令,用于引起处理器执行时,实现本申请实施例提供的语音语料的生成方法。
本申请实施例具有以下有益效果:
本申请实施例中,语料生成设备能够先对语音数据进行语音识别,得到语音识别文本,并利用语音识别文本确定出目标功能,然后再在目标功能的执行过程中,基于语音识别文本,确定出目标请求是否达成;当请求完成度为目标请求达成时,表明对语音数据对应的语音识别文本是正确的,从而可以直接利用语音数据和语音识别文本来生成经过标注的语音语料。如此,语料生成设备可以从用户的实际音频数据中得到语音语料,大大减少了生成语音语料,提高了语音语料的生成效率。
附图说明
图1是本申请实施例提供的语料生成***100的一个可选的架构示意图;
图2是本申请实施例提供的语料生成设备的结构示意图;
图3是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图一;
图4是本申请实施例提供的接收语音数据的过程示例图;
图5是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图二;
图6是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图三;
图7是本申请实施例提供的语音识别的过程示例图;
图8是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图四;
图9是本申请实施例提供的语音交互过程示例图;
图10是本申请实施例提供的生成语料的过程示例图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策能力。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机实际技术、语音处理技术、自然语音处理技术以及机器学习/深度学习等几大方向。
2)语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)和语音合成技术(Text to Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中,语音成为未来最被看好的人机交互方式之一。
3)自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的可选。因此,这一领域的研究将涉及自然语言,即人们日常使用的语音,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
4)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的指示结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
5)语音识别技术,是指对人的语音中的词汇内容进行转换,从而得到计算机可读的输入的技术。语音识别技术是通过经过训练的声学模型和语音模型来实现的。声学模型的作用是将人的语音转换为发音序列,例如,将普通话转换为声韵母序列等,语音模型的作用是在相近的声韵母序列下,寻找出现的概率最高的词语组合。
例如,当声学模型对人的语音进行转换,所得到的声韵母序列为“bo1 fang4chen2 li4 d e3 g e1”时,语音模型确定出的最终结果,会为“播放陈粒的歌”,而不是“播放陈丽的歌”,也不会是“播放陈力的歌”。
6)语音语料,是指经过标注的音频数据,其由一批音频文件,即语音数据,以及每个音频文件对应的标注文本组成。每个音频文件时长数秒,包含一个完整的句子。语音语料是训练声学模型是不可或缺的数据。
7)目标功能,是终端通过对用户的语音进行分析所确定出的功能,即目标功能是终端认为用户所需求的功能。例如,终端接收到用户的语音“帮我放一首刘德华的歌”,终端对该语音进行分析之后,会确定出用户需求的功能是听音乐,更具体的,是听刘德华的歌曲。
随着人工智能的技术研究和进步,人工智能技术在多个领域展开研究和引用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
语音识别技术是人工智能中的一个重要方向。语音识别技术能够对用户的语音进行识别,判断出用户的需求和目的,从而使得各种支持语音交互的智能设备能通过用户的语音指令,来完成用户所期望的功能。语音识别技术广泛搭载在智能产品中,例如,搭载在智能音箱、智能电视、智能车载导航等设备上。语音识别技术的应用场景十分广泛,例如,当智能电视接收到用户的语音“播放CCTV1”时,智能电视切换到对应的电视台并播放节目,当智能车载导航接收到用户的语音“导航到最近的地铁站”时,智能车载导航就会开始搜索距离当前位置最近的地铁站,并依据当前位置和地铁站的位置来规划路线,进行导航。
语音识别技术的基础是要通过训练好的声学模型准确地将用户的语音转换为发音序列,然而,声学模型一般需要大量的经过标注的语音语料才能训练出来。相关技术中,语音语料的来源一般分为两类,一类是纯人工标注,一类是利用机器标注。
在纯人工标注中,一种是雇佣音频录制人员,按照事先准备好的内容(事先准备好的标注)来录制音频,另一种是经过用户许可之后,采集用户的实际语音,然后再对用户的实际语音进行人工标注。其中,录制音频用于对声学模型进行初始训练,用户的实际语音用于对声学模型进行迭代更新。然而,声学模型一般需要数千小时的语音语料来进行训练,这样规模的语音语料,不管是录制音频还是对用户的实际语音进行人工标注,都需要耗费大量的时间,使得经标注的语音语料的生成效率较低。
利用机器标注,包括利用机器对人工标注提供候选结果、挖掘人工标注的错误,以及直接对语音数据进行标注等。然而,利用机器对语音数据进行标注时,需要利用语音识别引擎对收集好的语音数据逐一识别,根据识别结果得到标注结果,例如,利用多个语音识别引擎分别对语音数据逐一识别,然后对比识别结果,当发现识别结果一致时,将识别结果作为标注结果等。然而,由于机器在标注时需要逐一对语音数据进行识别,因此,仍旧会耗费大量的时间,从而使得经过标注的语音语料的生成效率较低。
本申请实施例提供一种语音语料的生成方法、设备和计算机可读存储介质,能够提高语音语料的生成效率,下面说明本申请实施例提供的语料生成设备的示例性应用,本申请实施例提供的语料生成设备可以实施为各种类型的用户终端,也可以实施为服务器。其中,服务器可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车机等,但并不局限于此。终端和服务器可以通过有线或无线方式进行直接或间接地连接,本申请在此不作限制。下面,说明语料生成设备实施为终端时的示例性应用。
当终端接收到功能指令时,会响应于功能指令,接收语音数据,然后,终端对语音数据进行语音识别,得到语音识别文本,并根据语音识别文本,确定出语音数据对应的目标功能。接着,终端在执行目标功能的过程中,基于语音识别文本,确定出目标功能的请求完成度,当请求完成度表征目标请求达成时,终端利用语音数据和语音识别文本,生成语音语料。
下面,将说明语料生成设备实施为终端和服务器时示例性应用。
参见图1,图1是本申请实施例提供的语料生成***100的一个可选的架构示意图,为实现支撑一个语音语料的生成应用,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
当终端400接收到功能指令时,响应于功能指令,接收语音数据,语音数据描述了目标请求。终端400通过网络300将语音数据发送给服务器200。服务器200对语音数据进行语音识别,得到语音识别文本,并根据语音识别文本,确定出语音数据对应的目标功能,并获取目标功能对应的数据。接着,服务器200通过网络300将语音识别文本和目标功能对应的数据下发给终端400,终端400得到目标功能对应的数据后,就会执行目标功能。终端400在执行目标功能的过程中,基于语音识别文本,确定出目标功能的请求完成度,其中,请求完成度用于表征目标请求是否达成。当请求完成度表征目标请求达成时,终端400会通过网络300向服务器200发送语音数据的标注是正确的提示信息,服务器200在接收到该提示信息之后,就会利用语音数据和语音识别文本,生成语音语料。
参见图2,图2是本申请实施例提供的语料生成设备的结构示意图,图2所示的语料生成设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。语料生成设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的语料生成装置可以采用软件方式实现,图2示出了存储在存储器550中的语料生成装置555,其可以是程序和插件等形式的软件,包括以下软件模块:接收模块5551、功能模块5552、完成度确定模块5553、语料生成模块5554和模型优化模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。下面,将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的语料生成装置可以采用硬件方式实现,作为示例,本申请实施例提供的语料生成装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的语音语料的生成方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Progra mmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
示例性的,本申请实施例提供一种语料生成设备,包括:
存储器,用于存储可执行语料生成指令;
处理器,用于执行所述存储器中存储的可执行语料生成指令时,实现本申请实施例提供的语音语料的生成方法
下面,将结合本申请实施例提供的语料生成设备的示例性应用和实施,说明本申请实施例提供的语音语料的生成方法。
参见图3,图3是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图一,将结合图3示出的步骤进行说明。
S101、当接收到功能指令时,响应于功能指令,接收语音数据。
本申请实施例是在利用语音数据,自动生成经过标注的语音语料的场景下实现的,例如,利用使用对象在实际生活中与智能音箱(语料生成设备)的对话语音来自动生成语音语料,或者是机器合成的测试语言对智能电视(语料生成设备)下达的播放节目的语音指令来自动生成语音语料。在实际使用场景中,为了不打扰使用对象的正常生活,语料生成设备可以是在接收到使用对象的特殊的指令之后,才会开始与使用对象进行语音交互,这个特殊的指令即为功能指令,因此,语料生成设备在开启之后,会实时监测使用对象有没有触发功能指令。当语料生成设备接收到使用对象所触发的功能指令时,就会明确其需要基于使用对象的需求来执行对应的功能。这时,语料生成设备会先响应于功能指令,接收语音数据,以便于对语音数据进行分析,确定出语音数据中的需求,即确定出目标请求。
可以理解的是,语音数据可以是使用对象发出的,会包含描述使用对象所请求的功能的自然语句等,例如,使用对象用普通话说出的“查询天气”这样的语句;语音数据还可以是机器合成的用来测试某个功能的语音,例如,机器合成的用于测试智能电视的节目切换的语句等。然而,不管语音数据是使用对象发出的自然语句,还是机器合成的测试语句,其都描述了某个等待进行的功能,从而,语音数据描述了目标请求。
需要说明的是,功能指令可以是使用对象的语音语句,也可以是使用对象在语料生成设备上的显示界面上触发的操作事件,还可以是其他类型的指令,本申请实施例在此不作限定。也就是说,使用对象可以通过语音来触发功能指令,还可以通过显示界面上的操作事件来触发功能指令,还可以通过其他方式触发功能指令。
进一步的,语料生成设备设置有麦克风等语音接收器,从而便于利用语音接收器来接收使用对象的语音语句,从而得到功能指令,以及在得到功能指令之后接收语音数据。语料生成设备还可以在其显示界面的预设区域中设置功能指令触发控件,当使用对象在功能指令触发控件上进行了操作事件时,就会触发功能指令,从而语料生成设备就会接收到功能指令。
可以理解的是,为了在不影响使用对象的正常生活,语料生成设备可以利用使用对象预先设置好的语句来作为功能指令,例如,语料生成设备利用使用对象事先设置好的“智能小助手”、“智能精灵”等语句作为功能指令,即当用户说出“智能小助手”、“智能精灵”这句话时,语料生成设备就接收到了功能指令。
示例性的,本申请实施例提供了接收语音数据的过程示例图,参见图4,使用对象4-1可以通过用普通话说出语句“语音助手4-2”,来触发功能指令,也可以通过点击语料生成设备,即终端4-3中的语音助手的图标4-31(功能指令触发控件),来发出功能指令。当使用对象4-1通过任意一种方式触发了功能指令之后,语料生成设备就会录制使用对象所说出的语句4-4,从而得到语音数据。
需要说明的是,在本申请的一些实施例中,语料生成设备可以分别实施为终端和服务器,此时,可以由终端接收并响应功能指令,接收使用对象的语音数据,然后通过网络将语音数据发送给服务器。
S102、对语音数据进行语音识别,得到语音识别文本,并根据语音识别文本,确定出语音数据对应的目标功能。
当语料生成设备接收到语音数据之后,就会先利用语音识别技术,来对语音数据进行识别,将识别所得到的文本结果,作为语音识别文本。之后,语料生成设备会进一步对语音识别文本进行语义理解,即从语音识别文本中分析出语音数据所表达出的请求,然后再依据分析出的需求,来确定出其所需要执行的功能,即确定出目标功能。
可以理解的是,在本申请的一些实施例中,语料生成设备是先将语音数据分解为发音序列,然后再根据发音序列确定出文本,所得到的文本就是语音识别文本。
进一步的,发音序列可以是汉语音节的序列,例如声韵母序列,也可以是英语音节的序列,例如元音辅音序列,还可以是其他语音的发音序列,本申请实施例在此不作限定。
需要说明的是,目标功能是语料生成设备针对语音数据所分析出的功能,其可能与语音数据实际所请求的功能存在差异,例如,语音数据实际请求的功能是听歌手A的歌曲,但是语料生成设备所分析出的功能是使用对象要听歌手B的歌曲。目标功能与语音数据实际所请求的功能之间的差异,极有可能是由于语料生成设备在对语音数据进行识别时,得到了错误的语音识别文本,从而使得语料生成设备再根据错误的语音识别文本,得到了错误的目标功能。反过来,目标功能的正确与否,能够说明语料生成设备对语音数据是否正确识别,即是否得到了正确的语音识别文本。
可以理解的是,在实际情况中,也存在语料生成设备无法识别语音数据的情况,从而无法确定出目标功能,或者是语料生成设备得到的语音识别文本中存在错误,使得后续无法对语音识别文本进行语义理解,从而无法确定出目标功能的情况,这时,语料生成设备会生成语音提示信息,以提示使用对象重新发出新的语音数据,或者是提示重新播放机器合成的测试语音,从而使得语料生成设备能够接收到新的语音数据,利用新的语音数据来确定出目标功能。
示例性的,当语料生成设备无法识别语音数据或是无法对语音识别文本进行语义理解时,可以生成“没听清楚您说的内容,请您再说一遍”,或者是生成“您说的我没理解,请您再说一遍”等语音信息。
在本申请的一些实施例中,当语料生成设备分别实施为终端和服务器时,终端可以将语音数据发送给服务器,由服务器对语音数据进行识别,得到语音识别文本,并由服务器对语音识别文本进行语义理解,确定出目标功能,然后再由服务器将目标功能所对应的数据和语音识别文本发送给终端。当然,也可以是由终端对语音数据进行识别,得到语音识别文本,然后将语音识别文本发送给服务器,服务器对语音识别文本进行语义理解,从而确定出目标功能,并将目标功能对应的数据发送给终端,终端执行目标功能。
S103、在执行目标功能的过程中,基于语音识别文本,确定出目标功能对应的请求完成度。
当语料生成设备确定出目标功能之后,会开始执行目标功能,并在目标功能的执行过程中,利用语音识别文本确定出目标功能所属的领域,然后基于该领域,来为目标功能确定出请求完成度的判断方法。接着,语料生成设备会利用确定出的判断方法,来确定目标功能是否是语音数据实际请求的功能,从而判断出目标请求是否达成。
需要说明的是,请求完成度用于表征目标请求是否达成。换句话说,为目标功能确定出请求完成度,就是确定出语音数据中所描述的请求是否达成。进一步的,请求完成度是能够表征目标功能是否为语音数据实际请求的功能的,而目标功能是语料生成设备对语音识别文本进行分析得到的,因此,请求完成度能够说明语音识别文本是否完全表明了语音数据的目标请求,即对语音数据是否识别正确,得到了正确的语音识别文本。
在本申请的一些实施例中,可以利用目标功能所属的领域对应的判断规则来确定目标功能的请求完成度,还可以利用使用对象是否要打断目标功能的执行过程,来判断出目标功能的请求完成度,本申请实施例在此不作限定。
在本申请的一些实施例中,当语料生成设备分别实施为终端和服务器时,由于目标功能要在终端执行,因此,可以由终端来基于语音识别文本确定出语音数据的请求完成度,也可以是终端将目标功能的执行过程中的一些执行参数发给服务器,由服务器来确定出请求完成度。
S104、当请求完成度表征目标请求达成时,利用语音数据和语音识别文本,生成语音语料。
当语料生成设备确定出请求完成度,并发现请求完成度表征的是目标请求已经达成时,语料生成设备明确其对语音数据的识别是正确的,此时,语音识别文本能够成为语音数据的标注文本。于是,语料生成设备就会将语音识别文本与语音识别文本整合起来,得到了具有标注文本的语音数据,即得到了经过标注的语音语料。如此,语料生成设备可以直接从语音数据中得到标注后的语音语料,从而不需要收集语音,然后再对收集到的语音逐个进行标注,大大减少了生成语音语料的时间,提高了生成语音语料的效率。
可以理解的是,在本申请的一些实施例中,语料生成设备可以直接将语音识别文本作为语音数据的标注,从而得到语音语料,也可以是先对语音识别文本进行处理,例如,进行音素转换、清洗等操作,将处理后的识别文本作为语音数据的标注,得到语音语料,本申请在此不作限定。
在本申请的一些实施例中,当语料生成设备分别实施为终端和服务器时,可以由终端确定出请求完成度表征目标请求达成时,利用语音数据和语音识别文本生成语音语料,还可以在由终端确定出请求完成度表征目标请求达成时,给服务器发送提示信息,然后服务器利用语音数据和语音识别文本生成语音语料。
本申请实施例中,语料生成设备能够先对语音数据进行语音识别,得到语音识别文本,并利用语音识别文本确定出目标功能,然后再目标功能的执行过程中,基于语音识别文本,确定出目标请求是否达成;当请求完成度为目标请求达成时,表明对语音数据对应的语音识别文本是正确的,从而可以直接利用语音数据和语音识别文本来生成经过标注的语音语料。如此,语料生成设备可以从用户的实际音频数据中得到语音语料,大大减少了生成语音语料,提高了语音语料的生成效率。
参见图5,图5是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图二。在本申请的一些实施例中,在执行目标功能的过程中,基于语音识别文本,确定出目标功能的请求完成度,即S103的具体实现过程,可以包括:S1031-S1033,如下:
S1031、从语音识别文本中解析出语音数据的目标领域对应的预定规则;预定规则用于判断目标功能的执行是否被打断。
由于不同的领域,用于判断目标请求是否达成的规则是不同的,即预定规则是不同的,因此,语料生成设备需要在目标功能的执行过程中,对语音识别文本进行解析,得到语音数据的目标领域,然后再基于目标领域获取到对应的预定规则,以便于后续利用预定规则来确定请求完成度。
需要说明的是,语料生成设备可以利用预定规则,来判断目标功能的执行是否被打断,从而判断出目标请求是否达成。这是因为,在实际情况中,若是目标功能就是语音数据实际请求的功能,使用对象是不会打断目标功能的执行的,也就说明目标请求已经被达成了;若是目标功能不是语音数据实际请求的功能,使用对象很有可能会通过某种方式打断目标功能的执行,并重新通过语音等开启其所需求的功能,此时,说明目标请求并没有被达成。
S1032、在执行目标功能的过程中,获取执行参数。
除了预定规则之外,还需要执行参数才能确定目标功能的请求完成度。于是,语料生成设备在目标功能的执行过程中,会获取目标功能所对应的执行参数。
可以理解的是,执行参数中可以包括目标功能的执行时间参数,例如目标功能的功能执行时间,还可以包括在目标功能执行过程中使用对象所触发的参数,例如,使用对象触发针对目标功能的操作语音、操作指令等,本申请实施例在此不做限定。
在本申请的一些实施例中,预定规则可以为基于预设好的执行时间确定请求完成度,也可以为基于语音数据确定请求完成度,还可以为基于其他设置好的规则确定请求完成度,本申请实施例在此不作限定。
S1033、基于执行参数和预定规则,确定出目标功能的请求完成度。
语料生成设备在得到执行参数和预定规则之后,就可以利用判断执行参数是不是满足预定规则,从而判断出目标请求是否达成,确定出目标功能的请求完成度。
本申请实施例中,语料生成设备能够在目标功能执行过程中,获取执行参数,并解析出语音数据的目标领域对应的预定规则,从而利用执行参数和预定规则确定出请求完成度,以便于后续利用请求完成度来得到语音语料,提供语音语料的生成效率。
在本申请的一些实施例中,预定规则为基于预设好的执行时间确定出请求完成度,执行参数包括功能执行时间;基于执行参数和预定规则,确定出目标功能的请求完成度,即S1033的具体实现过程,可以包括:S1033a与S1033b,或者是S1033a与S1033c,如下:
S1033a、将功能执行时间和预设好的执行时间进行比较,得到比较结果。
目标功能的执行是否被打断,可以通过预设好的功能执行时间来衡量。此时,语料生成设备会先利用获取到的功能执行时间,与获取到的预设好的执行时间进行比较,得到比较结果。
需要说明的是,比较结果表征功能执行时间是否大于预设好的执行时间,也就是说,语料生成设备是要寻找出功能执行时间和预设好的执行时间中较长的一个时间。
可以理解的是,预设好的执行时间可以设置为3分钟,也可以设置为5分钟,还可以根据需求设置为其他值,本申请实施例在此不作具体限定。
进一步的,预设好的执行时间可以根据目标功能的情况酌情设置,例如,当目标功能为播放音乐时,预设好的执行时间可以设置为1分钟,当目标功能为播放电视节目时,预设好的执行时间可以设置为3分钟。
S1033b、当比较结果表征功能执行时间小于等于预设好的执行时间时,确定目标功能的请求完成度为请求未达成。
当语料生成设备在得到比较结果之后,就会读取比较结果。当比较结果表明功能执行时间小于等于预设好的执行时间时,说明还没有达到预设好的执行时间,目标功能的执行就被使用对象打断了,此时,语料生成设备会认为目标功能并不是语音数据实际请求的功能,因此,会将请求完成度设置为请求未完成。
S1033c、当比较结果表征功能执行时间大于预设好的执行时间时,确定目标功能的请求完成度为所述请求达成。
当比较结果表明功能执行时间大于预设好的执行时间阈值时,说明使用对象并没有打断目标功能的执行,也就说明了目标功能确实是语音数据实际请求的功能,这时,语料生成设备会将请求完成度设置为请求达成。
需要说明的是,当使用对象在预设好的执行时间之后打断目标功能的执行时,并不会影响语料生成设备最终得到请求达成的结果。这是因为,虽然目标功能是语音数据实际所请求的功能,但是,在目标功能执行的后期,使用对象很可能具有一些其他需求,从而打断目标功能的执行。例如,当听歌手A的歌曲快要播放完成时,使用对象还想要听歌手C的歌曲,这时,使用对象有可能将歌手A的歌曲播放过程中断,利用语音指令进入到播放歌手C的播放过程中去。
本申请实施例中,语料生成设备将功能执行时间和预设好的执行时间进行比较,得到比较结果,然后依据比较结果确定出请求完成度应当是请求达成还是请求未达成。如此,语料生成设备就可以利用目标功能的功能执行时间确定出请求完成度,从而明确目标功能是否为使用对象实际所需的功能,进而便于后续判断出语音识别文本是否识别正确。
需要说明的是,在本申请的一些实施例中,语料生成设备可以根据目标功能的情况,对预设好的执行时间进行自适应调整。例如,目标功能为导航时,语料生成设备可以根据出发地和目的地的距离远近,来自动调整预设好的执行时间,当出发地和目的地的距离较远时,导航的时间也会较久,此时,语料生成设备可以将预设好的执行时间适当延长,例如,调整为20分钟,或者是30分钟等,从而使得预设好的执行时间更能适用于目标功能。
在本申请的一些实施例中,预定规则为基于操作语音数据确定出请求完成度,执行参数包括操作语音数据;基于执行参数和预定规则,确定出目标功能的请求完成度,即S1033的具体实现过程,可以包括:S1033d-S1033e,如下:
S1033d、对操作语音数据进行语音识别,得到操作识别结果;其中,操作识别结果表征是否中断目标功能的执行。
当预定规则为基于操作语音数据确定出请求完成度,执行参数为操作语音数据时,语料生成设备可以直接对操作语音数据进行识别分析,判断出操作语音数据所描述的是使用对象要继续执行目标功能,还是使用对象要中断目标功能,语料生成设备的判断结果,就是操作识别结果。也就是说,操作识别结果表明了使用对象是否要打断目标功能。其中,操作语音数据可以是由使用对象发出的,也可以是使用对象控制播放的机器合成语音。
需要说明的是,在本申请实施例中,操作识别结果可以为操作接续结果或操作中断结果。其中,操作中断结果是语料生成设备分析出使用对象明确要中断目标功能时得到的,例如,使用对象发出“别说话”、“停止播放音乐”或者是“不是这个电视节目”的语音时,语料生成设备对这些语音进行识别,就能够得到操作中断结果。也即,操作中断结果与针对目标功能的负面的语音密切相关。操作接续结果是语料生成设备分析出除使用对象明确要中断目标功能之外的其他意图时得到的,例如,使用对象发出“音乐声音大一点”、“电视声音小一点”的语音时,语料生成设备就会得到操作接续结果。
S1033e、依据操作识别结果,确定出目标功能的请求完成度。
语料生成设备在得到操作识别结果之后,就会具体分析操作识别结果表征的是使用对象要打断目标功能,还是使用对象要目标功能继续执行,从而确定出请求完成度,以便于后续利用请求完成度来判断语音识别文本是否正确。
本申请实施例中,语料生成设备可以对操作语音数据进行语音识别,判断出使用对象的是否要打断目标功能的执行,得到操作识别结果,然后依据操作识别结果来确定出请求完成度。如此,语料生成设备就可以利用操作语音数据确定出请求完成度,从而明确目标功能是否为语音数据实际所请求的功能,进而便于后续判断出语音识别文本是否识别正确。
在本申请的一些实施例中,操作识别结果为操作接续结果或操作中断结果;依据操作识别结果,确定出目标功能的请求完成度,即S1033e的具体实现过程,可以包括:S301或S302,如下:
S301、当操作识别结果为操作接续结果时,确定目标功能的请求完成度为请求达成。
其中,操作接续结果表征操作语音数据描述的请求为继续执行目标功能。
当语料生成设备所得到的操作识别结果为操作接续结果时,就会明确使用对象要继续执行目标功能,也即目标功能是语音数据实际所请求的功能,这时,语料生成设备就会将请求完成度设置为请求未达成。
S302、当操作识别结果为操作终端结果时,确定目标功能的请求完成度为请求未达成。
其中,操作中断结果表征操作语音数据描述的请求为结束目标功能。
当语料生成设备所得到的操作识别结果为操作中断结果时,就会明确使用对象是想要中断目标功能,从而明确目标功能不是语音数据实际所请求的功能,于是,语料生成设备就会将请求完成度设置为请求达成。
本申请实施例中,语料生成设备可以根据操作识别结果具体为操作接续结果还是操作中断结果,来设置请求完成度,以便于后续根据请求完成度来判断语音识别文本是否正确。
在本申请的一些实施例中,利用语音数据和所述语音识别文本,生成语音语料,即S104的具体实现过程,可以包括:S1041-S1042,如下:
S1041、对语音识别文本进行音素转换,得到语音数据对应的标注结果。
由于在语音识别中,是先将语音数据转换为发音序列,因此,在生成标注信息时,也应当是将语音数据转换为发音序列。在这种情况下,语料生成设备在生成语料数据时,首先会对语音识别文本进行音素转换,得到语音识别文本对应的发音序列,然后将发音序列作为语音数据对应的标注结果。如此,语料生成设备就得到了语音数据的标注结果。
可以理解的是,语音识别文本可以是由字符组成的,例如,由汉字组成,由英文组成等。语料生成设备进行音素转换所得到的标注结果,应当是与语音识别文本的字符所属的类型相对应的。例如,当语音识别文本由汉字组成时,标注结果就为声韵母序列,当语音识别文本由英文组成时,标注结果就为英文音标序列。
S1042、利用标注结果和语音数据,组成语音语料。
语料生成设备在得到标注结果之后,就会将标注结果和语音数据进行整合打包,将整合打包所得到的结果作为语音语料。如此,语料生成设备就得到了语音语料。
本申请实施例中,语料生成设备会先对语音识别文本进行音素转换,得到语音数据对应的标注结果,然后利用语音数据和标注结果组成语音语料。如此,语料生成设备就能够从使用对象实际使用语料生成设备的音频中,自动生成经过标注的语音语料,从而减少了生成语音语料所需要的时间,提高了语音语料的生成效率。
参见图6,图6是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图三。在本申请的一些实施例中,对语音数据进行语音识别,得到语音识别结果,即S102的具体实现过程,可以包括:S1021-S1023,如下:
S1021、利用声学模型将语音数据转换为发音序列;发音序列是由语音数据中所有音节组成的序列。
S1022、依据发音序列,确定出至少一个候选识别结果。
语料生成设备在进行语音识别时,会先从自身的存储空间中获取事先训练好的声学模型,然后将语音数据输入至声学模型中,利用声学模型将语音数据拆解为各个发音音节,然后将各个发音音节按照顺序组成发音序列。接着,语料生成设备会利用发音序列中的各个发音音节,或者是发音音节的组合,来确定出字符序列,所确定出的字符序列就是候选识别结果。由于利用一个发音音节,或者是一个发音音节的组合,所确定出的字符序列可能有多个,因此,语料生成设备对发音序列进行识别,能够确定出至少一个候选识别结果。
可以理解的是,候选识别结果可以为汉字组成的文本,也可以为英文字符组成的文本,还可以为其他语言组成的文本,本申请实施例在此不作限定。
S1023、从至少一个候选识别结果中,挑选出现概率最高的候选识别结果,作为语音识别文本。
当语料生成设备在得到至少一个候选识别结果之后,就会针对每个候选识别结果的出现的概率进行预测,从而得到每个候选识别结果的出现概率。接着,语料生成设备将每个候选识别结果的出现概率进行比较,从中选择出出现概率最大的候选识别结果,然后将该候选识别结果作为最终确定出的语音识别文本。如此,语料生成设备就完成了语音识别过程。
示例性的,本申请实施例提供了语音识别的过程示例图。参见图7,语料生成设备利用声学模型7-1对语音数据7-2进行识别,得到发音序列,即得到bo1 fang4 chen2 li4 de3 g e1 7-3。然后,语料生成设备利用发音序列,确定出了3个候选识别结果,分别为播放陈粒的歌7-4、播放陈丽的哥7-5和播放陈力的歌7-6。最后,语料生成设备从这3个候选识别结果分别预测出现概率,然后将出现概率最高的播放陈粒的歌7-4选择出来,作为最终的语音识别文本7-7。
本申请实施例中,语料生成设备能够先利用声学模型将语音数据转换为发音序列,然后依据发音序列确定出至少一个候选识别结果,最后从至少一个候选识别结果中挑选出现概率最高的语音识别结果。如此,语料生成设备就能够得到语音识别结果,从而便于后续利用语音识别结果分析出目标功能。
在本申请的一些实施例中,根据语音识别文本,确定出语音数据对应的目标功能,即S102的具体实现过程,可以包括:S1024-S1025,如下:
S1024、从语音识别文本中解析出语音数据的目标领域、目标意图,以及目标意图对应的槽位信息。
语料生成设备利用自然语音处理算法来对语音识别文本进行分析,对语音数据中的领域、意图进行抽取,得到目标领域和目标意图,然后,语料生成设备再根据目标意图所对应的槽位,从语音数据中抽取出槽位信息,以便于后续利用目标领域、目标意图和槽位信息确定出目标功能。
S1025、依据目标领域、目标意图和槽位信息,生成语音数据所对应的目标功能。
语料生成设备先利用目标领域和目标意图,确定出使用对象所请求的基本功能,例如,先根据使用对象听歌曲的意图,为使用对象确定出播放音乐的功能。然后,语料生成设备再结合槽位信息,将使用对象所请求的功能进一步细化,得到细化后的功能,例如,确定出使用对象具体要听哪个歌手的哪首歌曲等,此时,细化后的功能就是目标功能。
本申请实施例中,语料生成设备能够利用自然语言处理来确定出语音数据的目标领域、目标意图和槽位信息,然后基于上述所得到的信息确定出目标功能,以便于根据使用对象对目标功能的反应,来判断语音识别文本是否正确。
基于图3,参见图8,图8是本申请实施例提供的语音语料的生成方法的一个可选的流程示意图四。在本申请的一些实施例中,在利用语音数据和语音识别文本,生成语音语料之后,即在S104之后,该方法还可以包括:S105,如下:
S105、利用语音语料对获取到的声学模型进行优化,得到优化后的声学模型。
语料生成设备在得到经过标注的语音语料之后,可以将语音语料作为训练数据,来输入至已经训练好的生成模型中,从而利用语音语料来优化声学模型,得到优化后的声学模型。这样,声学模型的性能会越来越优秀,从而使得语音识别的准确率越来越高。
可以理解的是,本申请实施例中的声学模型可以是传统的GMM-HMM模型,也可以是结合深度学习的HMM-DNN模型,还可以是最新的RNN-T等模型,具体的声学模型可以根据实际情况进行设置,本申请实施例在此不作限定。
本申请实施例中,语料生成设备还可以利用语音语料来优化声学模型,得到优化后的声学模型,从而使声学模型的性能得到提高。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例是在利用用户与终端交互语音生成语料的场景下实现的。图9是本申请实施例提供的语音交互过程示例图,参见图9,当用户(使用对象)说出指令9-1(语音数据)时,云端(语料生成设备)对语音数据进行识别,得到语音识别文本9-2,即将用户语音识别为“我想听陈粒的XXXXX”。然后,云端会对语音识别文本9-2进行语义理解9-3,当云端能正确理解用户意图9-4,即得判断出用户想听歌,歌手是陈粒,歌曲是《XXXXX》时(目标功能),云端就会响应服务9-5,找到对应数据9-6,例如调用音乐服务器,找到这首歌,并将歌曲文件(目标功能对应的数据)下发给终端9-7,终端开始播放歌曲,会话结束9-8。在此期间,云端语音识别可能会出现错误,例如将“陈粒”识别为“陈丽”,导致语义理解后,调用音乐服务查询“陈丽”的《XXXXX》找不到这首歌曲,或者是没有对用户的意图正确理解时,云端会向终端下发提示用户重说9-9的信息,例如,向终端下发“对不起,没有找到陈丽的XXXXX,试试别的歌吧”的音频,以提示用户重新对终端说出另外一段话。
云端可以通过请求完成度来判断用户的语音是否被正确识别,请求完成度可以分成请求完成和请求未完成。例如,对于听歌的请求,如果能正确找打歌曲并播放,则为请求完成,否则就是未完成;同样的,对于看电视节目的请求,如果能正确找打节目并播放,就是请求完成,否则就是未完成;对于汽车导航,如果能够找到用户说出的地名,并执行导航,就是请求完成,否则就是请求未完成。
判断请求完成度的关键在于对用户请求目的的准确理解。请求完成度的判断流程如下:
S201、用户从终端上发起语音请求(语音数据)。
S202、终端将语音请求发送给云端,云端的语音识别模块(声学模型)将用户语音识别为文本(语音识别文本)。
S203、云端将识别出的文本传递给语言理解模型,判断用户请求的领域(目标领域)、意图(目标意图)、槽位(目标意图对应的槽位)等信息。
S204、云端通过语音理解模型对文本识别失败,则云端向终端返回“没听清您说的内容,请再说一遍”的提示。
S205、云端通过语音理解模型从文本中解析出领域、意图、槽位信息,根据领域、意图和槽位信息等,确定出用户请求的服务(目标功能)。
S206、云端利用用户请求的服务,找到请求的数据(目标功能对应的数据),下发给终端。
S207、终端接收到云端下发的数据之后,会开始执行用户请求的服务。例如,当用户请求的服务是音乐播放,则开始播放音乐,当用户请求的路线时导航,则开始进行导航。
S208、终端根据领域预定义的规则(目标领域对象的预定规则),判断请求完成度。
示例性的,针对用户操作的规则如表1所示:
表1
Figure BDA0002629969660000241
参见表1,当确定用户的请求属于音乐领域,意图是播放音乐时,规则可为音乐播放超过1分钟(功能执行时间超过预设好的功能时间),则请求完成,否则请求未完成;当确定用户的请求属于视频领域,意图是播放节目时,规则可为电视节目播放超过3分钟(功能执行时间超过预设好的功能时间),则请求完成,否则请求未完成;当确定用户的请求属于导航领域,意图是路线规划时,规则可为按照路线走了超过10分钟(功能执行时间超过预设好的功能时间),则请求完成,否则请求未完成;当确定用户的请求属于新闻领域,意图是播放新闻时,规则可为收听超过3分钟(功能执行时间超过预设好的功能时间),则请求完成,否则请求未完成;当确定用户的请求属于电话领域,意图是拨打电话时,规则可为电话接通超过15秒(功能执行时间超过预设好的功能时间),则请求完成,否则请求未完成。
可以理解的是,对于请求完成度的判断规则,还可以有其他配置,例如,导航中的“10分钟”可以根据距离远近来自动调整。对于一些其他领域和意图,还可以通过用户后续的语音(操作语音数据)进行判断,例如,用户用语音询问某地区明天的天气时,无法通过执行超过xx时间来判断,但是用户接着问了一句“那后天的呢”(操作接续结果),则可以判断前一句的识别是正确的,对应的请求完成。
S209、当终端判断出请求完成度为完成时,向云端发送用户的语音请求识别正确的提示,云端将识别文本作为语音请求的标注,进行对应存储。
示例性的,图10是本申请实施例提供的生成语料的过程示例图,参见图10,当用户向终端发出语音请求10-1,终端将语音请求发送到云端10-2,云端对语音请求进行语音识别、语义理解、服务查询后返回结果10-3,终端判断请求完成度,将发送语音生成提示给云端,以使云端保存语音请求和识别结果10-4。
需要说明的是,通过S201-S209,其实也无法保证识别100%准确,例如,在S202,存在对用户相同的歌曲识别错误,但是用户仍然听了这首歌超过1分钟的情况,这种情况会使得云端收集的语料字准率不会是100%。但是,在实际中,经过人工抽检,可以发现以利用上述方法所得到的语料的字准率超过98%,超过了商业语音识别语料集的准确率95%,因此,本申请实施例云端得到的语料,可以直接用于对声学模型进行训练。
通过上述方式,能够从用户与终端的实际交互语音来生成标注后的语音语料,避免了人工或机器对音频逐一进行标注,减少了生成语音语料的时间,提高了语音语料的生成效率。
下面继续说明本申请实施例提供的语料生成装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的语料生成装置555中的软件模块可以包括:
接收模块5551,用于当接收到功能指令时,响应于所述功能指令,接收语音数据;所述语音数据描述了目标请求;
功能模块5552,用于对所述语音数据进行语音识别,得到语音识别文本,并根据所述语音识别文本,确定出所述语音数据对应的目标功能;
完成度确定模块5553,用于在执行所述目标功能的过程中,基于所述语音识别文本,确定出所述目标功能的请求完成度;所述请求完成度用于表征所述目标请求是否达成;
语料生成模块5554,用于当所述请求完成度表征所述目标请求达成时,利用所述语音数据和所述语音识别文本,生成语音语料。
在本申请的一些实施例中,所述完成度确定模块5553,具体用于从所述语音识别文本中解析出所述语音数据的目标领域对应的预定规则;所述预定规则用于判断所述目标功能的执行是否被打断;在执行所述目标功能的过程中,获取执行参数;基于所述执行参数和所述预定规则,确定出所述目标功能的请求完成度。
在本申请的一些实施例中,所述功能模块5552,具体用于从所述语音识别文本中解析出所述语音数据的目标领域、目标意图,以及所述目标意图对应的槽位信息;依据所述目标领域、所述目标意图和所述槽位信息,生成所述语音所对应的目标功能。
在本申请的一些实施例中,所述预定规则为基于预设好的执行时间确定出所述请求完成度,所述执行参数包括功能执行时间;所述完成度确定模块5553,具体用于将所述功能执行时间和预设好的执行时间进行比较,得到比较结果;所述比较结果表征所述功能执行时间是否大于所述预设好的执行时间;当所述比较结果表征所述功能执行时间小于等于所述预设好的执行时间时,确定所述目标功能的所述请求完成度为请求未达成;当所述比较结果表征所述功能执行时间大于所述预设好的执行时间时,确定所述目标功能的所述请求完成度为所述请求达成。
在本申请的一些实施例中,所述预定规则为基于操作语音数据确定出所述请求完成度,所述执行参数包括操作语音数据;所述完成度确定模块5553,具体用于对所述操作语音数据进行语音识别,得到操作识别结果;其中,所述操作识别结果表征是否中断所述目标功能的执行;依据所述操作识别结果,确定出所述目标功能的所述请求完成度。
在本申请的一些实施例中,所述完成度确定模块5553,具体用于当所述操作识别结果为所述操作接续结果时,确定所述目标功能的所述请求完成度为所述请求达成;所述操作接续结果表征所述操作语音数据描述的请求为继续执行所述目标功能;当所述操作识别结果为所述操作中断结果时,确定所述目标功能的所述请求完成度为请求未达成;所述操作中断结果表征所述操作语音数据描述的请求为结束所述目标功能。
在本申请的一些实施例中,所述语料生成模块5554,具体用于对所述语音识别文本进行音素转换,得到所述语音数据对应的标注结果;利用所述标注结果和所述语音数据,组成所述语音语料。
在本申请的一些实施例中,所述功能模块5552,具体用于利用声学模型将所述语音数据转换为发音序列;所述发音序列是由所述语音数据中所有音节组成的序列;依据所述发音序列,确定出至少一个候选识别结果;从所述至少一个候选识别结果中,挑选出现概率最高的候选识别结果,作为所述语音识别文本。
在本申请的一些实施例中,所述语料生成装置555还包括:模型优化模块5555;
所述模型优化模块5555,用于利用所述语音语料对获取到的声学模型进行优化,得到优化后的声学模型。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的语音语料的生成方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行语料生成指令,当可执行语料生成指令被处理器执行时,将引起处理器执行本申请实施例提供的语音语料的生成方法,例如,如图3、图5、图6和图8示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行语料生成指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行语料生成指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行语料生成指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (10)

1.一种语音语料的生成方法,其特征在于,包括:
当接收到功能指令时,响应于所述功能指令,接收语音数据;所述语音数据描述了目标请求;
对所述语音数据进行语音识别,得到语音识别文本,并根据所述语音识别文本,确定出所述语音数据对应的目标功能;
在执行所述目标功能的过程中,基于所述语音识别文本,确定出所述目标功能的请求完成度;所述请求完成度用于表征所述目标请求是否达成;
当所述请求完成度表征所述目标请求达成时,利用所述语音数据和所述语音识别文本,生成语音语料。
2.根据权利要求1所述的方法,其特征在于,所述在执行所述目标功能的过程中,基于所述语音识别文本,确定出所述目标功能的请求完成度,包括:
从所述语音识别文本中解析出所述语音数据的目标领域对应的预定规则;所述预定规则用于判断所述目标功能的执行是否被打断;
在执行所述目标功能的过程中,获取执行参数;
基于所述执行参数和所述预定规则,确定出所述目标功能的请求完成度。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述语音识别文本,确定出所述语音数据对应的目标功能,包括:
从所述语音识别文本中解析出所述语音数据的目标领域、目标意图,以及所述目标意图对应的槽位信息;
依据所述目标领域、所述目标意图和所述槽位信息,生成所述语音数据所对应的所述目标功能。
4.根据权利要求2所述的方法,其特征在于,所述预定规则为基于预设好的执行时间确定出所述请求完成度,所述执行参数包括功能执行时间;
所述基于所述执行参数和所述预定规则,确定出所述目标功能的请求完成度,包括:
将所述功能执行时间和预设好的执行时间进行比较,得到比较结果;所述比较结果表征所述功能执行时间是否大于所述预设好的执行时间;
当所述比较结果表征所述功能执行时间小于等于所述预设好的执行时间时,确定所述目标功能的所述请求完成度为请求未达成;
当所述比较结果表征所述功能执行时间大于所述预设好的执行时间时,确定所述目标功能的所述请求完成度为所述请求达成。
5.根据权利要求2所述的方法,其特征在于,所述预定规则为基于操作语音数据确定出所述请求完成度,所述执行参数包括操作语音数据;
所述基于所述执行参数和所述预定规则,确定出所述目标功能的请求完成度,包括:
对所述操作语音数据进行语音识别,得到操作识别结果;其中,所述操作识别结果表征是否中断所述目标功能的执行;
依据所述操作识别结果,确定出所述目标功能的所述请求完成度。
6.根据权利要求5所述的方法,其特征在于,所述操作识别结果为操作接续结果或操作中断结果;所述依据所述操作识别结果,确定出所述目标功能的所述请求完成度,包括:
当所述操作识别结果为所述操作接续结果时,确定所述目标功能的所述请求完成度为所述请求达成;所述操作接续结果表征所述操作语音数据描述的请求为继续执行所述目标功能;
当所述操作识别结果为所述操作中断结果时,确定所述目标功能的所述请求完成度为请求未达成;所述操作中断结果表征所述操作语音数据描述的请求为结束所述目标功能。
7.根据权利要求1或2,4至6任一项所述的方法,其特征在于,所述利用所述语音数据和所述语音识别文本,生成语音语料,包括:
对所述语音识别文本进行音素转换,得到所述语音数据对应的标注结果;
利用所述标注结果和所述语音数据,组成所述语音语料。
8.根据权利要求1或2,4至6任一项所述的方法,其特征在于,在所述利用所述语音数据和所述语音识别文本,生成语音语料之后,所述方法还包括:
利用所述语音语料对获取到的声学模型进行优化,得到优化后的声学模型。
9.一种语料生成设备,其特征在于,包括:
存储器,用于存储可执行语料生成指令;
处理器,用于执行所述存储器中存储的可执行语料生成指令时,实现权利要求1至8任一项所述的语音语料的生成方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行语料生成指令,用于被处理器执行时,实现权利要求1至8任一项所述的语音语料的生成方法。
CN202010808289.5A 2020-08-12 2020-08-12 一种语音语料的生成方法、设备及计算机可读存储介质 Active CN111916088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010808289.5A CN111916088B (zh) 2020-08-12 2020-08-12 一种语音语料的生成方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010808289.5A CN111916088B (zh) 2020-08-12 2020-08-12 一种语音语料的生成方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111916088A true CN111916088A (zh) 2020-11-10
CN111916088B CN111916088B (zh) 2022-09-27

Family

ID=73284374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010808289.5A Active CN111916088B (zh) 2020-08-12 2020-08-12 一种语音语料的生成方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111916088B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420019A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的测试方法及装置
CN112735394A (zh) * 2020-12-16 2021-04-30 青岛海尔科技有限公司 一种语音的语义解析方法及装置
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113223559A (zh) * 2021-05-07 2021-08-06 北京有竹居网络技术有限公司 一种合成语音的评测方法、装置和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成***及其方法
CN103198828A (zh) * 2013-04-03 2013-07-10 中金数据***有限公司 语音语料库的构建方法和***
US20160093294A1 (en) * 2014-09-25 2016-03-31 Google Inc. Acoustic model training corpus selection
CN109949797A (zh) * 2019-03-11 2019-06-28 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
CN111178077A (zh) * 2019-12-26 2020-05-19 深圳市优必选科技股份有限公司 一种语料生成方法、语料生成装置及智能设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成***及其方法
CN103198828A (zh) * 2013-04-03 2013-07-10 中金数据***有限公司 语音语料库的构建方法和***
US20160093294A1 (en) * 2014-09-25 2016-03-31 Google Inc. Acoustic model training corpus selection
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
CN109949797A (zh) * 2019-03-11 2019-06-28 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN111178077A (zh) * 2019-12-26 2020-05-19 深圳市优必选科技股份有限公司 一种语料生成方法、语料生成装置及智能设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420019A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的测试方法及装置
CN112735394A (zh) * 2020-12-16 2021-04-30 青岛海尔科技有限公司 一种语音的语义解析方法及装置
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113223559A (zh) * 2021-05-07 2021-08-06 北京有竹居网络技术有限公司 一种合成语音的评测方法、装置和设备

Also Published As

Publication number Publication date
CN111916088B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US10803869B2 (en) Voice enablement and disablement of speech processing functionality
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN111916088B (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
US11676575B2 (en) On-device learning in a hybrid speech processing system
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
CN109686383B (zh) 一种语音分析方法、装置及存储介质
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
CN110047481A (zh) 用于语音识别的方法和装置
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
CN111710337B (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
JP2021022928A (ja) 人工知能基盤の自動応答方法およびシステム
CN115668359A (zh) 用于训练语音模型的语音合成的设备上个人化
CN111554284A (zh) 一种倒闸操作监控方法、装置、设备及存储介质
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN114330371A (zh) 基于提示学习的会话意图识别方法、装置和电子设备
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
CN109887490A (zh) 用于识别语音的方法和装置
CN111916062A (zh) 语音识别方法、装置和***
Stoyanchev et al. Localized error detection for targeted clarification in a virtual assistant
CN109377988B (zh) 用于智能音箱的交互方法、介质、装置和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant