CN108962228A - 模型训练方法和装置 - Google Patents

模型训练方法和装置 Download PDF

Info

Publication number
CN108962228A
CN108962228A CN201810779487.6A CN201810779487A CN108962228A CN 108962228 A CN108962228 A CN 108962228A CN 201810779487 A CN201810779487 A CN 201810779487A CN 108962228 A CN108962228 A CN 108962228A
Authority
CN
China
Prior art keywords
text information
voice
voice data
information
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810779487.6A
Other languages
English (en)
Other versions
CN108962228B (zh
Inventor
戴俊
刘瑛
先永春
常月
黄国瑞
张伟冬
赵亚男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810779487.6A priority Critical patent/CN108962228B/zh
Publication of CN108962228A publication Critical patent/CN108962228A/zh
Application granted granted Critical
Publication of CN108962228B publication Critical patent/CN108962228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种模型训练方法和装置。该方法,包括:接收终端发送的语音数据;通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。该方法提高了语义模型输出结果准确度。

Description

模型训练方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种模型训练方法和装置。
背景技术
在涉及到语音和语义的人工智能应用场景中,除了需要训练语音模型,还需训练语义模型。比如用户通过语音输入一个命令,***不仅需要识别语音,还要根据该语音识别用户的意图,这种场景下就需要保证语音识别和语义识别都有很高的准确率。
现有技术中,一方面,通过人工听写的方式获取语音样本对应的文本,然后对该文本进行训练,得到语音模型;另一方面,在得到上述文本的基础上,通过人工方式对该文本进行语义标注,然后对标注后的文本进行训练,得到语义模型。在实际应用时,首先将待处理的语音输入上述语音模型,得到对应的文本,然后再将该文本输入上述语义模型中,获得用户通过上述待处理语音想要表达的意图。
但是,由于上述语义模型是在人工听写的“完美”文本的基础上训练得到的,而在实际应用过程中,输入该语义模型的是由语音模型输出的存在信息折损的文本,因此,现有技术中的语义模型在实际应用过程中,会由于输入信息的不对称而导致输出结果不准确。
发明内容
本发明提供一种模型训练方法和装置,用于提高语义模型输出结果准确度。
第一方面,本发明提供一种模型训练方法,包括:
步骤A:接收终端发送的语音数据;
步骤B:通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;
步骤C:接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;
步骤D:对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。
可选的,所述接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息之前,所述方法还包括:
将所述第一文本信息发送给所述终端。
可选的,所述对所述语音数据进行识别,获得第一文本信息之前,所述方法还包括:
对所述语音数据进行切分处理,获得至少一个语音片;
所述对所述语音数据进行识别,获得第一文本信息,包括:
分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;
将所述至少一个文本信息确定为所述第一文本信息。
可选的,所述语音数据包括至少两路音频数据;
所述对所述语音数据进行切分处理,获得至少一个语音片之前,包括:
对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;
所述对所述语音数据进行切分处理,获得至少一个语音片,包括:
对处理后的语音数据进行切分处理,获得至少一个语音片。
可选的,所述通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息,包括:
确定各所述语音片的起始时间;
根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;
将所述上下文信息作为所述第一文本信息。
可选的,所述得到第二语音识别模型之后,所述方法还包括:
将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。
第二方面,本发明提供一种模型训练装置,包括:
接收模块,用于接收终端发送的语音数据。
获取模块,用于通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;
所述接收模块,用于接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;
训练模块,用于对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。
可选的,所述装置,还包括:
发送模块,用于将所述第一文本信息发送给所述终端。
可选的,所述装置,还包括:
切片模块,用于对所述语音数据进行切分处理,获得至少一个语音片;
所述获取模块具体用于,分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;
将所述至少一个文本信息确定为所述第一文本信息。
可选的,所述语音数据包括至少两路音频数据;所述装置,还包括,处理模块;
所述处理模块,用于对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;
相应的,所述切片模块,具体用于对处理后的语音数据进行切分处理,获得至少一个语音片。
可选的,所述获取模块包括:确定单元和处理单元;
所述确定单元,用于确定各所述语音片的起始时间;
所述处理单元,用于根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;
将所述上下文信息作为所述第一文本信息。
可选的,所述装置,还包括:迭代模块;
所述迭代模块,用于将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。
第四方面,本发明提供一种服务器,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现上述模型训练方法。
本发明提供的模型训练方法,服务器在接收到终端发送的语音数据的基础上,首先通过第一语音识别模型能够对该语音数据进行识别,得到第一文本信息,然后接收用户输入的上述语音数据对应的第二文本信息和第一文本信息对应的语义信息,最后对该第二文本信息进行训练,得到第二语音识别模型,对语义信息进行训练,得到语义识别模型;使得在实际应用过程中,通过上述语义识别模型得到的语义信息准确度更高。
附图说明
图1为本发明提供的模型训练方法涉及到的***框架图;
图2为本发明提供的模型训练方法的实施例一的流程图;
图3为本发明提供的模型训练方法的实施例二的流程图;
图4为本发明提供的一路音频数据示意图;
图5为本发明提供的另一路音频数据示意图;
图6为本发明提供的处理后的语音数据示意图;
图7为本发明提供的模型训练装置的实施例一的结构示意图;
图8为本发明提供的模型训练装置的实施例二的结构示意图;
图9为本发明提供的服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,通过如下方式实现语音识别和语义识别:
第一步、获取语音模型,具体的,通过人工听写的方式获取语音样本对应的文本,然后对该文本进行训练,得到语音模型;
第二步、获取语义模型,具体的,在第一步通过人工听写的方式获取语音样本对应的文本的基础上,采用人工方式对该文本进行语义标注,然后对标注后的文本进行训练,得到语义模型。
第三步、在实际应用时,首先将待处理的语音输入上述语音模型,得到对应的文本,然后再将该文本输入上述语义模型中,获得该文本对应的语义,即用户通过上述待处理语音想要表达的意图。
但是,由于上述语义模型是在人工听写的“完美”文本的基础上训练得到的,而在实际应用过程中,输入该语义模型的是由语音模型输出的存在信息折损的文本,因此,现有技术中的语义模型在实际应用过程中,会由于输入信息的不对称而导致输出结果不准确。
本发明提供一种模型训练方法,通过将语音数据输入第一语音识别模型中,得到可能已经发生折损的第一文本信息,然后对该第一文本信息对应的语义信息进行训练得到语义模型,由于语义模型是基于可能已经发生折损的第一文本信息得到的,因此通过该方法得到的语义模型可以适应输入文本的折损,从而在实际应用时,即使输入该语义模型的是由语音模型输出的存在信息折损的文本,该语义模型也能输出准确度较高的语义信息。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明提供的模型训练方法涉及到的***框架图,如图1所示,本发明提供的***框架包括:终端和服务器;
其中,上述终端为模型训练过程中需要人工配合时,对应技术人员所操作的终端。可选的,终端可以是台式电脑、笔记本、个人数字助理(Personal Digital Assistant,简称:PDA)或者智能手机。上述服务器的类型可以是任何能够实现本发明中的模型训练方法的服务器类型。
图2为本发明提供的模型训练方法的实施例一的流程图,本实施例提供的方法应用于服务器,如图2所示,本实施例提供的模型训练方法,包括:
S101、接收终端发送的语音数据。
其中,语音数据为预先存储的语音样本,该语音样本可以为对双轨音频进行处理后得到人机对话音频。
S102、通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息。
其中,服务器接收到上述语音数据的基础上,将该语音数据输入第一语音识别模型中,以使第一语音识别模型对该语音数据进行识别,进而获得与该语音数据对应的第一文本信息。
和现有技术不同的是,现有技术是通过人工听写的方式获取语音数据对应的文本信息的,由于人是有判断能力的,在播放语音数据的过程中,人可以通过思考和判断准确地将语音数据记录为文本信息,也就是说,现有技术得到的文本信息几乎是“完美的”;而本实施例中是将语音数据输入第一语音识别模型得到第一文本信息的,而模型是不能将语音数据“完美”地转换为文本信息的,因此,本实施例得到的第一文本信息是有折损的。
S103、接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息。
其中,用户是指在模型训练过程中需要人工配合时的相关技术人员,技术人员在S101中通过终端将语音数据发送给服务器后,可将该语音数据人工转换为第二文本信息。
同时,服务器在通过S102得到第一文本信息后,可将该第一文本信息发送给技术人员的终端,以使技术人员对该第一文本信息进行标注,形成第一文本信息对应的语义信息。
技术人员得到上述第二文本信息和语义信息后,可通过终端将上述第二文本信息和语义信息发送给服务器。
S104、对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。
其中,服务器收到上述第二文本信息后,对该第二文本信息进行训练,得到第二语音识别模型;并且对上述语义信息进行训练得到语义识别模型。在实际使用上述语义识别模型进行语义识别时,将待处理的语音先输入上述第二语音识别模型中,得到该待处理语音对应的文本信息,然后将该文本信息输入上述语义识别模型中,便可得到该文本信息对应的语义信息。
以智能呼叫中心这个场景为例进行说明,在得到座席和客户两路的语音流的基础上,对该两路语音流进行处理,得到待处理语音,然后按照上述对待处理语音的处理方法,便可得到该处理语音对应的语义信息,进而便可得到客户的意图;智能呼叫中心在得到客户意图的前提下,便可根据客户的意图处理业务。
由S102可知,第一文本信息是第一语音模型对语音数据识别后输出的,并不是人工转换的,因此第一文本信息可能已经发生了折损,也就是说,本实施中的语义模型是基于可能已经发生折损的第一文本信息得到的,因此得到的语义模型可以适应输入文本的折损,从而在实际应用时,即使输入该语义模型的是由语音模型输出的存在信息折损的文本,该语义模型也能输出准确度较高的语义信息。
本实施例提供的模型训练方法,服务器在接收到终端发送的语音数据的基础上,首先通过第一语音识别模型能够对该语音数据进行识别,得到第一文本信息,然后接收用户输入的上述语音数据对应的第二文本信息和第一文本信息对应的语义信息,最后对该第二文本信息进行训练,得到第二语音识别模型,对语义信息进行训练,得到语义识别模型;使得在实际应用过程中,通过上述语义识别模型得到的语义信息准确度更高。
图3为本发明提供的模型训练方法的实施例二的流程图,本实施例是进一步对上述实施例中获取第一文本信息的一种可实现方式的描述,如图3所示,本实施例提供的模型训练方法,在S102之前,包括:
S201、对所述语音数据进行切分处理,获得至少一个语音片。
其中,语音数据可以为至少两路的音频数据,例如可以是双轨音频,当语音数据是至少两路的音频数据时,在上述切片处理之前,还包括:对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据。
下面对时间对齐处理的过程进行举例说明:
参见图4和图5所示,假设上述至少两路的音频数据为两路音频数据,其中,图4为其中一路的音频数据,图5为另一路的音频数据;为方便描述,下面将图4所示的音频数据称为第一路音频数据,图5所示的音频数据称为第二路音频数据。由图3可知,第一路音频中出现语音的时间段分别是:08:30:00-08:35:00、09:00:00-09:10:00和09:15:00-09:30:00;由图4可知,第二路音频出现语音的时间段是:08:38:00-08:50:00和09:12:00-09:14:00。将该两个音频数据进行时间对其处理后得到便可得到图6所示语音数据,即本实施例中的时间对齐处理指的是将两路音频按照语音出现的先后顺序进行组合。
相应的,S102具体可以包括:
S202、分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息。
S203、将所述至少一个文本信息确定为所述第一文本信息。
其中,在得到上述图6所示处理后的语音数据后,对该语音数据进行切片处理,获取至少一个语音片,以便后续通过第一语音识别模型对该至少一个语音片进行识别,获得至少一个文本信息。
继续参见图6所示,图6中有填充的时间段代表的是有语音产生的时间段,没有填充的时间段代表的是没有语音产生的时间,也就是说,该时间段为静音时间段;可选的,在对图6所示处理后的语音数据进行切片时,可将有语音产生的时间段保留,静音时间段切除。由此便可得到至少一个语音片。
在得到上述至少一个语音片的基础上,用该至少一个语音片获取第一文本信息的一种可实现的方式包括:
S204、确定各所述语音片的起始时间。
S205、根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息。
S206、将所述上下文信息作为所述第一文本信息。
其中,在得到上述至少一个语音片的基础上,对每个语音片采用第一语音识别模型进行识别,得到每一个语音片对应的文本信息,然后将该文本信息按照语音片的发生时间进行排序,从而得到两路音频对话的上下文信息,并将该上下文信息作为第一文本信息。
为了进一步提高语义模型输出结果的准确度,本实施例将S104得到的第二语音识别模型作为新的第一语音识别模型,然后重复S102-104,直至所述第一语音识别模型和所述第二语音识别模型相同。这样使得实际应用过程中,输入语义模型的文本信息和对该语义模型进行训练时使用的文本信息是对称的,进一步提高了实际应用过程中语义模型输出结果的准确度。
本实施例提供的模型训练方法,描述了获取第一文本信息的一种可实现的方式,这种方式可将至少两路音频数据中的语音对话还原,从而可使第一文本信息包含的有效信息更多,提高了第一文本信息的准确度。同时,通过对第一语音识别模型的不断迭代,使得实际应用过程中,输入语义模型的文本信息和对该语义模型进行训练时使用的文本信息是对称的,进一步提高了实际应用过程中语义模型输出结果的准确度。
图7为本发明提供的模型训练装置的实施例一的结构示意图,如图7所示,本实施例提供的模型训练装置,包括:
接收模块701,用于接收终端发送的语音数据。
获取模块702,用于通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;
所述接收模块701,用于接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;
训练模块703,用于对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。
本实施例提供的模型训练装置,可用于执行图2所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
图8为本发明提供的模型训练装置的实施例二的结构示意图,如图8所示,在上述实施例的基础上,本实施例提供的模型训练装置,还包括:
发送模块801,用于将所述第一文本信息发送给所述终端。
可选的,本实施例提供的模型训练装置,还包括:
切片模块802,用于对所述语音数据进行切分处理,获得至少一个语音片;
所述获取模块702具体用于,分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;
将所述至少一个文本信息确定为所述第一文本信息。
可选的,所述语音数据包括至少两路音频数据;所述装置,还包括,处理模块803;
所述处理模块803,用于对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;
相应的,所述切片模块802,具体用于对处理后的语音数据进行切分处理,获得至少一个语音片。
可选的,所述获取模块702包括:确定单元804和处理单元805;
所述确定单元804,用于确定各所述语音片的起始时间;
所述处理单元805,用于根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;
将所述上下文信息作为所述第一文本信息。
可选的,本实施例提供的模型训练装置,还包括:迭代模块806;
所述迭代模块806,用于将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。
本实施例提供的模型训练装置,可用于执行图3所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
图9为本发明提供的服务器的硬件结构示意图。如图9所示,本实施例的服务器可以包括:
存储器901,用于存储程序指令。
所述处理器902,用于在所述程序指令被执行时实现上述任一实施例描述的方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的模型训练方法。
本发明还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得服务器实施上述模型训练方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种模型训练方法,其特征在于,应用于服务器,包括:
步骤A:接收终端发送的语音数据;
步骤B:通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;
步骤C:接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;
步骤D:对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。
2.根据权利要求1所述的方法,其特征在于,所述接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息之前,所述方法还包括:
将所述第一文本信息发送给所述终端。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述语音数据进行识别,获得第一文本信息之前,所述方法还包括:
对所述语音数据进行切分处理,获得至少一个语音片;
所述对所述语音数据进行识别,获得第一文本信息,包括:
分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;
将所述至少一个文本信息确定为所述第一文本信息。
4.根据权利要求3所述的方法,其特征在于,所述语音数据包括至少两路音频数据;
所述对所述语音数据进行切分处理,获得至少一个语音片之前,包括:
对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;
所述对所述语音数据进行切分处理,获得至少一个语音片,包括:
对处理后的语音数据进行切分处理,获得至少一个语音片。
5.根据权利要求4所述的方法,其特征在于,所述通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息,包括:
确定各所述语音片的起始时间;
根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;
将所述上下文信息作为所述第一文本信息。
6.根据权利要求1所述的方法,其特征在于,所述得到第二语音识别模型之后,所述方法还包括:
将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。
7.一种模型训练装置,其特征在于,包括:
接收模块,用于接收终端发送的语音数据。
获取模块,用于通过第一语音识别模型对所述语音数据进行识别,获得第一文本信息;
所述接收模块,用于接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息;
训练模块,用于对所述第二文本信息进行训练,得到第二语音识别模型,并且对所述语义信息进行训练,得到语义识别模型。
8.根据权利要求7所述的装置,其特征在于,还包括:
发送模块,用于将所述第一文本信息发送给所述终端。
9.根据权利要求7或8所述的装置,其特征在于,还包括:
切片模块,用于对所述语音数据进行切分处理,获得至少一个语音片;
所述获取模块具体用于,分别对所述至少一个语音片中的每个语音片进行识别,获得至少一个文本信息;
将所述至少一个文本信息确定为所述第一文本信息。
10.根据权利要求9所述的装置,其特征在于,所述语音数据包括至少两路音频数据;所述装置,还包括,处理模块;
所述处理模块,用于对所述语音数据中的至少两路音频数据进行时间对齐处理,获得处理后的语音数据;
相应的,所述切片模块,具体用于对处理后的语音数据进行切分处理,获得至少一个语音片。
11.根据权利要求10所述的装置,其特征在于,所述获取模块包括:确定单元和处理单元;
所述确定单元,用于确定各所述语音片的起始时间;
所述处理单元,用于根据各所述起始时间和各所述语音片对应的文本信息,生成上下文信息;
将所述上下文信息作为所述第一文本信息。
12.根据权利要求7所述的装置,其特征在于,还包括,迭代模块;
所述迭代模块,用于将所述第二语音识别模型作为新的第一语音识别模型,并重复执行步骤B-步骤D,直至所述第一语音识别模型和所述第二语音识别模型相同。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
14.一种服务器,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来实现权利要求1-6任一项所述的方法。
CN201810779487.6A 2018-07-16 2018-07-16 模型训练方法和装置 Active CN108962228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810779487.6A CN108962228B (zh) 2018-07-16 2018-07-16 模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810779487.6A CN108962228B (zh) 2018-07-16 2018-07-16 模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN108962228A true CN108962228A (zh) 2018-12-07
CN108962228B CN108962228B (zh) 2022-03-15

Family

ID=64481300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810779487.6A Active CN108962228B (zh) 2018-07-16 2018-07-16 模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN108962228B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN111883112A (zh) * 2020-07-27 2020-11-03 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备
CN111951789A (zh) * 2020-08-14 2020-11-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040059577A1 (en) * 2002-06-28 2004-03-25 International Business Machines Corporation Method and apparatus for preparing a document to be read by a text-to-speech reader
US20120290299A1 (en) * 2011-05-13 2012-11-15 International Business Machines Corporation Translating Between Spoken and Written Language
CN104050160A (zh) * 2014-03-12 2014-09-17 北京紫冬锐意语音科技有限公司 一种机器与人工翻译相融合的口语翻译方法和装置
CN105210147A (zh) * 2014-04-22 2015-12-30 科伊基股份有限公司 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105374350A (zh) * 2015-09-29 2016-03-02 百度在线网络技术(北京)有限公司 语音标注方法及装置
CN105430537A (zh) * 2015-11-27 2016-03-23 刘军 对多路数据进行合成的方法、服务器及音乐教学***
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及***
CN106897268A (zh) * 2017-02-28 2017-06-27 科大讯飞股份有限公司 文本语义理解方法、装置和***
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN107657017A (zh) * 2017-09-26 2018-02-02 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN107679082A (zh) * 2017-08-31 2018-02-09 阿里巴巴集团控股有限公司 问答搜索方法、装置以及电子设备
CN107731228A (zh) * 2017-09-20 2018-02-23 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040059577A1 (en) * 2002-06-28 2004-03-25 International Business Machines Corporation Method and apparatus for preparing a document to be read by a text-to-speech reader
US20120290299A1 (en) * 2011-05-13 2012-11-15 International Business Machines Corporation Translating Between Spoken and Written Language
CN104050160A (zh) * 2014-03-12 2014-09-17 北京紫冬锐意语音科技有限公司 一种机器与人工翻译相融合的口语翻译方法和装置
CN105210147A (zh) * 2014-04-22 2015-12-30 科伊基股份有限公司 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN105374350A (zh) * 2015-09-29 2016-03-02 百度在线网络技术(北京)有限公司 语音标注方法及装置
CN105430537A (zh) * 2015-11-27 2016-03-23 刘军 对多路数据进行合成的方法、服务器及音乐教学***
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及***
CN106897268A (zh) * 2017-02-28 2017-06-27 科大讯飞股份有限公司 文本语义理解方法、装置和***
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107679082A (zh) * 2017-08-31 2018-02-09 阿里巴巴集团控股有限公司 问答搜索方法、装置以及电子设备
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN107731228A (zh) * 2017-09-20 2018-02-23 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置
CN107657017A (zh) * 2017-09-26 2018-02-02 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
R.SHANMUGAPRIYA等: "Speech recognition open source tools for the semantic identification of the sentence", 《2014 INTERNATIONAL CONFERENCE ON GREEN COMPUTING COMMUNICATION AND ELECTRICAL ENGINEERING (ICGCCEE)》 *
姜莹 等: "基于语音结构化模型的数字语音识别", 《计算机工程与设计》 *
欧建林 等: "潜在语义分析在连续语音识别中的应用", 《计算机工程与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110459224B (zh) * 2019-07-31 2022-02-25 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN111883112A (zh) * 2020-07-27 2020-11-03 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备
CN111883112B (zh) * 2020-07-27 2022-03-18 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备
CN111951789A (zh) * 2020-08-14 2020-11-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN111951789B (zh) * 2020-08-14 2021-08-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108962228B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
US20240135955A1 (en) Generating audio using neural networks
US11120801B2 (en) Generating dialogue responses utilizing an independent context-dependent additive recurrent neural network
CN107423363B (zh) 基于人工智能的话术生成方法、装置、设备及存储介质
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
US20220337538A1 (en) Customized message suggestion with user embedding vectors
CN107170453B (zh) 基于人工智能的跨语种语音转录方法、设备及可读介质
CN108962228A (zh) 模型训练方法和装置
CN112163067A (zh) 一种语句答复方法、语句答复装置及电子设备
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
US11431472B1 (en) Automated domain language parsing and data extraction
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN113646835B (zh) 联合自动语音识别和说话人二值化
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
CN117275466A (zh) 一种业务意图识别方法、装置、设备及其存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114118068B (zh) 训练文本数据的扩增方法、装置及电子设备
CN116686045A (zh) 在没有完整转录本的情况下的端到端口语理解
Menon et al. Deep learning based transcribing and summarizing clinical conversations
CN110633476B (zh) 用于获取知识标注信息的方法及装置
CN114925206A (zh) 人工智能体、语音信息识别方法、存储介质和程序产品
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质
Tran et al. Speech Recognizing Comparisons Between Web Speech API and FPT. AI API
CN109829163A (zh) 一种语音识别结果处理方法及相关装置
CN118351828A (zh) 基于人工智能的语音合成方法、装置、计算机设备及介质
JP4156273B2 (ja) 対話理解評価装置、対話理解評価プログラム、記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant