CN113539245B - 语言模型自动训练方法及*** - Google Patents

语言模型自动训练方法及*** Download PDF

Info

Publication number
CN113539245B
CN113539245B CN202110757208.8A CN202110757208A CN113539245B CN 113539245 B CN113539245 B CN 113539245B CN 202110757208 A CN202110757208 A CN 202110757208A CN 113539245 B CN113539245 B CN 113539245B
Authority
CN
China
Prior art keywords
intention
language model
language
corpus
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110757208.8A
Other languages
English (en)
Other versions
CN113539245A (zh
Inventor
史彤
董鑫
初敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202110757208.8A priority Critical patent/CN113539245B/zh
Publication of CN113539245A publication Critical patent/CN113539245A/zh
Application granted granted Critical
Publication of CN113539245B publication Critical patent/CN113539245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语言模型自动训练方法。该方法包括:将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收语义泛化***基于期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;将自生成语料输入至语言模型训练***,对语言模型训练***训练的第一语言模型和/或第二语言模型自动发布。本发明实施例还提供一种应用于机器人定制***的语言模型自动训练***。本发明实施例利用自然语言生成中语义泛化生成的语料作为了语义识别语言模型训练的数据,泛化后一定程度上代表了说话人很可能说的话。可以自动化获得大量的代表了说话人的话语,准确率较高,从而使语音识别机器人回复更精准。

Description

语言模型自动训练方法及***
技术领域
本发明涉及智能语音领域,尤其涉及一种语言模型自动训练方法及***。
背景技术
智能语音对话***往往由ASR(Automatic Speech Recognition,自动语音识别)、NLU(Natural Language Processing,自然语言理解)、DM(Dialog Management,对话管理)、NLG(Natural Language Generation,自然语言生成)、TTS(Text To Speech,语音合成)五部分构成,有时还可能存在FAQ(Frequently Asked Questions,常见问答)。语音识别是智能语音对话***的第一个模块,语音识别的准确率直接影响到整个对话***的任务成功率。目前根据适用范围,语言模型的定义如下:
一路语言模型:通用的语音识别的语言模型,适用于广泛的对话***,如闲聊。
二路语言模型:面向不同行业场景的语音识别语言模型,适用于某一垂直行业的对话***,如金融行业、快递行业。
三路语言模型面向不同对话节点的语音识别语言模型,适用于有特定回复的对话节点,如表示确认、表示车牌号。
针对某一个场景的机器人,可配置二路语言模型增强ASR识别;针对机器人中某些节点,可以配置三路语言模型增强ASR识别。
离线针对特定的场景与节点增加对应可能回复语料训练与关联模型,在很大程度上可以提高语音机器人的语音识别准确性。模型训练往往是从语料收集开始,手动训练并绑定对应场景或节点。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
传统的二路、三路语言模型构建应用方法,往往需要人工手动整理大量语料,手动训练并关联至对应场景或节点。人工手动即有出错的可能性,且人工整理的语料往往会出现不够齐全的情况,需要反复多次训练。
人工整理语料并手动重复次数往往代表比较大的工作量,且不容易一次性将语料整理齐全,一般是在测试验证或线上环境发现某些错误识别的案例时,将其作为语料重复几次来训练模型。再次出现新的错误识别案例时再增加语料重新训练,并重新手动关联。以上流程往往是错误发生以后亡羊补牢的做法,没有在机器人定制过程中把强化模型应用上。
模型训练与对话定制在不同的***上,往往需要人工同时操作多个***,以上的调优流程不是标准化的生产的方式,测试验证的难度会有所增加,且对于机器人定制而言,工作量大小不易评估,且易重复单一工作,不断手动训练提高识别,效率较低,人工成本较大,且容易出错。
发明内容
为了至少解决现有技术中训练模型语料需求大、效率低的问题。
第一方面,本发明实施例提供一种语言模型自动训练方法,应用于机器人定制***,包括:
将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布。
第二方面,本发明实施例提供一种语言模型自动配置方法,应用于机器人定制***,包括:
将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置。
第三方面,本发明实施例提供一种应用于机器人定制***的语言模型自动训练***,包括:
自生成语料确定程序模块,用于将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
自训练程序模块,用于将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布。
第四方面,本发明实施例提供一种应用于机器人定制***的语言模型自动配置***,包括:
自生成语料确定程序模块,用于将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
自训练程序模块,用于将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
自关联程序模块,用于对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语言模型自动训练方法及自动配置方法的步骤。
第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的语言模型自动训练方法及自动配置方法的步骤。
本发明实施例的有益效果在于:利用自然语言生成中语义泛化生成的语料作为了语义识别语言模型训练的数据,由于智能语音机器人的期望意图列表代表了与其对话的人可能表达的意图,泛化后一定程度上代表了说话人很可能说的话。这样可以自动化获得大量的代表了说话人的话语,节约人工成本,同时准确率较高,从而使语音识别机器人对场景或节点特定回复具备更精准的语音识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种语言模型自动训练方法的流程图;
图2是本发明一实施例提供的一种语言模型自动训练方法的语言模型自动训练流程框图;
图3是本发明一实施例提供的一种语言模型自动配置方法的流程图;
图4是本发明一实施例提供的一种语言模型自动配置方法的对话节点话术编辑点击“三路模型训练”的示意图;
图5是本发明一实施例提供的一种语言模型自动配置方法的自动语音识别三路模型自动训练语料拉取示意图;
图6是本发明一实施例提供的一种语言模型自动配置方法的补充语料框输入补充语料示意图;
图7是本发明一实施例提供的一种语言模型自动配置方法的提交训练查看训练状态示意图;
图8是本发明一实施例提供的一种语言模型自动配置方法的自动训练完成并关联三路模型资源示意图;
图9是本发明一实施例提供的一种语言模型自动配置方法的场景设置点击“模型训练”拉取语料示意图;
图10是本发明一实施例提供的一种语言模型自动配置方法的自动语音识别二路模型训练弹窗,点击“选择语料”示意图;
图11是本发明一实施例提供的一种语言模型自动配置方法的语料列表中点击“生成语料”新建拉取任务示意图;
图12是本发明一实施例提供的一种语言模型自动配置方法的语料拉取任务执行中,刷新列表示意图;
图13是本发明一实施例提供的一种语言模型自动配置方法的补充语料框输入补充语料示意图;
图14是本发明一实施例提供的一种语言模型自动配置方法的提交训练并查看训练状态示意图;
图15是本发明一实施例提供的一种语言模型自动配置方法的自动训练完成并关联二路模型资源示意图;
图16是本发明一实施例提供的一种应用于机器人定制***的语言模型自动训练***的结构示意图;
图17是本发明一实施例提供的一种应用于机器人定制***的语言模型自动配置***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种语言模型自动训练方法的流程图,包括如下步骤:
S11:将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
S12:将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布。
在本实施方式中,本方法应用于机器人定制***,在机器人定制***增加自动训练二路三路语言模型的功能。二路模型会将整个机器人涉及到的可能回复作为全部NLU(Natural Language Processing,自然语言理解)自生成语料,训练时可选择性加入补充语料,发起模型训练,在训练完成时自动发布,并将机器人与语言模型相关联。三路模型会将对应的对话节点涉及到的可能回复作为全部自生成语料,训练时可选择加入补充语料,发起模型训练,在训练完成时自动发布。
对于步骤S11,机器人定制***主动从语义泛化***拉取语料,如图2所示,开发者准备好项目需求的期望意图列表,例如,针对不同的需求是要开发快递行业的语言模型,或是在某一对话中,需要用户标识确认的对话节点。开发者准备好期望意图列表后输入至机器人定制***,机器人定制***基于期望意图列表向语义泛化***拉取语料。
语义泛化***基于期望意图列表进行语料扩展,并且依据参数设置语料重复次数,从而得到语料文件。
作为一种实施方式,所述面向场景的第一语言模型的期望意图列表包括:机器人的业务意图以及机器人场景配置的知识库语句。
所述面向对话节点的第二语言模型的期望意图列表包括:当前节点的业务意图、全局对话的业务意图以及机器人场景配置的知识库问句。
所述第一语言模型包括二路语言模型,所述第二语言模型包括三路语言模型。
在本实施方式中,机器人定制***将期望意图列表发送至语义泛化***以获取该机器人场景或节点需要的语料文件。二路模型的期望意图列表包括:完整机器人的业务意图(如寄快递、查询快递信息、对公账户、撤销交易等)及机器人场景配置的完整知识库问句(如“怎么调节音量?”);三路模型的期望意图列表包括:当前节点的业务意图、全局对话意图及机器人场景配置的完整知识库问句。
作为一种实施方式,所述面向对话节点的第二语言模型的期望意图列表包括:当前节点的业务意图、全局对话的业务意图以及机器人场景配置的知识库问句。
在本实施方式中,语义泛化***根据期望意图列表自生成语料文件,不同的类型有不同的预料生成策略。
业务意图的分类有内置意图,内置意图的含义为***内置的算法意图,用于通用语义识别(一般由机器学习模型训练或正则规则实现),例如,上门取件、下调音量。策略为获取模型训练时的正向语料数据或扩写正则规则。业务意图的分类还有正则意图,含义为定制机器人时根据业务需求撰写的关键词或正则规则,同时可能会引用词典,例如:号码(错误|不对|错了|不正确|有误|有问题|不是)。策略为根据正则规则扩写语料,通配符根据位置做词性扩充(人称代词、动词等);词典中的内容会读取并加入在语料中。业务意图的分类还有相似度意图,含义为定制机器人时根据业务需求填写的相似语句,例如:这个号码不对呀。不应该是这个号码。策略为将全部相似语句作为语料的一部分。
知识库问句的分类有标准问句,含义为知识问答的标准问句。例如:怎么调节音量?策略为将标准问句作为语料的一部分。知识库问句的分类还有相似问句,含义为知识问答的扩展相似问句(含有完整句子及正则规则语句)。例如:思必驰语音通音量要怎么调节呀?/思必驰语音通音量太小怎么办?思必驰.*语音通.*音量。策略为将完整的相似问句作为语料的一部分,将正则语句扩写成完整语句。
以上全部可能的期望意图组合可能会出现数十亿次,因此还会根据句子出现的位置以及句子置信度进行筛选,最终得到一个数据量大小合适的训练集。由于二路三路语言模型是用于强化ASR识别,因此以上生成的语料会根据参数重复3-10遍,最终完成NLU自生成语料文件。
对于步骤S12,将自生成的语料文件发送至语言模型训练***进行模型训练,当自生成语料完备时,开发者可以选择提交训练,***便会即时向语言模型训练***提交任务,经过一段时间(一般为5-10分钟)的训练后,二路三路语言模型训练成功并会自动发布至线上可用状态。
通过该实施方式可以看出,利用自然语言生成中语义泛化生成的语料作为了语义识别语言模型训练的数据,由于智能语音机器人的期望意图列表代表了与其对话的人可能表达的意图,泛化后一定程度上代表了说话人很可能说的话。这样可以自动化获得大量的代表了说话人的话语,节约人工成本,同时准确率较高,从而使语音识别机器人对场景或节点特定回复具备更精准的语音识别。
作为一种实施方式,在所述接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料之后,所述方法还包括:
将所述自生成语料供开发者预览;
当语音识别有误的语料未包含在所述自生成语料中时,接收所述开发者输入的补充语料,基于所述补充语料对所述自生成语料进行补充。
在本实施方式中,考虑到由于语音识别有误的语料内容未包含在以上自生成的语料文件中,为了给予开发者补充的机会,在得到自生成语料后,为开发者提供自生成语料的预览。这样,当由于语音识别有误,使得生成中,本该生成的语料结果没生成出来,这就需要开发者来进行补充。开发者可以手动补充语料,并主动重复次数。利用补充后的语料进行语言模型训练。
通过该实施方式可以看出,为开发者提供浏览界面,同时也可以接收开发者补充的语料,辅助开发者针对自生成语料进行进一步的补充,从而使得机器人对场景或节点特定回复具备进一步精准的语音识别。
如图3所示为本发明一实施例提供的一种语言模型自动配置方法的流程图,包括如下步骤:
S21:将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
S22:将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
S23:对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置。
在本实施方式中,为了使语言模型更加自动化,在自动发布后,同时还会对将语言模型与对应的场景或对话节点自动关联,从而整体实现语言模型的自动配置。
作为一种实施方式,在配置界面中将所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联进行显示。
在所述自然语言生成配置界面中提供所述对话节点的话术的文本框以及三路模型训练按钮;
响应于开发者对所述三路模型训练按钮的点击,生成三路模型自动训练配置框,在所述三路模型自动训练配置框中提供基于期望意图列表生成的语料文件,以及补充语料的文本框;
响应于开发者对所述三路模型自动训练配置框中提交训练按钮的点击,进行三路模型训练,跳转回所述自然语言生成配置界面,当训练完成后,将所述对话节点与所述三路语言模型自动关联,用于识别回复所述话术的下轮语音,以完成对话机器人对话节点的自动配置。
在本实施方式中,在外呼的智能语音对话***中会询问电话接听者是否为本人,该对话在“确认身份”节点完成,用户可能会在该节点表示确认、否认、忙碌等意图。***将会对用户语音进行识别,再进行意图识别,最后根据意图标签进行对话节点的跳转。接下来,以确认身份节点三路模型的构建与应用过程为例,介绍对话节点层面的语言模型自动训练。
如图4所示,以“确认身份”节点为例,在界面中选择“三路模型训练”,如图5所示,三路模型自动训练配置框来展示拉取的语料。点击“点击查看语料内容”,查看智能生成的语料全部信息,信息可通过“下载”查看txt格式文本内容。
当开发者希望补充语料时,在“补充语料”输入框,手动补充待训练的语料内容,如图6所示,可以将业务实际未识别正确的语料内容填写上,并重复3次。
点击“提交训练”,三路语言模型训练任务即创建,如图7所示,当前状态显示“模型训练中”,点击“刷新”,可查看训练状态。如图8所示,完成后会自动关联该模型,且在“下轮ASR三路资源”处显示模型名称及对应ID。这样ASR三路语言模型的自动训练和关联就完成了,语音测试过程中,该语言模型会作用于语音识别,提升模型训练语料的识别准确性。
作为另一种实施方式,所述配置界面包括:面向场景的场景配置界面;
在所述场景配置界面中提供所述场景的二路模型训练按钮;
响应于开发者对所述二路模型训练按钮的点击,生成二路模型自动训练配置框,在所述二路模型自动训练配置框中提供基于期望意图列表生成的语料文件,以及补充语料的文本框;
响应于开发者对所述二路模型自动训练配置框中提交训练按钮的点击,进行二路模型训练,跳转回所述场景配置界面,当训练完成后,将所述场景与所述二路模型自动关联,用于识别所述场景下的对话语音,以完成对话机器人场景的自动配置。
在本实施方式中,展示机器人二路模型的自动构建与关联。智能语音机器人往往是与用户对话,完成对话任务,例如,在金融领域中,会涉及到大量金融、银行、征信相关的专有名词。***将会对用户语音进行识别,再进行意图识别,最后根据意图标签进行对话节点的跳转。为提升专有名词识别准确率,需配置场景维度的二路模型资源。接下来,以金融机器人二路模型的自动构建与关联为例,介绍基于NLU的二路模型自动训练。
为了拉取语料,如图9所示,在金融机器人的场景设置中,点击模型训练,打开模型训练页面。
点击“选择语料”,从已经拉取成功的语料列表中选择需要用于训练的语料,若列表为空,可以点击“生成语料”,新建语料拉取任务,任务执行过程中可以刷新列表查看状态。如图10所示,二路模型训练弹窗,点击“选择语料”,如图11所示,在语料列表,点击“生成语料”新建拉取任务,如图12所示,语料拉取任务执行中,可刷新列表查看。同样为开发者提供补充语料,选中智能生成的语料后,如图13所示的补充语料框输入补充语料,在“补充语料”输入框,手动补充待训练的语料内容,可以将业务实际未识别正确的语料内容填写上,并重复3次。
点击“提交训练”,二路语言模型训练任务即创建,如图14所示,当前状态显示“模型训练中”,点击“刷新”,可查看训练状态。如图15所示,完成后会自动关联该模型,且在“ASR二路模型”处显示模型名称及对应ID。这样ASR二路语言模型的自动训练和关联就完成了,语音测试过程中,该语言模型会作用于语音识别,提升模型训练语料的识别准确性。
如图16所示为本发明一实施例提供的一种应用于机器人定制***的语言模型自动训练***的结构示意图,该***可执行上述任意实施例所述的语言模型自动训练方法,并配置在终端中。
本实施例提供的一种应用于机器人定制***的语言模型自动训练***10包括:自生成语料确定程序模块11和自训练程序模块12。
其中,自生成语料确定程序模块11用于将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;自训练程序模块12用于将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语言模型自动训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语言模型自动训练方法。
如图17所示为本发明一实施例提供的一种应用于机器人定制***的语言模型自动配置***的结构示意图,该***可执行上述任意实施例所述的语言模型自动配置方法,并配置在终端中。
本实施例提供的一种应用于机器人定制***的语言模型自动配置***20包括:自生成语料确定程序模块21、自训练程序模块22和自关联程序模块23。
其中,自生成语料确定程序模块21用于将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;自训练程序模块22用于将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;自关联程序模块23用于对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语言模型自动配置方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;
将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语言模型自动配置方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语言模型自动训练、配置方法的步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种语言模型自动训练方法,应用于机器人定制***,包括:
将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;语义泛化***根据期望意图列表自生成语料文件,不同的意图类型有不同的语料生成策略;
将所述自生成语料供开发者预览;
当语音识别有误的语料未包含在所述自生成语料中时,接收所述开发者输入的补充语料,基于所述补充语料对所述自生成语料进行补充;
将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
所述期望意图列表包括:业务意图以及知识库问句,所述业务意图的类型包括:内置意图、正则意图;其中,所述内置意图的含义为***内置的算法意图,用于通用语义识别,策略为获取模型训练时的正向语料数据或扩写正则规则;所述正则意图的含义为定制机器人时根据业务需求撰写的关键词或正则规则,策略为根据正则规则扩写语料,通配符根据位置做词性扩充。
2.根据权利要求1所述的方法,其中,所述面向场景的第一语言模型的期望意图列表包括:机器人的业务意图以及机器人场景配置的知识库语句。
3.根据权利要求1所述的方法,其中,所述面向对话节点的第二语言模型的期望意图列表包括:当前节点的业务意图、全局对话的业务意图以及机器人场景配置的知识库问句。
4.根据权利要求2或3中任一项所述的方法,其中,所述业务意图的类型包括:相似度意图,所述知识库问句的类型包括:标准问句和相似问句。
5.根据权利要求1所述的方法,其中,所述第一语言模型包括二路语言模型,所述第二语言模型包括三路语言模型。
6.一种语言模型自动配置方法,应用于机器人定制***,包括:
将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;将所述自生成语料供开发者预览;当语音识别有误的语料未包含在所述自生成语料中时,接收所述开发者输入的补充语料,基于所述补充语料对所述自生成语料进行补充;语义泛化***根据期望意图列表自生成语料文件,不同的意图类型有不同的语料生成策略;
将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置;
所述期望意图列表包括:业务意图以及知识库问句,所述业务意图的类型包括:内置意图、正则意图;其中,所述内置意图的含义为***内置的算法意图,用于通用语义识别,策略为获取模型训练时的正向语料数据或扩写正则规则;所述正则意图的含义为定制机器人时根据业务需求撰写的关键词或正则规则,策略为根据正则规则扩写语料,通配符根据位置做词性扩充。
7.根据权利要求6所述的方法,其中,在所述对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联之后,所述方法还包括:
在配置界面中将所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联进行显示。
8.根据权利要求7所述的方法,其中,所述配置界面包括:面向对话节点的自然语言生成配置界面;
在所述自然语言生成配置界面中提供所述对话节点的话术的文本框以及三路模型训练按钮;
响应于开发者对所述三路模型训练按钮的点击,生成三路模型自动训练配置框,在所述三路模型自动训练配置框中提供基于期望意图列表生成的语料文件,以及补充语料的文本框;
响应于开发者对所述三路模型自动训练配置框中提交训练按钮的点击,进行三路模型训练,跳转回所述自然语言生成配置界面,当训练完成后,将所述对话节点与所述三路模型自动关联,用于识别回复所述话术的下轮语音,以完成对话机器人对话节点的自动配置。
9.根据权利要求7所述的方法,其中,所述配置界面包括:面向场景的场景配置界面;
在所述场景配置界面中提供所述场景的二路模型训练按钮;
响应于开发者对所述二路模型训练按钮的点击,生成二路模型自动训练配置框,在所述二路模型自动训练配置框中提供基于期望意图列表生成的语料文件,以及补充语料的文本框;
响应于开发者对所述二路模型自动训练配置框中提交训练按钮的点击,进行二路模型训练,跳转回所述场景配置界面,当训练完成后,将所述场景与所述二路模型自动关联,用于识别所述场景下的对话语音,以完成对话机器人场景的自动配置。
10.一种应用于机器人定制***的语言模型自动训练***,包括:
自生成语料确定程序模块,用于将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;将所述自生成语料供开发者预览;当语音识别有误的语料未包含在所述自生成语料中时,接收所述开发者输入的补充语料,基于所述补充语料对所述自生成语料进行补充;语义泛化***根据期望意图列表自生成语料文件,不同的意图类型有不同的语料生成策略;
自训练程序模块,用于将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
所述期望意图列表包括:业务意图以及知识库问句,所述业务意图的类型包括:内置意图、正则意图;其中,所述内置意图的含义为***内置的算法意图,用于通用语义识别,策略为获取模型训练时的正向语料数据或扩写正则规则;所述正则意图的含义为定制机器人时根据业务需求撰写的关键词或正则规则,策略为根据正则规则扩写语料,通配符根据位置做词性扩充。
11.一种应用于机器人定制***的语言模型自动配置***,包括:
自生成语料确定程序模块,用于将面向场景的第一语言模型和/或面向对话节点的第二语言模型的期望意图列表发送至语义泛化***,接收所述语义泛化***基于所述期望意图列表内的意图信息泛化成的代表说话人意图的自生成语料;将所述自生成语料供开发者预览;当语音识别有误的语料未包含在所述自生成语料中时,接收所述开发者输入的补充语料,基于所述补充语料对所述自生成语料进行补充;语义泛化***根据期望意图列表自生成语料文件,不同的意图类型有不同的语料生成策略;
自训练程序模块,用于将所述自生成语料输入至语言模型训练***,对所述语言模型训练***训练的第一语言模型和/或第二语言模型自动发布;
自关联程序模块,用于对所述第一语言模型和/或第二语言模型与对应的场景和/或对话节点自动关联,以实现语言模型的自动配置;
所述期望意图列表包括:业务意图以及知识库问句,所述业务意图的类型包括:内置意图、正则意图;其中,所述内置意图的含义为***内置的算法意图,用于通用语义识别,策略为获取模型训练时的正向语料数据或扩写正则规则;所述正则意图的含义为定制机器人时根据业务需求撰写的关键词或正则规则,策略为根据正则规则扩写语料,通配符根据位置做词性扩充。
CN202110757208.8A 2021-07-05 2021-07-05 语言模型自动训练方法及*** Active CN113539245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110757208.8A CN113539245B (zh) 2021-07-05 2021-07-05 语言模型自动训练方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110757208.8A CN113539245B (zh) 2021-07-05 2021-07-05 语言模型自动训练方法及***

Publications (2)

Publication Number Publication Date
CN113539245A CN113539245A (zh) 2021-10-22
CN113539245B true CN113539245B (zh) 2024-03-15

Family

ID=78126720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110757208.8A Active CN113539245B (zh) 2021-07-05 2021-07-05 语言模型自动训练方法及***

Country Status (1)

Country Link
CN (1) CN113539245B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268676A (ja) * 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 言語モデル生成装置及び音声認識装置
CN103165129A (zh) * 2011-12-13 2013-06-19 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及***
CN103198828A (zh) * 2013-04-03 2013-07-10 中金数据***有限公司 语音语料库的构建方法和***
WO2018157700A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 对话生成方法、装置及存储介质
CN109949797A (zh) * 2019-03-11 2019-06-28 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN110349569A (zh) * 2019-07-02 2019-10-18 苏州思必驰信息科技有限公司 定制化产品语言模型的训练和识别方法及装置
CN111339309A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 一种用户意图的语料扩展方法和***
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111933116A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质
CN111933118A (zh) * 2020-08-17 2020-11-13 苏州思必驰信息科技有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话***
KR20210016682A (ko) * 2019-08-05 2021-02-17 한국전자통신연구원 음성 인식 결과 오류 수정 장치 및 방법

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268676A (ja) * 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 言語モデル生成装置及び音声認識装置
CN103165129A (zh) * 2011-12-13 2013-06-19 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及***
CN103198828A (zh) * 2013-04-03 2013-07-10 中金数据***有限公司 语音语料库的构建方法和***
WO2018157700A1 (zh) * 2017-03-02 2018-09-07 腾讯科技(深圳)有限公司 对话生成方法、装置及存储介质
CN109949797A (zh) * 2019-03-11 2019-06-28 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN110349569A (zh) * 2019-07-02 2019-10-18 苏州思必驰信息科技有限公司 定制化产品语言模型的训练和识别方法及装置
KR20210016682A (ko) * 2019-08-05 2021-02-17 한국전자통신연구원 음성 인식 결과 오류 수정 장치 및 방법
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111339309A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 一种用户意图的语料扩展方法和***
CN111933116A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质
CN111933118A (zh) * 2020-08-17 2020-11-13 苏州思必驰信息科技有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话***

Also Published As

Publication number Publication date
CN113539245A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US10679613B2 (en) Spoken language understanding system and method using recurrent neural networks
CN111226224B (zh) 用于翻译语音信号的方法及电子设备
US20200175890A1 (en) Device, method, and graphical user interface for a group reading environment
WO2022078146A1 (zh) 语音识别方法、装置、设备以及存储介质
CN112819664A (zh) 用于学习外语的设备及使用其提供外语学习服务的方法
CN114830139A (zh) 使用模型提供的候选动作训练模型
WO2014151884A2 (en) Device, method, and graphical user interface for a group reading environment
KR102418558B1 (ko) 대화형 인공지능 아바타를 이용한 영어 말하기 교육 방법, 장치 및 이에 대한 시스템
CN111739519A (zh) 基于语音识别的对话管理处理方法、装置、设备及介质
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
Tomko et al. Towards efficient human machine speech communication: The speech graffiti project
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
CN113539245B (zh) 语言模型自动训练方法及***
CN114860910A (zh) 智能对话方法及***
KR20190070682A (ko) 강의 콘텐츠 구성 및 제공을 위한 시스템 및 방법
KR20190070683A (ko) 강의 콘텐츠 구성 및 제공을 위한 장치 및 방법
US20210142685A1 (en) Literacy awareness skills tools implemented via smart speakers and conversational assistants on smart devices
CN114462376A (zh) 基于rpa和ai的庭审笔录生成方法、装置、设备及介质
CN109891410A (zh) 用于新的会话对话***的数据收集
CN110222161B (zh) 对话机器人智能应答方法及装置
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
TWI752437B (zh) 基於至少雙音素的語音輸入操作方法及電腦程式產品
Patel et al. My Buddy App: Communications between Smart Devices through Voice Assist
KR102577643B1 (ko) 온라인 일대일 한국어 강의 플랫폼 시스템 및 이에 포함된 운영 서버
KR102684930B1 (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant