CN112749556B - 多语言模型的训练方法和装置、存储介质和电子设备 - Google Patents

多语言模型的训练方法和装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112749556B
CN112749556B CN202010774741.0A CN202010774741A CN112749556B CN 112749556 B CN112749556 B CN 112749556B CN 202010774741 A CN202010774741 A CN 202010774741A CN 112749556 B CN112749556 B CN 112749556B
Authority
CN
China
Prior art keywords
vector
language
sentence
model
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010774741.0A
Other languages
English (en)
Other versions
CN112749556A (zh
Inventor
童丽霞
雷植程
杨念民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010774741.0A priority Critical patent/CN112749556B/zh
Publication of CN112749556A publication Critical patent/CN112749556A/zh
Application granted granted Critical
Publication of CN112749556B publication Critical patent/CN112749556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多语言模型的训练方法和装置、存储介质和电子设备。该方法包括:将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对待训练语言模型进行训练,得到预训练语言模型,多语言语料包为包括多种语言的语料包,多语言共享词汇表中存储了对多语言语料包进行分词得到的分词集合;使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对预训练语言模型进行调整,得到意图识别模型,其中,意图识别模型用于识别第一语言和第二语言的语句所表示的语义和语义之间的关系;将多种语言的语句输入意图识别模型,得到目标多语言模型,目标多语言模型用于识别多种语言的语句所表示的语义和语义之间的关系。

Description

多语言模型的训练方法和装置、存储介质和电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种多语言模型的训练方法和装置、存储介质和电子设备。
背景技术
随着AI技术的逐渐成熟,智能客服产品逐渐ToB化,统一对外提供服务平台。面对不同国籍、不同语种的客户,机器人需要正确的识别用户的意图。
目前,市面上的产品常用的方法是根据每种语言单独训练一个模型,但由于个别语种的语料比较少,会导致分类效果比较差,很难正确理解用户的意图。
针对相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种多语言模型的训练方法和装置、存储介质和电子设备,以至少解决相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。
根据本发明实施例的一个方面,提供了一种多语言模型的训练方法,包括:将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言;将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。
根据本发明实施例的另一方面,还提供了一种多语言模型的训练装置,包括:第一输入单元,用于将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;第一处理单元,用于使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言;第二处理单元,用于将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述多语言模型的训练方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述多语言模型的训练方法。
通过本发明,对多语言语料包进行分词得到多语言共享词汇表,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,然后使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,得到的该意图识别模型能够识别出第一语言和第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言,最后,将多种语言的语句输入到意图识别模型中,使得意图识别模型能够将对第一语言和第二语言进行意图识别的能力泛化到目标多语言模型上,从而得到目标多语言模型,得到的目标多语言模型能够识别出多种语言的语句所表示的语义和语义之间的关系。通过上述方式,通过带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对预训练语言模型进行调整,得到意图识别模型,使得该意图识别模型具备识别第一语言和上述第二语言的语句所表示的语义和语义之间的关系的能力,进而将多种语言的语句输入上述意图识别模型,得到目标多语言模型,使得目标多语言模型在没有分词标注的多种语言的语料集合训练下,也能够具备识别出多种语言的语句所表示的语义和语义之间的关系的能力,解决了相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种多语言模型的训练方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的多语言模型的训练方法的流程示意图;
图3是根据本发明实施例的另一种多语言模型的训练方法的应用环境的示意图;
图4是根据本发明实施例的另一种可选的多语言模型的训练方法的流程示意图;
图5是根据本发明实施例的又一种可选的多语言模型的训练方法的流程示意图;
图6是根据本发明实施例的一种可选的意图识别模型的结构示意图;
图7是根据本发明实施例的一种可选的多语言模型的训练装置的结构示意图;
图8是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例中涉及到的技术术语包括:
1、迁移学习:Transfer Learning是机器学习的分支,就是把为任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。
2、基于Transformer模型的双向编码表示(Bidirectional EncoderRepresentations for Transformer,简称Bert)。
3、TextCNN:是一种文本分类模型,将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。
4、Word2vec:是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
5、fine-tune:基于一个已经训练好的模型做一些子任务,相比从头开始训练,可以省去大量计算资源和计算时间,提高了计算效率,甚至是准确率。
根据本发明实施例的一个方面,提供了一种多语言模型的训练方法。可选地,上述多语言模型的训练方法可以但不限于应用于如图1所示的应用环境中。如图1所示,终端设备102将多语言语料包和多语言共享词汇表输入至待训练语言模型中,服务器104对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;服务器104使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言;服务器104将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。以上仅为一种示例,本申请实施例在此不作限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可选地,上述方法可以应用于人工智能的自然语言处理技术、机器学习/深度学习中,如智能客服产品对多种语言进行处理的场景中,本实施例在此不作任何限定。
需要说明的是,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
可选地,在本实施例中,上述终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,作为一种可选的实施方式,该方法可以由服务器执行,也可以由终端设备执行,或者由服务器和终端设备共同执行,本实施例中,以由服务器(例如,上述服务器104)执行为例进行说明。如图2所示,上述多语言模型的训练方法的流程可以包括步骤:
步骤S202,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合。
可选地,上述多语言语料包可以为英语、中文、印尼语、***语和土耳其语等几十种语言的语料包。
对多语言语料包进行预训练,得到一个公共的多语言的预训练语言模型,由于上述多语言共享词汇表为上述多种语言之间共享的一个词汇表,能够增强多语言的泛化能力。
步骤S204,使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言。
可选地,上述第一语言和第二语言可以为比较常见、且比较容易能够获取到对应的带分词标注的语料集合的语言,例如,上述第一语言可以为英语,上述第二语言可以为中文。
其中,上述多种语言是两个或者两个以上的语言,并且,该多种语言包括第一语言和第二语言,例如,上述多中语言可以为英语、中文、印尼语、***语和土耳其语等几十种语言,上述第一语言可以为英语,上述第二语言可以为中文。
可选地,可以使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型。
例如,使用已标注的中文和英文语料集对预训练语言模型进行调整,得到意图识别模型。
其中,意图识别模型用于对输入至意图识别模型的语句进行意图识别,意图识别的应用领域主要涉及以下几种场景,搜索引擎领域;对话***领域,基于意图识别了解用户想要什么,业务(例如,电商,买票,查询天气)或者闲聊;智能物联网领域;机器人领域。换言之,意图识别可以看做是一个分类问题,用于识别出用户输入的语句或者语音对应的用户的意图。例如,明天天气如何?那么,该语句或语音对应意图即为天气查询;休闲游戏有什么好的推荐吗?那么,该语句或语音对应意图即为游戏咨询。
步骤S206,将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。
可选地,将意图识别模型直接迁移多种语言中除了第一语言和第二语言之外的其他语言进行意图识别,使得其他语言在零样本的情况下也基本能使用,得到目标多语言模型,得到的目标多语言模型能够识别出多种语言的语句所表示的语义和语义之间的关系。
通过本实施例,对多语言语料包进行分词得到多语言共享词汇表,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,然后使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,得到的该意图识别模型能够识别出第一语言和第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言,最后,将多种语言的语句输入到意图识别模型中,使得意图识别模型能够将对第一语言和第二语言进行意图识别的能力泛化到目标多语言模型上,从而得到目标多语言模型,得到的目标多语言模型能够识别出多种语言的语句所表示的语义和语义之间的关系。通过上述方式,通过带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对预训练语言模型进行调整,得到意图识别模型,使得该意图识别模型具备识别第一语言和上述第二语言的语句所表示的语义和语义之间的关系的能力,进而将多种语言的语句输入上述意图识别模型,得到目标多语言模型,使得目标多语言模型在没有分词标注的多种语言的语料集合训练下,也能够具备识别出多种语言的语句所表示的语义和语义之间的关系的能力,解决了相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。
可选地,在本实施例中,在上述将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型之前,上述方法还包括:对上述多语言语料包进行分词,确定上述多语言语料包中每个词的词频;将词频大于或等于预设阈值所对应的分词集合,确定为上述多语言共享词汇表。
可选地,对多语言预料包进行分词,并确定出多语言语料包中每个词的词频,将词频大于或等于预设阈值对应的分词集合,确定为上述多语言共享词汇表。
例如,对多语言语料包进行分词后,计算每个词的词频,剔除频次小于预设阈值的词,将剩余的词整理为多语言共享词汇表。
通过本实施例,通过多语言共享词汇表,可以使多个语言之间共享词汇,提高了语言的泛化能力。
可选地,在本实施例中,在上述使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整之前,上述方法还包括:对于上述第一语料集合或者上述第二语料集合中的一个语句,执行以下步骤:对上述一个语句进行分词,得到上述一个语句对应的句向量,其中,上述句向量由N个分词向量组成,上述N个分词向量中的一个分词向量包括:上述一个分词向量对应的一个分词的词义信息、上述一个分词的位置信息,上述词义信息用于表示上述一个分词本身的含义,上述位置信息用于表示上述一个分词在上述一个语句中所处的位置,上述N为大于0的整数;将上述句向量输入至上述预训练语言模型中。
可选地,在通过第一语料集合和第二语料集合对预训练语言模型进行调整之前,还需要对第一语料集合或者第二语料集合中的一个语句,执行以下步骤:
需要对者一个语句进行分词,得到该一个语句对应的句向量,得到的句向量由N个分词向量组成,N个分词向量中的一个分词向量可以包括以下信息:一个分词向量对应的一个分词的词义信息、一个分词在对应的一个语句中的位置信息,其中,词义信息可以用来表示一个分词本身的含义,位置信息用于表示一个分词在上述一个语句中所处的位置,上述N为大于0的整数,最后,将得到的句向量输入至预训练语言模型中,对该预训练模型进行调整。
需要说明的是,以上介绍的是第一语料集合或者第二语料集合中的一个语句如何得到对应的句向量的过程,对于第一语料集合或者第二语料集合中其他的语句,均可以按照上述方式得到对应的句向量。
可选地,在本实施例中,上述使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,包括:将上述句向量对应的第一编码向量输入至文本分类模型中,其中,上述第一编码向量为对上述句向量进行编码后所得到的向量;对上述第一编码向量进行分类,得到上述第一编码向量中每个分词向量的第一分类标签;在上述第一语料集合和上述第二语料集合所包括的语句均已输入至上述预训练语言模型中、且得到上述第一语料集合和上述第二语料集合所包括的语句对应的第二分类标签的情况下,确定上述预训练语言模型已调整完成,得到上述意图识别模型。
可选地,对通过上述方式得到的句向量进行编码后可以得到该句向量对应的第一编码向量,将第一编码向量输入至文本分类模型中,对第一编码向量进行分类,得到上述第一编码向量中每个分词向量对应的第一分类标签。
将上述第一语料集合和上述第二语料集合所包括的语句全部输入至上述预训练语言模型中,得到第一语料集合和上述第二语料集合所包括的语句对应的多个第一编码向量,将多个第一编码向量输入至文本分类模型,得到第一语料集合和第二语料集合所包括的语句对应的第二分类标签时,表示对上述预训练语言模型的调整过程已完成,进而得到上述意图识别模型。
可选地,在本实施例中,在上述将上述句向量对应的第一编码向量输入至文本分类模型中之前,上述方法还包括:对上述句向量进行编码得到上述第一编码向量。
以下介绍对句向量进行编码得到上述第一编码向量的具体处理过程。
可选地,在本实施例中,上述对上述句向量进行编码得到上述第一编码向量,包括:对上述一个语句进行分词,得到上述一个语句对应的上述句向量X={w1,w2,…,wi},其中,i=1…N,上述wi为上述句向量中的第i个分词,上述w1为CLS,上述w1用于接收上述句向量的隐藏状态;对上述句向量X中的每个分词进行编码,得到上述句向量X对应的第二编码向量,其中,上述第二编码向量为XE={x1e1,x2e2,…,xiei},i=1…N,上述xiei∈Rd,上述d为向量维度,上述句向量X中的每个分词与上述第二编码向量中的每个向量一一对应;根据第i-1个分词和第i+1个分词对上述第i个分词对应的上述第二编码向量进行编码,得到上述第一编码向量,其中,上述第i-1个分词为上述第i个分词在上述一个语句中所处位置的前一个分词,上述第i+1个分词为上述第i个分词在上述一个语句中所处位置的后一个分词,上述第一编码向量为XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,上述句向量X中的每个分词与上述第一编码向量中的每个向量一一对应。
可选地,对上述一个语句进行分词,得到上述一个语句对应的句向量,具体可以为,对上述一个语句进行分词,得到X={w1,w2,…,wi},其中,上述X为上述句向量,i=1…N,上述wi为上述句向量中的第i个分词,上述w1为CLS,上述w1用于接收上述句向量的隐藏状态。
其中,第一个词w1始终是“[CLS]”,用于接收编码后生成的句向量的隐藏状态,方便模型做下游任务(如分类、实体抽取等)。
可选地,在得到句向量后,还需要对句向量进行进一步的转换,具体如下:
对句向量X={w1,w2,…,wi}中的每个分词进行编码,得到句向量X对应的第二编码向量XE={x1e1,x2e2,…,xiei},i=1…N,其中,xiei∈Rd,上述d表示向量维度,上述句向量X中的每个分词与上述第二编码向量中的每个向量一一对应。
可选地,在通过上述步骤得到第二编码向量之后,可以同时利用第i个词前面的词和后面的词两部分信息,将第i个词在整个输入语句中进行加权得到新的表征。
例如,可以根据第i-1个分词和第i+1个分词对上述第i个分词对应的第二编码向量进行编码,得到第一编码向量XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,上述句向量X中的每个分词与上述第一编码向量中的每个向量一一对应。
其中,在上述一个语句中,上述第i-1个分词是第i个分词所处位置的前一个分词,上述第i+1个分词是上述第i个分词在上述一个语句中所处位置的后一个分词。
通过本实施例,利用当前位置前面的词和后面的词两部分信息,将每个词在整个输入序列中进行加权得到新的表征,能够获取每个词更加丰富的含义,能够使最终对词的分类更加准确。
可选地,在本实施例中,在上述将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型之后,上述方法还包括:将目标语句输入至上述目标多语言模型;对上述目标语句进行分词,得到上述目标语句对应的目标句向量,其中,上述目标句向量包括多个目标分词向量;将上述目标句向量转化为上述目标句向量对应的第一目标编码向量;对上述第一目标编码向量进行编码,得到第二目标编码向量;将上述第二目标编码向量输入至文本分类模型中,对上述第二目标编码向量进行分类,得到上述第二目标编码向量中每个分词向量的目标分类标签。
可选地,上述目标语句可以上述多种语言中的任意一种语言的语句。
在得到目标多语言模型之后,可以使用训练好的目标多语言模型对目标语句进行分类,具体过程如下:
首先,将获取到的目标语句输入至上述目标多语言模型中,然后,对该目标语句进行分词,得到目标语句对应的目标句向量,其中,目标句向量包括多个目标分词向量;进一步地,将上述目标句向量转化为上述目标句向量对应的第一目标编码向量(d维向量),对上述第一目标编码向量进行编码,得到第二目标编码向量;将上述第二目标编码向量输入至文本分类模型中,对上述第二目标编码向量进行分类,得到上述第二目标编码向量中每个分词向量的目标分类标签。
在通过上述方式得到目标多语言模型之后,可以将该目标多语言模型在智能客服***中使用,该智能客服***可以理解为一种基于对话***的应用程序,该智能客服可以安装于机器人、终端设备(手机、笔记本电脑、平板电脑、掌上电脑、MID、PAD、台式电脑、智能电视等)中,对用户输入的语句或语音进行意图识别。其中,用户输入的语句或语音可以为英语、中文、印尼语、***语和土耳其语等几十种语言。
例如,如图3所示,用户向机器人或者终端设备中安装的客户端输入语句或者语音,智能客服将用户输入的语句或者语音发送给服务器,服务器对用户输入的语句或者语音进行意图识别,并输出相应的语句。可理解,图3以输入的语言是中文为例,但是,本实施中对输入的语言并不做任何限定。
通过本实施例,将多种语言中的任意一种语言的语句输入至训练好的目标多语言模型中,就能够得到目标语句的每个分词目标分类标签,上述目标多语言模型仅仅使用了带分词标注的第一语言和第二语言,即使用了较少的带分词标注的语料,避免了每种模型都要重新标注训练导致难维护且语料少而效果差的困境,能有效应对小语种语言的意图识别冷启动问题,极大地减少了人工标注成本。
需要说明的是,目前市面上智能客服产品对多语言的处理常用的方案是对每种语言进行标注,再分别用标注语料训练单独的语言模型,当客户接入服务平台时,首先需要配置一种语言,再为其分配该语言模型的机器人,如果需要多种语言进行服务,则需要配置多个不同语言的机器人,并对多个机器人单独运营。
上述方案存在以下缺点:
1、每种语言都需要标注足够的数据才能使模型达到比较好的效果,需要人工标注大量的语料,比较耗费人力;
2、服务平台每新增一种语言都要从0开始搭建一个模型,无法做到对新增语言的冷启动;
3、同时维护多种语言机器人,需要监控每个机器人的状态,运营成本比较高。
为了解决上述方案存在的缺点,下面结合可选示例对多语言模型的训练方法的流程进行说明。该方法具体如下:
如图4所示,为多语言模型的训练流程图,主要包括以下三个步骤:
步骤S301,收集多语言语料包,使用Bert对多语言语料包进行预训练,得到预训练语言模型。
可选地,收集英语、中文、印尼语、***语和土耳其语等几十种语言的语料包,使用Bert对语料包进行预训练得到一个公共的预训练语言模型,该预训练语言模型能够使多种语言之间共享一个词汇表,增强了语言的泛化能力。
步骤S302,使用中文和英文标注语料对预训练语言模型进行调整,得到意图识别模型。
可选地,可以使用中文和英文标注语料利用微调fine-tune方法对预训练语言模型进行调整,训练得到的意图识别模型。
需要说明的是,上述意图识别可以理解为通过分类的方法将句子分到相应的意图种类。
步骤S303,使意图识别模型的进行迁移学习,使意图识别模型能够将对中文和英文的意图识别能力直接应用到零样本的其他语言上,得到目标多语言模型。
可选地,通过迁移学习,使得意图识别模型实现了冷启动,无需大量标注样本,即可实现对其他语言的意图识别能力,极大的减少了人力。
步骤S304,多种语言共同维护目标多语言模型。
可选地,可以通过少量的多语言的标注语料来对目标多语言模型进行更新维护,避免了对多个机器人客服进行监听运维,同时只用单一模型也节省了内存。
需要说明的是,下述预训练过程可以采用500万中文普通话和粤语未标注语料进行预训练。
在一种可能的实施例中,在智能客服应用中,该平台已经支持某游戏产品Y在中文、英语这两种语言的意图识别能力,需要新增***语、土耳其语和俄语等多种语言的应用,如果按中英文机器人的设计方法,需要分别为其他语言从0开始预训练各自的词向量、再标注一套与中文、英文类似的语料集,训练单独的意图分类模型。但是,这种方案比较繁琐,周期比较长,无法快速上线,已有的相同知识结构无法被借鉴,可扩展性差。
以下详述一种基于迁移学习的多语言模型的训练方法,旨在让机器通过已有语言的知识学习到知识结构的深度表征,迁移到新语言上,新语言只需要标注少量数据就能得到很好的效果。详细流程设计如图5所示:
步骤S401,利用爬虫工具从***页面抓取***语、土耳其语、俄语等几十种语言文档集,对文档集进行筛选过滤,剔除无用数据,再结合近一年云智服服务过程中的所有中英文会话,组成多语言语料包。
步骤S402,对多语言语料包进行分词后,计算每个词的词频,剔除频次小于阈值的词,将剩余的词整理为多语言共享词汇表。
步骤S403,将步骤S401和步骤S402中得到的多语言语料包和多语言共享词汇表以非监督的方式输入到Bert Base模型中进行训练,得到多语言的预训练语言模型,其中,Bert Base模型可以包括12层,768个隐单元,12个Attention head,110M参数。在此不作限定。
步骤S404,用已标注的中文和英文语料集对步骤S403得到的预训练语言模型进行微调fine-tune,训练用于游戏Y的意图识别模型Model_Intent_cls。
步骤S405,利用通过中英文联合训练得到Model_Intent_cls的深度跨语言表征,将模型直接迁移游戏Y的其他语言版本进行意图识别,使得其他语言在零样本的情况下也基本能使用,达到冷启动的效果。
步骤S406,针对线上其他语言使用过程中模型识别不准的问题进行收集,标注少量数据fine-tune模型Model_Intent_cls,使得模型不断迭代更新,准确率不断提升。
需要说明的是,上述意图识别模型是采用Bert+TextCNN得到的,使用Bert获取词向量后,还需要进一步使用文本分类网络TextCNN进行文本分类,获取意图的多分类标签。
Bert+TextCNN的意图识别模型的框架如图6所示,具体如下:
(1)输入层
输入层主要有两个部分:词语本身的表示Word Embeddings和词的位置信息Position Embeddings。对用户输入语句X进行分词得到X={w1,w2,…,wi},其中,wi表示句子X的第i个词,第一个词始终是“[CLS]”,用于接收编码后生成的句向量的隐藏状态,方便模型做下游任务(如分类、实体抽取等)。对每个词进行Word Embedding后,得到XE={x1e1,x2e2,…,xiei},i=1…N,其中xiei∈Rd,d为向量维度维度
(2)编码层
在编码层中,经过Bert的双向Transformer编码,也就是同时利用当前位置前面的词和后面的词两部分信息,将每个词在整个输入序列中进行加权得到新的表征,同时借助随机选取语料中所有词的15%遮掩,增加不确定,提高模型的复杂度,词级别丰富的表征信息。
(3)分类层
将编码层经过Bert模型得到的丰富的词表征信息输入到TextCNN模型中,进行进一步的卷积池化后,获取更多的词与词之间的交互信息,得到最终的句向量final_sent_vec,再用softmax得到最终的意图多分类标签。
通过上述方式,分别使用中文、英文、中英文的语料集对预训练语言模型进行微调fine-tune训练,得到意图识别分类模型Model_Intent_cls,并使用Model_Intent_cls在中文、英文、***语、土耳其语、俄语、印尼语上进行了测试,每种语言测试集包括20个类别,每个类别10个句子,组成200个测试集,可以得到如下表所示的评测结果,通过实验发现在未参与微调fine-tune的语言上也有比较好的迁移效果。
表1
Figure BDA0002617967890000181
通过本实施例,上述基于迁移学习的目标多语言模型,使用共享词表和深度的跨语言表征,使中文和英文的模型能够迁移到其他语言中使用,避免了每种模型都要重新标注训练导致难维护且语料少而效果差的困境,能有效应对小语种语言的意图识别冷启动问题,极大地减少了人工标注成本;随着数据积累,由于预训练语言模型在预训练过程中已学习过不同语言的语义信息,具备较强的泛化能力,效果相比直接用这些数据重新训练的普通模型效果要好,在智能客服***中,当增加新的语言时,能够使用较短的时间实现对新的语言的意图识别,使增加了新语言的智能客服快速上线,提高了智能客服***的可扩展性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的又一方面,还提供了一种多语言模型的训练装置,如图7所示,该装置包括:
第一输入单元602,用于将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;
第一处理单元604,用于使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,其中,上述意图识别模型用于识别上述第一语言和上述第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言;
第二处理单元606,用于将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。
通过本实施例,对多语言语料包进行分词得到多语言共享词汇表,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,然后使用带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对上述预训练语言模型进行调整,得到意图识别模型,得到的该意图识别模型能够识别出第一语言和第二语言的语句所表示的语义和语义之间的关系,上述多种语言包括上述第一语言和上述第二语言,最后,将多种语言的语句输入到意图识别模型中,使得意图识别模型能够将对第一语言和第二语言进行意图识别的能力泛化到目标多语言模型上,从而得到目标多语言模型,得到的目标多语言模型能够识别出多种语言的语句所表示的语义和语义之间的关系。通过上述方式,通过带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合,对预训练语言模型进行调整,得到意图识别模型,使得该意图识别模型具备识别第一语言和上述第二语言的语句所表示的语义和语义之间的关系的能力,进而将多种语言的语句输入上述意图识别模型,得到目标多语言模型,使得目标多语言模型在没有分词标注的多种语言的语料集合训练下,也能够具备识别出多种语言的语句所表示的语义和语义之间的关系的能力,解决了相关技术中,在对不同国籍、不同语种的客户进行意图识别分类时,由于个别语种的语料较少,存在分类效果较差的问题。
作为一种可选的技术方案,上述装置还包括:第一确定单元,用于对上述多语言语料包进行分词,确定上述多语言语料包中每个词的词频;第二确定单元,用于将词频大于或等于预设阈值所对应的的分词,确定为上述多语言共享词汇表。
作为一种可选的技术方案,上述装置还包括:第三处理单元,用于对于上述第一语料集合或者上述第二语料集合中的一个语句,执行以下步骤:对上述一个语句进行分词,得到上述一个语句对应的句向量,其中,上述句向量由N个分词向量组成,上述N个分词向量中的一个分词向量包括:上述一个分词向量对应的一个分词的词义信息、上述一个分词的位置信息,上述词义信息用于表示上述一个分词本身的含义,上述位置信息用于表示上述一个分词在上述一个语句中所处的位置,上述N为大于0的整数;第二输入单元,用于将上述句向量输入至上述预训练语言模型中。
作为一种可选的技术方案,上述第一处理单元:包括:第一输入模块,用于将上述句向量对应的第一编码向量输入至文本分类模型中,其中,上述第一编码向量为对上述句向量进行编码后所得到的向量;第一处理模块,用于对上述第一编码向量进行分类,得到上述第一编码向量中每个分词向量的第一分类标签;第一确定模块,用于在上述第一语料集合和上述第二语料集合所包括的语句均已输入至上述预训练语言模型中、且得到上述第一语料集合和上述第二语料集合所包括的语句对应的第二分类标签的情况下,确定上述预训练语言模型已调整完成,得到上述意图识别模型。
作为一种可选的技术方案,上述装置还包括:第二处理模块,用于对上述句向量进行编码得到上述第一编码向量。
作为一种可选的技术方案,上述第二处理模块,包括:处理子模块,用于对上述一个语句进行分词,得到上述一个语句对应的上述句向量X={w1,w2,…,wi},其中,i=1…N,上述wi为上述句向量中的第i个分词,上述w1为CLS,上述w1用于接收上述句向量的隐藏状态;第一编码子模块,用于对上述句向量X中的每个分词进行编码,得到上述句向量X对应的第二编码向量,其中,上述第二编码向量为XE={x1e1,x2e2,…,xiei},i=1…N,上述xiei∈Rd,上述d为向量维度,上述句向量X中的每个分词与上述第二编码向量中的每个向量一一对应;第二编码子模块,用于根据第i-1个分词和第i+1个分词对上述第i个分词对应的上述第二编码向量进行编码,得到上述第一编码向量,其中,上述第i-1个分词为上述第i个分词在上述一个语句中所处位置的前一个分词,上述第i+1个分词为上述第i个分词在上述一个语句中所处位置的后一个分词,上述第一编码向量为XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,上述句向量X中的每个分词与上述第一编码向量中的每个向量一一对应。
作为一种可选的技术方案,上述装置还包括:第三输入单元,将目标语句输入至上述目标多语言模型;第四处理单元,用于对上述目标语句进行分词,得到上述目标语句对应的目标句向量,其中,上述目标句向量包括多个目标分词向量;第一编码单元,用于将上述目标句向量转化为上述目标句向量对应的第一目标编码向量;第二编码单元,用于对上述第一目标编码向量进行编码,得到第二目标编码向量;第五处理单元,用于将上述第二目标编码向量输入至文本分类模型中,对上述第二目标编码向量进行分类,得到上述第二目标编码向量中每个分词向量的目标分类标签。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;
S2,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;
S3,将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取器)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述多语言模型的训练方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图8所示,该电子设备包括存储器702和处理器704,该存储器702中存储有计算机程序,该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;
S2,将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对上述待训练语言模型进行训练,得到预训练语言模型,其中,上述预训练语言模型用于对上述多种语言的语料进行语义识别,上述多语言语料包为包括多种语言的语料包,上述多语言共享词汇表中存储了对上述多语言语料包进行分词得到的分词集合;
S3,将上述多种语言的语句输入上述意图识别模型,得到目标多语言模型,其中,上述目标多语言模型用于识别上述多种语言的语句所表示的语义和语义之间的关系。
可选地,本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图8中所示更多或者更少的组件(如网络接口等),或者具有与图8所示不同的配置。
其中,存储器702可用于存储软件程序以及模块,如本发明实施例中的多语言模型的训练方法和装置对应的程序命令/模块,处理器704通过运行存储在存储器702内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的多语言模型的训练方法。存储器702可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器702可进一步包括相对于处理器704远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例,如图8所示,上述存储器702中可以但不限于包括上述多语言模型的训练装置中的第一输入单元602,第一处理单元604、第二处理单元606。此外,还可以包括但不限于上述多语言模型的训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置706包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置706为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:连接总线708,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上上述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种多语言模型的训练方法,其特征在于,包括:
将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型,其中,所述预训练语言模型用于对多种语言的语料进行语义识别,所述多语言语料包为包括多种语言的语料包,所述多语言共享词汇表中存储了对所述多语言语料包进行分词得到的分词集合;
将带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合所包括的语句全部输入至所述预训练语言模型中,对所述预训练语言模型进行调整,得到意图识别模型,其中,所述意图识别模型用于识别所述第一语言和所述第二语言的语句所表示的语义和语义之间的关系,所述多种语言包括所述第一语言和所述第二语言;
将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型,其中,所述目标多语言模型用于识别所述多种语言的语句所表示的语义和语义之间的关系。
2.根据权利要求1所述的方法,其特征在于,在所述将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型之前,所述方法还包括:
对所述多语言语料包进行分词,确定所述多语言语料包中每个词的词频;
将词频大于或等于预设阈值所对应的分词集合,确定为所述多语言共享词汇表。
3.根据权利要求1所述的方法,其特征在于,在所述将带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合所包括的语句全部输入至所述预训练语言模型中,对所述预训练语言模型进行调整之前,所述方法还包括:
对于所述第一语料集合或者所述第二语料集合中的一个语句,执行以下步骤:
对所述一个语句进行分词,得到所述一个语句对应的句向量,其中,所述句向量由N个分词向量组成,所述N个分词向量中的一个分词向量包括:所述一个分词向量对应的一个分词的词义信息、所述一个分词的位置信息,所述词义信息用于表示所述一个分词本身的含义,所述位置信息用于表示所述一个分词在所述一个语句中所处的位置,所述N为大于0的整数;
将所述句向量输入至所述预训练语言模型中。
4.根据权利要求3所述的方法,其特征在于,所述将带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合所包括的语句全部输入至所述预训练语言模型中,对所述预训练语言模型进行调整,得到意图识别模型,包括:
将所述句向量对应的第一编码向量输入至文本分类模型中,其中,所述第一编码向量为对所述句向量进行编码后所得到的向量;
对所述第一编码向量进行分类,得到所述第一编码向量中每个分词向量的第一分类标签;
在所述第一语料集合和所述第二语料集合所包括的语句均已输入至所述预训练语言模型中、且得到所述第一语料集合和所述第二语料集合所包括的语句对应的第二分类标签的情况下,确定所述预训练语言模型已调整完成,得到所述意图识别模型。
5.根据权利要求4所述的方法,其特征在于,在所述将所述句向量对应的第一编码向量输入至文本分类模型中之前,所述方法还包括:
对所述句向量进行编码得到所述第一编码向量。
6.根据权利要求5所述的方法,其特征在于,所述对所述句向量进行编码得到所述第一编码向量,包括:
对所述一个语句进行分词,得到所述一个语句对应的所述句向量X={w1,w2,…,wi},其中,i=1…N,所述wi为所述句向量中的第i个分词,所述w1为CLS,所述w1用于接收所述句向量的隐藏状态;
对所述句向量X中的每个分词进行编码,得到所述句向量X对应的第二编码向量,其中,所述第二编码向量为XE={x1e1,x2e2,…,xiei},i=1…N,所述xiei∈Rd,所述d为向量维度,所述句向量X中的每个分词与所述第二编码向量中的每个向量一一对应;
根据第i-1个分词和第i+1个分词对所述第i个分词对应的所述第二编码向量进行编码,得到所述第一编码向量,其中,所述第i-1个分词为所述第i个分词在所述一个语句中所处位置的前一个分词,所述第i+1个分词为所述第i个分词在所述一个语句中所处位置的后一个分词,所述第一编码向量为XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,所述句向量X中的每个分词与所述第一编码向量中的每个向量一一对应。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型之后,所述方法还包括:
将目标语句输入至所述目标多语言模型;
对所述目标语句进行分词,得到所述目标语句对应的目标句向量,其中,所述目标句向量包括多个目标分词向量;
将所述目标句向量转化为所述目标句向量对应的第一目标编码向量;
对所述第一目标编码向量进行编码,得到第二目标编码向量;
将所述第二目标编码向量输入至文本分类模型中,对所述第二目标编码向量进行分类,得到所述第二目标编码向量中每个分词向量的目标分类标签。
8.一种多语言模型的训练装置,其特征在于,包括:
第一输入单元,用于将多语言语料包和多语言共享词汇表输入至待训练语言模型中,对所述待训练语言模型进行训练,得到预训练语言模型,其中,所述预训练语言模型用于对多种语言的语料进行语义识别,所述多语言语料包为包括多种语言的语料包,所述多语言共享词汇表中存储了对所述多语言语料包进行分词得到的分词集合;
第一处理单元,用于将带分词标注的第一语言的第一语料集合和带分词标注的第二语言的第二语料集合所包括的语句全部输入至所述预训练语言模型中,对所述预训练语言模型进行调整,得到意图识别模型,其中,所述意图识别模型用于识别所述第一语言和所述第二语言的语句所表示的语义和语义之间的关系,所述多种语言包括所述第一语言和所述第二语言;
第二处理单元,用于将所述多种语言的语句输入所述意图识别模型,得到目标多语言模型,其中,所述目标多语言模型用于识别所述多种语言的语句所表示的语义和语义之间的关系。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一确定单元,用于对所述多语言语料包进行分词,确定所述多语言语料包中每个词的词频;
第二确定单元,用于将词频大于或等于预设阈值所对应的分词集合,确定为所述多语言共享词汇表。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第三处理单元,用于对于所述第一语料集合或者所述第二语料集合中的一个语句,执行以下步骤:对所述一个语句进行分词,得到所述一个语句对应的句向量,其中,所述句向量由N个分词向量组成,所述N个分词向量中的一个分词向量包括:所述一个分词向量对应的一个分词的词义信息、所述一个分词的位置信息,所述词义信息用于表示所述一个分词本身的含义,所述位置信息用于表示所述一个分词在所述一个语句中所处的位置,所述N为大于0的整数;
第二输入单元,用于将所述句向量输入至所述预训练语言模型中。
11.根据权利要求10所述的装置,其特征在于,所述第一处理单元:包括:
第一输入模块,用于将所述句向量对应的第一编码向量输入至文本分类模型中,其中,所述第一编码向量为对所述句向量进行编码后所得到的向量;
第一处理模块,用于对所述第一编码向量进行分类,得到所述第一编码向量中每个分词向量的第一分类标签;
第一确定模块,用于在所述第一语料集合和所述第二语料集合所包括的语句均已输入至所述预训练语言模型中、且得到所述第一语料集合和所述第二语料集合所包括的语句对应的第二分类标签的情况下,确定所述预训练语言模型已调整完成,得到所述意图识别模型。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二处理模块,用于对所述句向量进行编码得到所述第一编码向量。
13.根据权利要求12所述的装置,其特征在于,所述第二处理模块,包括:
处理子模块,用于对所述一个语句进行分词,得到所述一个语句对应的所述句向量X={w1,w2,…,wi},其中,i=1…N,所述wi为所述句向量中的第i个分词,所述w1为CLS,所述w1用于接收所述句向量的隐藏状态;
第一编码子模块,用于对所述句向量X中的每个分词进行编码,得到所述句向量X对应的第二编码向量,其中,所述第二编码向量为XE={x1e1,x2e2,…,xiei},i=1…N,所述xiei∈Rd,所述d为向量维度,所述句向量X中的每个分词与所述第二编码向量中的每个向量一一对应;
第二编码子模块,用于根据第i-1个分词和第i+1个分词对所述第i个分词对应的所述第二编码向量进行编码,得到所述第一编码向量,其中,所述第i-1个分词为所述第i个分词在所述一个语句中所处位置的前一个分词,所述第i+1个分词为所述第i个分词在所述一个语句中所处位置的后一个分词,所述第一编码向量为XE={x1b1e1,x2b2e2,…,xibiei},i=1…N,所述句向量X中的每个分词与所述第一编码向量中的每个向量一一对应。
14.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN202010774741.0A 2020-08-04 2020-08-04 多语言模型的训练方法和装置、存储介质和电子设备 Active CN112749556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010774741.0A CN112749556B (zh) 2020-08-04 2020-08-04 多语言模型的训练方法和装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010774741.0A CN112749556B (zh) 2020-08-04 2020-08-04 多语言模型的训练方法和装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN112749556A CN112749556A (zh) 2021-05-04
CN112749556B true CN112749556B (zh) 2022-09-13

Family

ID=75645267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010774741.0A Active CN112749556B (zh) 2020-08-04 2020-08-04 多语言模型的训练方法和装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112749556B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657092A (zh) * 2021-06-30 2021-11-16 北京声智科技有限公司 识别标签的方法、装置、设备以及介质
CN115238708B (zh) * 2022-08-17 2024-02-27 腾讯科技(深圳)有限公司 文本语义识别方法、装置、设备、存储介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853703A (zh) * 2014-02-19 2014-06-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及***
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN111125331A (zh) * 2019-12-20 2020-05-08 京东方科技集团股份有限公司 语义识别方法、装置、电子设备及计算机可读存储介质
CN111382568A (zh) * 2020-05-29 2020-07-07 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备
CN111460164A (zh) * 2020-05-22 2020-07-28 南京大学 一种基于预训练语言模型的电信工单智能判障方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3616083A4 (en) * 2017-04-23 2021-01-13 Nuance Communications, Inc. MULTILINGUAL SEMANTIC ANALYZER BASED ON TRANSFERRED LEARNING
CN111563208B (zh) * 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853703A (zh) * 2014-02-19 2014-06-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN109388793A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及***
CN111125331A (zh) * 2019-12-20 2020-05-08 京东方科技集团股份有限公司 语义识别方法、装置、电子设备及计算机可读存储介质
CN111460164A (zh) * 2020-05-22 2020-07-28 南京大学 一种基于预训练语言模型的电信工单智能判障方法
CN111382568A (zh) * 2020-05-29 2020-07-07 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Classification of Traditional Chinese Medicine Cases based on Character-level Bert and Deep Learning;Zihao Song等;《2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC 2019)》;20191231;第1383-1387页 *
Language-agnostic BERT Sentence Embedding;Fangxiaoyu Feng等;《arXiv:2007.01852v1》;20200703;第1-12页 *
Multi-Language Neural Network Language Models;Anton Ragni等;《INTERSPEECH 2016》;20161231;第3042-3046页 *
基于增量式自学习策略的多语言翻译模型;周张萍等;《厦门大学学报(自然科学版)》;20190331;第58卷(第2期);第170-175页 *
面向自然语言处理的预训练技术研究综述;李舟军等;《计算机科学》;20200410(第03期);第162-173页 *

Also Published As

Publication number Publication date
CN112749556A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答***
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN114676234A (zh) 一种模型训练方法及相关设备
WO2022253074A1 (zh) 一种数据处理方法及相关设备
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
CN116543798A (zh) 基于多分类器的情感识别方法和装置、电子设备、介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN115934891A (zh) 问句理解方法及装置
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN110362734A (zh) 文本识别方法、装置、设备及计算机可读存储介质
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及***
CN115062123A (zh) 一种对话生成***的知识库问答对生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043540

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant