CN112488164A - 一种任务型对话文本增强*** - Google Patents

一种任务型对话文本增强*** Download PDF

Info

Publication number
CN112488164A
CN112488164A CN202011294635.9A CN202011294635A CN112488164A CN 112488164 A CN112488164 A CN 112488164A CN 202011294635 A CN202011294635 A CN 202011294635A CN 112488164 A CN112488164 A CN 112488164A
Authority
CN
China
Prior art keywords
training data
text
module
words
replacing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011294635.9A
Other languages
English (en)
Inventor
周昉昉
郑颖龙
刘佳木
赖蔚蔚
吴广财
郑杰生
林嘉鑫
叶杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electric Power Information Technology Co Ltd
Original Assignee
Guangdong Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electric Power Information Technology Co Ltd filed Critical Guangdong Electric Power Information Technology Co Ltd
Priority to CN202011294635.9A priority Critical patent/CN112488164A/zh
Publication of CN112488164A publication Critical patent/CN112488164A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的任务型对话文本增强***,涉及文本处理技术领域,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中,同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据;近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据;实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据;文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据,缓解了训练数据不足的问题,实现了进一步优化任务型对话***的性能。

Description

一种任务型对话文本增强***
技术领域
本发明涉及文本处理技术领域,具体涉及一种任务型对话文本增强***。
背景技术
任务型对话***旨在帮助用户完成实际具体的任务,例如帮助用户搜索音乐、预订航班或酒店等。
从架构上,任务型对话***主要包括自然语言理解模块、对话管理模块、自然语言生成模块。其中,自然语言理解模块主要用于意图识别模块和语义填充。对话管理模块主要用于对话状态跟踪和对话策略优化。自然语言生成模块主要通过模板配置即可实现。通常来说,一个任务型对话***包含多个意图。当用户输入一句话时,意图识别模块首先识别用户这句话中的意图是是什么。然后根据意图识别的结果,将这句话分配到对应意图的语义填充模块完成语义的序列标注。
数据增强通过扩大机器学习***中训练数据的大小来解决数据不足问题。数据增强在诸如图像分类、语音识别等领域得到了一些应用,但较少用在任务型对话领域。在构建任务型对话***的过程中,训练数据的稀缺一直是个问题,制约了任务型对话***的性能优化进程。
发明内容
为解决现有技术的不足,本发明实施例提供了一种任务型对话文本增强***,该***包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中:
所述同义词替换模块,用于用文本中各个词的同义词替换对应的词,生成第一训练数据;
所述近义词替换模块,用于用文本中各个词的近义词替换对应的词,生成第二训练数据;
所述实体替换模块,用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;
所述噪声注入模块,用于置空、交换、增加、删除文本的词,生成第四训练数据;
所述文本混合模块,用于混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据,得到第五训练数据。
优选地,所述文本混合模块,具体用于:
利用Mixup算法,混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据。
优选地,所述近义词替换模块还用于利用训练过的Word2Vec模型及训练过的GloVe模型,获取文本中各个词的近义词。
优选地,所述实体替换模块还用于,利用条件随机场CRF模型获取文本中的实体。
本发明实施例提供的任务型对话文本增强***,具有以下有益效果:
引入多种数据增强方案优化任务型对话***的自然语言理解,缓解了训练数据不足的问题,能够优化任务型对话***的性能。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明提供的实施例提供的任务型对话文本增强***,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中:
同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据。
作为一个具体的实施例,将文本“北大是我国一个美丽、优秀的高等学府”改为“北京大学是我国一个美丽、优秀的高等学府”。
近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据。
作为一个具体的实施例,将文本“我今天非常开心”改为“我今天非常高兴”。
实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据。
其中,实体主要包括人名、地名和机构名称。作为一个具体的实施例,将文本“我在上地信息产业基地上班”改为“我在中关村科技园区上班”,其中,上地信息产业基地属于中关村科技园区。
噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据。
其中,置空的
文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据。
可选地,文本混合模块具体用于:
利用Mixup算法,混合所述第一训练数据、所述第二训练数据、第三训练数据、第四训练数据。
其中,具体过程为随机抽取两个句子,将它们进行零填充,然后按一定比例组合,产生新的词表示然后传递下游的文本分类任务。
可选地,所述近义词替换模块还用于利用训练过的Word2Vec模型及训练过的GloVe模型,获取文本中各个词的近义词。
可选地,所述实体替换模块还用于,利用条件随机场CRF模型获取文本中的实体。
本发明实施例提供的任务型对话文本增强***,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中,同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据;近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据;实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据;文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据,缓解了训练数据不足的问题,实现了进一步优化任务型对话***的性能。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (4)

1.一种任务型对话文本增强***,其特征在于,包括:同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中:
所述同义词替换模块,用于用文本中各个词的同义词替换对应的词,生成第一训练数据;
所述近义词替换模块,用于用文本中各个词的近义词替换对应的词,生成第二训练数据;
所述实体替换模块,用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;
所述噪声注入模块,用于置空、交换、增加、删除文本的词,生成第四训练数据;
所述文本混合模块,用于混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据,得到第五训练数据。
2.根据权利要求1所述的任务型对话文本增强方法,其特征在于,所述文本混合模块,具体用于:
利用Mixup算法,混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据。
3.根据权利要求1所述的任务型对话文本增强方法,其特征在于,所述近义词替换模块还用于利用训练过的Word2Vec模型及训练过的GloVe模型,获取文本中各个词的近义词。
4.根据权利要求1所述的任务型对话文本增强方法,其特征在于,所述实体替换模块还用于,利用条件随机场CRF模型获取文本中的实体。
CN202011294635.9A 2020-11-18 2020-11-18 一种任务型对话文本增强*** Pending CN112488164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294635.9A CN112488164A (zh) 2020-11-18 2020-11-18 一种任务型对话文本增强***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294635.9A CN112488164A (zh) 2020-11-18 2020-11-18 一种任务型对话文本增强***

Publications (1)

Publication Number Publication Date
CN112488164A true CN112488164A (zh) 2021-03-12

Family

ID=74931733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294635.9A Pending CN112488164A (zh) 2020-11-18 2020-11-18 一种任务型对话文本增强***

Country Status (1)

Country Link
CN (1) CN112488164A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110263338A (zh) * 2019-06-18 2019-09-20 北京明略软件***有限公司 替换实体名称方法、装置、存储介质及电子装置
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110705257A (zh) * 2019-09-16 2020-01-17 腾讯科技(深圳)有限公司 媒体资源的识别方法、装置、存储介质及电子装置
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质
CN110956042A (zh) * 2019-12-16 2020-04-03 中国电子科技集团公司信息科学研究院 嵌套命名实体识别方法及***、电子设备及可读介质
CN111061847A (zh) * 2019-11-22 2020-04-24 中国南方电网有限责任公司 对话生成及语料扩充方法、装置、计算机设备和存储介质
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及***
CN111666751A (zh) * 2020-06-04 2020-09-15 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111753554A (zh) * 2020-06-28 2020-10-09 深圳前海微众银行股份有限公司 一种意图知识库的生成方法及装置
CN111930920A (zh) * 2020-09-30 2020-11-13 恒生电子股份有限公司 基于知识增强处理的faq相似度计算方法、装置及电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110263338A (zh) * 2019-06-18 2019-09-20 北京明略软件***有限公司 替换实体名称方法、装置、存储介质及电子装置
CN110516233A (zh) * 2019-08-06 2019-11-29 深圳和而泰家居在线网络科技有限公司 数据处理的方法、装置、终端设备以及存储介质
CN110705257A (zh) * 2019-09-16 2020-01-17 腾讯科技(深圳)有限公司 媒体资源的识别方法、装置、存储介质及电子装置
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质
CN111061847A (zh) * 2019-11-22 2020-04-24 中国南方电网有限责任公司 对话生成及语料扩充方法、装置、计算机设备和存储介质
CN110956042A (zh) * 2019-12-16 2020-04-03 中国电子科技集团公司信息科学研究院 嵌套命名实体识别方法及***、电子设备及可读介质
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及***
CN111666751A (zh) * 2020-06-04 2020-09-15 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111753554A (zh) * 2020-06-28 2020-10-09 深圳前海微众银行股份有限公司 一种意图知识库的生成方法及装置
CN111930920A (zh) * 2020-09-30 2020-11-13 恒生电子股份有限公司 基于知识增强处理的faq相似度计算方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JASON WEI 等: "EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks", 《ARXIV》, 25 August 2019 (2019-08-25), pages 1 - 9 *
李图图: "NLP中的数据增强", pages 1 - 11, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/272614460》> *
请叫我小逸啊: "NLP文本增强技术", pages 1 - 6, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/150850720》> *

Similar Documents

Publication Publication Date Title
US11106983B2 (en) Intelligent interaction method and intelligent interaction system
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN100530187C (zh) 搜索请求转换为查询语句的方法
CN109960815B (zh) 一种神经机器翻译nmt模型的创建方法及***
CN110991161B (zh) 相似文本确定方法、神经网络模型获得方法及相关装置
CN110020006A (zh) 查询语句的生成方法及相关设备
Goenaga et al. Automatic Misogyny Identification Using Neural Networks.
CN110737756A (zh) 确定针对用户输入数据的应答的方法、装置、设备和介质
CN112651226B (zh) 基于依存句法树的知识解析***及方法
CN112488164A (zh) 一种任务型对话文本增强***
CN110866085A (zh) 数据反馈方法与装置
CN111475503A (zh) 一种虚拟知识图谱构建方法及装置
Zhang Smarttable: equipping spreadsheets with intelligent assistancefunctionalities
CN114218924A (zh) 一种基于bert模型的文本意图及实体联合识别方法
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN113887234A (zh) 一种模型训练以及推荐方法及装置
CN110210030B (zh) 语句分析的方法及装置
Kroupa et al. Facets of the cone of totally balanced games
Karnik et al. A discussion on various methods in automatic abstractive text summarization
Brändle et al. Evaluation of Representation Models for Text Classification with AutoML Tools
Wang et al. Summarizing the differences from microblogs
Seo Opportunities and threats of generative AI technology
Patil et al. ML Suite: An Auto Machine Learning Tool
CN112579768A (zh) 一种情感分类模型训练方法、文本情感分类方法及装置
CN112560455A (zh) 一种数据的融合方法及相关***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination