CN114385791A - 基于人工智能的文本扩充方法、装置、设备及存储介质 - Google Patents

基于人工智能的文本扩充方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114385791A
CN114385791A CN202210040654.1A CN202210040654A CN114385791A CN 114385791 A CN114385791 A CN 114385791A CN 202210040654 A CN202210040654 A CN 202210040654A CN 114385791 A CN114385791 A CN 114385791A
Authority
CN
China
Prior art keywords
text
keyword
expanded
initial
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210040654.1A
Other languages
English (en)
Inventor
李志韬
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210040654.1A priority Critical patent/CN114385791A/zh
Publication of CN114385791A publication Critical patent/CN114385791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能的文本扩充方法、装置、设备及存储介质,其中方法包括:从预先获取的待扩充文本中提取得到初始关键词元组;基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组;将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到;分别计算每个定向文本与待扩充文本之间的语义相似度;将语义相似度低于预设相似度阈值的定向文本剔除。本发明通过从待扩充文本中提取到初始关键词元组后,对初始关键词元组进行处理以得到多个目标关键词元组,再利用目标关键词元组生成定向文本,从而实现对文本进行有序地、定向地扩充。

Description

基于人工智能的文本扩充方法、装置、设备及存储介质
技术领域
本申请涉及基于人工智能的文本扩充领域,特别是涉及一种基于人工智能的文本扩充方法、装置、设备及存储介质。
背景技术
随着智能终端及网络技术的迅速发展,人们越来越习惯地使用智能终端完成各种需求。在人机交互场景中,语义解析是必不可少的一个环节,其主要通过分析用户输入的语音,了解用户的意图,并转换成机器能够理解的结构化数据格式。而在语义解析过程中,经常会采用深度学习模型来实现。
为了保证模型对语义实现的准确性,现代深度学习模型往往需要大量的标注数据来进行训练以达到准确实现文本语义的目的,而训练样本的标注过程则会消耗大量的人力和资源。目前,一个可行的方法是使用自回归的模型进行文本自动生成来制造大量的训练文本,但该方式生成的文本内容无法预知,以该无法预知的文本对深度学习模型训练则可能会导致模型的训练效果不佳,导致模型最终准确性下降。
发明内容
本申请提供一种基于人工智能的文本扩充方法、装置、设备及存储介质,以解决现有的文本扩充方法扩充的文本无法预知的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于人工智能的文本扩充方法,包括:从预先获取的待扩充文本中提取得到初始关键词元组;基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组;将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到;分别计算每个定向文本与待扩充文本之间的语义相似度;将语义相似度低于预设相似度阈值的定向文本剔除。
作为本发明的进一步改进,预先训练文本生成模型的步骤包括:获取训练样本文本,以及训练样本文本对应的初始训练关键词元组;基于预设规则对初始训练关键词元组进行处理,以得到与初始训练关键词元组存在区别的多个目标训练关键词元组;将多个目标训练关键词元组分别输入至待训练的文本生成模型中,以生成多个训练定向文本;根据多个训练定向文本、训练样本文本和预设的损失函数反向传播更新文本生成模型。
作为本发明的进一步改进,基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组,包括:对初始关键词元组中的关键词进行随机数量的同义词替换和/或进行随机数量的删减和/或进行排列位置顺序随机打乱,以得到多个目标关键词元组。
作为本发明的进一步改进,从预先获取的待扩充文本中提取得到初始关键词元组,包括:利用预先构建的分词器对待扩充文本进行分词,得到多个候选词和每个候选词的属性;根据属性,利用预设打分算法对多个候选词分别打分,得到打分结果;根据打分结果对多个候选词降序排序,并选择排在前预设数量个候选词构建初始关键词元组。
作为本发明的进一步改进,从预先获取的待扩充文本中提取得到初始关键词元组,包括:利用预先构建的分词器对待扩充文本进行分词,得到多个候选词;利用预先构建的关系词库对多个候选词中的关系词进行过滤,并利用剩余的候选词构建初始关键词元组。
作为本发明的进一步改进,从预先获取的待扩充文本中提取得到初始关键词元组之后,还包括:当初始关键词元组中的关键词数量低于预设数量阈值时,从预设的扩展关键词知识库中查询初始关键词元组中每个关键词的扩展关键词;将扩展关键词加入至初始关键词元组。
作为本发明的进一步改进,将扩展关键词加入至初始关键词元组之前,还包括:将扩展关键词和初始关键词元组中的关键词输入至文本生成模型,得到扩展文本;计算扩展文本与待扩充文本的语义相似度;判断语义相似度是否高于预设相似度阈值;若是,则允许执行将扩展关键词加入至初始关键词元组的步骤。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种基于人工智能的文本扩充装置,包括:提取模块,用于从预先获取的待扩充文本中提取得到初始关键词元组;处理模块,用于基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组;生成模块,用于将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到;计算模块,用于分别计算每个定向文本与待扩充文本之间的语义相似度;剔除模块,用于将语义相似度低于预设相似度阈值的定向文本剔除。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机设备,计算机设备包括处理器、与处理器耦接的存储器,存储器中存储有程序指令,程序指令被处理器执行时,使得处理器执行如上述中任一项基于人工智能的文本扩充方法的步骤。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述基于人工智能的文本扩充方法的程序指令。
本申请的有益效果是:本申请的基于人工智能的文本扩充方法通过提取待扩充文本中的关键词所组成的初始关键词元组后,对该初始关键词元组按预设规则进行处理,从而得到多个目标关键词元组,再利用多个目标关键词元组生成多个扩充得到的定向文本,其由于目标关键词元组与初始关键词元组之间存在区别,从而使得根据目标关键词元组生成的定向文本与待扩充文本并不会完全相同,目标关键词元组与初始关键词元组之间仍然还具有较多的相同关键词,从而使得生成的定向文本与待扩充文本之间的语义较为相近,并且,还根据文本之间的相似度对定向文本进行过滤,删除语义偏差较大的定向文本,从而实现了对扩充的文本的控制,而不是随意的生成文本。
附图说明
图1是本发明第一实施例的基于人工智能的文本扩充方法的流程示意图;
图2是本发明第二实施例的基于人工智能的文本扩充方法的流程示意图;
图3是本发明实施例的基于人工智能的文本扩充装置的功能模块示意图;
图4是本发明实施例的计算机设备的结构示意图;
图5是本发明实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的基于人工智能的文本扩充方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:从预先获取的待扩充文本中提取得到初始关键词元组。
需要理解的是,关键词是能够表达文档中心内容的词语,其在很大程度上能够反映一段文本所要表达的语义,因此,本实施例中,为了实现对待扩充文本进行定向扩充,可在待扩充文本所提取的关键词元组上进行处理,使得处理后的关键词元组可以生成与待扩充文本不完全相同的定向文本,两者因为关键词上存在较大的重复性,因此,最终生成的文本的语义较为接近,从而实现定向控制。
具体地,在步骤S101中,在对待扩充文本进行扩充之前,需要从待扩充文本中提取出所有关键词,然后利用所有关键词组合成一个初始关键词元组。其中,在对训练深度学习模型的样本文本进行扩充时,该待扩充文本为已经标注好的训练样本。
本实施例中,为了降低人工标注训练集合的成本,在进行关键词提取时,采用无监督的关键词提取方式来实现。无监督方法不需要人工标注训练集合的过程,通过发现文本中比较重要的词作为关键词,进行关键词提取,因此更加快捷。相较于有监督的关键词提取方式而言,其没有人工标注的成本。因此,在一些实施例中,步骤S101具体包括:
1、利用预先构建的分词器对待扩充文本进行分词,得到多个候选词和每个候选词的属性。
具体地,在获取到用户想要进行扩充的待扩充文本后,可以使用NLP算法对该待扩充文本进行分词,也可使用特征模板提取算法对该待扩充文本进行分词,从而得到多个候选词和每个候选词的属性。需要理解的是,从待扩充文本中提取出的词中包括了必要的关键词和非必要的关键词,非必要的关键词在文本中并不具备特殊的语义,其作用可能是实现文本的连贯性,此类关键词不需参与到本申请的关键词处理过程中,因此,本实施例中,在提取关键词时,先将所有的关键词作为候选词。
2、根据属性,利用预设打分算法对多个候选词分别打分,得到打分结果。
需要说明的是,该预设打分算法包括TD-IDF算法、TextRank算法、LDA算法中的一种。其中,TD-IDF算法是基于统计特征的关键词提取算法,基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;TextRank算法是基于词图模型的关键词提取算法,基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;LDA算法是基于主题模型的关键词提取算法,基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。
3、根据打分结果对多个候选词降序排序,并选择排在前预设数量个候选词构建初始关键词元组。
具体地,在得到所有候选词的打分后,将所有候选词按照分数从高至低降序排序,然后从中选取排列在前预设数量个候选词作为最终的关键词,再利用这些关键词构建初始关键词元组。
进一步的,在一些实施例中,步骤S101还具体包括:
1、利用预先构建的分词器对待扩充文本进行分词,得到多个候选词。
2、利用预先构建的关系词库对多个候选词中的关系词进行过滤,并利用剩余的候选词构建初始关键词元组。
具体地,一段文本主要包括有关键词和将关键词串联成句的关系词,例如,“是”、“的”、“一个”等词汇,这些关系词并不具备特定的语义,为了降低关系词对文本扩充时的影响,本实施例中,在得到多个候选词后,利用预先构建的关系词库对多个候选词进行过滤操作,从而过滤掉多个候选词中的关系词。
步骤S102:基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组。
需要理解的是,文本生成模型在生成模型时是根据关键词来生成的,因此,当关键词不同时,其生成的文本也不同。因此,本实施例中,在得到待扩充文本的初始关键词元组后,对该初始关键词元组中的关键词按照预设规则进行处理,从而得到与初始关键词元组存在区别的多个目标关键词元组。其中,每进行一次处理,均可生成一个目标关键词元组,因此,当进行多次处理时,即可生成多个目标关键词元组。
进一步的,在一些实施例中,该预设规则可以为对关键词进行同义词替换,因同义词之间的语义相似度极高,在进行同义词替换后,根据替换同义词后的关键词元组生成的文本与待扩充文本之间的语义相似度同样极高,因此,基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组的步骤具体包括:
对初始关键词元组中的关键词进行随机数量的同义词替换,以得到多个目标关键词元组。
例如,以待扩充文本“深圳是一个在南方的繁华城市”为例进行说明,提取到的初始关键词元组为[深圳,南方,繁华,城市],而“繁华”可替换为同义词“繁荣”,得到的目标关键词元组为[深圳,南方,繁荣,城市],进一步对关键词“南方”进行替换为“南边”,则可得到两个目标关键词元组[深圳,南边,繁华,城市]、[深圳,南边,繁荣,城市],通过该种同义词替换的方式,即可得到多个目标关键词元组。
进一步的,在一些实施例中,该预设规则可以为对关键词进行删减,因此,基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组的步骤具体包括:
对初始关键词元组中的关键词进行随机数量的删减,以得到多个目标关键词元组。
例如,同样以待扩充文本“深圳是一个在南方的繁华城市”为例进行说明,针对于初始关键词元组为[深圳,南方,繁华,城市],删除关键词“南方”,则得到目标关键词元组[深圳,繁华,城市],删除关键词“繁华”,则得到目标关键词元组[深圳,南方,城市]。
进一步的,在一些实施例中,该预设规则可以为打乱关键词的顺序,因此,基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组的步骤具体包括:
对初始关键词元组中的关键词进行排列位置顺序随机打乱,以得到多个目标关键词元组。
需要理解的是,本实施例中,在提取待扩充文本中的初始关键词元组时,其中的关键词按照其在文本中的位置依次提取到初始关键词元组中,例如,同样以待扩充文本“深圳是一个在南方的繁华城市”为例进行说明,其提取得到的初始关键词元组为[深圳,南方,繁华,城市],其关键词的先后顺序为“深圳——南方——繁华——城市”,再对其中关键词的顺序进行打乱,例如“深圳”和“城市”交换位置,则得到目标关键词元组[城市,南方,繁华,深圳]。
进一步的,在一些实施例中,对关键词进行同义词替换、删减关键词、打乱关键词顺序,该三种处理关键词的方式即可单独实现,也可进行组合实现,其单独实现和组合实现均可得到目标关键词元组,本发明对其单独实现或组合实现的过程不做限制。
需要理解的是,上述实施例中,对关键词的替换、删减或顺序打乱是本实施例中给出的一种处理关键词的方式,其它能够在不对待扩充文本的语义进行大幅度改变的关键词处理方式均属于本发明的保护范围之内。
步骤S103:将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到。
在步骤S103中,需要说明的是,该文本生成模型预先训练得到,在得到多个目标关键词元组后,分别将目标关键词元组输入至该文本生成模型中,每输入一个目标关键词元组,则由文本生成模型根据该目标关键词元组生成一个定向文本,例如,当目标关键词元组为[深圳,南方,繁荣,城市]时,生成的定向文本为“深圳是一个在南方的繁荣城市”,当目标关键词元组为[深圳,南方,城市],生成的定向文本为“深圳是一个在南方的城市”。
进一步的,该文本生成模型预先训练得到,预先训练文本生成模型的步骤包括:
1、获取训练样本文本,以及训练样本文本对应的初始训练关键词元组。
2、基于预设规则对初始训练关键词元组进行处理,以得到与初始训练关键词元组存在区别的多个目标训练关键词元组。
具体地,该预设规则可以为对关键词进行同义词替换、关键词删减、打乱关键词顺序等方式。
3、将多个目标训练关键词元组分别输入至待训练的文本生成模型中,以生成多个训练定向文本。
4、根据多个训练定向文本、训练样本文本和预设的损失函数反向传播更新文本生成模型。
例如,目标关键词元组可以为[深圳,南方,繁荣,城市]、[深圳,南方,城市]、[城市,南方,繁华,深圳],训练样本文本为“深圳是一个在南方的繁华城市”,将[深圳,南方,繁荣,城市]、[深圳,南方,城市]、[城市,南方,繁华,深圳]分布输入至待训练的文本生成模型中,分别生成对应的训练定向文本,再利用训练定向文本和训练样本文本“深圳是一个在南方的繁华城市”结合预设的损失函数反向传播更新文本生成模型。
步骤S104:分别计算每个定向文本与待扩充文本之间的语义相似度。
在步骤S104中,在获取到定向文本后,分布将定向文本和待扩充文本均转换为向量表示,然后计算两个向量表示之间的余弦距离,根据余弦距离确认定向文本与待扩充文本之间的语义相似度。
步骤S105:将语义相似度低于预设相似度阈值的定向文本剔除。
在步骤S105中,在计算得到语义相似度后,将语义相似度低于预设相似度阈值的定向文本剔除,其中,该预设相似度阈值预先设置,通过将语义相似度低于预设相似度阈值的定向文本删除,从而避免生成与待扩充文本存在较大歧义的文本,保证文本生成的可控性。
本发明第一实施例的基于人工智能的文本扩充方法通过提取待扩充文本中的关键词所组成的初始关键词元组后,对该初始关键词元组按预设规则进行处理,从而得到多个目标关键词元组,再利用多个目标关键词元组生成多个扩充得到的定向文本,其由于目标关键词元组与初始关键词元组之间存在区别,从而使得根据目标关键词元组生成的定向文本与待扩充文本并不会完全相同,目标关键词元组与初始关键词元组之间仍然还具有较多的相同关键词,从而使得生成的定向文本与待扩充文本之间的语义较为相近,并且,还根据文本之间的相似度对定向文本进行过滤,删除语义偏差较大的定向文本,从而实现了对扩充的文本的控制,而不是随意的生成文本。
图2是本发明第二实施例的基于人工智能的文本扩充方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:
步骤S201:从预先获取的待扩充文本中提取得到初始关键词元组。
在本实施例中,图2中的步骤S201和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S202:当初始关键词元组中的关键词数量低于预设数量阈值时,从预设的扩展关键词知识库中查询初始关键词元组中每个关键词的扩展关键词。
需要说明的是,该扩展关键词知识库预先设置,具体地,可利用Apriori算法挖掘出具有关联性的特征词的二元组,从而构建该扩展关键词知识库。
在步骤S202中,当得到初始关键词元组后,若初始关键词元组中的关键词数据低于预设数量阈值,则说明该待扩充文本为一个短文本,对短文本中提取出的关键词数量较少,一旦对短文本中的关键词进行处理,然后导致语义出现较大的变化,本实施例中将短文本扩展为一个长文本,方便后续进行文本扩充。因此,本实施例在初始关键词元组中的关键词数量低于预设数量阈值时,从预设的扩展关键词知识库中查询相应的扩展关键词,利用扩展关键词对该待扩充文本进行内容上的扩展。
步骤S203:将扩展关键词加入至初始关键词元组。
在步骤S203中,在查询到扩展关键词后,将扩展关键词加入至初始关键词元组中,以对初始关键词元组进行扩展,使得初始关键词元组中关键词的数量超过预设数量阈值。
进一步的,为了避免扩展导致语义与待扩充文本出现较大偏差,步骤S203之前还包括:
1、将扩展关键词和初始关键词元组中的关键词输入至文本生成模型,得到扩展文本;
2、计算扩展文本与待扩充文本的语义相似度;
3、判断语义相似度是否高于预设相似度阈值;
4、若是,则允许执行将扩展关键词加入至初始关键词元组的步骤。
具体地,在得到扩展关键词后,利用扩展关键词和初始关键词元组中的关键词生成待扩充文本的扩展文本,再计算扩展文本与待扩充文本之间的语义相似度,当语义相似度高于预设相似度阈值时,才允许将扩展关键词加入至初始关键词元组中,从而避免待扩充文本被扩展后,语义出现较大偏差。步骤S204:基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组。
在本实施例中,图2中的步骤S204和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S205:将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到。
在本实施例中,图2中的步骤S205和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S206:分别计算每个定向文本与待扩充文本之间的语义相似度。
在本实施例中,图2中的步骤S206和图1中的步骤S104类似,为简约起见,在此不再赘述。
步骤S207:将语义相似度低于预设相似度阈值的定向文本剔除。
在本实施例中,图2中的步骤S207和图1中的步骤S105类似,为简约起见,在此不再赘述。
本发明第二实施例的基于人工智能的文本扩充方法在第一实施例的基础上,通过对初始关键词元组中的关键词数量进行判断,从而确认出待扩充文本是否为短文本,若为短文本,则对短文本的初始关键词元组进行内容扩展,降低后续进行关键词处理后对语义的影响程度,并且,在进行短文本扩展时,同样会对扩展后的语义进行判断,避免扩展后的语义与待扩充文本原本的语义偏差过大。
图3是本发明实施例的基于人工智能的文本扩充装置的功能模块示意图。如图3所示,该基于人工智能的文本扩充装置30包括提取模块31、处理模块32、生成模块33、计算模块34和剔除模块35。
提取模块31,用于从预先获取的待扩充文本中提取得到初始关键词元组;
处理模块32,用于基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组;
生成模块33,用于将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到;
计算模块34,用于分别计算每个定向文本与待扩充文本之间的语义相似度;
剔除模块35,用于将语义相似度低于预设相似度阈值的定向文本剔除。
可选地,该基于人工智能的文本扩充装置30还包括训练模块,用于预先训练文本生成模型,该训练模块训练文本生成模型的操作具体包括:获取训练样本文本,以及训练样本文本对应的初始训练关键词元组;基于预设规则对初始训练关键词元组进行处理,以得到与初始训练关键词元组存在区别的多个目标训练关键词元组;将多个目标训练关键词元组分别输入至待训练的文本生成模型中,以生成多个训练定向文本;根据多个训练定向文本、训练样本文本和预设的损失函数反向传播更新文本生成模型。
可选地,处理模块32执行基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组的操作还可以为:对初始关键词元组中的关键词进行随机数量的同义词替换和/或进行随机数量的删减和/或进行排列位置顺序随机打乱,以得到多个目标关键词元组。
可选地,提取模块31执行从预先获取的待扩充文本中提取得到初始关键词元组的操作还可以为:利用预先构建的分词器对待扩充文本进行分词,得到多个候选词和每个候选词的属性;根据属性,利用预设打分算法对多个候选词分别打分,得到打分结果;根据打分结果对多个候选词降序排序,并选择排在前预设数量个候选词构建初始关键词元组。
可选地,提取模块31执行从预先获取的待扩充文本中提取得到初始关键词元组的操作还可以为:利用预先构建的分词器对待扩充文本进行分词,得到多个候选词;利用预先构建的关系词库对多个候选词中的关系词进行过滤,并利用剩余的候选词构建初始关键词元组。
可选地,提取模块31执行从预先获取的待扩充文本中提取得到初始关键词元组的操作之后,还用于:当初始关键词元组中的关键词数量低于预设数量阈值时,从预设的背景知识库中查询初始关键词元组中每个关键词的扩展关键词;将扩展关键词加入至初始关键词元组。
可选地,提取模块31执行将扩展关键词加入至初始关键词元组的操作之前,还用于:将扩展关键词和初始关键词元组中的关键词输入至文本生成模型,得到扩展文本;计算扩展文本与待扩充文本的语义相似度;判断语义相似度是否高于预设相似度阈值;若是,则允许执行将扩展关键词加入至初始关键词元组的步骤。
关于上述实施例基于人工智能的文本扩充装置中各模块实现技术方案的其他细节,可参见上述实施例中的基于人工智能的文本扩充方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图4,图4为本发明实施例的计算机设备的结构示意图。如图4所示,该计算机设备40包括处理器41及和处理器41耦接的存储器42,存储器42中存储有程序指令,程序指令被处理器41执行时,使得处理器41执行上述任一实施例所述的基于人工智能的文本扩充方法的步骤。
其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图5,图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令51,其中,该程序指令51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等计算机设备设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的计算机设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于人工智能的文本扩充方法,其特征在于,包括:
从预先获取的待扩充文本中提取得到初始关键词元组;
基于预设规则对所述初始关键词元组进行处理,以得到与所述初始关键词元组存在区别的多个目标关键词元组;
将所述多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,所述文本生成模型根据历史文本数据训练得到;
分别计算每个定向文本与所述待扩充文本之间的语义相似度;
将所述语义相似度低于预设相似度阈值的所述定向文本剔除。
2.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,预先训练所述文本生成模型的步骤包括:
获取训练样本文本,以及所述训练样本文本对应的初始训练关键词元组;
基于所述预设规则对所述初始训练关键词元组进行处理,以得到与所述初始训练关键词元组存在区别的多个目标训练关键词元组;
将所述多个目标训练关键词元组分别输入至待训练的所述文本生成模型中,以生成多个训练定向文本;
根据所述多个训练定向文本、所述训练样本文本和预设的损失函数反向传播更新所述文本生成模型。
3.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述基于预设规则对所述初始关键词元组进行处理,以得到与所述初始关键词元组存在区别的多个目标关键词元组,包括:
对所述初始关键词元组中的关键词进行随机数量的同义词替换和/或进行随机数量的删减和/或进行排列位置顺序随机打乱,以得到多个所述目标关键词元组。
4.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述从预先获取的待扩充文本中提取得到初始关键词元组,包括:
利用预先构建的分词器对所述待扩充文本进行分词,得到多个候选词和每个候选词的属性;
根据所述属性,利用预设打分算法对所述多个候选词分别打分,得到打分结果;
根据所述打分结果对所述多个候选词降序排序,并选择排在前预设数量个所述候选词构建所述初始关键词元组。
5.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述从预先获取的待扩充文本中提取得到初始关键词元组,包括:
利用预先构建的分词器对所述待扩充文本进行分词,得到多个候选词;
利用预先构建的关系词库对所述多个候选词中的关系词进行过滤,并利用剩余的候选词构建所述初始关键词元组。
6.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述从预先获取的待扩充文本中提取得到初始关键词元组之后,还包括:当所述初始关键词元组中的关键词数量低于预设数量阈值时,从预设的扩展关键词知识库中查询所述初始关键词元组中每个关键词的扩展关键词;
将所述扩展关键词加入至所述初始关键词元组。
7.根据权利要求6所述的基于人工智能的文本扩充方法,其特征在于,所述将所述扩展关键词加入至所述初始关键词元组之前,还包括:
将所述扩展关键词和所述初始关键词元组中的关键词输入至所述文本生成模型,得到扩展文本;
计算所述扩展文本与所述待扩充文本的语义相似度;
判断所述语义相似度是否高于所述预设相似度阈值;
若是,则允许执行将所述扩展关键词加入至所述初始关键词元组的步骤。
8.一种基于人工智能的文本扩充装置,其特征在于,包括:
提取模块,用于从预先获取的待扩充文本中提取得到初始关键词元组;
处理模块,用于基于预设规则对所述初始关键词元组进行处理,以得到与所述初始关键词元组存在区别的多个目标关键词元组;
生成模块,用于将所述多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,所述文本生成模型根据历史文本数据训练得到;
计算模块,用于分别计算每个定向文本与所述待扩充文本之间的语义相似度;
剔除模块,用于将所述语义相似度低于预设相似度阈值的所述定向文本剔除。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项权利要求所述的基于人工智能的文本扩充方法的步骤。
10.一种存储介质,其特征在于,存储有能够实现如权利要求1-7中任一项所述的基于人工智能的文本扩充方法的程序指令。
CN202210040654.1A 2022-01-14 2022-01-14 基于人工智能的文本扩充方法、装置、设备及存储介质 Pending CN114385791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210040654.1A CN114385791A (zh) 2022-01-14 2022-01-14 基于人工智能的文本扩充方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210040654.1A CN114385791A (zh) 2022-01-14 2022-01-14 基于人工智能的文本扩充方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114385791A true CN114385791A (zh) 2022-04-22

Family

ID=81201633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210040654.1A Pending CN114385791A (zh) 2022-01-14 2022-01-14 基于人工智能的文本扩充方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114385791A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024011813A1 (zh) * 2022-07-15 2024-01-18 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024011813A1 (zh) * 2022-07-15 2024-01-18 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及***
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN108287858B (zh) 自然语言的语义提取方法及装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
CN110569354B (zh) 弹幕情感分析方法及装置
US20140032207A1 (en) Information Classification Based on Product Recognition
CN108538294B (zh) 一种语音交互方法及装置
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN111859961A (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN109117477B (zh) 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
Jang et al. A novel density-based clustering method using word embedding features for dialogue intention recognition
CN115186080A (zh) 一种智能问答数据处理方法、***、计算机设备及介质
CN114385791A (zh) 基于人工智能的文本扩充方法、装置、设备及存储介质
CN111428487B (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN110990451A (zh) 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN109947932B (zh) 一种推送信息分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination