CN114036907B - 一种基于领域特征的文本数据扩增方法 - Google Patents

一种基于领域特征的文本数据扩增方法 Download PDF

Info

Publication number
CN114036907B
CN114036907B CN202111371729.6A CN202111371729A CN114036907B CN 114036907 B CN114036907 B CN 114036907B CN 202111371729 A CN202111371729 A CN 202111371729A CN 114036907 B CN114036907 B CN 114036907B
Authority
CN
China
Prior art keywords
text
amplified
word
acquiring
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111371729.6A
Other languages
English (en)
Other versions
CN114036907A (zh
Inventor
祝和明
王德胜
邓涛
李岩松
孙涛
王存超
梅文哲
赵新冬
郭韬
何泽家
唐锦
崔林
张力
戴威
罗珊珊
刘媛
卢茜
于聪聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202111371729.6A priority Critical patent/CN114036907B/zh
Publication of CN114036907A publication Critical patent/CN114036907A/zh
Application granted granted Critical
Publication of CN114036907B publication Critical patent/CN114036907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于领域特征的文本数据扩增方法,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,根据四种扩增方法,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法,可以在扩增文本数据的同时,体现出文本的领域特征,提高了文本数据扩增的质量,并提高了基于此文本构建的AI***的服务质量。

Description

一种基于领域特征的文本数据扩增方法
技术领域
本申请涉及文本数据扩增技术领域,尤其是一种基于领域特征的文本数据扩增方法。
背景技术
随着人工智能技术的快速发展,人们对人工智能的服务质量要求也在提高,不同领域的人工智能一般是利用大规模、高质量的、来自不同专业领域的文本数据,通过数据集训练构建模型,所以人工智能所使用的文本数据质量直接影响着人工智能的服务质量。
为了提高文本数据质量,需要对文本数据进行扩增,当前,国内外在文本数据扩增领域提出了多种扩增方法,如回译、简单数据扩增技术(EDA)、随机噪声注入、基于GAN网络的扩增和无监督数据扩增等,这些广泛应用的方法在降低数据获取成本,抑制过拟合,提高模型泛化能力发挥了重要作用。然而,这些方法大都是对文本进行单句字符级别的处理,本质上对文本字词的删除、替换和位置交换。在进行文本分类的任务中,这些对文本字符级别的处理方法易影响体现文本领域特征的词语以及体现领域特征的语义结构信息,导致扩增后的文本不能很好地体现其所在领域特征,扩增文本质量较低。
发明内容
为了解决现有技术在扩增文本数据的同时,不能很好的体现领域特征的问题,本申请公开了一种基于领域特征的文本数据扩增方法,包括:
获取专业领域数据集,所述专业领域数据集包括多个文本;
针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;
针对待扩增文本,获取扩增后的文本;
获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。
可选的,所述针对待扩增文本,获取扩增后的文本,包括:
获取所述待扩增文本的词集;所述词集包括多个词语;
获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
根据所述专业领域数据集,构建词频和逆向文件频率模型;
根据所述词频和逆向文件频率模型,获取所述词集中每个词语的词频和逆向文件频率;
获取所述依存句法树中每个树枝的词频和逆向文件频率总和;
随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝;
获取扩增后的文本,所述扩增后的文本包括依存句法树中所有父结点和子结点所对应的词语。
可选的,获取所述依存句法树中每个树枝的词频和逆向文件频率总和之后,所述方法还包括:
将每个树枝的词频和逆向文件频率总和降序排列。
可选的,所述词集中包括停用词、数字和特殊符号,所述停用词、数字和特殊符号的词频和逆向文件频率为0。
可选的,所述针对待扩增文本,获取扩增后的文本,还包括:
构建所述专业领域数据集的LDA模型;
根据所述LDA模型,获取所述专业领域数据集的主题文档表,所述主题文档表包括不同主题;
获取所述待扩增文本所属可能性最大的多个主题;
分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度;
根据余弦相似度最高的主题,获取目标文本;
构建所述目标文本和所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
将所述目标文本和所述待扩增文本的依存句法树中存在相同依存关系的树枝进行替换;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
可选的,所述构建所述专业领域数据集的LDA模型之前,所述方法还包括:
获取所述专业领域数据集的困惑度;
获取所述专业领域数据集的最优主题数。
可选的,所述针对待扩增文本,获取扩增后的文本,还包括:
获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
将所述依存句法树中树枝长度大于预设长度的树枝根据包含关系进行合并;
将所述依存句法树中树枝长度大于预设长度的树枝根据依存关系进行匹配,获取待选树枝对集;
随机交换所述待选树枝对集中的树枝;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
可选的,所述针对待扩增文本,获取扩增后的文本,还包括:
获取所述专业领域数据集的词频记录;
获取所述专业领域数据集的训练词向量模型;
对所述待扩增文本进行分词以及词性标注,所述词性标注包括专有名词的标注;
获取待替换词语集,所述待替换词语集中包括多个词语,所述多个词语在所述词频记录中属于高频词语,且词性为专有名词;
获取所述待替换词语集在所述训练词向量模型中的近似词语;
随机选取所述待替换词语集中的词语,根据所述近似词语进行替换;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本替换后的所有词语。
本申请公开了一种基于领域特征的文本数据扩增方法,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法,可以在扩增文本数据的同时,体现出文本的领域特征,提高了文本数据扩增的质量,并提高了基于此文本构建的AI***的服务质量。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种基于领域特征的文本数据扩增方法的流程示意图;
图2为本申请实施例公开的第一种文本数据扩增方法的流程示意图;
图3为本申请实施例公开的第二种文本数据扩增方法的流程示意图;
图4为本申请实施例公开的第三种文本数据扩增方法的流程示意图;
图5为本申请实施例公开的第四种文本数据扩增方法的流程示意图。
具体实施方式
为了解决现有技术在扩增文本数据的同时,不能很好的体现领域特征的问题,本申请公开了一种基于领域特征的文本数据扩增方法,参见图1所示的流程图,包括:
获取专业领域数据集,所述专业领域数据集包括多个文本。
针对每一个文本,进行预处理,获取待扩增文本。所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计。文本预处理的目的是在文字扩增之前将数据以结构化形式存储起来,同时保存文本的预处理结果(文本分词结果和词频统计结果),避免扩展过程中同一文本多次重复处理,造成计算资源的浪费。预处理结果存储在json格式中。
针对待扩增文本,获取扩增后的文本。其中,包括四种方法,第一种方法为:特征剪裁扩增方法,参见图2所示的流程示意图。
所述特征剪裁扩增方法包括:
对待扩增文本进行分词,获取所述待扩增文本的词集。所述词集包括多个词语。
对所述待扩增文本进行依存句法分析,获取所述待扩增文本的依存句法树。所述依存句法树包括父结点和子结点,所述父结点包括子结点。每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系。
根据所述专业领域数据集,构建词频和逆向文件频率模型。
根据所述词频和逆向文件频率模型,获取所述词集中每个词语的词频和逆向文件频率。所述词集中包括停用词、数字和特殊符号,所述停用词、数字和特殊符号的词频和逆向文件频率为0。
获取所述依存句法树中每个树枝的词频和逆向文件频率总和。
将每个树枝的词频和逆向文件频率总和降序排列。
随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝。
获取扩增后的文本,所述扩增后的文本包括依存句法树中所有父结点和子结点所对应的词语。
其中,计算每个树枝的词频和逆向文件频率总和是为了评估每个树枝的重要性,将重要性较小的树枝删除,从而达到扩增的目的。
第二种方法为特征融合扩增方法,参见图3所示的流程示意图,基于主题模型的特征融合扩增方法是一种从数据集中选取与待扩增文本特征相似度较高的目标文本,抽取文本中的特征相互替换,从而实现扩增的方法。进行特征融合的关键是根据文本相似度进行筛选推荐和文本特征抽取。根据文本相似度进行相似文本筛选时,使用LDA主题模型技术。LDA主题模型是隐含狄利克雷分布模型,以非监督学习的方式对文本进行聚类,是一种包含词、文档和主题三层结构的贝叶斯概率模型。该模型可以预测数据集中每个文本的主题、也可以给出每个主题包含的特征词。使用LDA主题模型进行文本筛选推荐是属于基于内容的推荐方法,可以从数据集中发掘并提取主题,进而在待扩增文本所属主题中选取与待扩增文本相似度较高的文本,实现较高质量的筛选推荐。文本特征抽取使用依存句法树对文本中的依存关系进行分析,从而获取文本的基本特征。
所述特征融合扩增方法包括:
获取所述专业领域数据集的困惑度。
获取所述专业领域数据集的最优主题数。
构建所述专业领域数据集的LDA模型。
根据所述LDA模型,获取所述专业领域数据集的主题文档表,所述主题文档表包括不同主题。
获取所述待扩增文本所属可能性最大的多个主题。
分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度。
根据余弦相似度最高的主题,获取目标文本。
构建所述目标文本和所述待扩增文本的依存句法树。所述依存句法树包括父结点和子结点,所述父结点包括子结点。每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系。
将所述目标文本和所述待扩增文本的依存句法树中存在相同依存关系的树枝进行替换。
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
第三种方法为特征变换扩增方法,参见图4所示的流程示意图,包括:
获取所述待扩增文本的依存句法树。所述依存句法树包括父结点和子结点,所述父结点包括子结点。每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系。
将所述依存句法树中树枝长度大于预设长度的树枝根据包含关系进行合并。
将所述依存句法树中树枝长度大于预设长度的树枝根据依存关系进行匹配,获取待选树枝对集。
随机交换所述待选树枝对集中的树枝。
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
特征变换扩增方法与特征裁剪和特征融合扩增方法不同,其不依赖于文本所在的数据集,不在数据集的尺度进行特征挖掘,而是在文本的尺度中不改变句子依存关系的情况下进行语序结构的调整,保持文本的基本特征和语义信息。
第四种方法为特征替换,参见图5所示的流程示意图,包括:
获取所述专业领域数据集的词频记录。
获取所述专业领域数据集的训练词向量模型。
对所述待扩增文本进行分词以及词性标注,所述词性标注包括专有名词的标注。
获取待替换词语集,所述待替换词语集中包括多个词语,所述多个词语在所述词频记录中属于高频词语,且词性为专有名词。
获取所述待替换词语集在所述训练词向量模型中的近似词语。
随机选取所述待替换词语集中的词语,根据所述近似词语进行替换。
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本替换后的所有词语。
获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。特征替换扩增方法依赖于文本所在的数据集,需要使用数据集计算词频和训练词向量。以司法裁判文书数据集为例。在文本预处理阶段,已经得到该数据集的词频统计结果,依照词云图可以看出,词频较高的词语可以很好的反映出文本的领域特征,相对而言,词频较低的词语重要性更低,不能很好反映文本的领域特征。
本申请公开了一种基于领域特征的文本数据扩增方法,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法,可以在扩增文本数据的同时,体现出文本的领域特征,提高了文本数据扩增的质量,并提高了基于此文本构建的AI***的服务质量。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (7)

1.一种基于领域特征的文本数据扩增方法,其特征在于,包括:
获取专业领域数据集,所述专业领域数据集包括多个文本;
针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;
针对待扩增文本,获取扩增后的文本;
获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本;
所述针对待扩增文本,获取扩增后的文本,包括:
获取所述待扩增文本的词集;所述词集包括多个词语;
获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
根据所述专业领域数据集,构建词频和逆向文件频率模型;
根据所述词频和逆向文件频率模型,获取所述词集中每个词语的词频和逆向文件频率;
获取所述依存句法树中每个树枝的词频和逆向文件频率总和;
随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝;
获取扩增后的文本,所述扩增后的文本包括依存句法树中所有父结点和子结点所对应的词语。
2.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,获取所述依存句法树中每个树枝的词频和逆向文件频率总和之后,所述方法还包括:
将每个树枝的词频和逆向文件频率总和降序排列。
3.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述词集中包括停用词、数字和特殊符号,所述停用词、数字和特殊符号的词频和逆向文件频率为0。
4.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:
构建所述专业领域数据集的LDA模型;
根据所述LDA模型,获取所述专业领域数据集的主题文档表,所述主题文档表包括不同主题;
获取所述待扩增文本所属可能性最大的多个主题;
分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度;
根据余弦相似度最高的主题,获取目标文本;
构建所述目标文本和所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
将所述目标文本和所述待扩增文本的依存句法树中存在相同依存关系的树枝进行替换;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
5.根据权利要求4所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述构建所述专业领域数据集的LDA模型之前,所述方法还包括:
获取所述专业领域数据集的困惑度;
获取所述专业领域数据集的最优主题数。
6.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:
获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
将所述依存句法树中树枝长度大于预设长度的树枝根据包含关系进行合并;
将所述依存句法树中树枝长度大于预设长度的树枝根据依存关系进行匹配,获取待选树枝对集;
随机交换所述待选树枝对集中的树枝;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
7.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:
获取所述专业领域数据集的词频记录;
获取所述专业领域数据集的训练词向量模型;
对所述待扩增文本进行分词以及词性标注,所述词性标注包括专有名词的标注;
获取待替换词语集,所述待替换词语集中包括多个词语,所述多个词语在所述词频记录中属于高频词语,且词性为专有名词;
获取所述待替换词语集在所述训练词向量模型中的近似词语;
随机选取所述待替换词语集中的词语,根据所述近似词语进行替换;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本替换后的所有词语。
CN202111371729.6A 2021-11-18 2021-11-18 一种基于领域特征的文本数据扩增方法 Active CN114036907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111371729.6A CN114036907B (zh) 2021-11-18 2021-11-18 一种基于领域特征的文本数据扩增方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111371729.6A CN114036907B (zh) 2021-11-18 2021-11-18 一种基于领域特征的文本数据扩增方法

Publications (2)

Publication Number Publication Date
CN114036907A CN114036907A (zh) 2022-02-11
CN114036907B true CN114036907B (zh) 2024-06-25

Family

ID=80138117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111371729.6A Active CN114036907B (zh) 2021-11-18 2021-11-18 一种基于领域特征的文本数据扩增方法

Country Status (1)

Country Link
CN (1) CN114036907B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724162A (zh) * 2022-03-15 2022-07-08 平安科技(深圳)有限公司 文本识别模型的训练方法、装置、计算机设备及存储介质
CN114637824B (zh) * 2022-03-18 2023-12-01 马上消费金融股份有限公司 数据增强处理方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797991B (zh) * 2017-10-23 2020-11-24 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及***
CN107704892B (zh) * 2017-11-07 2019-05-17 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及***
CN109298796B (zh) * 2018-07-24 2022-05-24 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN110852095B (zh) * 2018-08-02 2023-09-19 ***股份有限公司 语句热点提取方法及***
CN110162627B (zh) * 2019-04-28 2022-04-15 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN111930792B (zh) * 2020-06-23 2024-04-12 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN111950729A (zh) * 2020-07-19 2020-11-17 中国建设银行股份有限公司 一种知识库构建方法、装置、电子设备和可读存储装置
CN111783902B (zh) * 2020-07-30 2023-11-07 腾讯科技(深圳)有限公司 数据增广、业务处理方法、装置、计算机设备和存储介质
CN112861739B (zh) * 2021-02-10 2022-09-09 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN112883193A (zh) * 2021-02-25 2021-06-01 中国平安人寿保险股份有限公司 一种文本分类模型的训练方法、装置、设备以及可读介质
CN112989797B (zh) * 2021-03-10 2023-11-14 北京百度网讯科技有限公司 模型训练、文本扩展方法,装置,设备以及存储介质
CN112906392B (zh) * 2021-03-23 2022-04-01 北京天融信网络安全技术有限公司 一种文本增强方法、文本分类方法及相关装置
CN113407842B (zh) * 2021-06-28 2024-03-22 携程旅游信息技术(上海)有限公司 模型训练方法、主题推荐理由的获取方法及***、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词向量特征扩展的中文短文本分类研究;雷朔 等;计算机应用与软件;20180812(第08期);全文 *

Also Published As

Publication number Publication date
CN114036907A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106570708B (zh) 一种智能客服知识库的管理方法及***
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN114036907B (zh) 一种基于领域特征的文本数据扩增方法
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN109918672B (zh) 一种基于树结构的甲状腺超声报告的结构化处理方法
CN111860981B (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及***
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN101114298A (zh) 一种获取口语词条的方法、装置以及一种输入法***
CN106126619A (zh) 一种基于视频内容的视频检索方法及***
CN101136020A (zh) 自动扩展参考数据的***和方法
CN110597979A (zh) 一种基于自注意力的生成式文本摘要方法
CN103617290A (zh) 中文机器阅读***
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN112699831B (zh) 基于弹幕情感的视频热点片段检测方法、装置及存储介质
CN115906835B (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN116502637A (zh) 一种结合上下文语义的文本关键词提取方法
CN110633468A (zh) 一种关于对象特征提取的信息处理方法及装置
CN115617981A (zh) 一种面向社交网络短文本的信息层次摘要提取方法
CN111859924B (zh) 一种基于word2vec模型构建词网的方法和装置
CN115757776A (zh) 一种基于sq-lda主题模型的交通安全舆情分析方法
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
CN109344402B (zh) 一种新术语自动发现识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant