CN111949768B - 一种文件分类方法 - Google Patents

一种文件分类方法 Download PDF

Info

Publication number
CN111949768B
CN111949768B CN202010853262.8A CN202010853262A CN111949768B CN 111949768 B CN111949768 B CN 111949768B CN 202010853262 A CN202010853262 A CN 202010853262A CN 111949768 B CN111949768 B CN 111949768B
Authority
CN
China
Prior art keywords
representation
task
score
knowledge
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010853262.8A
Other languages
English (en)
Other versions
CN111949768A (zh
Inventor
丘德来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010853262.8A priority Critical patent/CN111949768B/zh
Publication of CN111949768A publication Critical patent/CN111949768A/zh
Application granted granted Critical
Publication of CN111949768B publication Critical patent/CN111949768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本分类方法,所述方法包括:基于词序列信息的编码表示生成句子表示;使用知识和句子类别表示作为输入,生成与问句的关系得分;基于所述关系得分,生成外部知识表示和检索相关的知识。本方法通过引入外部知识的方式,生成每个类别的任务相关得分,结合任务无关得分,提升了文本分类在少样本场景下的性能。

Description

一种文件分类方法
技术领域
本发明书一个或多个实施例涉及自然语言处理技术领域,尤其涉及一种文件分类方法。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网和经济的不断发展,在很多场景下,都涉及到文本分类,文本分类是一种典型的自然语言处理任务,现有的文本分类方法如下:首先标注大量的样本,一个篇章对应一个类别,接着,构建神经网络模型在标注数据上进行训练,最后预测每个样本所属的类别。
上述技术存在以下问题:
现有的深度学习为基础的文本分类模型通常严重依赖大量的标注样本,当标注样本稀缺时,模型往往难以达到令人满意的性能。
发明内容
有鉴于此,本说明书一个或多个实施例描述了一种文本分类方法,可解决少样本场景下文本分类的性能不足的问题。
本说明书一个或多个实施例提供的技术方案如下:
为解决上述问题,本发明提供了一种分别分类方法,该方法包括:
基于词序列信息的编码表示生成句子表示;
使用知识和句子类别表示作为输入,生成与问句的关系得分;
基于所述关系得分,生成外部知识表示和检索相关的知识。
在一种可能的实现方式中,所述基于词序列信息的编码表示生成句子表示,具体为:
将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示。
在一种可能的实现方式中,所述将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示,具体为:
给定输入文本,使用预训练语言模型作为编码器生成表示,并使用与训练语言模型的cls位置的输出作为句子的初始表示;其中,cls为预训练语言模型中的特殊标识,表示分类含义。
在一种可能的实现方式中,还需要生成每个类别的表示,所述表示为每个类别下的句子表示的平均值:
其中,Sz表示训练集中属于z类的样本集合;h(xi)为句子的初始表示;训练集为X={x1,x2,…,xm},有m个文本,xi为第i个文本。
在一种可能的实现方式中,所述使用知识和句子类别表示作为输入,生成与问句的关系得分,具体为:
获得任务无关的关系得分;
获得任务相关的关系得分;
合并所述任务无关的关系得分和所述任务相关的关系得分,获得该查询属于类别z的得分。
在一种可能的实现方式中,通过如下公式获得任务无关的关系得分:
其中,z=1,2,…,C,C为训练集中的类别总数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;agn表示任务无关。
在一种可能的实现方式中,所述获得任务相关的关系得分,具体为:
生成一个类别集合的知识表示,从知识库中抽取相关的知识概念集K(S),每条知识被嵌入到向量e中,通过下述公式生成类别的知识表示:
生成任务相关的网络参数,并基于所述网络参数生成任务相关的关系得分。
在一种可能的实现方式中,通过如下公式生成任务相关的关系得分:
其中,θrel=M·kS为网络参数;M为可学习参数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;rel表示任务相关。
在一种可能的实现方式中,所述合并所述任务无关的关系得分和所述任务相关的关系得分,获得该查询属于类别z的得分,具体的,通过如下公式进行:
其中,rz,j是问句属于类别z的得分;为任务相关的关系得分;/>为任务无关的关系得分。
在一种可能的实现方式中,基于所述关系得分,生成外部知识表示和检索相关的知识,具体为:
给定三元组,并使用双线性模型生成知识三元组的表示;其中,所述三元组为实体、实体关系及尾实体;
从给定的篇章中识别实体部分,然后通过字符串匹配的方式匹配知识库中的实体,收集候选的尾实体,通过检索相关的知识库三元组,获得每个类别的样本的相关知识概念的集合。
本方法通过引入外部知识的方式,生成每个类别的任务相关得分,结合任务无关得分,即在属于某一类的标注样本较少时,该方法能通过基于知识指导的度量网络,更好的将未标注的样本标注到该类别,提升了文本分类在少样本场景下的性能。
附图说明
图1为本发明实施例提供的文本分类方法流程示意图;
图2为本发明实施例提供的生成与问句的关系得分流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种利用知识指导的基于度量学***台、设备集群。如图1所示,所述方法包括以下步骤:
步骤10,基于词序列信息的编码表示生成句子表示。
将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示。具体为:
给定输入文本xi=[cls,w1,w2…wt,sep],使用预训练语言模型作为编码器生成表示,并使用与训练语言模型的cls位置的输出作为句子的初始表示,设为h(xi);其中,cls和sep为预训练语言模型中的特殊标识,cls表示分类含义,sep表示区分两个文本片段。
此外,还需要生成每个类别的表示,所述表示为每个类别下的句子表示的平均值:
其中,Sz表示训练集中属于z类的样本集合;h(xi)为句子的初始表示;训练集为X={x1,x2,…,xm},有m个文本,xi为第i个文本。
步骤20,使用知识和句子类别表示作为输入,生成与问句的关系得分。
知识指导的关系模块,该模块使用知识和类别表示作为输入,生成一个与问句的关系得分。假设输入问句是xj
具体的,图2为本发明实施例提供的生成与问句的关系得分流程示意图如图2所示,该步骤包括:
步骤201,获得任务无关的关系得分。
通过如下公式获得任务无关的关系得分:
其中,z=1,2,…,C,C为训练集中的类别总数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;agn表示任务无关。
步骤202,获得任务相关的关系得分。
具体的,生成一个类别集合的知识表示,从知识库中抽取相关的知识概念集K(S),每条知识被嵌入到向量e中,通过下述公式生成类别的知识表示:
生成任务相关的网络参数,并基于所述网络参数生成任务相关的关系得分。
具体的,通过如下公式生成任务相关的关系得分:
其中,θrel=M·kS为网络参数;M为可学习参数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;rel表示任务相关。
步骤203,合并所述任务无关的关系得分和所述任务相关的关系得分,获得该查询属于类别z的得分。
具体的,通过如下公式进行:
其中,rz,j是问句属于类别z的得分;为任务相关的关系得分;/>为任务无关的关系得分。
步骤30,基于所述关系得分,生成外部知识表示和检索相关的知识。
在知识嵌入和检索模块,我们使用该模型生成外部知识的标识和检索相关的知识,具体为:
知识嵌入:给定三元组,并使用双线性模型生成知识三元组的表示;其中,所述三元组为(s,r,o),其中s为实体、r表示实体关系及o表示尾实体;
知识检索:为了抽取从知识库中抽取知识,先从给定的篇章中识别实体部分,然后通过字符串匹配的方式匹配知识库中的s,收集候选的o,通过检索相关的知识库三元组,获得每个类别的样本的相关知识概念的集合。
本方法通过引入外部知识的方式,生成每个类别的任务相关得分,结合任务无关得分,即在属于某一类的标注样本较少时,该方法能通过基于知识指导的度量网络,更好的将未标注的样本标注到该类别,提升了文本分类在少样本场景下的性能。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种文本分类方法,其特征在于,所述方法包括:
基于词序列信息的编码表示生成句子表示;
使用知识和句子类别表示作为输入,生成与问句的关系得分;
基于所述关系得分,生成外部知识表示和检索相关的知识;
其中,还需要生成每个类别的表示,所述表示为每个类别下的句子表示的平均值:
其中,Sz表示训练集中属于z类的样本集合;h(xi)为句子的初始表示;训练集为X={x1,x2,…,xm},有m个样本,xi为第i个文本;
其中,所述使用知识和句子类别表示作为输入,生成与问句的关系得分,具体为:
获得任务无关的关系得分;
获得任务相关的关系得分;
合并所述任务无关的关系得分和所述任务相关的关系得分,获得该问句属于类别z的得分;
其中,通过如下公式获得任务无关的关系得分:
其中,z=1,2,…,C,C为训练集中的类别总数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;agn表示任务无关;
其中,所述获得任务相关的关系得分,具体为:
生成一个类别集合的知识表示,从知识库中抽取相关的知识概念集K(S),每条知识被嵌入到向量e中,通过下述公式生成类别的知识表示:
生成任务相关的网络参数,并基于所述网络参数生成任务相关的关系得分;
其中,通过如下公式生成任务相关的关系得分:
其中,θrel=M·kS为网络参数;M为可学习参数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;rel表示任务相关;
其中,所述合并所述任务无关的关系得分和所述任务相关的关系得分,获得该问句属于类别z的得分,具体的,通过如下公式进行:
其中,rz,j是问句属于类别z的得分;为任务相关的关系得分;/>为任务无关的关系得分。
2.根据权利要求1所述的方法,其特征在于,所述基于词序列信息的编码表示生成句子表示,具体为:
将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示。
3.根据权利要求2所述的方法,其特征在于,所述将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示,具体为:
给定输入文本,使用预训练语言模型作为编码器生成表示,并使用与训练语言模型的cls位置的输出作为句子的初始表示;其中,cls为预训练语言模型中的特殊标识,表示分类含义。
4.根据权利要求1所述的方法,其特征在于,基于所述关系得分,生成外部知识表示和检索相关的知识,具体为:
给定三元组,并使用双线性模型生成知识三元组的表示;其中,所述三元组为实体、实体关系及尾实体;
从给定的篇章中识别实体部分,然后通过字符串匹配的方式匹配知识库中的实体,收集候选的尾实体,通过检索相关的知识库三元组,获得每个类别的样本的相关知识概念的集合。
CN202010853262.8A 2020-08-23 2020-08-23 一种文件分类方法 Active CN111949768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010853262.8A CN111949768B (zh) 2020-08-23 2020-08-23 一种文件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010853262.8A CN111949768B (zh) 2020-08-23 2020-08-23 一种文件分类方法

Publications (2)

Publication Number Publication Date
CN111949768A CN111949768A (zh) 2020-11-17
CN111949768B true CN111949768B (zh) 2024-02-02

Family

ID=73359174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010853262.8A Active CN111949768B (zh) 2020-08-23 2020-08-23 一种文件分类方法

Country Status (1)

Country Link
CN (1) CN111949768B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN110188182A (zh) * 2019-05-31 2019-08-30 中国科学院深圳先进技术研究院 模型训练方法、对话生成方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052625A (zh) * 2017-12-18 2018-05-18 清华大学 一种实体精细分类方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN110188182A (zh) * 2019-05-31 2019-08-30 中国科学院深圳先进技术研究院 模型训练方法、对话生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111949768A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN111597328B (zh) 一种新事件主题提取方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN114863194B (zh) 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112328748A (zh) 一种用于保险配置意图识别的方法
CN114756678B (zh) 一种未知意图文本的识别方法及装置
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN116955579A (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN111949768B (zh) 一种文件分类方法
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115983269A (zh) 一种智慧社区数据命名实体识别方法、终端及计算机介质
CN118133829B (zh) 小样本命名实体识别方法
CN112434516B (zh) 一种融合正文文本信息的自适应评论情感分析***及方法
CN115048924B (zh) 基于否定前后缀信息的否定句识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant