CN110597991A - 文本分类方法、装置、计算机设备及存储介质 - Google Patents

文本分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110597991A
CN110597991A CN201910853548.3A CN201910853548A CN110597991A CN 110597991 A CN110597991 A CN 110597991A CN 201910853548 A CN201910853548 A CN 201910853548A CN 110597991 A CN110597991 A CN 110597991A
Authority
CN
China
Prior art keywords
text
word
self
texts
long text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910853548.3A
Other languages
English (en)
Other versions
CN110597991B (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910853548.3A priority Critical patent/CN110597991B/zh
Publication of CN110597991A publication Critical patent/CN110597991A/zh
Application granted granted Critical
Publication of CN110597991B publication Critical patent/CN110597991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请是关于一种文本分类方法,涉及自然语言处理技术领域。该方法包括:生成包含至少两条待分类文本的长文本;通过自注意力子模型对长文本进行处理,获得长文本中的各个词的融合词向量,自注意力子模型用于在各个词的原始词向量中融合各个词之间的关联关系;通过输出子模型对长文本中的各个词的融合词向量进行处理,获得至少两条待分类文本的分类结果。本方案实现在基于多文本分类的人工智能场景下,对不同的待识别文本之间进行词的关联关系融合,在通过输出子模型进行分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。

Description

文本分类方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及自然语言处理技术领域,特别涉及一种文本分类方法、装置、计算机设备及存储介质。
背景技术
多文本分类是自然语言处理中的一项重要环节,广泛应用于情感分析、问答匹配、搜索引擎等场景。
多文本分类通常是指通过分类模型从多条文本中找出目标文本的应用。在相关技术中,用于多文本分类的分类模型通常由输出层以及并列的多组编码器组成,在进行文本分类时,通过多组编码器对多条文本并列进行编码,每组编码器负责编码一条文本,获得每条文本的句向量,然后通过输出层对多条文本的句向量进行统一处理,输出多条文本各自属于目标文本的概率(即分类结果)。
然而,相关技术中的方案通过多组编码器对多条文本并列进行编码,每条文本的句向量只表示对应当前文本的特征,导致句向量所携带的信息较为单薄,影响文本分类的准确性。
发明内容
本申请实施例提供了一种文本分类方法、装置、计算机设备及存储介质,可以提高文本分类的准确性,技术方案如下:
一方面,提供了一种文本分类方法,所述方法包括:
获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
生成包含所述至少两条待分类文本的长文本;
通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
另一方面,提供了一种文本分类装置,所述装置包括:
文本获取模块,用于获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
长文本生成模块,用于生成包含所述至少两条待分类文本的长文本;
第一模型处理模块,用于通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
第二模型处理模块,用于通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
可选的,所述自注意力子模型中包含依次相连的至少两个自注意力编码器;
所述第一模型处理模块,用于,
对所述长文本进行向量映射,获得所述长文本中的各个词的原始词向量;
将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量。
可选的,每个所述自注意力编码器中包含自注意力层和前向传播层;
在将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量时,所述第一模型处理模块,用于,
通过目标自注意力编码器中的自注意力层对输入的所述各个词的词向量进行融合,获得融合后的所述各个词的词向量;所述目标自注意力编码器是所述至少两个自注意力编码器中的任意一个自注意力编码器;
通过所述目标自注意力编码器中的前向传播层对融合后的所述各个词的词向量进行前向传播处理,获得前向传播处理后的所述各个词的词向量;
将前向传播处理后的所述各个词的词向量输入所述分类模型中的下一层。
可选的,所述输出子模型包括全连接层和激活函数;
所述第二模型处理模块,用于,
通过所述全连接层对所述长文本中的各个词的融合词向量进行处理;
根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量;
通过所述激活函数对所述至少两条待分类文本各自的句向量进行处理,获得所述分类结果。
可选的,所述全连接层的处理结果包含所述长文本中的各个词的全连接处理向量;
在根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量时,所述第二模型处理模块,用于,
按照所述至少两条待分类文本中每个待分类文本的词在所述长文本中的位置,对所述长文本中的各个词的全连接处理向量进行划分,获得所述至少两条待分类文本各自的句向量。
可选的,所述长文本样本是由至少一个正样本文本和至少一个负样本文本按照随机顺序首尾拼接获得的。
可选的,所述装置还包括:
模型训练模块,用于在所述文本获取模块获取至少两条待分类文本之前,
通过所述自注意力子模型对所述长文本样本进行处理,获得所述长文本样本中的各个词的融合词向量;
通过所述输出子模型对所述长文本样本中的各个词的融合词向量进行处理,获得所述至少一个正样本文本和至少一个负样本文本的分类结果;
根据所述至少一个正样本文本和至少一个负样本文本的分类结果,以及所述长文本样本的标注结果,对所述分类模型中的参数进行更新。
可选的,在根据所述至少一个正样本文本和至少一个负样本文本的分类结果,以及所述长文本样本的标注结果,对所述分类模型中的参数进行更新时,所述模型训练模块,用于,
通过所述至少一个正样本文本和至少一个负样本文本的分类结果,与所述长文本样本的标注结果获取交叉熵损失函数;
通过所述交叉熵损失函数对所述分类模型中的参数进行更新。
可选的,所述模型训练模块,用于,
当根据所述交叉熵损失函数确定所述分类模型未收敛时,通过所述交叉熵损失函数对所述分类模型中的参数进行更新。
可选的,所述自注意力子模型是基于来自变压器的双向编码表示(BidirectionalEncoder Representations from Transformers,BERT)的模型。
又一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的文本分类方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的文本分类方法。
本申请提供的技术方案可以包括以下有益效果:
通过生成包含至少两条待分类文本的长文本,然后再通过分类模型中的自注意力子模型对长文本进行处理,获得长文本中的各个词的融合词向量,再通过分类模型中的输出子模型对长文本中的各个词的融合词向量进行处理,获得至少两条待分类文本的分类结果;由于单条长文本中同时包含了多条待识别文本,因此,长文本中每个词的融合词向量不仅融合了当前词与当前待识别文本中其它词之间的关联关系,还融合了当前词与其它待识别文本中的各个词之间的关联关系,从而实现在不同的待识别文本之间进行词的关联关系融合,在通过输出子模型进行分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请各个实施例涉及的一种基于自然语言处理的人工智能(ArtificialIntelligence,AI)应用***的***构成图;
图2是根据一示例性实施例示出的一种文本分类流程示意图;
图3是图2所示实施例涉及的一种分类模型应用示意图;
图4是图2所示实施例涉及的模型训练示意图;
图5是根据一示例性实施例示出的一种文本分类方法的流程图;
图6是图5所示实施例涉及的一种自注意力编码器的结构示意图;
图7是图5所示实施例涉及的分类模型的应用流程示意图;
图8是根据一示例性实施例示出的一种分类模型训练方法的流程图;
图9是图8所示实施例涉及的分类模型的训练流程示意图;
图10是根据一示例性实施例示出的一种文本分类装置的结构方框图;
图11是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请提出了一种文本分类方案,该方案能够在多文本分类过程中,通过自注意力机制提取多个文本之间的关联特征,以提高多文本分类的准确性。为了便于理解,下面对本申请实施例涉及的几个名词进行解释。
1)人工智能AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
4)计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
5)语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机器学习等技术,具体通过下述实施例进行说明。
请参考图1,其示出了本申请各个实施例涉及的一种基于自然语言处理的AI应用***的***构成图。如图1所示,该***包括终端110以及服务器120。
终端110可以是各类AI应用场景中的终端设备。
比如,终端110可以是智能电视、智能电视机顶盒等智能家居设备,或者终端110可以是智能手机、平板电脑以及电子书阅读器等移动式便携终端,或者,该终端110也可以是智能眼镜、智能手表等智能可穿戴设备。
其中,终端110中可以安装有基于自然语言处理的AI应用。比如,该AI应用可以是智能问答、智能搜索等应用。
服务器120可以是一台服务器,或者服务器120可以是由若干台服务器构成的服务器集群,或者服务器120可以包含一个或多个虚拟化平台,或者服务器120也可以是一个云计算服务中心。
服务器120可以是为上述终端110中安装的AI应用提供后台服务的服务器设备。
可选的,上述***还可以包含数据库130。
上述数据库130可以是Redis数据库,或者,也可以是其它类型数据库。其中,数据库130用于存储各类数据,比如,AI应用数据、模型训练数据以及用户账号数据等等。
终端110可以与服务器120之间通过通信网络相连。可选的,该通信网络是有线网络或无线网络。
可选的,该***还可以包括管理设备(图1未示出),该管理设备与服务器130之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
上述基于自然语言处理的AI应用***在提供AI应用服务的过程中,可以通过分类模型进行多文本分类,并根据多文本分类结果提供AI应用服务。其中,上述分类模型可以设置在服务器120中,由服务器120训练以及应用;或者,上述分类模型也可以设置在终端110中,并由服务器120训练及更新。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本申请实施例涉及的AI应用***中的各类数据可以存储在区块链(Blockchain)中。例如,在一种可能的实现方式中,上述AI应用***中的终端110、服务器120以及数据库130中的至少一个设备可以是区块链***中的一个节点。其中,上述各类数据可以包括且不限于数据库130中存储的数据。
其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
本申请后续各个实施例的方案是一种文本分类的模型训练及应用方案。图2是根据一示例性实施例示出的一种文本分类流程示意图。如图2所示,该文本分类流程可以由计算机设备执行,比如,该计算机设备可以上述图1所示***中的服务器120或者终端110,或者,该计算机设备也可以是终端10和服务器120的结合。在进行文本分类时,计算机设备执行以下步骤:
S21,获取至少两条待分类文本,每条该待分类文本中包含至少一个词。
其中,每条待分类文本可以是由一个或者多个句子构成的段落。
可选的,上述筛选条件可以是关键词匹配、均匀采样等等。
S22,生成包含该至少两条待分类文本的长文本。
在本申请实施例中,计算机设备在对至少两条待分类文本进行分类之前,首先生成单条文本,该单条文本中包含上述至少两条待分类文本的文本内容,该单条文本即为上述长文本。
S23,通过分类模型中的自注意力子模型对该长文本进行处理,获得该长文本中的各个词的融合词向量,该自注意力子模型用于在该各个词的原始词向量中融合该各个词之间的关联关系。
在本申请实施例中,自注意力子模型可以视为单组编码器,计算机设备通过自注意力子模型对包含至少两条待分类文本的长文本进行统一编码。
其中,上述自注意力子模型可以是基于自注意力机制的机器学习模型,该而基于自注意力机制的机器学习模型在对包含多个词的一条文本进行处理时,可以按照多个词之间的关联关系进行融合。
换句话说,通过基于自注意力机制的机器学习模型对包含多个词的单条文本进行处理之后,获得的该单条文本中的各个词的词向量除了表示当前词之外,还表示当前词与该单条文本中的其它词之间的关系的紧密程度。
在本申请实施例中,由于单条长文本中同时包含了多条待识别文本,因此,长文本中每个词的融合词向量不仅融合了当前词与当前待识别文本中其它词之间的关联关系,还融合了当前词与其它待识别文本中的各个词之间的关联关系。也就是说,通过该步骤S23,除了可以实现在同一个待识别文本内进行词的关联关系融合之外,还可以实现在不同的待识别文本之间进行词的关联关系融合。
S24,通过该分类模型中的输出子模型对该长文本中的各个词的融合词向量进行处理,获得该至少两条待分类文本的分类结果;该分类结果用于指示该至少两条待分类文本中的目标文本。
在本申请实施例中,分类模型中的输出子模型可以对长文本输出的各个词的融合词向量进行处理,并输出至少两条待分类文本是否为目标文本的分类结果。
可选的,上述分类结果可以是至少两条待分类文本分别是目标文本的概率。
其中,该分类模型是通过训练数据集训练获得的模型,该训练数据集中包含至少两条训练数据,每条训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及该长文本样本的标注结果。
请参考图3,其示出了本申请实施例涉及的一种分类模型应用示意图。如图3所示,分类模型30包括自注意力子模型310和输出子模型320,在模型应用过程中,计算机设备获取n条待分类文本,并生成包含n条待分类文本的长文本(步骤a),然后将长本文输入自注意力子模型310(步骤b),自注意力子模型310对长本文中的各个词的原始词向量进行融合及编码,输出长本文中的各个词的融合词向量(步骤c),其中,每个词的融合词向量均融合了当前词与长文本中其它各个词之间的关联关系;输出子模型320对自注意力子模型310的处理结果进行处理,输出识别结果330(步骤d),其中该识别结果可以包括n条待分类文本分别对应的概率值,该概率值是对应的待分类文本属于目标文本的概率。进一步的,计算机设备可以根据该识别结果330确定n条待识别文本中的目标文本。
相应的,请参考图4,其示出了本申请实施例涉及的模型训练示意图。如图4所示,在上述分类模型训练过程中,首先将正负样本文本进行拼接,形成一个长文本样本,然后将长本文样本输入自注意力子模型进行充分编码,再由输出子模型输出多文本分类结果,然后根据标注结果和多文本分类结果进行参数更新。
综上所述,本申请实施例所示的方案,生成包含至少两条待分类文本的长文本,然后再通过分类模型中的自注意力子模型对长文本进行处理,获得长文本中的各个词的融合词向量,再通过分类模型中的输出子模型对长文本中的各个词的融合词向量进行处理,获得至少两条待分类文本的分类结果;由于单条长文本中同时包含了多条待识别文本,因此,长文本中每个词的融合词向量不仅融合了当前词与当前待识别文本中其它词之间的关联关系,还融合了当前词与其它待识别文本中的各个词之间的关联关系,从而实现在不同的待识别文本之间进行词的关联关系融合,在通过输出子模型进行分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。
图5是根据一示例性实施例示出的一种文本分类方法的流程图,该文本分类方法可以用于计算机设备,比如,该计算机设备可以上述图1所示***中的服务器120或者终端110,或者,该计算机设备也可以是终端10和服务器120的结合。如图5所示,该文本分类方法可以包括如下步骤:
步骤501,获取至少两条待分类文本,每条该待分类文本中包含至少一个词。
可选的,该至少两条待分类文本可以是由计算机设备从文本数据集中随机选择的文本。
可选的,该至少两条待分类文本也可以是由计算机设备按照预设的筛选条件,从文本数据集中随机选择的文本。
步骤502,对该至少两条待分类文本进行首尾拼接,获得长文本。
在本申请实施例中,计算机设备在对至少两条待分类文本进行首尾拼接时,可以按照至少两条待分类文本的获取顺序首尾拼接,获得上述长文本。
可选的,计算机设备在对至少两条待分类文本进行首尾拼接时,也可以按照随机顺序对上述至少两条待分类文本进行首尾拼接,获得上述长文本。
可选的,计算机设备在对至少两条待分类文本进行首尾拼接时,可以按照分类模型支持的待分类文本的长度,对各条待分类文本进行补齐或者截短。比如,假设分类模型支持的待分类文本的长度为m(即包含m个词),则对于至少两条待分类文本中的任意待分类文本,当该待分类文本的长度小于m时,计算机设备可以通过预设词将该待分类文本进行补齐至长度m;或者,当该待分类文本的长度大于m时,计算机设备可以通过主干提取、无效词过滤等方式,将该待分类文本的长度截短至m。
步骤503,对该长文本进行向量映射,获得长文本中的各个词的原始词向量。
在本申请实施例中,可以通过Embedding方式对长文本进行向量映射。其中,Embedding字面理解是“嵌入”,实质是一种从语义空间到向量空间的映射,同时尽可能在向量空间保持原样本在语义空间的关系,如语义接近的两个词汇在向量空间中的位置也比较接近。
在本申请实施例中,计算机设备对长文本进行向量映射获得的各个词的原始词向量,可以通过数据的形式表示对应的词本身。
可选的,在向量映射的过程中,计算机设备可以结合各个词的语境进行向量映射,不同的语境下,同一个词也可能映射为不同的原始词向量,比如,“苹果”这个词在不同的语境下可以映射为不同的原始词向量。
步骤504,将该长文本中的各个词的原始词向量输入分类模型中的自注意力子模型包含的至少两个自注意力编码器中的第一个自注意力编码器,获得该至少两个自注意力编码器中的最后一个自注意力编码器输出的,该长文本中的各个词的融合词向量。
其中,该自注意力子模型用于在该各个词的原始词向量中融合该各个词之间的关联关系;且该自注意力子模型中包含依次相连的至少两个自注意力编码器。
在本申请实施例中,为了提高长文本中的各个词的词向量的融合准确性,可以设置多个自注意力编码器首尾相连(直接或间接相连)来构成分类模型中的自注意力子模型,其中,前一级自注意力编码器的输出可以直接或者间接作为后一级自注意力编码器的输入。在对长文本中的各个词的词向量进行融合编码时,计算机设备可以将长文本中的各个词的原始词向量输入第一个自注意力编码器,并通过各级自注意力编码器依次进行融合编码,并将最后一个自注意力编码器输出各个词向量作为长文本中的各个词的融合词向量。
可选的,每个该自注意力编码器中包含自注意力层和前向传播层;在获取长文本中的各个词的融合词向量时,计算机设备可以通过目标自注意力编码器中的自注意力层对输入的该各个词的词向量进行融合,获得融合后的该各个词的词向量;该目标自注意力编码器是该至少两个自注意力编码器中的任意一个自注意力编码器;通过该目标自注意力编码器中的前向传播层对融合后的该各个词的词向量进行前向传播处理,获得前向传播处理后的该各个词的词向量;并将前向传播处理后的该各个词的词向量输入该分类模型中的下一层。
请参考图6,其示出了本申请实施例涉及的一种自注意力编码器的结构示意图。如图6所示,该自注意力编码器60至少包括一个自注意力层61和一个前向传播层62。其中,自注意力层61基于自注意力机制对长文本中的各个词的词向量进行融合,比如,通过将各个词的词向量进行卷积、评分以及加权计算的方式进行融合,使得融合后的每个词的词向量除了表示当前词之外,还携带当前词与长文本中其它各个词之间的关联性的紧密程度。自注意力层61的输出结果经过一定的处理,比如残差处理以及标准化处理之后,输入至前向传播层62,经过前向传播层62处理,比如加权以及偏置处理之后,输出至分类模型中的下一层。可选的,上述前向传播层可以是一个前馈神经网络。
其中,上述步骤仅以自注意力子模型包含的至少两个自注意力编码器,且每个自注意力编码器包含自注意力层和前向传播层为例进行说明,在应用中,注意力子模型中除了至少两个自注意力编码器之外,还可以包含其它处理层,比如残差和标准化处理层等。
步骤505,通过该分类模型中的输出子模型的全连接层对该长文本中的各个词的融合词向量进行处理。
在本申请实施例中,分类模型中的输出子模型可以包括但不限于全连接层和激活函数。其中,全连接层可以包含一层或者多层全连接层。
步骤506,根据该全连接层的处理结果获取该至少两条待分类文本各自的句向量。
可选的,该全连接层的处理结果包含该长文本中的各个词的全连接处理向量;在根据该全连接层的处理结果获取该至少两条待分类文本各自的句向量时,计算机设备可以按照该至少两条待分类文本中每个待分类文本的词在该长文本中的位置,对该长文本中的各个词的全连接处理向量进行划分,获得该至少两条待分类文本各自的句向量。
步骤507,通过该分类模型中的激活函数对该至少两条待分类文本各自的句向量进行处理,获得分类结果。
其中,该分类结果用于指示该至少两条待分类文本中的目标文本。
由于在上述处理过程中,长文本中的各个词之间的相对位置是保持不变的,相应的,长文本中对应各条待分类文本对应的词之间的相对位置也是固定的,因此,在通过全连接层处理后,计算机设备可以根据各条待分类文本之间的相对位置,从全连接层的输出结果中确定各条待分类文本的词对应的词向量,并将各条待分类文本各自的对应的词向量的组合视为对应的待分类文本的句向量;后续通过激活函数对各条待分类文本的句向量进行处理即可以获得各条待分类文本是目标文本的概率。
可选的,上述激活函数可以softmax函数。
其中,上述分类模型中的自注意力子模型可以是基于BERT模型实现的。
比如,请参考图7,其示出了本申请实施例涉及的分类模型的应用流程示意图。如图7所示,分类模型包括由N个自注意力编码器71组成的BERT模型,以及由全连接层72a和softmax函数72b构成的输出模型72,每个自注意力编码器71包括一个自注意力层71a以及前向传播层71b;其中,至少两条待检测文本(即图7中的文本1至文本n)首尾相接组成长文本后,映射至向量空间得到长文本中各个词的原始词向量,且原始词向量的排列顺序与长文本中各个词的排列顺序相同,长文本中各个词的原始词向量依次经过各个自注意力编码器71中的自注意力层71a以及前向传播层71b处理后,输出为长文本中各个词的融合词向量;长文本中各个词的融合词向量经过全连接层72a处理输出各条待分类文本的句向量(图7中示出为句向量1至句向量n),然后各条待分类文本的句向量再经过softmax函数72b处理输出识别结果73,该识别结果73中包含各条待分类文本的是目标文本的概率(图7中示出为概率1至概率n)。
综上所述,本申请实施例所示的方案,生成包含至少两条待分类文本的长文本,然后再通过分类模型中的自注意力子模型对长文本进行处理,获得长文本中的各个词的融合词向量,再通过分类模型中的输出子模型对长文本中的各个词的融合词向量进行处理,获得至少两条待分类文本的分类结果;由于单条长文本中同时包含了多条待识别文本,因此,长文本中每个词的融合词向量不仅融合了当前词与当前待识别文本中其它词之间的关联关系,还融合了当前词与其它待识别文本中的各个词之间的关联关系,从而实现在不同的待识别文本之间进行词的关联关系融合,在通过输出子模型进行分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。
上述图2至图5涉及的分类模型可以在预先标注好的训练数据集上进行训练获得,其中,上述训练数据集可以按照上述长文本的形式进行组织,即每条训练数据包含一个长文本样本以及对长文本样本的标注结果,每条长文本样本由多条样本文本组成,且多条样本文本中包含至少一条正样本文本以及至少一条负样本文本,并且,长文本样本的标注结果指示至少一条正样本文本以及至少一条负样本文本中哪些属于正样本,哪些属于负样本。本申请后续实施例对分类模型的训练过程进行展开介绍。
图8是根据一示例性实施例示出的一种分类模型训练方法的流程图,该分类模型训练方法可以用于计算机设备,比如,该计算机设备可以上述图1所示***中的服务器120。如图8所示,该分类模型训练方法可以包括如下步骤:
步骤801,获取训练数据集,该训练数据集中包含至少两条训练数据,每条训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及该长文本样本的标注结果。
在本申请实施例中,计算机设备在训练上述分类模型时,开发人员可以设置每条训练数据中包含一个正样本文本以及多个负样本文本,模型训练的目的是使得分类模型能够尽可能准确的识别出训练数据中的正样本文本。
可选的,该长文本样本是由至少一个正样本文本和至少一个负样本文本按照随机顺序首尾拼接获得的。
由于分类模型在训练过程中,会关注各个词向量之间的相对位置关系,而在图2或图3所示的模型应用过程中,目标文本可能出现在长文本中的任意位置,因此,为了避免训练出的模型过分关注词向量之间的位置关系而影响分类的准确性,在组织训练数据时,可以将正样本文本和负样本文本按照随机顺序组合生成训练数据。
步骤802,通过分类模型中的自注意力子模型对该长文本样本进行处理,获得该长文本样本中的各个词的融合词向量。
步骤803,通过分类模型中的输出子模型对该长文本样本中的各个词的融合词向量进行处理,获得该至少一个正样本文本和至少一个负样本文本的分类结果。
其中,上述步骤802和步骤803中对长文本样本中的词向量进行融合并分类过程,与上述图5所示实施例中对长文本中的词向量进行融合并分类的过程类似,此处不再赘述。
步骤804,根据该至少一个正样本文本和至少一个负样本文本的分类结果,以及该长文本样本的标注结果,对该分类模型中的参数进行更新。
在本申请实施例中,计算机设备在训练分类模型的过程中,可以通过分类模型输出的分类结果与标注结果之间的差异,对分类模型中的参数进行更新,以实现对分类模型进行训练的目的。
可选的,上述对分类模型中的参数进行更新,可以是指对分类模型中的权重矩阵以及偏置矩阵等矩阵参数进行更新。其中,上述权重矩阵以及偏置矩阵包括但不限于分类模型中的自注意力层、前向传播层以及全连接层中的矩阵参数。
可选的,在根据该至少一个正样本文本和至少一个负样本文本的分类结果,以及该长文本样本的标注结果,对该分类模型中的参数进行更新时,计算机设备可以通过该至少一个正样本文本和至少一个负样本文本的分类结果,与该长文本样本的标注结果获取交叉熵损失函数;并通过该交叉熵损失函数对该分类模型中的参数进行更新。
其中,交叉熵(Cross Entropy)是香农信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。本申请实施例所示的方案,可以通过交叉熵作为损失函数来衡量分类模型的分类结果与标注结果之间的差异,并通过交叉熵损失函数在分类模型中进行反向传播,以更新分类模型中的各项参数。
可选的,在通过该交叉熵损失函数对该分类模型中的参数进行更新时,可以在根据该交叉熵损失函数确定该分类模型未收敛时,通过该交叉熵损失函数对该分类模型中的参数进行更新。
其中,分类模型收敛,可以是指分类模型的对训练数据的输出结果与训练数据的标注结果之间的差值小于预定阈值,或者,输出结果与训练数据的标注结果之间的差值的变化率趋近于某一个较低值(比如趋近于0)。
在一种可能的实现方案中,在判断分类模型是否收敛时,可以直接通过训练数据的分类结果以及标注结果判断是否收敛。比如,在某一轮迭代训练完成后,通过本轮迭代训练输出的分类结果与标注结果计算交叉熵损失函数,如果计算出的损失函数较小,或者,与上一轮迭代的交叉熵损失函数之间的差值趋近于0,则认为分类模型已经收敛。
在另一种可能的实现方案中,在判断分类模型是否收敛时,可以通过训练数据之外的验证数据集来验证分类模型是否收敛,其中,验证数据与训练数据的组织方式一致,即验证数据中也包含一个正样本文本以及多个负样本文本,且验证数据也对应有标注数据。比如,在某一轮迭代训练完成后,将训练数据之外的验证数据输入分类模型,获得对验证数据的分类结果;并将分类模型输出的分类结果与验证数据的标注结果计算交叉熵函数,如果计算出的损失函数较小,或者,与上一轮迭代后对验证数据处理获得的交叉熵损失函数之间的差值趋近于0,则认为分类模型已经收敛。
其中,上述分类模型中的自注意力子模型可以是基于BERT模型实现的。
比如,请参考图9,其示出了本申请实施例涉及的分类模型的训练流程示意图。如图9所示,分类模型包括由N个自注意力编码器91组成的BERT模型,以及由全连接层92a和softmax函数92b构成的输出模型92,每个自注意力编码器91包括一个自注意力层91a以及前向传播层91b;其中,长文本样本由一条正样本文本以及多条负样本文本构成,长文本样本映射至向量空间得到长文本样本中各个词的原始词向量,长文本样本中各个词的原始词向量依次经过各个自注意力编码器91中的自注意力层91a以及前向传播层91b处理后,输出为长文本样本中各个词的融合词向量;长文本样本中各个词的融合词向量经过全连接层92a处理输出各条样本文本的句向量,然后各条样本文本的句向量再经过softmax函数92b处理输出识别结果93,该识别结果93中包含各条样本文本的是目标文本的概率。计算机设备计算识别结果93与长文本样本的标注结果94之间的交叉熵损失函数95,并根据交叉熵损失函数95对分类模型中各项参数进行更新。
在上述图9所示的BERT模型中,利用transformer的自注意力机制,让每个样本文本都充分地跟其它样本文本通过注意力机制进行融合,从而使得输出的信息包含了融合之后的信息,然后接入一个前向传播层。通过做N次这样的操作,使得正负样本之间的信息,从底层的词层面,到顶层的句子层面都得到充分的融合。
在上述图9所示的输出模型,通过全连接层将样本里的词向量,投射到句向量上,从而使得每个样本都有一个自己的向量表示。假设有[X1,X2,…,Xn]这n个样本,则我们得到的句向量是[h1,…,hn]这样一个n x dim维的矩阵,dim是向量的维度。将这些句向量输入softmax层之后,便得到[p1,…pn]这n个概率,代表每个句子属于正样本的概率。假设第2个样本是正样本,则期望目标(即标注结果)是[0,1,0,…,0],从而通过分类结果与期望目标之间计算交叉熵的方式进行模型训练。
综上所述,本申请实施例所示的方案,通过包含正样本文本和负样本文本的长文本样本以及长文本样本的标注结果对分类模型进行训练,使得训练出的分类模型能够在对包含多个待分类文本的长文本进行处理时,融合当前词与其它待识别文本中的各个词之间的关联关系,从而实现在不同的待识别文本之间进行词的关联关系融合,在分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。
本申请各个实施例所示的分类模型的训练和应用方案,可以应用于任意涉及到多文本分类的场景,以及根据分类出的目标文本进行后续应用的人工智能(ArtificialIntelligence,AI)场景,比如,本申请实施例所示的分类模型的训练和应用方案可以由AI从若干文本中识别出问题的答案,,并结合识别出的***智能问答、信息检索、阅读理解等AI服务。
图10是根据一示例性实施例示出的一种文本分类装置的结构方框图。该文本分类装置可以用于计算机设备中,以执行图2、图5或图8所示实施例中的全部或者部分步骤。该计算机设备可以上述图1所示***中的服务器120或者终端110,或者,该计算机设备也可以是终端110和服务器120的结合。该文本分类装置可以包括:
文本获取模块1001,用于获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
长文本生成模块1002,用于生成包含所述至少两条待分类文本的长文本;
第一模型处理模块1003,用于通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
第二模型处理模块1004,用于通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
可选的,所述长文本生成模块1002,用于对所述至少两条待分类文本进行首尾拼接,获得所述长文本。
可选的,所述自注意力子模型中包含依次相连的至少两个自注意力编码器;
所述第一模型处理模块1003,用于,
对所述长文本进行向量映射,获得所述长文本中的各个词的原始词向量;
将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量。
可选的,每个所述自注意力编码器中包含自注意力层和前向传播层;
在将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量时,所述第一模型处理模块1003,用于,
通过目标自注意力编码器中的自注意力层对输入的所述各个词的词向量进行融合,获得融合后的所述各个词的词向量;所述目标自注意力编码器是所述至少两个自注意力编码器中的任意一个自注意力编码器;
通过所述目标自注意力编码器中的前向传播层对融合后的所述各个词的词向量进行前向传播处理,获得前向传播处理后的所述各个词的词向量;
将前向传播处理后的所述各个词的词向量输入所述分类模型中的下一层。
可选的,所述输出子模型包括全连接层和激活函数;
所述第二模型处理模块1004,用于,
通过所述全连接层对所述长文本中的各个词的融合词向量进行处理;
根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量;
通过所述激活函数对所述至少两条待分类文本各自的句向量进行处理,获得所述分类结果。
可选的,所述全连接层的处理结果包含所述长文本中的各个词的全连接处理向量;
在根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量时,所述第二模型处理模块1004,用于,
按照所述至少两条待分类文本中每个待分类文本的词在所述长文本中的位置,对所述长文本中的各个词的全连接处理向量进行划分,获得所述至少两条待分类文本各自的句向量。
可选的,所述长文本样本是由至少一个正样本文本和至少一个负样本文本按照随机顺序首尾拼接获得的。
可选的,所述装置还包括:
模型训练模块,用于在所述文本获取模块1001获取至少两条待分类文本之前,
通过所述自注意力子模型对所述长文本样本进行处理,获得所述长文本样本中的各个词的融合词向量;
通过所述输出子模型对所述长文本样本中的各个词的融合词向量进行处理,获得所述至少一个正样本文本和至少一个负样本文本的分类结果;
根据所述至少一个正样本文本和至少一个负样本文本的分类结果,以及所述长文本样本的标注结果,对所述分类模型中的参数进行更新。
可选的,在根据所述至少一个正样本文本和至少一个负样本文本的分类结果,以及所述长文本样本的标注结果,对所述分类模型中的参数进行更新时,所述模型训练模块,用于,
通过所述至少一个正样本文本和至少一个负样本文本的分类结果,与所述长文本样本的标注结果获取交叉熵损失函数;
通过所述交叉熵损失函数对所述分类模型中的参数进行更新。
可选的,所述模型训练模块,用于,
当根据所述交叉熵损失函数确定所述分类模型未收敛时,通过所述交叉熵损失函数对所述分类模型中的参数进行更新。
可选的,所述自注意力子模型是基于来自变压器的双向编码表示BERT的模型。
综上所述,本申请实施例所示的方案,生成包含至少两条待分类文本的长文本,然后再通过分类模型中的自注意力子模型对长文本进行处理,获得长文本中的各个词的融合词向量,再通过分类模型中的输出子模型对长文本中的各个词的融合词向量进行处理,获得至少两条待分类文本的分类结果;由于单条长文本中同时包含了多条待识别文本,因此,长文本中每个词的融合词向量不仅融合了当前词与当前待识别文本中其它词之间的关联关系,还融合了当前词与其它待识别文本中的各个词之间的关联关系,从而实现在不同的待识别文本之间进行词的关联关系融合,在通过输出子模型进行分类的过程中,可以实现结合各个待分类文本之间的关联关系进行文本分类,扩展了文本分类的信息依据,提高了多文本分类的准确性。
图10是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的***存储器1004,以及连接***存储器1004和中央处理单元1001的***总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output,I/O)***1006,和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者紧凑型光盘只读储存器(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable read only memory,EEPROM)、闪存或其他固态存储其技术、CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。
计算机设备1000可以通过连接在所述***总线1005上的网络接口单元1011连接到互联网或者其它网络设备。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1001通过执行该一个或一个以上程序来实现图2、图5或图8所示的方法中的全部或者部分步骤。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
生成包含所述至少两条待分类文本的长文本;
通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述生成包含所述至少两条待分类文本的长文本,包括:
对所述至少两条待分类文本进行首尾拼接,获得所述长文本。
3.根据权利要求1所述的方法,其特征在于,所述自注意力子模型中包含依次相连的至少两个自注意力编码器;
所述通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,包括:
对所述长文本进行向量映射,获得所述长文本中的各个词的原始词向量;
将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量。
4.根据权利要求3所述的方法,其特征在于,每个所述自注意力编码器中包含自注意力层和前向传播层;
所述将所述长文本中的各个词的原始词向量输入所述至少两个自注意力编码器中的第一个自注意力编码器,获得所述至少两个自注意力编码器中的最后一个自注意力编码器输出的,所述长文本中的各个词的融合词向量,包括:
通过目标自注意力编码器中的自注意力层对输入的所述各个词的词向量进行融合,获得融合后的所述各个词的词向量;所述目标自注意力编码器是所述至少两个自注意力编码器中的任意一个自注意力编码器;
通过所述目标自注意力编码器中的前向传播层对融合后的所述各个词的词向量进行前向传播处理,获得前向传播处理后的所述各个词的词向量;
将前向传播处理后的所述各个词的词向量输入所述分类模型中的下一层。
5.根据权利要求1所述的方法,其特征在于,所述输出子模型包括全连接层和激活函数;
所述通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果,包括:
通过所述全连接层对所述长文本中的各个词的融合词向量进行处理;
根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量;
通过所述激活函数对所述至少两条待分类文本各自的句向量进行处理,获得所述分类结果。
6.根据权利要求5所述的方法,其特征在于,所述全连接层的处理结果包含所述长文本中的各个词的全连接处理向量;
所述根据所述全连接层的处理结果获取所述至少两条待分类文本各自的句向量,包括:
按照所述至少两条待分类文本中每个待分类文本的词在所述长文本中的位置,对所述长文本中的各个词的全连接处理向量进行划分,获得所述至少两条待分类文本各自的句向量。
7.根据权利要求1所述的方法,其特征在于,所述长文本样本是由至少一个正样本文本和至少一个负样本文本按照随机顺序首尾拼接获得的。
8.根据权利要求1所述的方法,其特征在于,所述获取至少两条待分类文本之前,还包括:
通过所述自注意力子模型对所述长文本样本进行处理,获得所述长文本样本中的各个词的融合词向量;
通过所述输出子模型对所述长文本样本中的各个词的融合词向量进行处理,获得所述至少一个正样本文本和至少一个负样本文本的分类结果;
根据所述至少一个正样本文本和至少一个负样本文本的分类结果,以及所述长文本样本的标注结果,对所述分类模型中的参数进行更新。
9.根据权利要求8所述的方法,其特征在于,所述根据所述至少一个正样本文本和至少一个负样本文本的分类结果,以及所述长文本样本的标注结果,对所述分类模型中的参数进行更新,包括:
通过所述至少一个正样本文本和至少一个负样本文本的分类结果,与所述长文本样本的标注结果获取交叉熵损失函数;
通过所述交叉熵损失函数对所述分类模型中的参数进行更新。
10.根据权利要求9所述的方法,其特征在于,所述通过所述交叉熵损失函数对所述分类模型中的参数进行更新,包括:
当根据所述交叉熵损失函数确定所述分类模型未收敛时,通过所述交叉熵损失函数对所述分类模型中的参数进行更新。
11.根据权利要求1至10任一所述的方法,其特征在于,所述自注意力子模型是基于来自变压器的双向编码表示BERT的模型。
12.一种文本分类装置,其特征在于,所述装置包括:
文本获取模块,用于获取至少两条待分类文本,每条所述待分类文本中包含至少一个词;
长文本生成模块,用于生成包含所述至少两条待分类文本的长文本;
第一模型处理模块,用于通过分类模型中的自注意力子模型对所述长文本进行处理,获得所述长文本中的各个词的融合词向量,所述自注意力子模型用于在所述各个词的原始词向量中融合所述各个词之间的关联关系;
第二模型处理模块,用于通过所述分类模型中的输出子模型对所述长文本中的各个词的融合词向量进行处理,获得所述至少两条待分类文本的分类结果;所述分类结果用于指示所述至少两条待分类文本中的目标文本;
其中,所述分类模型是通过训练数据集训练获得的模型,所述训练数据集中包含至少两条训练数据,每条所述训练数据包括由至少一个正样本文本和至少一个负样本文本组成的长文本样本,以及所述长文本样本的标注结果。
13.根据权利要求12所述的装置,其特征在于,
所述长文本生成模块,用于对所述至少两条待分类文本进行首尾拼接,获得所述长文本。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有程序,所述程序由所述处理器执行以实现如权利要求1至11任一所述的文本分类方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有指令,所述指令由计算机设备的处理器执行以实现如权利要求1至11任一所述的文本分类方法。
CN201910853548.3A 2019-09-10 2019-09-10 文本分类方法、装置、计算机设备及存储介质 Active CN110597991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910853548.3A CN110597991B (zh) 2019-09-10 2019-09-10 文本分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910853548.3A CN110597991B (zh) 2019-09-10 2019-09-10 文本分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110597991A true CN110597991A (zh) 2019-12-20
CN110597991B CN110597991B (zh) 2021-08-17

Family

ID=68858472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910853548.3A Active CN110597991B (zh) 2019-09-10 2019-09-10 文本分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110597991B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104516A (zh) * 2020-02-10 2020-05-05 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111324696A (zh) * 2020-02-19 2020-06-23 腾讯科技(深圳)有限公司 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN111444709A (zh) * 2020-03-09 2020-07-24 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质及设备
CN111625645A (zh) * 2020-05-14 2020-09-04 北京字节跳动网络技术有限公司 文本生成模型的训练方法、装置和电子设备
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN112016316A (zh) * 2020-08-31 2020-12-01 北京嘀嘀无限科技发展有限公司 一种识别方法和***
CN112069813A (zh) * 2020-09-10 2020-12-11 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN112101030A (zh) * 2020-08-24 2020-12-18 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112631139A (zh) * 2020-12-14 2021-04-09 山东大学 智能家居指令合理性实时检测***及方法
CN112669928A (zh) * 2021-01-06 2021-04-16 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质
CN112818658A (zh) * 2020-01-14 2021-05-18 腾讯科技(深圳)有限公司 文本对分类模型的训练方法、分类方法、设备及存储介质
CN112926309A (zh) * 2021-05-11 2021-06-08 北京智源人工智能研究院 一种安全信息判别方法、装置和电子设备
CN113032572A (zh) * 2021-04-22 2021-06-25 中国平安人寿保险股份有限公司 基于文本匹配模型的文本分类方法、装置及相关设备
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置
CN113919338A (zh) * 2020-07-09 2022-01-11 腾讯科技(深圳)有限公司 处理文本数据的方法及设备
CN116595168A (zh) * 2023-04-07 2023-08-15 北京数美时代科技有限公司 一种基于bert模型的快速分类方法、***、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
JP2013109584A (ja) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置及び方法及びプログラム
CN103377185A (zh) * 2012-04-24 2013-10-30 腾讯科技(深圳)有限公司 一种为短文本自动添加标签的方法及装置
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN110134789A (zh) * 2019-05-17 2019-08-16 电子科技大学 一种引入多路选择融合机制的多标签长文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013109584A (ja) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置及び方法及びプログラム
CN103377185A (zh) * 2012-04-24 2013-10-30 腾讯科技(深圳)有限公司 一种为短文本自动添加标签的方法及装置
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN110134789A (zh) * 2019-05-17 2019-08-16 电子科技大学 一种引入多路选择融合机制的多标签长文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢玲等: "结合注意力机制的长文本分类方法", 《计算机应用》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111241234B (zh) * 2019-12-27 2023-07-18 北京百度网讯科技有限公司 文本分类方法及装置
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111145914B (zh) * 2019-12-30 2023-08-04 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN112818658A (zh) * 2020-01-14 2021-05-18 腾讯科技(深圳)有限公司 文本对分类模型的训练方法、分类方法、设备及存储介质
CN112818658B (zh) * 2020-01-14 2023-06-27 腾讯科技(深圳)有限公司 文本对分类模型的训练方法、分类方法、设备及存储介质
CN111259153B (zh) * 2020-01-21 2021-06-22 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111259153A (zh) * 2020-01-21 2020-06-09 桂林电子科技大学 一种完全注意力机制的属性级情感分析方法
CN111104516A (zh) * 2020-02-10 2020-05-05 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN111324696A (zh) * 2020-02-19 2020-06-23 腾讯科技(深圳)有限公司 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN111444709A (zh) * 2020-03-09 2020-07-24 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质及设备
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置
CN111625645A (zh) * 2020-05-14 2020-09-04 北京字节跳动网络技术有限公司 文本生成模型的训练方法、装置和电子设备
CN111625645B (zh) * 2020-05-14 2023-05-23 北京字节跳动网络技术有限公司 文本生成模型的训练方法、装置和电子设备
CN113919338A (zh) * 2020-07-09 2022-01-11 腾讯科技(深圳)有限公司 处理文本数据的方法及设备
CN113919338B (zh) * 2020-07-09 2024-05-24 腾讯科技(深圳)有限公司 处理文本数据的方法及设备
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111930942B (zh) * 2020-08-07 2023-08-15 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN112101030A (zh) * 2020-08-24 2020-12-18 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备
CN112101030B (zh) * 2020-08-24 2024-01-26 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备
CN112016316A (zh) * 2020-08-31 2020-12-01 北京嘀嘀无限科技发展有限公司 一种识别方法和***
CN112069813B (zh) * 2020-09-10 2023-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN112069813A (zh) * 2020-09-10 2020-12-11 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN112631139B (zh) * 2020-12-14 2022-04-22 山东大学 智能家居指令合理性实时检测***及方法
CN112631139A (zh) * 2020-12-14 2021-04-09 山东大学 智能家居指令合理性实时检测***及方法
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112527992B (zh) * 2020-12-17 2023-01-17 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112669928A (zh) * 2021-01-06 2021-04-16 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质
CN113032572A (zh) * 2021-04-22 2021-06-25 中国平安人寿保险股份有限公司 基于文本匹配模型的文本分类方法、装置及相关设备
CN113032572B (zh) * 2021-04-22 2023-09-05 中国平安人寿保险股份有限公司 基于文本匹配模型的文本分类方法、装置及相关设备
CN112926309A (zh) * 2021-05-11 2021-06-08 北京智源人工智能研究院 一种安全信息判别方法、装置和电子设备
CN116595168A (zh) * 2023-04-07 2023-08-15 北京数美时代科技有限公司 一种基于bert模型的快速分类方法、***、介质及设备

Also Published As

Publication number Publication date
CN110597991B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN110597991B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110852116B (zh) 非自回归神经机器翻译方法、装置、计算机设备和介质
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN111046027A (zh) 时间序列数据的缺失值填充方法和装置
CN111104512A (zh) 游戏评论的处理方法及相关设备
CN113919344A (zh) 文本处理方法和装置
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114611672A (zh) 模型训练方法、人脸识别方法及装置
CN114281931A (zh) 文本匹配方法、装置、设备、介质及计算机程序产品
CN113362852A (zh) 一种用户属性识别方法和装置
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及***
CN114707589A (zh) 对抗样本的生成方法、装置、存储介质、设备及程序产品
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN113761217A (zh) 基于人工智能的题目集数据处理方法、装置和计算机设备
CN116244473A (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN115116444A (zh) 一种语音识别文本的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant