CN113392641A - 文本处理方法、装置、存储介质和设备 - Google Patents
文本处理方法、装置、存储介质和设备 Download PDFInfo
- Publication number
- CN113392641A CN113392641A CN202011157333.7A CN202011157333A CN113392641A CN 113392641 A CN113392641 A CN 113392641A CN 202011157333 A CN202011157333 A CN 202011157333A CN 113392641 A CN113392641 A CN 113392641A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- category
- viewpoint
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 112
- 238000010801 machine learning Methods 0.000 claims description 34
- 238000002372 labelling Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 229910052743 krypton Inorganic materials 0.000 description 4
- DNNSSWSSYDEUBZ-UHFFFAOYSA-N krypton atom Chemical compound [Kr] DNNSSWSSYDEUBZ-UHFFFAOYSA-N 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本处理方法、装置、存储介质和设备,涉及人工智能技术领域。其中,该方法包括:获取待处理文本;将所述待处理文本输入序列标注模型,对所述待处理文本中每个字符进行类别识别,得到每个字符属于类别集合中每个类别的预测概率,以及,根据每个字符的预测概率,输出所述待处理文本中每个字符的目标类别;根据所述待处理文本中每个字符的目标类别,确定所述待处理文本的观点数据。本发明解决了基于抽取式文本摘要方法难以准确获得文本核心观点的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种文本处理方法、 装置、存储介质和设备。
背景技术
网络用户反馈发散性高,网络游戏用语多且随意,面对大量的用户反 馈,为了能够更加高效准确的分析游戏玩家反馈的问题,观点的提取将非 常关键。
观点提取旨在将文本或文本集合转换为包含关键信息的简短摘要。按 照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取 关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文, 允许生成新的词语、短语来组成摘要。
发明内容
本发明实施例提供了一种文本处理方法、装置、存储介质和设备,以 至少解决基于抽取式文本摘要方法难以准确获得文本核心观点的技术问 题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获 取待处理文本;将所述待处理文本输入序列标注模型,对所述待处理文本 中每个字符进行类别识别,获得每个字符属于类别集合中每个类别的预测 概率;根据所述字符的预测概率,输出所述待处理文本中每个字符的目标 类别;根据所述待处理文本中每个字符的目标类别,确定所述待处理文本 的观点数据,所述观点数据包括所述待处理文本的摘要和所述摘要的观点类型。
根据本发明实施例的另一方面,还提供了一种文本处理装置,包括: 待处理文本获取单元,用于获取待处理文本;目标类别确定单元,用于将 所述待处理文本输入序列标注模型,对所述待处理文本中每个字符进行类 别识别,获得每个字符属于类别集合中每个类别的预测概率,根据所述字 符的预测概率,输出所述待处理文本中每个字符的目标类别;观点确定单 元,用于根据所述待处理文本中每个字符的目标类别,确定所述待处理文本的观点数据,所述观点数据包括所述待处理文本的摘要和所述摘要的观 点类型。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质, 所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指 令或者至少一段程序由处理器加载并执行以实现上述的文本处理方法。
根据本发明实施例的另一方面,还提供了一种计算机设备,所述计算 机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机 程序被所述处理器执行时,使得所述处理器执行上述的文本处理方法。
在本发明实施例中,将待处理文本输入训练得到的序列标注模型中, 利用序列标注模型对待处理文本中每个字符进行类别识别,得到每个字符 属于预设的类别集合中每个类别的预测概率,以及根据每个字符的预测概 率,输出得到待处理文本中每个字符的目标类别,然后根据每个字符的目 标类别,确定出待处理文本的观点。本方案通过序列标注模型对待处理文 本中各字符的类别进行预测,基于预测概率找到待处理文本中属于核心观 点的字符,进而根据这些核心字符来生成待处理文本对应的观点,提高了 从文本中抽取核心观点的准确度,进而解决了基于抽取式文本摘要方法难 以准确获得文本核心观点的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一 部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中:
图1是根据本发明实施例的文本处理方法的硬件环境的示意图;
图2是根据本发明实施例的数据共享***;
图3是根据本发明实施例的一种可选的序列标注模型的训练方法的流 程图;
图4是根据本发明实施例的一种可选的序列标注模型的结构示意图;
图5是根据本发明实施例的一种可选的文本处理方法的流程图;
图6是根据本发明实施例的一种可选的基于序列标注模型执行文本处 理方法的流程图;
图7是根据本发明实施例的一种基于目标类别生成观点数据的方法的 流程图;
图8是根据本发明实施例的使用文本处理方法进行观点提取的流程示 意图;
图9是根据本发明实施例的一种可选的文本处理装置的示意图;
图10是根据本发明实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或 先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描 述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实 施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排 他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或 设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出 的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本处理方法的实施例。
可选地,在本实施例中,上述文本处理方法可以应用于如图1所示的 由采集客户端01和服务器03构成的硬件环境中。如图1所示,该硬件环 境包括:客户端01、服务器03。
客户端01可以包括:智能手机、平板电脑、笔记本电脑、数字助理、 智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设 备中的软体,例如具有眼部图像分割功能的应用程序等。客户端01可以 基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式 (Client/Server,C/S)与服务器03通信连接。
客户端01可以向服务器03发送待处理文本,服务器03可以基于预 设的序列标注模型,将待处理文本输入序列标注模型,根据序列标注模型 输出待处理文本中每个字符的目标类别,以及根据待处理文本中每个字符 的目标类别,确定待处理文本的观点,将待处理文本的观点传输至客户端 01。在一个可能的实现方式中,序列标注模型可以在客户端01或者服务 器03上训练获得,其训练过程包括:构建机器学习模型,机器学习模型 包括预训练语义识别模型、类别概率预测模型和类别识别模型;获取训练 样本,训练样本包括样本文本和样本文本中每个样本字符的类别标签,基 于训练样本对机器学习模型进行训练,得到序列标注模型。相应的,训练 后的序列标注模型可以存储于服务器03或者客户端01中,当客户端01 存储该序列标注模型时,可以直接使用该序列标注模型提取待处理文本的 观点。
服务器03可以包括一个独立运行的服务器,或者分布式服务器,或 者由多个服务器组成的服务器集群。
本发明实施例的文本处理方法可以由服务器03来执行,也可以由客 户端01来执行。
本发明实施例的文本处理方法的硬件环境中涉及的服务器可以是由 多个节点(接入网络中的任意形式的计算设备,如服务器、客户端)通过 网络通信的形式连接形成的数据共享***。
参见图2所示的数据共享***,数据共享***400是指用于进行节点 与节点之间数据共享的***,该数据共享***中可以包括多个节点101, 多个节点101可以是指数据共享***中各个客户端。每个节点101在进行 正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享 ***内的共享数据。为了保证数据共享***内的信息互通,数据共享*** 中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进 行信息传输。例如,当数据共享***中的任意节点接收到输入信息时,数 据共享***中的其他节点便根据共识算法获取该输入信息,将该输入信息 作为共享数据中的数据进行存储,使得数据共享***中全部节点上存储的 数据均一致。
对于数据共享***中的每个节点,均具有与其对应的节点标识,而且 数据共享***中的每个节点均可以存储有数据共享***中其他节点的节 点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共 享***中的其他节点。每个节点中可维护一个如下表所示的节点标识列 表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标 识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种 能够用于标识该节点的信息。
当然,本发明实施例提供的方法并不限用于图1所示的应用场景中, 还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1 所示的硬件环境的各个设备所能实现的功能将在后续的方法实施例中一 并进行描述,在此先不过多赘述。
网络用户反馈发散性高,网络游戏用语多且随意,面对大量的用户反 馈,为了能够更加高效准确的分析玩家反馈的问题,观点的提取将非常关 键。面对游戏用户反馈的垂直领域,玩家评论具有数量大、表达多种多样 且无关信息多的特点。相关技术中,一种基于生成式文本摘要方法获得评 论观点的方法为:使用生成式序列标注模型,采用encoder-decoder模型结 构,将原始评论输入模型,进行编码,然后解码输出,产生观点。然而, 基于生成式文本摘要方法,耗时比较久,而且生成的摘要不一定会使用原 有评论中的原文,导致生成的摘要不能准确表示原文中的观点。另一种基 于抽取式文本摘要方法获得评论观点的方法为:建设用户观点词库,然后 在用户评论中匹配观点词,并判断观点极性,得到用户观点。然而,用户 观点词库用作观点提取,提取出来的观点只包含关键词,对于原有评论的 核心观点提取能力较弱,而且用户的描述多种多样,由于依赖观点词库, 而观点词库无法覆盖所有演进的评论描述,因而其生成的摘要准确度也不 高。鉴于以上问题,本发明实施例提出一种基于序列标注模型的观点提取 方案,能够有效从玩家评论中抽取核心观点,方便进行舆情分析。当然, 本实施例提供的文本处理方法不仅可用于提取游戏玩家的评论观点,同样 适用于社交软件、购物软件等需要获取用户反馈以改进产品的场景中。
图3是根据本发明实施例的一种可选的文本处理方法的流程图,如图 3所示,本发明的文本处理方法包含两部分,分为模型训练部分和模型应 用部分。模型训练部分主要是基于训练样本训练机器学习模型,得到序列 标注模型的过程;模型应用部分主要是将待处理文本输入序列标注模型, 输出得到待处理文本中各字符的目标类别,进而根据待处理文本中各字符 的目标类别,确定待处理文本的观点的过程。
在训练过程中,模型每次输入的样本是一句话以及每个字符对应的标 签,长度限制为128个字符,在预测过程中,模型输入为一句话,输出为 每个字符对应的标签。
当模型训练好之后,以一句话为例:
模型输入:感觉画面挺好看的,就是日常任务太多,而且非常卡顿。
模型输出的是这句话每一个字符的类别:感(O)觉(O)画 (B-OPINION)面(I-OPINION)挺(I-OPINION)好(I-OPINION)看(I-OPINION) 的(I-OPINION),(O)就(O)是(O)日(B-TUCAO)常(B-TUCAO)任(B-TUCAO) 务(B-TUCAO)太(B-TUCAO)多(B-TUCAO),(O)而(O)且(O)非(B-BUG)常 (I-BUG)卡(I-BUG)顿(I-BUG)。(O)。
将其中非O的字符提取出来即可得到核心观点:
1.画面挺好看(评价);
2.日常任务很多(吐槽);
3.非常卡顿(BUG)。
以下将结合附图对模型训练过程和模型应用过程进行说明。
图4是根据本发明实施例的一种可选的序列标注模型的结构示意图。 请参见图4,序列标注模型的训练过程包括:
S402,构建机器学习模型,所述机器学习模型包括预训练语义识别模 型、类别概率预测模型和类别识别模型。
机器学习模型的结构如图5所示,包括预训练语义识别模型、类别概 率预测模型和类别识别模型,其中,类别概率预测模型的输入为预训练语 义识别模型的输出,类别识别模型的输入为类别概率预测模型的输出。以 下对机器学习模型的各结构进行说明。
一,预训练语义识别模型
预训练语义识别模型的输入为由至少一个字符组成的文本,输出为文 本中每个字符的语义特征向量。
在一个可能的实现方式中,可以收集大量表达多样的游戏评论数据, 作为游戏反馈语料,采用游戏反馈语料对语义识别模型进行预训练,获得 所述预训练语义识别模型。预训练的目的在于使语义识别模型从游戏反馈 语料中学习到文本特征,保证预训练语义识别模型能够适应评论语料的表 达模式,如此,在后续使用预训练语义识别模型分析待处理文本时,即使 待分析文本表达多样,也能准确识别待处理文本的文本特征,利于从待处理文本中提取出核心观点。具体的,所述预训练语义识别模型通过如下方 式训练得到:
步骤1),获取语义识别模型,所述语义识别模型包括掩码语言模型 和句子关系预测模型。
示例性的,可以选择BERT(Bidirectional Encoder Representations fromTransformers)作为语义识别模型,BERT即双向Transformer的 Encoder,BERT的模型架构基于多层双向转换解码,因为decoder是不能 获要预测的信息的,模型的主要创新点在pre-traing方法上,使用了MLM (Masked Language Model,掩码语言模型)和NSP(NextSentence Prediction,句子关系预测模型)两种方法分别捕捉词语和句子级别的描述。
BERT本质上是通过在海量的语料的基础上运行自监督学习方法为单 词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上 运行的监督学习。BERT的网络架构的主体是Transformer结构, Transformer结构是一个基于纯注意力机制的模型,使用纯注意力机制的模 型提取文本特征,可以进一步增加词向量模型泛化能力,充分描述字符级、 词级、句子级甚至句间关系特征。使用transformer而不是bi-LSTM做 encoder,可以使模型有更深的层数、具有更好并行性。
步骤2),获取预训练样本。
具体的,可以采用Google开源的代码,从互联网上爬取游戏评论数 据作为原始语料,原始原料未进行任何标注,为确保模型学习到尽量多的 评论表达方式,原始语料的数量可以设置为1000万条。对爬取的原始语 料进行预处理,生成用于训练语义识别模型的预训练样本,预训练样本包 括两个原始语料以及两个原始语料之间的关系标签。
步骤3),根据所述预训练样本对所述语义识别模型的掩码语言模型 和句子关系预测模型进行联合训练,得到所述预训练语义识别模型。
BERT是一个预训练的模型,下面举例子对预训练进行简单的介绍。
假设已有A训练集,先用A对网络进行预训练,在A任务上学会网 络参数,然后保存以备后用,当来一个新的任务B,采取相同的网络结构, 网络参数初始化的时候可以加载A学习好的参数,其他的高层参数随机初 始化,之后用B任务的训练数据来训练网络,当加载的参数保持不变时, 称为″frozen″,当加载的参数随着B任务的训练进行不断的改变,称为“fine-tuning”,即更好地把参数进行调整使得更适合当前的B任务。优 点是:当任务B的训练数据较少时,很难很好的训练网络,但是获得了A 训练的参数,会比仅仅使用B训练的参数更优。
预训练的目的是让BERT从大量的未标注语料当中学习到文本特征。 使用两个任务对BERT进行预训练,分别是:
第一种训练#1:MLM(Masked Language Model,掩码语言模型)
为了训练双向特征,采用了MLM的预训练方法,随机mask(掩饰) 句子中的部分词,然后训练模型来预测被去掉的词。
具体操作是:随机掩饰掉语料中的一部分词,然后将被掩饰的词的位 置输出的最后的隐藏向量送入softmax回归模型,来预测被掩饰的词。随 机mask的时候采用以下策略:
1)80%的单词用[MASK]token来代替,
例如my dog is hairy→my dog is[MASK];
2)10%单词用任意的词来进行代替,
例如my dog is hairy→my dog is apple;
3)10%单词不变,
例如my dog is hairy→my dog is hairy。
第二种训练2#:NSP(Next Sentence Prediction,句子关系预测模型)
为了让模型捕捉两个句子的联系,增加了NSP的预训练方法,即给 出两个句子A和B,B有一半的可能性是A的下一句话,训练模型来预测 B是不是A的下一句话。
Input=[CLS]the man went to[MASK]store[SEP]
penguin[MASK]are flight##less birds[SEP]
Label=Not Next
he bought a gallon[MASK]milk[SEP]
Label=Is Next
Input=[CLS]the man[MASK]to the store[SEP]
其中,特殊符[CLS]可以视为汇集了整个输入序列的表征,特殊符 [SEP]是用于分割两个句子的符号。
采用第二种训练方法预测两个句子之间的关系,根据预测的关系与对 应的关系标签之间的损失训练模型,使模型具备理解长序列上下文的联系 的能力。
在网络新事物不断发展的当下,各种网络用语层出不穷,游戏评价语 言模式也在不断迭代更新,使用预训练语义识别模型预先对当下已出现的 游戏评价语料进行学习,使得预训练模型对当下游戏评价语料有较好的理 解的基础上,在后续使用包含预训练语义识别网络的序列标注模型进行待 处理文本的处理时,如果待处理文本采用预处理模型已学习到的语言表达 模式进行表达的,则预处理语义识别模型的参数可以保持不变,如果待处 理文本采用预处理模型未曾学习过的语言表达模式进行表达的,则预处理 语义识别模型的参数随损失值调整,从而使得预处理语义识别模型能够根 据新输入的文本而不断学习更新,取得更好的语义识别效果,确保序列标 注模型输出结果的准确性。
二,类别概率预测模型
类别概率预测模型用于对文本中的各字符属于预设的类别集合中每 个类别的概率进行预测,其输入为预训练语义识别模型输出的文本中每个 字符的语义特征向量,输出为每个字符属于预设的每个类别的概率。
在本发明实施例中,定义了11个类别,分别是:O(无关类), B-OPINION(评价开头字符),I-OPINION(评价后续字符),B-TUCAO(吐槽 开头字符),I-TUCAO(吐槽后续字符),B-BUG(BUG开头字符), I-BUG(BUG后续字符),B-ADVICE(建议开头字符),I-ADVICE(建议后续字符),B-QUESTION(疑问开头字符),I-QUESTION(疑问后续字符)。
在一个可行的实现方式中,类别概率预测模型可以是FC(fully connectedlayer,全连接层)。FC是一个全连接层,可以用一个公式表示: y=Wx+b。其中x是输入,在当前模型中,x为T,是一个512维的向量, 代表着提取的字符的语义特征,W为一个[512*11]的矩阵,b为一个11维 的向量,最后计算得到的y是一个11维的向量,每一维都是一个0-1之间的数字,也就是属于每一个类别的概率,所以加入的FC层可以将高维 语义特征映射为当前字符为每一个类别的概率。
三,类别识别模型
类别识别模型的输入为类别概率预测模型输出的每个字符属于每个 类别的概率,输出为每个字符的目标类别。某一字符的目标类别是指该字 符的每个预测概率中值最大的一个预测概率所对应的类别。
在一个可能的实现方式中,类别识别模型可以是FRF(conditional randomfield,条件随机场)。CRF是条件随机场,输入为FC层的输出, 也就是各字符属于每一个类别的概率,输出为当前这个字符的中值最大的 预测概率。在序列标注任务中,字符的类别之前是有硬性规则的,比如I 一定要跟在B后面,不能单独出现,CRF模型是一个概率图模型,可以 较好地学习到字符之间的上下文依赖关系,所以可以提高最终的准确率。 其公式为:其中,x为输入,y为最 后的输出。
S404,获取训练样本,所述训练样本包括样本文本和所述样本文本中 每个样本字符的类别标签。
具体的,对于某个游戏应用,可以爬取该游戏应用的玩家的玩家反馈 作为语料,对语料进行人工序列标注,即对语料中每个字符都打上类别标 签,产生的训练样本如下所示,其中括号里面的为字符的类别标签。
玩(O)这(O)个(O)游(O)戏(O)的(O)时(O)候(O),(O)发(O)现(O)网 (B-BUG)络(I-BUG)有(I-BUG)点(I-BUG)卡(I-BUG)顿(I-BUG)。(O)
S406,根据所述训练样本训练所述机器学习模型,获得序列标注模型。
将所述训练样本输入所述机器学习模型的预训练语义识别模型,利用 所述预训练语义识别模型,对所述训练样本对应的样本文本中的每个样本 字符进行特征提取,获得每个样本字符的特征向量,并对每个样本字符的 特征向量进行语义分析,获得每个样本字符的语义特征;将每个样本字符 的语义特征输入所述机器学习模型的类别概率预测模型,利用所述类别概 率预测模型对每个样本字符的语义特征进行类别识别,得到每个样本字符 属于类别集合中每个类别的样本预测概率;将每个样本字符的样本预测概 率输入所述机器学习模型的类别识别模型,利用所述类别识别模型输出样 本文本中每个样本字符的样本目标类别;根据所述样本文本中每个样本字 符的样本目标类别与对应的类别标签之间的损失,训练所述机器学习模 型,得到所述序列标注模型。
训练得到的序列标注模型的模型结构如图5所示,包括预训练语义识 别模型、类别概率预测模型和类别识别模型。预训练语义识别模型的主要 功能是提取文本的语义特征,E表示每一个字符的词向量表示,在本发明 中,为512维的向量,T是预训练语义识别模型输出的基于上下文的语义 表示,为512维。类别概率预测模型,主要作用是将高维的语义表示映射 为每一个类别的概率,L为11维向量,分别对应当前字符为11个类的概 率。类别识别模型,输入为L,输出为当前字符的目标类别。
对于游戏舆情分析场景,游戏用户的反馈来源有:百度贴吧,taptap 等游戏论坛,apple store,*** play等应用商店,主要是玩家对游戏的 评论,玩家之间有关游戏的讨论,其中很多都是情绪性的表达,或者不涉 及对游戏的具体评价,如果直接对这些评论进行分析,无疑会做很多无用 功。本发明要解决的问题就是如何从大量原始评论中提取出来对后续研究 有用的信息,也就是有关游戏的评价、反馈建议以及玩家的关注点。本发 明实施例采用真实评论数据训练预训练语义识别模型,使预训练语义识别 模型学习游戏评论的不同表达模式,在此基础上,采用大量样本数据训练 包含预训练语义识别模型在内的机器学习模型,通过机器学习模型通过学 习获得对文本中各字符进行类别预测的能力,使得训练得到的序列标注模 型在类别预测上具有较高准确度,提升序列标注模型在预测类别上的表 现。
同时,对于游戏舆情分析场景,由于分析数据侧重于有关游戏的评价、 反馈建议以及玩家的关注点,为简化获得这些数据的步骤,本发明实施例 在提取核心观点的同时,会对观点进行分类,类别有:1.评价;2.BUG; 3.提问;4.吐槽;5.建议。本发明实施例采用将观点的类别融入字符类 别的方式,来在提取观点的同时实现对观点的分类,即,每个字符类别携 带观点标签,对于文本中的无关字符,其对应的观点标签为空,对于文本 中的有效字符,其观点标签由序列标记和观点标记组成,序列标记标识字 符的前后顺序,观点标记则对应该字符所组成的观点的类别。
图6是根据本发明实施例的一种可选的基于序列标注模型执行文本处 理方法的流程图。请参见图6,本发明实施例提供一种文本处理方法,包 括如下步骤:
S602,获取待处理文本。
本发明实施例中,待处理文本是与前述模型训练过程中使用的训练样 本及预训练样本来自相同领域的数据,例如,训练样本和预训练样本均为 游戏评论数据时,待处理文本也是游戏评论数据,但可以具有不同的来源 渠道,例如可以来自于百度贴吧,taptap等游戏论坛,apple store,*** play 等应用商店等,如此一来,可以提高序列标注模型对待处理文本所属目标 类别的预测精准度。
同理,当要使用本发明实施例提供的观点提取方案解决诸如购物反馈 信息分析的场景、应用软件反馈信息分析的场景时,需要将训练样本、预 训练样本和待处理文本替换为相应场景下的数据,以及修改机器学习模型 学习的类别。
S604,获取序列标注模型。
序列标注模型由图4-5所对应的模型训练方法训练获得,具体请参见 图4-5相关记载,在此不赘述。
S606,将所述待处理文本输入序列标注模型,对所述待处理文本中每 个字符进行类别识别,获取每个字符属于类别集合中每个类别的预测概 率,以及,根据所述字符的预测概率,输出所述待处理文本中每个字符的 目标类别。
序列标注模型对待处理文本的处理过程包括:
1,将待处理文本输入序列标注模型的预训练语义识别模型,利用预 训练语义识别模型对所述待处理文本中每个字符进行特征提取,获得每个 字符的特征向量;对每个字符的特征向量进行语义分析,获得每个字符的 语义特征;
2,将每个字符的语义特征输入序列标注模型的类别概率预测模型, 类别概率预测模型根据每个字符的语义特征对每个字符进行类别识别,得 到每个字符属于类别集合中每个类别的预测概率。
3,将每个字符的预测概率输入序列标注模型的类别识别模型,类别 识别模型从每个字符所属每个类别的预测概率中,选择概率最大的预测概 率对应的类别作为该字符对应的目标类别,将每个字符对应的目标类别作 为序列标注模型的输出。
S608,根据所述待处理文本中每个字符的目标类别,确定所述待处理 文本的观点数据。所述观点数据包括所述待处理文本的摘要和所述摘要的 观点类型。
本发明实施例中,字符类别集合中每个类别具有观点标签,对于有效 字符,该观点标签为非空,对于无关字符,该观点标签为空;对于观点标 签为非空的类别,观点标签包括序列标记和观点标记,其中,序列标记用 于指示该序列标记所对应的类别与该类别的关联类别之间的位置关系,类 别的关联类别是指与所述类别具有相同观点标记的类别,观点标记则对应 该字符所组成的观点的类别。
图7是根据本发明实施例的一种基于目标类别生成观点数据的方法的 流程图。请参见图7,在步骤3之后,还包括结合类别对应的观点标签对 于序列标注模型的输出进行后处理的步骤,具体包括:
S702,根据所述字符类别集合中每个类别的观点标签,确定每个目标 类别的观点标签,将每个目标类别的观点标签作为与该目标类别对应的字 符的目标观点标签。
S704,基于所述待处理文本中目标观点标签为非空的所有字符,生成 有效字符集合,其中,所述有效字符集合中的每个目标观点标签包括序列 标记和观点标记。
S706,根据所述目标观点标签中的观点标记,对所述有效字符集合中 的字符进行归类,得到至少一个目标字符集合,所述目标字符集合中的所 有字符具有相同的观点标记。
S708,按照所述目标观点标签中的序列标记,对每个所述目标字符集 合中的字符进行组合,生成与每个目标字符集合对应的摘要。
其中,所述序列标记包括第一序列标记和第二序列标记,所述第一序 列标记用于标注观点的起始字符,所述第二序列标记用于标注观点的后续 字符。步骤S708可以包括:将每个目标字符集合中序列标记为第一序列 标记的字符作为起始字符,将目标字符集合中序列标记为第二序列标记的 字符作为后续字符,按照各后续字符在所述待处理文本中的顺序,将各后 续字符接续在所述起始字符之后,形成与每个目标字符集合各自对应的摘要。
示例性的,对于文本“感觉画面挺好看的,就是日常任务太多,而且 非常卡顿”,序列标注模型输出该文本中每个字符的类别为:
感(O)觉(O)画(B-OPINION)面(I-OPINION)挺(I-OPINION)好 (I-OPINION)看(I-OPINION)的(I-OPINION),(O)就(O)是(O)日(B-TUCAO) 常(B-TUCAO)任(B-TUCAO)务(B-TUCAO)太(B-TUCAO)多(B-TUCAO), (O)而(O)且(O)非(B-BUG)常(I-BUG)卡(I-BUG)顿(I-BUG)。(O)。
其中,O为无关类,OPINION、TUCAO和BUG为观点标记,B为 第一序列标记,I为第二序列标记。
对模型输出按照观点标记归类,得到三个目标字符集合,分别为对应 OPINION的目标字符集合:{画(B-OPINION),面(I-OPINION),挺 (I-OPINION),好(I-OPINION),看(I-OPINION),的(I-OPINION)},对应 TUCAO的目标字符集合:{日(B-TUCAO),常(B-TUCAO),任(B-TUCAO) 务(B-TUCAO),太(B-TUCAO),多(B-TUCAO)},以及对应BUG的目标 字符集合:{非(B-BUG),常(I-BUG),卡(I-BUG),顿(I-BUG)}。
对应OPINION的目标字符集合中,“画(B-OPINION)”的序列标记 “B”代表第一序列标记,“面(I-OPINION)”、“挺(I-OPINION)”、“好 (I-OPINION)”、“看(I-OPINION)”和“的(I-OPINION)”的序列标记“I” 代表第二序列标记,“画”是摘要的起始字符,“面”、“挺”、“好”、“看”及“的”是紧跟“画”的后续字符,为了确定每个后续字符的位置, 引入后续字符在原文本中的出现顺序,根据后续字符在原文本中的先后顺 序决定这些后续字符在摘要中的字符顺序,原文本中“感觉画面挺好看 的”,“面”、“挺”、“好”、“看”及“的”的出现顺序为“面”“挺” “好”“看”“的”,按照这些字符在原文中的出现顺序,确定出后续字 符的组合结果为“面挺好看的”,进而将后续字符接续在起始字符之后, 获得摘要“画面挺好看的”。按照相同处理方式,获得对应TUCAO的目 标字符集合的摘要“日常任务很多”、对应BUG的目标字符集合的摘要 “非常卡顿”。
前述步骤获得的目标字符集合中的数据以单个字符存在,通过序列标 记可以快速定位摘要的起始字符,结合各字符在待处理文本中的顺序,可 以对接续在起始字符的后续字符进行快速排序,组合得到语义通顺的摘 要。
S710,根据所述目标字符集合中所述字符的观点标记,确定所述摘要 的观点类型。
组成摘要的所有字符来自同一目标字符集合,具有相同的观点标记, 故可以将这些字符对应的观点标记作为摘要的观点类型。在输出摘要的同 时可以输出摘要的观点类型,无需额外对摘要进行分类,利于加快后续舆 情分析的效率。
S712,根据每个目标字符集合对应的摘要和观点标记,生成所述待处 理文本的观点数据。
图8是根据本发明实施例的使用文本处理方法进行观点提取的流程示 意图。请参见图8,序列标注模型的输入为评论原文“应该快发布了,画 面优美,但是平衡性不行,希望别那么氪”,经过序列标注模型处理后, 输出为每一个字符的目标类别,其中,观点标签O为无关类,观点标签为 X-Y格式则为相关类,其中Y代表观点标记,可以为OPINION、TUCAO、ADVICE等,X代表序列标记,分为指示开始的第一序列标记B和指示后 续的第二序列标记I;图中,B-OPINION为评价开头字符,I-OPINION为 评价后续字符,B-TUCAO为吐槽开头字符,I-TUCAO为吐槽后续字符, B-ADVICE为建议开头字符,I-ADVICE为建议后续字符。然后将标记为 非无关类的字符提取出来,即提取标注为B-OPINION、I-OPINION、 B-TUCAO、I-TUCAO、B-ADVICE和I-ADVICE的字符;接着,按照观 点标记对提取出来的字符进行归类,获得三个目标字符集合{画,面,优, 美}、{平,衡,性,不,行}和{希,望,别,那,么,氪};根据各目标字符集合中每个字符的序列标记,将序列标记为B的字符作为开始字符, 将序列标记为I的字符作为后续字符,对于多个后续字符,依据每个后续 字符在原文本中的出现顺序进行排序,将经过排序后的后续字符接续在开 始字符之后,即组合得到各目标字符集合对应的摘要,组成摘要的每个字 符的观点标记均相同,故可以将这些字符对应的观点标记作为摘要的观点 类型,如目标字符集合{希,望,别,那,么,氪}组合得到摘要“希望别 那么氪”,该摘要对应的观点类型为“ADVICE”。为了给后续舆情分析 提供更多有价值的信息,将摘要和观点标记共同作为观点数据,如此,在 获得文本摘要信息的同时,可以获得该摘要的观点类型,加快后续舆情分 析的效率。
本发明实施例提供了一种文本处理方法,相比于encoder-decoder类型 的生成式文本处理方法,能够保证提取出来的观点可以从原文中找到;而 且相比于基于词库的文本处理方法,本方案因为采用了预训练语义识别模 型,能够对评论进行有效的建模,从而能够适应多种多样的用户描述,提 高对于玩家观点的召回率。
本发明实施例的方案可以应用于舆情分析,比如游戏舆情分析,分析 玩家反馈问题。具体来说,提取出的观点能够用于后续的评论聚类,热点 发现等任务。本技术方案属于抽取式文本摘要方法,采用预训练语义识别 模型做特征提取,并用了大量的玩家评论语料进行预训练,在应用的时候 可以更适应评论语料;同时,采用序列标注模型从原文中直接抽取核心观 点字符,这样可以保证生成的观点跟原文偏差较小,而且用评论语料做了 预训练,保证模型能够适应评论语料的表达模式,这样在实际应用的过程 中,即使玩家的表达多样化,也可以提取出来里面的观点,解决相关抽取 式文本摘要方法提取观点时词库无法覆盖全的问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须 的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根 据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当 然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理 解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软 件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可 以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所 述的方法。
根据本发明实施例,还提供了一种用于实施上述文本处理方法的文本 处理装置。图9是根据本发明实施例的一种可选的文本处理装置的示意图, 如图9所示,该文本处理装置90可以包括:待处理文本获取单元910、目 标类别确定单元920和观点确定单元930。
待处理文本获取单元910,用于获取待处理文本。
目标类别确定单元920,用于将所述待处理文本输入序列标注模型, 对所述待处理文本中每个字符进行类别识别,得到每个字符属于类别集合 中每个类别的预测概率,以及,根据所述字符的预测概率,输出所述待处 理文本中每个字符的目标类别。
观点确定单元930,用于根据所述待处理文本中每个字符的目标类别, 确定所述待处理文本的观点数据,所述观点数据包括所述待处理文本的摘 要和所述摘要的观点类型。
需要说明的是,该实施例中的待处理文本获取单元910可以用于执行 本申请实施例中的步骤S602,该实施例中的目标类别确定单元920可以 用于执行本申请实施例中的步骤S604和S606,该实施例中的观点确定单 元930可以用于执行本申请实施例中的步骤S608。
此处需要说明的是,上述单元与对应的步骤所实现的示例和应用场景 相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为 装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现, 也可以通过硬件实现。
通过上述装置,可以解决了基于抽取式文本摘要方法难以准确获得文 本核心观点的技术问题,进而达到提升从文本中提取观点的准确性的技术 效果。
可选地,序列标注模型通过如下方式训练得到:构建机器学习模型, 所述机器学习模型包括预训练语义识别模型、类别概率预测模型和类别识 别模型;获取训练样本,所述训练样本包括样本文本和所述样本文本中每 个样本字符的类别标签;将所述训练样本输入所述机器学习模型的预训练 语义识别模型,利用所述预训练语义识别模型,对所述训练样本对应的样 本文本中的每个样本字符进行特征提取,获得每个样本字符的特征向量,并对每个样本字符的特征向量进行语义分析,获得每个样本字符的语义特 征;将每个样本字符的语义特征输入所述机器学习模型的类别概率预测模 型,利用所述类别概率预测模型对每个样本字符的语义特征进行类别识 别,得到每个样本字符属于类别集合中每个类别的样本预测概率;将每个 样本字符的样本预测概率输入所述机器学习模型的类别识别模型,利用所 述类别识别模型输出样本文本中每个样本字符的样本目标类别;根据所述样本文本中每个样本字符的样本目标类别与对应的类别标签之间的损失, 训练所述机器学习模型,得到所述序列标注模型。
此处需要说明的是,本发明实施例的文本处理装置与实施例中文本处 理方法基于相同的发明构思,对于序列标注模型的详细训练过程,请参照 前述实施例的记载,在此不赘述。
根据本发明实施例,还提供了一种用于实施上述文本处理方法的电子 装置。
图10是根据本发明实施例的一种电子装置的结构框图,如图10所示, 该的电子装置可以包括:一个或多个(图中仅示出一个)处理器111、存 储器113。可选地,该电子装置还可以包括传输装置115、输入输出设备 117。
其中,存储器113可用于存储软件程序以及模块,如本发明实施例中 的文本处理方法和装置对应的程序指令/模块,处理器111通过运行存储在 存储器113内的软件程序以及模块,从而执行各种功能应用以及数据处理, 即实现上述的文本处理方法。存储器113可包括高速随机存储器,还可以 包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非 易失性固态存储器。在一些实例中,存储器113可进一步包括相对于处理 器111远程设置的存储器,这些远程存储器可以通过网络连接至电子装置。 上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网 及其组合。
上述的传输装置115用于经由一个网络接收或者发送数据,还可以用 于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络 及无线网络。在一个实例中,传输装置115包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连 从而可与互联网或局域网进行通讯。在一个实例中,传输装置115为射频 (Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器113用于存储应用程序。
处理器111可以通过传输装置115调用存储器113存储的应用程序, 以执行下述步骤:获取待处理文本;将所述待处理文本输入序列标注模 型,对所述待处理文本中每个字符进行类别识别,获取每个字符属于类别 集合中每个类别的预测概率;根据所述字符的预测概率,输出所述待处理 文本中每个字符的目标类别;根据所述待处理文本中每个字符的目标类 别,确定所述待处理文本的观点数据,所述观点数据包括所述待处理文本 的摘要和所述摘要的观点类型。
处理器111还用于执行下述步骤:构建机器学习模型,所述机器学习 模型包括预训练语义识别模型、类别概率预测模型和类别识别模型;获取 训练样本,所述训练样本包括样本文本和所述样本文本中每个样本字符的 类别标签;将所述训练样本输入所述机器学习模型的预训练语义识别模 型,利用所述预训练语义识别模型,对所述训练样本对应的样本文本中的 每个样本字符进行特征提取,获得每个样本字符的特征向量,并对每个样本字符的特征向量进行语义分析,获得每个样本字符的语义特征;将每个 样本字符的语义特征输入所述机器学习模型的类别概率预测模型,利用所 述类别概率预测模型对每个样本字符的语义特征进行类别识别,得到每个 样本字符属于类别集合中每个类别的样本预测概率;将每个样本字符的样 本预测概率输入所述机器学习模型的类别识别模型,利用所述类别识别模 型输出样本文本中每个样本字符的样本目标类别;根据所述样本文本中每个样本字符的样本目标类别与对应的类别标签之间的损失,训练所述机器 学习模型,得到所述序列标注模型。
采用本发明实施例,将待处理文本输入训练得到的序列标注模型中, 利用序列标注模型对待处理文本中每个字符进行类别识别,得到每个字符 属于预设的类别集合中每个类别的预测概率,以及根据每个字符的预测概 率,输出得到待处理文本中每个字符的目标类别,然后根据每个字符的目 标类别,确定出待处理文本的观点。本方案通过序列标注模型对待处理文 本中各字符的类别进行预测,基于预测的类别概率找到待处理文本中属于 核心观点的字符,进而根据这些核心字符来生成待处理文本对应的观点, 提高了从文本中抽取核心观点的准确度,进而解决了基于抽取式文本摘要 方法难以准确获得文本核心观点的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示 例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装 置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电 脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等电子装 置。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可 包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部 分步骤是可以通过程序来指令电子装置相关的硬件来完成,该程序可以存 储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器 (Read-Only Memory,ROM)、随机存取器(Random Access Memory, RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上 述存储介质可以用于执行文本处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网 络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行附图6所对 应的文本处理方法的步骤的程序代码。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示 例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只 读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的 介质。
本发明的实施例还提供了一种计算机程序产品或计算机程序,该计算 机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可 读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机 指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实 现方式中提供的文本处理方法。
本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储 器,所述存储器中存储有至少一条指令和至少一段程序,所述至少一条指 令或者至少一段程序由处理器加载并执行以实现如图6对应的文本处理方 法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器 的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主 要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、功 能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数 据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性 存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储 器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器 的访问。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为 独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。 基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的 部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计 算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算 机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可 通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的, 例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或 通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入序列标注模型,对所述待处理文本中每个字符进行类别识别,获取每个字符属于类别集合中每个类别的预测概率;
根据所述字符的预测概率,输出所述待处理文本中每个字符的目标类别;
根据所述待处理文本中每个字符的目标类别,确定所述待处理文本的观点数据,所述观点数据包括所述待处理文本的摘要和所述摘要的观点类型。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本中每个字符进行类别识别,获取每个字符属于类别集合中每个类别的预测概率,包括:
对所述待处理文本中每个字符进行特征提取,获得每个字符的特征向量;
对每个字符的特征向量进行语义分析,获得每个字符的语义特征;
根据每个字符的语义特征对每个字符进行类别识别,得到每个字符属于类别集合中每个类别的预测概率。
3.根据权利要求1所述的方法,其特征在于,所述根据所述字符的预测概率,输出所述待处理文本中每个字符的目标类别,包括:
从每个字符的所有预测概率中,选择值最大的预测概率所对应的类别作为该字符的目标类别。
4.根据权利要求1所述的方法,其特征在于,所述字符类别集合中每个类别具有观点标签,所述观点标签包括序列标记和观点标记,其中,所述序列标记用于指示该序列标记所对应的类别与该类别的关联类别之间的位置关系,所述类别的关联类别是指与所述类别具有相同观点标记的类别;
所述根据所述待处理文本中每个字符的目标类别,确定所述待处理文本的观点数据,包括:
根据所述字符类别集合中每个类别的观点标签,确定每个目标类别的观点标签,将每个目标类别的观点标签作为与该目标类别对应的字符的目标观点标签;
基于所述待处理文本中目标观点标签为非空的所有字符,生成有效字符集合;
根据所述目标观点标签中的观点标记,对所述有效字符集合中的字符进行归类,得到至少一个目标字符集合,所述目标字符集合中的所有字符具有相同的观点标记;
按照所述目标观点标签中的序列标记,对每个所述目标字符集合中的字符进行组合,生成与每个目标字符集合对应的摘要;
根据所述目标字符集合中所述字符的观点标记,确定所述摘要的观点类型;
根据每个目标字符集合对应的摘要和所述摘要的观点类型,生成所述待处理文本的观点数据。
5.根据权利要求4所述的方法,其特征在于,
所述序列标记包括第一序列标记和第二序列标记,所述第一序列标记用于标注观点的起始字符,所述第二序列标记用于标注观点的后续字符;
所述按照所述目标观点标签中的序列标记,对每个所述目标字符集合中的字符进行组合,生成与每个目标字符集合对应的摘要,包括:
将每个目标字符集合中序列标记为第一序列标记的字符作为起始字符,将目标字符集合中序列标记为第二序列标记的字符作为后续字符,按照各后续字符在所述待处理文本中的顺序,将各后续字符接续在所述起始字符之后,形成与每个目标字符集合各自对应的摘要。
6.根据权利要求1所述的方法,其特征在于,所述序列标注模型通过如下方式训练得到:
构建机器学习模型,所述机器学习模型包括预训练语义识别模型、类别概率预测模型和类别识别模型;
获取训练样本,所述训练样本包括样本文本和所述样本文本中每个样本字符的类别标签;
将所述训练样本输入所述机器学习模型的预训练语义识别模型,利用所述预训练语义识别模型,对所述训练样本对应的样本文本中的每个样本字符进行特征提取,获得每个样本字符的特征向量,并对每个样本字符的特征向量进行语义分析,获得每个样本字符的语义特征;
将每个样本字符的语义特征输入所述机器学习模型的类别概率预测模型,利用所述类别概率预测模型对每个样本字符的语义特征进行类别识别,得到每个样本字符属于类别集合中每个类别的样本预测概率;
将每个样本字符的各样本预测概率输入所述机器学习模型的类别识别模型,利用所述类别识别模型输出样本文本中每个样本字符的样本目标类别;
根据所述样本文本中每个样本字符的样本目标类别与对应的类别标签之间的损失,训练所述机器学习模型,得到所述序列标注模型。
7.根据权利要求6所述的方法,其特征在于,所述预训练语义识别模型通过如下方式训练得到:
获取语义识别模型,所述语义识别模型包括掩码语言模型和句子关系预测模型;
获取预训练样本;
根据所述预训练样本对所述语义识别模型的掩码语言模型和句子关系预测模型进行联合训练,得到所述预训练语义识别模型。
8.一种文本处理装置,其特征在于,包括:
待处理文本获取单元,用于获取待处理文本;
目标类别确定单元,用于将所述待处理文本输入序列标注模型,对所述待处理文本中每个字符进行类别识别,获取每个字符属于类别集合中每个类别的概率,根据所述字符的预测概率,输出所述待处理文本中每个字符的目标类别;
观点确定单元,用于根据所述待处理文本中每个字符的目标类别,确定所述待处理文本的观点数据,所述观点数据包括所述待处理文本的摘要和所述摘要的观点类型。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的文本处理方法。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157333.7A CN113392641A (zh) | 2020-10-26 | 2020-10-26 | 文本处理方法、装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157333.7A CN113392641A (zh) | 2020-10-26 | 2020-10-26 | 文本处理方法、装置、存储介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392641A true CN113392641A (zh) | 2021-09-14 |
Family
ID=77616515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011157333.7A Pending CN113392641A (zh) | 2020-10-26 | 2020-10-26 | 文本处理方法、装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392641A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806496A (zh) * | 2021-11-19 | 2021-12-17 | 航天宏康智能科技(北京)有限公司 | 从文本序列中抽取实体的方法及装置 |
CN113836274A (zh) * | 2021-11-25 | 2021-12-24 | 平安科技(深圳)有限公司 | 基于语义解析的摘要提取方法、装置、设备及介质 |
CN114547270A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 文本处理方法、文本处理模型的训练方法、装置和设备 |
CN115422322A (zh) * | 2022-08-05 | 2022-12-02 | 北京海泰方圆科技股份有限公司 | 一种摘要生成方法及装置 |
WO2023040742A1 (zh) * | 2021-09-16 | 2023-03-23 | 华为技术有限公司 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
JP7246458B1 (ja) | 2021-10-01 | 2023-03-27 | ネイバー コーポレーション | 超巨大言語モデルを用いた文書要約方法及びシステム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110162594A (zh) * | 2019-01-04 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本数据的观点生成方法、装置及电子设备 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN111191275A (zh) * | 2019-11-28 | 2020-05-22 | 深圳云安宝科技有限公司 | 敏感数据识别方法、***及其装置 |
CN111291566A (zh) * | 2020-01-21 | 2020-06-16 | 北京明略软件***有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN111339750A (zh) * | 2020-02-24 | 2020-06-26 | 网经科技(苏州)有限公司 | 去除停用语并预测句子边界的口语文本处理方法 |
CN111737989A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种意图识别方法、装置、设备及存储介质 |
-
2020
- 2020-10-26 CN CN202011157333.7A patent/CN113392641A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110162594A (zh) * | 2019-01-04 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本数据的观点生成方法、装置及电子设备 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN111191275A (zh) * | 2019-11-28 | 2020-05-22 | 深圳云安宝科技有限公司 | 敏感数据识别方法、***及其装置 |
CN111291566A (zh) * | 2020-01-21 | 2020-06-16 | 北京明略软件***有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN111339750A (zh) * | 2020-02-24 | 2020-06-26 | 网经科技(苏州)有限公司 | 去除停用语并预测句子边界的口语文本处理方法 |
CN111737989A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种意图识别方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
WEN-BIN HAN等: "Opinion Mining with Deep Contextualized Embeddings", PROCEEDINGS OF THE 2019 CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: STUDENT RESEARCH WORKSHOP, pages 35 * |
谢腾等: "基于BERT-BiLSTM-CRF模型的中文实体识别", 计算机***应用, vol. 29, no. 7, pages 48 - 55 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023040742A1 (zh) * | 2021-09-16 | 2023-03-23 | 华为技术有限公司 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
JP7246458B1 (ja) | 2021-10-01 | 2023-03-27 | ネイバー コーポレーション | 超巨大言語モデルを用いた文書要約方法及びシステム |
JP2023053867A (ja) * | 2021-10-01 | 2023-04-13 | ネイバー コーポレーション | 超巨大言語モデルを用いた文書要約方法及びシステム |
CN113806496A (zh) * | 2021-11-19 | 2021-12-17 | 航天宏康智能科技(北京)有限公司 | 从文本序列中抽取实体的方法及装置 |
CN113806496B (zh) * | 2021-11-19 | 2022-02-15 | 航天宏康智能科技(北京)有限公司 | 从文本序列中抽取实体的方法及装置 |
CN113836274A (zh) * | 2021-11-25 | 2021-12-24 | 平安科技(深圳)有限公司 | 基于语义解析的摘要提取方法、装置、设备及介质 |
CN114547270A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 文本处理方法、文本处理模型的训练方法、装置和设备 |
CN114547270B (zh) * | 2022-02-25 | 2023-04-21 | 北京百度网讯科技有限公司 | 文本处理方法、文本处理模型的训练方法、装置和设备 |
CN115422322A (zh) * | 2022-08-05 | 2022-12-02 | 北京海泰方圆科技股份有限公司 | 一种摘要生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392641A (zh) | 文本处理方法、装置、存储介质和设备 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN108304439B (zh) | 一种语义模型优化方法、装置及智能设备、存储介质 | |
CN110209844B (zh) | 多媒体数据匹配方法、装置和存储介质 | |
CN111104512B (zh) | 游戏评论的处理方法及相关设备 | |
WO2019100319A1 (en) | Providing a response in a session | |
Wang et al. | Discovering attractive segments in the user-generated video streams | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN104076944A (zh) | 一种聊天表情输入的方法和装置 | |
CN108319723A (zh) | 一种图片分享方法和装置、终端、存储介质 | |
CN110554782B (zh) | 一种表情输入的图像合成方法和*** | |
CN110781668A (zh) | 文本信息的类型识别方法及装置 | |
CN108304373A (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN110309114A (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
CN113392331A (zh) | 文本处理方法及设备 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、***和存储介质 | |
CN112257452A (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN112163560A (zh) | 一种视频信息处理方法、装置、电子设备及存储介质 | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113486173A (zh) | 文本标注神经网络模型及其标注方法 | |
CN113094478A (zh) | 表情回复方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40051849 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |