CN110377744B - 一种舆情分类的方法、装置、存储介质及电子设备 - Google Patents
一种舆情分类的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110377744B CN110377744B CN201910683305.XA CN201910683305A CN110377744B CN 110377744 B CN110377744 B CN 110377744B CN 201910683305 A CN201910683305 A CN 201910683305A CN 110377744 B CN110377744 B CN 110377744B
- Authority
- CN
- China
- Prior art keywords
- text
- training
- comprehensive
- target
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种舆情分类的方法、装置、存储介质及电子设备,其中,该方法包括:获取待识别文本,并提取出目标实体;选取一个目标实体作为有效目标实体并生成综合文本;对综合文本进行编码处理,生成综合文本的文本向量,并根据文本向量进行舆情分类处理,确定有效目标实体所对应的舆情类别;之后选取下一个目标实体作为有效目标实体,继续上述过程,直至遍历待识别文本中的所有目标实体。通过本发明实施例提供的舆情分类的方法、装置、存储介质及电子设备,通过将文本和实体结合生成综合文本的方式,可以确定文本中所包含的每个实体的舆情类别;且可以更加有针对性地确定该实体的舆情类别,舆情类别的识别准确度更高。
Description
技术领域
本发明涉及舆情分类的技术领域,具体而言,涉及一种舆情分类的方法、装置、存储介质及电子设备。
背景技术
目前,舆情分类是舆情分析中最普遍的任务之一,在舆情监控中具有重要作用。舆情分类最常见的为褒贬二元分类,例如看空看涨等分析可以体现主观舆论的倾向。舆情分类也可以是更细致的多元分类,比如基于用户可以想起来或看到的词或短语(比如负债、利润上涨、偷税漏税、技术革新等),表达一篇文档对某个金融实体事实性信息状态的描述。
传统的舆情分类方案是将该问题归结为一种文本分类问题,进而使用分类器进行解决。但是,对于一段文本,传统的分类器一般只能识别出一个标签,即只能识别出一种舆情类别。然而,在现实世界中的文本通常可能包含多个金融实体,每个金融实体所对应的舆情类型很可能是有区别甚至对立的。例如,在“招商银行通过减持百度股票获利500万元”这段文本中存在两个金融实体:“招商银行”和“百度”,他们所对应的舆情类别分别是“经营利好”和“股票解禁或减持”,是正负面完全不同的两种标签。显然,单纯利用文本信息是无法正确识别这类文本的。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种舆情分类的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种舆情分类的方法,包括:
获取待识别文本,并提取出所述待识别文本中的一个或多个目标实体;
选取一个所述目标实体作为有效目标实体,结合所述有效目标实体和所述待识别文本生成综合文本;
对所述综合文本进行编码处理,生成所述综合文本的文本向量,并根据所述文本向量进行舆情分类处理,确定当前的所述有效目标实体所对应的舆情类别;
之后选取下一个目标实体作为有效目标实体,继续上述确定有效目标实体所对应的舆情类别的过程,直至遍历所述待识别文本中的所有所述目标实体。
第二方面,本发明实施例还提供了一种舆情分类的装置,包括:
获取模块,用于获取待识别文本,并提取出所述待识别文本中的一个或多个目标实体;
文本结合模块,用于选取一个所述目标实体作为有效目标实体,结合所述有效目标实体和所述待识别文本生成综合文本;
舆情分类模块,用于对所述综合文本进行编码处理,生成所述综合文本的文本向量,并根据所述文本向量进行舆情分类处理,确定当前的所述有效目标实体所对应的舆情类别;
遍历模块,用于之后选取下一个目标实体作为有效目标实体,继续上述确定有效目标实体所对应的舆情类别的过程,直至遍历所述待识别文本中的所有所述目标实体。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的舆情分类的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的舆情分类的方法。
本发明实施例上述第一方面提供的方案中,预先识别出文本中的实体,通过将文本和实体结合生成综合文本的方式,可以确定文本中所包含的每个实体的舆情类别;即使不同的实体对应正负面完全不同的舆情类别也可以正常识别。同时,预先提取出文本中的实体,可以更加有针对性地确定该实体的舆情类别,舆情类别的识别准确度更高。在编码处理时将字符作为最小语义单元,可以不需要依赖于上游的分词任务,可以很好地处理罕见词。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种舆情分类的方法的流程图;
图2示出了本发明实施例所提供的舆情分类的方法中,舆情分类模型的一种结构示意图;
图3示出了本发明实施例所提供的舆情分类的方法中,语言预测模型的一种结构示意图;
图4示出了本发明实施例所提供的一种舆情分类的装置的结构示意图;
图5示出了本发明实施例所提供的用于执行舆情分类的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种舆情分类的方法,参见图1所示,包括:
步骤101:获取待识别文本,并提取出待识别文本中的一个或多个目标实体。
本发明实施例中,该待识别文本即为需要识别舆情类别的文本,其中,该待识别文本中可以包含多个实体,且每个实体在该待识别文本中可具有相同或不同的舆情类别。本实施例中的“实体”指的是命名实体,其具体可以是公司名、人名等。在确定待识别文本之后,可以基于公司名识别***或者命名实体识别***识别出待识别文本中的实体,之后选取其中的部分或全部实体作为目标实体,进而确定每个目标实体的舆情类别。例如,待识别文本为“银行A通过减持公司B的股票获利500万元”,其中的实体包括“银行A”和“公司B”,两个实体均可以作为本实施例中的目标实体。
步骤102:选取一个目标实体作为有效目标实体,结合有效目标实体和待识别文本生成综合文本。
本发明实施例中,目标实体是需要确定舆情类别的实体,一个待识别文本中可以包含一个或多个目标实体,本实施例中分别识别每个目标实体对应的舆情类别。具体的,本实施例中依次选取一个目标实体作为有效目标实体,之后结合该有效目标实体和完整的待识别文本生成综合文本。例如,待识别文本为“银行A通过减持公司B的股票获利500万元”,目标实体为“银行A”和“公司B”,此时可以选取“银行A”为有效目标实体,进而生成包含有效目标实体和待识别文本的综合文本,该综合文本例如是:“银行A银行A通过减持公司B的股票获利500万元”。
步骤103:对综合文本进行编码处理,生成综合文本的文本向量,并根据文本向量进行舆情分类处理,确定当前的有效目标实体所对应的舆情类别。
本发明实施例中,在确定综合文本之后即可将该综合文本转换为机器可识别的编码,即通过编码处理生成综合文本的文本向量;之后利用训练好的分类器即可对该文本向量进行舆情分类处理,从而可以确定相应的舆情类别。其中,该分类器可以采用传统的分类器,区别在于该分类器在训练时采用的样本也是将“实体+文本”作为分类器的输入。
可选的,上述步骤103“对综合文本进行编码处理,生成综合文本的文本向量”包括:确定综合文本中所包含的字符,基于训练好的编码器确定每个字符的字符向量,将所有的字符向量组成的向量序列作为综合文本的文本向量。
本发明实施例中,在编码处理之前,首先对输入的综合文本进行字符化处理,即确定其所包含的字符。将字符作为最小语义单元,可以不需要依赖于上游的分词任务,进而可以很好地处理罕见词。例如,该综合文本为中文的文本,则可以将每个汉字作为一个字符。
在确定综合文本中的字符之后,即可基于编码器进行编码处理,生成每个字符的字符向量。其中,该编码器可以为循环神经网络,也可以是转换器模型的编码器部分等,本实施例对此不做限定。之后即可将所有的字符向量进行组成,从而将生成的向量序列作为综合文本的文本向量。
可选的,上述步骤“基于训练好的编码器确定每个字符的字符向量”具体包括:确定每个字符的查询编码、键编码和值编码,并根据查询编码、键编码和值编码确定每个字符的字符向量ci;
且,其中,ci表示第i个字符的字符向量,n表示字符数量,qi表示第i个字符的查询编码,ki表示第i个字符的键编码,s(qi,ki)表示查询编码qi与键编码ki之间的相似度,vi表示第i个字符的值编码。
本实施例中,在确定综合文本中的字符之后,基于训练好的转换矩阵可以将该字符转换为相应的查询编码(query)、键编码(key)和值编码(value);之后计算查询编码与键编码之间的相似度,即计算s(qi,ki),并基于该相似度来确定每个字符的权重进而生成每个字符的字符向量其中,查询编码与键编码之间的相似度可采用相似度函数进行计算,例如点积、感知机等,本实施例对此不做限定。此外,可选的,键编码可以于值编码相同,即ki=vi。在确定每个字符向量之后,即可生成相应的文本向量[c1,c2,…,ci,…,cn]。
此外,由于综合文本中包含有效目标实体和待识别文本,为了区分有效目标实体和待识别文本,可以在二者之间添加分隔符,此时该分隔符也需要作为综合文本的一个字符,即也需要确定该分隔符的字符向量。例如,待识别文本为“银行A通过减持公司B的股票获利500万元”,有效目标实体为“银行A”,综合文本为“银行A通过减持公司B的股票获利500万元[SEP]银行A”,其中的“[SEP]”即为分隔符,此时也需要确定该分隔符的字符向量。
步骤104:之后选取下一个目标实体作为有效目标实体,继续上述确定有效目标实体所对应的舆情类别的过程,直至遍历待识别文本中的所有目标实体。
本发明实施例中,在确定当前选取的目标实体的舆情类别后,即可选取其他的目标实体作为有效目标实体,之后重复上述步骤102至103,直至遍历待识别文本中的所有目标实体,确定所有目标实体的舆情类别。例如,待识别文本为“银行A通过减持公司B的股票获利500万元”,目标实体包括“银行A”和“公司B”;此时可以先选目标实体“银行A”为有效目标实体,基于上述的过程可以确定该目标实体“银行A”对应的舆情类别是“获利”或“利好”等;之后再选取目标实体“公司B”作为有效目标实体,再确定该目标实体对应的舆情类别,即“减持”、“股票解禁”或“利空”等。本实施例通过将文本和实体结合生成综合文本的方式,可以确定文本中所包含的每个实体的舆情类别;同时,预先提取出文本中的实体,可以更加有针对性地确定该实体的舆情类别,类别识别准确度更高。同时,对于同一个文本,当与不同的实体结合时可以生成不同的综合文本,即随着实体的变化,最终确定的舆情类别也可能发生变化。如上例,对于同一个待识别文本,实体“银行A”对应的舆情类别是“利好”,而实体“公司B”的舆情类别是完全相反的“利空”。
本发明实施例提供的一种舆情分类的方法,预先识别出文本中的实体,通过将文本和实体结合生成综合文本的方式,可以确定文本中所包含的每个实体的舆情类别;即使不同的实体对应正负面完全不同的舆情类别也可以正常识别。同时,预先提取出文本中的实体,可以更加有针对性地确定该实体的舆情类别,舆情类别的识别准确度更高。在编码处理时将字符作为最小语义单元,可以不需要依赖于上游的分词任务,可以很好地处理罕见词。
在上述实施例的基础上,该方法还包括模型训练过程,本实施例采用参数共享的方式对模型进行训练,以提高模型分类的准确性。具体的,在步骤101“获取待识别文本”之前,该方法还包括:
步骤A1:确定训练文本,并预先确定训练文本中的目标训练实体以及与目标训练实体相对应的第一舆情类别和第一舆情关键词。
本发明实施例中,首选确定训练文本,并确定该训练文本中的目标训练实体;同时,每个目标训练实体具有相应的舆情类别,即第一舆情类别。此外,目前的舆情分类模型只是给出了最后的分类结果,但是并未涉及为什么会得出该分类结果,即现有的舆情分类模型没有体现出分类的因果关系;本实施例中还提取并训练与舆情类别相关的关键词,即第一舆情关键词,从而突出舆情分类的因果关系,进一步提高该舆情分类模型的准确性。
例如,训练文本为“长城证券减持百度”,其目标训练实体为“百度”,该目标训练实体的舆情类别为“利空”,其相应的舆情关键词是“减持”。其中,可以通过人工标注的方式来确定训练文本中的目标训练实体、舆情类别、舆情关键词等。具体的,可以通过互联网等采集可用的数据,例如新闻数据、金融领域自媒体数据、公司公告正文、研究报告正文等,将采集的包含公司名的文本作为训练文本,之后对本实施例中的模型进行训练。
步骤A2:结合训练文本和目标训练实体生成综合训练文本,并基于待训练的编码器对综合训练文本进行编码处理,生成综合训练文本的训练文本向量。
本实施例中,与上述步骤103类似,在训练阶段仍然需要结合文本+实体生成综合文本进行编码,即结合训练文本和目标训练实体生成综合训练文本,之后基于编码器进行编码处理。其中,在训练阶段,该编码器为需要进行训练的编码器,即编码器的参数(例如权重等)需要基于训练结果进行调整。
步骤A3:将训练文本向量作为待训练的分类模型的输入,基于分类模型确定综合训练文本所对应的第二舆情类别;同时将训练文本向量作为待训练的关键词提取模型的输入,基于关键词提取模型提取出综合训练文本中的第二舆情关键词。
本发明实施例中,在基于编码器生成训练文本向量之后,一方面,该训练文本向量输入至分类模型中;另一方面,该训练文本向量输入至关键词提取模型中;基于正在训练的模型,可以分别确定该模型所识别出的训练文本的舆情类别(即第二舆情类别)和舆情关键词(即第二舆情关键词)。
具体的,本实施例中的模型结构可参见图2所示。图2中,训练文本为“长城证券减持百度”,所标注的目标训练实体为“百度”,之后对综合训练文本字符化处理,生成字符化的综合训练文本:“[CLS]长城证券减持百度[SEP]百度[SEP]”。其中,[CLS]表示分类符,用于后期分类,[SEP]为分隔符,设在目标实体的首位位置,用于区分文本和目标实体。在确定字符化的综合训练文本后,即可对该综合训练文本进行编码处理,并生成相应的训练文本向量;图2中以编码器为转换器(Transformers)为例说明。之后,即可分别将该编码器生成的训练文本向量分别传输至分类模型和关键词提取模型。该分类模型为图2中的“分类层”,其具体可以是多层神经网络;关键词提取模型为图2中的“溯因层”,图2中以可以输出区间起始位置的两个溯因层作为关键词提取模型。具体的,对于每一个字符,存在一个分类器用以计算该字符为区间开始词的概率,通过示意图中的溯因层-1刻画,图2中的“减”即为区间的开始;同时,存在另一个分类器用以计算该词为区间结束词的概率,通过示意图中的溯因层-2刻画,图2中的“持”即为区间的结束。基于两个溯因层即可提取出所需的区间,即关键词“减持”。
步骤A4:将最小化第一舆情类别与第二舆情类别之间的差值作为分类优化目标,将最小化第一舆情关键词与第二舆情关键词之间的差值作为关键词提取优化目标,基于分类优化目标和关键词提取优化目标进行训练。
本发明实施例中,在舆情分类的任务的基础上,增加了舆情关键词提取的任务,两个任务可以共用编码器部分,即两个任务共享编码器部分的参数,从而在统一训练时可以更好地训练编码器。具体的,本实施例中的编码器和分类模型组成完整的舆情分类模型,而编码器和关键词提取模型组成完整的关键词模型,此时可以将将最小化第一舆情类别与第二舆情类别之间的差值作为该完整的舆情分类模型的优化目标,即分类优化目标;同时将最小化第一舆情关键词与第二舆情关键词之间的差值作为该完整的关键词模型的优化目标,即关键词提取优化目标,在训练过程中同时维护该分类优化目标和关键词提取优化目标,从而可以将具有因果关系的舆情关键词传递到分类任务中,提高分类模型的分类效果。同时,在确定待识别文本的舆情类别时,也可以输出相应类别的因果关系,供用户后续使用或查看。
可选的,本实施例中还可基于文本中的离散特征进行舆情分类,进一步提高舆情分类的效果。其中,上述步骤103“根据文本向量进行舆情分类处理”包括:
提取综合文本中的离散特征,离散特征包括综合文本中舆情关键词的词频、舆情关键词在综合文本中的位置、舆情关键词与目标实体之间的关联关系中的一项或多项;根据离散特征和文本向量进行舆情分类处理。
本发明实施例中,在训练阶段,可以预先自动提取或人工提取出训练文本中的离散特征,例如该训练文本中的舆情关键词的词频、舆情关键词在训练文本中的位置、舆情关键词与目标训练实体之间的关联关系等,将该离散特征也作为分类模型的输入,结合训练文本向量对分类模型进行训练。当需要确定待识别文本的舆情类别时,如上述步骤所示,此时可以提取出综合文本中的离散特征,结合离散特征和文本向量进行舆情分类处理。图2中以策略网络作为提取离散特征的网络。在舆情分类时增加离散特征,可以进一步提高分类的准确性,且便于后期维护以及人为为添加规则。
在上述实施例的基础上,在模型训练的过程中,还可以增加语言模型类的任务,同样可以实现参数共享,也可以提高模型分类的准确性。具体的,在步骤101“获取待识别文本”之前,该方法还包括:
步骤B1:确定训练文本以及与训练文本相对应的第一舆情类别,并预先确定训练文本中的目标训练实体。
本发明实施例中,与上述步骤A1类似,在训练时确定训练文本以及其中的目标训练实体和舆情类别,区别在于不需要确定其中的舆情关键词。
步骤B2:在训练文本中随机选取一个或多个字符作为第一掩码字符,将删除第一掩码字符的训练文本作为掩码训练文本。
本实施例中,将预测文本中被删除词作为新增的语言模型任务。具体的,随机删除该训练文本中的部分字符,该被删除的字符即为第一掩码字符,而删除该第一掩码字符后的训练文本即为掩码训练文本。例如,训练文本为“长城证券减持百度”,随机删除了其中的字符“证”和“持”,此时可以用相应的代替符Mask代替,则掩码训练文本为“长城Mask券减Mask百度”。可选的,可以优先删除与舆情关键词相关的字符。
步骤B3:结合训练文本和目标训练实体生成综合训练文本,并基于待训练的编码器对综合训练文本进行编码处理,生成综合训练文本的训练文本向量;结合掩码训练文本和目标训练实体生成掩码综合训练文本,并基于相同的待训练的编码器对掩码综合训练文本进行编码处理,生成掩码综合训练文本的掩码训练文本向量。
本发明实施例中,在训练阶段,在不改变编码器参数的情况下分别输入两个向量。具体的,与上述步骤A2类相同,将综合训练文本输入至编码器进行编码处理,从而生成相应的训练向量;此外,本实施例中还结合上述的掩码训练文本和目标训练实体生成掩码综合训练文本,并基于具有相同参数的编码器生成掩码训练文本向量。上述的“训练文本向量”和“掩码训练文本向量”虽然对应不同的输入,但是均为同一个编码器编码生成的。
步骤B4:将训练文本向量作为待训练的分类模型的输入,基于分类模型确定综合训练文本所对应的第二舆情类别;同时将掩码训练文本向量作为待训练的语言预测模型的输入,基于语言预测模型确定掩码训练文本中被删除的第二掩码字符。
本实施例中,与上述步骤A3类似,训练文本向量用于训练分类模型,而本实施例中的掩码训练文本向量用于训练本实施例中的语言预测模型,即预测该掩码训练文本中被删除的字符,即第二掩码字符。参见图3所示,图3示出了基于掩码训练文本进行语言预测的过程,图3中的“语言预测模型”即为步骤B4中的“语言预测模型”。
步骤B5:将最小化第一舆情类别与第二舆情类别之间的差值作为分类优化目标,将最小化第一掩码字符与第二掩码字符之间的差值作为掩码预测优化目标,基于分类优化目标和掩码预测优化目标进行训练。
本实施例中,与上述的步骤A4类似,在舆情分类的任务的基础上,增加了预测词语的任务,两个任务虽然输入不同,但是二者仍然可以共用相同的编码器,即两个任务(舆情分类任务和预测词语任务)仍然可以共享编码器部分的参数,从而在统一训练时可以更好地训练编码器。同样的,本实施例中的编码器和语言预测模型组成完整的语言模型,将最小化第一掩码字符与第二掩码字符之间的差值作为该完整的语言模型的优化目标,即掩码预测优化目标,在训练过程中同时维护该分类优化目标和掩码预测优化目标,从而可以使得编码器更有效地识别文本,进而提高分类模型的分类效果。同时,在传统的舆情分类训练过程中需要大量的标注数据,而本实施例中的语言预测模型不需要标注数据即可实现词语预测,从而可以利用外部庞大的无标注数据进行训练。
本领域技术人员可以理解,上述的步骤A1-A4和步骤B1-B5也可以进一步结合,即在训练阶段同时建立三个任务:舆情分类任务、舆情关键词提取任务、词语预测任务,三个任务分别利用分类模型、关键词提取模型和语言预测模型执行,并同时维护三个任务的优化目标,实现对分类模型分类效果的提升。本实施例中基于多个自然语言处理任务,可以取得分类效果上的加成,能够提高舆情分类的准确性。
本发明实施例提供的一种舆情分类的方法,预先识别出文本中的实体,通过将文本和实体结合生成综合文本的方式,可以确定文本中所包含的每个实体的舆情类别;即使不同的实体对应正负面完全不同的舆情类别也可以正常识别。同时,预先提取出文本中的实体,可以更加有针对性地确定该实体的舆情类别,舆情类别的识别准确度更高。在编码处理时将字符作为最小语义单元,可以不需要依赖于上游的分词任务,可以很好地处理罕见词。在训练阶段建立多个自然语言处理任务,多个任务可以共享参数,且训练时需要同时维护所有任务的优化目标,彼此作用,可以使得编码器更有效地识别文本,进而提高分类模型的分类效果。
以上详细介绍了舆情分类的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供一种舆情分类的装置,参见图4所示,包括:
获取模块41,用于获取待识别文本,并提取出所述待识别文本中的一个或多个目标实体;
文本结合模块42,用于选取一个所述目标实体作为有效目标实体,结合所述有效目标实体和所述待识别文本生成综合文本;
舆情分类模块43,用于对所述综合文本进行编码处理,生成所述综合文本的文本向量,并根据所述文本向量进行舆情分类处理,确定当前的所述有效目标实体所对应的舆情类别;
遍历模块44,用于之后选取下一个目标实体作为有效目标实体,继续上述确定有效目标实体所对应的舆情类别的过程,直至遍历所述待识别文本中的所有所述目标实体。
在上述实施例的基础上,所述舆情分类模块43对所述综合文本进行编码处理,生成所述综合文本的文本向量,包括:
确定所述综合文本中所包含的字符,基于训练好的编码器确定每个所述字符的字符向量,将所有的所述字符向量组成的向量序列作为所述综合文本的文本向量。
在上述实施例的基础上,所述舆情分类模块43基于训练好的编码器确定每个所述字符的字符向量包括:
确定每个字符的查询编码、键编码和值编码,并根据所述查询编码、所述键编码和所述值编码确定每个所述字符的字符向量ci;
在上述实施例的基础上,该装置还包括训练模块;
在所述获取模块41获取待识别文本之前,所述训练模块用于:
确定训练文本,并预先确定所述训练文本中的目标训练实体以及与所述目标训练实体相对应的第一舆情类别和第一舆情关键词;
结合所述训练文本和所述目标训练实体生成综合训练文本,并基于待训练的编码器对所述综合训练文本进行编码处理,生成所述综合训练文本的训练文本向量;
将所述训练文本向量作为待训练的分类模型的输入,基于所述分类模型确定所述综合训练文本所对应的第二舆情类别;同时将所述训练文本向量作为待训练的关键词提取模型的输入,基于所述关键词提取模型提取出所述综合训练文本中的第二舆情关键词;
将最小化所述第一舆情类别与所述第二舆情类别之间的差值作为分类优化目标,将最小化所述第一舆情关键词与所述第二舆情关键词之间的差值作为关键词提取优化目标,基于所述分类优化目标和所述关键词提取优化目标进行训练。
在上述实施例的基础上,该装置还包括训练模块;
在所述获取模块41获取待识别文本之前,所述训练模块用于:
确定训练文本,并预先确定所述训练文本中的目标训练实体以及与所述目标训练实体相对应的第一舆情类别;
在所述训练文本中随机选取一个或多个字符作为第一掩码字符,将删除所述第一掩码字符的训练文本作为掩码训练文本;
结合所述训练文本和所述目标训练实体生成综合训练文本,并基于待训练的编码器对所述综合训练文本进行编码处理,生成所述综合训练文本的训练文本向量;结合所述掩码训练文本和所述目标训练实体生成掩码综合训练文本,并基于相同的所述待训练的编码器对所述掩码综合训练文本进行编码处理,生成所述掩码综合训练文本的掩码训练文本向量;
将所述训练文本向量作为待训练的分类模型的输入,基于所述分类模型确定所述综合训练文本所对应的第二舆情类别;同时将所述掩码训练文本向量作为待训练的语言预测模型的输入,基于所述语言预测模型确定所述掩码训练文本中被删除的第二掩码字符;
将最小化所述第一舆情类别与所述第二舆情类别之间的差值作为分类优化目标,将最小化所述第一掩码字符与所述第二掩码字符之间的差值作为掩码预测优化目标,基于所述分类优化目标和所述掩码预测优化目标进行训练。
在上述实施例的基础上,所述舆情分类模块43根据所述文本向量进行舆情分类处理包括:
提取所述综合文本中的离散特征,所述离散特征包括所述综合文本中舆情关键词的词频、所述舆情关键词在所述综合文本中的位置、所述舆情关键词与所述目标实体之间的关联关系中的一项或多项;
根据所述离散特征和所述文本向量进行舆情分类处理。
本发明实施例提供的一种舆情分类的装置,预先识别出文本中的实体,通过将文本和实体结合生成综合文本的方式,可以确定文本中所包含的每个实体的舆情类别;即使不同的实体对应正负面完全不同的舆情类别也可以正常识别。同时,预先提取出文本中的实体,可以更加有针对性地确定该实体的舆情类别,舆情类别的识别准确度更高。在编码处理时将字符作为最小语义单元,可以不需要依赖于上游的分词任务,可以很好地处理罕见词。在训练阶段建立多个自然语言处理任务,多个任务可以共享参数,且训练时需要同时维护所有任务的优化目标,彼此作用,可以使得编码器更有效地识别文本,进而提高分类模型的分类效果。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的舆情分类的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图5示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的舆情分类的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种舆情分类的方法,其特征在于,包括:
获取待识别文本,并提取出所述待识别文本中的一个或多个目标实体;
选取一个所述目标实体作为有效目标实体,结合所述有效目标实体和所述待识别文本生成综合文本;
对所述综合文本进行编码处理,生成所述综合文本的文本向量,并根据所述文本向量进行舆情分类处理,确定当前的所述有效目标实体所对应的舆情类别;
之后选取下一个目标实体作为有效目标实体,继续上述确定有效目标实体所对应的舆情类别的过程,直至遍历所述待识别文本中的所有所述目标实体;
在所述获取待识别文本之前,还包括:
确定训练文本,并预先确定所述训练文本中的目标训练实体以及与所述目标训练实体相对应的第一舆情类别和第一舆情关键词;
结合所述训练文本和所述目标训练实体生成综合训练文本,并基于待训练的编码器对所述综合训练文本进行编码处理,生成所述综合训练文本的训练文本向量;
将所述训练文本向量作为待训练的分类模型的输入,基于所述分类模型确定所述综合训练文本所对应的第二舆情类别;同时将相同的所述训练文本向量作为待训练的关键词提取模型的输入,基于所述关键词提取模型提取出所述综合训练文本中的第二舆情关键词;
将最小化所述第一舆情类别与所述第二舆情类别之间的差值作为分类优化目标,将最小化所述第一舆情关键词与所述第二舆情关键词之间的差值作为关键词提取优化目标,基于所述分类优化目标和所述关键词提取优化目标进行训练;在训练过程中同时维护所述分类优化目标和所述关键词提取优化目标。
2.根据权利要求1所述的方法,其特征在于,所述对所述综合文本进行编码处理,生成所述综合文本的文本向量,包括:
确定所述综合文本中所包含的字符,基于训练好的编码器确定每个所述字符的字符向量,将所有的所述字符向量组成的向量序列作为所述综合文本的文本向量。
4.根据权利要求1所述的方法,其特征在于,在所述获取待识别文本之前,还包括:
确定训练文本,并预先确定所述训练文本中的目标训练实体以及与所述目标训练实体相对应的第一舆情类别;
在所述训练文本中随机选取一个或多个字符作为第一掩码字符,将删除所述第一掩码字符的训练文本作为掩码训练文本;
结合所述训练文本和所述目标训练实体生成综合训练文本,并基于待训练的编码器对所述综合训练文本进行编码处理,生成所述综合训练文本的训练文本向量;结合所述掩码训练文本和所述目标训练实体生成掩码综合训练文本,并基于相同的所述待训练的编码器对所述掩码综合训练文本进行编码处理,生成所述掩码综合训练文本的掩码训练文本向量;
将所述训练文本向量作为待训练的分类模型的输入,基于所述分类模型确定所述综合训练文本所对应的第二舆情类别;同时将所述掩码训练文本向量作为待训练的语言预测模型的输入,基于所述语言预测模型确定所述掩码训练文本中被删除的第二掩码字符;
将最小化所述第一舆情类别与所述第二舆情类别之间的差值作为分类优化目标,将最小化所述第一掩码字符与所述第二掩码字符之间的差值作为掩码预测优化目标,基于所述分类优化目标和所述掩码预测优化目标进行训练。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述文本向量进行舆情分类处理包括:
提取所述综合文本中的离散特征,所述离散特征包括所述综合文本中舆情关键词的词频、所述舆情关键词在所述综合文本中的位置、所述舆情关键词与所述目标实体之间的关联关系中的一项或多项;
根据所述离散特征和所述文本向量进行舆情分类处理。
6.一种舆情分类的装置,其特征在于,包括:
获取模块,用于获取待识别文本,并提取出所述待识别文本中的一个或多个目标实体;
文本结合模块,用于选取一个所述目标实体作为有效目标实体,结合所述有效目标实体和所述待识别文本生成综合文本;
舆情分类模块,用于对所述综合文本进行编码处理,生成所述综合文本的文本向量,并根据所述文本向量进行舆情分类处理,确定当前的所述有效目标实体所对应的舆情类别;
遍历模块,用于之后选取下一个目标实体作为有效目标实体,继续上述确定有效目标实体所对应的舆情类别的过程,直至遍历所述待识别文本中的所有所述目标实体;
所述装置还包括训练模块;
在所述获取模块获取待识别文本之前,所述训练模块用于:
确定训练文本,并预先确定所述训练文本中的目标训练实体以及与所述目标训练实体相对应的第一舆情类别和第一舆情关键词;
结合所述训练文本和所述目标训练实体生成综合训练文本,并基于待训练的编码器对所述综合训练文本进行编码处理,生成所述综合训练文本的训练文本向量;
将所述训练文本向量作为待训练的分类模型的输入,基于所述分类模型确定所述综合训练文本所对应的第二舆情类别;同时将相同的所述训练文本向量作为待训练的关键词提取模型的输入,基于所述关键词提取模型提取出所述综合训练文本中的第二舆情关键词;
将最小化所述第一舆情类别与所述第二舆情类别之间的差值作为分类优化目标,将最小化所述第一舆情关键词与所述第二舆情关键词之间的差值作为关键词提取优化目标,基于所述分类优化目标和所述关键词提取优化目标进行训练;在训练过程中同时维护所述分类优化目标和所述关键词提取优化目标。
7.根据权利要求6所述的装置,其特征在于,所述舆情分类模块对所述综合文本进行编码处理,生成所述综合文本的文本向量,包括:
确定所述综合文本中所包含的字符,基于训练好的编码器确定每个所述字符的字符向量,将所有的所述字符向量组成的向量序列作为所述综合文本的文本向量。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任意一项所述的舆情分类的方法。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任意一项所述的舆情分类的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683305.XA CN110377744B (zh) | 2019-07-26 | 2019-07-26 | 一种舆情分类的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683305.XA CN110377744B (zh) | 2019-07-26 | 2019-07-26 | 一种舆情分类的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377744A CN110377744A (zh) | 2019-10-25 |
CN110377744B true CN110377744B (zh) | 2022-08-09 |
Family
ID=68256435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910683305.XA Active CN110377744B (zh) | 2019-07-26 | 2019-07-26 | 一种舆情分类的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377744B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851598B (zh) * | 2019-10-30 | 2023-04-07 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111046172B (zh) * | 2019-10-30 | 2024-04-12 | 北京奇艺世纪科技有限公司 | 一种舆情分析方法、装置、设备和存储介质 |
CN111611790B (zh) * | 2020-04-13 | 2022-09-16 | 华为技术有限公司 | 数据处理的方法与装置 |
CN113743117B (zh) * | 2020-05-29 | 2024-04-09 | 华为技术有限公司 | 用于实体标注的方法和装置 |
CN112667779B (zh) * | 2020-12-30 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种信息查询方法、装置、电子设备及存储介质 |
CN112784612B (zh) * | 2021-01-26 | 2023-12-22 | 浙江香侬慧语科技有限责任公司 | 基于迭代修改的同步机器翻译的方法、装置、介质及设备 |
CN113434688B (zh) * | 2021-08-23 | 2021-12-21 | 南京擎盾信息科技有限公司 | 用于舆情分类模型训练的数据处理方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615687B (zh) * | 2015-01-22 | 2018-05-22 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与*** |
US9817814B2 (en) * | 2015-12-31 | 2017-11-14 | Accenture Global Solutions Limited | Input entity identification from natural language text information |
CN107526819A (zh) * | 2017-08-29 | 2017-12-29 | 江苏飞搏软件股份有限公司 | 一种面向短文本主题模型的大数据舆情分析方法 |
CN108133038B (zh) * | 2018-01-10 | 2022-03-22 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类***及方法 |
CN108628974B (zh) * | 2018-04-25 | 2023-04-18 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN109446300B (zh) * | 2018-09-06 | 2021-04-20 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109213868A (zh) * | 2018-11-21 | 2019-01-15 | 中国科学院自动化研究所 | 基于卷积注意力机制网络的实体级别情感分类方法 |
CN109857868A (zh) * | 2019-01-25 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型生成方法、文本分类方法、装置及计算机可读存储介质 |
-
2019
- 2019-07-26 CN CN201910683305.XA patent/CN110377744B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110377744A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377744B (zh) | 一种舆情分类的方法、装置、存储介质及电子设备 | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN110909540B (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN112084779B (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN112883990A (zh) | 数据分类方法及装置、计算机存储介质、电子设备 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN114997169A (zh) | 一种实体词识别方法、装置、电子设备及可读存储介质 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN112685374A (zh) | 日志分类方法、装置及电子设备 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 | |
CN115690816A (zh) | 一种文本要素提取方法、装置、设备和介质 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |