CN115374778A - 一种基于深度学习的化妆品舆情文本实体关系抽取方法 - Google Patents
一种基于深度学习的化妆品舆情文本实体关系抽取方法 Download PDFInfo
- Publication number
- CN115374778A CN115374778A CN202211010810.6A CN202211010810A CN115374778A CN 115374778 A CN115374778 A CN 115374778A CN 202211010810 A CN202211010810 A CN 202211010810A CN 115374778 A CN115374778 A CN 115374778A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- cosmetic
- vector
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002537 cosmetic Substances 0.000 title claims abstract description 107
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 94
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 230000008447 perception Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 206010067484 Adverse reaction Diseases 0.000 claims description 6
- 230000006838 adverse reaction Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 241000282414 Homo sapiens Species 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 239000006071 cream Substances 0.000 claims description 4
- 230000006378 damage Effects 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 4
- 229940088597 hormone Drugs 0.000 claims description 4
- 239000005556 hormone Substances 0.000 claims description 4
- 239000003755 preservative agent Substances 0.000 claims description 4
- 239000002994 raw material Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 241000196324 Embryophyta Species 0.000 claims description 3
- 241001465754 Metazoa Species 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002335 preservative effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims 2
- 238000012937 correction Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000009193 crawling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于深度学习的化妆品舆情文本实体关系抽取方法,包括:对互联网上爬取到的化妆品风险舆情文本信息进行预处理,并构建化妆品领域词库,通过改进的BERT神经网络提取字维度文本特征,并与词嵌入的词维度信息融合,经过融合位置感知注意力机制的BLSTM网络计算出多分类信息,再整合到改进的BERT神经网络提取字维度文本向量中再次经过融合位置感知注意力机制的BLSTM计算,最终通过CRF计算最优概率,完成化妆品风险舆情文本关系抽取。本发明一定程度上解决了化妆品风险舆情文本关系抽取准确程度不高,领域性强的难题,通过构建新的模型,在融合中文部首信息的字维度的基础上再加入词维度进行辅助表示,提高事件信息抽取准确性。
Description
技术领域
本发明涉及人工智能领域,尤其是指一种基于深度学习的化妆品舆情文本实体关系抽取方法。
背景技术
随着《化妆品监督管理条例》的出台,化妆品行业就此开启了新纪元,成为舆论关注的焦点。相关的配套规章文件也陆续公开征求意见,条例中首次明确国家风险监测相关工作的法律地位。
化妆品中可能存在的安全性风险物质指由化妆品原料带入、生产过程中产生或带入的,可能对人体健康造成潜在危害的物质。一方面是因为化妆品配方的复杂性、人们对化妆品配方成分及其潜在威胁认识的局限性以及对化妆品使用经验的不完整性,客观上造成了化妆品使用的安全风险;另一方面是因为很多不法分子为了追求高额利润,不惜人为添加违禁物质,假冒知名品牌化妆品,主观上也造成了化妆品使用的安全风险。由于化妆品风险具有一定的损害性和社会性,会不同程度地造成人体伤害和一定的经济损失,甚至有些时候,事件经舆论发酵后有可能产生不良的社会效应,网络舆论形成速度快,往往在事件发生后很短的时间内就有人在网上发表言论,当人们都关注到该事件的进展状况时,其网络舆论会以更快的速度发展,所以网络舆论在某种程度上来说是难以控制的。
为此,需要重视并做好网络舆情风险的评估,识别网络舆情风险的程度,预防网络舆情风险的扩大,它是对网络舆情管控的第一步,只有对网络舆情风险进行有效的评估才能确定采取何种应对措施。通过这一举措,能够更好地实现网络舆情的科学管理。因此,建立起风险舆情文本实体关系抽取模型对化妆品安全的监管是具有重大意义的。
关系抽取从模式匹配逐渐发展到基于统计的机器学习方法,当下以人工神经网络为基础的深度学习为主导地位,深度学习不仅将事件抽取看作是分类任务,还看作是序列标注任务。
关系抽取的两个主要任务就是实体识别和关系分类,目前有些模型使用级联(pipline)的方式,先进行触发词的识别,再进行论元的提取。这种方法会导致前一阶段的误差传播到后一阶段导致误差传播。本发明采用联合抽取的方式,将触发词和论元同时抽取,进而提高两个子任务的性能,同时加入了全局特征以表示触发词和论元之间的全局信息。
本发明采用了基于BERT-BLSTM-CRF的事件联合抽取模型结构,采用新型的序列标注模式,将事件论元抽取问题变成一个端到端的问题,很好的处理了传统流水线模型导致的误差传递问题。同时采用双网络模型结构,一个网络使用中文的字作为输入,并且引入中文部首特征,增加额外的语义信息,第二个网络模型使用中文的词作为输入,同时为了使网络在不同论元区分度上有着更好的性能效果,吸收化妆品舆情领域的文本特点,引入了领域词机制。
发明内容
本发明的技术解决问题是:克服了现有技术领域针对性不强,文本实体关系抽取不完全的问题,提供一种基于深度学习的化妆品舆情文本实体关系抽取方法,提高化妆品安全领域舆情文本实体关系抽取准确性,以解决目前化妆品安全领域相关的监管需求,在此处提出的方法能够快速准确的对化妆品舆情事件进行信息抽取,大幅提高监管者的工作效率,辅助监管者做出判断,实现从“事后舆情监测”向“事前风险预警”的跨越,为化妆品***决策提供科学依据,为建立我国化妆品安全风险控制体系奠定基础。
本发明所提出的方法是:一种基于深度学习的化妆品舆情文本实体关系抽取方法,包括以下步骤:
步骤1、根据化妆品风险舆情数据的四个主要发布渠道:官方发布信息、社会新闻、电商平台评论数据以及社交媒体相关信息,使用python编程语言针对发生的舆情事件编写网络爬虫,并对爬虫爬取到的原始文本数据进行去重和筛选预处理,形成可用的舆情事件文本语料,使用改进的Jieba方法,实现对化妆品风险舆情文本数据的分词,再去除原始文本数据中没有含义的停用词,然后基于点间互信息(PMI)计算配合人工筛选与补充构建化妆品舆情领域词库。
步骤2、根据步骤1获得的化妆品舆情监管领域的专业词汇,结合公共领域的词嵌入(word embedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上,使用化妆品舆情领域的专业词汇对词嵌入资源库进行增量训练,获得化妆品舆情领域词嵌入资源库。
步骤3、针对步骤1提取的化妆品风险舆情文本,进行实体1、关系和实体2三元组的语义角色标注,其中实体1为化妆品舆情事件的主体,实体2为化妆品舆情事件的客体,关系则为实体1与实体2之间的联系,实体1包含婴儿霜、大头娃娃事件、伪劣化妆品等,实体2包含激素、防腐剂、过期批件等,关系共有6种:原料组分、不良反应、风险物质、舆情热度、功效宣称、非法行为,针对化妆品风险舆情文本,将句子划分成不同的成分,在同一句子成分中核心单词对临近单词的影响程度随距离而变化,通过累加句中所有核心词对临近单词的影响模拟整个句子被位置感知影响的状态,将位置感知的策略与传统的attention机制合并,构建基于位置感知的语义角色注意力机制;
步骤4、针对步骤1提取的化妆品风险舆情文本,采用基于双向深度自注意力变换网络的编码器(BERT-Bidirectional Encoder Representations from Transformers)构建字维度上的预训练模型,并为每个字向量融合其中文部首特征向量,再使用步骤2获得的化妆品舆情领域word embedding资源库构建词维度预训练模型,将字向量与词向量分别通过基于双向长短期记忆网络BLSTM模型结合步骤三构建的基于位置感知的语义角色注意力机制得到融合全文语义信息后的文本特征向量,经过concatenation、全连接层、sigmoid得到该文本的多分类关系;
步骤5、将舆情事件文本语料输入到基于BERT的预训练模型得到文本的字向量,并融合中文部首特征向量,将步骤4得到的多分类关系信息添加到Bert预训练模型抽取的文本特征向量的两端,得到融合字词双维度的文本语义向量,再将文本语义向量再输入到BLSTM模型、条件随机场CRF中,在通过条件随机场计算最优概率后得到最终的化妆品舆情文本实体关系抽取结果。
进一步的,所述步骤1中,构建的适用于化妆品舆情领域的网络爬虫,爬取内容有国内外权威研究机构发布的对人类和动植物健康造成危害的信息;国内外研究机构对化妆品不良反应的监测数据:国内外新闻媒体的权威报道;化妆品生产企业在生产、贮存、流通及销售环节出现的问题以及召回的信息;国内外行业协会发布的各类信息;社交网络中的产品使用分享信息,电商平台销售评论信息等等。爬取内容经数据预处理形成可用的舆情事件文本语料,并提取化妆品舆情领域的专业词汇。
进一步的,所述步骤2中,在公共领域词嵌入资源库的基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间,当积累一定数量的可以进行增量训练的内容后,再次将其输入到跳跃式(skip-gram)模型中对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品舆情领域的词嵌入资源库。
进一步的,所述步骤3中,将步骤1提取的化妆品风险舆情文本,进行三元组形式的语义角色标注(实体1,关系,实体2),其中实体1为化妆品舆情事件的主体,实体2为化妆品舆情事件的客体,关系则为实体1与实体2之间的联系,实体1包含婴儿霜、大头娃娃事件、伪劣化妆品等,实体2包含激素、防腐剂、过期批件等,关系共有6种:原料组分、不良反应、风险物质、舆情热度、功效宣称、非法行为,通过语义角色标注划分不同的句子成分,定位字词在句子成分中的位置,通过传播影响生成每一个字词的基于位置感知影响的向量,运用上下文语义的位置感知来更新字词权重,构建基于位置感知的语义角色注意力机制。
所述构建基于位置感知的语义角色注意力机制具体过程如下:
(1)在句子j位置词语的注意力为:
式(1)中,hj是j位置词语的隐层向量,pj是该词语累积的位置感知影响力向量,len为句子中词语的个数,hi为句子中某位置词语的隐层向量,pi为该词语累积的位置感知影响力向量,a(·)为用于测量基于隐层向量和位置感知影响力向量的词的重要性;
(2)a(·)的具体形式为:
式(2)中,WH、WP为hj、pj的权重矩阵;b1是属于第一层参数的偏置向量;为ReLU函数;v为一个全局向量,vT表示它的转置;b2是属于第二层参数的偏置向量,len为句子中词语的个数,i是句子中某位置词语。
进一步的,所述步骤4中,将步骤1中形成的可以使用的舆情事件文本语料输入到Bert预训练模型中获取文本的向量化表示,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖(mask),掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测任务将输入文本映射到了向量空间中,从而得到了字维度(以中文字为单位)的文本向量化表示,针对每个字的中文部首在768维字向量的基础上添加48维额外的语义信息。词维度需要在输入到预训练前首先进行中文的分词工作,通过步骤2构建的化妆品舆情领域wordembedding资源库进行中文词的向量化,得到词维度(以中文词为单位)上的文本输入向量;将字向量和词向量分别输入到BLSTM模型,通过步骤3构建的语义角色注意力机制,经过基于位置感知的语义角色注意力机制的计算,具体注意力分配系数ra计算过程为:
式(3)中,hj是j位置词语的隐层向量,αj是j位置词语的注意力,len为一个句子中词的个数;
将所得到的词语注意力分配系数传播到BLSTM的隐层向量中,对每个词语进行加权计算,从而得到在注意力机制的影响下的文本特征,接着通过Concatenation拼接字词维度的计算结果,再通过全连接层、sigmoid层,最终得到输入文本的多分类关系。
进一步的,所述步骤5中,将舆情事件文本语料输入到Bert预训练模型中获取文本的向量化表示,并对每一个字向量(768维)融合其中文部首特征向量(48维),接着将步骤4的多分类结果扩充为768+48维向量拼接在输入文本字向量矩阵的两端,得到融合全文语义信息后的文本向量,然后输入到BLSTM模型计算,通过步骤3构建的语义角色注意力机制,判断输入文本的实体关系,经过条件随机场CRF计算最优概率后得到最终的化妆品舆情文本实体关系抽取结果。
本发明与现有技术相比的优点在于:
本发明通过改进的双向深度自注意力变换网络的编码器BERT网络和融合基于语义角色注意力机制的双向长短期记忆网络BLSTM构建字词双维度事件文本关系抽取模型,能够快速准确判断出化妆品舆情事件中的关键信息,并针对化妆品舆情领域事件文本关系抽取方面构建更全面,将字符级和词语级两种不同的文本分布式表示作为模型输入,输出的多分类信息再整合到全文语义信息的文本向量中,完成化妆品舆情文本关系抽取。本发明提出的模型充分利用Bert的特性,在预训练模型中为字向量添加其中文部首特征向量,使其携带更加丰富的语义信息,并通过基于位置感知的语义角色注意力机制在传播中的计算,打破了传统注意力机制中词语注意力权重依赖与隐层表示的弊端,同时将文本词嵌入的词向量作为字向量的补充信息,对文本语义进行进一步挖掘,避免因为非结构化的、缺少规范的文本语料,造成特征提取不全面而损失分类精度,有效提高事件关系抽取效果。
附图说明
图1是本发明方法流程示意图;
图2是字词双维度的文本实体关系抽取模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明一种基于深度学习的化妆品舆情文本实体关系抽取方法包括:对互联网上爬取到的舆情事件数据进行预处理,构建化妆品舆情领域资源库、使用领域语料进行增量训练、通过改进的BERT神经网络提取字维度文本特征,并与词嵌入的词维度信息融合,经过BLSTM网络计算出多分类信息,再整合到改进的BERT神经网络提取字维度文本向量中,最终通过CRF计算最优概率。本发明一定程度上解决了化妆品舆情领域事件文本关系抽取准确程度不高,领域性强的难题,通过构建新的模型,将融合中文部首特征的字维度作为文本向量化表示的基础上再加入词维度进行辅助表示,提高事件关系抽取准确性。
具体包括以下步骤:
步骤1、使用python编程语言根据化妆品舆情领域的特点,针对发生的舆情事件编写网络爬虫,爬取内容有国内外权威研究机构发布的对人类和动植物健康造成危害的信息;国内外研究机构对化妆品不良反应的监测数据:国内外新闻媒体的权威报道;化妆品生产企业在生产、贮存、流通及销售环节出现的问题以及召回的信息;国内外行业协会发布的各类信息;社交网络中的产品使用分享信息,电商平台销售评论信息等等,对爬虫爬取到的原始文本数据进行去重和筛选预处理,形成可用的舆情事件文本语料,使用改进的Jieba方法,实现对化妆品风险舆情文本数据的分词,再去除原始文本数据中没有含义的停用词,然后基于点间互信息(PMI)计算配合人工筛选与补充构建化妆品舆情领域词库。
步骤2、根据步骤1获得的化妆品舆情领域词库,结合公共领域的词嵌入(wordembedding)资源库来获得化妆品舆情领域词嵌入资源库。在公共领域词嵌入资源库基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品舆情领域的词嵌入资源库。
步骤3、针对步骤1提取的化妆品风险舆情文本,进行三元组形式的语义角色标注(实体1,关系,实体2),其中实体1为化妆品舆情事件的主体包含婴儿霜、大头娃娃事件、伪劣化妆品等,实体2为化妆品舆情事件的客体包含激素、防腐剂、过期批件等,关系为实体1与实体2之间的联系,共有6种:原料组分、不良反应、风险物质、舆情热度、功效宣称、非法行为,通过语义角色标注划分不同的句子成分,使位置注意力影响的传播只发生在同一句子成分中,定位字词在句子成分中的位置,通过传播影响生成每一个字词的基于位置感知影响的向量,进而运用上下文语义的位置感知来更新字词权重,构建基于位置感知的语义角色注意力机制。
所述构建基于位置感知的语义角色注意力机制具体过程如下:
(1)在句子j位置词语的注意力为:
式(1)中,hj是j位置词语的隐层向量,pj是该词语累积的位置感知影响力向量,len为句子中词语的个数,hi为句子中某位置词语的隐层向量,pi为该词语累积的位置感知影响力向量,a(·)为用于测量基于隐层向量和位置感知影响力向量的词的重要性;
(2)a(·)的具体形式为:
式(2)中,WH、WP为hj、pj的权重矩阵;b1是属于第一层参数的偏置向量;为ReLU函数;v为一个全局向量,vT表示它的转置;b2是属于第二层参数的偏置向量,len为句子中词语的个数,i是句子中某位置词语。
步骤4、将步骤1中形成的可以使用的舆情事件文本语料输入到Bert预训练模型中获取文本的向量化表示,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖(mask),掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测任务将输入文本映射到了向量空间中,从而得到了字维度(以中文字为单位)的文本向量化表示,接着根据化妆品舆情领域文本中文部首在文字演化过程中的特殊性,针对每个字的中文部首在768维字向量的基础上添加48维额外的语义信息。词维度需要在输入到预训练前首先进行中文的分词工作,通过步骤2构建的化妆品舆情领域word embedding资源库进行中文词的向量化,得到词维度(以中文词为单位)上的文本输入向量将字向量和词向量分别输入到BLSTM模型,通过步骤3构建的语义角色注意力机制,经过基于位置感知的语义角色注意力机制的计算,具体注意力分配系数ra计算过程为:
式(3)中,hj是j位置词语的隐层向量,αj是j位置词语的注意力,len为一个句子中词的个数;将注意力分配系数传播到BLSTM的隐层向量中计算,对每个词语进行加权计算,从而得到在注意力机制的影响下的文本特征,接着通过Concatenation拼接字词维度的计算结果,再通过全连接层、sigmoid层,最终得到输入文本的多分类关系。
步骤5、将舆情事件文本语料输入到基于BERT的预训练模型得到文本的字向量,针对每个字的中文部首在768维字向量的基础上添加48维额外的语义信息,并将步骤4得到的多分类关系信息(6维)扩充136倍至(768+48)维并添加到Bert预训练模型抽取的字维度文本特征向量的两端,得到融合全文语义信息的文本语义向量,再输入到BLSTM模型、条件随机场CRF(Conditional Random Fields)中,再通过条件随机场计算最优概率后得到最终的化妆品舆情文本实体关系抽取结果。
参见图1中,展示了本发明所提出的方法的整体示意图,对爬取的化妆品舆情数据进行预处理,构建化妆品舆情领域资源库,结合公共领域词嵌入资源库构建化妆品舆情领域词嵌入资源库以及补充语料的增量训练,通过Bert预训练模型获取字维度的文本向量化表示以及词嵌入词维度的文本向量化表示,得到字词双维度文本特征向量并抽取其多分类关系,最后进行化妆品舆情事件文本实体关系抽取。
在图2所示模型图中,首先右下侧词嵌入网络得到词维度的文本向量化表示,另外左下侧BERT网络中得到的融合中文部首特征的字维度文本向量化表示,分别经融合位置感知的注意力机制(图中间语义角色部分)的BLSTM网络计算并将两路输出进行连接,将多分类结果添加到上侧的BERT神经网络文本向量中,再次经过融合位置感知注意力机制的BLSTM计算,最终通过CRF计算最优概率,得到最佳的输出信息标记序列,根据序列标记结果对应相应位置的文本得到事件文本关系抽取结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种基于深度学习的化妆品舆情文本实体关系抽取方法,其特征在于,包括以下步骤:
步骤1、针对化妆品风险舆情数据的四个发布渠道:官方发布信息、社会新闻、电商平台评论数据以及社交媒体相关信息,利用搜索引擎技术和网络信息挖掘技术,并对爬虫获取到的原始文本数据进行去重和筛选预处理,形成舆情文本语料,针对中文文本,使用改进的Jieba方法进行分词,再去除原始文本数据中没有含义的停用词,然后基于点间互信息(PMI)计算和人工筛选修正构建化妆品舆情领域词库,得到提取的化妆品舆情领域的专业词汇;
步骤2、针对步骤1提取的化妆品舆情领域的专业词汇,对公共领域word embedding资源库进行增量训练,获得化妆品舆情领域word embedding资源库;
步骤3、针对步骤1提取的化妆品风险舆情文本,进行实体1、关系和实体2三元组的语义角色标注,其中实体1为化妆品舆情事件的主体,实体2为化妆品舆情事件的客体,关系则为实体1与实体2之间的联系,实体1包含婴儿霜、大头娃娃事件、伪劣化妆品,实体2包含激素、防腐剂、过期批件,关系共有6种:原料组分、不良反应、风险物质、舆情热度、功效宣称、非法行为,针对化妆品风险舆情文本,将句子划分成不同的成分,在同一句子成分中核心单词对临近单词的影响程度随距离而变化,通过累加句中所有核心词对临近单词的影响模拟整个句子被位置感知影响的状态,将位置感知的策略与传统的attention机制合并,构建基于位置感知的语义角色注意力机制;
步骤4、针对步骤1提取的化妆品风险舆情文本,采用基于双向深度自注意力变换网络的编码器BERT构建融合中文部首特征的字向量,再使用步骤2获得的化妆品舆情领域wordembedding资源库构建词向量,将字向量与词向量通过基于双向长短期记忆网络BLSTM模型结合步骤3构建的基于位置感知的语义角色注意力机制得到输入文本的多分类关系;
步骤5、对输入文本提取基于双向深度自注意力变换网络的编码器BERT融合中文部首特征的字向量,并将步骤4得到的多分类关系信息添加到Bert预训练模型抽取的文本特征向量中,得到融合字词双维度的文本语义向量,再将文本语义向量再输入到BLSTM模型、条件随机场CRF中,得到最终的化妆品舆情文本实体关系抽取结果。
2.根据权利要求1所述的一种基于深度学***台销售评论信息,形成化妆品舆情文本语料,并构建化妆品舆情领域词库。
3.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法,其特征在于:所述步骤2中,在公共领域word embedding资源库的基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式模型中,进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间再将其输入到跳跃式模型中对公共领域word embedding资源库进行增量训练,最终将公共领域word embedding资源库扩展为适用于化妆品舆情领域的wordembedding资源库。
4.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法,其特征在于:所述步骤3中,构建基于位置感知的语义角色注意力机制具体过程如下:
(1)在句子j位置词语的注意力为:
式(1)中,hj是j位置词语的隐层向量,pj是该词语累积的位置感知影响力向量,len为句子中词语的个数,hi为句子中某位置词语的隐层向量,pi为该词语累积的位置感知影响力向量,a(·)为用于测量基于隐层向量和位置感知影响力向量的词的重要性;
(2)a(·)的具体形式为:
5.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法,其特征在于:所述步骤4中,将舆情事件文本语料输入到Bert预训练模型中获取文本的向量化表示时,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖,掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测将输入文本映射到了向量空间中,得到字维度文本向量化表示,再根据化妆品舆情领域文本中文部首的相似性,在768维字向量的基础上添加了48维的额外的中文部首语义信息;词维度通过步骤2构建的化妆品舆情领域wordembedding资源库来得到词维度文本输入向量;将字向量和词向量分别输入到BLSTM模型,通过步骤3构建的语义角色注意力机制,判断输入文本的实体关系,经过基于位置感知的语义角色注意力机制的计算,将所得到的词语注意力分配系数传播到BLSTM的隐层向量中,对每个词语进行加权计算,得到在注意力机制的影响下的文本特征,具体注意力分配系数ra计算过程为:
式(3)中,hj是j位置词语的隐层向量,αj是j位置词语的注意力,len为一个句子中词的个数;
在得到字词双维度文本特征输出后,将两路输出进行连接,再通过全连接层、sigmoid层的计算,最终得到输入文本的多分类关系。
6.根据权利要求1所述的面向化妆品舆情领域的一种基于深度学习的化妆品舆情文本实体关系抽取方法,其特征在于:所述步骤5中,将舆情事件文本语料输入到Bert预训练模型中获取文本的向量化表示,获取含中文部首信息的字向量(768+48维),并将步骤4的多分类结果(6维)扩充136倍与字向量长度一致,并拼接在输入文本字向量矩阵的两端,得到具有更加丰富语义特征的文本向量,然后输入到BLSTM模型计算,通过步骤3构建的基于位置感知的语义角色注意力机制,判断输入文本的实体关系,经过条件随机场CRF计算最优概率后得到最终的化妆品舆情文本实体关系抽取结果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210943515X | 2022-08-08 | ||
CN202210943515 | 2022-08-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115374778A true CN115374778A (zh) | 2022-11-22 |
Family
ID=84068183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211010810.6A Pending CN115374778A (zh) | 2022-08-08 | 2022-08-23 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374778A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969269A (zh) * | 2022-06-23 | 2022-08-30 | 济南大学 | 基于实体识别和关系抽取的虚假新闻检测方法及*** |
CN116227496A (zh) * | 2023-05-06 | 2023-06-06 | 国网智能电网研究院有限公司 | 一种基于深度学习的电力舆情实体关系抽取方法及*** |
CN116522165A (zh) * | 2023-06-27 | 2023-08-01 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配***及方法 |
CN117235286A (zh) * | 2023-11-10 | 2023-12-15 | 昆明理工大学 | 强化注意力的实体关系抽取模型及其构建方法、存储介质 |
-
2022
- 2022-08-23 CN CN202211010810.6A patent/CN115374778A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969269A (zh) * | 2022-06-23 | 2022-08-30 | 济南大学 | 基于实体识别和关系抽取的虚假新闻检测方法及*** |
CN116227496A (zh) * | 2023-05-06 | 2023-06-06 | 国网智能电网研究院有限公司 | 一种基于深度学习的电力舆情实体关系抽取方法及*** |
CN116522165A (zh) * | 2023-06-27 | 2023-08-01 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配***及方法 |
CN116522165B (zh) * | 2023-06-27 | 2024-04-02 | 武汉爱科软件技术股份有限公司 | 一种基于孪生结构的舆情文本匹配***及方法 |
CN117235286A (zh) * | 2023-11-10 | 2023-12-15 | 昆明理工大学 | 强化注意力的实体关系抽取模型及其构建方法、存储介质 |
CN117235286B (zh) * | 2023-11-10 | 2024-01-23 | 昆明理工大学 | 强化注意力的实体关系抽取模型及其构建方法、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115374778A (zh) | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 | |
Zhong et al. | Deep learning-based extraction of construction procedural constraints from construction regulations | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及*** | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
Fahfouh et al. | PV-DAE: A hybrid model for deceptive opinion spam based on neural network architectures | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
Kleenankandy et al. | An enhanced Tree-LSTM architecture for sentence semantic modeling using typed dependencies | |
CN113127933B (zh) | 一种基于图匹配网络的智能合约庞氏骗局检测方法及*** | |
Mehndiratta et al. | Identification of sarcasm using word embeddings and hyperparameters tuning | |
CN114330338A (zh) | 融合关联信息的程式语识别***及方法 | |
CN109241199A (zh) | 一种面向金融知识图谱发现的方法 | |
Poria et al. | Sentic Demo: A hybrid concept-level aspect-based sentiment analysis toolkit | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN114610846A (zh) | 一种启发式仿生知识嫁接策略的知识图谱扩展与补全方法 | |
CN115329085A (zh) | 一种社交机器人分类方法及*** | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
Zhang et al. | Aspect-level sentiment analysis via a syntax-based neural network | |
Sharma et al. | Various methods to classify the polarity of text based customer reviews using sentiment analysis | |
Ciroku et al. | Automated multimodal sensemaking: Ontology-based integration of linguistic frames and visual data | |
Wehnert et al. | Applying BERT embeddings to predict legal textual entailment | |
CN113468884A (zh) | 一种中文事件触发词抽取方法及装置 | |
Antia et al. | Assessing and enhancing bottom-up CNL design for competency questions for ontologies | |
Singh et al. | Deep Learning Model for Interpretability and Explainability of Aspect-Level Sentiment Analysis Based on Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |