CN112784602A - 基于远程监督的新闻情感实体抽取方法 - Google Patents

基于远程监督的新闻情感实体抽取方法 Download PDF

Info

Publication number
CN112784602A
CN112784602A CN202011395972.7A CN202011395972A CN112784602A CN 112784602 A CN112784602 A CN 112784602A CN 202011395972 A CN202011395972 A CN 202011395972A CN 112784602 A CN112784602 A CN 112784602A
Authority
CN
China
Prior art keywords
news
emotion
sentences
sentence
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011395972.7A
Other languages
English (en)
Other versions
CN112784602B (zh
Inventor
张琨
孙琦
李寻
张李林清
刘志敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011395972.7A priority Critical patent/CN112784602B/zh
Publication of CN112784602A publication Critical patent/CN112784602A/zh
Application granted granted Critical
Publication of CN112784602B publication Critical patent/CN112784602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于远程监督的新闻情感实体抽取方法,包括:爬取官方新闻网站新闻预料并缓存至本地仓库;对爬取的新闻语料进行预处理,获得切分成句的新闻预料;构建关键实体知识库,根据知识库对切分成句的新闻预料进行自动标注;利用标注了的新闻预料对情感句抽取模型进行训练使其具备对输入句子进行自动情感判断的能力;利用抽取出的情感句,将情感句作为情感实体抽取模型的训练集进行训练;爬取新闻语料并切分成句,将切分成句的新闻语料输入训练好的情感句抽取模型抽取情感句,并将抽取的情感句输入训练好的情感实体抽取模型,获得情感实体。本发明采用远程监督的方式为大量样本生成带噪声的数据集供模型训练,提高了模型训练的效率。

Description

基于远程监督的新闻情感实体抽取方法
技术领域
本发明属于计算机人工智能领域,具体为一种基于远程监督的新闻情感实体 抽取方法。
背景技术
面向新闻领域的命名实体识别由于独特的应用背景和文本表达方式,研究 者们对其开展了探索。冯蕴天等提出了人员、军衔、军职、军用机构、设施等实 体分类原则,基于战斗文书、执勤文书、军用文书等规范的文本构建语料库。其 使用少量的人工标注训练语料对CRF模型进行训练,训练的模型对未标注的测试 语料进行实体识别,模型在测试语料上得到F值为90.9%的识别效果。游飞等针 对武器命名实体进行识别,建立了基于DNN的武器实体识别模型,模型以固定维 度的词向量和词性向量作为输入,通过非线性变换学习得到上下文特征。模型在 来自环球网、中华网等7500篇新闻建立的语料上训练,F值达到91.02%。王学 峰等将命名实体划分为部队、地名、机构、武器、设施、时间、环境与数量8 种类别,提出一种基于字级别表征、结合BiLSTM和CRF的实体识别模型 (character-BiLSTM-CRF),模型基于未公开的30余份联合作战演习想定文档与 指挥所演练想定文档构建的语料集进行训练,F值达到98%。此外,研究人员们 也探索了应用卷积神经网络生成字向量,并结合BiLSTM和CRF建立新闻领域命 名实体的方法。面向非公开的作战文书中的命名实体识别,基于嵌套分类原则将 命名实体分为位置、部队、人员、物品、数字5大类以及地名、编制等13个小 类,采用上述CNN-BiLSTM-CRF模型,在100篇未公开的作战文书构建的语料集上的实验得到了较高的召回率和F值。
基于规则、字典以及统计学习模型的传统情感实体识别方法依赖于规则设计 和特征工程,虽然取得了较高的召回率,但是规则的制定和特征的抽取需要丰富 的领域知识以及大量的人工成本,且很难针对所有问题制定统一的模板和规则。 近年来,在计算能力和文本分布式表示技术支持下,基于深度神经网络(deep neural network,DNN)的情感实体识别方法在通用领域以及法律、医学、生物化 学、金融等特定领域取得了突破性的进展。相比较于其他领域的情感实体识别研 究,新闻领域情感实体识别面临以下问题和挑战:
实体识别任务中往往存在实体边界难以界定的问题。例如在保险领域,可以 将“中国人寿保险”当作一个实体,也可以认为是“中国”和“人寿保险”2个 实体。然而领域的专业性使得实体间的界限更加难以确定,例如,“英国皇家海 军”可以认为是组织实体,同样也可以认为“英国”是地名实体,“皇家海军” 是组织实体;“俄军图-160战略轰炸机”可以认为是武器装备实体,同样也可以 认为“俄军”是组织实体,“图-160战略轰炸机”是武器装备实体。
实体识别任务中同样存在实体简化表达的现象。相较于其他领域,新闻领域 因领域的独特性、专业性,其情感实体简化表达后晦涩难懂,没有一定的规律性。
基于CRF等统计模型的命名实体识别技术依赖于领域专家完成大量的人工 特征选取工作;基于长短时记忆神经网络等模型的领域命名实体方法,需要在模 型训练的过程中依靠庞大的语料库构建词向量。
医学领域的电子病历、法律领域的判决书与起诉书都具有严格的格式和表达 规范,基于规则的识别方法就可以获得优秀的识别效果。以微博为代表的社交媒 体数据表达不规范,存在大量的口语表达,没有特定的规则,识别实体难度较大。
目前没有面向新闻领域的公开语料数据集和实体分类标准,阻碍了开源情报 的研究工作。
发明内容
本发明的目的在于提供了一种基于远程监督的新闻情感实体抽取方法。
实现本发明目的的技术方案为:一种基于远程监督的新闻情感实体抽取方法, 包括以下步骤:
步骤1:采用爬虫技术,爬取官方新闻网站新闻预料并缓存至本地仓库;
步骤2:对爬取的新闻语料进行预处理,获得切分成句的新闻预料;
步骤3:构建关键实体知识库,根据知识库对切分成句的新闻预料进行自动 标注;
步骤4:利用标注了的新闻预料对情感句抽取模型进行训练使其具备对输入 句子进行自动情感判断的能力;
步骤5:利用步骤4抽取出情感句,将情感句作为情感实体抽取模型的训练 集进行训练,使其具备抽取句中情感的持有者、表达对象、事件的能力;
步骤6:采用步骤1、步骤2的方法爬取新闻语料并切分成句,将切分成句的 新闻语料输入训练好的情感句抽取模型抽取情感句,并将抽取的情感句输入训练 好的情感实体抽取模型,获得情感实体。
优选地,爬取官方新闻网站相关新闻的具体方法为:
通过解析官方网站带关键字的搜索结果,获取与事件相关的新闻网址;
根据新闻网址解析新闻内容,获取新闻的标题、时间、具体内容并缓存至本 地仓库。
优选地,对爬取的新闻语料进行预处理包括:
将爬取的新闻语料从进行数据清洗,去除冗余以及与主题无关的脏数据;
以标点符号作为标志对本地仓库中的新闻语料进行句子划分。
优选地,构建的关键实体知识库为人物、组织、国家、事件实体知识库。
优选地,根据知识库对切分成句的新闻预料进行自动标注的原则为:当句子 中出现超过n个知识库实体时标注为带情感句,n为设定的自然数。
优选地,所述情感句抽取模型包括字向量表达层、SoftMax分类层,分别具 体为:
所述字向量表达层采用BERT预训练模型,用于对切分成句的新闻文本数据 中的每个字进行特征提取得到字特征;
所述SoftMax分类层用于预测输出类别上的概率分布并解码标签,通过预测 结果判断输入句子是否为情感句。
优选地,所述情感实体抽取模型包括字向量层、编码器、解码器,分别具体 为:
所述字向量层采用BERT预训练模型,用于获得情感句的子特征;
所述编码器采用双向的长短时记忆神经网络,用于提取输入文本的语义特征;
所述解码器采用条件随机场,用于将语义特征解码成对应的标签,根据预测 的标签值,获取对应的实***置与实体类别
本发明与现有技术相比,其显著优点为:
本发明在有大量无标记样本的情况下,采用远程监督的方式为大量样本生成 带噪声的数据集供模型训练,大大减少的了人工标注的成本,提高了模型训练的 效率;
本发明面向新闻领域,针对特别新闻领域带来的难题和挑战,设计了基于 BERT字向量的情感句抽取技术,将实体抽取的目标集中在更有意义的范围中, 大大提高了实体抽取的效率;
本发明基于多模型融合的实体抽取网络,结合专家知识库,抽取情感句中的 情感持有者、情感表达对象、相关事件信息,为新闻领域的情感分析、舆情分析 奠定了前置任务的基础。
附图说明
图1本发明流程图。
图2情感句抽取模型训练测试流程。
图3情感实体抽取模型训练测试流程。
图4LSTM结构图。
图5CRF结构图。
具体实施方式:
一种基于远程监督的新闻情感实体抽取方法,如图1所示,包括以下步骤:
步骤1:采用爬虫技术,爬取官方新闻网站新闻预料并缓存至本地仓库;
采用爬虫技术,针对热点新闻事件,爬取环球网、网易新闻、新华日报等官 方新闻网站的相关新闻预料。具体方法为:通过解析官方网站带关键字的搜索结 果,获取与事件相关的新闻网址、根据新闻网址解析新闻内容,获取新闻的标题、 时间、具体内容等数据缓存至本地仓库。
步骤2:对爬取的新闻语料进行预处理,获得切分成句的新闻预料;
将爬取的新闻语料从本地仓库中读出进行数据清洗,去除冗余以及与主题无 关的脏数据。将新闻中无用重复的语句删除。将清洗后的数据结构化存储以便算 法模型的训练。
以标点符号“。”、“?”、“!”、“……”,“”作为标志对数据库中 的数据进行句子划分。
步骤3:构建关键实体知识库,根据知识库对切分成句的新闻预料进行自动 标注;
根据本地仓库中的数据,建立人物、组织、国家、事件等关键实体知识库。 根据关键实体知识库对切分成句的新闻进行自动的标注。标注原则为:当句子中 出现超过n个知识库实体时标注为带情感句。n为可调整的参数,通过这种远程 监督的方式,可以获取大量带噪声的训练数据。
步骤4:利用标注了的新闻预料对情感句抽取模型进行训练使其具备对输入 句子进行自动情感判断的能力;
如图2所示,将切分成句的新闻文本数据按照二八原则分为训练集和测试集, 利用训练集训练情感句抽取模型,使用测试集对训练好的模型进行准确率与性能 分析。
进一步的实施例中,所述情感句抽取模型包括字向量表达层、SoftMax分类 层。
具体地,所述字向量表达层采用BERT预训练模型,所述BERT预训练模型利 用Transformer编码器作为语言模型,采用“遮蔽语言模型”和下一句预测机制 用以克服当前大多数词向量生成模型单向性的问题。利用BERT预训练模型对切 分成句的新闻文本数据Si={Xi1,Xi2,...,Xik}中的每个字进行特征提取得到字特征: Xij=(e1,e2,...,em)。其中Si表示在数据集中第i个句子,Xik表示句子中第k个字, Xij表示第i个句子的第j个字的字向量表示,em表示Xij中第m个的数值。综上 所示,每个句子经过字向量表示层后,其中的每个字都会由m维的字向量特征 组成,从而可以表示为:
Figure BDA0002815195880000051
其中Si表示在数据集中第i个句 子,ekm表示第i个句子中第k个字的第m个的数值。
具体地,SoftMax分类层作为情感句分类的分类器,将网络的输出归一化为 预测输出类别上的概率分布,将输出的结果映射到(0,1)的值,表示为:
Figure BDA0002815195880000052
Figure BDA0002815195880000053
其中
Figure BDA0002815195880000054
是权重矩阵,
Figure BDA0002815195880000055
是权重偏差。
Figure BDA0002815195880000056
是最后一层的输出,
Figure BDA0002815195880000057
表示第l层第 i个节点的输出计算的中间值。通过使用SoftMax层来规范化结果并解码标签, 通过结果判断输入句子是情感句还是非情感。
通过情感句抽取模型从长文本的新闻中,抽取出带有情感倾向的句子。
步骤5:利用步骤4抽取出情感句,将情感句作为情感实体抽取模型的训练 集进行训练,使其具备抽取句中情感的持有者、表达对象、事件的能力;
情感实体抽取模型训练测试流程如图3所示,基于抽取出的情感句,抽取句 中情感的持有者、表达对象、情感句相关的事件。基于深度学习算法采用序列到 序列的模型识别情感句中的重要实体。
进一步的实施例中,所述情感实体抽取模型由三个部分组成:字向量层、编 码器、解码器;
具体地,所述字向量层同样采用BERT预训练模型。输入情感句抽取模型抽 取出的情感句,输出情感句的字向量表示。
具体地,所述编码器采用双向的长短时记忆神经网络(LSTM),用于提取输 入文本的语义特征。LSTM也是一种循环神经网络(RNN)的特殊类型,可以学习 长久依赖信息,所有RNN都具有一种重复神经网络模块的链式形式。在标准的 RNN中,该重复模块只有一个非常简单的结构,例如一个Tanh层,而LSTM的“记 忆细胞”通过刻意设计避免了长期依赖问题。LSTM通过一种精心设计称为门的 结构控制细胞状态,直接在整个并向中删减或增加信息。采用Bi-LSTM能够通过 两个不同方向的特征提取器获取整个文本的全局特征信息从而提高enconder对 全文的特征提取能力。LSTM模型计算方式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
ht=ottanh(ct)
式中,i、f、c、o分别为输入门、遗忘门、细胞状态和输出门;W和b分别 为对应的权重系数矩阵和偏置项;σ和tanh分别为sigmoid函数和双曲正切激活 函数。
LSTM模型训练过程大致可以分为四个步骤:①按照上述五式(前向计算方 法)计算LSTM细胞的输出值;②反向计算每个LSTM细胞的误差项,包括按时间 和模型层级2个反向传播方向;③根据相应的误差项,计算每个权重的梯度;④ 应用基于梯度的优化算法更新权重。LSTM结构图如图4所示。
具体地,所述解码器采用条件随机场(CRF)。编码器将数据进行特征提取 与编码,解码器将特征解码成对应的标签,根据预测的标签值,获取对应的实体 位置与实体类别。CRF里的条件指的是在给定随机变量X的条件下,随机变量Y 的马尔科夫随机场。通常情况,只使用线性链条件随机场,将其用于标注问题, 条件概率为P(Y|X)。其中X是给定的观测序列,Y是需要标注的标注序列(状态 序列)。对于任意节点v成立,则称条件概率分布P(Y|X)为条件随机场,其一般 形式如下。
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)
通过解码器可以获取每个词的对应标签,根据标签类别判别实体的类型和位 置从而实现情感句中情感持有者、表达对象、事件的识别与抽取,经过测试该模 型可以达到65%的准确率。CRF结构图如图5所示。
步骤6:采用步骤1、步骤2的方法爬取新闻语料并切分成句,将切分成句的 新闻语料输入训练好的情感句抽取模型抽取情感句,并将抽取的情感句输入训练 好的情感实体抽取模型,获得情感实体。
经过上述的步骤1至步骤5,训练了情感句抽取模型与情感实体抽取模型, 在实际应用中,通过步骤1的方式爬取新的新闻语料,通过步骤2对语料进行预 处理,将处理好的长文本切分成句输入情感句抽取模型,模型判断输入句子是否 为情感句。将情感句抽取模型判断为是情感句的句子存储成情感句库。读取情感 句库中的情感句作为情感实体抽取模型的输入,经过情感句抽取模型,可以获取 输入情感句中各类别情感实体的位置。根据位置可以抽取出情感句中包含的情感 持有者,情感表达对象,相关事件。
本发明基于远程监督学习训练深度学习模型抽取新闻中的情感实体,包括情 感持有者、情感表达对象、事件;针对新闻领域实体抽取的挑战,设计了基于 BERT字向量的深度学习模型,同时结合专家知识库,自动标注的方式极大程度 的缓解了人工标注的成本,具有重大意义。

Claims (7)

1.一种基于远程监督的新闻情感实体抽取方法,其特征在于,包括以下步骤:
步骤1:采用爬虫技术,爬取官方新闻网站新闻预料并缓存至本地仓库;
步骤2:对爬取的新闻语料进行预处理,获得切分成句的新闻预料;
步骤3:构建关键实体知识库,根据知识库对切分成句的新闻预料进行自动标注;
步骤4:利用标注了的新闻预料对情感句抽取模型进行训练使其具备对输入句子进行自动情感判断的能力;
步骤5:利用步骤4抽取出情感句,将情感句作为情感实体抽取模型的训练集进行训练,使其具备抽取句中情感的持有者、表达对象、事件的能力;
步骤6:采用步骤1、步骤2的方法爬取新闻语料并切分成句,将切分成句的新闻语料输入训练好的情感句抽取模型抽取情感句,并将抽取的情感句输入训练好的情感实体抽取模型,获得情感实体。
2.根据权利要求1所述的基于远程监督的新闻情感实体抽取方法,其特征在于,爬取官方新闻网站相关新闻的具体方法为:
通过解析官方网站带关键字的搜索结果,获取与事件相关的新闻网址;
根据新闻网址解析新闻内容,获取新闻的标题、时间、具体内容并缓存至本地仓库。
3.根据权利要求1所述的基于远程监督的新闻情感实体抽取方法,其特征在于,对爬取的新闻语料进行预处理包括:
将爬取的新闻语料从进行数据清洗,去除冗余以及与主题无关的脏数据;
以标点符号作为标志对本地仓库中的新闻语料进行句子划分。
4.根据权利要求1所述的基于远程监督的新闻情感实体抽取方法,其特征在于,构建的关键实体知识库为人物、组织、国家、事件实体知识库。
5.根据权利要求1所述的基于远程监督的新闻情感实体抽取方法,其特征在于,根据知识库对切分成句的新闻预料进行自动标注的原则为:当句子中出现超过n个知识库实体时标注为带情感句,n为设定的自然数。
6.根据权利要求1所述的基于远程监督的新闻情感实体抽取方法,其特征在于,所述情感句抽取模型包括字向量表达层、SoftMax分类层,分别具体为:
所述字向量表达层采用BERT预训练模型,用于对切分成句的新闻文本数据中的每个字进行特征提取得到字特征;
所述SoftMax分类层用于预测输出类别上的概率分布并解码标签,通过预测结果判断输入句子是否为情感句。
7.根据权利要求1所述的基于远程监督的新闻情感实体抽取方法,其特征在于,所述情感实体抽取模型包括字向量层、编码器、解码器,分别具体为:
所述字向量层采用BERT预训练模型,用于获得情感句的子特征;
所述编码器采用双向的长短时记忆神经网络,用于提取输入文本的语义特征;
所述解码器采用条件随机场,用于将语义特征解码成对应的标签,根据预测的标签值,获取对应的实***置与实体类别。
CN202011395972.7A 2020-12-03 2020-12-03 基于远程监督的新闻情感实体抽取方法 Active CN112784602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011395972.7A CN112784602B (zh) 2020-12-03 2020-12-03 基于远程监督的新闻情感实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011395972.7A CN112784602B (zh) 2020-12-03 2020-12-03 基于远程监督的新闻情感实体抽取方法

Publications (2)

Publication Number Publication Date
CN112784602A true CN112784602A (zh) 2021-05-11
CN112784602B CN112784602B (zh) 2024-06-14

Family

ID=75750656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011395972.7A Active CN112784602B (zh) 2020-12-03 2020-12-03 基于远程监督的新闻情感实体抽取方法

Country Status (1)

Country Link
CN (1) CN112784602B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221576A (zh) * 2021-06-01 2021-08-06 复旦大学 一种基于序列到序列架构的命名实体识别方法
CN113255358A (zh) * 2021-07-12 2021-08-13 湖南工商大学 一种基于事件远程监督的多标签人物关系自动标注方法
CN114970553A (zh) * 2022-07-29 2022-08-30 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110110335A (zh) * 2019-05-09 2019-08-09 南京大学 一种基于层叠模型的命名实体识别方法
CN110502638A (zh) * 2019-08-30 2019-11-26 重庆誉存大数据科技有限公司 一种基于目标实体的企业新闻风险分类方法
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、***及存储介质
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、***、计算机终端及存储介质
CN111966878A (zh) * 2020-08-04 2020-11-20 厦门大学 基于机器学习的舆情事件反转检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110110335A (zh) * 2019-05-09 2019-08-09 南京大学 一种基于层叠模型的命名实体识别方法
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、***及存储介质
CN110502638A (zh) * 2019-08-30 2019-11-26 重庆誉存大数据科技有限公司 一种基于目标实体的企业新闻风险分类方法
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、***、计算机终端及存储介质
CN111966878A (zh) * 2020-08-04 2020-11-20 厦门大学 基于机器学习的舆情事件反转检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谌志群,鞠婷: "基于BERT 和双向LSTM 的微博评论倾向性分析研究", 《情报理论与实践》, no. 8, pages 173 - 178 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221576A (zh) * 2021-06-01 2021-08-06 复旦大学 一种基于序列到序列架构的命名实体识别方法
CN113255358A (zh) * 2021-07-12 2021-08-13 湖南工商大学 一种基于事件远程监督的多标签人物关系自动标注方法
CN113255358B (zh) * 2021-07-12 2021-09-17 湖南工商大学 一种基于事件远程监督的多标签人物关系自动标注方法
CN114970553A (zh) * 2022-07-29 2022-08-30 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备
CN114970553B (zh) * 2022-07-29 2022-11-08 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备

Also Published As

Publication number Publication date
CN112784602B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
Zong et al. Text data mining
CN107315738B (zh) 一种文本信息的创新度评估方法
CN112784602B (zh) 基于远程监督的新闻情感实体抽取方法
Sanyal et al. Resume parser with natural language processing
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
CN110879834A (zh) 一种基于循环卷积网络的观点检索***及其观点检索方法
Huang et al. Text classification with document embeddings
Uddin et al. Depression analysis of bangla social media data using gated recurrent neural network
CN111159405B (zh) 基于背景知识的讽刺检测方法
El Desouki et al. A hybrid model for paraphrase detection combines pros of text similarity with deep learning
Kumar et al. An abstractive text summarization technique using transformer model with self-attention mechanism
Suleiman et al. Arabic sentiment analysis using Naïve Bayes and CNN-LSTM
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
CN114970557B (zh) 基于知识增强的跨语言结构化情感分析方法
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
Rai et al. Identification of landscape preferences by using social media analysis
Abdolahi et al. A new method for sentence vector normalization using word2vec
El Bazi et al. Is Stemming Beneficial for Learning Better Arabic Word Representations?
Phyu et al. A study on a joint deep learning model for myanmar text classification
Prasad et al. Lexicon based extraction and opinion classification of associations in text from Hindi weblogs
Wang et al. Question answering system of discipline inspection laws and regulations based on knowledge graph
Le et al. A multi-filter BiLSTM-CNN architecture for vietnamese sentiment analysis
Worke INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant