CN110991637B - 一种公司形象提升***的社交网络数据提取方法及*** - Google Patents

一种公司形象提升***的社交网络数据提取方法及*** Download PDF

Info

Publication number
CN110991637B
CN110991637B CN201911183109.2A CN201911183109A CN110991637B CN 110991637 B CN110991637 B CN 110991637B CN 201911183109 A CN201911183109 A CN 201911183109A CN 110991637 B CN110991637 B CN 110991637B
Authority
CN
China
Prior art keywords
model
module
extraction
corpus
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911183109.2A
Other languages
English (en)
Other versions
CN110991637A (zh
Inventor
于灏
樊奕良
陈睿欣
刘睿
郑厚清
贾德香
孙艺新
王西胜
陈爽
曹瑾
李艳娜
林坤新
王玓
刘素蔚
王智敏
刘威
高洪达
崔维平
王程
李心达
柳占杰
陈�光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Energy Research Institute Co Ltd
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Energy Research Institute Co Ltd
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Energy Research Institute Co Ltd, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Energy Research Institute Co Ltd
Priority to CN201911183109.2A priority Critical patent/CN110991637B/zh
Publication of CN110991637A publication Critical patent/CN110991637A/zh
Application granted granted Critical
Publication of CN110991637B publication Critical patent/CN110991637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种公司形象提升***的社交网络数据提取方法及***,一种公司形象提升***的社交网络数据提取方法,包括以下步骤:S1:基于规则对待测数据划分模块;S2:“模式自动归纳”抽取模型建立模块;S3:基于负反馈的规则、模型调整模块;一种公司形象提升***的社交网络数据提取***,所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块;本发明能在大量的社交媒体数据中提取出精确的关键信息,相对于现有技术方案,本技术路线只需使用少量规则的“规则判断”,就可以替代“人工标注”获得初始标准语料,降低了人工的工作量和出错率。

Description

一种公司形象提升***的社交网络数据提取方法及***
技术领域
本发明涉及社交网络数据提取技术领域,具体为一种公司形象提升***的社交网络数据提取方法及***。
背景技术
目前,网络平台已成为我国最主要的社交模式之一,同时也是当今社会信息舆论传播的最快传播途径。在当今市场上,通过网络社交媒体来提升公司品牌价值、更好的分析客户需求以服务客户,已成为了重要的途径。与此同时,在这些社交媒体上每日都涌现出大量能公开访问且实时的媒体数据。在这每日更新的大数据中,一方面,提供了大量包含了已有客户或是目标客户的需求点以及公司业务不足之处的信息;另一方面,能及时获得实时舆论焦点,在舆论变成失去真实性甚至是失控之前,使得相关部门能监测网民情绪变化,并进行有效引导。这时,在大量的数据中得到精确的关键字,能让相关部门在最短的时间内得出用户或者舆论的具体结论,从而采取措施。
其中,最难的是准确地从大数据中提取有用的关键字;目前的处理技术:利用提取方法,即针对特定内容在网页中的上下文信息,编写正则表达式等规则,然后对生成的规则按网络的传导途径进行连接和整理,并提出一种从训练后的三层前馈网络中抽取分类规则。首先对每个隐层结点与输出层结点之间的规则(规则集1)和输入层结点与隐层结点之间的规则(规则集2);最后将两部分规则进行合并得到最终的分类规则,对符合公司具体服务数据作进一步分析处理,从而构建相对独立的公司用户需求预测模型以及情绪判别模型。
传统的规则抽取技术需要针对所有站点开展规则编制、维护和测试,工作量较大且容易出错,且召回率较低、健壮性不足,难以覆盖全面的结构化字段和关键指标。社交媒体所包含的信息,大多需要进行挖掘分析与计算,从而获得关键字指标。如博客的标题,微博的评论,微信公众号的点赞数等,这些不同的社交媒体展示信息的结构方式、指标都不尽相同,仅仅是利用规则提取技术是不能适应当今社交媒体大数据信息的处理,同时,目前的规则抽取基于结构方式过分依赖网页结构,这就导致了出现一个新的信息源就要重新构造一套抽取程序,造成***的可扩展性差。
发明内容
本发明的目的在于提供一种公司形象提升***的社交网络数据提取方法及***,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种公司形象提升***的社交网络数据提取方法,包括以下步骤;
S1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;
S2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;
S3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作。
在S1中,对特定内容在网页中的上下文信息,编写正则表达式等规则,基于此规则对待抽取的原始文本语料进行筛与文本提取,抽取出命中规则的语料作为模块二的输入,且语料为1%,而剩下占原始语料99%的未命中规则的语料不参与模块二的计算。
在S2中,完成模型训练的准备工作包括:指示词词库的构建、特征模板的构建与训练/测试语料的选择与标注,准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征,并设定阈值进行特征筛选,最后将词汇和特征组合转换为词向量注入条件随机场模型,使用Improved Iterative Scaling改进的迭代尺度法训练参数,得到一个可以用于预测实体的最终模型。
在S3中:基于负反馈思想对“模式自动归纳”抽取模型进行测试,以测试样本集在抽取模型上的测试正确率作为判断标准,对该抽取模型是否符合需求进行判断。
实施权利要求1-4之一所述方法的公司形象提升***的社交网络数据提取***,其特征在于:所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块;基于条件随机场模型,提出采用人工智能的序列标注算法与规则提取相结合的技术路线,解决异构社交媒体关键信息提取。
所述模型预处理子模块,将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据;基于CRF的文本序列标注子模块,使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注,构建“模式自动归纳”抽取模型,提出了使用基于改进的迭代尺度法的模型训练子模块,使用改进的迭代尺度法进行模型参数估计,提出了初步特征模板和组合特征模板,进行词性的分析,词组的组合以及关键信息的提取;基于改进的迭代尺度法的模型训练子模块,条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大似然估计。
所述基于负反馈的规则、模型调整模块,补充指定的规则数量,逐步将模型的正确率提升,得到最终训练模型。
所述最终训练模型可作为正式的抽取模型部署,对原始预料直接进行抽取。
与现有技术相比,本发明的有益效果是:
1.基于条件随机场(CRF)模型,提出采用人工智能的序列标注算法与规则提取相结合的技术路线,解决异构社交媒体关键信息提取。
2.提出基于规则的待测数据划分模块,对待抽取原始语料,使用编写的少量正则表达式进行文本抽取,作为所述提取方法的输入数据。
3.结合基于CRF模型的开源自动序列标注算法CRF++,构建“模式自动归纳”抽取模型。
4.提出了初步特征模板和组合特征模板,进行词性的分析,词组的组合以及关键信息的提取。
5.提出了模块预处理子模块,将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据集。
6.提出了基于CRF的文本序列标注子模块,使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注。
7.提出了使用基于改进的迭代尺度法(IIS)的模型训练子模块,使用改进的迭代尺度法进行模型参数估计。
8.提出基于负反馈的规则、模型调整模块,补充指定的规则数量,逐步将模型的正确率提升。
9.最终训练模型可作为正式的抽取模型部署,对原始预料直接进行抽取。
附图说明
图1为本发明的方法流程框图;
图2为本发明的关键信息抽取操作流程图;
图3为本发明的基于规则的待测数据划分模块流程框图;
图4为本发明的模型预处理子模块流程框图;
图5为本发明的“模式自动归纳”抽取模型训练过程流程框图;
图6为本发明的正确率没达标的模型训练流程框图;
图7为本发明的正确率达标的模型训练流程框图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图7,本发明提供一种技术方案:一种公司形象提升***的社交网络数据提取方法,如图1和图3所示,包括以下步骤:
S1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;
S2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;
S3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作;
“模式自动归纳”抽取模型建立模块
如图2所示,主要由三个子模块组成,1.预处理子模块、2.完成关键信息抽取操作的基于条件随机场(CRF)的子模块、3.基于改进的迭代尺度法(IIS)的模型训练子模块;
首先需要完成模型训练的准备工作,包括指示词词库的构建,特征模板的构建,训练/测试语料的选择与标注等,这些工作为训练模块的特征提取、训练/测试语料库的标准化起到了铺垫作用;准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征,并设定阈值进行特征筛选,最后将词汇和特征组合转换为词向量注入条件随机场模型(CRF模型),使用IIS(Improved Iterative Scaling,改进的迭代尺度法)训练参数,得到一个可以用于预测实体的最终模型;
1.模型预处理子模块
如图4所示,将模块一中命中规则的语料作为模块二的输入数据集;为了方便训练模型以及测试模型,进一步将语料划分为训练样本集(占80%)以及测试样本集(占20%)。将训练样本集作为分词模块的输入;
2.基于CRF的文本序列标注子模块
使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注(CRF++是条件随机场(CRF)的一种简单,可自定义的开源实现,用于对顺序数据进行分段/标记。CRF++专为通用目的而设计,应用于各种NLP任务,例如命名实体识别,信息提取和文本分块)。具体算法原理与训练过程如下:
CRF的建模公式如下:
Figure BDA0002291787350000061
其中,O表示观测序列(观测序列为被预测词语的上下文信息),I表示所有可能的状态序列(状态序列表示被预测词语的词性,也就是实体类别,如:文章的作者,文章标题等),P(I|O)表示在输入一串观测序列的情况下,状态序列的概率值,t表示当前节点(token)所在位置,fk是第k个特征函数,满足特征条件就取值为1,否则为0。λk是特征函数对应权值,一套CRF由一套参数λ唯一确定。其中Z(O)为归一化因子,求和是在所有可能输出序列上进行的。模型预测的目的是找出使得P(I|O)最大的状态序列I。
定义转移特征以及状态特征,将建模公式展开:
Figure BDA0002291787350000062
其中,tj为i处的转移特征,对应权重λj,每个token_i都有J个特征,转移特征针对的是前后token之间的限定。sl为i处的状态特征,对应权重μl,每个token_i都有L个特征;
特征函数fk在序列标注问题中体现为特征模板,通过特征模板的筛选,将会为每个序列生成成千上万特征,特征决定了序列的标注结果,从上述的公式可见,特征模板的好坏直接影响模型的精度。本发明确立使用BMESO标签体系(也可以使用更加复杂的标签体系,如BMESO++,由于更加复杂会增加训练时间,这里不做讨论),基于此标签体系,本发明针对此应用场景自定义了命名实体组合标注集,命名实体组合标注集如下:
Figure BDA0002291787350000071
Figure BDA0002291787350000081
本发明定义了两类特征模板,分别为原子特征模板和组合特征模板;
初步特征模板:句子表达中每个词实际都受到上下文的关联影响,并且由于该模板作为上下文的初步划分,为组合模板提供特征,因此称为“初步特征模板“。初步特征模板如下:
模板形式 模板含义
WORD(0) 当前词
WORD(-1) 前数第一个词
WORD(-2) 前数第二个词
WORD(1) 后数第一个词
WORD(2) 当前词右边第二个词
POS(0) 当前词的词性
POS(-1) 前数第一个词的词性
POS(-2) 前数第二个词的词性
POS(1) 后数第一个词的词性
POS(2) 后数第二个词的词性
简单的词形和词性特征所能表达的上下文信息有限,组合特征能够利用远距离的约束和丰富的上下文信息,因此可以由初步特征两两组合产出新的组合特征模板。因此定义组合特征模板如下:
Figure BDA0002291787350000082
Figure BDA0002291787350000091
在CRF++中,每个特征都会尝试标注每个标注label,总共将生成N*L个特征函数以及对应的权重出来。N表示每一套特征函数,L表示标注集元素个数;
3.基于改进的迭代尺度法(IIS)的模型训练子模块
条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大似然估计。本发明采用了改进的迭代尺度法(IIS)进行模型训练。算法基本原理如下:
设该模型为
Figure BDA0002291787350000092
其中,
Figure BDA0002291787350000093
其对数似然函数为
Figure BDA0002291787350000101
假设模型当前的参数向量是w=(w1,w2,...,wn)Tw=(w1,w2,...,wn)T,我们希望找到一个新的参数向量w+δ=(w1+δ1,w2+δ2,...,wn+δn)Tw+δ=(w1+δ1,w2+δ2,...,wn+δn)T使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法τ:w→w+δτ:w→w+δ,那么就可以重复使用这一方法,直至找到对数似然函数的最大值。
Figure BDA0002291787350000102
因此,将特征筛选结果直接输入条件随机场模型,根据IIS(改进的自动迭代法)的收敛性,迭代估计模型参数,可以得到“模式自动归纳“抽取模型,如图5所示。
基于负反馈的规则、模型调整模块。
模块二的测试样本集对“模式自动归纳”抽取模型进行测试,以测试样本集在抽取模型上的测试正确率作为判断标准,对该抽取模型是否符合需求进行判断。
结果一:正确率过低,不符合要求。
针对此结果,本发明采用负反馈调节技术,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入,如图6所示;
结果二:正确率高于需求值,满足要求。
针对此结果,本发明认为该抽取模型通过验证,即可作为正式抽取模型部署,对“原始语料“进行直接抽取,如图7所示;
能在大量的社交媒体数据中提取出精确的关键信息,相对于现有技术方案,本技术路线只需使用少量规则的“规则判断”,就可以替代“人工标注”获得初始标准语料,降低了人工的工作量和出错率;对序列标注模型的抽取结果能够进行自动化回测,确保模型的准确性符合业务需求,用序列标注作为最终文本抽取的执行器,确保模型的适用性得到保障(不限制于待抽取信息是否具有严格的模版,所以抽取范围远高于纯粹基于“正则表达式”的方法),同时,整个过程是可增量迭代的,如果序列标注训练得到的模型的抽取效果不理想(准确性达不到要求),仅需要进行增加编写少量正则表达式,执行同样的过程循环,这就有效提升了模型抽取效果,使得前期编写的规则不会被废弃;
“模式自动归纳”抽取模型构建模块中,信息抽取技术可以根据实验或应用效果,用隐马尔科夫模型、最大熵马尔科夫、表决感知机模型替代条件随机场模型计算标注序列;“模式自动归纳”抽取模型构建模块中,信息抽取技术可以根据实验或应用效果,用牛顿法、拟牛顿法、前向后向算法代替改进的迭代尺度法训练模型。
本发明公司形象提升***的社交网络数据提取方法及***与现有的技术不同之处在于:基于条件随机场(CRF)模型,提出采用人工智能的序列标注算法与规则提取相结合的技术路线,解决异构社交媒体关键信息提取;提出基于规则的待测数据划分模块,对待抽取原始语料,使用编写的少量正则表达式进行文本抽取,作为所述提取方法的输入数据;结合基于CRF模型的开源自动序列标注算法CRF++,构建“模式自动归纳”抽取模型;提出了初步特征模板和组合特征模板,进行词性的分析,词组的组合以及关键信息的提取;提出了模块预处理子模块,将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据集;提出了基于CRF的文本序列标注子模块,使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注;提出了使用基于改进的迭代尺度法(IIS)的模型训练子模块,使用改进的迭代尺度法进行模型参数估计;提出基于负反馈的规则、模型调整模块,补充指定的规则数量,逐步将模型的正确率提升;最终训练模型可作为正式的抽取模型部署,对原始预料直接进行抽取。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种公司形象提升***的社交网络数据提取方法,其特征在于,包括以下步骤;
S1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;
S2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;
S3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作;
在S1中,对特定内容在网页中的上下文信息,编写正则表达式等规则,基于此规则对待抽取的原始文本语料进行筛与文本提取,抽取出命中规则的语料作为模块二的输入,且语料为1%,而剩下占原始语料99%的未命中规则的语料不参与模块二的计算;
在S2中,完成模型训练的准备工作包括:指示词词库的构建、特征模板的构建与训练/测试语料的选择与标注,准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征,并设定阈值进行特征筛选,最后将词汇和特征组合转换为词向量注入条件随机场模型,使用Improved Iterative Scaling改进的迭代尺度法训练参数,得到一个可以用于预测实体的最终模型。
2.根据权利要求1的一种公司形象提升***的社交网络数据提取方法,其特征在于:在S3中:基于负反馈思想对“模式自动归纳”抽取模型进行测试,以测试样本集在抽取模型上的测试正确率作为判断标准,对该抽取模型是否符合需求进行判断。
3.一种实施权利要求1或2所述方法的公司形象提升***的社交网络数据提取***,其特征在于:所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块;基于条件随机场模型,提出采用人工智能的序列标注算法与规则提取相结合的技术路线,解决异构社交媒体关键信息提取。
4.根据权利要求3的一种公司形象提升***的社交网络数据提取***,其特征在于:所述模型预处理子模块,将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据;基于CRF的文本序列标注子模块,使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注,构建“模式自动归纳”抽取模型,提出了使用基于改进的迭代尺度法的模型训练子模块,使用改进的迭代尺度法进行模型参数估计,提出了初步特征模板和组合特征模板,进行词性的分析,词组的组合以及关键信息的提取;基于改进的迭代尺度法的模型训练子模块,条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大似然估计。
5.根据权利要求3的一种公司形象提升***的社交网络数据提取***,其特征在于:所述基于负反馈的规则、模型调整模块,补充指定的规则数量,逐步将模型的正确率提升,得到最终训练模型。
6.根据权利要求5的一种公司形象提升***的社交网络数据提取***,其特征在于:所述最终训练模型可作为正式的抽取模型部署,对原始预料直接进行抽取。
CN201911183109.2A 2019-11-27 2019-11-27 一种公司形象提升***的社交网络数据提取方法及*** Active CN110991637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911183109.2A CN110991637B (zh) 2019-11-27 2019-11-27 一种公司形象提升***的社交网络数据提取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911183109.2A CN110991637B (zh) 2019-11-27 2019-11-27 一种公司形象提升***的社交网络数据提取方法及***

Publications (2)

Publication Number Publication Date
CN110991637A CN110991637A (zh) 2020-04-10
CN110991637B true CN110991637B (zh) 2023-06-16

Family

ID=70087405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911183109.2A Active CN110991637B (zh) 2019-11-27 2019-11-27 一种公司形象提升***的社交网络数据提取方法及***

Country Status (1)

Country Link
CN (1) CN110991637B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384389A (zh) * 2023-03-07 2023-07-04 欧冶工业品股份有限公司 基于聚类的对非结构化招标要求文本的提取方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索***
CN107977345A (zh) * 2017-11-14 2018-05-01 福建亿榕信息技术有限公司 一种通用文本信息抽取方法以及***
CN110222668A (zh) * 2019-06-17 2019-09-10 苏州大学 基于生成对抗网络的多姿态面部表情识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索***
CN107977345A (zh) * 2017-11-14 2018-05-01 福建亿榕信息技术有限公司 一种通用文本信息抽取方法以及***
CN110222668A (zh) * 2019-06-17 2019-09-10 苏州大学 基于生成对抗网络的多姿态面部表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨阳 ; 张文生 ; .基于深度学习的图像自动标注算法.数据采集与处理.2015,(01),全文. *
翟社平 ; 段宏宇 ; 李兆兆 ; .基于BILSTM_CRF的知识图谱实体抽取方法.计算机应用与软件.2019,(05),全文. *

Also Published As

Publication number Publication date
CN110991637A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107862087B (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN107562863A (zh) 聊天机器人回复自动生成方法及***
CN111310438A (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN113841168A (zh) 包括由分布式轻量级实时边缘引擎支持的主引擎的分层机器学习架构
CN111241425A (zh) 一种基于层次注意力机制的poi推荐方法
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN116992042A (zh) 基于新型研发机构科技创新服务知识图谱***的构建方法
Li et al. Biomedical named entity recognition based on the two channels and sentence-level reading control conditioned LSTM-CRF
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN117494727B (zh) 用于大语言模型的去偏倚方法
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
CN110991637B (zh) 一种公司形象提升***的社交网络数据提取方法及***
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
Sinapoy et al. Comparison of lstm and indobert method in identifying hoax on twitter
CN113705207A (zh) 语法错误识别方法及装置
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN114357160B (zh) 基于生成传播结构特征的早期谣言检测方法及装置
Zhang et al. Probabilistic verb selection for data-to-text generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant