CN116805147B - 应用于城市大脑自然语言处理的文本标注方法及装置 - Google Patents
应用于城市大脑自然语言处理的文本标注方法及装置 Download PDFInfo
- Publication number
- CN116805147B CN116805147B CN202310204225.8A CN202310204225A CN116805147B CN 116805147 B CN116805147 B CN 116805147B CN 202310204225 A CN202310204225 A CN 202310204225A CN 116805147 B CN116805147 B CN 116805147B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- clause
- text
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 45
- 210000004556 brain Anatomy 0.000 title claims abstract description 34
- 238000003058 natural language processing Methods 0.000 title claims abstract description 31
- 230000008451 emotion Effects 0.000 claims abstract description 388
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000011218 segmentation Effects 0.000 claims description 38
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000013016 damping Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 18
- 238000010276 construction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种应用于城市大脑自然语言处理的文本标注方法及装置,该方法包括预处理获得的自然语言文本并对预处理后的词性进行筛选以分别形成业务词集和情感词集,提取业务关键词集和情感关键词集。基于情感关键词集进行情感标注的同时还进一步判断自然语言文本的情感强烈程度。对于情感强烈的文本,在业务标注时将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列。将业务关键词序列输入已训练好的模型内进行分类并基于业务关键词序列中是否具有情感关键词以准确标注情感程度不同但语义相同或相近文本,取模型输出的置信度最高的分类作为该自然语言文本的业务标签。
Description
技术领域
本发明涉及人工智能技术领域,且特别涉及一种应用于城市大脑自然语言处理的文本标注方法、装置及电子设备。
背景技术
城市大脑是互联网大脑架构与智慧城市建设结合的产物,是城市级的类脑复杂智能巨***,在人类智慧和机器智能的共同参与下,在物联网,大数据,人工智能,边缘计算,5G、云机器人、数字孪生等前沿技术的支撑下,城市神经元网络和城市云反射弧将是城市大脑建设的重点,城市大脑的作用是提高城市的运行效率,解决城市运行中面临的复杂问题,更好的满足城市各成员的不同需求。
城市大脑是基于城市运行所产生的信息作为输入的智能***,城市运行不仅会产生海量数据且数据格式不统一,故如何从杂乱的信息中获取有效信息已成为业界的研究热点。文本分类任务是自然语言处理(NLP)领域中最基础的任务之一,其不仅能有效的筛选信息,而且在信息检索和自动文摘等方面有着重要的应用。当前基于文本的分类主要聚焦于文本业务类型的分类,涉及情感分类的极少且情感分类和业务分类之间是独立的。
随着物联网技术的不断普及,与人们日常相关的舆情信息也逐渐以数据的形式汇集到相关部门。对于此类信息,其在反馈相关业务的同时也包含着反馈者对于该业务的情感和迫切度,因此亟需分析这类文本的业务类别和情感类别以更好地指导相关部门快速且有序地解决相关问题。但由于这类舆情信息通常会包含无意义冗余词,若直接采用原始文本作为语料进行模型训练以进行业务分类,忽略了冗余词对分类准确性的影响将会导致分类准确性差或无法分类的问题。此外,大量的无意义冗余词也会给情感分类带来很大的困难,且情感标注和业务标注的分离也使得信息接收者很难识别海量信息的重要程度。故当前与人们日常相关的舆情信息主要还是通过人工的方式进行标注,耗费大量人力资源。
发明内容
本发明为了克服现有技术的不足,提供一种应用于城市大脑自然语言处理的文本标注方法、装置及电子设备。
为了实现上述目的,本发明提供一种应用于城市大脑自然语言处理的文本标注方法,其包括:
预处理获得的自然语言文本,包括子句切分和每一子句的分词处理;
基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集;
分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集;
将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;基于多个情感词的情感值得到自然语言文本的情感总得分;
将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本;
若判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注,将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列;
将业务关键词序列输入已训练好的FastText模型内进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。
根据本发明的一实施例,在计算子句情感词序列内的每个情感词的情感值时:
判断子句情感词序列内每一情感词的词性以确定当前子句是否包含情感程度词,所述情感程度词包括助词、动副词以及副词;
若判断表明当前子句仅包括一个或多个单形容词且无情感程度词时,根据预设的仅与单形容词相关的第一计算规则计算其情感值;若判断表明当前子句包含情感程度词,则在一个或多个单形容词的基础上结合情感程度词权重以第二计算规则计算情感值。
根据本发明的一实施例,当判断表明当前子句包含情感程度词,基于词空间距离获取与每一情感程度词距离最近且出现在情感程度词后侧的单形容词并根据该情感程度词的权重更新距离最近且位于其后侧的单形容词的情感值。
根据本发明的一实施例,以子句中的一个单形容词为节点,相邻节点之间采用滑动窗口M对子句进行开窗划分,以滑动窗口M为度量单位将情感程度词匹配至与其最接近且出现在情感程度词后侧的单形容词,根据该情感程度词的权重更新位于其后侧的单形容词的情感值。
根据本发明的一实施例,计算子句情感词序列内的每个情感词的情感值时,判断子句情感词序列内的情感词是否包含连词;若是,则在第一计算规则或第二计算规则的基础上融合连词权重。
根据本发明的一实施例,预处理获得的自然语言文本包括:
将获得的自然语言文本切分成多个子句并构建子句集合T={S1,S2,…,Sn};
对子句集合内的每个子句Si进行分词以得到多个分词结果Si={W1={w1,p1},W2,…,Wn},每一分词结果均包括分词后的单个词汇wi和该词汇的词性pi;
通过预设的停用词集合ST过滤每一子句Si中无意义的停用词。
根据本发明的一实施例,在获得情感词集采用如下步骤提取相应的情感关键词集:
根据情感词之间的共现关系,以情感词汇wi为节点并基于滑动窗口H中出现的同类词汇构建候选情感关键词无向有权图;
根据以下公式迭代传播各节点权重直至收敛以得到候选情感关键词权重值集TRE:
其中,TRE(wi)为词汇wi的权重;d代表阻尼系数,设置为0.85;In(wi)代表指向wi节点的集合;Out(wi)代表wi所指向的节点集合;WEji代表节点wj到节点wi的连接权重;WEjk代表节点wj到节点wk的连接权重;TRE(wj)为词汇wj的权重;
对得到的候选情感关键词权重值集TRE按权重值进行降序排序并得到情感关键词集KWE;
采用相同的步骤在业务词集中提取情感关键词集KEB。
另一方面,本发明还提供一种应用于城市大脑自然语言处理的文本标注装置,其包括预处理单元、词集筛选单元、关键词提取单元、情感值计算单元、情感标注单元、业务参数提取单元以及模型输出单元。预处理单元预处理获得的自然语言文本,包括子句切分和每一子句的分词处理。词集筛选单元基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集。关键词提取单元,分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集。情感值计算单元将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;基于多个情感词的情感值得到自然语言文本的情感总得分。情感标注单元将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本。若情感标注单元判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注;业务参数提取单元将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,业务参数提取单元将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列。模型输出单元将业务关键词序列输入已训练好的FastText模型内以进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。
另一方面,本发明还提供一种电子设备,其包括一个或多个处理器和存储装置。存储装置用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述应用于城市大脑自然语言处理的文本标注方法。
综上所述,本发明提供的应用于城市大脑自然语言处理的文本标注方法对每一自然语言文本分别进行业务标注和情感标注以实现文本信息的多维度展示。进一步的,业务标注以业务关键词为基础标注业务标签;而对于事件相同,但情感程度不同的事件,譬如对某不文明事件的建议和投诉,只采用业务关键词会导致标注相同标签的问题出现,为此本发明保留情感强烈文本的情感关键词并作为业务关键词辅助业务分类,有助于提高分类的准确性,便于对事态严重事件快速筛选,提升事件处理能力。进一步的,在计算情感值时提出基于情感程度词和连词的情感值计算方式,该计算方式从词性的多维度上考虑情感值以实现复杂民情文本情绪标签的准确提取。此外,通过构建业务关键词集和情感关键词集来对每个句子进行筛选匹配,去除冗余词来分别形成子句情感词序列和业务关键词序列,从而有效地解决多冗余词对分类标注的影响,提高分类的准确性;同时又避免了语料过于庞大而造成的计算资源浪费。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1所示为本发明一实施例提供的应用于城市大脑自然语言处理的文本标注方法的流程图。
图2所示为图1中步骤S40中计算情感词的情感值的具体步骤。
图3所示为本发明一实施例提供的应用于城市大脑自然语言处理的文本标注装置的结构示意图。
图4所示为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的应用于城市大脑自然语言处理的文本标注方法,可以用于计算机设备中。在一种可能实现方式中,该计算机设备可以为终端,该终端可以为手机、计算机、平板电脑等多种类型的终端。在另一种可能实现方式中,该计算机设备可以包括服务器和终端。
图1所示为本实施例提供的应用于城市大脑自然语言处理的文本标注方法,其包括:
步骤S10,预处理获得的自然语言文本,包括子句切分和每一子句的分词处理。于本实施例以包含冗余词多且情感倾向多样化的且复杂的民情文本作为自然语言文本为例进行说明。然而,本发明对此不作任何限定。于其它实施例中,本发明所提供的应用于城市大脑自然语言处理的文本标注方法同样适用于互联网词条、医疗信息词条等自然语言文本的分类标注。
对于步骤S10的预处理,其具体流程包括:
步骤101:对每篇自然语言文本进行切分处理,得到子句Sn,构建子句集合T={S1,S2,…,Sn}。
步骤102:对集合内的每一子句通过JieBa算法进行分词并进行词性标注,则此时S={W1={w1,p1},W2,…,Wn}。其中:Wi代表分词结果,w代表分词后的单个词汇,p代表该词的词性。
步骤102:通过预设的停用词集合ST过滤子句Si中无意义的停用词;即任意词汇w∈ST且若子句集合T筛选后为空,则认为该文本无意义,不再进行标注处理。
在预处理获得每个子句的分词结果后执行步骤S20:基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集;即对同一个子句集合T分别生成业务词集TB和情感词集TE。具体的,遍历T中每个子句中的每个分词结果Wi,依据预设的业务词性集合PB对Wi中的词性pi进行筛选,要求pi∈PB;即Wi={wi,pi}中,若pi∈PB,则将wi放入业务词集TB中,若则认为wi为噪音而进行忽略。遍历完成得到业务词集TB={wb1,wb2,…,wbn}。同理,遍历每个分词结果Wi,通过情感词性集合PE对其进行筛选,要求pi∈PE,得到情感词集TE={we1,we2,…,wen}。于本实施例中,PB={n,s,v,ns,vn,nt};其中,n代表普通名词,s代表处所名词,v代表普通动词,ns代表地名,vn代表名动词,nt代表机构名。
PE={a,u,d,vd,c};其中,a代表形容词,u代表助词,d代表副词,vd代表动副词,c代表连词。
在获得业务词集TB和情感词集TE后执行步骤S30:分别针对两个词集进行关键词提取形成业务关键词集KWB和情感关键词集KWE。本实施例给出一种基于TextRank算法的关键词提取方法,具体如下所示:
步骤S301,根据情感词之间co-occurrence共现关系,以情感词汇wei为节点并基于滑动窗口H中出现的同类词汇构建候选情感关键词无向有权图GE=(TE,E),E代表情感词集TE间各个边的非空有限集合。迭代传播各节点权重直至收敛,得到候选情感关键词权重值集TRE,计算公式如下:
其中,TRE(wei)为节点wei的权重;d代表阻尼系数,设置为0.85;In(wei)代表指向wei节点集合;Out(wei)代表wei所指向的节点集合;WEEji代表节点wei到节点wej的连接权重;WEEjk代表节点wej到节点wek的连接权重;TRE(wej)为词汇wej的权重值。
同样的,根据情业务词之间co-occurrence共现关系,以业务词汇wbi为节点并基于滑动窗口H中出现的同类词汇构建候选业务关键词无向有权图GB=(TB,B),B代表业务词集TB间各个边的非空有限集合。迭代传播各节点权重直至收敛,得到候选业务关键词权重值集TRB,计算公式如下:
其中,TRB(wbi)为节点wbi的权重;d代表阻尼系数,设置为0.85;In(wbi)代表指向wbi节点集合;Out(wbi)代表wbi所指向的节点集合;WEBji代表节点wbi到节点wbj的连接权重;WEBjk代表节点wbj到节点wbk的连接权重;TRB(wbj)为词汇wbj的权重值。
步骤302:对步骤301得到的候选情感关键词权重值集TRE和候选业务关键词权重值集TRB,按权重值(即TextRank值)进行降序排序,分别取TextRank值的前50个作为最终的关键词集合,得到情感关键词集KWE和业务关键词集KWB。若关键词数不满50个,则将集合内所有候选词作为其关键词。
在获得情感关键词集KWE后执行步骤S40,将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;并基于多个情感词的情感值得到自然语言文本的情感得分。于本实施例中,在获得每个情感词的情感值后,多个情感词的情感值共同形成该子句的情感得分,多个子句的情感得分经求和后得到自然语言文本的情感得分。然而,本发明对此不作任何限定。
具体的,步骤S40包括:
步骤S401,将步骤S10中的子句集合T与情感关键词集KWE进行匹配,保留每个子句的情感词,第i个子句的情感词用wei表示,即wei∈T∩KWE,得到第i个子句情感词序列ETi,ETi与情感词典匹配,若命中相应的情感词,情感词赋予对应的情感值,并按子句情感计算规则计算第i个子句的情感值Scorei。
对于步骤S401,本实施例还提供了一种基于情感词判断以进一步提高情感值计算准确度的方法,具体如下所示:
步骤S4011,判断子句情感词序列内情感词的词性以确定当前子句是否包含情感程度词,情感程度词包括助词、动副词以及副词。
步骤S4012,若判断表明当前子句仅包括一个或多个单形容词且无情感程度词时,则根据预设的仅与单形容词相关的第一计算规则计算其情感值,所述第一计算规则如下:
其中,si为中第i个单形容词的情感值,N为子句内单形容词的数量;Scorei为第i个子句的情感值。
步骤S4013,若步骤S4011判断表明当前子句包含情感程度词,则在一个或多个单形容词的基础上结合情感程度词权重以第二计算规则计算情感值。具体而言,以子句中的一个单形容词为节点,相邻节点之间采用滑动窗口M对子句进行开窗划分。以滑动窗口M为度量单位将情感程度词匹配至与其最接近且出现在该情感程度词后侧的单形容词;通过情感程度词的权重,更新该单形容词的情感值。譬如,对于某一个情感程度词,若以滑动窗口M为度量单位匹配到其前侧为单形容词,则认为该情感程度词不影响其前侧单形容词的情感值,情感值计算时忽略该情感程度词,使用第一计算规则计算子句情感值。窗口滑动,若此时该情感程度词后侧出现单形容词,则认为该情感程度词影响位于其后侧的单形容词的情感值,使用第二计算规则计算位于该情感程度词后侧的单形容词的情感值,所述第二计算规则如下:
其中,si代表单形容词情感值;N代表形容词数量;Weightij代表情感词si对应的每个情感程度词的权重,该权重可通过匹配情感程度词典来获得;K为情感词si对应的情感程度词数量,滑动窗口大小设置M=2。然而,本发明对第二计算规则不作任何限定。于其它实施例中,也可通过汇总子句所包含的情感程度值的数量,根据不同的数量直接赋予对应的权重以提高情感计算速率。
此外,对于情感程度词和情感词之间距离的计算,也可通过词空间距离来判断。譬如,当判断表明当前子句包含情感程度词,基于词空间距离获取与每一情感程度词距离最近且出现在情感程度词后侧的单形容词并根据该情感程度词的权重更新距离最近的单形容词的情感值。
进一步的,步骤S401还包括步骤S4014:判断子句情感词序列内的情感词是否包含连词;若是,则执行步骤S4015在第一计算规则或第二计算规则的基础上融合连词权重,具体为:
Scorei′=Scorei×(1+Weightij)
其中,Weightij代表连词权重,Scorei为经第一计算规则或第二计算规则计算得到的第i个子句的情感值,Scorei′为基于连词权重更新的第i个子句的情感值。于本实施例中,连词的权重根据连词的性质赋予不同的权重,具体的:
(一)转折关系
a)若连词强调前句,则Weightij=0.5
b)若连词强调后句,则Weightij=1.5
(二)递进关系
a)递进关系前后子句情感程度递增,则Weightij=1.5
(三)并列关系和因果关系
a)并列关系和因果关系,前后子句情感关系相同,则Weightij=1.0
步骤S402,将各子句情感得分Scorei进行加权平均求和,得到自然语言文本的情感总得分TotalScore。
之后,执行步骤S50:将自然语言文本的情感总得分TotalScore与预设的情感阈值匹配以标注情感标签。于本实施例中,情感阈值TH1分别为1和-1,标注的规则如下所示。然而,本发明对此不作任何限定。
情感标签
进一步的,步骤S50还将基于强烈情感阈值判断该自然语言文本是否为情感强烈文本。具体而言,取文本情感总得分TotalScore的绝对值,得到文本总得分绝对值AbsTotalScore,将AbsTotalScore与强烈情感阈值TH进行比较,若AbsTotalScore>TH2,则认为该文本为情感强烈文本,TH2大于情感阈值TH1的绝对值,即TH2>AbsTH1。
若步骤S50判断表明当前自然语言文本为情感强烈文本,执行步骤S601将子句集合T内的每一子句Si相交于业务关键词集KWB和情感关键词集KWE的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列,即wi∈T∩(KWB∪KWE),进而实现在业务标注时融合情感词,将情感词视作业务关键词。若判断表明当前自然语言文本为非情感强烈文本,则执行步骤S602,将每一子句与业务关键词集KWB匹配,获得包含业务关键词的相交元素以形成业务关键词序列,即wi∈T∩KWB。
步骤S70,将步骤S601或步骤S602所获得的业务关键词序列输入已训练好的FastText模型内以进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本并输出置信度最高的分类作为该自然语言文本的业务分类,得到业务标签;若最高置信度不满足最低要求值,则认为该文本不属于任何分类。
譬如,当输入的自然语言文本为“锦绣路:(由山前街至吴桥路)段,有一个没有素质的人在锦绣晓雯音乐东南侧18米处把一辆共享单车破损,这很让人生气,希望有关部门好好处罚这种人,真是让人火大(1辆,刹车把手坏了,青桔,无门牌)”,经过本实施例工的应用于城市大脑自然语言处理的文本标注方法可以得到:
业务标签:城乡建设投诉/城市建设和市政管理
匹配度:99.89%
情感标签:强烈消极
情感阈值:-3.427
在该实例中,强烈情感阈值设置为TH2=3,当输入的自然语言文本为包含情感关键词的强烈文本,在进行业务标签标注时模型将基于情感关键词输出对应的业务标签以表征事态程度,如该案例中的“城乡建设投诉”。于其它实施例中,当业务关键词序列中未包含有情感关键词时,根据预设的业务标签,在进行业务标签标注时文本被标注的业务标签不包含情感词,或包含情感程度低的业务标签情感词,如“城乡建设建议”或“城乡建设反馈”等。当信息处理者接收到多个业务关键词相同或相近的自然语言文本时,基于业务标签上与情感相关的业务标签情感词即可快速、准确地筛选出情感强烈的负面舆情信息,进而能及时快速地对该自然语言文本所反映的问题进行处理,提高信息处理的速度。
于本实施例中,自然语言文本的业务分类是基于FastText模型,对于该模型将采用如下步骤进行训练:
步骤S100,通过人工标注的方式,对表征民情的自然语言文本进行业务标注,并将已标注的文本按8:2的比例划分为训练集
Tr={{Tr1,Label},{Tr2,Label},…,{Trn,Label}}和测试集
Te={Te1,Label},{Te2,Label},…,{Ten,Label}}。
步骤S200,对训练集Tr中每个样本均进行步骤S10的预处理,将每个训练样本Tri进行句子切分,再对每个子句进行分词。
步骤S300,对于每一个训练样本Tri执行步骤S20以得到训练文本业务关键词TrKWBi和训练文本情感关键词TrKWEi。对TrKWEi执行步骤S30和S40,计算该训练文本的情感总得分并判断该训练文本是否为情感强烈文本。
步骤S400,若判定该训练文本为情感强烈文本,则此时将Tri相交于TrKWBi和TrKWEi的并集,Tri保留相交元素,即wri∈Tri∩(TrKWBi∪TrKWEi),将满足该条件的wri组合在一起形成训练文本关键词序列。否则,Tri与TrKWBi匹配,Tri保留相交元素,即wri∈Tri∩TrKWBi,将满足该条件的wri组合在一起形成训练文本关键词序列,此将获得为训练文本关键词序列。
步骤S500,将训练集Tr的训练文本关键词序列进行N-gram模型处理后作为输入,搭建基于Huffman的Softmax输出层,建立FastText模型。其中,学习速率lr=0.1,词向量维度dim=100,迭代次数epoch=10,最低词频min_count=1。
步骤600,引入测试集Te,计算模型的准确率Precision,召回率Recall,以及调和平均值F1对模型进行评价,计算公式如下:
其中TP代表正确分类文本量,FP代表成功分类文本量,FN代表样本总数。若调和平均值F1不满足要求,则返回步骤S500,引入更多训练集,更新模型。
与上述应用于城市大脑自然语言处理的文本标注方法相对应的,本实施例还提供一种应用于城市大脑自然语言处理的文本标注装置,其包括预处理单元10、词集筛选单元20、关键词提取单元30、情感值计算单元40、情感标注单元50、业务参数提取单元60以及模型输出单元70。预处理单元10预处理获得的自然语言文本,包括子句切分和每一子句的分词处理。词集筛选单元20基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集。关键词提取单元30分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集。情感值计算单元40将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,并将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;多个情感词的情感值共同形成该子句的情感得分,多个子句的情感得分经求和后得到自然语言文本的情感得分。情感标注单元50将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本。若判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注,业务参数提取单元60将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列。模型输出单元70将业务关键词序列输入已训练好的FastText模型内,FastText模型基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。
由于应用于城市大脑自然语言处理的文本标注装置的各功能已在其对应的方法步骤S10至步骤S70中予以详细说明,于此不再赘述。
图3示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图3示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。该电子设备100包括一个或多个处理器101和存储装置102。存储装置102用于存储一个或多个程序。当一个或多个程序被一个或多个处理器101执行,使得一个或多个处理器101实现本实施例提供的应用于城市大脑自然语言处理的文本标注方法。
综上所述,本发明提供的应用于城市大脑自然语言处理的文本标注方法对每一自然语言文本分别进行业务标注和情感标注以实现文本信息的多维度展示。进一步的,业务标注以业务关键词为基础标注业务标签;而对于事件相同,但情感程度不同的事件,譬如对某不文明事件的建议和投诉,只采用业务关键词会导致标注相同标签的问题出现,为此本发明保留情感强烈文本的情感关键词并作为业务关键词辅助业务分类,有助于提高分类的准确性,便于对事态严重事件快速筛选,提升事件处理能力。进一步的,在计算情感值时提出基于情感程度词和连词的情感值计算方式,该计算方式从词性的多维度上考虑情感值以实现复杂民情文本情绪标签的准确提取。此外,通过构建业务关键词集和情感关键词集来对每个句子进行筛选匹配,去除冗余词来分别形成子句情感词序列和业务关键词序列,从而有效地解决多冗余词对分类标注的影响,提高分类的准确性;同时又避免了语料过于庞大而造成的计算资源浪费。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。
Claims (9)
1.一种应用于城市大脑自然语言处理的文本标注方法,其特征在于,包括:
预处理获得的自然语言文本,包括子句切分和每一子句的分词处理;
基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集;
分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集;
将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;基于多个情感词的情感值得到自然语言文本的情感总得分;
将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本;
若判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注,将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列;
将业务关键词序列输入已训练好的FastText模型内进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。
2.根据权利要求1所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,在计算子句情感词序列内的每个情感词的情感值时:
判断子句情感词序列内每一情感词的词性以确定当前子句是否包含情感程度词,所述情感程度词包括助词、动副词以及副词;
若判断表明当前子句仅包括一个或多个单形容词且无情感程度词时,根据预设的仅与单形容词相关的第一计算规则计算其情感值;若判断表明当前子句包含情感程度词,则在一个或多个单形容词的基础上结合情感程度词权重以第二计算规则计算情感值。
3.根据权利要求2所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,当判断表明当前子句包含情感程度词,基于词空间距离获取与每一情感程度词距离最近且出现在情感程度词后侧的单形容词并根据该情感程度词的权重更新距离最近且位于其后侧的单形容词的情感值。
4.根据权利要求2所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,以子句中的一个单形容词为节点,相邻节点之间采用滑动窗口M对子句进行开窗划分,以滑动窗口M为度量单位将情感程度词匹配至与其最接近且出现在情感程度词后侧的单形容词,根据该情感程度词的权重更新位于其后侧的单形容词的情感值。
5.根据权利要求2所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,计算子句情感词序列内的每个情感词的情感值时,判断子句情感词序列内的情感词是否包含连词;若是,则在第一计算规则或第二计算规则的基础上融合连词权重。
6.根据权利要求1所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,预处理获得的自然语言文本包括:
将获得的自然语言文本切分成多个子句并构建子句集合T={S1,S2,…,Sn};
对子句集合内的每个子句Si进行分词以得到多个分词结果,每个子句Si={W1={w1,p1},W2,…,Wn},每一分词结果Wi均包括分词后的单个词汇wi和该词汇的词性pi;
通过预设的停用词集合ST过滤每一子句Si中无意义的停用词。
7.根据权利要求1所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,在获得情感词集采用如下步骤提取相应的情感关键词集:
根据情感词之间的共现关系,以情感词汇wi为节点并基于滑动窗口H中出现的同类词汇构建候选情感关键词无向有权图;
根据以下公式迭代传播各节点权重直至收敛以得到候选情感关键词权重值集TRE:
其中,TRE(wi)为词汇wi的权重;d代表阻尼系数,设置为0.85;In(wi)代表指向wi节点的集合;Out(wi)代表wi所指向的节点集合;WEji代表节点wj到节点wi的连接权重;WEjk代表节点wj到节点wk的连接权重;TRE(wj)为词汇wj的权重;
对得到的候选情感关键词权重值集TRE按权重值进行降序排序并得到情感关键词集KWE;
采用相同的步骤在业务词集中提取情感关键词集KEB。
8.一种应用于城市大脑自然语言处理的文本标注装置,其特征在于,包括:
预处理单元,预处理获得的自然语言文本,包括子句切分和每一子句的分词处理;
词集筛选单元,基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集;
关键词提取单元,分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集;
情感值计算单元,将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;基于多个情感词的情感值得到自然语言文本的情感总得分;
情感标注单元,将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本;
业务参数提取单元,若判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注,将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列;
模型输出单元,将业务关键词序列输入已训练好的FastText模型内进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的应用于城市大脑自然语言处理的文本标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204225.8A CN116805147B (zh) | 2023-02-27 | 2023-02-27 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204225.8A CN116805147B (zh) | 2023-02-27 | 2023-02-27 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116805147A CN116805147A (zh) | 2023-09-26 |
CN116805147B true CN116805147B (zh) | 2024-03-22 |
Family
ID=88078718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310204225.8A Active CN116805147B (zh) | 2023-02-27 | 2023-02-27 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116805147B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016173742A (ja) * | 2015-03-17 | 2016-09-29 | 株式会社Jsol | 顔文字感情情報抽出システム、方法及びプログラム |
CN108874937A (zh) * | 2018-05-31 | 2018-11-23 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN109858026A (zh) * | 2019-01-17 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 文本情感分析方法、装置、计算机设备及存储介质 |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
KR20200127590A (ko) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | 뉴스 기사의 감성 정보 레이블링 장치 |
CN114219337A (zh) * | 2021-12-21 | 2022-03-22 | 中国农业银行股份有限公司 | 一种服务质量评价方法、***、设备及可读存储介质 |
US11450124B1 (en) * | 2022-04-21 | 2022-09-20 | Morgan Stanley Services Group Inc. | Scoring sentiment in documents using machine learning and fuzzy matching |
-
2023
- 2023-02-27 CN CN202310204225.8A patent/CN116805147B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016173742A (ja) * | 2015-03-17 | 2016-09-29 | 株式会社Jsol | 顔文字感情情報抽出システム、方法及びプログラム |
CN108874937A (zh) * | 2018-05-31 | 2018-11-23 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN109858026A (zh) * | 2019-01-17 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 文本情感分析方法、装置、计算机设备及存储介质 |
KR20200127590A (ko) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | 뉴스 기사의 감성 정보 레이블링 장치 |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
CN114219337A (zh) * | 2021-12-21 | 2022-03-22 | 中国农业银行股份有限公司 | 一种服务质量评价方法、***、设备及可读存储介质 |
US11450124B1 (en) * | 2022-04-21 | 2022-09-20 | Morgan Stanley Services Group Inc. | Scoring sentiment in documents using machine learning and fuzzy matching |
Non-Patent Citations (1)
Title |
---|
基于情感倾向性分析的网络舆情情感演化特征研究;蒋知义 等;《现代情报》;第38卷(第4期);第50-57页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116805147A (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8676730B2 (en) | Sentiment classifiers based on feature extraction | |
CN112001185A (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
Jha et al. | Homs: Hindi opinion mining system | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
Wankhede et al. | Design approach for accuracy in movies reviews using sentiment analysis | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
Zhang et al. | A hybrid neural network approach for fine-grained emotion classification and computing | |
Alsolamy et al. | A corpus based approach to build arabic sentiment lexicon | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
Suhartono et al. | Argument annotation and analysis using deep learning with attention mechanism in Bahasa Indonesia | |
Reddy et al. | Classification of user’s review using modified logistic regression technique | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
CN116805147B (zh) | 应用于城市大脑自然语言处理的文本标注方法及装置 | |
CN116628377A (zh) | 一种网页主题相关度判别方法 | |
CN115238709A (zh) | 一种政策公告网络评论情感分析方法、***及设备 | |
Braoudaki et al. | Hybrid data driven and rule based sentiment analysis on Greek text | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及*** | |
CN113590738A (zh) | 一种基于内容与情感的网络敏感信息的检测方法 | |
Kasmuri et al. | Building a Malay-English code-switching subjectivity corpus for sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |