CN113095068A - 基于权重字典的情感分析方法、***、装置及存储介质 - Google Patents

基于权重字典的情感分析方法、***、装置及存储介质 Download PDF

Info

Publication number
CN113095068A
CN113095068A CN202110481463.4A CN202110481463A CN113095068A CN 113095068 A CN113095068 A CN 113095068A CN 202110481463 A CN202110481463 A CN 202110481463A CN 113095068 A CN113095068 A CN 113095068A
Authority
CN
China
Prior art keywords
model
emotion
text
weight
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110481463.4A
Other languages
English (en)
Inventor
高文捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110481463.4A priority Critical patent/CN113095068A/zh
Publication of CN113095068A publication Critical patent/CN113095068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于权重字典的情感分析方法、***、装置及存储介质。其中方法包括:搜集中文情感分析数据集,对中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典,其中所述中文情感分析数据集带有积极或消极标注数据;获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量;根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。采用本发明能够解决现有技术中自动化程度不高,操作复杂、速度慢、且准确性不高的问题。

Description

基于权重字典的情感分析方法、***、装置及存储介质
技术领域
本发明涉及人工智能技术领域,特别是涉及一种基于权重字典的情感分析方法、***、装置及存储介质。
背景技术
文本情感分析问题是人工智能NLP领域最重要的任务之一。对于人类来说,人们很简单就能通过文字了解到作者的情感,而对于机器来说,如何让机器识别到文本中蕴含的情感那是艰难的。
情感分析在现实生活中的影响是巨大的,例如:消费者可通过其他消费者对产品的评论来决定是否购买这个产品;餐饮商家可通过消费者的评价信息来评估是不是服务质量不够好,食品质量与口味符不符合大众的要求等。
传统的情感分类***往往需要大量的人工标注数据,并且花费大量的时间和人力标注完数据后,还需要算法工程师等专业人事对标注数据进行特征提取,建模,泛化到产品中。具体过程可参见图1所示,传统情感分析***包括:对输入文本数据进行大量的人工标注,采用标注后数据训练模型,训练过程中需专业人士人工调参,输出模型并对效果进行验证,若效果不好继续进行人工调参,或者重新训练模型。可见,传统情感分析的整个过程需要浪费大量的人力和财力,无法广泛应用和推广。
发明内容
基于上述问题,本发明的目的在于提供一种基于权重字典的情感分析方法、***、装置及存储介质,以解决现有技术中情感分析的自动化程度不高,操作复杂、速度慢、且准确性不高的问题。
上述目的是通过以下技术方案实现的:
根据本发明一个方面,本发明提供的一种基于权重字典的情感分析方法,包括:
搜集中文情感分析数据集,对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典;其中,所述中文情感分析数据集带有积极或消极标注数据;
获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量;
根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
可选地,所述的对中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典的步骤中,包括:
采用词典分词、实体识别分词以及分词工具三种分词方式,对所述中文情感分析数据集分别进行分词,得到第一分词结果、第二分词结果以及第三分词结果;
将所述第一分词结果、第二分词结果和第三分词结果合并去重,得到最终的分词结果;
采用多种权重计算方式对所述最终的分词结果分别进行权重计算,得到多个权重字典,对多个权重字典中的同一词进行加权平均,得到情感类权重字典。
可选地,所述的采用所述情感类权重字典对每条文本进行积极和消极判断并标注的步骤中,包括:
对每条文本数据过滤停止词;
对过滤后文本进行分词,分词后得到包含一个或多个词语的词典;
遍历所述词典里面的每个词语,从所述情感类权重字典中获取所述词语对应的权重;
将所述词典中的所有词语的权重相加,得到该条文本数据的总分数;
判断所述总分数是否大于预设值;若是,则标注所述文本为积极;若不是,则标注所述文本为消极。
可选地,所述的对每条文本的标注信息进行向量转换,提取得到文本的特征向量的步骤中,采用预训练模型进行特征向量的提取,所述预训练模型为Bert预训练模型或Albert预训练模型。
可选地,在获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息的步骤之后,所述方法还包括:根据所述标注信息更新所述情感类权重字典。
进一步地,所述的根据所述标注信息更新所述情感类权重字典的步骤中,包括:
设定更新周期;
获取所述周期内的所有标注后的带有标注信息的文本数据;
将所述文本数据归集到中文情感分析数据集中,进行分词和权重计算,更新情感类权重字典。
可选地,所述的根据所述特征向量,对预训练模型进行调参训练,输出训练后模型的步骤中,包括:
确定预训练模型的模型类型;
将所述特征向量输入到所述预训练模型中,初始化参数;
采用调参方法进行调参,输出最高准确值或最高F1值的模型作为训练后模型。
进一步地,所述的采用调参方法进行调参的步骤中,包括:
保存初始参数下训练得到的模型以及所述模型对应的准确率值或F1值;
调参并训练得到模型,判断所述模型的准确率值或F1值是否高于所保存模型的准确率值或F1值,若高于,保存所述参数下模型以及所述模型对应的准确率值或F1值,否则不保存。
进一步地,确定的预训练模型为一个或多个;其中,当为多个时,分别对多个预训练模型进行模型训练,得到每个预训练模型的最高准确率值或最高F1值;比较并输出最高准确率值或最高F1值的模型作为训练后模型。
根据本发明另一个方面,本发明提供的一种基于权重字典的情感分析***,包括:
情感类权重字典构建模块,用于搜集带有积极或消极标注数据的中文情感分析数据集,对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典;
文本标注和特征向量提取模块,用于获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量。
模型训练和使用模块,用于根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
根据本发明的再一个方面,本发明提供的一种电子装置,该电子装置包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述基于权重字典的情感分析方法的步骤。
根据本发明的还一个方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现上述基于权重字典的情感分析方法的步骤。
与现有技术相比,本发明具有的有益效果和优点:
本发明提供的基于权重字典的情感分析方法、***、装置及存储介质,通过搜集大量的带有标注数据的中文情感分析数据集,并进行分词和权重计算,构建得到了数据丰富、完备,准确度高的情感类权重字典;基于所述情感类权重字典实现了全自动的文本数据标注;采用标注后信息进行模型训练得到了更准确的模型;基于该模型进行文本情感分析时,缩短了情感分析时间,提高了情感分析效率。
本发明涉及人工智能和智慧城市技术领域,具有自动化程度高,操作简单、速度快且准确性高的优点。本发明无需人工手动进行文本标注,整个***用户参与度比传统的情感分析***大幅减少,整个过程客户只需要输入文本数据和设定好模型即可,其他操作完全全自动完成;而且操作过程中对用户专业算法知识的掌握程度无要求,节省了大量的人力和财力。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。附图中:
图1示意性示出了传统情感分析***的逻辑示意图;
图2示意性示出了本发明基于权重字典的情感分析方法中构建情感类权重字典的逻辑示意图;
图3示意性示出了本发明基于权重字典的情感分析方法中模型训练的逻辑示意图。
图4示意性示出了本发明基于权重字典的情感分析方法的流程示意图;
图5示意性示出了本发明一实施例构建情感类权重字典的流程示意图;
图6示意性示出了本发明一实施例对文本数据进行标注并更新情感类权重字典的流程示意图;
图7示意性示出了本发明参数关联服务***的结构示意图;
图8示意性示出了本发明电子装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述:
图2示意性示出了本发明基于权重字典的情感分析方法中构建情感类权重字典的逻辑图;图3示意性示出了本发明基于权重字典的情感分析方法中模型训练的逻辑图;图4示意性示出了本发明基于权重字典的情感分析方法的流程图。如图2-图4所示,本发明提供的一种基于权重字典的情感分析方法,可以包括:
步骤S1,搜集中文情感分析数据集,采用多种分词方法和多种权重计算方法对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典。其中,所述中文情感分析数据集均带有积极或消极标注数据。
所述中文情感分析数据集可以经现有应用或平台等授权后从中下载即可,应用或平台例如可以为微博、美团、网购平台等。从各应用或平台获取得到数据集,所述数据集中含有情感分类标准不同,本申请只需保留消极和积极两类标注数据的数据集,其他删除即可,即最终搜集得到的数据集中的每条数据仅带有消极或积极标注数据。
本发明通过搜集大量的带有标注数据的中文情感分析数据集,构建得到了具有更丰富、更完备数据的情感类权重字典。通过采用多种分词方法和多种权重计算方法对中文情感分析数据集进行分词和权重计算,得到了更准确的情感类权重字典,从而进一步提高了后续模型训练的准确性。
步骤S2,获取多条文本数据,采用所述情感类权重字典对每条文本进行正负判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量。
其中,正负判断即为判断文本是正向还是负向,也就是判断文本是积极还是消极。对正负判断的结果进行标注时,可以采用正向(积极)标注为1,负向(消极)标注为0的标注方式。正负判断并标注后得到的标注信息至少包含:文本和文本所对应的正负判断结果,例如可以为:文本1,标注1;文本2,标注0。本发明为了提高后续模型训练的准确率,该步骤中至少获取100条文本数据进行标注,然后再进行后续的模型训练。
本发明基于所述情感类权重字典对文本数据进行标注,可以实现全自动文本数据标注,提高了标注准确率,提高了后续模型训练的准确率,进一步提高了后续情感分析的精确度。
步骤S3,根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
所述预训练模型为通过用户选取想要训练的模型,并进行定义后得到的,可以为一个或多个,当为多个预训练模型时分别进行模型训练,通过比较后,保存准确性最好的模型进行后续的情感分析。
本发明通过搜集大量的带有标注数据的中文情感分析数据集,经分词和权重计算,构建得到数据丰富、完备,准确度高的情感类权重字典;基于所述情感类权重字典实现了全自动对文本数据标注;采用基于标注后信息进行模型训练可以得到更准确的模型;基于所述模型进行文本情感分析时,可以缩短情感分析时间,提高情感分析效率。
图5示意性示出了本发明一实施例构建情感类权重字典的流程示意图;如图5所示,本发明步骤S1中,对中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典,具体可以包括:
步骤S11,采用词典分词、实体识别分词、以及分词工具三种分词方式对所述中文情感分析数据集分别进行分词,得到第一分词结果、第二分词结果以及第三分词结果。
该步骤中采用三种分词方式,对中文情感分析数据集分别进行分词,然后合并去重,提高了数据集分词结果的准确性。其中,所述词典分词方式可以把中文情感分析数据集中词典所包含的词语提取出来。所述实体识别分词方式可以对中文情感分析数据集中的实体信息进行提取,例如,提取出数据集中的地址、组织、人名等实体信息。所述分词工具分词方式是指采用自然语言处理工具包NLTK(Natural language toolkit)库包里面的分词工具对中文情感分析数据集的样本进行分词,并提取出来。
步骤S12,将所述第一分词结果、第二分词结果和第三分词结果合并去重,得到最终的分词结果。
步骤S13,采用多种权重计算方式对所述最终的分词结果分别进行权重计算,得到多个权重字典,对多个权重字典中的同一词进行加权平均,得到情感类权重字典。其中,所述情感类权重字典中可以采用id表示短语或单词,value表示权重。
所述的多种权重计算方式可以包括:词性分析、Tf-idf、bm25、textrank、LDA等权重计算方式。采用Tf-idf(term frequency–inverse document frequency,词频-逆文本频率指数)可以计算词语在文章中的权重。bm25可用来评价搜索词和文档之间相关性,基于概率检索模型提出的算法,最后可以得到了单词和文档之间的分数。Textrank和LDA可实现关键词的提取,具体地,可以根据关键词加权重等计算词的权重。
优选地,至少采用词性分析、Tf-idf、bm25三种权重计算方式对所述最终的分词结果分别进行权重计算。采用所述三种方法进行权重计算,提高了最后所生成的情感类权重字典的通用性和泛化能力。
示例性地,采用三种分词方法得到三种分词结果,合并去重后得到最终的分词结果;采用词性分析、Tf-idf、bm25三种权重计算方式对所述最终的分词结果分别进行权重计算;对每个词进行加权平均,得到情感类权重字典。
以一中文情感分析数据集为例,包括两条标注为积极1的数据,分别为:
“杭州的天气真好,我们来的时间恰到好处,哈哈。”标注为1。
“北京的天气真好,哈哈”。标注为1。
第一分词结果,即词典分词结果:{“杭州”,“天气“,”时间“}{”北京“,”天气“}
第二分词结果,即实体识别分词结果:{“杭州“}{”北京“}
第三分词结果,即分词工具分词结果:{“杭州“,“天气”,“真好”,“时间”,“恰到好处”,“哈哈“}{”北京“,”天气“,”真好“,”哈哈“}
合并去重结果:{“杭州“,“天气”,“真好”,“时间”,“恰到好处”,“哈哈“,”北京“}
词性分析得到权重字典:{“杭州“:0,”天气“:0,”真好“:1,”时间“:0,”恰到好处“:1,”哈哈“:1,”北京“:0}
Tf-idf得到权重字典:{“杭州“:1,”天气“:2,”真好“:2,”时间“:1,”恰到好处“:1,”哈哈“:2,”北京“:1}
bm25得到权重字典:{“杭州“:1,”天气“:2,”真好“:2,”时间“:1,”恰到好处“:1,”哈哈“:2,”北京“:1}
权重加权平均得到情感类权重字典:{“杭州“:2/3,”天气“:4/3,”真好“:5/3,”时间“:2/3,”恰到好处“:2/3,”哈哈“:5/3,”北京“:2/3}
需要说明的是:上述实施例中的两条标注都是积极1,权重字典每个词的权重都乘1;如果有标注为消极0的例子,则权重对应要乘以-1。例如,两条数据分别如下:“杭州天气真好”,标注为1。“北京雾霾严重”,标注为0。权重加权平均:{“杭州“:1,”天气“:1,”真好“:5/3,”北京“:-1,“雾霾”:-1,“严重”:-1}。
图6示意性示出了本发明一实施例对文本数据进行标注并更新情感类权重字典的流程示意图;如图6所示,本发明步骤S2中,获取的多条文本数据是分别输入后进行情感级别判断和标注的。其中,采用所述情感类权重字典对每条文本进行正负判断并标注,得到标注信息,具体可以包括:
步骤S21,对每条文本数据过滤停止词。其中,所述停止词相当于“我“,“的“等不重要的词,以加快判断和标注速度。
步骤S22,对过滤后文本进行分词,分词后得到包含一个或多个词语的词典。具体分词方法不做限定,例如,对“北京真好”采用分词工具进行分词,得到“北京”和“真好”两个词语。
步骤S23,遍历所述词典里面的每个词语,从所述情感类权重字典中获取所述词语对应的权重。其中,若在所述情感类权重字典中未找到该词语对应的权重,定义该词语权重为0。所述情感类权重字典中采用id表示短语或单词,value表示权重,该步骤中,可以包括:根据所述词语在所述情感类权重字典中的id,查找所述词语对应的权重。
步骤S24,将所述词典中的所有词语的权重相加,得到该条文本数据的总分数。
步骤S25,判断所述总分数是否大于预设值;若是,则标注所述文本为积极即正向;若不是,则标注所述文本为消极即负向。其中,所述预设值例如可以设定为0等。
示例性地,首先,通过步骤S1中获取得到了情感类权重字典,为{“杭州“:1,”天气“:1,”真好“:5/3,”北京“:-1,“雾霾”:-1,“严重”:-1}。然后,对句子“北京真好”采用分词工具分词为“北京”和“真好”。最后,从情感类权重字典中查询,“真好”对应的权重5/3,“北京”对应的权重-1,总分数为5/3–1=2/3>0,则认为该句子为积极的即正向。
示例性地:一条文本数据为:”日本的天气真好,哈哈“。首先,过滤掉停止词“的”。然后,分词,得到词典:{”日本“,”天气“,”真好“,”哈哈“}。接着,遍历词典中四个词语,根据步骤S1中所获取的所述情感类权重字典:{“杭州“:2/3,”天气“:4/3,”真好“:5/3,”时间“:2/3,”恰到好处“:2/3,”哈哈“:5/3,”北京“:2/3},获取四个词语对应的权重,将四个词语的权重相加,得到文本数据的总分数:0+4/3+5/3+5/3>0。其中,0为预设值,因总分数大于0,所以把这句话即该文本数据的文本标注为积极1。
本发明步骤S2中,所述的对每条文本的标注信息进行向量转换,提取得到文本的特征向量的步骤中,可以采用预训练模型进行特征向量的提取,所述预训练模型可以为Bert(Bidirectional Encoder Representations from Transformers)预训练模型或Albert预训练模型。预训练模型可以将文本转化为特征向量,例如,“今天我很开心!”,预训练模型可以把这句话转成特征向量[x,x,x,x],其中,x代表浮点数,也是一些特征,向量长度一般是300,得到特征向量用于后续进行模型训练。
在一可选实施例中,如图6所示,在获取多条文本数据,采用所述情感类权重字典对每条文本进行正负判断并标注,得到标注信息的步骤之后,还可以包括:步骤S26,根据所述标注信息更新所述情感类权重字典。
本发明可以将标注后的数据归集到中文情感分析数据集中,通过继续分词和权重计算,更新情感类权重字典,从而持续扩大了情感类权重字典,使得整个***的准确率持续地提高。
所述的根据所述标注信息更新所述情感类权重字典的步骤,具体可以包括:设定更新周期;获取所述周期内的所有标注后的带有标注信息的文本数据;将所述文本数据归集到中文情感分析数据集中,进行分词和权重计算,更新情感类权重字典。
其中,所述的设定更新周期步骤中,更新周期可以根据需要进行人为设定,例如可以设定一个月更新一次。所述的获取所述周期内的所有标注后的带有标注信息的文本数据的步骤中。各文本数据都带有标注信息,且标注信息中包含消极和积极标注数据,即当采用情感类权重字典对文本进行情感级别判断并标注后,就会得到该文本对应的消极0或积极1的标注结果。所述的将所述文本数据归集到中文情感分析数据集中,进行分词和权重计算,更新情感类权重字典。将一定时间内标注的所有文本及其标注结果全部归集到中文情感分析数据集中,通过进行分词和权重计算,便可以更新情感类权重字典。
示例性地:以上述的一条文本数据“日本的天气真好,哈哈”为例,进行说明。初始状态下,不知道该文本数据的标注,经过上述情感类权重字典标注后,得到这条文本的标注为1。因此,可以把这条已知标注数据的文本数据放入到一开始搜集的中文情感分析数据集中,以进行分词和权重计算,更新情感类权重字典。这样,权重字典经过更新后,“日本”之前未查到权重时,定义为0;更新后便可查询到“日本”的权重为1了。本实施例通过将标注后的文本信息进行归集并更新情感类权重字典的方式,可以使得自动标注过程不断完善,从而可提高模型训练的准确性,进一步提高情感分析的准确性。
本发明步骤S3中,根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,具体可以包括以下步骤:
步骤S31,确定预训练模型的模型类型。其中,用户只需选择自己想要训练的模型即可,可以选择一个或多个算法模型进行训练。所述模型例如可为DNN(Deep NeuralNetwork深度神经网络模型)、LR(logistic regression逻辑回归模型)、Svm(SupportVector Machine支持向量机模型)、贝叶斯模型等。
其中,当确定的预训练模型为多个时,根据所述特征向量对每个预训练模型分别进行训练,得到每个预训练模型的F1值;比较所有预训练模型的F1值,将F1值最高的模型作为训练后模型输出使用。
步骤S32,将所述标注信息和所述特征向量输入到所述预训练模型中,初始化参数,采用调参方法进行调参,输出最高准确值或最高F1值的模型作为训练后模型,进行保存。
其中,特征向量和标注出来的标签一起输入预训练模型的算法模型中进行训练。初始化参数为了方便可将w和b设置为0。本发明只需确定模型类型即可,各模型中定义了各种参数,以便采用调参方法进行调参。初始化参数只要设定不超出各个参数合理范围即可。
所述的采用调参方法进行调参的步骤,可以包括:根据正则化参数进行调参;根据内核类型参数进行调参;以及根据内核系数参数进行调参等步骤。
优选地,采用Grid search调参方法进行上述调参过程,以实现自动调参。在训练过程中,可以采用Grid search或Random search调参方法进行调参训练。Grid search调参方法,可以先设置几个参数,然后模型会遍历这几个参数,并训练出这些参数下最好的模型。Random search调参方法,调整结果比grid search更快,模型训练时可降低搜索时间,同时又能保证一定的模型准确性。
以SVM为例,其定义如下但不限于此的模型参数,可以采用Grid search调参方法完成各参数调整:
正则化参数C:所述参数是惩罚参数,模型在训练过程中,如果预测错了,要给予多大的惩罚就跟这个参数有关系。采用GRID search调参方法进行调参时,会自动训练出最好的正则化参数C。示例性地,设定参数C取值[2,3,4],模型会对C为2的时候训练一次,对C为3的时候训练一次,对C为4的时候训练一次,然后取三次训练中F1最高的模型作为最后的输出。
内核kernel:所述参数是指定算法中要使用的内核类型。采用Grid search调参方法同样可以自动调参。
内核系数gamma:Kernel coefficient这个是跟内核相关的内核系数。采用Gridsearch调参方法同样可以自动调参。
进一步地,还可以包括class_weight和max_iter模型参数。对应地,可以包括:根据积极和消极两个标签的训练权重进行调参;以及根据模型最大的迭代次数进行调参等步骤。其中,class_weight:该参数是积极和消极两个标签的训练权重。可以根据积极样本数量与消极样本数量的比值进行设置,以便模型能够达到一种平衡。max_iter:该参数是模型最大的迭代次数。默认为-1,没有限制。
在一可选实施例中,采用梯度下降方法求出损失函数最低的损失值,输出最高准确值或最高F1值的模型作为训练后模型,进行保存。其中,所述梯度下降方法可以为随机梯度下降方法。
本发明采用梯度下降方法,求损失函数,可以包括:设定迭代次数与学习率;根据设定的迭代次数与学习率,计算代价函数,计算反向传播梯度;根据所述代价函数和反向传播梯度,更新w,b;直至训练得到F1至最高模型,进行保存。
在一可选实施例中,进行保存的步骤中,还包括:判断该参数下训练出的模型的F1值是否高于已保存模型的F1值,根据判断结果来确定是否保存该模型。
具体地,***会根据不同的参数训练出不同的模型,第一次训练***会保存模型;后续某参数下得到的模型F1值超过保存模型的F1值,才会保存该参数下模型,否则,不保存。这将节省大量的空间。其中,F1值是平衡F分数,是精准率和召回率的调和平均数,与准确率相似都是评估指标。
进一步地,所述步骤中,还可以包括:根据特征向量进行排序,重要的特征权重会升高,不重要的特征权重会下降。本发明通过一定的时间,***会自动化地训练出最好准确值或者F1值的模型,客户就可以直接调用模型来推理,而且随着客户的数据就增多,模型的效果会越来越好。
示例性地:以预训练模型为逻辑回归模型(LR)为例,对模型训练过程做如下说明:
数据集标注信息:
文本1,标注1;
文本2,标注2;
……
文本n,标注n;
采用Bert预训练模型把文本转成向量:
文本1转换成[x,x,x,x],标注1;
文本2转换成[x,x,x,x],标注2;
……
文本n转换成[x,x,x,x],标注n;
将转换后的向量特征和标注label一起输入逻辑回归模型(LR),然后初始化参数w和b;
采用梯度下降方法,求损失函数:包括:设定迭代次数与学习率;计算代价函数;计算反向传播梯度;更新w,b;
直至训练得到F1最高的模型,保存模型;其中,先保存初始模型,后续模型F1值若比该模型F1值高才保存,否则不保存。
图7示意性地示出了本发明实施例的基于权重字典的情感分析***的结构。如图7所示,所述基于权重字典的情感分析***包括:情感类权重字典构建模块100,文本标注和特征向量提取模块200,以及模型训练和使用模块300。
所述情感类权重字典构建模块100,用于搜集带有积极或消极标注数据的中文情感分析数据集,采用多种分词方法和多种权重计算方法对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典。
所述文本标注和特征向量提取模块200,用于获取多条文本数据,采用所述情感类权重字典对每条文本进行正负判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量。
所述模型训练和使用模块300,用于根据所述标注信息和所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
在一可选实施例中,所述情感类权重字典构建模块100,可以包括:分词模块,合并去重模块以及权重计算模块。
所述分词模块,用于采用词典分词、实体识别分词、以及分词工具三种分词方式对所述中文情感分析数据集分别进行分词,得到第一分词结果、第二分词结果、以及第三分词结果。进一步地,所述分词模块,还用于对过滤模块过滤后文本进行分词,得到分词后得到包含一个或多个词语的词典。
所述合并去重模块,用于将所述第一分词结果、第二分词结果和第三分词结果合并去重,得到最终的分词结果。
所述权重计算模块,用于采用多种权重计算方式对所述最终的分词结果分别进行权重计算,得到多个权重字典,对多个权重字典中的同一词进行加权平均,得到情感类权重字典。
在一可选实施例中,所述文本标注和特征向量提取模块200,可以包括:过滤模块,获取权重模块,文本总分数计算模块以及判断模块。
所述过滤模块,用于对每条文本数据过滤停止词;过滤后文本采用分词模块进行分词,得到分词后得到包含一个或多个词语的词典。
所述获取权重模块,用于遍历所述词典里面的每个词语,从所述情感类权重字典中获取所述词语对应的权重。
所述文本总分数计算模块,用于将所述词典中的所有词语的权重相加,得到该条文本数据总分数。
所述判断模块,用于判断所述总分数是否大于预设值;若是,则标注所述文本为积极。
在一可选实施例中,所述模型训练和使用模块300,包括:预训练模型模块、模型训练模块以及情感分析模块。
所述预训练模型模块,用于定义想要训练的模型,可定义一个或多个算法模型。
所述模型训练模块,用于将所述标注信息和所述特征向量输入到所述预训练模型中,初始化参数;根据排序后的特征向量参数和模型类型,采用梯度下降方法求损失函数,输出最高准确值或最高F1值的模型作为训练后模型,进行保存。
所述情感分析模块,用于采用训练后模型进行情感分析。
图8示意性示出了本发明一种电子装置的结构,如图8所示,本发明提供的电子装置,可以是电视机、智能手机、平板电脑、计算机等终端设备。所述电子装置1包括:存储器11、处理器10以及存储在存储器11中并可在所述处理器10上运行的计算机程序,如情感分析程序12。所述处理器执行所述计算机程序时实现本发明基于权重字典的情感分析方法的步骤;例如,实现搜集中文情感分析数据集,对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典;获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量;根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析等步骤。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在电子装置中的执行过程。例如,情感分析程序可以被分割成基于权重字典的情感分析***中的情感类权重字典构建模块100,文本标注和特征向量提取模块200,以及模型训练和使用模块300。其功能作用在上文中有详细描述,在此不一一赘述。
处理器执行计算机程序时实现本发明基于权重字典的情感分析方法的步骤与上文类似,此处不再详述,示例性地,例如执行如下步骤:搜集中文情感分析数据集,对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典;获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量;根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
其中,所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是电子装置的内部存储单元,例如电子装置的硬盘或内存。存储器可以是电子装置的外部存储设备,例如电子装置上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括电子装置的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及电子设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本发明提供的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现本发明基于权重字典的情感分析方法的步骤和基于权重字典的情感分析***各单元/模块的功能,为避免重复,这里不再赘述。
一个可选实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括情感分析程序,所述情感分析程序被处理器执行时,实现上述的基于权重字典的情感分析方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于权重字典的情感分析方法,其特征在于,包括:
搜集中文情感分析数据集,对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典;其中,所述中文情感分析数据集带有积极或消极标注数据;
获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量;
根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
2.根据权利要求1所述的基于权重字典的情感分析方法,其特征在于,所述的对中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典的步骤中,包括:
采用词典分词、实体识别分词以及分词工具三种分词方式,对所述中文情感分析数据集分别进行分词,得到第一分词结果、第二分词结果以及第三分词结果;
将所述第一分词结果、第二分词结果和第三分词结果合并去重,得到分词结果;
采用多种权重计算方式对所述分词结果分别进行权重计算,得到多个权重字典,对多个权重字典中的同一词进行加权平均,得到情感类权重字典。
3.根据权利要求1所述的基于权重字典的情感分析方法,其特征在于,所述的采用所述情感类权重字典对每条文本进行积极和消极判断并标注步骤中,包括:
对每条文本数据过滤停止词;
对过滤后文本进行分词,分词后得到包含一个或多个词语的词典;
遍历所述词典里面的每个词语,从所述情感类权重字典中获取所述词语对应的权重;
将所述词典中的所有词语的权重相加,得到该条文本数据的总分数;
判断所述总分数是否大于预设值;若是,则标注所述文本为积极;若不是,则标注所述文本为消极。
4.根据权利要求1所述的基于权重字典的情感分析方法,其特征在于,所述的对每条文本的标注信息进行向量转换,提取得到文本的特征向量的步骤中,采用预训练模型进行特征向量的提取,所述预训练模型为Bert预训练模型或Albert预训练模型。
5.根据权利要求1所述的基于权重字典的情感分析方法,其特征在于,在获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息的步骤之后,所述方法还包括:根据所述标注信息更新所述情感类权重字典;
所述的根据所述标注信息更新所述情感类权重字典的步骤中,包括:
设定更新周期;
获取所述周期内的所有标注后的带有标注信息的文本数据;
将所述文本数据归集到中文情感分析数据集中,进行分词和权重计算,更新情感类权重字典。
6.根据权利要求1所述的基于权重字典的情感分析方法,其特征在于,所述的根据所述特征向量,对预训练模型进行调参训练,输出训练后模型的步骤中,包括:
确定预训练模型的模型类型;
将所述特征向量输入到所述预训练模型中,初始化参数;
采用调参方法进行调参,输出最高准确值或最高F1值的模型作为训练后模型;
其中,所述的采用调参方法进行调参的步骤中,包括:
保存初始参数下训练得到的模型以及所述模型对应的准确率值或F1值;
调参并训练得到模型,判断所述模型的准确率值或F1值是否高于所保存模型的准确率值或F1值,若高于,保存所述参数下模型以及所述模型对应的准确率值或F1值,否则不保存。
7.根据权利要求6所述的基于权重字典的情感分析方法,其特征在于,确定的预训练模型为一个或多个;其中,当为多个时,分别对多个预训练模型进行模型训练,得到每个预训练模型的最高准确率值或最高F1值;比较并输出最高准确率值或最高F1值的模型作为训练后模型。
8.一种基于权重字典的情感分析***,其特征在于,所述***包括:
情感类权重字典构建模块,用于搜集带有积极或消极标注数据的中文情感分析数据集,对所述中文情感分析数据集进行分词和权重计算,构建得到情感类权重字典;
文本标注和特征向量提取模块,用于获取多条文本数据,采用所述情感类权重字典对每条文本进行积极和消极判断并标注,得到标注信息;对每条文本的标注信息进行向量转换,提取得到文本的特征向量。
模型训练和使用模块,用于根据所述特征向量,对预训练模型进行调参训练,输出训练后模型,采用所述训练后模型进行情感分析。
9.一种电子装置,所述电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于权重字典的情感分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基于权重字典的情感分析方法的步骤。
CN202110481463.4A 2021-04-30 2021-04-30 基于权重字典的情感分析方法、***、装置及存储介质 Pending CN113095068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110481463.4A CN113095068A (zh) 2021-04-30 2021-04-30 基于权重字典的情感分析方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110481463.4A CN113095068A (zh) 2021-04-30 2021-04-30 基于权重字典的情感分析方法、***、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113095068A true CN113095068A (zh) 2021-07-09

Family

ID=76681268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110481463.4A Pending CN113095068A (zh) 2021-04-30 2021-04-30 基于权重字典的情感分析方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113095068A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757489A (zh) * 2022-03-18 2022-07-15 国网电子商务有限公司 一种商业指标的生成方法及装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106547924A (zh) * 2016-12-09 2017-03-29 东软集团股份有限公司 文本信息的情感分析方法及装置
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106547924A (zh) * 2016-12-09 2017-03-29 东软集团股份有限公司 文本信息的情感分析方法及装置
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
樊振 等: "基于词典和弱标注信息的电影评论情感分析", 基于词典和弱标注信息的电影评论情感分析, 10 November 2018 (2018-11-10), pages 3084 *
阿牛: "基于情感词典的python情感分析", pages 1 - 10, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/139641350> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757489A (zh) * 2022-03-18 2022-07-15 国网电子商务有限公司 一种商业指标的生成方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN109522556B (zh) 一种意图识别方法及装置
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
WO2017097231A1 (zh) 话题处理方法及装置
CN110569353A (zh) 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN105389307A (zh) 语句意图类别识别方法及装置
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN108304509B (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN111339277A (zh) 基于机器学习的问答交互方法及装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
US11551114B2 (en) Method and apparatus for recommending test question, and intelligent device
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
CN105608075A (zh) 一种相关知识点的获取方法及***
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及***
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN113011689A (zh) 软件开发工作量的评估方法、装置及计算设备
CN116775879A (zh) 大语言模型的微调训练方法、合同风险评审方法及***
CN113095068A (zh) 基于权重字典的情感分析方法、***、装置及存储介质
CN112487263A (zh) 一种信息处理方法、***、设备及计算机可读存储介质
CN109635289B (zh) 词条分类方法及审计信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination