CN111368539A - 一种热点分析建模方法 - Google Patents

一种热点分析建模方法 Download PDF

Info

Publication number
CN111368539A
CN111368539A CN202010135826.4A CN202010135826A CN111368539A CN 111368539 A CN111368539 A CN 111368539A CN 202010135826 A CN202010135826 A CN 202010135826A CN 111368539 A CN111368539 A CN 111368539A
Authority
CN
China
Prior art keywords
word
segmentation
stop
word segmentation
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010135826.4A
Other languages
English (en)
Inventor
周玲
朱州
张克贤
张刚
黄渊军
杨松
吴方权
曾路
钟璐
殷志易
吴漾
葛松
方继宇
谢祈鸿
万欣欣
宋奕
汪浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202010135826.4A priority Critical patent/CN111368539A/zh
Publication of CN111368539A publication Critical patent/CN111368539A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种热点分析建模方法,该方法包括步骤:数据获取:从客服工单信息表中选取数据宽表作为建模数据;数据处理:剔除来电内容为‘无意义的来电内容工单;搭建停用词词库:搭建通用的停用词词库,根据停用词库中文分词,根据分词结果对停用词词库进行更新;分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典,根据通用词库进行中文分词,分词结果进行去停用词处理;构建分词词典;提取关键词:根据停用词词库以及自定义词典,选取tf‑idf的关键词提取方法进行关键词提取。本发明关键词提取方法准确率最高,且停用词词库和分词词库不断更新,词库不断丰富,分词以及关键词提取的准确率越高。

Description

一种热点分析建模方法
技术领域
本发明属于电力管理技术领域,具体涉及一种热点分析建模方法。
背景技术
关于热点分析问题的中,最重要的问题是文本分词的准确性,高质量的文本分词结果,可极大的提高热点分析结果的准确率,但大多关于中文分词的研究都是基于通用词典,分词结果会将电力专业词汇进行拆分,混淆专业词汇的含义。
发明内容
本发明要解决的技术问题是:提供一种热点分析建模方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种热点分析建模方法,该方法包括以下步骤:
(1)数据获取:从客服工单信息表中选取客服工作单标识、供电单位、业务子类标识、受理时间、来话内容字段组成的数据宽表作为建模数据;
(2)数据处理:剔除来电内容为‘测试’、为空、‘1’和‘。’的来电内容工单;
(3)搭建停用词词库:搭建通用的停用词词库,根据停用词库进行第一次中文分词,根据分词结果对停用词词库进行更新,将对电力行业无用的词汇进行添加到停用词词库中,不断进行更新停用词词库,更新停用词词库也就是特征选取,剔除一些对于电力专业无关紧要的词,无关紧要的词包括‘客户’和‘一些’,将无关紧要的词更新到停用词词库中;
(4)分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典(结巴分词自带词典,是适合所有场景的通用词典,但是相对的电力专业词汇较少),根据通用词典进行中文分词,分词结果进行去停用词处理;
(5)构建分词词典:根据步骤(3)中更新的停用词词库以及步骤(4)中中文分词结果,利用语义槽的处理,对去除停用词之后的分词结果进行位置匹配,若去除停用词之后,相邻词汇的位置信息也相差1,则将二者进行结合,组合成短语,将得到的短语结果进行人工筛选,选取电力专业的专业词汇进行保存,得到关键短语,将以上得到的关键短语进行保存,基于以上关键短语构建自定义分词词典;
(6)提取关键词:根据步骤(5)中停用词词库以及自定义词典,选取tf-idf的关键词提取方法进行关键词进行提取;
tf_idf的计算公式如下:
计算词频:
Figure BDA0002397276150000021
计算逆文档率:
Figure BDA0002397276150000022
计算tf_idf:tf_idf=tf×idf。
tf_idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
语义槽具体处理流程如下:
1)根据通用的分词词典将原始工单内容进行分词处理;
2)针对分词结果进行特征筛选,将与电力专业相关性低的词进行剔除;
3)将与电力专业相关性低的词之后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
4)从文本首字符开始,若首字符匹配成功,则将词放入语义槽中,若匹配不成功,接着对下一个字符进行匹配,直到遍历相应的工单内容;
5)若第一个关键词匹配成功,则判断下一个关键词的位置,若是与首字符的位置信息,相差为1,则将这一关键词放入语义槽中,依次类推,直到将相应工单的所有关键词进行遍历,无法匹配,则停止;
6)将步骤5)得到的所有词,进行特征筛选,将不符合语法的词进行剔除,得到最终的电力专业关键词,将其加入到分词词典中,丰富分词词典,搭建电力专业专有分词词库。
本发明的有益效果:与现有技术相比,本发明人工搭建停用词词库和分词词典,准确率最高的关键词提取方法,且停用词词库和分词词库都是不断更新的,随着词库的不断丰富,分词以及关键词提取的准确率会越来越高,通过关键短语加工的方式来构建电力专业词典,极大的提高了热点分析的准确性
附图说明
图1为语义槽处理流程示意图。
具体实施方式
下面结合附图和具体的实施例对本发明进行进一步介绍。
实施例:一种热点分析建模方法,该方法包括以下步骤:
(1)数据获取:从客服工单信息表中选取客服工作单标识、供电单位、业务子类标识、受理时间、来话内容字段组成的数据宽表作为建模数据;
(2)数据处理:剔除来电内容为‘测试’、为空、‘1’和‘。’的来电内容工单;
(3)搭建停用词词库:搭建通用的停用词词库,根据停用词库进行第一次中文分词,根据分词结果对停用词词库进行更新,将对电力行业无用的词汇进行添加到停用词词库中,不断进行更新停用词词库,更新停用词词库也就是特征选取,剔除一些对于电力专业无关紧要的词,无关紧要的词包括‘客户’和‘一些’,将无关紧要的词更新到停用词词库中;
(4)分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典(结巴分词自带词典,是适合所有场景的通用词典,但是相对的电力专业词汇较少),根据通用词典进行中文分词,分词结果进行去停用词处理;
(5)构建分词词典:根据步骤(3)中更新的停用词词库以及步骤(4)中中文分词结果,利用语义槽的处理,对去除停用词之后的分词结果进行位置匹配,若去除停用词之后,相邻词汇的位置信息也相差1,则将二者进行结合,组合成短语,将得到的短语结果进行人工筛选,选取电力专业的专业词汇进行保存,得到关键短语,将以上得到的关键短语进行保存,基于以上关键短语构建自定义分词词典;
如图1所示,语义槽具体处理流程如下:
1)根据通用的分词词典将原始工单内容进行分词处理;
2)针对分词结果进行特征筛选,将与电力专业相关性低的词进行剔除;
3)将与电力专业相关性低的词之后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
4)从文本首字符开始,若首字符匹配成功,则将词放入语义槽中,若匹配不成功,接着对下一个字符进行匹配,直到遍历相应的工单内容;
5)若第一个关键词匹配成功,则判断下一个关键词的位置,若是与首字符的位置信息,相差为1,则将这一关键词放入语义槽中,依次类推,直到将相应工单的所有关键词进行遍历,无法匹配,则停止;
6)将步骤5)得到的所有词,进行特征筛选,将不符合语法的词进行剔除,得到最终的电力专业关键词,将其加入到分词词典中,丰富分词词典,搭建电力专业专有分词词库。
(6)提取关键词:根据步骤(5)中停用词词库以及自定义词典,选取tf-idf的关键词提取方法进行关键词进行提取;
tf_idf的计算公式如下:
Figure BDA0002397276150000051
Figure BDA0002397276150000052
计算tf_idf:tf_idf=tf×idf。
tf_idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
本发明人工搭建停用词词库和分词词典,费时费力,但是却是一劳永逸,准确率最高的关键词提取方法,且停用词词库和分词词库都是不断更新的,随着词库的不断丰富,分词以及关键词提取的准确率会越来越高。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (2)

1.一种热点分析建模方法,其特征在于:该方法包括以下步骤:
(1)数据获取:从客服工单信息表中选取客服工作单标识、供电单位、业务子类标识、受理时间、来话内容字段组成的数据宽表作为建模数据;
(2)数据处理:剔除来电内容为‘测试’、为空、‘1’和‘。’的来电内容工单;
(3)搭建停用词词库:搭建通用的停用词词库,根据停用词库进行第一次中文分词,根据分词结果对停用词词库进行更新,将对电力行业无用的词汇进行添加到停用词词库中,不断进行更新停用词词库,更新停用词词库也就是特征选取,剔除一些对于电力专业无关紧要的词,无关紧要的词包括‘客户’和‘一些’,将无关紧要的词更新到停用词词库中;
(4)分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典,根据通用词典进行中文分词,分词结果进行去停用词处理;
(5)构建分词词典:根据步骤(3)中更新的停用词词库以及步骤(4)中中文分词结果,利用语义槽处理,对去除停用词之后的分词结果进行位置匹配,若去除停用词之后,相邻词汇的位置信息也相差1,则将二者进行结合,组合成短语,将得到的短语结果进行人工筛选,选取电力专业的专业词汇进行保存,得到关键短语,将得到的关键短语进行保存,利用关键短语构建自定义分词词典;
(6)提取关键词:根据步骤(5)中停用词词库以及自定义词典,选取tf-idf的关键词提取方法进行关键词进行提取;
tf_idf的计算公式如下:
计算词频:
Figure FDA0002397276140000021
计算逆文档率:
Figure FDA0002397276140000022
计算tf_idf:tf_idf=tf×idf。
2.根据权利要求1所述的一种热点分析建模方法,其特征在于:语义槽具体处理流程如下:
1)根据通用的分词词典将原始工单内容进行分词处理;
2)针对分词结果进行特征筛选,将高维稀疏向量空间进行降维;
3)将高维稀疏向量空间进行降维之后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
4)从文本首字符开始,若首字符匹配成功,则将词放入语义槽中,若匹配不成功,接着对下一个字符进行匹配,直到遍历相应的工单内容;
5)若第一个关键词匹配成功,则判断下一个关键词的位置,若是与首字符的位置信息,相差为1,则将这一关键词放入语义槽中,依次类推,直到将相应工单的所有关键词进行遍历,无法匹配,则停止;
6)将步骤5)得到的所有词,进行特征筛选,将不符合语法的词进行剔除,得到最终的电力专业关键词,将其加入到分词词典中,丰富分词词典,搭建电力专业专有分词词库。
CN202010135826.4A 2020-03-02 2020-03-02 一种热点分析建模方法 Pending CN111368539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135826.4A CN111368539A (zh) 2020-03-02 2020-03-02 一种热点分析建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135826.4A CN111368539A (zh) 2020-03-02 2020-03-02 一种热点分析建模方法

Publications (1)

Publication Number Publication Date
CN111368539A true CN111368539A (zh) 2020-07-03

Family

ID=71206535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135826.4A Pending CN111368539A (zh) 2020-03-02 2020-03-02 一种热点分析建模方法

Country Status (1)

Country Link
CN (1) CN111368539A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348604A (zh) * 2020-11-26 2021-02-09 税友软件集团股份有限公司 ***商品编码赋值方法、***、装置及可读存储介质
CN112667777A (zh) * 2020-12-28 2021-04-16 广东电网有限责任公司中山供电局 一种用于客户来电诉求的分类方法
CN113094496A (zh) * 2021-04-29 2021-07-09 中国科学院西北生态环境资源研究院 一种基于词条库的期刊热词排行榜设计方法
CN113988066A (zh) * 2021-09-22 2022-01-28 国网天津市电力公司电力科学研究院 基于改进Jieba分词的配电网检修文本信息提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182173A (zh) * 2017-12-27 2018-06-19 福建中金在线信息科技有限公司 一种提取关键词的方法、装置及电子设备
CN108363694A (zh) * 2018-02-23 2018-08-03 北京窝头网络科技有限公司 关键词提取方法及装置
CN110704638A (zh) * 2019-09-30 2020-01-17 南京邮电大学 一种基于聚类算法的电力文本词典构造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182173A (zh) * 2017-12-27 2018-06-19 福建中金在线信息科技有限公司 一种提取关键词的方法、装置及电子设备
CN108363694A (zh) * 2018-02-23 2018-08-03 北京窝头网络科技有限公司 关键词提取方法及装置
CN110704638A (zh) * 2019-09-30 2020-01-17 南京邮电大学 一种基于聚类算法的电力文本词典构造方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348604A (zh) * 2020-11-26 2021-02-09 税友软件集团股份有限公司 ***商品编码赋值方法、***、装置及可读存储介质
CN112348604B (zh) * 2020-11-26 2023-11-17 税友软件集团股份有限公司 ***商品编码赋值方法、***、装置及可读存储介质
CN112667777A (zh) * 2020-12-28 2021-04-16 广东电网有限责任公司中山供电局 一种用于客户来电诉求的分类方法
CN113094496A (zh) * 2021-04-29 2021-07-09 中国科学院西北生态环境资源研究院 一种基于词条库的期刊热词排行榜设计方法
CN113094496B (zh) * 2021-04-29 2022-06-17 中国科学院西北生态环境资源研究院 一种基于词条库的期刊热词排行榜设计方法
CN113988066A (zh) * 2021-09-22 2022-01-28 国网天津市电力公司电力科学研究院 基于改进Jieba分词的配电网检修文本信息提取方法

Similar Documents

Publication Publication Date Title
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
CN111368539A (zh) 一种热点分析建模方法
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
CN112818093B (zh) 基于语义匹配的证据文档检索方法、***及存储介质
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN108363691B (zh) 一种用于电力95598工单的领域术语识别***及方法
CN109740164B (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN112667777A (zh) 一种用于客户来电诉求的分类方法
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
Patil et al. Issues and challenges in marathi named entity recognition
CN114266256A (zh) 一种领域新词的提取方法及***
CN115238697A (zh) 基于自然语言处理的司法命名实体识别方法
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
CN109255014A (zh) 基于多种算法提升文件关键词准确度的识别方法
CN117591635A (zh) 一种用于大模型问答的文本分割检索方法
Su et al. Improved TF-IDF weight method based on sentence similarity for spoken dialogue system
CN116662479A (zh) 一种用于医保目录的文本匹配方法
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN112000782A (zh) 一种基于k-means聚类算法的智能客服问答***
Sun et al. Generalized abbreviation prediction with negative full forms and its application on improving chinese web search
Mozharova et al. Investigation of features for extraction of named entities from texts in Russian
KHALIL et al. Authorship authentication of political Arabic articles based on modified TF-IGF algorithm
CN114328488B (zh) 一种中英文文献作者姓名融合消歧方法
Al Ghamdi et al. Assessment of performance of machine learning based similarities calculated for different English translations of Holy Quran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703

RJ01 Rejection of invention patent application after publication