CN110009064A - 一种基于电网领域的语义模型训练方法及装置 - Google Patents

一种基于电网领域的语义模型训练方法及装置 Download PDF

Info

Publication number
CN110009064A
CN110009064A CN201910364679.5A CN201910364679A CN110009064A CN 110009064 A CN110009064 A CN 110009064A CN 201910364679 A CN201910364679 A CN 201910364679A CN 110009064 A CN110009064 A CN 110009064A
Authority
CN
China
Prior art keywords
vocabulary
power grid
electrical network
network field
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910364679.5A
Other languages
English (en)
Inventor
陈海燕
谭火超
刘振华
叶慧萍
乔麟
苏立伟
梁瑞莹
张立慧
方霆
黄荣达
伊思诺
苏春明
郭克诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Customer Service Center of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Customer Service Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Customer Service Center of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201910364679.5A priority Critical patent/CN110009064A/zh
Publication of CN110009064A publication Critical patent/CN110009064A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于电网领域的语义模型训练方法,包括步骤:抓取电网领域的文档和数据,形成电网领域的专有实体;去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;分别对各电网词汇进行训练,得到若干个电网词汇的词向量;挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量;提高了电网领域语句识别的准确度,解决了不能区别在语义或句法结构上相似的句子的问题,为电网领域的人工智能奠定了重要的基础。

Description

一种基于电网领域的语义模型训练方法及装置
技术领域
本发明涉及电网技术领域,尤其涉及一种基于电网领域的语义模型训练方法及装置。
背景技术
现有的技术方案通过计算文本的编辑距离、Jaccard系数、TFIDF计算等。
编辑距离,英文叫做Edit Distance,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。
Jaccard相似系数,用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。计算方式非常简单,两个样本的交集除以并集得到的数值,当两个样本完全一致时,结果为1,当两个样本完全不同时,结果为0。
第三种方案就是直接计算TF矩阵中两个向量的相似度了,实际上就是求解两个向量夹角的余弦值,就是点乘积除以二者的模长。
现有的计算文本相似都是基于词的相似度计算方法,没有对文本内容的语义理解,仅基于句子表层的关键词信息。不能区别在语义或句法结构上相似的句子。但是在客服***中,语义上信息对于机器人回复的准确性有重要的影响。
发明内容
本发明的目的在于提供一种基于电网领域的语义模型训练方法及装置,来解决不能区别在语义或句法结构上相似的句子的问题。
为达此目的,本发明采用以下技术方案:
一种基于电网领域的语义模型训练方法,包括如下步骤:
抓取电网领域的文档和数据,形成电网领域的专有实体;
去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
可选的,所述步骤:分别对各电网词汇进行训练,得到若干个电网词汇的词向量,具体包括:
使用Word2vec算法分别对各电网词汇进行训练,得到若干个电网词汇的词向量。
可选的,所述步骤:挑选其中的若干个词向量进行组合,形成电网领域的句向量,具体包括:
挑选其中的若干个电网词汇的词向量进行组合,将每个电网词汇的词向量相加,形成电网领域的句向量。
可选的,所述步骤:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量之后,还包括:计算句向量的夹角余弦。
一种基于电网领域的语义模型训练装置,包括:
数据获取模块:抓取电网领域的文档和数据,形成电网领域的专有实体;
词汇生成模块:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
词汇训练模块:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
句向量生成模块:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
与现有技术相比,本发明实施例具有以下有益效果:
本发明通过对电网领域的文档和数据进行分词,并对其进行训练,得到词向量,又将词向量组合形成句向量,提高了电网领域语句识别的准确度,解决了不能区别在语义或句法结构上相似的句子的问题,为电网领域的人工智能奠定了重要的基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于电网领域的语义模型训练方法的流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
需要说明的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。当一个组件被认为是“设置在”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中设置的组件。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
请参考图1,一种基于电网领域的语义模型训练方法,包括如下步骤:
步骤S101:抓取电网领域的文档和数据,形成电网领域的专有实体;来源主要参考百度知道,搜狗搜索等。
步骤S102:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;例如,语句“根据调查可知,某个地区今年每户的用电量为X度”;去除和电网场景无关的“根据调查可知”、“的”和“为”,得到语句为“某个地区今年每户用电量X度”,将其分词后得到“某个地区”“今年”“每户”“用电量”“X度”的电网词汇。
步骤S103:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;具体的,词向量训练的维度设置为128,256。
步骤S104:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
进一步的,步骤S103具体包括:使用Word2vec算法分别对各电网词汇进行训练,得到若干个电网词汇的词向量。
通过Word2vec训练得到的电网领域的词向量,对于电网领域问题的上下文有了更好的理解。Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
进一步的,步骤S104具体包括:挑选其中的若干个电网词汇的词向量进行组合,将每个电网词汇的词向量相加,形成电网领域的句向量。
进一步的,步骤S104之后还包括:计算句向量的夹角余弦。
本实施例还提供了一种基于电网领域的语义模型训练装置,包括:
数据获取模块:抓取电网领域的文档和数据,形成电网领域的专有实体;
词汇生成模块:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
词汇训练模块:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
句向量生成模块:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
本实施例提供的一种基于电网领域的语义模型训练方法,通过对电网领域的文档和数据进行分词,并对其进行训练,得到词向量,又将词向量组合形成句向量,提高了电网领域语句识别的准确度,解决了不能区别在语义或句法结构上相似的句子的问题,为电网领域的人工智能奠定了重要的基础。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于电网领域的语义模型训练方法,其特征在于,包括如下步骤:
抓取电网领域的文档和数据,形成电网领域的专有实体;
去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
2.根据权利要求1所述的基于电网领域的语义模型训练方法,其特征在于,所述步骤:分别对各电网词汇进行训练,得到若干个电网词汇的词向量,具体包括:
使用Word2vec算法分别对各电网词汇进行训练,得到若干个电网词汇的词向量。
3.根据权利要求1所述的基于电网领域的语义模型训练方法,其特征在于,所述步骤:挑选其中的若干个词向量进行组合,形成电网领域的句向量,具体包括:
挑选其中的若干个电网词汇的词向量进行组合,将每个电网词汇的词向量相加,形成电网领域的句向量。
4.根据权利要求1所述的基于电网领域的语义模型训练方法,其特征在于,所述步骤:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量之后,还包括:计算句向量的夹角余弦。
5.一种基于电网领域的语义模型训练装置,其特征在于,包括:
数据获取模块:抓取电网领域的文档和数据,形成电网领域的专有实体;
词汇生成模块:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
词汇训练模块:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
句向量生成模块:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
CN201910364679.5A 2019-04-30 2019-04-30 一种基于电网领域的语义模型训练方法及装置 Pending CN110009064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910364679.5A CN110009064A (zh) 2019-04-30 2019-04-30 一种基于电网领域的语义模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910364679.5A CN110009064A (zh) 2019-04-30 2019-04-30 一种基于电网领域的语义模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN110009064A true CN110009064A (zh) 2019-07-12

Family

ID=67175468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910364679.5A Pending CN110009064A (zh) 2019-04-30 2019-04-30 一种基于电网领域的语义模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN110009064A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966521A (zh) * 2021-03-01 2021-06-15 北京新方通信技术有限公司 一种短句相似度的计算方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
CN108345670A (zh) * 2018-02-09 2018-07-31 国网江苏省电力有限公司电力科学研究院 一种用于95598电力工单的服务热点发现方法
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
CN108345670A (zh) * 2018-02-09 2018-07-31 国网江苏省电力有限公司电力科学研究院 一种用于95598电力工单的服务热点发现方法
CN108573047A (zh) * 2018-04-18 2018-09-25 广东工业大学 一种中文文本分类模型的训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊华等: "基于语义标注的电网文本数据知识抽取技术研究", 《第三届智能电网会议论文集》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966521A (zh) * 2021-03-01 2021-06-15 北京新方通信技术有限公司 一种短句相似度的计算方法及***
CN112966521B (zh) * 2021-03-01 2024-03-12 北京新方通信技术有限公司 一种短句相似度的计算方法及***

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN108959256B (zh) 短文本的生成方法、装置、存储介质和终端设备
CN105718586B (zh) 分词的方法及装置
CN108897867A (zh) 用于知识问答的数据处理方法、装置、服务器和介质
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和***
CN107301227A (zh) 基于人工智能的搜索信息解析方法及装置
CN110232186A (zh) 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN113065003B (zh) 一种基于多指标的知识图谱生成方法
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和***
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN108984661A (zh) 一种知识图谱中实体对齐方法和装置
CN102193914A (zh) 计算机辅助翻译的方法及***
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN108268600A (zh) 基于ai的非结构化数据管理方法及装置
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN111222330B (zh) 一种中文事件的检测方法和***
CN110188359B (zh) 一种文本实体抽取方法
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN117113982A (zh) 一种基于嵌入模型的大数据主题分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712