CN110009064A - 一种基于电网领域的语义模型训练方法及装置 - Google Patents
一种基于电网领域的语义模型训练方法及装置 Download PDFInfo
- Publication number
- CN110009064A CN110009064A CN201910364679.5A CN201910364679A CN110009064A CN 110009064 A CN110009064 A CN 110009064A CN 201910364679 A CN201910364679 A CN 201910364679A CN 110009064 A CN110009064 A CN 110009064A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- power grid
- electrical network
- network field
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于电网领域的语义模型训练方法,包括步骤:抓取电网领域的文档和数据,形成电网领域的专有实体;去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;分别对各电网词汇进行训练,得到若干个电网词汇的词向量;挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量;提高了电网领域语句识别的准确度,解决了不能区别在语义或句法结构上相似的句子的问题,为电网领域的人工智能奠定了重要的基础。
Description
技术领域
本发明涉及电网技术领域,尤其涉及一种基于电网领域的语义模型训练方法及装置。
背景技术
现有的技术方案通过计算文本的编辑距离、Jaccard系数、TFIDF计算等。
编辑距离,英文叫做Edit Distance,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。
Jaccard相似系数,用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。计算方式非常简单,两个样本的交集除以并集得到的数值,当两个样本完全一致时,结果为1,当两个样本完全不同时,结果为0。
第三种方案就是直接计算TF矩阵中两个向量的相似度了,实际上就是求解两个向量夹角的余弦值,就是点乘积除以二者的模长。
现有的计算文本相似都是基于词的相似度计算方法,没有对文本内容的语义理解,仅基于句子表层的关键词信息。不能区别在语义或句法结构上相似的句子。但是在客服***中,语义上信息对于机器人回复的准确性有重要的影响。
发明内容
本发明的目的在于提供一种基于电网领域的语义模型训练方法及装置,来解决不能区别在语义或句法结构上相似的句子的问题。
为达此目的,本发明采用以下技术方案:
一种基于电网领域的语义模型训练方法,包括如下步骤:
抓取电网领域的文档和数据,形成电网领域的专有实体;
去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
可选的,所述步骤:分别对各电网词汇进行训练,得到若干个电网词汇的词向量,具体包括:
使用Word2vec算法分别对各电网词汇进行训练,得到若干个电网词汇的词向量。
可选的,所述步骤:挑选其中的若干个词向量进行组合,形成电网领域的句向量,具体包括:
挑选其中的若干个电网词汇的词向量进行组合,将每个电网词汇的词向量相加,形成电网领域的句向量。
可选的,所述步骤:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量之后,还包括:计算句向量的夹角余弦。
一种基于电网领域的语义模型训练装置,包括:
数据获取模块:抓取电网领域的文档和数据,形成电网领域的专有实体;
词汇生成模块:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
词汇训练模块:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
句向量生成模块:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
与现有技术相比,本发明实施例具有以下有益效果:
本发明通过对电网领域的文档和数据进行分词,并对其进行训练,得到词向量,又将词向量组合形成句向量,提高了电网领域语句识别的准确度,解决了不能区别在语义或句法结构上相似的句子的问题,为电网领域的人工智能奠定了重要的基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于电网领域的语义模型训练方法的流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
需要说明的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。当一个组件被认为是“设置在”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中设置的组件。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
请参考图1,一种基于电网领域的语义模型训练方法,包括如下步骤:
步骤S101:抓取电网领域的文档和数据,形成电网领域的专有实体;来源主要参考百度知道,搜狗搜索等。
步骤S102:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;例如,语句“根据调查可知,某个地区今年每户的用电量为X度”;去除和电网场景无关的“根据调查可知”、“的”和“为”,得到语句为“某个地区今年每户用电量X度”,将其分词后得到“某个地区”“今年”“每户”“用电量”“X度”的电网词汇。
步骤S103:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;具体的,词向量训练的维度设置为128,256。
步骤S104:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
进一步的,步骤S103具体包括:使用Word2vec算法分别对各电网词汇进行训练,得到若干个电网词汇的词向量。
通过Word2vec训练得到的电网领域的词向量,对于电网领域问题的上下文有了更好的理解。Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
进一步的,步骤S104具体包括:挑选其中的若干个电网词汇的词向量进行组合,将每个电网词汇的词向量相加,形成电网领域的句向量。
进一步的,步骤S104之后还包括:计算句向量的夹角余弦。
本实施例还提供了一种基于电网领域的语义模型训练装置,包括:
数据获取模块:抓取电网领域的文档和数据,形成电网领域的专有实体;
词汇生成模块:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
词汇训练模块:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
句向量生成模块:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
本实施例提供的一种基于电网领域的语义模型训练方法,通过对电网领域的文档和数据进行分词,并对其进行训练,得到词向量,又将词向量组合形成句向量,提高了电网领域语句识别的准确度,解决了不能区别在语义或句法结构上相似的句子的问题,为电网领域的人工智能奠定了重要的基础。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于电网领域的语义模型训练方法,其特征在于,包括如下步骤:
抓取电网领域的文档和数据,形成电网领域的专有实体;
去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
2.根据权利要求1所述的基于电网领域的语义模型训练方法,其特征在于,所述步骤:分别对各电网词汇进行训练,得到若干个电网词汇的词向量,具体包括:
使用Word2vec算法分别对各电网词汇进行训练,得到若干个电网词汇的词向量。
3.根据权利要求1所述的基于电网领域的语义模型训练方法,其特征在于,所述步骤:挑选其中的若干个词向量进行组合,形成电网领域的句向量,具体包括:
挑选其中的若干个电网词汇的词向量进行组合,将每个电网词汇的词向量相加,形成电网领域的句向量。
4.根据权利要求1所述的基于电网领域的语义模型训练方法,其特征在于,所述步骤:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量之后,还包括:计算句向量的夹角余弦。
5.一种基于电网领域的语义模型训练装置,其特征在于,包括:
数据获取模块:抓取电网领域的文档和数据,形成电网领域的专有实体;
词汇生成模块:去除和电网场景无关的语句,对专有实体的内容进行分词,形成若干个电网词汇;
词汇训练模块:分别对各电网词汇进行训练,得到若干个电网词汇的词向量;
句向量生成模块:挑选其中的若干个电网词汇的词向量进行组合,形成电网领域的句向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364679.5A CN110009064A (zh) | 2019-04-30 | 2019-04-30 | 一种基于电网领域的语义模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364679.5A CN110009064A (zh) | 2019-04-30 | 2019-04-30 | 一种基于电网领域的语义模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110009064A true CN110009064A (zh) | 2019-07-12 |
Family
ID=67175468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910364679.5A Pending CN110009064A (zh) | 2019-04-30 | 2019-04-30 | 一种基于电网领域的语义模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009064A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966521A (zh) * | 2021-03-01 | 2021-06-15 | 北京新方通信技术有限公司 | 一种短句相似度的计算方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729322A (zh) * | 2017-11-06 | 2018-02-23 | 广州杰赛科技股份有限公司 | 分词方法及装置、建立句子向量生成模型方法及装置 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及*** |
CN108345670A (zh) * | 2018-02-09 | 2018-07-31 | 国网江苏省电力有限公司电力科学研究院 | 一种用于95598电力工单的服务热点发现方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
-
2019
- 2019-04-30 CN CN201910364679.5A patent/CN110009064A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729322A (zh) * | 2017-11-06 | 2018-02-23 | 广州杰赛科技股份有限公司 | 分词方法及装置、建立句子向量生成模型方法及装置 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及*** |
CN108345670A (zh) * | 2018-02-09 | 2018-07-31 | 国网江苏省电力有限公司电力科学研究院 | 一种用于95598电力工单的服务热点发现方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
樊华等: "基于语义标注的电网文本数据知识抽取技术研究", 《第三届智能电网会议论文集》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966521A (zh) * | 2021-03-01 | 2021-06-15 | 北京新方通信技术有限公司 | 一种短句相似度的计算方法及*** |
CN112966521B (zh) * | 2021-03-01 | 2024-03-12 | 北京新方通信技术有限公司 | 一种短句相似度的计算方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN108959256B (zh) | 短文本的生成方法、装置、存储介质和终端设备 | |
CN105718586B (zh) | 分词的方法及装置 | |
CN108897867A (zh) | 用于知识问答的数据处理方法、装置、服务器和介质 | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和*** | |
CN107301227A (zh) | 基于人工智能的搜索信息解析方法及装置 | |
CN110232186A (zh) | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 | |
CN113065003B (zh) | 一种基于多指标的知识图谱生成方法 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN107463553A (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和*** | |
CN104679867B (zh) | 基于图的地址知识处理方法及装置 | |
CN108984661A (zh) | 一种知识图谱中实体对齐方法和装置 | |
CN102193914A (zh) | 计算机辅助翻译的方法及*** | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN108268600A (zh) | 基于ai的非结构化数据管理方法及装置 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN109783801B (zh) | 一种电子装置、多标签分类方法及存储介质 | |
CN111222330B (zh) | 一种中文事件的检测方法和*** | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN109871449A (zh) | 一种基于语义描述的端到端的零样本学习方法 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN117113982A (zh) | 一种基于嵌入模型的大数据主题分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190712 |