CN109522559B - 一种电网营配***中文分词的方法及*** - Google Patents
一种电网营配***中文分词的方法及*** Download PDFInfo
- Publication number
- CN109522559B CN109522559B CN201811417689.2A CN201811417689A CN109522559B CN 109522559 B CN109522559 B CN 109522559B CN 201811417689 A CN201811417689 A CN 201811417689A CN 109522559 B CN109522559 B CN 109522559B
- Authority
- CN
- China
- Prior art keywords
- word
- word segmentation
- distribution
- power grid
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种电网营配***中文分词的方法,包括步骤:建立电网营配分词词库;选取预设场景对应的分词词库;对待处理数据的前2个字按所述步骤二中的分词词库进行逐个哈希索引;对所述处理数据的剩余字串按预设顺序进行排列,根据所述步骤二中的分词词库对排列后的数据进行逐字匹配;提取样本数据形成大数据训练集和验证集;对分词特征指标进行评价。本发明提出在经典的词典分词方法基础上提出改进TRIE索引树的分词方法,进一步提出了双数组Trie分词方法,更能适应电力业务环境;通过结合电力业务场景需求提出一种中文分词方法,高效、准确提取电力业务对象的特征信息,特征提取满足一定的同义识别率、歧义识别率和新词识别率指标。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种电网营配***中文分词的方法及***。
背景技术
配用电是电网企业的核心业务,营配台账是配用电业务开展的重要基础。由于电网营配调业务关联性强、营配台账(例如线路、台区、变压器、用户等)分属不同专业管理且存在交集,故营配调基础台账的贯通、对应问题一直是电力业务难点之一。
目前,国内学者在中文非结构化文本匹配方面进行了大量研究工作,并取得了一定成果。其中,分词和匹配过程是研究的重点,通常也可以将特征提取和权重计算过程归于匹配过程中。分词技术属于自然语言理解技术的范畴,是语义理解的首要环节,它是将语句中的词语正确切分开的一种技术。不同于英文单词以空格分隔,中文词语之间没有固定的分隔符,再加上歧义问题和新词识别问题的存在,所以要进行分词就相对困难一些。
目前的中文分词一般可分为基于词典的分词方法、基于统计的分词方法、基于理解的分词方法等3类,其中又以基于词典的机械分词法最为成熟,该方法具有高效准确,实现简单的优点,因此使用也最为广泛。但该方法受词典规模的限制,对未登陆新词的识别存在一定的难度,此外也受到歧义问题的困扰,理想的分词方法是基于理解的分词方法,即让计算机像人类一样学习语法和语义规则,根据规则做出正确的分词选择。
发明内容
针对现有技术的不足,本发明提供一种电网营配***中文分词的方法及***,能够高效、准确提取电力业务对象的特征信息,特征提取满足一定的同义识别率、歧义识别率和新词识别率指标。
为实现以上目的,本发明通过以下技术方案予以实现:
一种电网营配***中文分词的方法,包括步骤:
步骤一、建立电网营配分词词库;
步骤二、选取预设场景对应的分词词库;
步骤三、对待处理数据的前2个字按所述步骤二中的分词词库进行逐个哈希索引;
步骤四、对所述处理数据的剩余字串按预设顺序进行排列,根据所述步骤二中的分词词库对排列后的数据进行逐字匹配;
步骤五、提取样本数据形成大数据训练集和验证集;
步骤六、对分词特征指标进行评价。
进一步地,所述步骤二具体包括:选取配电线路命名在调度、运检和营销***中的命名匹配;选取变电站在调度和营销***中的命名匹配;选取配电台区在电力运检和营销***中的命名匹配。
进一步地,所述方法中每个节点使用同一下标的两个数组进行元素表达,包括用于确定状态转移的数组和用于检验转移正确性的数组。
进一步地,所述分词特征指标包括准确率和召回率,所述准确率的计算方法为
其中,b表示正确切分出的词的数目,a表示切分出的词的总数;
所述召回率的计算方法为
其中,b表示正确切分出的词的数目,n表示应切分出的词的总数。
一种电网营配***中文分词的***,包括:
词库建立模块,用于建立电网营配分词词库;
场景选取模块,用于选取预设场景对应的分词词库;
Trie节点索引模块,用于对待处理数据的前2个字按所述场景选取模块选取的分词词库进行逐个哈希索引;
Trie机制索引模块,用于对所述处理数据的剩余字串按预设顺序进行排列,并根据所述场景选取模块选取的分词词库对排列后的数据进行逐字匹配;
集合生成模块,用于提取样本数据形成大数据训练集和验证集;
特征指标评价模块,用于对分词特征指标进行评价。
进一步地,所述场景选取模块包括:
配线电路选取子模块,用于选取配电线路命名在调度、运检和营销***中的命名匹配;
变电站选取子模块,用于选取变电站在调度和营销***中的命名匹配;
配电台区选取子模块,选取配电台区在电力运检和营销***中的命名匹配。
进一步地,所述集合生成模块包括:
训练集生成子模块,用于提取样本数据形成大数据训练集;
验证集生成子模块,用于提取样本数据形成大数据验证集。
进一步地,所述特征指标评价模块包括:
准确率计算子模块,包括准确率的计算方法,为
其中,b表示正确切分出的词的数目,a表示切分出的词的总数;
召回率计算子模块,包括召回率的计算方法,为
其中,b表示正确切分出的词的数目,n表示应切分出的词的总数。
与现有技术相比,本发明具有以下有益效果:
本发明提出在经典的词典分词方法基础上提出改进TRIE索引树的分词方法,进一步提出了双数组Trie分词方法,更能适应电力业务环境;通过结合电力业务场景需求提出一种中文分词方法,高效、准确提取电力业务对象的特征信息,特征提取满足一定的同义识别率、歧义识别率和新词识别率指标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图;
图2为本发明***结构框图;
图3为本发明中场景选取模块结构框图;
图4为本发明中集合生成模块结构框图;
图5为本发明中特征指标评价模块结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种电网营配***中文分词的方法,包括步骤:
S1、建立电网营配分词词库;
S2、选取预设场景对应的分词词库;
S3、对待处理数据的前2个字按S2中的分词词库进行逐个哈希索引;
S4、对处理数据的剩余字串按预设顺序进行排列,根据S2中的分词词库对排列后的数据进行逐字匹配;
S5、提取样本数据形成大数据训练集和验证集;
S6、对分词特征指标进行评价。
具体地,S2具体包括:选取配电线路命名在调度、运检和营销***中的命名匹配;选取变电站在调度和营销***中的命名匹配;选取配电台区在电力运检和营销***中的命名匹配。
具体地,方法中每个节点使用同一下标的两个数组进行元素表达,包括用于确定状态转移的数组和用于检验转移正确性的数组。
具体地,分词特征指标包括准确率和召回率,准确率的计算方法为
其中,b表示正确切分出的词的数目,a表示切分出的词的总数;
召回率的计算方法为
其中,b表示正确切分出的词的数目,n表示应切分出的词的总数。
本发明还提供了一种电网营配***中文分词的***,包括:
词库建立模块201,用于建立电网营配分词词库;
场景选取模块202,用于选取预设场景对应的分词词库;
Trie节点索引模块203,用于对待处理数据的前2个字按场景选取模块202选取的分词词库进行逐个哈希索引;
Trie机制索引模块203,用于对处理数据的剩余字串按预设顺序进行排列,并根据场景选取模块202选取的分词词库对排列后的数据进行逐字匹配;
集合生成模块205,用于提取样本数据形成大数据训练集和验证集;
特征指标评价模块206,用于对分词特征指标进行评价。
具体地,场景选取模块202包括:
配线电路选取子模块301,用于选取配电线路命名在调度、运检和营销***中的命名匹配;
变电站选取子模块302,用于选取变电站在调度和营销***中的命名匹配;
配电台区选取子模块303,选取配电台区在电力运检和营销***中的命名匹配。
具体地,集合生成模块205包括:
训练集生成子模块401,用于提取样本数据形成大数据训练集;
验证集生成子模块402,用于提取样本数据形成大数据验证集。
具体地,特征指标评价模块206包括:
准确率计算子模块501,包括准确率的计算方法,为
其中,b表示正确切分出的词的数目,a表示切分出的词的总数;
召回率计算子模块502,包括召回率的计算方法,为
其中,b表示正确切分出的词的数目,n表示应切分出的词的总数。
为了适应不同地区、不同***、不同时段电力对象命名习惯,依据命名提取电力对象关键特征,研究基于词典、统计等经典中文分词方法在电力业务场景下的识别效果,应用同义识别率、歧义识别率和新词识别率等关键指标进行评价,并在经典中文分词基础上参考当前主流研究方向,本发明分别提出一种面向电力业务场景的改进型Trie索引树、一种面向电力业务场景的双数组Trie中文分词方法:
经典中文分词方法是依赖于机器词典进行的,所有的分词过程都要经过一个词表即分词词典,其中不涉及太多的词法、语义、句法知识等关于语言自身的信息。词典分门别类的列举了各种词汇条目,词典中词条的数目、词条的选择与词典的组织结构都直接影响最后的分词效果。
经典分词法的基本思想是:首先建立词库,即分词词典,其中尽可能多的包含所有可能出现的词。对给定的待切分汉字串s,按照某种确定的原则(正向或逆向)取s的子串,若该子串与词典中的某词条相匹配,则该子串是词,将其切分出来,剩余部分继续切分,直到为空;否则,该子串不是词,继续取下一子串进行匹配。经典分词法按照扫描方向的不同,又可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
本发明分别选取配电线路命名在调度、运检和营销***中的命名匹配,变电站在调度和营销***中的命名匹配,配电台区在电力运检和营销***中的命名匹配等不同场景,应用不同的经典中文分词方法进行特征提取,检验特征分词验证特征表示效果,研究工作包括:样本数据提取、训练集和验证集设定、分词算法实现、中文分词特征提取、分词特征指标评价等。
Trie索引树是一种以树的多重链表形式表示的键树,由Trie索引树结点和Trie索引机制2部分组成,通过树型结构表达中文词典以及词典中各分词间的覆盖和优先匹配关系。在分词应用中,只需对被切分语句沿树链逐字匹配即可,不需预知待查询分词长度。
根据汉语中双字词语较多的特点,改进Trie索引树词典索引机制,采用前2个字逐个哈希索引、剩余字串有序排列的结构,查询过程采用逐字匹配的方法,相当于使2字词以下的短语用Trie索引树机制实现,3字词以上的长词的剩余部分用线性表组织,从而避免深度搜索,在不提升己有典型词典机制维护复杂度的情况下,提高分词速度。
本发明在经典中文分词方法基础上,研究改进型Trie索引树的建立方法、改进型Trie索引树的维护方法,以及应用改进型Trie索引树在典型电力业务场景下的应用方法和特征提取效果。
双数组Trie树是Trie树的一种变体,是在保证Trie树检索速度的前提下,提高空间利用率而提出的一种数据结构。其本质是一个确定有限状态自动机,每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移时完成查询。采用两个线性数组(base和check)表达Trie树,Trie树中每个节点使用同一下标的两个数组元素表达,base数组用于确定状态转移,check数组用于检验转移正确性。
本发明在改进型Trie索引树中文分词方法基础上,研究双数组Trie索引树的建立方法、双数组Trie索引树的维护方法,以及应用双数组Trie索引树在典型电力业务场景下的应用方法和特征提取效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种电网营配***中文分词的方法,其特征在于,所述方法包括步骤:
步骤一、建立电网营配分词词库;
步骤二、选取预设场景对应的分词词库;
步骤三、对待处理数据的前2个字按所述步骤二中的分词词库进行逐个哈希索引;
步骤四、对所述处理数据的剩余字串按预设顺序进行排列,根据所述步骤二中的分词词库对排列后的数据进行逐字匹配;
步骤五、提取样本数据形成大数据训练集和验证集;
步骤六、对分词特征指标进行评价。
2.根据权利要求1所述的一种电网营配***中文分词的方法,其特征在于,所述步骤二具体包括:选取配电线路命名在调度、运检和营销***中的命名匹配;选取变电站在调度和营销***中的命名匹配;选取配电台区在电力运检和营销***中的命名匹配。
3.根据权利要求1所述的一种电网营配***中文分词的方法,其特征在于:所述方法中每个节点使用同一下标的两个数组进行元素表达,包括用于确定状态转移的数组和用于检验转移正确性的数组。
5.一种电网营配***中文分词的***,其特征在于,所述***包括:
词库建立模块,用于建立电网营配分词词库;
场景选取模块,用于选取预设场景对应的分词词库;
Trie节点索引模块,用于对待处理数据的前2个字按所述场景选取模块选取的分词词库进行逐个哈希索引;
Trie机制索引模块,用于对所述处理数据的剩余字串按预设顺序进行排列,并根据所述场景选取模块选取的分词词库对排列后的数据进行逐字匹配;
集合生成模块,用于提取样本数据形成大数据训练集和验证集;
特征指标评价模块,用于对分词特征指标进行评价。
6.根据权利要求5所述的一种电网营配***中文分词的***,其特征在于,所述场景选取模块包括:
配线电路选取子模块,用于选取配电线路命名在调度、运检和营销***中的命名匹配;
变电站选取子模块,用于选取变电站在调度和营销***中的命名匹配;
配电台区选取子模块,选取配电台区在电力运检和营销***中的命名匹配。
7.根据权利要求5所述的一种电网营配***中文分词的***,其特征在于,所述集合生成模块包括:
训练集生成子模块,用于提取样本数据形成大数据训练集;
验证集生成子模块,用于提取样本数据形成大数据验证集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811417689.2A CN109522559B (zh) | 2018-11-26 | 2018-11-26 | 一种电网营配***中文分词的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811417689.2A CN109522559B (zh) | 2018-11-26 | 2018-11-26 | 一种电网营配***中文分词的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522559A CN109522559A (zh) | 2019-03-26 |
CN109522559B true CN109522559B (zh) | 2023-03-31 |
Family
ID=65793677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811417689.2A Active CN109522559B (zh) | 2018-11-26 | 2018-11-26 | 一种电网营配***中文分词的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522559B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069493A (ja) * | 1996-08-29 | 1998-03-10 | Matsushita Electric Ind Co Ltd | 辞書作成装置と語切り出し装置 |
CN102411568A (zh) * | 2010-09-20 | 2012-04-11 | 苏州同程旅游网络科技有限公司 | 基于旅游业特征词库的中文分词方法 |
WO2015032120A1 (zh) * | 2013-09-03 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
-
2018
- 2018-11-26 CN CN201811417689.2A patent/CN109522559B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069493A (ja) * | 1996-08-29 | 1998-03-10 | Matsushita Electric Ind Co Ltd | 辞書作成装置と語切り出し装置 |
CN102411568A (zh) * | 2010-09-20 | 2012-04-11 | 苏州同程旅游网络科技有限公司 | 基于旅游业特征词库的中文分词方法 |
WO2015032120A1 (zh) * | 2013-09-03 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于互信息改进算法的新词发现对中文分词***改进;夏同飞等;《电子元器件与信息技术》;20180920(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109522559A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799577B (zh) | 一种中文实体间语义关系抽取方法 | |
CN109033307A (zh) | 基于crp聚类的词语多原型向量表示及词义消歧方法 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
WO2014209810A2 (en) | Methods and apparatuses for mining synonymous phrases, and for searching related content | |
CN101510221A (zh) | 一种用于信息检索的查询语句分析方法与*** | |
CN104615593A (zh) | 微博热点话题自动检测方法及装置 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译***和方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化***及方法 | |
CN109522547A (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
CN111949774A (zh) | 一种智能问答方法和*** | |
CN107341188A (zh) | 基于语义分析的高效数据筛选方法 | |
CN108536724A (zh) | 一种基于双层哈希索引的地铁设计规范中主体识别方法 | |
CN111428031A (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
Kessler et al. | Extraction of terminology in the field of construction | |
Chader et al. | Sentiment Analysis for Arabizi: Application to Algerian Dialect. | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、***及问答方法和*** | |
CN109522559B (zh) | 一种电网营配***中文分词的方法及*** | |
Al Taawab et al. | Transliterated bengali comment classification from social media | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm | |
Sabty et al. | Techniques for named entity recognition on arabic-english code-mixed data | |
CN111241854A (zh) | 一种基于区块链技术的语言搜索引擎*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |