CN110413998B - 一种面向电力行业的自适应中文分词方法及其***、介质 - Google Patents

一种面向电力行业的自适应中文分词方法及其***、介质 Download PDF

Info

Publication number
CN110413998B
CN110413998B CN201910638948.2A CN201910638948A CN110413998B CN 110413998 B CN110413998 B CN 110413998B CN 201910638948 A CN201910638948 A CN 201910638948A CN 110413998 B CN110413998 B CN 110413998B
Authority
CN
China
Prior art keywords
word segmentation
candidate
word
text
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910638948.2A
Other languages
English (en)
Other versions
CN110413998A (zh
Inventor
张云翔
饶竹一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Co ltd
Original Assignee
Shenzhen Power Supply Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Co ltd filed Critical Shenzhen Power Supply Co ltd
Priority to CN201910638948.2A priority Critical patent/CN110413998B/zh
Publication of CN110413998A publication Critical patent/CN110413998A/zh
Application granted granted Critical
Publication of CN110413998B publication Critical patent/CN110413998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向电力行业的自适应中文分词方法及其***、介质,所述方法包括:S1、获取候选文本术语,所述候选文本术语为待分词的短句或段落;S2、对所述候选文本术语进行分割处理得到多个候选文本语句;S3、对每一候选文本语句进行切分得到一个或多个分词;S4、逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若出现歧义,则返回S3,若没有歧义,则保留该分词作为候选分词;S5、获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;S6、将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出。

Description

一种面向电力行业的自适应中文分词方法及其***、介质
技术领域
本发明涉及电力设备数据处理技术领域,具体涉及一种面向电力行业的自适应中文分词方法及其***、计算机可读存储介质。
背景技术
近年来,随着网络日益普及,互联网上的文本规模逐步扩大,信息资源不断增加,为了从大量的资源中检索和挖掘出有价值的信息,互联网公司大力发展自然语言处理领域的技术,中文分词是自然语言处理技术的基础和前提,中文分词在信息检索、机器翻译、信息过滤等信息处理中起着重要的作用,是信息处理的关键技术与难点;截止目前,国家电网公司已建立了大量的数据管理***,业务数据量非常庞大。
因此存在以下技术问题:由于各业务部门及各业务***对数据信息定义规则的不同,导致现实中同一来源数据在不同的业务***中出现诸如名称不一致的情况,造成一数多源的问题,为各业务***间数据统一性带来了一定的困难。
发明内容
本发明的目的在于提出一种面向电力行业的自适应中文分词方法及其***、计算机可读存储介质,以解决上述技术问题。
为了实现本发明目的,根据本发明第一方面,本发明实施例提供一种面向电力行业的自适应中文分词方法,包括如下步骤:
步骤S1、获取候选文本术语,所述候选文本术语为待分词的短句或段落;
步骤S2、对所述候选文本术语进行分割处理得到多个候选文本语句;
步骤S3、对每一候选文本语句进行切分得到一个或多个分词;
步骤S4、逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若替换后前后的文本术语出现歧义,则返回步骤S3,若替换后前后的文本术语没有歧义,则保留该分词作为候选分词;
步骤S5、获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;
步骤S6、将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出。
优选地,所述步骤S2包括:
将所述候选文本术语中的标点及空格进行分隔得到多个文本部分,并去除所述多个文本部分中的标点及空格得到多个待过滤文本语句;
判断每一待过滤文本语句中的字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,若否,则抽取文本语句中所有相同字符并舍弃;其中,所述切分为词为将字符及字符后的文字一起切分得到候选文本语句。
优选地,所述步骤S3包括:
将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;其中,所述词典数据库中词汇为电力领域专用分词词典中词汇。
优选地,所述步骤S4包括:
当一候选文本语句对应有多个候选分词时,计算该候选文本语句中每一候选分词与一个或多个电力领域专业词汇的相似度值并进行累计得到该候选分词对应的相似度值;
选取相似度值最高的候选分词作为候选文本语句的最终分词。
优选地,所述步骤S6包括:
将排序后的最终分词以空格为间隔进行输出,并选择排序后的前十位进行重点显示,其他最终分词结果则进行隐藏。
根据本发明第二方面,本发明实施例提供一种面向电力行业的自适应中文分词***,包括:
文本获取单元,用于获取候选文本术语,所述候选文本术语为待分词的短句或段落;
文本分割单元,用于对所述候选文本术语进行分割处理得到多个候选文本语句;
分词单元,用于对每一候选文本语句进行切分得到一个或多个分词;
第一分词筛选单元,用于逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若替换后前后的文本术语出现歧义,则返回步骤S3,若替换后前后的文本术语没有歧义,则保留该分词作为候选分词;
第二分词筛选单元,用于获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;
输出单元,用于将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出。
优选地,所述文本分割单元包括:
第一分割单元,用于将所述候选文本术语中的标点及空格进行分隔得到多个文本部分,并去除所述多个文本部分中的标点及空格得到多个待过滤文本语句;
第二分割单元,用于判断每一待过滤文本语句中的字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,若否,则抽取文本语句中所有相同字符并舍弃;其中,所述切分为词为将字符及字符后的文字一起切分得到候选文本语句。
优选地,所述分词单元具体用于将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;其中,所述词典数据库中词汇为电力领域专用分词词典中词汇;
所述输出单元包括:
相似度计算单元,用于当一候选文本语句对应有多个候选分词时,计算该候选文本语句中每一候选分词与一个或多个电力领域专业词汇的相似度值并进行累计得到该候选分词对应的相似度值;
最终分词确定单元,用于选取相似度值最高的候选分词作为候选文本语句的最终分词。
优选地,所述输出单元包括:
显示单元,用于将排序后的最终分词以空格为间隔进行输出,并选择排序后的前十位进行重点显示,其他最终分词结果则进行隐藏。
根据本发明第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述面向电力行业的自适应中文分词方法。
在本发明实施例中,结合电力数据的特点,建立电力领域独有的分词词典库,根据所述分词词典库中词汇对候选文本语句进行拆分和歧义判别得到候选分词,并进一步对候选分词与分词词典库中相似词汇的相似度确定最终分词,大大提高了分词的准确性,其根据将各个业务***间数据匹配分析,可以显著提高工作效率及数据的使用效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一中一种面向电力行业的自适应中文分词方法流程图。
图2为本发明实施例二中一种面向电力行业的自适应中文分词***示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本发明,在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
如图1所示,本发明实施例提供一种面向电力行业的自适应中文分词方法,包括如下步骤:
步骤S1、获取候选文本术语,所述候选文本术语为待分词的短句或段落;
步骤S2、对所述候选文本术语进行分割处理得到多个候选文本语句;
步骤S3、对每一候选文本语句进行切分得到一个或多个分词;
步骤S4、逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若替换后前后的文本术语出现歧义,则返回步骤S3,若替换后前后的文本术语没有歧义,则保留该分词作为候选分词;
步骤S5、获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;
步骤S6、将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出。
其中,所述步骤S2具体包括:
将所述候选文本术语中的标点及空格进行分隔得到多个文本部分,并去除所述多个文本部分中的标点及空格得到多个待过滤文本语句;
判断每一待过滤文本语句中的字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,若否,则抽取文本语句中所有相同字符并舍弃;其中,所述切分为词为将字符及字符后的文字一起切分得到候选文本语句。
具体而言,对于一个待过滤文本语句而言,首先抽取第一个字符,并判断该第一个字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,若否,则抽取文本语句中所有相同字符并舍弃;然后继续后续字符的判别,直到取出待过滤文本语句中的最后一个字符,以实现对候选文本语句的过滤。其中,根据构建的电力行业专用词表和日常词汇分词词典,将文本语句中取出的字符与电力行业专用词表进行对比,判断该字符是否为电力行业专用分词。
其中,所述步骤S3包括:
将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;其中,所述词典数据库中词汇为电力领域专用分词词典中词汇。
具体而言,与词典数据库中词汇对应的词汇与语义相似的词汇,一个候选文本语句可能存在零个或多个分词。
其中,所述步骤S4包括:
当一候选文本语句对应有多个候选分词时,计算该候选文本语句中每一候选分词与一个或多个电力领域专业词汇的相似度值并进行累计得到该候选分词对应的相似度值;
选取相似度值最高的候选分词作为候选文本语句的最终分词。
具体而言,一个候选文本语句可能会对应有多个候选分词,本步骤中根据相似度值对这些候选分词进行筛选,最终一个候选文本语句只输出一个分词,减少分词错误率。
其中,所述步骤S6包括:
将排序后的最终分词以空格为间隔进行输出,并选择排序后的前十位进行重点显示,其他最终分词结果则进行隐藏。
具体而言,本实施例中将计算得出的每个分词结果按照出现的频次进行排序,并将排序后的分词结果以空格为间隔进行输出,选择排序后的前十位进行重点显示,后续的分词结果则进行隐藏,可在需要观看时,点击相应按键,显示剩余分词结果,并将全部分词结果以条形图的形式输出至显示装置,展示给使用者。
本发明实施例通过选取电力领域专用分词词典中的分词数据,将抽取的候选文本术语会以标点和空格进行分隔,拆分为多个文本语句,进行输出,可对文本术语进行预处理,减少文本术语中含有的标点和空格带来的分词干扰,也增加了文本术语的预处理效率,解决了现有文本术语处理的效率问题,通过取出拆分出的文本语句的一个字符,将取出的字符,代入对比,判断该字符是否为电力行业专用分词,直至取出文本语句中的最后一个字符,可将拆分出的文本语句进行逐词代入并判断,并取出所有相同字符,不需代入所有字符进行对比判断,减少了字符对比判断的工作量,使得字符对比判断的效率更高,过滤后的候选文本术语会进行切分,对切分后得出的分词数据进行歧义判别,直至分词不含有歧义,减少对文本术语切分后产生歧义的情况,避免文本术语切分后依旧出现歧义,导致使用者观看时产生错误的认知,增加了对文本数据进行分词的准确性,通过计算所有分词结果的权重分值,并进行累加计算,筛选出数值最大的分词结果,并按照出现的频次进行排序进行输出,可对文本术语中切分得出的分词数据进行排序输出,分词数据观看更加直观,更具备条理性,使得使用者观看时思路更加清晰,从而显著提高工作效率及数据的使用效率。
如图2所示,本发明实施例二提供一种面向电力行业的自适应中文分词***,包括:
文本获取单元1,用于获取候选文本术语,所述候选文本术语为待分词的短句或段落;
文本分割单元2,用于对所述候选文本术语进行分割处理得到多个候选文本语句;
分词单元3,用于对每一候选文本语句进行切分得到一个或多个分词;
第一分词筛选单元4,用于逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若替换后前后的文本术语出现歧义,则返回步骤S3,若替换后前后的文本术语没有歧义,则保留该分词作为候选分词;
第二分词筛选单元5,用于获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;
输出单元6,用于将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出。
其中,所述文本分割单元2包括:
第一分割单元,用于将所述候选文本术语中的标点及空格进行分隔得到多个文本部分,并去除所述多个文本部分中的标点及空格得到多个待过滤文本语句;
第二分割单元,用于判断每一待过滤文本语句中的字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,若否,则抽取文本语句中所有相同字符并舍弃;其中,所述切分为词为将字符及字符后的文字一起切分得到候选文本语句。
其中,所述分词单元3具体用于将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;其中,所述词典数据库中词汇为电力领域专用分词词典中词汇;
所述输出单元6包括:
相似度计算单元,用于当一候选文本语句对应有多个候选分词时,计算该候选文本语句中每一候选分词与一个或多个电力领域专业词汇的相似度值并进行累计得到该候选分词对应的相似度值;
最终分词确定单元,用于选取相似度值最高的候选分词作为候选文本语句的最终分词。
其中,所述输出单元6包括:
显示单元,用于将排序后的最终分词以空格为间隔进行输出,并选择排序后的前十位进行重点显示,其他最终分词结果则进行隐藏。
需说明的是,本实施例二所述***为与实施例一所述方法对应,其用于实施实施例一所述方法,因此,有关实施例二所述***的其他未描述的内容,可以参阅实施例一所述方法内容得到,此处不再赘述。
还应该理解,可以以很多方式实施实施例一所述方法和实施例二所述***,包括作为过程、装置或***。本文中所述的方法可以部分地由用于指示处理器执行这种方法的程序指令、以及记录在非暂态计算机可读存储介质上的该指令而实施,非暂态计算机可读存储介质诸如硬盘驱动、软盘、光碟(诸如小型碟(CD)或数字通用碟(DVD))、闪速存储器等。在一些实施例中,程序指令可以被远程存储并且经由光学或电子通信链路而在网络上被发送。
本发明实施例三提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述面向电力行业的自适应中文分词方法。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种面向电力行业的自适应中文分词方法,其特征在于,包括如下步骤:
步骤S1、获取候选文本术语,所述候选文本术语为待分词的短句或段落;
步骤S2、对所述候选文本术语进行分割处理得到多个候选文本语句;其中,将所述候选文本术语中的标点及空格进行分隔得到多个文本部分,并去除所述多个文本部分中的标点及空格得到多个待过滤文本语句;以及,判断每一待过滤文本语句中的字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,所述切分为词为将字符及字符后的文字一起切分得到一个候选文本语句;若否,则抽取文本语句中所有相同字符并舍弃;
步骤S3、对每一候选文本语句进行切分得到一个或多个分词;其中,将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;所述词典数据库中词汇为电力领域专用分词词典中词汇;
步骤S4、逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若替换后前后的文本术语出现歧义,则返回步骤S3,若替换后前后的文本术语没有歧义,则保留该分词作为候选分词;
步骤S5、获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;
步骤S6、将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出。
2.如权利要求1所述的面向电力行业的自适应中文分词方法,其特征在于,所述步骤S4包括:
当一候选文本语句对应有多个候选分词时,计算该候选文本语句中每一候选分词与一个或多个电力领域专业词汇的相似度值并进行累计得到该候选分词对应的相似度值;
选取相似度值最高的候选分词作为候选文本语句的最终分词。
3.如权利要求2所述的面向电力行业的自适应中文分词方法,其特征在于,所述步骤S6包括:
将排序后的最终分词以空格为间隔进行输出,并选择排序后的前十位进行重点显示,其他最终分词结果则进行隐藏。
4.一种面向电力行业的自适应中文分词***,其特征在于,包括:
文本获取单元,用于获取候选文本术语,所述候选文本术语为待分词的短句或段落;
文本分割单元,用于对所述候选文本术语进行分割处理得到多个候选文本语句;
分词单元,用于对每一候选文本语句进行切分得到一个或多个分词;其中,将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;所述词典数据库中词汇为电力领域专用分词词典中词汇;
第一分词筛选单元,用于逐一将候选文本术语中的分词替换为与分词词意相同的词汇并进行语义判别,若替换后前后的文本术语出现歧义,则返回步骤S3,若替换后前后的文本术语没有歧义,则保留该分词作为候选分词;
第二分词筛选单元,用于获取与候选分词语义相似的一个或多个电力领域专业词汇,计算候选分词与一个或多个电力领域专业词汇的相似度并根据相似度确定最终分词;以及
输出单元,用于将最终分词按分词在所述候选文本术语中出现的频次进行排序后输出;
其中,所述文本分割单元包括:
第一分割单元,用于将所述候选文本术语中的标点及空格进行分隔得到多个文本部分,并去除所述多个文本部分中的标点及空格得到多个待过滤文本语句;以及
第二分割单元,用于判断每一待过滤文本语句中的字符是否为电力行业专业分词,若是,则抽取文本语句中所有相同字符并切分为词,所述切分为词为将字符及字符后的文字一起切分得到候选文本语句;若否,则抽取文本语句中所有相同字符并舍弃;
所述分词单元具体用于将候选文本语句中与词典数据库中词汇对应的词汇抽取出来得到分词;其中,所述词典数据库中词汇为电力领域专用分词词典中词汇。
5.如权利要求4所述的面向电力行业的自适应中文分词***,其特征在于,
所述输出单元包括:
相似度计算单元,用于当一候选文本语句对应有多个候选分词时,计算该候选文本语句中每一候选分词与一个或多个电力领域专业词汇的相似度值并进行累计得到该候选分词对应的相似度值;
最终分词确定单元,用于选取相似度值最高的候选分词作为候选文本语句的最终分词。
6.如权利要求5所述的面向电力行业的自适应中文分词***,其特征在于,所述输出单元包括:
显示单元,用于将排序后的最终分词以空格为间隔进行输出,并选择排序后的前十位进行重点显示,其他最终分词结果则进行隐藏。
7.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~3中任一项所述的面向电力行业的自适应中文分词方法。
CN201910638948.2A 2019-07-16 2019-07-16 一种面向电力行业的自适应中文分词方法及其***、介质 Active CN110413998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910638948.2A CN110413998B (zh) 2019-07-16 2019-07-16 一种面向电力行业的自适应中文分词方法及其***、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910638948.2A CN110413998B (zh) 2019-07-16 2019-07-16 一种面向电力行业的自适应中文分词方法及其***、介质

Publications (2)

Publication Number Publication Date
CN110413998A CN110413998A (zh) 2019-11-05
CN110413998B true CN110413998B (zh) 2023-04-21

Family

ID=68361553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910638948.2A Active CN110413998B (zh) 2019-07-16 2019-07-16 一种面向电力行业的自适应中文分词方法及其***、介质

Country Status (1)

Country Link
CN (1) CN110413998B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079428B (zh) * 2019-12-27 2023-09-19 北京羽扇智信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN112257425A (zh) * 2020-09-29 2021-01-22 国网天津市电力公司 一种基于数据分级模型的电力数据分析方法及***
CN112926320B (zh) * 2021-03-24 2022-12-27 山东亿云信息技术有限公司 一种基于主题词优化的文本关键内容智能抽取方法及***
CN114881017A (zh) * 2022-04-25 2022-08-09 南京烽火星空通信发展有限公司 一种自适应动态分词方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
CN109828981A (zh) * 2017-11-22 2019-05-31 阿里巴巴集团控股有限公司 一种数据处理方法及计算设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
CN109828981A (zh) * 2017-11-22 2019-05-31 阿里巴巴集团控股有限公司 一种数据处理方法及计算设备

Also Published As

Publication number Publication date
CN110413998A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其***、介质
CN108920467B (zh) 多义词词义学习方法及装置、搜索结果显示方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107463548B (zh) 短语挖掘方法及装置
CN111783518A (zh) 训练样本生成方法、装置、电子设备及可读存储介质
WO2008098956A1 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、***及存储介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN112527977B (zh) 概念抽取方法、装置、电子设备及存储介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN107577713A (zh) 基于电力词典的文本处理方法
CN110413997A (zh) 针对电力行业的新词发现方法及其***、可读存储介质
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN107291952B (zh) 一种提取有意义串的方法及装置
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN106933797B (zh) 目标信息的生成方法及装置
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant