CN106610937A - 一种基于信息论的中文自动分词算法 - Google Patents
一种基于信息论的中文自动分词算法 Download PDFInfo
- Publication number
- CN106610937A CN106610937A CN201610831711.2A CN201610831711A CN106610937A CN 106610937 A CN106610937 A CN 106610937A CN 201610831711 A CN201610831711 A CN 201610831711A CN 106610937 A CN106610937 A CN 106610937A
- Authority
- CN
- China
- Prior art keywords
- word
- word segmentation
- path
- dictionary
- paths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种基于信息论的中文自动分词算法,将待分词句子和已经初始化成功的语料库中的词进行对比匹配,根据概率统计学,将待分词句子拆分为网状结构,利用信息论方法求解网状结构中每条边的权值,权重最大的一条路径,即为待分词句子的分词结果,利用准确率可召回率判定分词效果。本发明中中文预处理的速度较基于分词词典的方法快;较基于分词词典的方法精度更高;较基于统计学方法有更好的准确度;实用性更大,更符合经验值;为后续自然语言处理技术提供了极大的应用价值。
Description
技术领域
本发明涉及中文语义网络技术领域,具体涉及一种基于信息论的中文自动分词算法。
背景技术
现阶段基于理解的中文分词算法目前还处于试验阶段,基于分词词典和基于概率统计的方法成为当前中文自动分词技术的主流。基于分词词典的方法移植简单、无需考虑不同领域间移植的自适应性问题;但是这类方法对自动分词过程中所产生的歧义分析以及命名实体识别等问题的处理还相对欠缺。基于统计的方法依托于强大的数学统计模型,在分词性能方面有了很大的提高,但是在跨领域方面效果不好,对训练语料的依赖性比较大,需要针对不同的领域,准备不同的训练语料来训练不同的领域统计分词模型。这样导致在领域变换后,必须为它们提供相应领域的分词训练语料。然而,进行分词训练所需要的标注语料的建立和维护需要大量的人力和物力,相比之下,基于分词词典的方法在领域自适应方面存在着一定优势。当目标分词领域改变时,基于词典的方法只需要加入相应领域的词典即可,领域词典的获取相比训练语料而言也要容易很多,因此将分词词典和概率统计的方法结合使用成为当前分词的主流。为了实现中文自动分词功能以及提高分词结果的准确度,本发明提出了一种基于信息论的中文自动分词算法。
发明内容
为实现中文自动分词功能以及针对分词结果的准确性不高问题,本发明提供了一种基于信息论的中文自动分词算法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词。
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E。
步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值。
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果。
步骤6:验证此分词结果的准确率和召回率。
本发明有益效果是:
1、中文预处理的速度较基于分词词典的方法快。
2、此方法较基于分词词典的方法有更好的精度。
3、此方法较基于统计学方法有更好的准确度。
4、此方法实用性更大,更符合经验值。
5、此方法为后续自然语言处理技术提供了极大地应用价值。
附图说明
图1 一种基于信息论的中文自动分词算法结构流程图
图2 n元语法分词算法图解
具体实施方式
为了提高中文自动分词的准确性,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:
把待分词的汉字串完整的扫描一遍,在***的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图2所示。
步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小。
在统计语料库中,计算每个词的信息量X(Ci),再求解路径相邻词的共现信
息量X(Ci,Ci+1)。既有下式:
X(Ci)=|x(Ci)1-x(Ci)2|
上式x(Ci)1为文本语料库中词Ci的信息量,x(Ci)2为含词Ci的文本信息量。
x(Ci)1=-p(Ci)1lnp(Ci)1
上式p(Ci)1为Ci在文本语料库中的概率,n为含词Ci的文本语料库的个数。
x(Ci)2=-p(Ci)2lnp(Ci)2
上式p(Ci)2为含词Ci的文本数概率值,N为统计语料库中文本总数。
同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|
x(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现信息量,x(Ci,Ci+1)2为相邻词(Ci,Ci+1)共现的文本信息量。
同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1
上式p(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现概率,m为在文本库中词(Ci,Ci+1)共现的文本数量。
x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2
p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1)共现的文本数概率。
综上可得每条相邻路径的权值为
w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。
假设经过取路径中词的数量最少操作,排除了m条路径,m<n。即剩下(n-m)路径,设其路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤4可以一一计算得出,为剩下(n-m)路径中第Sj条路径的长度。
权值最大的一条路径:
步骤6:验证此分词结果的准确率和召回率。
准确率:
上式n识为《分词词典》识别待分词句子中字典词的个数,nz为此方法正确分词词的个数。
召回率:
上式n总为待分词句子中词的总个数。
最后综合考虑这两个因子,判定此***分词结果的正确性。
即d=|zhaorate-rate|≤ε
ε为一个很小的阈值,这个由专家给定。当d满足上述条件,则分词效果比较理想。
Claims (3)
1.一种基于信息论的中文自动分词算法,本发明涉及中文语义网络技术领域,具体涉及一种基于信息论的中文自动分词算法,其特征是,包括如下步骤:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为
步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果
步骤6:验证此分词结果的准确率和召回率
准确率:
上式为《分词词典》识别待分词句子中字典词的个数,为此方法正确分词词的个数
召回率:
上式为待分词句子中词的总个数
最后综合考虑这两个因子,判定此***分词结果的正确性
即
为一个很小的阈值,这个由专家给定,当d满足上述条件,则分词效果比较理想。
2.根据权利要求1中所述的一种基于信息论的中文自动分词算法,其特征是,以上所述步骤4中具体计算过程如下:
步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为,即n条路径词的个数集合为
得
在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小
在统计语料库中,计算每个词的信息量,再求解路径相邻词的共现信息量,既有下式:
上式为文本语料库中词的信息量,为含词文本信息量
上式为在文本语料库中的概率,n为含词的文本语料库的个数
上式为含词的文本数概率值,N为统计语料库中文本总数
同理
为在文本语料库中词的共现信息量,为相邻词共现的文本信息量
同理
上式为在文本语料库中词的共现概率,m为在文本库中词共现的文本数量
为文本库中相邻词共现的文本数概率
综上可得每条相邻路径的权值为
。
3.根据权利要求1中所述的一种基于信息论的中文自动分词算法,其特征是,以上所述步骤5中具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为
假设经过取路径中词的数量最少操作,排除了m条路径,m<n,即剩下(n-m)路径,设其路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤4可以一一计算得出, 为剩下(n-m)路径中第条路径的长度权值最大的一条路径:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610831711.2A CN106610937A (zh) | 2016-09-19 | 2016-09-19 | 一种基于信息论的中文自动分词算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610831711.2A CN106610937A (zh) | 2016-09-19 | 2016-09-19 | 一种基于信息论的中文自动分词算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106610937A true CN106610937A (zh) | 2017-05-03 |
Family
ID=58614954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610831711.2A Pending CN106610937A (zh) | 2016-09-19 | 2016-09-19 | 一种基于信息论的中文自动分词算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106610937A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291837A (zh) * | 2017-05-31 | 2017-10-24 | 北京大学 | 一种基于领域适应性的网络文本的分词方法 |
CN108874956A (zh) * | 2018-06-05 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 海量文件检索方法、装置、计算机设备及存储介质 |
CN109033085A (zh) * | 2018-08-02 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 中文分词***及中文文本的分词方法 |
CN109190124A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109858011A (zh) * | 2018-11-30 | 2019-06-07 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
CN110781204A (zh) * | 2019-09-09 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 目标对象的标识信息确定方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及*** |
CN103970733A (zh) * | 2014-04-10 | 2014-08-06 | 北京大学 | 一种基于图结构的中文新词识别方法 |
-
2016
- 2016-09-19 CN CN201610831711.2A patent/CN106610937A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及*** |
CN103970733A (zh) * | 2014-04-10 | 2014-08-06 | 北京大学 | 一种基于图结构的中文新词识别方法 |
Non-Patent Citations (2)
Title |
---|
BECK_ZHOU: "中文分词语言模型和动态规划", 《CSDN博客 HTTPS://BLOG.CSDN.NET/ZHOUBL668/ARTICLE/DETAILS/6896438》 * |
蒋建洪 等: "词典与统计方法结合的中文分词模型研究及应用", 《计算机工程与设计》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291837A (zh) * | 2017-05-31 | 2017-10-24 | 北京大学 | 一种基于领域适应性的网络文本的分词方法 |
CN107291837B (zh) * | 2017-05-31 | 2020-04-03 | 北京大学 | 一种基于领域适应性的网络文本的分词方法 |
CN108874956A (zh) * | 2018-06-05 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 海量文件检索方法、装置、计算机设备及存储介质 |
CN109033085A (zh) * | 2018-08-02 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 中文分词***及中文文本的分词方法 |
CN109190124A (zh) * | 2018-09-14 | 2019-01-11 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109190124B (zh) * | 2018-09-14 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
WO2020052069A1 (zh) * | 2018-09-14 | 2020-03-19 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109858011A (zh) * | 2018-11-30 | 2019-06-07 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
CN109858011B (zh) * | 2018-11-30 | 2022-08-19 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
CN110781204A (zh) * | 2019-09-09 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 目标对象的标识信息确定方法、装置、设备及存储介质 |
CN110781204B (zh) * | 2019-09-09 | 2024-02-20 | 腾讯大地通途(北京)科技有限公司 | 目标对象的标识信息确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046946B (zh) | 基于crnn的缅甸语图像文本识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和*** | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN106610937A (zh) | 一种基于信息论的中文自动分词算法 | |
CN106919673B (zh) | 基于深度学习的文本情绪分析*** | |
CN107608949B (zh) | 一种基于语义模型的文本信息抽取方法及装置 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和*** | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN105373529B (zh) | 一种基于隐马尔科夫模型的智能分词方法 | |
CN107168957A (zh) | 一种中文分词方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN109783809B (zh) | 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN104699797B (zh) | 一种网页数据结构化解析方法和装置 | |
CN108664474A (zh) | 一种基于深度学习的简历解析方法 | |
CN103955450A (zh) | 一种新词自动提取方法 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN109255117A (zh) | 中文分词方法及装置 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
CN110826298A (zh) | 一种智能辅助定密***中使用的语句编码方法 | |
CN111222329B (zh) | 句向量训练方法及模型、句向量预测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |