CN105893354A - 一种基于双向递归神经网络的分词方法 - Google Patents
一种基于双向递归神经网络的分词方法 Download PDFInfo
- Publication number
- CN105893354A CN105893354A CN201610286223.8A CN201610286223A CN105893354A CN 105893354 A CN105893354 A CN 105893354A CN 201610286223 A CN201610286223 A CN 201610286223A CN 105893354 A CN105893354 A CN 105893354A
- Authority
- CN
- China
- Prior art keywords
- word
- prime
- leftarrow
- rightarrow
- beginning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 title claims abstract description 17
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 13
- 230000002457 bidirectional effect Effects 0.000 title abstract 3
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000007935 neutral effect Effects 0.000 claims description 53
- 210000002569 neuron Anatomy 0.000 claims description 33
- 239000012634 fragment Substances 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 6
- 210000004218 nerve net Anatomy 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 206010028916 Neologism Diseases 0.000 description 12
- 230000001537 neural effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,特别涉及一种基于双向递归神经网络的分词方法,本发明通过现有的词典和人工校正的半自动方法来标注训练样本,在进行分词时应用了双向递归神经网络的技术对每一个字的类型概率进行预测,在分类概率的基础上结合前后文找出总体上概率最优的分类序列,将分类序列中相邻的属于词的前、中、后部分的字作为一个整体切分出来;克服了单向递归神经网络预测过程中信息不对称的问题,使得待识别的自然语言序列的分类判断结果即依赖了前文信息又依赖了后文信息;使得分词判断的准确率更高,对新词的识别效果显著,为信息分析提供一种有效的分词途径。
Description
技术领域
本发明自然语言处理领域,特别涉及一种基于双向递归神经网络的分词方法。
背景技术
随着互联网技术的发展,产生了海量的数据信息,人们对于信息分析和信息处理的需求越来越多,在这些海量的及时准确的分析出人们关心的数据,就是大数据分析的价值所在。面对巨大的数据在进行相应的数据分析,首先需要进行分词处理,即将连贯的文字分解为一个个特定语言含义的单元组成的序列,这样的处理在中文、韩文或者日文的信息处理中表现的最为突出,因为中文等语言在进行表达时句子中的文字不像英文等语言的单词与单词之间具有空格隔开,而是连贯书写的。在进行中文信息分析时分词处理是首要的步骤。
目前随着信息的发展,人们对于信息分析的准确性和及时性要求越来越高,对于分词的需求也在进一步提高,传统的分词处理大致分为以下几种技术:第一、基于语义理解的分词方法,基于语义的理解方法类似人对语义的理解过程需要进行词性标注等系列复杂的操作,由于语言的复杂性,该方法的操作性差,难以大规模应用。第二、基于词典匹配,基于词典匹配的大致原理是通过一个维度足够大的词典将现有的词汇收入其中,在进行分词时通过将待分词文本与词典词汇进行匹配,在词典中收录的词汇分成一个词语单元,将其他的文字分为单个的字,基于词典匹配的缺点在于缺乏灵活性,无法发现新词;第三、基于统计的分词方法,基于统计的分词方法的大致原理为:通过计算相邻字共同出现概率,如果相邻字的共同出现概率高于设置的阈值就可以认为是一个固定搭配的词语,而将其作为一个分词单元。目前基于统计的分词方法所得到的分词结果较优,应用也最广泛,但是单纯的基于统计的分词方法,计算量大且使用的上下文信息有限,具有一定的局限性,难以进一步提高分词质量,且分词的效率也较低。
目前现有的分词工具所普遍存在的问题在于:对于新词的发现识别效果较差,分词结果难以实现全局优化。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于双向递归神经网络的分词方法,通过双向递归神经网络充分联系上下文信息,结合词典匹配和统计分词的优势,对于新词的发现和切分具有突出的效果。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于双向递归神经网络的分词方法,包含以下实现步骤:
(1)选取文本进行标注,通过现有的词典来标注文本中的词,按照词的结构将词中文字分段标注为开始部分、中间部分和结尾部分,词典中未收录的字标注为单独部分
(2)将训练样本对应的文本序列,先正向再反向输入所述双向递归神经网络中,来训练所述双向递归神经网络;
(3)将待分词文本输入训练好的所述双向递归神经网络中,由所述双向递归神经网络预测出每个字的分类概率;
(4)通过解码算法计算出概率最优化的分类序列,按照该最优化的分类概率序列,将相邻的属于词的开始、中间、结束部分或者开始、结束部分对应的字作为词语整体切分出来。
具体的,所述步骤(2)中,在进行双向递归神经网络训练时,输入神经网络前,将训练文本以标点符号为基准分解成片段,以每个片段的开始和结束为所述双向递归神经网络的递归开始和结束,将序列片段先正向再反向输入到双向递归神经网络中,所述双向递归神经网络每个时刻的输入信息除了包括本时刻的输入信号以外还包括上一时刻递归神经网络的输出信号;
所述双向递归神经网络在预测出对应时刻字的分类概率时,既依赖了该时刻递归神经网络的正向输出也依赖该时刻双向递归神经网络的反向输出,这样在结合前后文的情况下,分类预测的结果更加准确。
具体的,本发明所述双向递归神经网络采用如下的向前算法计算公式:
I为向量化的字的维度,H为隐含层的神经元个数,K是输出层神经元的个数,其中为t时刻向量化的字在第i维度的取值,为正向输入(文字序列从头至尾正向输入所述神经网络)时t时刻所述双向递归神经网络的隐含层神经元的输入,为反向输入(文字序列从尾至头反向输入所述神经网络)时t时刻所述双向递归神经网络隐含层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为反向输入时t时刻隐含层神经元的输出,θ()为隐含层神经元输入到输出的函数,为(先正向再反向输入)t时刻输出层神经元的输入,为t时刻输出层神经元的输出,为一个概率值,表示第k个神经元的输出值相对于K个神经元输出值总和的比值。
具体的,和是各个维度值均为0的向量,T为输入序列的长度。
进一步的,本发明将通过字典映射表,将待处理序列中的字转换成对应的向量数据后输出所述双向递归神经网络中。
进一步的,所述步骤(4)中,所述解码算法包含以下规则条件:a、片段开始的字的分类结果为词的开始部分或者单独部分;b、片段结尾的字的分类结果为词的结束部分或者单独部分;c、在前一个字分类结果确定为词的开头部分时,当前字的分类为中间或者结束部分,d、在前一个字分类结果确定为词的中间部分时,当前字的分类为中间或者结束部分,e、在前一个字分类结果确定为词的结束部分时,当前字的分类为单独或者开始部分;上述规则按顺序适用。
进一步的,所述步骤(4)中的解码中,借用HMM(隐式马尔科夫模型)的Viterbi算法来实现解码。
与现有技术相比,本发明的有益效果:本发明提供一种基于双向递归神经网络的分词方法,使用现有的词典和人工校正的半自动化方式来标注训练样本,根据具体情况将词中每个字依次标注为:开始部分、中间部分或者结束部分,将训练样本先正向再反向输入神经网络中,来训练所述双向递归神经网络,所述双向递归神经网络在预测每个字的分类类型时既结合了前文信息也结合了后文信息,这样预测出的字的分类概率更加合理;不仅如此本发明在所述双向递归神经网络预测出每个字的分类概率的基础上使用解码算法,计算出最优化的分类序列,并在该分类序列的基础上,将其中的相邻的属于词的开始、中间和结束的部分或者词的开始和结束部分对应的字作为一个整体切分出来,进而实现文本的分词过程。本发明方法结合了词典匹配和统计方法分词的优势,对于新词的发现和切分也具有突出的效果。
附图说明:
图1为本基于双向递归神经网络的分词方法的实现过程示意图。
图2为本基于双向递归神经网络的分词方法的实现步骤示意图。
图3为本实施例1的信号流程示意图。
图4为本实施例1的解码路径示意图。
图5为实施例1的解码过程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种基于双向递归神经网络的分词方法,如图1所示,将待分词文本输入到训练好的双向递归神经网络中,通过双向递归神经网络充分联系上下文信息来预测每个字的分类概率,在分类概率的基础上结合解码算法计算出最优化的分类序列,并根据分类序列将相邻的属于词的开始、中间和结束的部分或者词的开始和结束部分对应的字作为一个整体切分出来,进而实现文本的分词过程。本发明方法结合了词典匹配和统计方法分词的优势,对于新词的发现和切分也具有突出的效果。
本发明方法包含如图2所示的实现步骤:
(1)选取一定数量(比如说4000件文档)的文本进行标注,通过现有的词典来标注文本中的词,按照词的结构将词中文字分段标注为开始部分、中间部分和结尾部分,对于单个的字使用半人工的方法进行校正标注;将文本中的标点符号标注为隔断符号,从而将文本分解成以标点符号为起始和结束的片段。通过现有词典实现的标注充分使用了已有的词典资源,为递归神经网络的预测结果提供了充足的训练语料,且可以实现标注的自动化,节省人力成本。目前可利用的开放的现有词典资源丰富比如说:“北大语义词典”,“联网词库(SogouW)”等等。
特别的,将待标注文本中的词语分段标注为开始部分(用B表示)、中间部分(用M表示)和结束部分用(E)来表示,将单独的字标注为S,将标点符号标注为N,比如说将“我们是中国人,我们爱中国。”在现有词典中具有“我们”“中国人”和“中国”则将上述句子标注为“B E S B M E N B E S B E N”,使用数字或者字母来进行标注简单易行,简化相关计算过程。
(2)将标注后的文本作为训练样本来训练双向递归神经网络;输入神经网络前,将训练文本以标点符号为基准分解成片段,以每个片段的开始和结束为所述双向递归神经网络的递归开始和结束。
汉语中以句子、段落、章节为递进单位来组织文章;句子作为文本的基础构成单元在分词之中具有特别的地位,而句子中又以标点符号为停顿将句子中逻辑分隔开来,属于同一个词的组成部分不可能分居于标点符号的两侧,这是汉语或者其他语言共同的构词特点,这样在进行分词时,只需要考虑相邻的标点符号以内的内容。
特别的,为了区分片段的起始和结束(以便区分递归的起始和结束)可以在文本的开头添加标记符(比如为<F>,在递归神经网络的识别和解码过程中具有与标点符号相同的功能)。
(3)将待分词文本输入训练好的所述双向递归神经网络中,由所述双向递归神经网络预测出每个字的分类概率;
(4)根据所述双向递归神经网络预测出的每个字的分类概率,结合条件规则(比如包含以下规则a、片段开始的字的分类结果只能为词的开始部分或者单独部分;b、片段结尾的字的分类结果只能为词的结束部分或者单独部分;c、在前一个字分类结果确定为词的开头部分时,当前字的分类为中间或者结束部分,d、在前一个字分类结果确定为词的中间部分时,当前字的分类为中间或者结束部分,e、在前一个字分类结果确定为词的结束部分时,当前字的分类为单独或者开始部分,上述规则按顺序适用。);经过上述规则规范后得到了每个以标点为起始和结束的片段的最优化分类序列。上述最优化序列的计算过程就是解码过程。
通过解码算法计算出概率最优化的分类序列,按照该最优化的分类概率序列,将相邻的属于词的开始部分、K个中间部分(其中K为≥0的正整数)、结束部分对应的字作为词语整体切分出来。进一步的,通过本发明分词结果将切分出来的词语与现有词典进行对比,将现有词典中未收录的词语作为新词添加到词典中。为了进一步的提高新词判断的准确性,可以通过统计该词在文章的重复出现次数来辅助进行新词判断(比如通过TF-IDF的方法),辅助判断的方法在本发明切分判断的基础上进行,新词的判断准确率更高。
具体的,所述步骤(2)中,在进行双向递归神经网络训练时,先将文本分解成单个字和标点组成的序列,以标点符号为基准将文本分解成序列片段,以相邻两个标点符号为双向递归的开始和结束,将序列片段中的内容先正向再反向依次输入到双向递归神经网络中,所述双向递归神经网络每个时刻的输入信息除了包括本时刻的输入信号以外还包括上一时刻递归神经网络的输出信号;所述双向递归神经网络在预测出对应时刻字的分类概率时,既依赖了该时刻递归神经网络的正向输出也依赖该时刻双向递归神经网络的反向输出,这样在结合片段前后文的情况下,分类预测的结果更加准确。
具体的,本发明所述双向递归神经网络采用如下的向前算法计算公式:
I为序列中的字向量化后的维度,H为隐含层的神经元个数,K是输出层神经元的个数,其中为t时刻向量化的字在第i维度的取值,为正向输入(文字序列正向输入神经网络)时,t时刻所述双向递归神经网络的隐含层神经元的输入(本发明方法中所述双向递归神经网络的时刻序号与输入文字序列的位置序号相对应,比如所文字序列中处于第2位置的字,对应输入第2时刻的双向递归神经网络中),为反向输入(文字序列反向输入神经网络)时,t时刻所述双向递归神经网络的输出层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为反向输入时t时刻隐含层神经元的输出,θ()为隐含层神经元输入到输出的函数,为t时刻输出层神经元的输入,可以看出结合了t时刻正向输入时隐含层神经元的输出信号和反向输入时的隐含层神经元的输出信号),的计算结果一直向前传播直到所述双向递归神经网络输出该时刻的分类结果;这样在计算当前时刻对应字的分类结果时既结合了历史序列信息又结合了未来序列信息,依赖了以标点符号为开始和结束的上下文信息而非局部信息,从而使得预测结果达到了全局最优。为t时刻输出层神经元的输出,为一个概率值,表示第k个神经元的输出值相对于K个神经元输出值总和的比值(即为k个神经元对应类型的分类概率),为正向输入时的权重系数,为反向输入时的权重系数,为正向输入时的权重系数,为反向输入时的权重系数,为的权重系数,为的权重系数。
具体的,和是各个维度值均为0的向量,T为输入片段内的总字数。
进一步的,本发明采用上述向前算法在所述双向递归神经网络中来逐层传输运算数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改各神经元的权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的阈值,停止训练,此时可认为所述双向递归神经网络模型已经训练完成。
进一步的,本发明将通过字典映射表将待处理序列中的字转换成对应的向量数据后输出所述双向递归神经网络中。所述字典映射表为一个二维的矩阵,其中每一个行向量对应一个字,这种行向量与字的对应关系是构造字典映射表时设定的。通过字典映射表将文字转化成向量数据,打破了神经网络与自然语言的壁垒,为神经网络的使用提供了条件。
特别的,为了提高字典映射表的效率,减少生成向量的维度,所述字典映射表可以通过机器学习的方式来自动构造,将每个字映射为一个二维的向量,所述二维向量中的每个维度的值是可以连续变化的,比如说将“字”映射为“0.20.3”而将“典”映射为“0.2 0.35”,这样的向量化方式降低了输入神经网络的向量的维度,进而降低神经网络的规模和复杂度,简化运算过程,提高所述双向递归神经网络的训练和预测效率。
进一步的,所述步骤(4)中的解码中,借用HMM(隐式马尔科夫模型)的Viterbi算法来实现解码。解码算法具体的,在一个由标点符号分隔的序列片段中,第一个字的分类概率只能是开始部分或者单独部分,而为中间部分或者结尾部分的概率为0;最后一个字的分类概率只能是结束部分,或者单独部分,而为开始部分或者中间部分的概率为0。
在上述解码过程可以实现新词的切分,比如说:在网络上获取一下文本“他曾经被骂丑小鸭,如今屌丝变成男神成为女神收割机。”,经过双向递归神经网络的预测,假如“屌丝”一词还未被词典收录,经过传统的分词方法将得到“他/曾经/被/骂/丑小鸭/,/如今/屌/丝/变成/男神/成为/女神/收割机/。/”没有新词识别的功能;而通过本双向递归神经网络结合上下文的信息,后输出的分类概率比如为:“如(开始部分的概率为0.8,中间部分的概率为0.1,单独部分的概率为0.1,其他分类概率为0),“今”(开始部分的概率为0.2,中间部分的概率为0.3,结束部分的概率为0.5,其他分类概率为0,);“屌”(开始部分的概率为0.3,中间部分概率为0.3,结束部分概率为0.2,单独部分的概率为0.2,其他分类概率为0),“丝”(开始部分的概率为0.3,中间部分概率为0.1,结束部分概率为0.3,单独部分的概率为0.3,其他分类概率为0);“变”(开始部分的概率为0.7,中间部分概率为0.1,结束部分概率为0.1,单独部分的概率为0.1,其他分类概率为0)“成”(开始部分的概率为0.1,中间部分概率为0.1,结束部分概率为0.5,单独部分的概率为0.3,其他分类概率为0)……,经过本发明方法的解码算法可以得出最优化的分类序列为:“如”为开始部分,“今”为结束部分,“屌”为开始部分,“丝”为结束部分,“变”为开始部分,“成”为结束部分……,经过本发明方法的最终分词结果为“他/曾经/被/骂/丑小鸭/,/如今/屌丝/变成/男神/成为/女神/收割机/。/”,这样达到了新词“屌丝”的切分功能。
本发明方法实现的分词功能对于专业领域的新词切分同样有效。
实施例1
在网络中获取到以下文本:“美联储***耶伦3月29日在纽约经济俱乐部发表讲话指出,美联储调整政策采取谨慎的态度是恰当的,应当等到经济繁荣时再逐渐告别零利率区间。”先将该段文字分解为“美/联/储/主/席/耶/伦/3/月/29/日/在/纽/约/经/济/俱/乐/部/发/表/讲/话/指/出/,/美/联/储/调/整/政/策/采/取/谨/慎/的/态/度/是/恰/当/的/,/应/当/等/到/经/济/繁/荣/时/再/逐/渐/告/别/零/利/率/区/间/。”以标点符号为基准将文本分解成“美/联/储/主/席/耶/伦/3/月/29/日/在/纽/约/经/济/俱/乐/部/发/表/讲/话/指/出/,”;“/美/联/储/调/整/政/策/采/取/谨/慎/的/态/度/是/恰/当/的/,”,“/应/当/等/到/经/济/繁/荣/时/再/逐/渐/告/别/零/利/率/区/间/。”的片段。将上述每个片段作为一个双向递归区间输入到双向递归神经网络中,以第一片段为例来说明本发明分词的过程,信号流程如图3所示(其中vec-a、vec-b、vec-c、vec-d、vec-e、vec-f、vec-g、vec-h、vec-i、vec-j、vec-k、vec-1、vec-m……vec-z等代表词典映射表中二维矩阵的行向量):“美/联/储/主/席/耶/伦/3/月/29/日/在/纽/约/经/济/俱/乐/部/发/表/讲/话/指/出/,”序列中的字经过字典映射表转化成对应的向量数据后依次先正向再反向输入对应时刻的双向递归神经网络中,经过所述双向递归神经网络的预测输出序列每个字的分类概率,解码过程在输出分类概率的基础上使用Viterbi算法计算出最优化的概率路径对应分类序列,如图4、图5所示,假设分类概率依次为美(B=0.3,M=0.4,E=0.1,S=0.2,N=0),联(B=0.2,M=0.4,E=0.1,S=0.3,N=0),储(B=0.3,M=0.1,E=0.4,S=0.2,N=0),主(B=0.4,M=0.1,E=0.3,S=0.2,N=0),席(B=0.4,M=0.2,E=0.1,S=0.3,N=0)……最终形成“BMEBEBEBEBESBEBEBMEBEBEBEN”的最优化分类序列,将相邻的BME对应的字作为一个整体切分出来,形成了“美联储/***/耶伦/3月/29日/在/纽约/经济/俱乐部/发表/讲话/指出/,”的分词结果。
Claims (8)
1.一种基于双向递归神经网络的分词方法,其特征在于,使用双向递归神经网络来预测待分词文本中各个字的分类概率;在此基础上结合解码算法找出最优化的分类概率序列;将序列中相邻的属于词的开始部分、K个中间部分和结束部分对应的字作为一个词切分出来,其中K为≥0的正整数。
2.如权利要求1所述的方法,其特征在于,包含以下实现步骤:
(1)通过现有的词典来标注训练文本中的词,按照词的结构将词中文字分别标注为开始部分、中间部分和结尾部分,词典中未收录的字标注为单独部分;
(2)将训练样本对应的文本序列,先正向再反向输入所述双向递归神经网络中,来训练所述双向递归神经网络;
(3)将待分词文本输入训练好的所述双向递归神经网络中,由所述双向递归神经网络预测出每个字的分类概率;
(4)通过解码算法计算出概率最优化的分类序列,将分类序列中相邻的属于词的开始部分、K个中间部分、结束部分对应的字作为词语整体切分出来。
3.如权利要求2所述的方法,其特征在于,所述双向递归神经网络采用以下向前算法公式:
I为向量化的字的维度,H为隐含层的神经元个数,K是输出层神经元的个数,其中为t时刻向量化的字在第i维度的取值,为正向输入时t时刻所述双向递归神经网络的隐含层神经元的输入,为反向输入(时t时刻所述双向递归神经网络隐含层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为反向输入时t时刻隐含层神经元的输出,θ()为隐含层神经元输入到输出的非线性激励函数,为t时刻输出层神经元的输入,为t时刻输出层神经元的输出,为一个概率值,表示第k个输出层神经元的对应分类概率;
和是各个维度值均为0的向量,T为输入序列的长度。
4.如权利要求1至3所述的方法,其特征在于,通过字典映射表来实现输入双向递归神经网络的文字的向量化。
5.如权利要求4所述的方法,其特征在于,所述步骤(1)中,进行标注时,词的开始部分标注为B,中间部分标注为M,结束部分标注E,单独的字标注S,标点符号标注为N。
6.如权利要求4所述的方法,其特征在于,输入神经网络前,将待处理文本以标点符号为基准分解成片段,以每个片段的开始和结束为所述双向递归神经网络的递归开始和结束,所述待处理文本包括训练样本和待分词文本。
7.如权利要求4所述的方法,其特征在于,所述步骤(4)中,所述解码算法包含以下规则条件:a、片段开始的字的分类结果为词的开始部分或者单独部分;b、片段结尾的字的分类结果为词的结束部分或者单独部分;c、在前一个字分类结果确定为词的开头部分时,当前字的分类为中间或者结束部分,d、在前一个字分类结果确定为词的中间部分时,当前字的分类为中间或者结束部分,e、在前一个字分类结果确定为词的结束部分时,当前字的分类为单独或者开始部分;上述规则按顺序适用。
8.如权利要求6所述的方法,其特征在于,所述步骤(4)中,所述解码算法为Viterbi算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610286223.8A CN105893354A (zh) | 2016-05-03 | 2016-05-03 | 一种基于双向递归神经网络的分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610286223.8A CN105893354A (zh) | 2016-05-03 | 2016-05-03 | 一种基于双向递归神经网络的分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105893354A true CN105893354A (zh) | 2016-08-24 |
Family
ID=56703197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610286223.8A Pending CN105893354A (zh) | 2016-05-03 | 2016-05-03 | 一种基于双向递归神经网络的分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893354A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN107092669A (zh) * | 2017-04-11 | 2017-08-25 | 江苏东方金钰智能机器人有限公司 | 一种建立机器人智能交互的方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107301170A (zh) * | 2017-06-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108460453A (zh) * | 2017-02-21 | 2018-08-28 | 阿里巴巴集团控股有限公司 | 一种用于ctc训练的数据处理方法、装置及*** |
CN108595428A (zh) * | 2018-04-25 | 2018-09-28 | 杭州闪捷信息科技股份有限公司 | 基于双向循环神经网络进行分词的方法 |
CN109492217A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于机器学习的分词方法及终端设备 |
CN110491453A (zh) * | 2018-04-27 | 2019-11-22 | 上海交通大学 | 一种化学反应的产率预测方法 |
CN110598846A (zh) * | 2019-08-15 | 2019-12-20 | 北京航空航天大学 | 一种层级递归神经网络解码器及解码方法 |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
-
2016
- 2016-05-03 CN CN201610286223.8A patent/CN105893354A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
ALEX GRAVES等: "Speech recognition with deep recurrent neural networks", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
YUSHI YAO: "Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation", 《EPRINT ARXIV:1602.04874》 * |
李鑫鑫: "自然语言处理中序列标注问题的联合学习", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN108460453A (zh) * | 2017-02-21 | 2018-08-28 | 阿里巴巴集团控股有限公司 | 一种用于ctc训练的数据处理方法、装置及*** |
CN107092669A (zh) * | 2017-04-11 | 2017-08-25 | 江苏东方金钰智能机器人有限公司 | 一种建立机器人智能交互的方法 |
CN107168945B (zh) * | 2017-04-13 | 2020-07-14 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107301170A (zh) * | 2017-06-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
US10755048B2 (en) | 2017-06-19 | 2020-08-25 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for segmenting sentence |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107301225B (zh) * | 2017-06-20 | 2021-01-26 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN107391609B (zh) * | 2017-07-01 | 2020-07-31 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108595428A (zh) * | 2018-04-25 | 2018-09-28 | 杭州闪捷信息科技股份有限公司 | 基于双向循环神经网络进行分词的方法 |
CN110491453A (zh) * | 2018-04-27 | 2019-11-22 | 上海交通大学 | 一种化学反应的产率预测方法 |
CN109492217A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于机器学习的分词方法及终端设备 |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110598846A (zh) * | 2019-08-15 | 2019-12-20 | 北京航空航天大学 | 一种层级递归神经网络解码器及解码方法 |
CN110598846B (zh) * | 2019-08-15 | 2022-05-03 | 北京航空航天大学 | 一种层级递归神经网络解码器及解码方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893354A (zh) | 一种基于双向递归神经网络的分词方法 | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
US11586810B2 (en) | Generating responses in automated chatting | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN105955953A (zh) | 一种分词*** | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN107729311B (zh) | 一种融合文本语气的中文文本特征提取方法 | |
CN110210019A (zh) | 一种基于递归神经网络的事件要素抽取方法 | |
Fahad et al. | Inflectional review of deep learning on natural language processing | |
CN107704456B (zh) | 识别控制方法以及识别控制装置 | |
CN105589844A (zh) | 一种用于多轮问答***中缺失语义补充的方法 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN104756100A (zh) | 意图估计装置以及意图估计方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN110516035A (zh) | 一种混合模块的人机交互方法和*** | |
CN111274794A (zh) | 一种基于传递的同义词扩展方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
Szűcs et al. | Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder | |
Antit et al. | TunRoBERTa: a Tunisian robustly optimized BERT approach model for sentiment analysis | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
Sarhan et al. | Arabic relation extraction: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |
|
WD01 | Invention patent application deemed withdrawn after publication |