CN107679199A - 一种基于深度局部特征的对外汉语教材可读性分析方法 - Google Patents
一种基于深度局部特征的对外汉语教材可读性分析方法 Download PDFInfo
- Publication number
- CN107679199A CN107679199A CN201710941048.6A CN201710941048A CN107679199A CN 107679199 A CN107679199 A CN 107679199A CN 201710941048 A CN201710941048 A CN 201710941048A CN 107679199 A CN107679199 A CN 107679199A
- Authority
- CN
- China
- Prior art keywords
- text
- input
- word
- matrix
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种基于深度局部特征的对外汉语教材可读性分析方法。该方法包括如下步骤:输入文本的词语向量化步骤;卷积神经网络提取文本特征步骤;双向长短期记忆网络生成文本向量步骤;文本分类步骤。利用本发明实施例,能够可靠的对对外汉语教材可读性进行分类,提高分类速度及准确率,具有很大的实用价值。
Description
技术领域
本发明涉及数据处理领域,具体地,涉及一种文本可读性分析的方法。
背景技术
随着中国的快速发展,很多外国人开始学习汉语,因此外汉语教材就成了必不可少的一部分。目前,对外汉语的中文教材的可读性评估多是利用人工对文本进行分类。
文本的可读性一般表示其被阅读理解方面的水平。对外汉语教材可读性评估可以帮助学习中文的人们找到适合他们的阅读材料。目前的文本可读性分类多依靠人工,无法快速大量的对文本进行分类。本发明为解决其问题,首次将神经网络模型引入可读性评估任务,采用卷积神经网络及双向长短期记忆网络对文本的可读性进行分类。实验结果表明,我们的模型可以快速地对对外汉语教材的可读性进行分类。
发明内容
针对现有的对外汉语教材可读性的问题,本发明的目的是提供一种基于深度局部特征的对外汉语教材可读性的分析方法,以至少解决现有文本分类速度慢的问题。
为达到上述目的,本发明提出的一种基于深度局部特征的对外汉语教材可读性分析方法包括下列步骤:
输入文本的词语向量化步骤:将文本的词语映射为相应词语向量,将待分类文本的词语所对应的词语向量进行连接,生成输入的文本矩阵;
卷积神经网络提取文本特征步骤:将文本矩阵作为输入,输入卷积神经网络,利用卷积神经网络捕捉深度局部特征,抽取文本特征;
双向长短期记忆网络生成文本向量步骤:将文本特征作为输入,输入长短期记忆网络,生成文本向量;
文本分类步骤:利用文本向量,对文本进行可读性分类。
可选地,所述将文本的词语映射为相应词语向量,将待分类文本的词语所对应的词语向量进行连接,生成输入的文本矩阵的步骤包括:
初始化词语向量矩阵及词语字典;
将原文本的词语,通过词语字典映射为相应的词语编号;
通过词语编号取得对应于词语向量矩阵中的各个词语的向量表示;
将原文本词语所对应的词语向量连接形成输入文本矩阵。
可选地,所述将文本矩阵作为输入,输入卷积神经网络,利用卷积神经网络捕捉深度局部特征,抽取文本特征的具体步骤如下:
将文本矩阵作为输入,输入卷积神经网络的卷积层,得到卷积层输出的文本子特征;
卷积层输出的向量作为卷积神经网络子采样层的输入,将输入向量中的K个最大值作为代表向量的特征值;
将所得的多个特征值进行拼接,得到文本特征。
可选地,所述将文本矩阵作为输入,输入卷积神经网络的卷积层,得到卷积层输出的文本子特征的方法如下:
将文本矩阵作为输入,通过卷积核的卷积操作,得到卷积结果;
对不同窗口大小的卷积核重复所述将文本矩阵作为输入,通过卷积核的卷积操作,得到卷积结果的步骤,得到不同大小卷积核的卷积结果,即文本子特征。
可选地,所述将文本特征作为输入,输入长短期记忆网络,生成文本向量的方法如下:
文本特征输入一个前向长短期记忆网络,得到正向的输出矩阵;
文本特征输入一个反向长短期记忆网络,得到反向的输出矩阵;
将正向的输出矩阵与反向的输出矩阵在同一文本方向上进行拼接,生成文本向量。
可选地,所述利用文本向量,对文本进行可读性分类的方法如下:
将生成的文本向量输入softmax函数,得到每一个文本分类的概率;
取概率最高的分类,作为文本的类别。
通过上述技术方案,获取分类样本集,该分类样本集包括多个样本文本;对每个样本文本进行分词处理得到包含多个词语的文本,通过词语向量矩阵及词语字典将词语替换为词向量;将文本矩阵通过卷积神经网络捕捉深度局部特征生成文本特征;再通过双向长短期记忆网络得到文本的文本向量;最后通过softmax函数得到文本分类。这样,在训练完成的模型上,可以实现更快地对外汉语文本可读性分类。本发明的试验结果验证了本发明的高效性和可靠性,具有很强的实用性。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本发明实施例提供的一种基于深度局部特征的对外汉语教材可读性分析方法步骤流程示意图;
图2为本发明生提供的一种基于深度局部特征的对外汉语教材可读性分析方法步骤的网络结构图。
具体实施方式
下面将结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本发明公开了一种基于深度局部特征的对外汉语教材可读性分析方法,该方法在原有的文本可读性分类的基础上,将文本信息融入深度学习网络分类模型,通过得到的基于深度局部特征的对外汉语材料可读性分类的模型,对待分类的文本进行可读性分类,从而在后续能够得到快速的准确的分类结果。
下面将结合附图对本发明具体实施方式进行详细说明。
图1是本发明实施例提供的一种基于深度局部特征的对外汉语教材可读性分析的方法步骤流程示意图,包括以下步骤:
步骤S1:输入文本的词语向量化步骤;
步骤S2:卷积神经网络提取文本特征步骤;
步骤S3:双向长短期记忆网络生成文本向量步骤;
步骤S4:文本分类步骤;
下面将对每个步骤进行具体的说明:
步骤S1通过构建词语向量矩阵及词语字典,将文本中的词语转化为词向量,将文本中的词语转变为词向量进行连接,形成文本矩阵。
在本步骤中,所使用的文本语料是已经经过分词处理的语料,所以不需要分词处理。
在本步骤中,使用word2vec形成对词语向量矩阵进行初始化。
需要说明的是,虽然预设了词语向量矩阵及词语字典,但是总会遇到未出现在词语字典的词。因此,为了解决该问题,在词语字典中设置未知词语所对应的词语编号,在词语向量矩阵中设置未知词语所对应的词向量。由于不存在于词语词典中的词比较少,所以将未知词映射为此词向量,不会影响最终的分类结果。
在本步骤中,原始文本需要处理到相同的长度。对于小于此长度的文本需要用未知词语的编号及词向量进行填补;对于大于此长度的文本需要将文本切割到相应的长度,对超过此长度部分的文本舍弃。
步骤S2以矩阵文本作为输入,通过卷积神经网络捕捉深度局部特征抽取文本特征,步骤如下:
将矩阵文本作为输入,输入卷积神经网络,输出文本子特征;
改变卷积神经网络卷积核的大小,返回所述将矩阵文本作为输入,输入卷积神经网络,输出文本子特征的步骤;
当所设定的所有大小的卷积神经网络卷积核计算文本子特征完毕后,文本子特征计算结束;
将不同大小卷积神经网络卷积核生成的文本子特征进行拼接,捕捉深度局部特征得到代表文本的文本特征。
在本步骤中,将矩阵文本作为输入,输入卷积神经网络,输出文本子特征的具体步骤如下:
将文本矩阵作为输入,输入卷积神经网络的卷积层,得到卷积层输出的向量;
卷积层输出的向量作为卷积神经网络子采样层的输入,将输入向量中的K个最大值作为输入向量的特征值,得到某一大小卷积核所得的文本子特征。
需要注意的是,神经网络的不同大小卷积核可以是多个也可以是单个,某一大小卷积核的个数可以是多个。
将文本矩阵作为卷积神经网络的输入,通过有多个不同大小卷积核的卷积神经网络,得到多个文本子特征,将子向量在代表同一文本的方向上进行拼接,得到代表文本的文本特征。
步骤S3以文本特征作为输入,通过双向长短期记忆网络得到文本向量,步骤如下:
将文本特征输入一个前向长短期记忆网络,得到正向的输出矩阵。
将文本特征输入一个反向长短期记忆网络,得到反向的输出矩阵。
将正向的输出矩阵及反向的输出矩阵进行拼接,生成文本向量。
步骤S4以文本向量为输入,输出文本可读性分类。
通过S1至S3即可得到获取的每个文本的文本向量,在得到文本向量后,可以通过softmax函数得到该文本可读性分类的概率,得到网络分类模型。
例如该神经网络的分类模型y:
y=softmax(x)
其中x为文本样本对应的文本向量,y为分类结果。
将待分类的文本矩阵作为神经网络分类模型的输入,得到待分类的文本可读性分类。
以上结合附图对所提出的一种基于深度局部特征的对外汉语教材可读性分析方法进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明,可借助软件的方式来实现。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度局部特征的对外汉语教材可读性分析方法,其特征在于,所述神经网络包含以下结构和步骤:
(1)输入文本的词语向量化步骤:将文本的词语映射为相应词语向量,将待分类文本的词语所对应的词语向量进行连接,生成输入的文本矩阵;
(2)卷积神经网络提取文本特征步骤:将(1)所生成的文本矩阵作为输入,输入卷积神经网络,利用卷积神经网络捕捉深度局部特征,抽取文本特征;
(3)双向长短期记忆网络生成文本向量步骤:将(2)生成的文本特征作为输入,输入长短期记忆网络,生成文本向量;
(4)文本分类步骤:利用步骤(3)生成的文本向量,对文本进行可读性分类。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)的具体步骤包括:
初始化词语向量矩阵及词语字典;
将原文本的词语,通过词语字典映射为相应的词语编号;
通过词语编号取得对应于词语向量矩阵中的各个词语的向量表示;
将原文本词语所对应的词语向量连接,形成输入文本矩阵。
3.如权利要求1所述的方法,其特征在于,所述步骤(2)的具体步骤如下:
将文本矩阵作为输入,输入卷积神经网络的卷积层,得到卷积层输出的文本子特征;
卷积层输出的向量作为卷积神经网络子采样层的输入,将输入向量中的K个最大值作为输入向量的特征值;
将所得的多个特征值进行拼接,得到文本特征。
4.如权利要求3所述的方法,其特征在于,将文本矩阵作为输入,输入卷积神经网络的卷积层,得到卷积层输出的文本子特征的方法如下:
将文本矩阵作为输入,通过卷积核的卷积操作,得到卷积结果;
对不同窗口大小的卷积核重复所述将文本矩阵作为输入,通过卷积核的卷积操作,得到卷积结果的步骤,得到不同大小卷积核的卷积结果,即文本子特征。
5.如权利要求1所述的方法,其特征在于,所述步骤(3)的具体步骤如下:
文本特征输入一个前向长短期记忆网络,得到正向的输出矩阵;
文本特征输入一个反向长短期记忆网络,得到反向的输出矩阵;
将正向的输出矩阵与反向的输出矩阵在同一文本方向上进行拼接,生成文本向量。
6.如权利要求1所述的方法,其特征在于,所述步骤(4)的具体步骤如下:
将生成的文本向量输入softmax函数,得到每一个文本分类的概率;
取概率最高的分类,作为文本的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710941048.6A CN107679199A (zh) | 2017-10-11 | 2017-10-11 | 一种基于深度局部特征的对外汉语教材可读性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710941048.6A CN107679199A (zh) | 2017-10-11 | 2017-10-11 | 一种基于深度局部特征的对外汉语教材可读性分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107679199A true CN107679199A (zh) | 2018-02-09 |
Family
ID=61139425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710941048.6A Pending CN107679199A (zh) | 2017-10-11 | 2017-10-11 | 一种基于深度局部特征的对外汉语教材可读性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679199A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829668A (zh) * | 2018-05-30 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN109241255A (zh) * | 2018-08-20 | 2019-01-18 | 华中师范大学 | 一种基于深度学习的意图识别方法 |
CN109255025A (zh) * | 2018-08-01 | 2019-01-22 | 华中科技大学鄂州工业技术研究院 | 一种短文本分类方法 |
CN109993165A (zh) * | 2019-03-28 | 2019-07-09 | 永康市几米电子科技有限公司 | 药片板药名识别及药片板信息获取方法、装置与*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207854A (zh) * | 2012-01-11 | 2013-07-17 | 宋曜廷 | 中文文本可读性计量***及其方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
-
2017
- 2017-10-11 CN CN201710941048.6A patent/CN107679199A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207854A (zh) * | 2012-01-11 | 2013-07-17 | 宋曜廷 | 中文文本可读性计量***及其方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
Non-Patent Citations (1)
Title |
---|
谢逸 等: "基于CNN和LSTM 混合模型的中文词性标注", 《武汉大学学报(理学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829668A (zh) * | 2018-05-30 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
WO2019227629A1 (zh) * | 2018-05-30 | 2019-12-05 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108829668B (zh) * | 2018-05-30 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN109255025A (zh) * | 2018-08-01 | 2019-01-22 | 华中科技大学鄂州工业技术研究院 | 一种短文本分类方法 |
CN109241255A (zh) * | 2018-08-20 | 2019-01-18 | 华中师范大学 | 一种基于深度学习的意图识别方法 |
CN109993165A (zh) * | 2019-03-28 | 2019-07-09 | 永康市几米电子科技有限公司 | 药片板药名识别及药片板信息获取方法、装置与*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107292333B (zh) | 一种基于深度学习的快速图像分类方法 | |
CN109740148B (zh) | 一种BiLSTM结合Attention机制的文本情感分析方法 | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和*** | |
CN108108351B (zh) | 一种基于深度学习组合模型的文本情感分类方法 | |
CN106570148B (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
Bergsma et al. | Language identification for creating language-specific twitter collections | |
CN107679199A (zh) | 一种基于深度局部特征的对外汉语教材可读性分析方法 | |
Uddin et al. | Depression analysis from social media data in Bangla language using long short term memory (LSTM) recurrent neural network technique | |
CN104731768B (zh) | 一种面向中文新闻文本的事件地点抽取方法 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN110472042B (zh) | 一种细粒度情感分类方法 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN107480688B (zh) | 基于零样本学习的细粒度图像识别方法 | |
CN110008338A (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN110659367B (zh) | 文本分类号的确定方法、装置以及电子设备 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN109033402A (zh) | 安全领域专利文本的分类方法 | |
CN106778878A (zh) | 一种人物关系分类方法及装置 | |
CN108090098B (zh) | 一种文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180209 |