CN110472236A - 一种基于注意力机制的双向gru文本可读性评估方法 - Google Patents

一种基于注意力机制的双向gru文本可读性评估方法 Download PDF

Info

Publication number
CN110472236A
CN110472236A CN201910667572.8A CN201910667572A CN110472236A CN 110472236 A CN110472236 A CN 110472236A CN 201910667572 A CN201910667572 A CN 201910667572A CN 110472236 A CN110472236 A CN 110472236A
Authority
CN
China
Prior art keywords
attention mechanism
way gru
readable
network model
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910667572.8A
Other languages
English (en)
Inventor
孙霖
石利飞
孙宇轩
王驰
郑增威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN201910667572.8A priority Critical patent/CN110472236A/zh
Publication of CN110472236A publication Critical patent/CN110472236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于注意力机制的双向GRU文本可读性评估方法,包括步骤:1)基于注意力机制的双向GRU网络模型的测试数据准备与模型训练;2)建立双向GRU网络模型;3)基于注意力机制的可读性分析;4)基于注意力机制的双向GRU网络模型的训练。本发明的有益效果是:能够快速建立一种语言的文本可读性评估模型;用神经网络代替手工公式计算定量的可读性指标;在进行可读性难度粗略划分的数据集上进行了训练和测试;也将训练好的双向GRU网络模型在其他数据集上进行了测试,并将结果进行了可视化;本模型注意力机制的有效性,不需要花费大量的人力和物力来建立一个人工设计的公式,有助于在许多语言应用中突出重点、修改文章和提高文本可读性。

Description

一种基于注意力机制的双向GRU文本可读性评估方法
技术领域
本发明涉及文本可读性评估领域,尤其是涉及一种基于注意力机制的双向GRU文本可读性评估方法。
背景技术
文本可读性用于衡量一个文本的阅读难度值或判断该文本适合哪一水平的读者阅读。文本可读性评估对于许多领域的机构和个人用户都非常重要。在教育领域,可对教科书的难度进行评分,并将学生与他们能够以可接受的速度阅读的书籍或文章进行匹配。在政府文件、财务报告和技术手册中,我们需要文本的风格是清晰、简明和准确可读的。这就需要有方法能衡量文本的可读性,然后才能为我们进一步改进文本提供参考。这就需要我们知道影响文本难度的核心特征是什么,以及计算机能否对文本难度进行自动分析;对此问题学者们从不同的角度进行的分析。
早期的研究主要试图找到对文本难度影响最大的几个因素,并通过多元回归拟合来得到一个线性公式来衡量文本难度。Flesch Reading Ease公式最初是由简明英语运动的支持者 Rudolph Flesch开发的。后来,Kincaid等人修订了这个方法,并于1975年为美国海军制定了 Flesch-Kincaid Grade Level方法。在他们的实验中,569名受试者接受了18篇短文的理解测试。Senter等人曾提出了自动可读性指数(ARI)方法(Senter R J,Smith EA.AUTOMATED READABILITY INDEX[J].AMRL-TR.Aerospace Medical ResearchLaboratories,1967),该方法考虑了平均单词长度和平均句子长度的参数。刘苗苗等于2018年建立了适合汉语小学儿童的可读性公式(刘苗苗.基于小学语文教材的汉语可读性公式研究及应用[A].中国心理学会.第二十一届全国心理学学术会议摘要集[C].中国心理学会:中国心理学会,2018:2.),并对三种分级阅读推荐书单进行有效性分析。近年来,一些研究人员试图利用机器学***的支持向量机分类器 (Larsson P.Classification intoreadability levels:implementation and evaluation[J].2006.)。语料库分为三个不同的层次,即晨报文本(困难程度)、中学生文本(中等程度)、报纸文本(容易程度)。提取的特征包括句子长度、句法深度等。这些方法有许多局限性:第一,传统的可读性公式使用统计相关和回归分析来研究语言。影响可读性的因素主要有单词长度、句子长度和难词。这些公式不能测量语法难度。第二,手工制作的参数应通过多元回归拟合。它需要大量的人类阅读理解测试。第三,可读性公式总是局限于一种语言。例如,Flesch Reading Eases和ARI公式是专为英语设计的,而对其他语言不准确。
综上所述,提出一种能快速建立一种语言的文本可读性评估模型、用神经网络代替手工公式计算定量的可读性指标的基于注意力机制的双向GRU文本可读性评估方法就显得尤为重要。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于注意力机制的双向GRU文本可读性评估方法。
这种基于注意力机制的双向GRU文本可读性评估方法,包括如下步骤:
步骤1:基于注意力机制的双向GRU网络模型的测试数据准备与模型训练:
收集Lexile Book数据集,该数据集已经包含对于文本可读性难度的标注对标注进行转换,将连续的一定区间映射成一个可读性水平,在相邻两个可读性水平之间设置一定区间的间隔,减少相邻两个可读性水平的混淆,将标注好的Lexile Book数据集划分成训练集和测试集,分别训练与测试模型;
步骤2:建立双向GRU网络模型;
步骤3:基于注意力机制的可读性分析;
步骤4:基于注意力机制的双向GRU网络模型的训练:
使用GloVe方法进行词向量嵌入,并使用Adam优化算法来训练双向GRU网络模型;且用 Lexile Book数据集进行模型训练。
作为优选,步骤1中,所述的映射成一个可读性水平的连续的一定区间为连续200L的区间。
作为优选,步骤1中,所述的在相邻两个可读性水平之间设置的间隔为200L。
作为优选,所述步骤1中,所述Lexile Book数据集标注的分数从BR300到2000L。
作为优选,所述步骤1中,收集评论对话与新闻数据集、TOEFL数据集,用于测试本发明的性能。
作为优选,所述步骤2具体包括如下步骤:
步骤2.1:将一个句子表示为:X=(x1,x2,...,xT);所述T为句子的长度,X中的每个xt都是一个单词标记;xt表示为一个词嵌入向量,学习任务即为将句子X映射到其可读性等级 y∈RL;其中RL={1,2,...,l}是一个可读性等级的标签集合;
步骤2.2:使用GRU对网络进行编码,所述GRU是一种循环神经网络;一个GRU单元由状态向量重置门rt和更新门zt组成;其中仅由当前输入的单词xt和上一时刻的隐藏层状态向量ht-1决定;前向传播的GRU定义如下:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
式中,W和U是权值矩阵,b是偏差向量,σ(·)是sigmoid函数,⊙代表逐元素相乘;
步骤2.3:双向GRU计算一组从t=1到T的前向状态向量和一组从t=T到1的后向状态向量然后将连接在一起组成双向GRU能提供更多上下文信息。
作为优选,所述步骤3具体包括如下步骤:
步骤3.1:双向GRU网络模型与注意力机制层相连接,注意力机制层为每个状态向量计算一个注意力权值αt,t为注意力权值下标,1≤t≤T,其中注意力权值αt的计算公式如下:
式中,w是权值矩阵,wT是w的转置矩阵;
步骤3.2:再将每个单词状态向量与其对应的注意力权值加权累加起来得到:
步骤3.3:双向GRU网络模型将H和一个全连接层连接,并得到数据:
ft=σ(WH+b)
式中,W和b代表全连接层可训练权值;
步骤3.4:双向GRU网络模型得到的H与全连接层和softmax层连接,将ft输入到softmax 层,双向GRU网络模型能够输出可读性水平的概率分布p=(p1,p2,...,pl):
步骤3.5:将p中最大值的下标设为双向GRU网络模型预测的可读性水平然后用交叉熵作为双向GRU网络模型的损失函数,去计算其损失:
式中,y=(y1,y2,...,yt’...,yT)表示可读性标签的one-hot编码;若句子的可读性标签是c,在可读性水平向量的元素中,只有下标t的元素为c,yt才为1,其余都为0。
本发明的有益效果是:
本发明涉及一种基于注意力机制的双向GRU文本可读性评估方法,采用一种双向GRU 网络(Gated Recurrent Unit)模型来评估文本的可读性,并引入注意力机制来进一步提高其评估性能;提出的带注意力机制的双向GRU网络模型达到最好的性能,而其中带注意力机制的双向GRU相较于双向GRU又有了性能上的提升。能够快速建立一种语言的文本可读性评估模型。用神经网络代替手工公式计算定量的可读性指标。在进行可读性难度粗略划分的数据集上进行了训练和测试。
也将训练好的双向GRU网络模型在其他数据集上进行了测试,并将结果进行了可视化。这个结果说明了本模型注意力机制的有效性,不需要花费大量的人力和物力来建立一个人工设计的公式,有助于在许多语言应用中突出重点、修改文章和提高文本可读性。
附图说明
图1为基于注意力机制的双向GRU文本可读性评估方法流程图;
图2为基于注意力机制的双向GRU文本可读性评估方法神经网络结构图;
图3为GRU结构图;
图4为不同文本材料上的评估结果图;
图5为注意力权值可视化结果图;
图6为不同方法在Lexile Book开发集和测试集上的性能图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
本发明的整体思想:
先将一个句子中的每个单词转换成嵌入向量(word embedding vector)。再使用双向GRU 网络模型对这些向量逐个进行编码。这个过程能让像以往方法一样提取出单词的可读性信息。而且由于单词的嵌入向量输入双向GRU网络模型的顺序对双向GRU网络模型的输出结果是有影响的,建立双向GRU网络模型还能自动提取出语法信息。最后引入注意力机制,将双向 GRU网络模型注意力集中在对句子可读性影响比较大的部分。进一步提高了双向GRU网络模型的性能。
本发明是基于注意力机制的双向GRU网络模型进行文本可读性评估的方法,其步骤如下:
1、准备双向GRU网络模型的训练与测试数据
收集了三类数据集:Lexile Book数据集,评论对话与新闻数据集,和TOEFL数据集。其中Lexile Book数据集已经包含了对于文本可读性难度的标注。他们标注的分数从BR300 到2000L。对这个标注进行了转换:将连续200L的区间映射成一个可读性水平RL。为了减少相邻两个RL之间的混淆,将相邻两个RL之间间隔设置为200L。下表1是Lexile Scale(LS) 与可读性水平(RL)之间的映射关系。将标注好的Lexile Book数据集划分成训练集和测试集,分别用于双向GRU网络模型的训练与测试。也收集了评论对话与新闻数据集,和TOEFL 数据集,用于进一步测试双向GRU网络模型。
表1 Lexile Scale(LS)与可读性水平(RL)之间的映射关系表
RL LS 年龄
1–十分简单 150-350L 5-6岁
2–简单 550-750L 7-9岁
3–中等 950-1150L 10-14岁
4–困难 1350-1550L 15-19岁
5–十分困难 1750-1950L 20+岁
2.建立双向GRU网络模型
简称为bi-GRU。基于注意力机制的双向GRU文本可读性评估方法神经网络结构见图2,将一个句子表示为:X=(x1,x2,...,xT);所述T为句子的长度,X中的每个xt都是一个单词标记;xt表示为一个词嵌入向量,学习任务即为将句子X映射到其可读性等级y∈RL;其中RL={1,2,...,l}是一个可读性等级的标签集合;
使用GRU对网络进行编码,所述GRU是一种循环神经网络;一个GRU单元由状态向量重置门rt和更新门zt组成;其中仅由当前输入的单词xt和上一时刻的隐藏层状态向量ht-1决定;前向传播的GRU定义如下:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
式中,W和U是权值矩阵,b是偏差向量,σ(·)是sigmoid函数,⊙代表逐元素相乘;双向GRU计算一组从t=1到T的前向状态向量和一组从t=T到1的后向状态向量然后将连接在一起组成双向GRU能提供更多上下文信息。
3.注意力机制层
注意力机制的基本想法是将句子可读性水平和句子中特殊的单词或者短语对应起来。本发明将每个状态向量与其对应的注意力权值加权累加起来得到:
其中αt是通过下面公式计算得到的注意力权值:
然后将H和一个全连接层(FC)连接,并得到数据:
ft=σ(WH+b)
其中W和b代表全连接层可训练权值。将ft输入到softmax层,可以得到最终输出 p=(p1,p2,...,pl)。其中:
将p中最大值的下标认为是双向GRU网络模型预测的可读性水平然后使用交叉熵 (cross-entropy)作为双向GRU网络模型的损失函数:
其中若句子的可读性标签是c,则yt只有当t=c时才为1,其余都为0。
4、基于注意力机制的双向GRU模型的训练
使用Pennington等人2014年提出的GloVe方法进行词向量嵌入。词向量维度为300.每次训练的数据批次(batch)为64个句子。隐藏层状态向量为300维。使用PyTorch来实现的方法,并进行了60轮训练。学习率为5e-4,随机失活(dropout)率为0.75。
使用Lexile Book数据集进行双向GRU网络模型训练。这些书以PDF格式下载,并转换为纯文本文件。从纯文本文件中收集完整的句子。书中的所有句子都被标记为与书的RL匹配的标签。计算一本书中句子长度的分布,如果句子长度超出[Q1,Q3]范围,就对其进行过滤,其中Q1是下四分位数(将全部数据从小到大排列,正好排列在下1/4位置上的数就叫做下四分位数),Q3是上四分位数(将全部数据从小到大排列,正好排列在上1/4位置上的数就叫做下四分位数)。如下表2:
表2 Lexile Book数据集的统计信息表
RL 图书数量 句子数量 句子平均长度
1 150 1239 5.5
2 10 8011 9.6
3 10 5823 18.2
4 10 7262 24.2
5 10 4463 31.5
上表显示了Lexile Book数据集每个可读性级别的图书数量(#Book)、句子数量(#Sentence)和平均句子长度(L)。
实验及结果:
收集了三类数据集:Lexile Book数据集,评论对话与新闻数据集,和TOEFL数据集。其中Lexile框架是一种教育工具,可以将读者与书籍、文章和其他层次的阅读资源进行匹配。在美国,国家标准推荐Lexile框架作为学生选择书籍的量化标准。Lexile数据集本身已经有了对图书的标注。将这些标注按照图4的表格映射成5个可读性水平(RL)标注。并将数据集划分成训练集和测试集。训练集用于训练基于注意力机制的双向GRU网络模型。训练好的双向GRU网络模型在测试集上的表现见下表3:
表3不同方法在Lexile Book开发集和测试集上的性能对照表
表中的P和R分别表示精确率(Precision)与召回率(Recall)。F1代表F1分数,可由来表示。其中CNN,RNN,GRU和bi-LSTM是Graves等人于2013年提出的方法(Graves A,Mohamed A,Hinton G.Speech recognition with deep recurrent neuralnetworks[C]2013IEEE international conference on acoustics,speech and signalprocessing.IEEE,2013:6645-6649.)。从结果可以看出,提出的带注意力机制的双向GRU模型达到最好的性能。而其中带注意力机制的双向GRU相较于双向GRU又有了性能上的提升。这个结果说明了双向GRU网络模型注意力机制的有效性。
在评论对话和新闻数据集上对双向GRU网络模型进行了验证。图4展示了不同类型文本的测试结果。对话通常都是简单和易于理解的,所以对话结果中大多数的RL为2.电影评论通常比对话更加困难,所以电影评论中RL为3的比例比对话的更高。新闻内容比前两个更加困难,所以RL为4和5的比例几乎达到98%。
也在TOEFL数据集上进行了测试。并和其他基于公式的可读性评估方法进行比较。这些方法包括:Flesch-Kincaid Grade Level,Flesch Reading Ease formula,AutomatedReadability Index(ARI)and Gunning Fog Index。表4展示了各种方法的结果。其中“score”列的格式的“平均值±方差”,CV代表变异系数(coefficient of variation),这个参数通过方差除以平均值来得到。由于TOEFL作为全球性的十分流行的标准英语能力测试,它每次的考试难度应该是几乎一样的。下表的结果中的方法的CV能达到最小,这说明的方法也认为 TOEFL数据集中试卷的难度也几乎一样。
表4基于注意力机制的双向GRU文本可读性评估方法在TOEFL数据集的测试结果表
对双向GRU网络模型的注意力权值进行可视化。结果见图5,图中颜色越深,代表注意力权值越大。可以发现,双向GRU网络模型中的注意机制倾向于给字母长的单词更大的权重。这种现象与可读性公式是一致的。例如,在AG news的第三句话中,注意机制对“dramatic”,“deplete”,“California”给予较大的权值。
随机从Lexile Book数据集,评论对话数据集与新闻数据集中选取500个句子。将每个句子中的单词随机打乱。则基于公式的可读性评估方法评估的可读性分数是不会变化的。但是使用的方法结果会发生改变。结果见下表5:
表5句子打乱和不打乱的结果对比表
表中第一行的RL代表真实的可读性水平。代表平均预测的RL。的下标有ordered 和disordered,分别代表有序和打乱后的情况。表示打乱句子后,无序句子的相对于有序句子的增大的程度。图6展示了有序句子和打乱后的句子的可视化结果。可以发现,无序句中的语法错误可以通过注意权重来表现。错误的短语,例如“nervousme”,“teeth Corrective”的注意力权值会偏大。这表明双向GRU网络模型可以关注到句子的语法成分。在语法有问题的地方,双向GRU网络模型会着重关注。而对有语法错误的句子,双向GRU网络模型也会认为其可读性更差。
实验结论:
本文提出了一种基于注意力机制的双向GRU可读性评价方法。该方法不需要花费大量的人力和物力来建立一个人工设计的公式,可以快速地从粗糙的阅读材料中建立一个文本可读性度量模型。注意力权重的可视化可以用来定位句子中难点的位置。它有助于在许多语言应用中突出重点、修改文章和提高文本可读性。

Claims (7)

1.一种基于注意力机制的双向GRU文本可读性评估方法,其特征在于:包括以下步骤:
步骤1:基于注意力机制的双向GRU网络模型的测试数据准备与模型训练:
收集Lexile Book数据集,该数据集已经包含对于文本可读性难度的标注对标注进行转换,将连续的一定区间映射成一个可读性水平,在相邻两个可读性水平之间设置一定区间的间隔,减少相邻两个可读性水平的混淆,将标注好的Lexile Book数据集划分成训练集和测试集,分别训练与测试模型;
步骤2:建立双向GRU网络模型;
步骤3:基于注意力机制的可读性分析;
步骤4:基于注意力机制的双向GRU网络模型的训练:
使用GloVe方法进行词向量嵌入,并使用Adam优化算法来训练双向GRU网络模型;且用Lexile Book数据集进行模型训练。
2.根据权利要求1所述的基于注意力机制的双向GRU文本可读性评估方法,步骤1中,所述的映射成一个可读性水平的连续的一定区间为连续200L的区间。
3.根据权利要求1所述的基于注意力机制的双向GRU文本可读性评估方法,步骤1中,所述的在相邻两个可读性水平之间设置的间隔为200L。
4.根据权利要求1所述的基于注意力机制的双向GRU文本可读性评估方法,步骤1中,所述Lexile Book数据集标注的分数从BR300到2000L。
5.根据权利要求1所述的基于注意力机制的双向GRU文本可读性评估方法,所述步骤1中,收集评论对话与新闻数据集、TOEFL数据集,用于测试本发明的性能。
6.根据权利要求1所述的基于注意力机制的双向GRU文本可读性评估方法,所述步骤2具体包括如下步骤:
步骤2.1:将一个句子表示为:X=(x1,x2,...,xT);所述T为句子的长度,X中的每个xt都是一个单词标记;xt表示为一个词嵌入向量,学习任务即为将句子X映射到其可读性等级y∈RL;其中RL={1,2,...,l}是一个可读性等级的标签集合;
步骤2.2:使用GRU对网络进行编码,所述GRU是一种循环神经网络;一个GRU单元由状态向量重置门rt和更新门zt组成;其中仅由当前输入的单词xt和上一时刻的隐藏层状态向量ht-1决定;前向传播的GRU定义如下:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
式中,W和U是权值矩阵,b是偏差向量,σ(·)是sigmoid函数,⊙代表逐元素相乘;
步骤2.3:双向GRU计算一组从t=1到T的前向状态向量和一组从t=T到1的后向状态向量然后将连接在一起组成双向GRU能提供更多上下文信息。
7.根据权利要求1所述的基于注意力机制的双向GRU文本可读性评估方法,所述步骤3具体包括如下步骤:
步骤3.1:双向GRU网络模型与注意力机制层相连接,注意力机制层为每个状态向量计算一个注意力权值at,t为注意力权值下标,1≤t≤T,其中注意力权值αt的计算公式如下:
式中,w是权值矩阵,wT是w的转置矩阵;
步骤3.2:再将每个单词状态向量与其对应的注意力权值加权累加起来得到:
步骤3.3:双向GRU网络模型将H和一个全连接层连接,并得到数据:
ft=σ(WH+b)
式中,W和b代表全连接层可训练权值;
步骤3.4:双向GRU网络模型得到的H与全连接层和softmax层连接,将ft输入到softmax层,双向GRU网络模型能够输出可读性水平的概率分布p=(p1,p2,...,pl):
步骤3.5:将p中最大值的下标设为模型预测的可读性水平然后用交叉熵作为双向GRU网络模型的损失函数,去计算其损失:
式中,y=(y1,y2,...,yt,...,yT)表示可读性标签的one-hot编码;若句子的可读性标签是c,在可读性水平向量的元素中,只有下标t的元素为c,yt才为1,其余都为0。
CN201910667572.8A 2019-07-23 2019-07-23 一种基于注意力机制的双向gru文本可读性评估方法 Pending CN110472236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910667572.8A CN110472236A (zh) 2019-07-23 2019-07-23 一种基于注意力机制的双向gru文本可读性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910667572.8A CN110472236A (zh) 2019-07-23 2019-07-23 一种基于注意力机制的双向gru文本可读性评估方法

Publications (1)

Publication Number Publication Date
CN110472236A true CN110472236A (zh) 2019-11-19

Family

ID=68509753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910667572.8A Pending CN110472236A (zh) 2019-07-23 2019-07-23 一种基于注意力机制的双向gru文本可读性评估方法

Country Status (1)

Country Link
CN (1) CN110472236A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814454A (zh) * 2020-07-10 2020-10-23 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN112215426A (zh) * 2020-10-16 2021-01-12 国网山东省电力公司信息通信公司 一种短期用电负荷预测方法
CN112633012A (zh) * 2020-12-31 2021-04-09 浙大城市学院 一种基于实体类型匹配的未登录词替换方法
CN113408295A (zh) * 2021-06-22 2021-09-17 深圳证券信息有限公司 文本可读性评价方法、计算机设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977362A (zh) * 2017-12-11 2018-05-01 中山大学 一种用于中文文本定级以及计算中文文本难度评分的方法
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及***
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类***
CN109933668A (zh) * 2019-03-19 2019-06-25 北京师范大学 简体汉语文本可读性的分级评估建模方法
CN109977408A (zh) * 2019-03-27 2019-07-05 西安电子科技大学 基于深度学习的英语阅读分级和读物推荐***的实现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977362A (zh) * 2017-12-11 2018-05-01 中山大学 一种用于中文文本定级以及计算中文文本难度评分的方法
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及***
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类***
CN109933668A (zh) * 2019-03-19 2019-06-25 北京师范大学 简体汉语文本可读性的分级评估建模方法
CN109977408A (zh) * 2019-03-27 2019-07-05 西安电子科技大学 基于深度学习的英语阅读分级和读物推荐***的实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张兰霞等: "基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究", 《计算机应用与软件》 *
王进等: "基于自然语言处理的图书阅读难度自动分级研究", 《计算机时代》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814454A (zh) * 2020-07-10 2020-10-23 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN111814454B (zh) * 2020-07-10 2023-08-11 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN112215426A (zh) * 2020-10-16 2021-01-12 国网山东省电力公司信息通信公司 一种短期用电负荷预测方法
CN112633012A (zh) * 2020-12-31 2021-04-09 浙大城市学院 一种基于实体类型匹配的未登录词替换方法
CN112633012B (zh) * 2020-12-31 2024-02-02 浙大城市学院 一种基于实体类型匹配的未登录词替换方法
CN113408295A (zh) * 2021-06-22 2021-09-17 深圳证券信息有限公司 文本可读性评价方法、计算机设备及计算机存储介质
CN113408295B (zh) * 2021-06-22 2023-02-28 深圳证券信息有限公司 文本可读性评价方法、计算机设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110472236A (zh) 一种基于注意力机制的双向gru文本可读性评估方法
TWI608367B (zh) 中文文本可讀性計量系統及其方法
CN110019839A (zh) 基于神经网络和远程监督的医学知识图谱构建方法和***
CN101539907B (zh) 词性标注模型训练装置、词性标注***及其方法
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和***
EP3279804A1 (en) Data analysis system, data analysis method, data analysis program, and recording medium
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110377696A (zh) 一种商品期货新闻舆情分析方法及***
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN105138577B (zh) 一种基于大数据的事件演化分析方法
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答***模型
KR102484007B1 (ko) 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
CN109933668A (zh) 简体汉语文本可读性的分级评估建模方法
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
Ren et al. Automatic scoring of student feedback for teaching evaluation based on aspect-level sentiment analysis
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
Han The utility of receiver operating characteristic curve in educational assessment: Performance prediction
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及***
Pospíšil et al. Value-based financial risk prediction model
Yadav et al. Educational Infrastructural Disparities: An Analysis of Hadauti Region
CN112686020B (zh) 作文评分方法、装置、电子设备及存储介质
Prasain et al. Analysis of algorithms in automated marking in education: a proposed hybrid algorithm
Doz et al. Random forest regression in predicting students’ achievements and fuzzy grades
CN113468331A (zh) 一种舆情信息情绪分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191119

WD01 Invention patent application deemed withdrawn after publication