CN111898374B - 文本识别方法、装置、存储介质和电子设备 - Google Patents
文本识别方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN111898374B CN111898374B CN202010752677.6A CN202010752677A CN111898374B CN 111898374 B CN111898374 B CN 111898374B CN 202010752677 A CN202010752677 A CN 202010752677A CN 111898374 B CN111898374 B CN 111898374B
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentence pair
- pair
- sentences
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 332
- 230000011218 segmentation Effects 0.000 claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims description 63
- 230000015654 memory Effects 0.000 claims description 55
- 230000007246 mechanism Effects 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000003058 natural language processing Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本识别方法、装置、存储介质和电子设备,属于计算机技术领域,涉及人工智能和自然语言处理技术。本申请获取由两个语句组成的句对对应的词向量特征后,根据词向量特征得到句对对应的文本特征序列,然后根据各个分词对应的词向量特征元素的权重,将文本特征序列转换为所述句对对应的文本特征向量。由于分词对应的词向量特征元素的权重可以表征该分词对判定句对是否为排比句对的重要度,因此基于考虑各个分词对应的词向量特征元素的权重得到的句对对应的文本特征向量,确定该句对是否为排比句,可以提高识别结果的准确率,有利于准确识别文本中的排比句。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种文本识别方法、装置、存储介质和电子设备。
背景技术
近年来,随着在线教育和网络课堂的普及,利用自然语言处理技术自动进行作文批改成为一项急需的技术。
排比是一种非常常用的修辞手法,是作文批改的修辞维度评价指标的重要组成部分。排比句一般是由结构上相似、位置上临近、语气上一致的三个或三个以上的语句构成的一个长句。在写作中使用排比句,可使句子更加整齐和谐、更加朗朗上口,也能为整篇作文增辉。如果可以识别出作文中的排比句,有利于在文采维度对作文做出更准确的评价。
因此,在利用自然语言处理技术自动进行作文批改的过程中,如何准确识别排比句是一个亟待解决的问题。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种文本识别方法、装置、存储介质和电子设备,可以准确地识别出文本中的排比对,从而有利于准确识别文本中的排比句。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种文本识别方法,包括:
获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征;
根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;
根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;
基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。
第二方面,本申请实施例提供一种文本识别装置,包括:
特征提取单元,用于获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征;
特征处理单元,用于根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;
特征识别单元,用于基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对。
在一种可选的实施例中,所述特征提取单元,具体用于:
根据所述句对中每个语句包含的分词的词向量,生成所述句对对应的词向量序列;
根据所述句对中每个语句包含的分词的词性向量,生成所述句对对应的词性向量序列;
将所述句对对应的词向量序列和词性向量序列进行拼接,得到所述句对对应的词向量矩阵;
将所述词向量矩阵输入特征提取网络模型,得到所述词向量矩阵的词向量特征。
在一种可选的实施例中,特征处理单元,具体用于:将所述词向量特征输入双向长短期记忆网络模型,得到所述双向长短期记忆网络模型输出的所述句对对应的文本特征序列;将所述文本特征序列输入多头注意力机制模型,得到所述多头注意力机制模型输出的所述句对对应的文本特征向量;所述多头注意力机制模型用于根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为文本特征向量;
所述双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的;其中,类别标签用于指明对应的训练样本为正样本或负样本,所述正样本为从排比句中抽取的两个语句组成的句对样本,所述负样本为随机获取的两个语句组成的句对样本。
在一种可选的实施例中,所述特征提取网络模型包括多个卷积核宽度不同的卷积层;所述特征提取单元,具体用于:
将所述词向量矩阵分别输入每个卷积层,得到每个卷积层输出的特征向量;
将得到的所有特征向量进行拼接,获得所述词向量矩阵的词向量特征。
在一种可选的实施例中,所述多头注意力机制模型包括多个具有不同网络参数的注意力子网络;所述特征处理单元,具体用于:
将所述文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,获得所述句对对应的文本特征向量。
在一种可选的实施例中,所述特征识别单元,具体用于:
基于所述句对对应的文本特征向量,确定所述句对为排比句对的概率;若所述句对为排比句对的概率大于或等于设定第一阈值,则确定所述句对为排比句对;或者,
基于所述句对对应的文本特征向量,确定所述句对为非排比句对的概率;若所述句对为非排比句对的概率小于或等于设定第二阈值,且所述句对包含的语句满足预设排比条件,则确定所述句对为排比句对。
在一种可选的实施例中,所述特征识别单元,具体用于:
将所述句对对应的文本特征向量输入全连接层,并通过分类器对所述全连接层的输出进行分类,得到所述句对为排比句对的概率。
在一种可选的实施例中,所述句对包含的语句满足的预设排比条件,包括如下条件中的部分或全部:
所述句对中的每个语句包含的字符或分词的数量大于或等于设定数量;
所述句对中的两个语句包含的字符的数量的差值小于或等于第一设定差值;
所述句对中的两个语句包含的分词的数量的差值小于或等于第二设定差值;
所述句对中的两个语句包含的标点符号的匹配率大于或等于设定匹配阈值;
所述句对中的两个语句包含的分词的词性相似度大于或等于设定相似度值;
对于两个语句中的共现词,各个共现词在两个语句中的位置之间的距离小于或等于设定距离值。
在一种可选的实施例中,所述装置还包括数据获取单元,用于:
根据指定的分隔符,将待识别文本分割为多个语句;
依次将相邻的至少两个语句组成一个句对;
所述特征识别单元,还用于:
根据每个句对对应的句对识别结果,从所述待识别文本中抽取排比句。
在一种可选的实施例中,所述装置还包括模型训练单元,用于:
获取训练样本集,所述训练样本集中包括具有类别标签的句对样本;
从所述训练样本集中抽取句对样本,并获取抽取的句对样本的词向量特征;
将句对样本的词向量特征输入待训练的双向长短期记忆网络模型,得到句对样本对应的文本特征序列;
将句对样本对应的文本特征序列输入多头注意力机制模型,得到句对样本对应的文本特征向量;
通过分类器对句对样本对应的文本特征向量进行分类,得到句对样本的分类结果;
根据句对样本的分类结果与句对样本的类别标签,确定损失值;
根据损失值对双向长短期记忆网络模型和多头注意力机制模型的网络参数进行调整,直至所述损失值收敛至预设的期望值为止,得到已训练的双向长短期记忆网络模型和多头注意力机制模型。
在一种可选的实施例中,所述模型训练单元,还可以用于:
若所述句对样本包含的语句满足预设排比条件,将所述句对样本的类别标签设置为正样本;
若所述句对样本包含的语句未满足预设排比条件,将所述句对样本的类别标签设置为负样本。
第三方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的文本识别方法。
第四方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现第一方面的文本识别方法。
本申请实施例的文本识别方法、装置、存储介质和电子设备,获取由两个语句组成的句对对应的词向量特征后,根据词向量特征得到句对对应的文本特征序列,然后根据各个分词对应的词向量特征元素的权重,将文本特征序列转换为所述句对对应的文本特征向量。由于分词对应的词向量特征元素的权重可以表征该分词对判定句对是否为排比句对的重要度,因此基于考虑各个分词对应的词向量特征元素的权重得到的句对对应的文本特征向量,确定该句对是否为排比句,可以提高识别结果的准确率,有利于准确识别文本中的排比句。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本识别方法的应用场景示意图;
图2为本申请实施例提供的一种文本识别方法的流程示意图;
图3为本申请实施例提供的另一种文本识别方法的流程示意图;
图4为本申请实施例提供的一种文本识别方法使用的模型的结构示意图;
图5为本申请实施例提供的一种文本识别方法的界面示意图;
图6为本申请实施例提供的另一种文本识别方法的界面示意图;
图7为本申请实施例提供的一种网络模型训练过程的流程示意图;
图8为本申请实施例提供的一种文本识别装置的结构框图;
图9为本申请实施例提供的另一种文本识别装置的结构框图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)词向量:也可以称为词向量特征,用于描述自然语言文本所包括的词语的语义特征,通常是指对自然语言表示的词语进行向量转换得到的机器能够理解的稠密向量(Dense Vector)或矩阵形式,词向量是自然语言文本中的词语在机器中数值化的体现。
(2)Word2Vec模型:Google的开源词向量工具,其可以利用文本数据中各个词语间的语义关系将词语转化为词向量,还可以利用词向量之间的语义距离关系识别出词语。
(3)LSTM(Long Short-Term Memory,长短期记忆网络)模型:是一种时间循环神经网络,常用于处理长序列的数据,如词向量序列。Bi-LSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)模型采用两个方向不同的LSTM分别从前后两个不同的方向对长序列的数据进行处理,在处理自然语言文本时,可以充分考虑文本的上下文环境对当前词语的影响。
(4)多头(Multi-head)注意力机制模型:包括多个具有不同网络参数的注意力子网络。每个注意力子网络可以理解为一个单注意力机制模型,用于对多个输入进行合成进行权重分配,不同的权重代表不同词语在判断排比对时的重要程度不同。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的自然语言处理(natural language processing,NLP)技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
文本处理是自然语言处理技术中的主要过程,可以广泛应用于多种应用场景。识别文本中的排比句是文本处理的一个重要部分。例如,在作文批改过程中,如果可以识别出作文中的排比句,有利于在文采维度对作文做出更准确的评价。
基于此,本申请实施例提出了一种文本识别方法、装置、存储介质和电子设备,有助于准确地识别出文本中的排比句。其中,文本识别方法包括:在获取由两个语句组成的句对对应的词向量特征后,利用双向长短期记忆网络模型对词向量特征进行处理,刻画前后词语之间的关系,得到句对对应的文本特征序列,利用多头注意力机制模型确定各个词语对判断是否为排比对的重要程度,得到句对对应的文本特征向量,基于句对对应的文本特征向量,确定该句对是否为排比句,可以提高识别结果的准确率。
为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
图1示出了本申请实施例提供的文本识别方法的一种应用场景,参见图1所示,该应用场景中包括多个终端设备11和业务服务器12。终端设备11与业务服务器12之间可以通过有线连接方式或无线连接方式进行连接并传输数据。例如,终端设备11与业务服务器12可以通过数据线连接或者通过有线网络连接;终端设备11与业务服务器12也可以通过射频模块、蓝牙模块或者无线网络连接。
其中,终端设备11可以是手机、掌上电脑(Personal DigitalAssistant,PDA)、计算机、笔记本、平板电脑等。例如,终端设备11上可以安装线上教学课堂应用,用户除了可以通过该应用学***台,也可以是个人计算机、大中型计算机或计算机集群等。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
图2示出了本申请实施例提供的一种文本识别方法,用于确定由两个语句组成的句对是否为排比句对,排比句对指由排比句中的两个语句组成的句对。该方法可以由图1中的业务服务器12执行,也可以由终端设备或其它电子设备执行。示例性地,下文以业务服务器12作为执行主体,说明文本识别方法的具体实现过程。如图2所示,该文本识别方法包括如下步骤:
步骤S201,获取由两个语句组成的句对对应的词向量矩阵,并提取词向量矩阵的词向量特征。
在一种实施例中,对于任意的由两个语句组成的句对,可以对句对中的每个语句进行分词处理,确定得到的每个分词的词向量,根据句对中每个语句包含的分词的词向量,生成每个语句对应的词向量序列,根据词向量序列确定词向量矩阵,具体地,可以将两个语句对应的词向量序列进行笛卡尔积(Cartesian product)计算,得到句对对应的词向量矩阵。将词向量矩阵输入特征提取网络模型,得到词向量矩阵的词向量特征。其中,笛卡尔积计算用于确定两个序列X和Y的笛卡尔积,又称直积,可以表示为X×Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。例如,假设序列X={a,b},序列Y={0,1,2},则两个序列的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1),(b,2)}。
在一种实施例中,对于任意的由两个语句组成的句对,可以对句对中的每个语句进行分词处理并标注词性,确定得到的每个分词的词向量和词性向量。根据句对中每个语句包含的分词的词向量,生成句对对应的词向量序列,根据句对中每个语句包含的分词的词性向量,生成句对对应的词性向量序列,将句对对应的词向量序列和词性向量序列进行拼接,得到句对对应的词向量矩阵,将词向量矩阵输入特征提取网络模型,得到词向量矩阵的词向量特征。
步骤S202,根据词向量特征,得到句对对应的文本特征序列。
可选地,可以将词向量特征输入双向长短期记忆网络模型,得到句对对应的文本特征序列。
双向长短期记忆网络模型包括多个隐藏层,以及一个前向的LSTM单元和一个后向的LSTM单元,分别在多个隐藏层之间进行前向和后向状态传输,最后将每个隐藏层的输出组成文本特征序列。
步骤S203,根据各个分词对应的词向量特征元素的权重,将文本特征序列转换为句对对应的文本特征向量。
其中,某个分词对应的词向量特征元素的权重用于表征该分词对判定句对是否为排比句对的重要度。
在一些实施例中,可以将文本特征序列输入多头注意力机制模型,得到句对对应的文本特征向量。多头注意力机制模型用于根据各个分词对应的词向量特征元素的权重,将文本特征序列转换为文本特征向量。
多头注意力机制模型可以包括多个具有不同网络参数的注意力子网络,每个注意力子网络中的网络参数用于从不同角度表征各个分词的词向量特征元素对判定句对是否为排比句对的重要度。将文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,可以获得句对对应的文本特征向量。
其中,双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的。类别标签用于指明对应的训练样本为正样本或负样本,正样本为从排比句中抽取的两个语句组成的句对样本,负样本为随机获取的两个语句组成的句对样本。
步骤S204,基于句对对应的文本特征向量,确定句对对应的句对识别结果。
其中,句对识别结果包括句对为排比句对或句对为非排比句对。
在一种实施例中,可以基于句对对应的文本特征向量,确定句对为排比句对的概率,如果句对为排比句对的概率大于或等于设定第一阈值,则确定该句对为排比句对。如果句对为排比句对的概率小于设定第一阈值,则确定该句对为非排比句对。
在另一种实施例中,可以基于句对对应的文本特征向量,确定句对为非排比句对的概率,如果句对为非排比句对的概率小于或等于设定第二阈值,且句对包含的语句满足预设排比条件,则确定该句对为排比句对。
句对中包含的语句满足的预设排比条件,可以包括如下条件中的部分或全部:句对中的每个语句包含的字符或分词的数量大于或等于设定数量;句对中的两个语句包含的字符的数量的差值小于或等于第一设定差值;句对中的两个语句包含的分词的数量的差值小于或等于第二设定差值;句对中的两个语句包含的标点符号的匹配率大于或等于设定匹配阈值;句对中的两个语句包含的分词的词性相似度大于或等于设定相似度值;对于每个语句中的共现词,各个共现词在两个语句中的位置之间的距离小于或等于设定距离值。例如,预设排比条件可以仅包含上述条件中的任意一个条件,也可以包含多个条件。
在一些实施例中,上述由两个语句组成的句对可以是待识别文本中的语句组成的句对。例如,待识别文本可以是终端设备上传的作文。业务服务器接收到待识别文本,根据指定的分隔符,将待识别文本分割为多个语句,依次将相邻的至少两个语句组成一个句对。对于得到的每个句对,通过图2所示的方法确定句对对应的句对识别结果,根据每个句对对应的句对识别结果,从待识别文本中抽取排比句,将得到的排比句突出显示。
为了更便于理解,图3示出了本申请实施例提供的文本识别方法在一具体应用实例中的执行过程示意图,如图3所示,该过程包括如下步骤:
步骤S301,获取待识别文本。
在一种可选的实施例中,例如在作文批改场景中,业务服务器接收用户通过终端设备发送的作文文稿,将该作文文稿作为待识别文本,对其进行处理。
步骤S302,根据指定的分隔符,将待识别文本分割为多个语句。
其中,指定的分隔符可以是分号“;”、逗号“,”或其他标点符号。例如,在一种实施例中,可以以分号作为分隔符,将分号之前、分号之后以及两个分号之间的文字作为一个语句,将待识别文本分割为多个语句。在另一种实施例中,可以以逗号作为分隔符,将逗号之前、逗号之后以及两个逗号之间的文字作为一个语句,将待识别文本分割为多个语句。在另一种实施例中,可以先判断待识别文本中是否包含分号;若包含,则以分号作为分隔符将待识别文本分割为多个语句,若不包含,则以逗号作为分隔符将待识别文本分割为多个语句。
示例性地,可以采用Python语言的re模块中的re.split()函数将句子以指定的分隔符分割为多个语句,当以分号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为分号;当以逗号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为逗号。
步骤S303,依次将相邻的两个语句组成一个句对。
在一种实施例中,可以将每个语句与紧邻其后的一个语句组成一个句对,假设待识别文本共包含L个语句,则共可以得到L-1个句对。在另一种实施例中,可以将每个编号为奇数的语句与相邻的编号为偶数的语句组成一个句对,假设待识别文本共包含L个语句,则共可以得到L/2个句对。
步骤S304,确定得到的每个句对对应的句对识别结果。
对于每个句对,可以采用图4所示的流程对该句对进行识别,确定该句对对应的句对识别结果,具体包括如下步骤:
步骤一,根据句对中每个语句包含的分词的词向量,生成句对对应的词向量序列。
可以对句对中的每个语句进行分词处理,得到多个词语,每个词语作为一个分词。示例性地,可以采用Jieba分词方法或其它通用分词方法对每个语句进行分词处理,得到每个语句所包含的多个分词,其中一些分词可以由单个字组成,另一些词语可以由多个字组成。例如,以第一语句“朋友是灯”和第二语句“朋友是火”组成的句对为例,对于第一语句“朋友是灯”,经分词处理后得到“朋友”、“是”、“灯”3个分词,对于第二语句“朋友是火”,经分词处理后得到“朋友”、“是”、“火”3个分词。
需要说明的是,在一些实施例中,对语句进行分词处理后得到的词语中可能既包括具有实际意义的实词,如名词、动词、形容词等,也包括没有实际意义的虚词,如介词、连词、语气词、助词、叹词等。例如,“美丽的花朵”中的词语“的”并没有实际意义,为虚词,在计算机领域,这些虚词被称为停用词,忽略这些停用词后,整个文本的语义并不会受到影响。因此,可以去除经分词得到的多个词语中的停用词,将剩余的具有实际意义的词语作为语句中包含的分词。
在得到每个语句包含的分词之后,获取各个分词的词向量。在一种实施例中,可以通过词向量识别模型,如Word2Vec模型,确定每个语句中各个分词的词向量。Word2Vec模型可以根据某个分词所处的上下文语境(即语句中与该分词相邻的其他分词)确定该分词的词向量。例如,可以将第一语句包含的分词“朋友是灯”和第二语句包含的分词“朋友是火”组成的词序列“朋友是灯SEP朋友是火”输入Word2Vec模型,得到各个分词的词向量,其中,“SEP”为分割符,用于将第一语句的分词与第二语句的分词隔开。在另一种实施例中,可以在预存的词向量库中找到语句中各个分词的词向量。
得到句对中每个语句包含的分词的词向量之后,将每个分词的词向量按顺序排列组成句对对应的词向量序列。其中,词向量的维度可以是100,最大的序列长度也可以是100。
步骤二,根据句对中每个语句包含的分词的词性向量,生成句对对应的词性向量序列。
对句对中的每个语句进行分词处理后,可以确定每个分词的词性。例如,仍以第一语句“朋友是灯”和第二语句“朋友是火”组成的句对为例,对于第一语句包含的3个分词“朋友”、“是”、“灯”,其词性分别为“n”、“v”、“n”,其中,“n”表示名词,“v”表示动词。同理,第二语句“朋友是火”中的3个分词对应的词性也是“n”、“v”、“n”。在一种实施例中,将第一语句和第二语句包含的分词的词性组成的词性序列“n v n SEP n v n”输入Word2Vec模型,可以得到各个分词的词性向量。在另一种实施例中,可以在预存的词性向量库中找到语句中各个分词的词性对应的词性向量。
得到句对中每个语句包含的分词的词性向量之后,将每个分词的词性向量按顺序排列组成句对对应的词性向量序列。
步骤三,将句对对应的词向量序列和词性向量序列进行拼接,得到句对对应的词向量矩阵。
假设句对中的两个语句均包含m个分词,每个分词对应的词向量和词性向量均为n维的向量,将每个分词对应的词向量作为词向量矩阵中的一行,将每个分词对应的词性向量也作为词向量矩阵中的一行,则得到的该句对对应的词向量矩阵为4m*n的矩阵。
在该实施例中,句对对应的词向量矩阵是将句对对应的词向量序列和词性向量序列进行拼接得到的,即在判断两个语句是否构成排比对时,不仅考虑两个语句中包含的词语,还考虑到两个语句中包含的词语的词性。由于排比句的每个语句中相同位置的词语的词性基本相同,因此,在判断两个语句是否组成排比对时,考虑两个语句中包含的词语的词性因素,可以提高判断结果的准确性。
在一种实施例中,将句对对应的词序列和句对对应的词性序列输入词向量识别模型中,可以得到句对对应的词向量矩阵。
步骤四,将词向量矩阵输入特征提取网络模型,得到词向量矩阵的词向量特征。
在一种实施例中,特征提取网络模型可以采用全卷积神经网络(FullyConvolutional Neuron Networks,FCN)实现。全卷积神经网络可以包括至少一个卷积层和至少一个池化层。卷积层和池化层可以间隔设置,即相邻的池化层之间可以设置一个或多个卷积层。每个卷积层包括一个或多个用于从输入的词向量矩阵中提取特征信息的卷积核,用卷积核按照一定的步长遍历输入的词向量矩阵,得到至少一个特征值,由至少一个特征值组成卷积特征向量。池化层用于将卷积层输出的卷积特征向量进行降维处理,最后一个池化层输出词向量矩阵对应的词向量特征。
在另一种实施例中,特征提取网络模型可以采用卷积神经网络(ConvolutionalNeuron Networks,CNN)实现。特征提取网络模型包括多个卷积核宽度不同的卷积层;将词向量矩阵分别输入特征提取网络模型的每个卷积层,得到每个卷积层输出的特征向量,将得到的所有特征向量进行拼接,获得词向量矩阵的词向量特征。例如,如图4所示,特征提取网络模型包括3个卷积层,卷积核宽度分别为2、3、4,卷积核的滤波器数可以是256。采用不同宽度的卷积核按照设定的步长分别对输入的词向量矩阵进行一维卷积操作,得到3个特征向量,其中,设定的步长可以为1。假设一个语句中包含n个分词,卷积核宽度为2的卷积层用于对连续的2个分词的词向量进行卷积融合,确定对应的特征向量,卷积核宽度为3的卷积层用于对连续的3个分词的词向量进行卷积融合,确定对应的特征向量,卷积核宽度为3的卷积层用于对连续的3个分词的词向量进行卷积融合,确定对应的特征向量。采用网络中的拼接层将得到的3个特征向量进行拼接,获得输入的词向量矩阵的词向量特征,即句对对应的词向量特征。该词向量特征也可以看作是由句对中的分词对应的词向量的特征组成的特征序列。
在另一种实施例中,特征提取网络也可以包括残差网络和FPN(Feature PyramidNetworks,特征金字塔网络)。残差网络包括多个特征提取层,特征金字塔网络包括对应的多个网络层。将词向量矩阵输入残差网络,通过残差网络的多个特征提取层,输出多个尺寸的特征响应图,将多个尺寸的特征响应图对应输入特征金字塔网络的多个网络层,通过自下而上的特征融合,可以得到词向量矩阵对应的词向量特征。
步骤五,将词向量特征输入双向长短期记忆网络模型,得到双向长短期记忆网络模型的隐藏层输出的文本特征序列。
考虑到文章所使用的语句中的词语往往都存在前后关联,因此使用Bi-LSTM模型对自然语言语句组成的句对进行处理。Bi-LSTM模型在处理语句时有两个方向不同的LSTM对数据进行处理,分别从前后两个不同的方向进行传播,可以充分考虑上下文环境对当前词语的影响。
具体地说,步骤四中得到的句对对应的词向量特征为特征序列,将特征序列输入Bi-LSTM模型。如图4所示,Bi-LSTM模型包括多个隐藏层,以及一个前向的LSTM_CELL和一个后向的LSTM_CELL,分别在多个隐藏层之间进行前向和后向状态传输,最后将每个隐藏层的输出组成文本特征序列。示例性地,Bi-LSTM模型的隐藏层的维度可以是256。本申请实施例提供的Bi-LSTM模型在处理当前的输入数据时,不仅参考当前的输入数据,而且还会参考当前输入数据之前和当前输入数据之后的输入数据,避免了在处理序列数据时只考虑之前的输入数据的影响的问题。
步骤六,将文本特征序列输入多头注意力机制模型,得到句对对应的文本特征向量。
注意力机制的本质是从大量信息中筛选出高价值信息的手段,在大量信息中,不同信息对于结果的重要性是不同的,这种重要性可以通过赋予不同大小的注意力权重来体现,换言之,注意力机制可以理解成对多个输入进行合成时分配权重的一种机制。
本申请实施例中的多头注意力机制模型包括多个具有不同网络参数的注意力子网络。每个注意力子网络中的网络参数用于从不同角度表征各个分词的词向量特征元素在句对中的重要程度。对于重要程度较高的词向量特征元素,提高其权重,对于重要程度低的词向量特征元素,降低其权重,从而对句对中的关键词语进行重点关注,有利于提高句对识别结果的准确性。
将文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,获得句对对应的文本特征向量。其中,第i个注意力子网络的输出ai可以表示为:
ai=softmax(Vitanh(WiHT))
式中,H为Bi-LSTM模型的隐藏层输出的文本特征序列,也可以理解为特征矩阵,包括向量[h1,…,hn]。其中,hn为第n个隐藏层输出的向量。HT为H的转置。Wi和Vi均为第i个注意力子网络的网络参数,也可以理解为参数矩阵。例如,图4所示的多头注意力机制模型包括3个注意力子网络,即i的取值可以为1,2或3。将3个注意力子网络的输出进行拼接,获得句对对应的文本特征向量。
本申请实施例采用多头注意力机制模型,可以从多个不同角度分别为分词的词向量特征元素设置权重,例如,可以从分词在语句中的位置出发设置权重,或者从分词的词性出发设置权重,或者考虑分词与上下文其它分词之间的关系设置权重。从不同角度,综合考虑多种不同因素对分词的词向量特征元素的权重的影响,可以提高句对识别结果的准确率。
上述步骤五中的双向长短期记忆网络模型和步骤六中的多头注意力机制模型均是利用具有类别标签的训练样本进行训练得到的。类别标签用于指明对应的训练样本为正样本或负样本。其中,正样本为从排比句中抽取的两个语句组成的句对样本,负样本为随机获取的两个语句组成的句对样本。
步骤七,将句对对应的文本特征向量输入全连接层,并通过分类器对全连接层的输出进行分类,得到句对为排比句对的概率。
全连接层用于对文本特征向量进行降维处理,经降维处理后的文本特征向量输入分类器,分类器输出句对为排比句对的概率。
在一种实施例中,分类器可以采用sgmoid分类器。在另一种实施例中,分类器可以采用SVM(Support Vector Machine,支持向量机)分类器实现。SVM分类器是一种线性分类器,主要用于二分类,SVM分类器可以基于输入的文本特征向量确定句对为排比句对或非排比句对。在另一种实施例中,分类器可以采用Softmax分类器。分类器可以输出类别(Label)和置信度(rate),即句对为排比句对的概率以及句对为非排比句对的概率。
步骤八,根据句对为排比句对的概率,确定句对对应的句对识别结果。
其中,句对识别结果包括句对为排比句对或句对为非排比句对。在一种实施例中,如果句对为排比句对的概率大于或等于设定第一阈值,则确定该句对为排比句对;如果句对为排比句对的概率小于设定第一阈值,则确定该句对为非排比句对。示例性地,该第一阈值可以为0.8或0.75。
本申请实施例中结合几个模型的特点:利用Word2vec模型将句对包含的语句中的分词转换为词向量,并生成词向量矩阵;利用包含多个卷积核宽度不同的卷积层的CNN模型对词向量矩阵进行特征提取,可以将多个不同长度的分词序列进行特征融合,得到词向量矩阵的词向量特征;考虑到如果将CNN模型得到的词向量特征直接进行池化,容易丢掉很多信息,忽略各个词语的特征向量之间的关系,因此利用双向长短期记忆网络模型对词向量特征进行处理,刻画前后词语的特征向量之间的关系,得到句对对应的文本特征序列;利用多头注意力机制模型确定各个词语的特征向量对判断是否为排比对的重要程度,可以提高识别结果的准确率。
在另一种实施例中,上述步骤七中的分类器还可以输出句对为非排比句对的概率。可以根据句对为非排比句对的概率,确定句对对应的句对识别结果。例如,如果句对为非排比句对的概率小于或等于设定的最小阈值,则确定该句对为排比句对;如果句对为非排比句对的概率大于设定的最小阈值,则确定该句对为非排比句对。示例性地,该最小阈值可以为0.2或0.3。
在另一种实施例中,可以结合句对为非排比句对的概率以及预设排比条件,确定句对对应的句对识别结果。例如,如果句对为非排比句对的概率小于或等于设定第二阈值,且该句对包含的语句满足预设排比条件,则确定句对为排比句对;如果句对为非排比句对的概率大于设定第二阈值,或者该句对包含的语句不满足预设排比条件,则确定该句对为非排比句对。其中,第二阈值可以为0.6或0.7。
示例性地,在一些实施例中,可以根据上述预设排比条件确定句对的得分。例如,假设句对Y中包括第一语句和第二语句,如果第一语句或第二语句包含的字符的数量小于4,则为句对Y非排比句对。如果第一语句和第二语句包含的字符的数量均大于或等于4,则设置句对Y的初始得分为0。根据如下条件确定句对Y的得分:如果第一语句和第二语句包含的字符的数量的差值小于或等于5,则句对Y的当前得分增加0.5;如果第一语句和第二语句包含分词的数量的差值小于或等于2,则句对Y的当前得分增加1;如果第一语句和第二语句包含的标点符号的匹配率大于或等于0.7,则句对Y的当前得分增加0.5;如果第一语句和第二语句包含的分词的词性相似度大于或等于0.65,则句对Y的当前得分增加2;对于两个语句中的共现词,各个共现词在两个语句中的位置之间的距离小于或等于0.15,则句对Y的当前得分增加0.5。
其中,分词的词性相似度可以采用莱温斯坦距离确定。莱文斯坦距离用于衡量两个语句之间的相似度,可以通过将第一语句变换为第二语句所需的最少编辑操作次数来确定。由第一语句变换为第二语句所采取的编辑操作可以包括***一个字符、删除一个字符、替换一个字符等等。编辑操作次数越少,说明第一语句与第二语句之间的距离越小,表示两个语句越相似。
对于两个语句中的共现词w,可以采用如下公式确定其在两个语句中的位置之间的距离Sw:
其中,Kw1表示共现词w在第一语句中的位置,或者称为共现词w在第一语句中的索引,即共现词w在第一语句中是第几个分词。Kw2表示共现词w在第二语句中的位置,或者称为共现词w在第二语句中的索引,即共现词w在第二语句中是第几个分词。L1为第一语句的长度,或者说第一语句包含的字符的数量;L2为第二语句的长度,或者说第二语句包含的字符的数量。
通过上述过程确定句对Y的得分,如果句对Y的得分大于或等于4,则确定句对Y符合预设排比条件;如果句对Y的得分小于4,则确定句对Y不符合预设排比条件。
在另一种实施例中,可以结合句对为排比句对的概率、句对为非排比句对的概率以及预设排比条件,确定句对对应的句对识别结果。例如,如果满足第一条件或者第二条件,则确定句对为排比句对;其中,第一条件为句对为排比句对的概率大于或等于设定第一阈值,第二条件为句对为非排比句对的概率小于或等于设定第二阈值,且该句对包含的语句满足预设排比条件。否则,如果既不满足第一条件,也不满足第二条件,则确定该句对为非排比句对。
采用模型识别与预设规则识别相结合的方式对排比句进行识别,可以进一步提高识别结果的准确率。
步骤S305,根据每个句对对应的句对识别结果,从待识别文本中抽取排比句。
由于排比句一般包含三个或三个以上的语句,因此,如果待识别文本中连续两个或两个以上的句对对应的句对识别结果表明该句对为排比句对,则可以认为这些句对多包含的语句构成排比句。将待识别文本中连续的且句对识别结果表明该句对为排比句对的句对所包含的语句从待识别文本中抽取出来,得到排比句。考虑到待识别文本中可能包含多个排比句,同一个排比句中的各个语句是连续的,不同的排比句的语句之间可能会存在其它语句,即不同的排比句的句对不满足语句之间连续的关系。因此,通过上述方法,也可以从待识别文本中抽取出多个排比句。业务服务器可以将识别结果发送给用户的终端设备,终端设备将识别结果展示给用户。
本申请实施例提供的文本识别方法,可以用于在线教学辅导应用中对学生的作文自动进行批改,通过抽取作文中的排比句对,可以获得作文中的排比句。本申请实施例提供的文本识别方法也可以由终端设备11执行。例如,在图5所示的“语文作文批改”应用模块中,可以自动识别出作文中的排比句:蓝天给予我们阳光,使我们茁壮成长;自然给予我们绿色,使我们有了美的遐想;父母给予我们无私的爱,使我们传递了人间无数的真情;老师给予我们知识,使我们原本空虚的锦囊变成了神奇的殿堂;朋友给予我们团级互助,使我们不再孤单一路行。
本实施例采用基于多头注意力机制的CNN和Bi-LSTM模型,可以更准确地识别排比对。
在一种实施例中,识别出作文中的排比句之后,可以将作文中的排比句突出显示在显示界面中,如图6所示,可以采用字体加粗或斜体等方式突出显示文中的排比句,使排比句在文中更明显,使批改作文的老师可以更容易地看到作文中的排比句。在另一种实施例中,识别出作文中的排比句之后,可以获得作文文采维度的评分,还可以针对作文中的排比句给出对应的评语等。
为了使上述的机器学习模型或深度学习模型能够准确地识别出排比句对,需要预先对上述过程中使用的各个模型进行训练。在一种实施例中,如图7所示,模型的训练过程包括如下步骤:
步骤S701,获取训练样本集。
训练样本集中包括具有类别标签的句对样本。其中,类别标签用于指明对应的句对样本为正样本或负样本,正样本为从排比句中抽取的两个语句组成的句对样本,负样本为随机获取的两个语句组成的句对样本。
在一种实施例中,可以采用scrapy爬虫工具从网络上爬取一些排比句和其他文章。对于爬取的排比句,可以按照比对符号,如“,;。”等进行切分,将切分后的语句进行两两组合,得到正样本,将正样本的类别标签记为1。将其他文章也采用上述方法进行切分,将切分得到的语句,如比喻句、拟人句、反问句等两两组合,或者将对其他文章进行切分得到的语句与对排比句切分得到的语句进行两两组合,得到负样本,将负样本的类别标签记为0。训练样本集中可以包含4000条左右的负样本。
在另一种实施例中,可以通过网络或其他方式获取多个句对样本,例如,在网络中爬取文章,将爬取的文章按照相邻句组成句对的方式构造句对样本。对句对样本采用如下方式标注类别标签:判断句对样本包含的语句是否满足预设排比条件,如果句对样本包含的语句满足预设排比条件,将句对样本的类别标签设置为正样本;如果句对样本包含的语句未满足预设排比条件,将句对样本的类别标签设置为负样本。其中,预设排比条件可以参照上文中介绍的条件,在此不再赘述。采用该方式来标注句对样本,可以在扩充模型训练语料的同时,减少人工标注的工作量。
步骤S702,从训练样本集中抽取句对样本,并获取抽取的句对样本对应的词向量矩阵。
具体地,可以采用jieba分词工具对句对样本包含的语句进行分词和词性标注。通过Word2vec模型识别出句对样本中每个语句包含的分词的词向量,将分词的词向量组成句对样本对应的词向量序列,确定句对样本中每个语句包含的分词的词性向量,将分词的词性向量组成句对样本对应的词性向量序列,例如,假设句对样本中包含句子1和句子2两个语句,将每个语句包含的分词和词性按照“句子1词列表SEP句子2词列表”,“句子1词性列表SEP句子2词性列表”的方式输入Word2vec模型,可以得到句对样本对应的词向量序列和词性向量序列。然后将句对样本对应的词向量序列和词性向量序列进行拼接,可以得到句对样本对应的词向量矩阵。
步骤S703,将句对样本对应的词向量矩阵输入特征提取网络模型,获取句对样本对应的词向量矩阵的词向量特征。
步骤S704,将句对样本的词向量特征输入待训练的双向长短期记忆网络模型,得到句对样本对应的文本特征序列。
步骤S705,将句对样本对应的文本特征序列输入多头注意力机制模型,得到句对样本对应的文本特征向量。
步骤S706,通过分类器对句对样本对应的文本特征向量进行分类,得到句对样本的分类结果。
在一些实施例中,可以将句对样本对应的文本特征向量输入全连接层,并通过分类器对全连接层的输出进行分类,得到句对样本的分类结果。
步骤S707,根据句对样本的分类结果与句对样本的类别标签,确定损失值。
计算损失值时使用的损失函数可以是但不限于交叉熵损失函数、对比损失函数(contrastive Loss)或Center Loss函数等。
步骤S708,判断损失值是否收敛至预设的期望值;如果是,执行步骤S710;如果否,执行步骤S709。
步骤S709,根据损失值对双向长短期记忆网络模型和多头注意力机制模型的网络参数进行调整。
调整模型参数后,返回执行步骤S702,继续下一轮的训练过程。
步骤S710,将当前参数作为双向长短期记忆网络模型和多头注意力机制模型的参数,得到已训练的双向长短期记忆网络模型和多头注意力机制模型。
如果双向长短期记忆网络模型和多头注意力机制模型的损失值收敛至设定的期望值,则将当前参数作为双向长短期记忆网络模型和多头注意力机制模型的参数,得到已训练的双向长短期记忆网络模型和多头注意力机制模型。
在上述训练过程中,特征提取网络模型和分类器均可以采用为预先训练好的模型,在根据损失值调整模型参数时,仅对双向长短期记忆网络模型和多头注意力机制模型的网络参数进行调整,而不调整特征提取网络模型和分类器的网络参数。在另一种实施例中,也可以对特征提取网络模型、双向长短期记忆网络模型、多头注意力机制模型和分类器一起进行训练,训练过程也可以参照图7执行,在根据损失值调整模型参数时,对特征提取网络模型、双向长短期记忆网络模型、多头注意力机制模型和分类器的网络参数均进行调整。示例性地,可以采用Adam算法优化模型的各层参数,Adam算法是一种在深度学习模型中用来替代随机梯度下降的算法,是能提供解决稀疏梯度和噪声问题的优化方法。训练时,期望值可以设置为0.00125,每次输入待训练的模型中的样本量可以为256。
在一种实施例中,在一轮训练完成后,还可以再次获取句对样本,采用已训练的模型结合预设排比条件对句对样本进行标注,确定句对样本的类别标签,并对标注结果进行人工修正,将得到的已标注句对样本添加至训练数据集中,继续对模型进行训练。采用已训练的模型结合预设排比条件对句对样本进行标注,可以大幅度减少人工标注数据的工作量。
与上述文本识别方法的实施例相对应地,本申请实施例还提供了一种文本识别装置。图8为本申请实施例的提供的文本识别装置的结构示意图;如图8所示,该文本识别装置包括特征提取单元81、特征处理单元82和特征识别单元83。
其中,特征提取单元81,用于获取由两个语句组成的句对对应的词向量矩阵,并提取词向量矩阵的词向量特征;
特征处理单元82,用于将词向量特征输入双向长短期记忆网络模型,得到句对对应的文本特征序列;将文本特征序列输入多头注意力机制模型,得到句对对应的文本特征向量;双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的;其中,类别标签用于指明对应的训练样本为正样本或负样本,正样本为从排比句中抽取的两个语句组成的句对样本,负样本为随机获取的两个语句组成的句对样本;
特征识别单元83,用于基于句对对应的文本特征向量,确定句对对应的句对识别结果;句对识别结果包括句对为排比句对或句对为非排比句对。
在一种可选的实施例中,特征提取单元81,具体用于:
根据句对中每个语句包含的分词的词向量,生成句对对应的词向量序列;
根据句对中每个语句包含的分词的词性向量,生成句对对应的词性向量序列;
将句对对应的词向量序列和词性向量序列进行拼接,得到句对对应的词向量矩阵;
将词向量矩阵输入特征提取网络模型,得到词向量矩阵的词向量特征。
在一种可选的实施例中,特征提取网络模型包括多个卷积核宽度不同的卷积层;特征提取单元81,具体用于:
将词向量矩阵分别输入每个卷积层,得到每个卷积层输出的特征向量;
将得到的所有特征向量进行拼接,获得词向量矩阵的词向量特征。
在一种可选的实施例中,多头注意力机制模型包括多个具有不同网络参数的注意力子网络;特征处理单元82,具体用于:
将文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,获得句对对应的文本特征向量。
在一种可选的实施例中,特征识别单元83,具体用于:
基于句对对应的文本特征向量,确定句对为排比句对的概率;若句对为排比句对的概率大于或等于设定第一阈值,则确定句对为排比句对;或者,
基于句对对应的文本特征向量,确定句对为非排比句对的概率;若句对为非排比句对的概率小于或等于设定第二阈值,且句对包含的语句满足预设排比条件,则确定句对为排比句对。
在一种可选的实施例中,特征识别单元83,具体用于:
将句对对应的文本特征向量输入全连接层,并通过分类器对全连接层的输出进行分类,得到句对为排比句对的概率。
在一种可选的实施例中,句对包含的语句满足的预设排比条件,包括如下条件中的部分或全部:
句对中的每个语句包含的字符或分词的数量大于或等于设定数量;
句对中的两个语句包含的字符的数量的差值小于或等于第一设定差值;
句对中的两个语句包含的分词的数量的差值小于或等于第二设定差值;
句对中的两个语句包含的标点符号的匹配率大于或等于设定匹配阈值;
句对中的两个语句包含的分词的词性相似度大于或等于设定相似度值;
对于两个语句中的共现词,各个共现词在两个语句中的位置之间的距离小于或等于设定距离值。
在一种可选的实施例中,如图9所示,上述装置还包括可以数据获取单元92,用于:
根据指定的分隔符,将待识别文本分割为多个语句;
依次将相邻的至少两个语句组成一个句对;
特征识别单元83,还用于:
根据每个句对对应的句对识别结果,从待识别文本中抽取排比句。
在一种可选的实施例中,如图9所示,上述装置还可以包括模型训练单元91,用于对上述实施例中使用的网络模型进行训练。
在一种可选的实施例中,模型训练单元91,具体用于:
获取训练样本集,训练样本集中包括具有类别标签的句对样本;
从训练样本集中抽取句对样本,并获取抽取的句对样本的词向量特征;
将句对样本的词向量特征输入待训练的双向长短期记忆网络模型,得到句对样本对应的文本特征序列;
将句对样本对应的文本特征序列输入多头注意力机制模型,得到句对样本对应的文本特征向量;
通过分类器对句对样本对应的文本特征向量进行分类,得到句对样本的分类结果;
根据句对样本的分类结果与句对样本的类别标签,确定损失值;
根据损失值对双向长短期记忆网络模型和多头注意力机制模型的网络参数进行调整,直至损失值收敛至预设的期望值为止,得到已训练的双向长短期记忆网络模型和多头注意力机制模型。
在一种可选的实施例中,模型训练单元91,还可以用于:
若句对样本包含的语句满足预设排比条件,将句对样本的类别标签设置为正样本;
若句对样本包含的语句未满足预设排比条件,将句对样本的类别标签设置为负样本。
本申请实施例提供的文本识别装置,获取由两个语句组成的句对对应的词向量特征后,利用双向长短期记忆网络模型对词向量特征进行处理,刻画前后词语之间的关系,得到句对对应的文本特征序列,利用多头注意力机制模型确定各个词语对判断是否为排比对的重要程度,得到句对对应的文本特征向量,基于句对对应的文本特征向量,确定该句对是否为排比句,可以提高识别结果的准确率,有利于准确识别文本中的排比句。
与上述文本识别方法的实施例相对应地,本申请实施例还提供了一种电子设备。该电子设备可以是服务器,如图1中所示的业务服务器12,也可以是移动终端或计算机等终端设备,如图1中所示的终端设备11。
该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、CPU、GPU(GraphicsProcessing Unit,图形处理单元)、DSP或FPGA实现。对于存储器来说,存储器中存储有操作指令,该操作指令可以为计算机可执行代码,通过该操作指令来实现上述本申请实施例的文本识别方法的流程中的各个步骤。
图10为本申请实施例提供的一种电子设备的结构示意图;如图10所示,本申请实施例中该电子设备100包括:处理器101、显示器102、存储器103、输入设备106、总线105和通讯模块104;该处理器101、存储器103、输入设备106、显示器102和通讯模块104均通过总线105连接,该总线105用于该处理器101、存储器103、显示器102、通讯模块104和输入设备106之间传输数据。
其中,存储器103可用于存储软件程序以及模块,如本申请实施例中的文本识别方法对应的程序指令/模块,处理器101通过运行存储在存储器103中的软件程序以及模块,从而执行电子设备100的各种功能应用以及数据处理,如本申请实施例提供的文本识别方法。存储器103可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个应用的应用程序等;存储数据区可存储根据电子设备100的使用所创建的数据(比如文本的解释信息、及训练好的各个网络模型等相关数据)等。此外,存储器103可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器101是电子设备100的控制中心,利用总线105以及各种接口和线路连接整个电子设备100的各个部分,通过运行或执行存储在存储器103内的软件程序和/或模块,以及调用存储在存储器103内的数据,执行电子设备100的各种功能和处理数据。可选的,处理器101可包括一个或多个处理单元,如CPU、GPU、数字处理单元等。
处理器101可以将文本数据的处理结果通过显示器102展示给用户。
处理器101还可以通过通讯模块104连接网络,获取文本数据等。
输入设备106主要用于获得用户的输入操作,当该电子设备不同时,该输入设备106也可能不同。例如,当该电子设备为计算机时,该输入设备106可以为鼠标、键盘等输入设备;当该电子设备为智能手机、平板电脑等便携设备时,该输入设备106可以为触控屏。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于实现本申请任一实施例所记载的文本识别方法。
在一些可能的实施方式中,本申请提供的文本识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本识别方法的步骤,例如,所述计算机设备可以执行如图2所示的步骤S201~S204的文本识别方法的流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (14)
1.一种文本识别方法,其特征在于,包括:
根据指定的分隔符,将待识别文本分割为多个语句,并根据所述多个语句中的两个语句构建句对;
获取由两个语句组成的句对对应的词向量矩阵,并通过特征提取网络模型,提取所述词向量矩阵的词向量特征;其中,所述特征提取网络模型包括:残差网络和特征金字塔网络;
根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;
根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;
基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对;
其中,所述根据所述多个语句中的两个语句构建句对,包括:
将每个语句与相邻的一个语句组成一个句对;或
将每个编号为奇数的语句与相邻的编号为偶数的语句组成一个句对;
其中,所述基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果,包括:
基于所述句对对应的文本特征向量,确定所述句对为非排比句对的概率;若所述句对为非排比句对的概率小于或等于设定第二阈值,且所述句对包含的语句满足预设排比条件,则确定所述句对为排比句对。
2.根据权利要求1所述的方法,其特征在于,所述获取由两个语句组成的句对对应的词向量矩阵,并提取所述词向量矩阵的词向量特征,包括:
根据所述句对中每个语句包含的分词的词向量,生成所述句对对应的词向量序列;
根据所述句对中每个语句包含的分词的词性向量,生成所述句对对应的词性向量序列;
将所述句对对应的词向量序列和词性向量序列进行拼接,得到所述句对对应的词向量矩阵;
将所述词向量矩阵输入特征提取网络模型,得到所述词向量矩阵的词向量特征。
3.根据权利要求2所述的方法,其特征在于,所述特征提取网络模型包括多个卷积核宽度不同的卷积层;将所述词向量矩阵输入特征提取网络,得到所述词向量矩阵的词向量特征,包括:
将所述词向量矩阵分别输入每个卷积层,得到每个卷积层输出的特征向量;
将得到的所有特征向量进行拼接,获得所述词向量矩阵的词向量特征。
4.根据权利要求1所述的方法,其特征在于,根据所述词向量特征,得到所述句对对应的文本特征序列,包括:
将所述词向量特征输入双向长短期记忆网络模型,得到所述双向长短期记忆网络模型输出的所述句对对应的文本特征序列;
根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量,包括:
将所述文本特征序列输入多头注意力机制模型,得到所述多头注意力机制模型输出的所述句对对应的文本特征向量;所述多头注意力机制模型用于根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为文本特征向量;
所述双向长短期记忆网络模型和多头注意力机制模型为利用具有类别标签的训练样本进行训练得到的;其中,类别标签用于指明对应的训练样本为正样本或负样本,所述正样本为从排比句中抽取的两个语句组成的句对样本,所述负样本为随机获取的两个语句组成的句对样本。
5.根据权利要求4所述的方法,其特征在于,所述多头注意力机制模型包括多个具有不同网络参数的注意力子网络;将所述文本特征序列输入多头注意力机制模型,得到所述句对对应的文本特征向量,包括:
将所述文本特征序列分别输入每个注意力子网络,并将所有注意力子网络的输出进行拼接,获得所述句对对应的文本特征向量。
6.根据权利要求1所述的方法,其特征在于,基于所述句对对应的文本特征向量,确定所述句对为排比句对的概率,包括:
将所述句对对应的文本特征向量输入全连接层,并通过分类器对所述全连接层的输出进行分类,得到所述句对为排比句对的概率。
7.根据权利要求1所述的方法,其特征在于,所述句对包含的语句满足的预设排比条件,包括如下条件中的部分或全部:
所述句对中的每个语句包含的字符或分词的数量大于或等于设定数量;
所述句对中的两个语句包含的字符的数量的差值小于或等于第一设定差值;
所述句对中的两个语句包含的分词的数量的差值小于或等于第二设定差值;
所述句对中的两个语句包含的标点符号的匹配率大于或等于设定匹配阈值;
所述句对中的两个语句包含的分词的词性相似度大于或等于设定相似度值;
对于两个语句中的共现词,各个共现词在两个语句中的位置之间的距离小于或等于设定距离值。
8.根据权利要求1所述的方法,其特征在于,基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果之后,所述方法还包括:
根据每个句对对应的句对识别结果,从所述待识别文本中抽取排比句。
9.根据权利要求4所述的方法,其特征在于,所述双向长短期记忆网络模型和多头注意力机制模型的训练过程,包括:
获取训练样本集,所述训练样本集中包括具有类别标签的句对样本;
从所述训练样本集中抽取句对样本,并获取抽取的句对样本的词向量特征;
将句对样本的词向量特征输入待训练的双向长短期记忆网络模型,得到句对样本对应的文本特征序列;
将句对样本对应的文本特征序列输入多头注意力机制模型,得到句对样本对应的文本特征向量;
通过分类器对句对样本对应的文本特征向量进行分类,得到句对样本的分类结果;
根据句对样本的分类结果与句对样本的类别标签,确定损失值;
根据损失值对双向长短期记忆网络模型和多头注意力机制模型的网络参数进行调整,直至所述损失值收敛至预设的期望值为止,得到已训练的双向长短期记忆网络模型和多头注意力机制模型。
10.根据权利要求9所述的方法,其特征在于,所述句对样本的类别标签采用如下方式进行标注:
若所述句对样本包含的语句满足预设排比条件,将所述句对样本的类别标签设置为正样本;
若所述句对样本包含的语句未满足预设排比条件,将所述句对样本的类别标签设置为负样本。
11.一种文本识别装置,其特征在于,包括:
数据获取单元,用于根据指定的分隔符,将待识别文本分割为多个语句,并根据所述多个语句中的两个语句构建句对;
特征提取单元,用于获取由两个语句组成的句对对应的词向量矩阵,并通过特征提取网络模型,提取所述词向量矩阵的词向量特征;其中,所述特征提取网络模型包括:残差网络和特征金字塔网络;
特征处理单元,用于根据所述词向量特征,得到所述句对对应的文本特征序列;所述文本特征序列包括所述句对的每个语句包含的分词对应的词向量特征元素;根据各个分词对应的词向量特征元素的权重,将所述文本特征序列转换为所述句对对应的文本特征向量;所述分词对应的词向量特征元素的权重用于表征该分词对判定所述句对是否为排比句对的重要度;
特征识别单元,用于基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果;所述句对识别结果包括所述句对为排比句对或所述句对为非排比句对;
其中,所述根据所述多个语句中的两个语句构建句对,包括:
将每个语句与相邻的一个语句组成一个句对;或
将每个编号为奇数的语句与相邻的编号为偶数的语句组成一个句对;
其中,所述基于所述句对对应的文本特征向量,确定所述句对对应的句对识别结果,包括:
基于所述句对对应的文本特征向量,确定所述句对为非排比句对的概率;若所述句对为非排比句对的概率小于或等于设定第二阈值,且所述句对包含的语句满足预设排比条件,则确定所述句对为排比句对。
12.根据权利要求11所述的装置,其特征在于,所述特征提取单元,具体用于:
根据所述句对中每个语句包含的分词的词向量,生成所述句对对应的词向量序列;
根据所述句对中每个语句包含的分词的词性向量,生成所述句对对应的词性向量序列;
将所述句对对应的词向量序列和词性向量序列进行拼接,得到所述句对对应的词向量矩阵;
将所述词向量矩阵输入特征提取网络模型,得到所述词向量矩阵的词向量特征。
13.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~10中任一项所述的方法。
14.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752677.6A CN111898374B (zh) | 2020-07-30 | 2020-07-30 | 文本识别方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752677.6A CN111898374B (zh) | 2020-07-30 | 2020-07-30 | 文本识别方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898374A CN111898374A (zh) | 2020-11-06 |
CN111898374B true CN111898374B (zh) | 2023-11-07 |
Family
ID=73182657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010752677.6A Active CN111898374B (zh) | 2020-07-30 | 2020-07-30 | 文本识别方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898374B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905777B (zh) * | 2021-03-19 | 2023-10-17 | 北京百度网讯科技有限公司 | 一种扩展问推荐方法、装置、电子设备及存储介质 |
CN113657086B (zh) * | 2021-08-09 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 词语处理方法、装置、设备及存储介质 |
CN114168104A (zh) * | 2021-12-08 | 2022-03-11 | 杭州电子科技大学 | 一种面向视障人群的场景文字交互式理解*** |
CN114742035B (zh) * | 2022-05-19 | 2023-07-07 | 北京百度网讯科技有限公司 | 基于注意力机制优化的文本处理方法、网络模型训练方法 |
CN116737940B (zh) * | 2023-08-14 | 2023-11-07 | 成都飞航智云科技有限公司 | 一种智能决策方法、决策*** |
CN116934468B (zh) * | 2023-09-15 | 2023-12-22 | 成都运荔枝科技有限公司 | 一种基于语义识别的授信客户分级方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005190284A (ja) * | 2003-12-26 | 2005-07-14 | Nec Corp | 情報分類装置および情報分類方法 |
CN107943852A (zh) * | 2017-11-06 | 2018-04-20 | 首都师范大学 | 中文排比句识别方法及*** |
CN108241609A (zh) * | 2016-12-23 | 2018-07-03 | 科大讯飞股份有限公司 | 排比句识别方法及*** |
CN109492638A (zh) * | 2018-11-07 | 2019-03-19 | 北京旷视科技有限公司 | 文本检测方法、装置及电子设备 |
CN110427852A (zh) * | 2019-07-24 | 2019-11-08 | 北京旷视科技有限公司 | 文字识别方法、装置、计算机设备和存储介质 |
CN110598202A (zh) * | 2019-06-20 | 2019-12-20 | 华中师范大学 | 一种小学语文作文排比句自动识别的方法 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI608367B (zh) * | 2012-01-11 | 2017-12-11 | 國立臺灣師範大學 | 中文文本可讀性計量系統及其方法 |
-
2020
- 2020-07-30 CN CN202010752677.6A patent/CN111898374B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005190284A (ja) * | 2003-12-26 | 2005-07-14 | Nec Corp | 情報分類装置および情報分類方法 |
CN108241609A (zh) * | 2016-12-23 | 2018-07-03 | 科大讯飞股份有限公司 | 排比句识别方法及*** |
CN107943852A (zh) * | 2017-11-06 | 2018-04-20 | 首都师范大学 | 中文排比句识别方法及*** |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
CN109492638A (zh) * | 2018-11-07 | 2019-03-19 | 北京旷视科技有限公司 | 文本检测方法、装置及电子设备 |
CN110598202A (zh) * | 2019-06-20 | 2019-12-20 | 华中师范大学 | 一种小学语文作文排比句自动识别的方法 |
CN110427852A (zh) * | 2019-07-24 | 2019-11-08 | 北京旷视科技有限公司 | 文字识别方法、装置、计算机设备和存储介质 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
Non-Patent Citations (1)
Title |
---|
融合CNN和结构相似度计算的排比句识别及应用;穆婉青;廖健;王素格;;中文信息学报(第02期);第139-146页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111898374A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
CN111767405B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与*** | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111368555B (zh) | 一种数据识别方法、装置、存储介质和电子设备 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
Li et al. | Intention understanding in human–robot interaction based on visual-NLP semantics | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和*** | |
CN110795544A (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN114239599A (zh) | 一种机器阅读理解的实现方法、***、设备及介质 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN116975221A (zh) | 文本阅读理解方法、装置、设备及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114090778A (zh) | 基于知识锚点的检索方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |