CN109446328A - 一种文本识别方法、装置及其存储介质 - Google Patents

一种文本识别方法、装置及其存储介质 Download PDF

Info

Publication number
CN109446328A
CN109446328A CN201811305683.6A CN201811305683A CN109446328A CN 109446328 A CN109446328 A CN 109446328A CN 201811305683 A CN201811305683 A CN 201811305683A CN 109446328 A CN109446328 A CN 109446328A
Authority
CN
China
Prior art keywords
text
processed
vector matrix
word
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811305683.6A
Other languages
English (en)
Inventor
覃进学
王纯斌
赵神州
蓝科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201811305683.6A priority Critical patent/CN109446328A/zh
Publication of CN109446328A publication Critical patent/CN109446328A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本识别方法、装置及其存储介质,涉及关系抽取及其分类技术领域。所述文本识别方法包括:获取待处理文本;将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。该文本识别法通过基于卷积神经网络和注意力机制的文本识别模型对文本的实体关系进行抽取,提高了关系分类的准确率,同时具有更高的关系抽取效率。

Description

一种文本识别方法、装置及其存储介质
技术领域
本发明涉及关系抽取及其分类技术领域,具体而言,涉及一种文本识别方法、装置及其存储介质。
背景技术
如今互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据对于我们构建知识库或知识图谱非常有用;但是人工进行相关知识提取工作量极其巨大,如果计算机能够理解并提取出有用的信息,那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在,即无结构化的,计算机无法直接进行处理。为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据,包括实体、实体间关系等。
关系抽取是信息抽取技术里的一项关键技术,通常通过命名实体识别技术识别出句子或语篇中的实体,再由关系抽取技术识别实体对之间的关系。但是目前的关系抽取方法对实体关系抽取作用有限,仍然存在关系分类准确率和关系抽取效率低的问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文本识别方法、装置及其存储介质,以解决上述问题。
第一方面,本发明实施例提供了一种文本识别方法,所述文本识别方法包括:获取待处理文本;将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。
综合第一方面,在所述将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型之前,所述文本识别方法还包括:建立所述基于卷积神经网络和注意力机制的文本识别模型。
综合第一方面,所述建立所述基于卷积神经网络和注意力机制的文本识别模型,包括:获取由所述待处理文本组成的训练集;提取所述训练集中的待处理文本的词向量矩阵、词性向量矩阵和最短依赖路径向量矩阵;基于注意力机制对所述词向量矩阵的卷积特征、所述词性向量矩阵和所述最短依赖路径向量矩阵进行加权转换;采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。
综合第一方面,在所述提取所述训练集中的待处理文本的词向量矩阵之后,以及注意力机制对所述词向量矩阵的卷积特征进行加权转换之前,所述文本识别方法还包括:通过卷积神经网络提取出所述词向量矩阵的卷积特征。
综合第一方面,提取所述训练集中的待处理文本的词向量矩阵,包括:对所述训练集中的待处理文本进行分词获得词序列,对所述词序列进行过滤获得关键词;采用词嵌入技术或随机生成每个关键词的词向量,将所述词向量变换为所述待处理文本的词向量矩阵。
综合第一方面,提取所述训练集中的待处理文本的词性向量矩阵,包括:对所述词序列中的每个词进行词性标注;采用词嵌入技术或随机生成每个词性的词性向量,将所述词性向量变换为所述待处理文本的词性向量矩阵。
综合第一方面,提取所述训练集中的待处理文本的最短依赖路径向量矩阵,包括:对词性标注后的词进行依存句法分析,获得实体间最短路径以及句子中起始和结束词的最短依赖路径;基于所述实体间最短路径以及所述句子中起始和结束词的最短依赖路径获得最短依赖路经向量矩阵。
第二方面,本发明实施例提供了一种文本识别装置,所述文本识别装置包括:获取模块,用于获取待处理文本;实体关系确定模块,用于将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。
综合第二方面,所述文本识别装置还包括模型建立模块,所述模型建立模块包括:训练集获取单元,用于获取由所述待处理文本组成的训练集;矩阵提取单元,用于提取所述训练集中的待处理文本的词向量矩阵、词性向量矩阵和最短依赖路径向量矩阵;注意力处理单元,用于基于注意力机制对所述词向量矩阵的卷积特征、所述词性向量矩阵和所述最短依赖路径向量矩阵进行加权转换;分类训练单元,用于采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。
第三方面,本发明实施例还提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述任一方面所述方法中的步骤。
本发明提供的有益效果是:
本发明提供了一种文本识别方法、装置及其存储介质,所述文本识别方法采用基于卷积神经网络的文本识别模型提取待处理文本的实体关系,由卷积神经网络来完成对文本语义信息的自动特征提取,进行实体关系的自动分类,不用人工编写大量的规则,减少了工作量,而且能够比较好的扩展到不同的领域;同时该文本识别模型还采用了注意力机制,能够根据人对待处理文本中各词的注意力分布规律对待处理文本中的词进行分类,从而提高实体关系抽取的准确度和效率。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的一种文本识别方法的流程示意图;
图2为本发明第一实施例提供的一种文本识别模型的建立步骤的流程示意图;
图3为本发明第二实施例提供的一种文本识别装置的模块示意图;
图4为本发明第三实施例提供的一种可应用于本申请实施例中的电子设备的结构框图。
图标:100-文本识别装置;110-获取模块;120-实体关系确定模块;130-模型建立模块;200-电子设备;201-存储器;202-存储控制器;203-处理器;204-外设接口;205-输入输出单元;206-音频单元;207-显示单元。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
经本申请人研究发现,现有的对文本进行实体关系的抽取的方法一般为基于规则的抽取方法或基于机器学习统计学习方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系;基于机器统计学习关系抽取方法,通常将关系抽取问题转化为一个分类问题。目前关系抽取方法中,基于规则的方法存在明显的不足,该方法需要人工编写大量的规则,工作量非常大,不易维护,而且必须对每个领域都编写规则,不能很好的扩展到其他领域;基于无监督学习的方法,将句子或语篇进行聚类时,往往效果不是很好,需要很多的人工干预;基于深度学习进行关系分类时,不用人工做大量的特征提取,如利用卷积神经网络进行关系分类,但目前利用卷积神经网络进行关系分类时仅利用句子局部语义特征信息时,对实体关系抽取作用有限。为了解决上述问题,本发明第一实施例提供了一种文本识别方法,应当理解的是,该文本识别方法的执行主体可以为计算机、智能终端、云处理器或其他具备逻辑运算能力的处理设备。
请参考图1,图1为本发明第一实施例提供的一种文本识别方法的流程示意图,该文本识别方法的具体步骤可以如下:
步骤S20:获取待处理文本。
本实施例中的待处理文本一般为常见的自然语言形式的文本数据,该文本数据的获取来源可以是从互联网上抓取、从数据库中下载或直接从本地存储器中读取等。
步骤S40:将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。
本实施例中的实体关系即语句中各实体对之间的语义关系。其中,注意力机制为的本质来自于人类视觉注意力机制,人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分,而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上,注意力机制就是基于该注意力特性对目标对象进行加权,确定目标对象中各部分数据的重要程度。
本发明实施例提供了一种文本识别方法,所述文本识别方法采用基于卷积神经网络的文本识别模型提取待处理文本的实体关系,由卷积神经网络来完成对文本语义信息的自动特征提取,进行实体关系的自动分类,不用人工编写大量的规则,减少了工作量,而且能够比较好的扩展到不同的领域;同时该文本识别模型还采用了注意力机制,能够根据人对待处理文本中各词的注意力分布规律对待处理文本中的词进行分类,从而提高实体关系抽取的准确度和效率。
在步骤S40之前,还需要建立模型,其具体步骤可以为:建立所述基于卷积神经网络和注意力机制的文本识别模型。请参考图2,图2为本发明第一实施例提供的一种文本识别模型的建立步骤的流程示意图,该文本识别模型的建立步骤具体可以如下:
步骤S31:获取由所述待处理文本组成的训练集。
本实施例中的待处理文本可以是从预先选择的较大的语料库中获取,以满足训练集对训练样本的数量需求。
步骤S32:提取所述训练集中的待处理文本的词向量矩阵、词性向量矩阵和最短依赖路径向量矩阵。
在执行步骤S32获得词向量矩阵之后,在执行步骤S33之前,本实施例还需要获得词向量矩阵的卷积特征,其具体步骤可以为:通过卷积神经网络提取出所述词向量矩阵的卷积特征。
步骤S33:基于注意力机制对所述词向量矩阵的卷积特征、所述词性向量矩阵和所述最短依赖路径向量矩阵进行加权转换。
步骤S34:采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。
针对步骤S32,提取所述训练集中的待处理文本的词向量矩阵的具体步骤可以如下:
步骤S32.1:对所述训练集中的待处理文本进行分词获得词序列,对所述词序列进行过滤获得关键词。
步骤S32.2:采用词嵌入技术或随机生成每个关键词的词向量,将所述词向量变换为所述待处理文本的词向量矩阵。
本实施例中可以采用词嵌入技术生成每个关键词的N维词向量,其中,(N纬度的大小根据语料库中包含词的多少,即语料的规模来设定;在语料库规模较大的情况下,为了避免编码稀疏的问题,可以进行降维,例如使用向量来表示每个词,向量中使用连续的变化的数字。进而得到语料库所包含词的词向量矩阵,其中,词向量矩阵的每个行向量对应语料库中一个词的词向量。
应当注意的是,在步骤S32.2语料库中的同一个词对应同一个向量,比如说:“中国”一词,在语料库中可能多次出现,但“中国”一词在向量标注结果中仅对应同一个向量。
作为一种可选的实施方式,本实施例采用word2vec来实现每个词的向量转化,word2vec可以实现词的向量转化,可以更好的理解词义和语义,所生成的向量中,向量越近,对应的词义也越近。
针对步骤S32,提取所述训练集中的待处理文本的词性向量矩阵的具体步骤可以如下:
步骤S32.3:对所述词序列中的每个词进行词性标注。
在分词的基础上,基于语料库的分词结果,使用词性标注工具对语料库中每个句子中的词进行词性标注。得到的词性标注结果后,将句子中的词性作为一个序列。
步骤S33.4:采用词嵌入技术或随机生成每个词性的词性向量,将所述词性向量变换为所述待处理文本的词性向量矩阵。
采用Word Embedding技术生成每个词性的M维词性向量,进而得到语料库的词性向量矩阵,其中,词性向量矩阵的每一行对应语料库中一个词性的词性向量。
本实施例在进行实体关系抽取时利用了词性向量矩阵,除了利用词语义信息以外,还充分利用了词的词性信息,有助于更好的理解句子,提高了实体关系抽取的准确度。
在步骤S32中,还需要获得最短依赖路径向量矩阵,其具体步骤可以为:
步骤S32.5:对词性标注后的词进行依存句法分析,获得实体间最短路径以及句子中起始和结束词的最短依赖路径。
步骤S32.6:基于所述实体间最短路径以及所述句子中起始和结束词的最短依赖路径获得最短依赖路经向量矩阵。
本实施例将词性向量和词向量通过注意力机制结合起来,另外句子通过句法分析后,将最短依赖路作为特征,从而在词向量和词性向量信息不足的情况下也能获得足够的信息,提高了实体关系抽取的准确率。进一步地,当句子中的词语表示存在歧义时,加入最短依赖路径特征信息后,可以一定程度上消除歧义,使关系抽取的鲁棒性更好。
针对步骤S33,本实施例中的注意力机制可以是Encoder-Decoder框架下的SoftAttention模型和/或Self Attention模型。
针对步骤S34,即:采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。本实施例中的分类器可以为softmax分类器。
本实施例提供的文本识别方法与基于规则的实体关系抽取方法相比,不用人工编写大量的规则,减少了工作量和实体关系抽取效率,而且能够比较好的扩展到不同的领域;同传统的机器学习实体关系抽取方法相比,该文本识别方法在采用卷积神经网络进行特征提取保证效率的同时,还融合了注意力机制,进一步提高了实体关系抽取的效率和准确率。
第二实施例
为了配合本发明第一实施例提供的文本识别方法,本发明第二实施例还提供了一种文本识别装置100。
请参考图3,图3为本发明第二实施例提供的一种文本识别装置的模块示意图。
文本识别装置100包括获取模块110和实体关系确定模块120。
获取模块110,用于获取待处理文本。
实体关系确定模块120,用于将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。
作为一种可选的实施方式,本实施例中的文本识别装置100还可以包括模型建立模块130,模型建立模块130包括:
训练集获取单元,用于获取由所述待处理文本组成的训练集。
矩阵提取单元,用于提取所述训练集中的待处理文本的词向量矩阵、词性向量矩阵和最短依赖路径向量矩阵。
注意力处理单元,用于基于注意力机制对所述词向量矩阵的卷积特征、所述词性向量矩阵和所述最短依赖路径向量矩阵进行加权转换。
分类训练单元,用于采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
第三实施例
请参照图4,图4为本发明第三实施例提供的一种可应用于本申请实施例中的电子设备的结构框图。本实施例提供的电子设备200可以包括文本识别装置100、存储器201、存储控制器202、处理器203、外设接口204、输入输出单元205、音频单元206、显示单元207。
所述存储器201、存储控制器202、处理器203、外设接口204、输入输出单元205、音频单元206、显示单元207各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文本识别装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器201中或固化在文本识别装置100的操作***(operating system,OS)中的软件功能模块。所述处理器203用于执行存储器201中存储的可执行模块,例如文本识别装置100包括的软件功能模块或计算机程序。
其中,存储器201可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器201用于存储程序,所述处理器203在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器203中,或者由处理器203实现。
处理器203可以是一种集成电路芯片,具有信号的处理能力。上述的处理器203可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器203也可以是任何常规的处理器等。
所述外设接口204将各种输入/输出装置耦合至处理器203以及存储器201。在一些实施例中,外设接口204,处理器203以及存储控制器202可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元205用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元205可以是,但不限于,鼠标和键盘等设备。
音频单元206向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元207在所述电子设备200与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元207可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器203进行计算和处理。
可以理解,图4所示的结构仅为示意,所述电子设备200还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本发明实施例提供了一种文本识别方法、装置及其存储介质,所述文本识别方法采用基于卷积神经网络的文本识别模型提取待处理文本的实体关系,由卷积神经网络来完成对文本语义信息的自动特征提取,进行实体关系的自动分类,不用人工编写大量的规则,减少了工作量,而且能够比较好的扩展到不同的领域;同时该文本识别模型还采用了注意力机制,能够根据人对待处理文本中各词的注意力分布规律对待处理文本中的词进行分类,从而提高实体关系抽取的准确度和效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种文本识别方法,其特征在于,所述文本识别方法包括:
获取待处理文本;
将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。
2.根据权利要求1所述的文本识别方法,其特征在于,在所述将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型之前,所述文本识别方法还包括:
建立所述基于卷积神经网络和注意力机制的文本识别模型。
3.根据权利要求2所述的文本识别方法,其特征在于,所述建立所述基于卷积神经网络和注意力机制的文本识别模型,包括:
获取由所述待处理文本组成的训练集;
提取所述训练集中的待处理文本的词向量矩阵、词性向量矩阵和最短依赖路径向量矩阵;
基于注意力机制对所述词向量矩阵的卷积特征、所述词性向量矩阵和所述最短依赖路径向量矩阵进行加权转换;
采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。
4.根据权利要求3所述的文本识别方法,其特征在于,在所述提取所述训练集中的待处理文本的词向量矩阵之后,以及基于注意力机制对所述词向量矩阵的卷积特征进行加权转换之前,所述文本识别方法还包括:
通过卷积神经网络提取出所述词向量矩阵的卷积特征。
5.根据权利要求3所述的文本识别方法,其特征在于,提取所述训练集中的待处理文本的词向量矩阵,包括:
对所述训练集中的待处理文本进行分词获得词序列,对所述词序列进行过滤获得关键词;
采用词嵌入技术或随机生成每个关键词的词向量,将所述词向量变换为所述待处理文本的词向量矩阵。
6.根据权利要求5所述的文本识别方法,其特征在于,提取所述训练集中的待处理文本的词性向量矩阵,包括:
对所述词序列中的每个词进行词性标注;
采用词嵌入技术或随机生成每个词性的词性向量,将所述词性向量变换为所述待处理文本的词性向量矩阵。
7.根据权利要求6所述的文本识别方法,其特征在于,提取所述训练集中的待处理文本的最短依赖路径向量矩阵,包括:
对词性标注后的词进行依存句法分析,获得实体间最短路径以及句子中起始和结束词的最短依赖路径;
基于所述实体间最短路径以及所述句子中起始和结束词的最短依赖路径获得最短依赖路经向量矩阵。
8.一种文本识别装置,其特征在于,所述文本识别装置包括:
获取模块,用于获取待处理文本;
实体关系确定模块,用于将所述待处理文本输入基于卷积神经网络和注意力机制的文本识别模型,获得所述文本识别模型输出的所述待处理文本的实体关系。
9.根据权利要求8所述的文本识别装置,其特征在于,所述文本识别装置还包括模型建立模块,所述模型建立模块包括:
训练集获取单元,用于获取由所述待处理文本组成的训练集;
矩阵提取单元,用于提取所述训练集中的待处理文本的词向量矩阵、词性向量矩阵和最短依赖路径向量矩阵;
注意力处理单元,用于基于注意力机制对所述词向量矩阵的卷积特征、所述词性向量矩阵和所述最短依赖路径向量矩阵进行加权转换;
分类训练单元,用于采用加权转换获得的特征信息对分类器进行训练,获得所述基于卷积神经网络和注意力机制的文本识别模型。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1-7任一项所述方法中的步骤。
CN201811305683.6A 2018-11-02 2018-11-02 一种文本识别方法、装置及其存储介质 Pending CN109446328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811305683.6A CN109446328A (zh) 2018-11-02 2018-11-02 一种文本识别方法、装置及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811305683.6A CN109446328A (zh) 2018-11-02 2018-11-02 一种文本识别方法、装置及其存储介质

Publications (1)

Publication Number Publication Date
CN109446328A true CN109446328A (zh) 2019-03-08

Family

ID=65550428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811305683.6A Pending CN109446328A (zh) 2018-11-02 2018-11-02 一种文本识别方法、装置及其存储介质

Country Status (1)

Country Link
CN (1) CN109446328A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110489545A (zh) * 2019-07-09 2019-11-22 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110502741A (zh) * 2019-07-11 2019-11-26 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN110909546A (zh) * 2019-11-27 2020-03-24 北京声智科技有限公司 一种文本数据的处理方法、装置、设备及介质
CN111523539A (zh) * 2020-04-15 2020-08-11 北京三快在线科技有限公司 一种文字检测方法及装置
CN111639185A (zh) * 2020-06-04 2020-09-08 虎博网络技术(上海)有限公司 关系信息抽取方法、装置、电子设备和可读存储介质
US20210042474A1 (en) * 2019-03-29 2021-02-11 Beijing Sensetime Technology Development Co., Ltd. Method for text recognition, electronic device and storage medium
CN112364125A (zh) * 2021-01-14 2021-02-12 杭州识度科技有限公司 一种联合阅读课程学习机制的文本信息抽取***及方法
WO2021051867A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN113342974A (zh) * 2021-06-10 2021-09-03 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取***
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取***
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘全: "基于多注意力卷积神经网络的特定目标情感分析", 《计算机研究与发展》 *
孙鑫: "问答中的问句意图识别和约束条件分析", 《中文信息学报》 *
王宝鑫: "基于深度神经网络的文本蕴含识别及应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12014275B2 (en) * 2019-03-29 2024-06-18 Beijing Sensetime Technology Development Co., Ltd. Method for text recognition, electronic device and storage medium
US20210042474A1 (en) * 2019-03-29 2021-02-11 Beijing Sensetime Technology Development Co., Ltd. Method for text recognition, electronic device and storage medium
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110110330B (zh) * 2019-04-30 2023-08-11 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110489545A (zh) * 2019-07-09 2019-11-22 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110502741A (zh) * 2019-07-11 2019-11-26 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN110502741B (zh) * 2019-07-11 2023-11-17 平安科技(深圳)有限公司 中文文本的识别方法及装置
WO2021051867A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN110909546A (zh) * 2019-11-27 2020-03-24 北京声智科技有限公司 一种文本数据的处理方法、装置、设备及介质
CN111523539A (zh) * 2020-04-15 2020-08-11 北京三快在线科技有限公司 一种文字检测方法及装置
CN111639185B (zh) * 2020-06-04 2023-06-02 虎博网络技术(上海)有限公司 关系信息抽取方法、装置、电子设备和可读存储介质
CN111639185A (zh) * 2020-06-04 2020-09-08 虎博网络技术(上海)有限公司 关系信息抽取方法、装置、电子设备和可读存储介质
CN112364125B (zh) * 2021-01-14 2021-06-25 杭州识度科技有限公司 一种联合阅读课程学习机制的文本信息抽取***及方法
CN112364125A (zh) * 2021-01-14 2021-02-12 杭州识度科技有限公司 一种联合阅读课程学习机制的文本信息抽取***及方法
CN113342974A (zh) * 2021-06-10 2021-09-03 国网电子商务有限公司 一种网络安全实体重叠关系的识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN109446328A (zh) 一种文本识别方法、装置及其存储介质
US10740678B2 (en) Concept hierarchies
CN106973244A (zh) 使用弱监督为图像配字幕
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
JP7096919B2 (ja) エンティティワードの認識方法と装置
CN110489755A (zh) 文本生成方法和装置
CN109214002A (zh) 一种文本对比方法、装置及其计算机存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN103838566A (zh) 信息处理装置和信息处理方法
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN109726712A (zh) 文字识别方法、装置及存储介质、服务器
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
CN112990035B (zh) 一种文本识别的方法、装置、设备以及存储介质
CN110427614A (zh) 段落层级的构建方法、装置、电子设备及存储介质
CN106537387B (zh) 检索/存储与事件相关联的图像
CN108229527A (zh) 训练及视频分析方法和装置、电子设备、存储介质、程序
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN106611058A (zh) 一种试题搜索方法及装置
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114092948B (zh) 一种票据识别方法、装置、设备以及存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN109766442A (zh) 一种对用户笔记进行分类的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308