CN114626378A - 命名实体识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

命名实体识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114626378A
CN114626378A CN202011529431.9A CN202011529431A CN114626378A CN 114626378 A CN114626378 A CN 114626378A CN 202011529431 A CN202011529431 A CN 202011529431A CN 114626378 A CN114626378 A CN 114626378A
Authority
CN
China
Prior art keywords
word
address text
named entity
sample
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011529431.9A
Other languages
English (en)
Other versions
CN114626378B (zh
Inventor
肖韧
杨秀武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Asiainfo Technologies China Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technologies China Inc filed Critical Asiainfo Technologies China Inc
Priority to CN202011529431.9A priority Critical patent/CN114626378B/zh
Publication of CN114626378A publication Critical patent/CN114626378A/zh
Application granted granted Critical
Publication of CN114626378B publication Critical patent/CN114626378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例提供了一种命名实体识别方法、装置、电子设备及计算机可读存储介质,涉及人工智能领域,通过将待解析的地址文本中每一个字映射成对应的字向量得到字向量序列,再分别确定字向量序列中的每个字向量对应于不同预设类别标签的得分,根据该得分和预设的转移矩阵获取标注序列,完成对地址文本的解析。该解析过程不需要事先配置地址层级,也不需要设置地址解析规则,就可以较好学习地址文本的上下文关系,提升对地址文本分词和解析的效率以及准确性。

Description

命名实体识别方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种命名实体识别方法、装置、电子设备及计算机可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理领域中一项基础任务,是信息提取、问答***、句法分析、机器翻译等众多自然语言处理任务的重要基础工具,可以识别自然文本中的实体指称的边界和类别。
目前,对地址文本进行命名实体识别时,现有技术方案一般是先构建行政区划数据库,然后构建自定义地域词典。在地址解析过程中,先分词,再根据分词后词的先后顺序结合决策树进行搜索得到地址的结构信息。其中,需要人工配置行政区划数据并建立级联关系和定义地址解析规则,当地址文本的格式与格式模板相差较大时,可能会得到错误的分词和解析结果,准确性不高。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是地址文本解析结果准确性不高的技术缺陷。
第一方面,提供了一种命名实体识别的方法,该方法包括:
获取待解析的地址文本;
基于预设的识别模型执行如下步骤:
将地址文本中的至少一个目标字分别映射成对应的目标字向量,基于目标字向量得到字向量序列;
分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分;
基于得分和预设的转移矩阵获取标注序列。
在第一方面的可选实施例中,将地址文本中的至少一个目标字映射成对应的目标字向量,包括:
基于预设的查询表确定地址文本中至少一个目标字对应的目标字向量;查询表包括多个字,以及每一字对应的字向量;
在第一方面的可选实施例中,分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分,包括:
提取字向量序列中的前向特征,得到前向隐向量;
提取字向量序列中的后向特征,得到后向隐向量;
将前向隐向量和后向隐向量进行拼接,得到目标隐向量;目标隐向量包括字向量对应于不同预设的类别标签的得分。
在第一方面的可选实施例中,基于得分和预设的转移矩阵获取标注序列,包括:
基于得分和转移矩阵确定最优路径;
基于最优路径获取标注序列。
在第一方面的可选实施例中,基于得分和转移矩阵确定最优路径,包括:
转移矩阵包括类别标签间不同转移路径的转移分数;
将得分作为发射分数,确定字向量对应于不同预设的类别标签的发射分数;
基于转移分数和发射分数获取最优路径。
在第一方面的可选实施例中,获取待解析的地址文本之前,还包括:
获取样本地址文本;所述样本地址文本中每个字设置对应的样本类别标签;
根据样本地址文本和样本类别标签对初始识别模型进行训练,得到识别模型;识别模型的参数中包括转移矩阵。
第二方面,提供了一种命名实体识别的装置,其特征在于,包括:
获取模块,用于获取待解析的地址文本;
映射模块,用于基于预设的识别模型将地址文本中的至少一个目标字分别映射成对应的目标字向量,基于目标字向量得到字向量序列;
确定模块,用于基于识别模型分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分;
标注模块,用于通过识别模型基于得分和预设的转移矩阵获取标注序列。
在第二方面的可选实施例中,映射模块在将地址文本中的至少一个目标字映射成对应的目标字向量时,具体用于:
基于预设的查询表确定地址文本中至少一个目标字对应的目标字向量;查询表包括多个字,以及每一字对应的字向量。
在第二方面的可选实施例中,确定模块在分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分时,具体用于:
提取字向量序列中的前向特征,得到前向隐向量;
提取字向量序列中的后向特征,得到后向隐向量;
将前向隐向量和后向隐向量进行拼接,得到目标隐向量;目标隐向量包括字向量对应于不同预设的类别标签的得分。
在第二方面的可选实施例中,标注模块在基于得分和预设的转移矩阵获取标注序列时,具体用于:
基于得分和转移矩阵确定最优路径;
基于最优路径获取标注序列。
在第二方面的可选实施例中,标注模块在基于得分和转移矩阵确定最优路径时,具体用于:
转移矩阵包括类别标签间不同转移路径的转移分数;
将得分作为发射分数,确定字向量对应于不同预设的类别标签的发射分数;
基于转移分数和发射分数获取最优路径。
在第二方面的可选实施例中,还包括训练模块,具体用于:
获取样本地址文本;所述样本地址文本中每个字设置有对应的样本类别标签;
根据样本地址文本和样本类别标签对初始识别模型进行训练,得到识别模型;识别模型的参数中包括转移矩阵。
在第二方面的可选实施例中,训练模块在根据样本地址文本和样本类别标签对初始识别模型进行训练时,具体用于:
将样本地址文本输入初始识别模型,获取样本地址文本对应的标注结果;初始识别模型的参数中包括初始转移矩阵;
基于样本类别标签和标注结果确定负对数似然函数,将负对数似然函数作为初始识别模型的损失函数;
根据地址文本样本对初始识别模型进行训练,得到训练后的识别模型,以及识别模型中的转移矩阵。
第三方面,提供了一种电子设备,该电子设备包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例的命名实体识别方法。
第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述任一实施例的命名实体识别方法。
上述的命名实体识别方法,通过将待解析的地址文本中每一个字映射成对应的字向量得到字向量序列,再分别确定字向量序列中的每个字向量对应于不同预设类别标签的得分,根据该得分和预设的转移矩阵获取标注序列,完成对地址文本的解析,不需要事先配置地址层级,也不需要地址解析规则,可以较好学习地址文本的上下文关系,提升对地址文本分词和解析的效率以及准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种命名实体识别方法的流程示意图;
图2为本申请实施例提供的一种命名实体识别方法中的对字进行编码的示意图;
图3为本申请实施例提供的一种命名实体识别方法中通过Eembedding将稀疏矩阵映射为保留语义关系低维矩阵的示意图;
图4为本申请实施例提供的一种命名实体识别方法中的LSTM单元示意图;
图5为本申请实施例提供的一种命名实体识别方法中的BILSTM层的示意图;
图6为本申请实施例提供的一种命名实体识别方法中的模型总体架构示意图;
图7为本申请实施例提供的一种命名实体识别方法的流程示意图;
图8为本申请实施例提供的一种命名实体识别装置的结构示意图;
图9为本申请实施例提供的一种命名实体识别的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式进一步的详细描述。
自然语言是人类智慧的结晶,而NLP(Natural Language Processing,自然语言处理)是指人工智能的一个子领域,在人工智能发展飞速的当下,在越来越多的领域中,人工智能都能有不俗的成就,但自然语言处理仍然是人工智能中最为困难的问题之一。
命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务,是信息提取、问答***、句法分析、机器翻译等众多NLP任务的重要基础工具,对文本中具有特定意义的实体,例如人名、地名、机构名、专有名词等进行分词和解析,具体的,就是识别自然文本中的实体指称的边界和类别。
当对地址文本进行命名实体识别时,现有技术方案一般是先构建行政区划数据库,然后构建自定义地域词典。在地址解析过程中,先分词,再根据分词后词的先后顺序结合决策树进行搜索得到地址的结构信息。其中,需要人工配置行政区划数据并建立级联关系和定义地址解析规则,当地址文本的格式与格式模板相差较大时,可能会得到错误的分词和解析结果。由于数据库和地址解析规则是人工配置,随着地址文本涉及的实体名称增加,解析规则和数据库中包含的级联关系要不断进行调整、修改及增补,维护成本较高。
此外,通用分词方法容易将地址文本中的实体名称碎片化,使分词后的实体名称与类别标签匹配度较差,影响最终的解析结果,解析的准确性不高。
本申请提供的命名实体识别的方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例中提供的命名实体识别的方法,该方法可以应用于服务器,也可以应用于终端。
本技术领域技术人员可以理解,这里所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、MID(Mobile Internet Device,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请实施例中提供了一种命名实体识别的方法,该方法可以应用于服务器,也可以应用于终端,如图1所示,该方法可以包括:
步骤S100,获取待解析的地址文本。
在本申请实施例中,待解析的地址文本是指将要进行分词和解析的地址文本,地址文本可以是中文也可以其他语言。
地址文本的获取方法可以是从本地文本中选择,可以是在应用客户端中读取用户的输入,还可以是在邮政快递等领域中经摄像设备扫描所得,具体获取方法在本申请中不做限制。
步骤S200,将地址文本中的至少一个目标字分别映射成对应的目标字向量,基于目标字向量得到字向量序列。
在本申请实施例中,可以将地址文本中的每个字都映射成对应的字向量,以便通过向量空间中的距离来表示语义上相似或有关联的字。
具体的,可以从地址文本包括的字中选取未映射的目标字,基于预设的查询表确定该目标字对应的目标字向量。其中,查询表包括多个字,以及每一字对应的字向量。
在本申请实施例中,可以通过深度学习领域中的字向量嵌入(Eembedding)层来将字映射成字向量。
具体的,可以先从涵盖面较广的字数据集中选择出现频率高的预设数量的字,将这些字当作高频常用字,预设数量的大小可以根据需求确定,可以通过实验检验来选取一个较为合适的值。
进一步地,可以再对选择出的字进行编码,编码会使高频常用字被表示为稀疏张量,稀疏张量具有非常少的非零元素,因此当数据量大时,非常占用资源,并且难以体现字与字之间的上下文关系,此时可以进一步通过一个全连接的神经网络将稀疏张量映射成低维的字向量,使每个字都有对应的字向量,即得到包括高频常用字及其字向量的查询表。
可以从地址文本包括的字中选取未映射的目标字,将目标字映射成目标字向量的过程可以类似于查找表的过程,即基于上述步骤得到得查询表,来确定目标字对应的目标字向量。
在一个示例中,当地址文本的语言为中文时,可以从汉字全集的数据集中抽取出现频率最高的10000个汉字,可以对该10000个汉字进行One-hot(独热)方法编码。
其中,One-hot方法编码获得的字向量具有两个性质:高维、稀疏,如图2所示,假设有一句话为“我爱中国”,可以得到如图所示的编码结果。
对10000个汉字进行One-hot编码后,每个汉字都对应于一个维度为10000的1-hot向量,可以将这10000个1-hot向量看作一个稀疏矩阵,字向量嵌入(Eembedding)层会通过全连接神经网络的映射将该稀疏矩阵转换为保留语义关系的低维矩阵,例如,如图3所示,将每个1-hot向量映射为一个300维的字向量后,得到一个包含汉字上下文关系、10000*300的权重参数矩阵,将该权重参数矩阵作为查询表。
将地址文本中选取出的目标字映射成一个300维向量的过程可以类似于查找表的过程,根据目标子得到目标字的索引标号,根据索引标号在查询表中进行检索,得到该目标子对应的一个300维的行向量,即目标字向量。
在本申请实施例中,Embedding层的权重可以用预训练模型代替,若由预训练模型代替Embedding层,可以不需要事先训练权重参数。
在本申请实施例中,可以采用BERT(Bidirectional Encoder Representationsfrom Transformers)预训练模型作为Embedding层。
其中,BERT模型适合句子和段落级别的任务,同时在处理高层语义信息提取任务时有较好的性能,其优点是能够获取上下文相关的双向特征表示。
在本申请实施例中,可以通过深度学习领域中的字向量嵌入(Eembedding)层来将字映射成字向量,将大型稀疏向量转换为保留语义关系的低维空间,减少资源占用,保留了大量字与字之间的内在关系,并且这个关系会在训练过程中变得相对成熟。
步骤S300,分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分。
在本申请实施例中,字向量序列可以是由地址文本中的每个字对应的字向量组合而成,可以通过字向量序列确定其中每一字向量对应于不同预设的类别标签的得分,充分考虑到某类语言中的字与字之间的上下文关系。
其中,预设的标签类别可以是基于序列标注(Sequence labeling)问题中的标签方案设置。
具体的,可以使用BIO标注方案,将地址文本中的每个元素(字)标注为“B-X”、“I-X”或者“O”,其中“B-X”表示该元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
还可以使用BIOES标注方案,其中“B-X”表示该元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型,“E-X”表示表示该元素所在的片段属于X类型并且此元素在此片段的结尾,“S”表示该元素自己就可以组成一个实体。
标注方案还可以基于其他通用标注方案优化所得,还可以针对某个应用领域的需求设置,在本申请中不做限制。
通过字向量序列确定其中每一字向量对应于不同预设的类别标签的得分可以是指:确定每一个字向量针对每一个类别标签的得分。例如有w1和w2两个字向量,有A、B两个类别标签,即分别确定w1、w2针对类别标签A和类别标签B的得分,得分用来体现该字向量预测的标注结果为该标签的概率大小。
步骤S400,基于得分和预设的转移矩阵获取标注序列。
在本申请实施例中,得分可以是来自BILSTM层的输出,地址文本中的每个字针对不同的类别标签可以有不同的得分。
预设的转移矩阵可以是通过训练初始识别网络获得,转移矩阵中可以包括类别标签间不同转移路径的转移分数。基于得分转移分数可以用来计算从地址文本首个字到最后一个字的最优路径,即考虑自然语言的语义联系后概率最大的标签序列,完成对地址文本进行整体解析的目的。
在本申请实施例中,步骤S300,分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分,可以包括如下步骤:
(1)提取字向量序列中的前向特征,得到前向隐向量;
(2)提取字向量序列中的后向特征,得到后向隐向量;
(3)将前向隐向量和后向隐向量进行拼接,得到目标隐向量;目标隐向量包括字向量对应于不同预设的类别标签的得分。
在本申请实施例中,可以利用BILSTM(Bi-directional Long Short-TermMemory,双向长短记忆神经网络层)确定字向量序列中每一字向量对应于不同预设的类别标签的得分。
LSTM(Long Short-Term Memory,长短记忆神经网络层),它是RNN(RecurrentNeural Network,循环神经网络)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。BILSTM是由前向LSTM与后向LSTM组合而成,在自然语言处理任务中都常被用来建模上下文信息。
其中,LSTM单元示意图如图4所示,主要包括一个细胞单元和三个门控单元,细胞单元用于保存和传递状态信息;三个门控单元分别是遗忘门、输入门和输出门:
(1)遗忘门(Forget Gate):LSTM的原始输入及隐层状态经过遗忘门后产生遗忘信号,该信号决定应该舍弃上一个时间点t-1的哪些细胞状态的信息,公式(1,1)如下:
ft=σ(Wf·[ht-1,xt]+bf) (1.1)
(2)输入门(Input Gate):输入门同样从t-1时间点的隐层状态和当前时间t的输入产生输入信息的开关信号,对t时间点产生的输入信息
Figure BDA0002851778680000102
进行过滤决定哪些可以进入细胞状态,公式(1.2)和公式(1.3)如下:
it=σ(Wi·[ht-1,xt]+bi) (1.2)
Figure BDA0002851778680000101
(3)输出门(Output Gate):输出门和上述两个门类似,其输入信号来自t-1时刻的隐层状态和t时刻的输入,输出门产生一个开关信号,决定细胞状态经过激活以后的哪些部分可以通过输出门作为输出信息,公式(1.4)和公式(1.5)如下:
ot=σ(Wo·[ht-1,xt]+bo) (1.4)
ht=ot*tanh(Ct) (1.5)
在LSTM中,Ct携带的信息经过由当前时刻的输入构成的输出门限制之后,含有更多的当前时刻的信息,因此得到的ht与Ct相比可以说是具有短期记忆的,而Ct则是具有长期记忆的。
BILSTM可以由两个不同方向的LSTM单元组成,即一个正向的LSTM用来利用过去的信息,一个反向的LSTM用来利用未来的信息,在时刻t,就能同时利用t-1时刻的信息和t+1时刻的信息,比单向LSTM的预测更加准确。
在本申请实施例中,可以使用两个不同方向的LSTM单元组成BILSTM,BILSTM可以逐个接收Embedding层输出的字向量,对应产生将传递给下一神经网络层的输出向量。沿时间轴展开后的BILSTM层如图5所示,从左到右和从右到左分别有两个单独的LSTM单元接收输入数据,然后将不同方向的输出拼接成最终的输出数据。
在一个示例中,模型的第一层可以是Embedding层,将地址文本中的每个字由对应的One-hot向量映射为低维稠密的字向量,模型的第二层可以是BILSTM层,可以自动提取句子特征了,将地址文本的各个字的字向量组成的字向量序列作为BILSTM各个时间步的输入,可以将前向LSTM的输出作为前向隐向量,可以将后向LSTM的输出作为后向隐向量,将两者在各个位置输出的隐状态按位置进行拼接,得到完整的隐向量序列(目标隐向量),隐向量序列中包括了每个字针对不同类别标签的得分。
在本申请实施例中,基于得分和预设的转移矩阵获取标注序列时,可以先基于得分和转移矩阵确定最优路径,再基于最优路径获取标注序列。
在本申请实施例中,基于得分和转移矩阵确定最优路径,可以包括如下步骤:
(1)转移矩阵包括类别标签间不同转移路径的转移分数;将得分作为发射分数,确定字向量对应于不同预设的类别标签的发射分数。
具体的,转移矩阵可以是通过训练初始识别网络获得,转移矩阵中可以包括类别标签间不同转移路径的转移分数。得分可以是来自BiLSTM层的输出,地址文本中的每个字针对不同的类别标签可以有不同的得分,可以将得分作为发射分数。
(2)基于转移分数和发射分数获取最优路径。
在本申请实施例中,可以通过CRF(Conditional Random Fields,条件随机场)来基于得分和转移矩阵确定最优路径。
其中,CRF是马尔科夫随机场的特例,属于无向概率图模型,可以用于句子级的序列标注问题,考虑整个句子的局部特征的线性加权组合,即通过特征模板取扫描整个句子,通过找到一个概率最高的序列来完成对整个序列的预测结果进行优化。
具体的,不同类别标签间转移路径可以表示整体序列不同的预测结果,不同预测结果的得分可以由两部分得到,一部分可以是由BILSTM输出的每个字向量针对不同类别标签的得分即发射分数,另一部分可以是由CRF中转移矩阵确定的不同路径的转移分数,可以利用softmax层进行处理,得到归一化后针对序列整体不同预测结果对应的概率。
在一个示例中,CRF再预测过程中可以使用动态规划的维特比(Viterbi)算法来求解最优路径,即在进行每种路径的得分时,可以复用之前的计算信息,不必在后面重新计算。其中,维特比算法是一个特殊但性能较好的动态规划算法,利用动态规划,可以解决一个图中的最短路径问题。
在本申请实施例中,可以通过CRF来基于得分和转移矩阵确定最优路径,将输出层面的关联性分离出来,通过训练语料学习得到一些基于全局的约束信息,使得在预测标签时可以充分考虑上下文关联,同时利用动态规划的方法求出概率最大的路径,这与命名实体识别的任务契合得更好,提高预测的准确性。
在本申请实施例中,获取待解析的地址文本之前,还包括:获取样本地址文本;样本地址文本中每个字设置有对应的样本类别标签;根据样本地址文本和样本类别标签对初始识别模型进行训练,得到识别模型;识别模型的参数中包括转移矩阵。
其中,样本地址文本可以是实际生产***运行过程中记录下来的真实中文邮政地址,对这些地址进行分词和标注,标注结果可以与地址中的每个汉字一一对应。
初始识别模型可以分为三层,底层可以是Embedding层,中层可以是BILSTM层,上层可以是CRF(条件随机场)层,可以根据样本地址文本和样本类别标签对该初始识别模型进行训练,得到识别模型。其中,识别模型的参数中包括转移矩阵,转移矩阵中的权重参数将随着模型训练过程而变化。
在本申请实施例中,根据样本地址文本和样本类别标签对初始识别模型进行训练,可以包括如下步骤:
(1)将样本地址文本输入初始识别模型,获取样本地址文本对应的标注结果;初始识别模型的参数中包括初始转移矩阵。
具体的,初始转移矩阵可以是初始识别模型的一个参数,可以在模型训练前,对初始转移矩阵进行随机初始化,初始转移矩阵中的权重参数将随着训练的迭代过程被更新。还可以在初始转移矩阵中,加上“START”和“END”两类标签,“START”表示一个文本段的开头,“END”标识一个文本段的结尾。
可以将样本地址文本输入初始识别模型,输出针对该地址文本对应的序列标注结果。
(2)基于样本类别标签和标注结果确定负对数似然函数,将负对数似然函数作为初始识别模型的损失函数;
具体的,可以由模型计算出预测的标注结果针对于人工标注的样本类别标签的负对数似然函数作为初始识别模型的损失函数,然后在训练过程中,可以通过随机梯度下降法使损失函数达到最小值以优化模型。
(3)根据地址文本样本对初始识别模型进行训练,得到训练后的识别模型,以及识别模型中的转移矩阵。
可以根据地址文本样本对初始识别模型进行训练得到训练后的识别模型,识别模型中包括了转移矩阵,转移矩阵中的权重参数随着训练的迭代过程已经更新,网络可以自己学习到基于全局特征的一些约束条件。
在本申请实施例中,识别网络模型可以由三层构成,模型总体架构如图6所示,底层是Embedding层,中层是BILSTM层,上层是CRF(条件随机场)层。具体的,当地址文本为中文,经过Embedding层得到高维字向量,将这些字向量作为BILSTM层的输入,生成一个多维向量序列,该序列经过CRF层,映射成最终的标注序列。
为了更清楚阐释本申请的自然语言处理方法,以下将结合具体示例对自然语言处理方法进行进一步说明。
在一个示例中,本申请提供自然语言处理方法,如图7,包括如下步骤:
步骤S701,收集中文地址样本,通过分词和标注确定每个汉字对应的标注信息;
步骤S702,将中文地址样本作为初始神经网络模型的输入,获取模型输出的标注结果对应于标注信息的负对数似然,将该负对数似然作为初始神经网络的损失函数;
步骤S703,对初始神经网络模型进行训练,通过随机梯度下降法使损失函数达到最小值,获取训练后的神经网络模型;
步骤S704,基于神经网络模型将该中文地址中的每个汉字映射成对应的多维的字向量,例如,可以将特定汉字映射成一个300维的行向量,维数和其中权重参数可以由查询表决定,其中,查询表可以是根据10000个高频汉字进行1-hot编码后,再经过全连接的神经网络变换获得的,查询表的大小可以为10k*300;
步骤S705,分别提取字向量序列中的前向特征和后向特征,得到前向隐向量和后向隐向量;
步骤S706,将前向隐向量和后向隐向量进行拼接,得到每个字向量对应于不同类别标签的得分;
步骤S707,基于每个字向量对应于不同类别标签的得分确定发射分数,基于转移矩阵确定转移分数。
步骤S708,基于发射分数、转移分数使用动态规划算法找出得分最高的路径作为最优路径,根据最优路径进行序列标注,获取最终的标注序列。
本申请实施例提供了一种命名实体识别的装置,如图8所示,该图像处理装置800可以包括:获取模块8001、映射模块8002、确定模块8003以及标注模块8004,其中,
获取模块8001,用于获取待解析的地址文本;
映射模块8002,用于基于预设的识别模型将地址文本中的至少一个目标字分别映射成对应的目标字向量,基于目标字向量得到字向量序列;
确定模块8003,用于基于识别模型分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分;
标注模块8004,用于通过识别模型基于得分和预设的转移矩阵获取标注序列。
上述的命名实体识别装置,通过将待解析的地址文本中每一个字映射成对应的字向量得到字向量序列,再分别确定字向量序列中的每个字向量对应于不同预设类别标签的得分,根据该得分和预设的转移矩阵获取标注序列,完成对地址文本的解析,不需要事先配置地址层级,也不需要地址解析规则,可以较好学习地址文本的上下文关系,提升对地址文本分词和解析的效率以及准确性。
本申请实施例中,映射模块8002在将地址文本中的至少一个目标字映射成对应的目标字向量时,具体用于:
基于预设的查询表确定地址文本中至少一个目标字对应的目标字向量;查询表包括多个字,以及每一字对应的字向量。
本申请实施例中,确定模块8003在分别确定字向量序列中每一字向量对应于不同预设的类别标签的得分时,具体用于:
提取字向量序列中的前向特征,得到前向隐向量;
提取字向量序列中的后向特征,得到后向隐向量;
将前向隐向量和后向隐向量进行拼接,得到目标隐向量;目标隐向量包括字向量对应于不同预设的类别标签的得分。
本申请实施例中,标注模块8004在基于得分和预设的转移矩阵获取标注序列时,具体用于:
基于得分和转移矩阵确定最优路径;
基于最优路径获取标注序列。
本申请实施例中,标注模块8004在基于得分和转移矩阵确定最优路径时,具体用于:
转移矩阵包括类别标签间不同转移路径的转移分数;
将得分作为发射分数,确定字向量对应于不同预设的类别标签的发射分数;
基于转移分数和发射分数获取最优路径。
本申请实施例中,还包括训练模块,具体用于:
获取样本地址文本;样本地址文本中每个字设置有对应的样本类别标签;
根据样本地址文本和样本类别标签对初始识别模型进行训练,得到识别模型;识别模型的参数中包括转移矩阵。
本申请实施例中,训练模块在根据样本地址文本和样本类别标签对初始识别模型进行训练时,具体用于:
将样本地址文本输入初始识别模型,获取样本地址文本对应的标注结果;初始识别模型的参数中包括初始转移矩阵;
基于样本类别标签和标注结果确定负对数似然函数,将负对数似然函数作为初始识别模型的损失函数;
根据地址文本样本对初始识别模型进行训练,得到训练后的识别模型,以及识别模型中的转移矩阵。
本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:通过将待解析的地址文本中每一个字映射成对应的字向量得到字向量序列,再分别确定字向量序列中的每个字向量对应于不同预设类别标签的得分,根据该得分和预设的转移矩阵获取标注序列,完成对地址文本的解析,不需要事先配置地址层级,也不需要地址解析规则,可以较好学习地址文本的上下文关系,提升对地址文本分词和解析的效率以及准确性。
在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于诸如移动电话、笔记本电脑、PAD等等移动终端以及诸如数字TV、台式计算机等等固定终端。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种命名实体识别的方法,其特征在于,包括:
获取待解析的地址文本;
基于预设的识别模型执行如下步骤:
将所述地址文本中的至少一个目标字分别映射成对应的目标字向量,基于所述目标字向量得到字向量序列;
分别确定所述字向量序列中每一所述字向量对应于不同预设的类别标签的得分;
基于所述得分和所述预设的转移矩阵获取标注序列。
2.根据权利要求1所述的命名实体识别方法,其特征在于,将所述地址文本中的至少一个目标字映射成对应的目标字向量,包括:
基于预设的查询表确定所述地址文本中至少一个目标字对应的目标字向量;所述查询表包括多个字,以及每一字对应的字向量。
3.根据权利要求1所述的命名实体识别方法,其特征在于,分别确定所述字向量序列中每一所述字向量对应于不同预设的类别标签的得分,包括:
提取所述字向量序列中的前向特征,得到前向隐向量;
提取所述字向量序列中的后向特征,得到后向隐向量;
将所述前向隐向量和所述后向隐向量进行拼接,得到目标隐向量;所述目标隐向量包括所述字向量对应于不同预设的所述类别标签的得分。
4.根据权利要求1所述的命名实体识别方法,其特征在于,基于所述得分和所述预设的转移矩阵获取标注序列,包括:
基于所述得分和所述转移矩阵确定最优路径;
基于所述最优路径获取所述标注序列。
5.根据权利要求4所述的命名实体识别方法,其特征在于,基于所述得分和所述转移矩阵确定最优路径,包括:
所述转移矩阵包括所述类别标签间不同转移路径的转移分数;
将所述得分作为发射分数,确定所述字向量对应于不同预设的所述类别标签的发射分数;
基于转移分数和发射分数获取所述最优路径。
6.根据权利要求5所述的命名实体识别方法,其特征在于,获取待解析的地址文本之前,还包括:
获取样本地址文本;所述样本地址文本中每个字设置有对应的样本类别标签;
根据所述样本地址文本和所述样本类别标签对初始识别模型进行训练,得到所述识别模型;所述识别模型的参数中包括所述转移矩阵。
7.根据权利要求6所述的命名实体识别方法,其特征在于,根据所述样本地址文本和所述样本类别标签对初始识别模型进行训练,包括:
将所述样本地址文本输入初始识别模型,获取所述样本地址文本对应的标注结果;所述初始识别模型的参数中包括初始转移矩阵;
基于所述样本类别标签和所述标注结果确定负对数似然函数,将所述负对数似然函数作为所述初始识别模型的损失函数;
根据所述地址文本样本对初始识别模型进行训练,得到训练后的识别模型,以及识别模型中的转移矩阵。
8.一种命名实体识别的装置,其特征在于,包括:
获取模块,用于获取待解析的地址文本;
映射模块,用于基于预设的识别模型将所述地址文本中的至少一个目标字分别映射成对应的目标字向量,基于所述目标字向量得到字向量序列;
确定模块,用于基于所述识别模型分别确定所述字向量序列中每一所述字向量对应于不同预设的类别标签的得分;
标注模块,用于通过所述识别模型基于所述得分和所述预设的转移矩阵获取标注序列。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述的命名实体识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述的命名实体识别方法。
CN202011529431.9A 2020-12-22 2020-12-22 命名实体识别方法、装置、电子设备及计算机可读存储介质 Active CN114626378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011529431.9A CN114626378B (zh) 2020-12-22 2020-12-22 命名实体识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011529431.9A CN114626378B (zh) 2020-12-22 2020-12-22 命名实体识别方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114626378A true CN114626378A (zh) 2022-06-14
CN114626378B CN114626378B (zh) 2024-06-18

Family

ID=81897507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011529431.9A Active CN114626378B (zh) 2020-12-22 2020-12-22 命名实体识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114626378B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781387A (zh) * 2022-06-20 2022-07-22 北京惠每云科技有限公司 一种医学命名实体识别方法、装置、电子设备及存储介质
CN118171656A (zh) * 2024-05-14 2024-06-11 北京嘉和海森健康科技有限公司 一种一词多实体识别方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及***
CN110489523A (zh) * 2019-07-31 2019-11-22 西安理工大学 一种基于网购评价的细粒度情感分析方法
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CN111339764A (zh) * 2019-09-18 2020-06-26 华为技术有限公司 一种中文命名实体识别方法以及装置
CN111538816A (zh) * 2020-07-09 2020-08-14 平安国际智慧城市科技股份有限公司 基于ai识别的问答方法、装置、电子设备及介质
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及***
CN110489523A (zh) * 2019-07-31 2019-11-22 西安理工大学 一种基于网购评价的细粒度情感分析方法
CN111339764A (zh) * 2019-09-18 2020-06-26 华为技术有限公司 一种中文命名实体识别方法以及装置
CN110688449A (zh) * 2019-09-20 2020-01-14 京东数字科技控股有限公司 基于深度学习的地址文本处理方法、装置、设备及介质
CN111538816A (zh) * 2020-07-09 2020-08-14 平安国际智慧城市科技股份有限公司 基于ai识别的问答方法、装置、电子设备及介质
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781387A (zh) * 2022-06-20 2022-07-22 北京惠每云科技有限公司 一种医学命名实体识别方法、装置、电子设备及存储介质
CN118171656A (zh) * 2024-05-14 2024-06-11 北京嘉和海森健康科技有限公司 一种一词多实体识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN114626378B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110727779A (zh) 基于多模型融合的问答方法及***
CN110263325B (zh) 中文分词***
CN112464641A (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库***及方法
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN115495555A (zh) 一种基于深度学习的文献检索方法和***
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN114626378B (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及***
CN114781380A (zh) 一种融合多粒度信息的中文命名实体识别方法、设备和介质
CN116955644A (zh) 基于知识图谱的知识融合方法、***及存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
CN117034942A (zh) 一种命名实体识别方法、装置、设备及可读存储介质
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及***
CN116595982A (zh) 一种基于动态图卷积的嵌套命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant