CN111144102A - 用于识别语句中实体的方法、装置和电子设备 - Google Patents

用于识别语句中实体的方法、装置和电子设备 Download PDF

Info

Publication number
CN111144102A
CN111144102A CN201911373507.0A CN201911373507A CN111144102A CN 111144102 A CN111144102 A CN 111144102A CN 201911373507 A CN201911373507 A CN 201911373507A CN 111144102 A CN111144102 A CN 111144102A
Authority
CN
China
Prior art keywords
language
entity
classified
entities
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911373507.0A
Other languages
English (en)
Other versions
CN111144102B (zh
Inventor
王萌萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201911373507.0A priority Critical patent/CN111144102B/zh
Publication of CN111144102A publication Critical patent/CN111144102A/zh
Application granted granted Critical
Publication of CN111144102B publication Critical patent/CN111144102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种用于识别语句中实体的方法,包括:获取第一语言的待处理语句,第一语言为日语。从待处理语句中提取候选实体。将候选实体与第二语言的已分类实体集进行匹配,以筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。然后,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。本公开还提供了一种用于识别语句中实体的装置和电子设备。

Description

用于识别语句中实体的方法、装置和电子设备
技术领域
本公开涉及一种用于识别语句中实体的方法、装置和电子设备。
背景技术
在基于传统机器学习的方法中,语句中实体的识别被当作序列标注问题。利用大规模语料来学习出标注模型,从而对语句的各个位置进行标注,以识别出各个位置是否存在实体。然而,基于此种实体识别方式,在识别第一语言的待处理语句中的实体时,如果没有该第一语言的已分类实体集,则需要耗费大量的时间收集第一语言的语料并进行标注,然后才能训练得到标注模型再基于该标注模型进行实体分类。
发明内容
本公开的一个方面提供了一种用于识别语句中实体的方法,包括:获取第一语言的待处理语句,第一语言为日语。从待处理语句中提取候选实体。将候选实体与第二语言的已分类实体集进行匹配,以筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。然后,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。
可选地,上述从待处理语句中提取候选实体包括:从待处理语句中提取第一语言的候选实体,并将第一语言的候选实体转换为第二语言的候选实体。
可选地,上述从待处理语句中提取第一语言的候选实体包括:从待处理语句中提取不包含日语假名和汉字的连续字符串作为第一语言的候选实体。备选地或附加地,从待处理语句中提取连续的片假名作为第一语言的候选实体。
可选地,上述第二语言的已分类实体集包括多个已分类实体,该多个已分类实体中的任一已分类实体带有标注信息,该标注信息用于表征任一已分类实体所属的类别。
可选地,上述将候选实体与第二语言的已分类实体集进行匹配包括:一方面,获取第二语言的候选实体的第一向量表示,另一方面,获取第二语言的已分类实体集中的任一已分类实体的第二向量表示。然后,计算第一向量表示和第二向量表示之间的相似度。在此基础上,上述筛选出匹配度高于预定阈值的候选实体作为待分类实体包括:如果计算得到的相似度高于预定阈值,则确定第二语言的候选实体为待分类实体。
可选地,上述利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别包括:将待分类实体的第一向量表示输入至分类模型,然后基于分类模型的输出确定待分类实体所属的类别。
可选地,上述获取第二语言的候选实体的第一向量表示包括:一方面,将第二语言的候选实体中的任一字符转换为特征值,以得到针对候选实体的字符向量。另一方面,获取第二语言的候选实体中关于指定特征的特征值。然后将字符向量和关于指定特征的特征值组合为第一向量表示。
可选地,上述指定特征包括如下至少一项:第二语言的候选实体中是否包含单词,第二语言的候选实体中是否包含数字,第二语言的候选实体中是否包含特定符号,以及第二语言的候选实体的长度。
本公开的另一方面提供了一种用于识别语句中实体的装置,包括:获取模块、提取模块、匹配模块、筛选模块和识别模块。获取模块用于获取第一语言的待处理语句,第一语言为日语。提取模块用于从待处理语句中提取候选实体。匹配模块用于将候选实体与第二语言的已分类实体集进行匹配,第二语言为英语。筛选模块用于筛选出匹配度高于预定阈值的候选实体作为待分类实体。识别模块用于利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,所述分类模型基于所述第二语言的已分类实体集训练得到。
本公开的另一方面提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。处理器执行计算机程序时用于实现:获取第一语言的待处理语句,第一语言为日语。从待处理语句中提取候选实体。将候选实体与第二语言的已分类实体集进行匹配,以筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。然后,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的用于识别语句中实体的方法和装置的应用场景;
图2示意性示出了根据本公开实施例的用于识别语句中实体的方法的流程图;
图3示意性示出了根据本公开另一实施例的用于识别语句中实体的方法的流程图;
图4A示意性示出了根据本公开实施例的用于识别语句中实体的过程的示例示意图;
图4B示意性示出了根据本公开实施例的候选实体与已分类实体集进行匹配的示意图;
图5示意性示出了根据本公开实施例的用于识别语句中实体的装置的框图;以及
图6示意性示出了根据本公开实施例的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行***使用或者结合指令执行***使用。
本公开的实施例提供了一种用于识别语句中实体(entity)的方法和装置。该用于识别语句中实体的方法可以包括:获取过程、预处理过程和识别过程。在获取过程,获取第一语言的待处理语句,第一语言可以为日语。然后进行预处理过程。预处理过程可划分为提取过程、匹配过程和筛选过程。在提取过程中从待处理语句中提取候选实体,在匹配过程中将候选实体与第二语言的已分类实体集进行匹配,在筛选过程中筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。从而可以进行识别过程,利用分类模型对上述筛选得到待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。
近年来,基于神经网络的深度学习方法在计算机视觉、语音识别、自然语言处理(Natural Language Processing,NLP)等领域取得了巨大进展。自然语言处理的关键性基础任务包括命名实体识别(Named Entity Recognition,NER),NER又称作专名识别,应用范围非常广泛。从非结构化的输入文本中识别并抽取出实体,实体可以是符合业务需求的各种特殊文本片段,可以包括人名、地名、组织机构名、日期时间、专有名词等,还可以按照业务需求识别出更多类别的实体,例如产品名称、型号、价格、品牌名称、软件名称、操作***名称等,在此不做限制。语句中的实体识别可以是关系抽取、事件抽取、知识图谱、机器翻译、问答***等诸多NLP任务的基础。
图1示意性示出了根据本公开实施例的用于识别语句中实体的方法和装置的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,该应用场景可以包括终端设备101,网络102和服务器/服务器集群103。网络102用以在终端设备101和服务器/服务器集群103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器/服务器集群103交互,以输入问题并接收答案。终端设备101可以是具有输入输出功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器/服务器集群103可以是提供各种服务的服务器或服务器集群,后台管理服务器或服务器集群可以对接收到的用户输入问题等数据进行分析等处理,并将相应的答案反馈给终端设备。例如,在接收到用户关于计算机业务的问题后,识别该问题中所包含的实体,如机型、品牌、部件、软件名称、操作***名称等,有助于更好地识别用户的意图(intent),从而更加精准地回答用户的问题。
需要说明的是,本公开实施例所提供的用于识别语句中实体的方法一般可以由服务器/服务器集群103执行。相应地,本公开实施例所提供的用于识别语句中实体的装置一般可以设置于服务器/服务器集群103中。或者,本公开实施例所提供的用于识别语句中实体的方法也可以由终端设备101执行。相应地,本公开实施例所提供的用于识别语句中实体的装置也可以设置于终端设备101中。或者,本公开实施例所提供的用于识别语句中实体的方法也可以由不同于服务器/服务器集群103且能够与终端设备101、和/或、服务器/服务器集群103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用于识别语句中实体的装置也可以设置于不同于服务器/服务器集群103且能够与终端设备101、和/或、服务器/服务器集群103通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器/服务器集群的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器/服务器集群。
在基于传统机器学习的方法中,语句中实体的识别被当作序列标注问题。利用大规模语料来学习出标注模型,从而对语句的各个位置进行标注,以识别出各个位置是否存在实体。然而,基于此种实体识别方式,在识别第一语言的待处理语句中的实体时,如果没有该第一语言的已分类实体集,则需要耗费大量的时间收集第一语言的语料并进行标注,然后才能训练得到标注模型再基于该标注模型进行实体分类。
在另一种实体识别方案中,将不同语言的词向量映射到同一个语义空间,通过语义空间对待识别语句进行逐词翻译,例如将待识别语句逐词从第一语言翻译为第二语言,再基于第二语言的标注情况得到标注的语料,并按照上述序列标注的方法进行实体识别和分类。该方式虽然可以节省人工标注的时间,但通过逐词翻译得到的语料误差较大,导致最终实体识别和分类的准确率不高。
根据本公开实施例,提供了一种用于识别语句中实体的方法,用于从待处理语句中识别出实体并对实体进行分类。下面通过图例对该方法进行示例性说明。应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的用于识别语句中实体的方法的流程图。
如图2所示,该方法可以包括如下操作S210~S250。
在操作S210,获取第一语言的待处理语句。
示例性地,可以根据业务需求,预先设置需要识别出的实体。第一语言可以为针对预先设置的实体具有特定表示规律的语言。例如,预先设置的需要识别的实体为科技类词汇,而日语中的科技类词汇大多为外来语,具有特定的表示规律,因此在该例中可以将日语作为上述第一语言。
然后,在操作S220,从待处理语句中提取候选实体。
示例性地,候选实体是依据第一语言针对预先设置的实体的表示规律,从待处理语句中提取出的、有较高可能性成为识别出的实体的文本片段。需要通过后续操作进行进一步筛选。
接着,在操作S230,将候选实体与第二语言的已分类实体集进行匹配。
其中,第二语言与第一语言不同,示例性地,第二语言可以是在自然语言处理领域应用较为成熟的语言,已有大量相关的数据集、标注信息等可直接使用,不必花费时间进行数据采集、标注等工作。例如第二语言可以为英语。第二语言的已分类实体集包括多个第二语言的已分类实体。本操作S230将提取出的候选实体与第二语言的已分类实体集进行匹配,以得到每个候选实体与第二语言的已分类实体集之间的匹配度。
接着,在操作S240,筛选出匹配度高于预定阈值的候选实体作为待分类实体。
其中,当一个候选实体与第二语言的已分类实体集之间的匹配度高于预定阈值时,说明该候选实体与任一第二语言的已分类实体的特征相匹配,该候选实体可以作为待分类实体,并且可以利用第二语言的分类模型进行分类。
在操作S250,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。
其中,分类模型为针对第二语言的实体分类目标已训练完成的模型,示例性地,分类模型基于第二语言的已分类实体集训练得到。由于第二语言为在自然语言处理领域应用较为成熟的语言,其相应的分类模型的训练完成度较高,只需直接获取使用,无需再花费时间、人力来进行分类模型的训练。
本领域技术人员可以理解,根据本公开实施例的用于识别语句中实体的方法从第一语言的待处理语句中提取候选实体,通过对候选实体和第二语言的已分类实体集之间的匹配过程,将第一语言的候选实体和第二语言的已分类实体映射到同一特征空间并筛选出在该特征空间内与第二语言的已分类实体特征匹配的待分类实体。从而可以直接利用现有的针对第二语言实体的分类模型进行实体分类,以得到第一语言的待处理语句中的各实体的类别信息。本公开实施例实现了在跨语言且无需标注语料、逐词翻译、模型训练等过程的情况下进行实体识别的方案,该方案不需要进行数据标注、模型训练等繁琐过程,还能避免了逐词翻译带来的较大的误差损失,能够较大程度地同时保证实体识别效率和准确度。
根据本公开的实施例,上述从第一语言的待处理语句中提取候选实体的过程可以包括:从待处理语句中提取第一语言的候选实体,并将第一语言的候选实体转换为第二语言的候选实体。其中,所提取出的候选实体在第一语言和第二语言之间具有较为明确的对应关系,因此在将第一语言的候选实体转换为第二语言的候选实体时,转换准确率较高。
例如,第一语言为日语,第二语言为英语。预先设置的需要识别的实体为科技类实体,如手机机型、公司名称、软件名称、操作***名称等。日语中的科技类实体大多为来自英语的外来语,通常表示为片假名或者不包含日语假名和汉字的连续字符串。因此,上述从待处理语句中提取第一语言的候选实体的过程可以按照如下至少一种方式进行:(1)从日语的待处理语句中提取不包含日语假名和汉字的连续字符串,以作为日语的候选实体;(2)从日语的待处理语句中提取连续的片假名,以作为日语的候选实体。可以理解,片假名通常具有较为明确的对应英语词汇,将提取出的片假名转换为英文,准确度较高,而不包含日语假名和汉字的连续字符串无需进行转换。从而得到英语的候选实体。
图3示意性示出了根据本公开另一实施例的用于识别语句中实体的方法的流程图,用于示例性说明上述操作S230将候选实体与第二语言的已分类实体集进行匹配的过程。
如图3所示,该方法可以包括如下操作S231~S233。
在操作S231,获取第二语言的候选实体的第一向量表示。
示例性地,上述获取第二语言的候选实体的第一向量表示的过程可以包括:一方面,将第二语言的候选实体中的任一字符转换为特征值,以得到针对候选实体的字符向量。另一方面,获取第二语言的候选实体中关于指定特征的特征值。接着,将上述得到的字符向量和关于指定特征的特征值组合为第一向量表示。例如,上述指定特征包括如下至少一项:(1)第二语言的候选实体中是否包含单词。如果是,则该指定特征的特征值为1,如果否,则该指定特征的特征值为0。(2)第二语言的候选实体中是否包含数字。如果是,则该指定特征的特征值为1,如果否,则该指定特征的特征值为0。(3)第二语言的候选实体中是否包含特定符号。如果是,则该指定特征的特征值为1,如果否,则该指定特征的特征值为0。(4)第二语言的候选实体的长度。如果是,则该指定特征的特征值为1,如果否,则该指定特征的特征值为0。以上指定特征的特征值仅为举例,可以根据需要进行设置,在此不做限制。
然后,在操作S232,获取第二语言的已分类实体集中的任一已分类实体的第二向量表示。
其中,获取第二语言的已分类实体的第二向量表示的过程与上述获取第一语言的候选实体的第一向量表示的过程原理相同,在此不再赘述。至此,第一语言的候选实体和第二语言的已分类实体被映射至同一特征空间。
接着,在操作S233,计算第一向量表示和第二向量表示之间的相似度。
其中,可以通过各种方式计算第一向量表示和第二向量表示之间的相似度,例如计算第一向量表示和第二向量表示之间的欧式距离,二者之间的欧式距离越大,相似度越高,表明第一向量表示和第二向量表示的特征越接近。可以理解,上述匹配过程将原本属于不同语言的候选实体与已分类实体映射于同一特征空间,通过相应的向量表示在特征空间中的距离来确定候选实体与已分类实体之间的匹配关系,从而能够筛选出来源于第一语言的待分类实体。
在此基础上,根据本公开的实施例,上述筛选出匹配度高于预定阈值的候选实体作为待分类实体的过程可以示例如下:例如,第二语言的已分类实体集包括10个已分类实体,对于一个候选实体来说,按照图3所示的匹配度计算方式,分别计算该候选实体与上述10个已分类实体中的任一已分类实体之间的相似度。如果该候选实体与至少一个已分类实体之间的相似度高于预定阈值,则确定该第二语言的候选实体为待分类实体。
根据本公开的实施例,上述第二语言的已分类实体集包括多个已分类实体,该多个已分类实体中的任一已分类实体带有标注信息,该标注信息用于表征任一已分类实体所属的类别。
上述分类模型是基于已分类实体集中的多个带有标注信息的已分类实体进行训练得到的。根据本公开的实施例,上述利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别包括:将待分类实体的第一向量表示输入至分类模型,然后基于分类模型的输出确定待分类实体所属的类别。
下面参考图4A和图4B,结合具体例子对根据本公开实施例的识别语句中实体的方法进行示例性说明。
图4A示意性示出了根据本公开实施例的用于识别语句中实体的过程的示例示意图。
如图4A所示,根据本公开实施例的用于识别语句中实体的方法基于虚线框中所示的预处理阶段410执行。预处理阶段410可以是自然语言领域发展过程中由各方参与者、各种设备执行的,在此不做限制。根据本公开实施例的用于识别语句中实体的方法需要获取预处理阶段410得到的英语的已分类实体集、已分类实体的第二向量表示和分类模型。
在预处理阶段410,基于英语语料库411得到英语实体集412,该英语实体集即为上文所述的已分类实体集。在操作S413,针对英语实体集412训练词向量表示,即得到第二向量表示。在操作S414,利用英语实体集412训练实体分类模型,即得到上文所述的分类模型。
在此基础上,可以开始执行根据本公开实施例的用于识别语句中实体的方法。在操作S421,获取候选实体。并且利用英日词典420将候选实体转换为英文的候选实体。然后执行操作S422,确定候选实体的向量表示,可称为实体表示。然后执行操作S423,通过将实体表示与上述第二向量表示进行匹配,进行实体筛选,以得到待分类实体。然后执行操作S424,利用分类模型对待分类实体进行实体分类。至此结束。
例如,待处理语句为如下:
画面がフリ一ズしてしまいます.Windows10でこんなことは初めてです.レノボのプ一ジ力ろrealtekの才一ディ才ドライバをダウン口一ドしてインスト一ルしましたが改善しませんでした.
对于该待处理语句,从中提取连续的片假名或者不包含日语假名和汉字的连续字符串,以作为候选实体。并且将片假名表示的候选实体翻译为英语。得到的候选实体如下所示:
a)候选实体:フリ一ズ,对应的英文候选实体为:freeze;
b)候选实体:Windows10,对应的英文候选实体为:Windows10;
c)候选实体:レノボ,对应的英文候选实体为:lenovo;
d)候选实体:ペ一ジ,对应的英文候选实体为:page;
e)候选实体:Realtek,对应的英文候选实体为:Realtek;
f)候选实体:才一デイ才ドライバ,对应的英文候选实体为:audio driver;
g)候选实体:ダウン口一ド,对应的英文候选实体为:download;
h)候选实体:インスト一ル,对应的英文候选实体为:install。
然后,对上述候选实体分别进行向量表示,得到每个候选实体对应的第一向量表示。同理可以获得英语实体集中各个已分类实体的第二向量表示。再逐一将候选实体的第一向量表示与英语语料中得到的已分类实体的第二向量表示进行相似度计算。
图4B示意性示出了根据本公开实施例的候选实体与已分类实体集进行匹配的示意图。
如图4A所示,英语实体集包括:实体1、实体2、实体3、实体4等。以候选实体“lenovo”为例,计算“lenovo”与实体1之间的相似度的得分为0.9,计算“lenovo”与实体2之间的相似度的得分为0.3,计算“lenovo”与实体3之间的相似度的得分为0.2,计算“lenovo”与实体4之间的相似度的得分为0.1,以此类推,不再赘述。设置预定阈值为0.5,如果英语实体集中有任意一个实体与候选实体“lenovo”之间的相似度得分大于该预定阈值则确定保留该候选实体,以作为待分类实体。如果英语实体集中所有实体与候选实体“lenovo”之间的相似度得分均不大于该预定阈值则确定删除该候选实体,不作为后续的待分类实体。本例中,“lenovo”与实体1之间的相似度的得分为0.9,确定“lenovo”为待分类实体。
接着,可以对待分类实体进行分类。本例中分类模型为指定分类器。以待分类实体“lenovo”为例,将待分类实体“lenove”的第一向量表示作为指定分类器的输入,得到针对待分类实体“lenove”的分类结果,获得待分类实体“lenove”的实体标签。
例如,指定分类器输出“lenovo”的实体标签为brand(表示实体为品牌类别的标签)。因此,与“lenovo”对应的待处理语句中的实体“レノボ”的分类结果为brand(表示实体为品牌类别的标签)。
图5示意性示出了根据本公开实施例的用于识别语句中实体的装置的框图。
如图5所示,用于识别语句中实体的装置500包括:获取模块510、提取模块520、匹配模块530、筛选模块540和识别模块550。
获取模块510用于获取第一语言的待处理语句,第一语言为日语或英语。
提取模块520用于从待处理语句中提取候选实体。
匹配模块530用于将候选实体与第二语言的已分类实体集进行匹配。
筛选模块540用于筛选出匹配度高于预定阈值的候选实体作为待分类实体。
识别模块550用于利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,所述分类模型基于所述第二语言的已分类实体集训练得到。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块510、提取模块520、匹配模块530、筛选模块540和识别模块550中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块510、提取模块520、匹配模块530、筛选模块540和识别模块550中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块510、提取模块520、匹配模块530、筛选模块540和识别模块550中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开的实施例的适于实现上文描述的方法的电子设备的框图。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600包括处理器610和计算机可读存储介质620。该电子设备600可以执行根据本公开实施例的方法。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质620,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质620可以包括计算机程序621,该计算机程序621可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。
计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序621中的代码可以包括一个或多个程序模块,例如包括621A、模块621B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行根据本公开实施例的方法或其任何变形。
根据本发明的实施例,获取模块510、提取模块520、匹配模块530、筛选模块540和识别模块550中的至少一个可以实现为参考图6描述的计算机程序模块,其在被处理器610执行时,可以实现上文所述的方法。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种用于识别语句中实体的方法,包括:
获取第一语言的待处理语句,所述第一语言为日语;
从所述待处理语句中提取候选实体;
将所述候选实体与第二语言的已分类实体集进行匹配,所述第二语言为英语;
筛选出匹配度高于预定阈值的候选实体作为待分类实体;以及
利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别,其中,所述分类模型基于所述第二语言的已分类实体集训练得到。
2.根据权利要求1所述的方法,其中,所述从所述待处理语句中提取候选实体包括:
从所述待处理语句中提取第一语言的候选实体;以及
将所述第一语言的候选实体转换为第二语言的候选实体。
3.根据权利要求2所述的方法,其中,
所述从所述待处理语句中提取第一语言的候选实体包括:
从所述待处理语句中提取不包含日语假名和汉字的连续字符串作为所述第一语言的候选实体;并且/或者
从所述待处理语句中提取连续的片假名作为所述第一语言的候选实体。
4.根据权利要求1或2所述的方法,其中,所述第二语言的已分类实体集包括多个已分类实体,所述多个已分类实体中的任一已分类实体带有标注信息,所述标注信息用于表征所述任一已分类实体所属的类别。
5.根据权利要求4所述的方法,其中,所述将所述候选实体与第二语言的已分类实体集进行匹配包括:
获取所述第二语言的候选实体的第一向量表示;
获取所述第二语言的已分类实体集中的任一已分类实体的第二向量表示;以及
计算所述第一向量表示和所述第二向量表示之间的相似度;
所述筛选出匹配度高于预定阈值的候选实体作为待分类实体包括:如果所述相似度高于预定阈值,则确定所述第二语言的候选实体为所述待分类实体。
6.根据权利要求5所述的方法,其中,所述利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别包括:
将所述待分类实体的第一向量表示输入至所述分类模型;以及
基于所述分类模型的输出确定所述待分类实体所属的类别。
7.根据权利要求5所述的方法,其中,所述获取所述第二语言的候选实体的第一向量表示包括:
将所述第二语言的候选实体中的任一字符转换为特征值,以得到针对所述候选实体的字符向量;
获取所述第二语言的候选实体中关于指定特征的特征值;以及
将所述字符向量和所述关于指定特征的特征值组合为所述第一向量表示。
8.根据权利要求7所述的方法,其中,所述指定特征包括如下至少一项:
所述第二语言的候选实体中是否包含单词,所述第二语言的候选实体中是否包含数字,所述第二语言的候选实体中是否包含特定符号,以及所述第二语言的候选实体的长度。
9.一种用于识别语句中实体的装置,包括:
获取模块,用于获取第一语言的待处理语句,所述第一语言为日语;
提取模块,用于从所述待处理语句中提取候选实体;
匹配模块,用于将所述候选实体与第二语言的已分类实体集进行匹配,所述第二语言为英语;
筛选模块,用于筛选出匹配度高于预定阈值的候选实体作为待分类实体;以及
识别模块,用于利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别,其中,所述分类模型基于所述第二语言的已分类实体集训练得到。
10.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;
所述处理器执行所述计算机程序时用于实现:
获取第一语言的待处理语句,所述第一语言为日语;
从所述待处理语句中提取候选实体;
将所述候选实体与第二语言的已分类实体集进行匹配,所述第二语言为英语;
筛选出匹配度高于预定阈值的候选实体作为待分类实体;以及
利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别,其中,所述分类模型基于所述第二语言的已分类实体集训练得到。
CN201911373507.0A 2019-12-26 2019-12-26 用于识别语句中实体的方法、装置和电子设备 Active CN111144102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373507.0A CN111144102B (zh) 2019-12-26 2019-12-26 用于识别语句中实体的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373507.0A CN111144102B (zh) 2019-12-26 2019-12-26 用于识别语句中实体的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111144102A true CN111144102A (zh) 2020-05-12
CN111144102B CN111144102B (zh) 2022-05-31

Family

ID=70521244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373507.0A Active CN111144102B (zh) 2019-12-26 2019-12-26 用于识别语句中实体的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111144102B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813942A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 实体分类方法和装置
CN113688243A (zh) * 2021-08-31 2021-11-23 中国平安人寿保险股份有限公司 语句中实体的标注方法、装置、设备以及存储介质
CN113761922A (zh) * 2020-06-05 2021-12-07 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
WO2022148467A1 (zh) * 2021-01-11 2022-07-14 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN103559181A (zh) * 2013-11-14 2014-02-05 苏州大学 一种双语语义关系分类模型的建立方法和***
CN104536953A (zh) * 2015-01-22 2015-04-22 苏州大学 一种文本情绪极性的识别方法及装置
CN104900230A (zh) * 2014-03-03 2015-09-09 联想(北京)有限公司 一种信息处理方法及电子设备
CN105138684A (zh) * 2015-09-15 2015-12-09 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN105354199A (zh) * 2014-08-20 2016-02-24 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和***
WO2017040436A1 (en) * 2015-08-31 2017-03-09 Microsoft Technology Licensing, Llc Distributed server system for language understanding
CN106933802A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 一种面向多数据源的社保类实体识别方法及装置
CN108960272A (zh) * 2017-04-27 2018-12-07 埃森哲环球解决方案有限公司 基于机器学习技术的实体分类
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110516254A (zh) * 2019-08-30 2019-11-29 联想(北京)有限公司 一种信息处理方法及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN103559181A (zh) * 2013-11-14 2014-02-05 苏州大学 一种双语语义关系分类模型的建立方法和***
CN104900230A (zh) * 2014-03-03 2015-09-09 联想(北京)有限公司 一种信息处理方法及电子设备
CN105354199A (zh) * 2014-08-20 2016-02-24 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和***
CN104536953A (zh) * 2015-01-22 2015-04-22 苏州大学 一种文本情绪极性的识别方法及装置
WO2017040436A1 (en) * 2015-08-31 2017-03-09 Microsoft Technology Licensing, Llc Distributed server system for language understanding
CN105138684A (zh) * 2015-09-15 2015-12-09 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN106933802A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 一种面向多数据源的社保类实体识别方法及装置
CN108960272A (zh) * 2017-04-27 2018-12-07 埃森哲环球解决方案有限公司 基于机器学习技术的实体分类
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110516254A (zh) * 2019-08-30 2019-11-29 联想(北京)有限公司 一种信息处理方法及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761922A (zh) * 2020-06-05 2021-12-07 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
CN111813942A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 实体分类方法和装置
CN111813942B (zh) * 2020-07-23 2022-07-12 思必驰科技股份有限公司 实体分类方法和装置
WO2022148467A1 (zh) * 2021-01-11 2022-07-14 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN113688243A (zh) * 2021-08-31 2021-11-23 中国平安人寿保险股份有限公司 语句中实体的标注方法、装置、设备以及存储介质
CN113688243B (zh) * 2021-08-31 2024-02-13 中国平安人寿保险股份有限公司 语句中实体的标注方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111144102B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
US10664505B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
US10176804B2 (en) Analyzing textual data
US10831796B2 (en) Tone optimization for digital content
US20190103091A1 (en) Method and apparatus for training text normalization model, method and apparatus for text normalization
US20170286397A1 (en) Predictive Embeddings
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
US20180075368A1 (en) System and Method of Advising Human Verification of Often-Confused Class Predictions
US20180025121A1 (en) Systems and methods for finer-grained medical entity extraction
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、***和存储介质
CN111742322A (zh) 用于使用深度神经网络来进行独立于领域和语言的定义提取的***和方法
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN112528653A (zh) 短文本实体识别方法和***
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant