CN108491373A - 一种实体识别方法及*** - Google Patents

一种实体识别方法及*** Download PDF

Info

Publication number
CN108491373A
CN108491373A CN201810101815.7A CN201810101815A CN108491373A CN 108491373 A CN108491373 A CN 108491373A CN 201810101815 A CN201810101815 A CN 201810101815A CN 108491373 A CN108491373 A CN 108491373A
Authority
CN
China
Prior art keywords
entity
dictionary
character string
knowledge base
speech rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810101815.7A
Other languages
English (en)
Other versions
CN108491373B (zh
Inventor
任可欣
冯知凡
陆超
张扬
李莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810101815.7A priority Critical patent/CN108491373B/zh
Publication of CN108491373A publication Critical patent/CN108491373A/zh
Application granted granted Critical
Publication of CN108491373B publication Critical patent/CN108491373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种实体识别方法,所述方法包括:利用自然语言处理方法对输入文本进行分词并进行实体标注;根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配;判断命中知识库实体词典的字符串是否符合预设词性规则,将符合预设词性规则的字符串作为实体修正结果;利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正。修正了分词边界错误减少了实体识别的人力成本,提高了整体效率,改善了未收录实体的识别效果。

Description

一种实体识别方法及***
【技术领域】
本申请涉及自然语言处理技术领域,尤其涉及一种实体识别方法及***。
【背景技术】
Entity实体是指存在于现实世界中并且可以与其他物体区分开来的物 体。Entity Mention是指自由文本中可以表示一个实体的字符子串。实体识 别是指对文本中的人名、地名等专有名称进行识别。例如,输入短文本,如 query,title等,输出短文本中的Entity实体;如,输入“周杰伦昆凌婚礼”, 输出“周杰伦昆凌婚礼”,以达到实现对文本理解的目的。
实体识别是信息提取、问答***、句法分析、实体链指、机器翻译等应 用领域重要的基础工具,在自然语言处理技术走向实用化的过程中占有重要 地位。
传统的实体识别方法主要分为:
(1)基于领域规则和词典的方法。该方法基于语言学家手工编写的语法规 则,根据词法、句法等相关信息进行识别。
(2)基于机器学习的方法。基于已经人工标注好的训练预料,训练诸如条 件随机场、隐马尔可夫模型等序列标注模型,从而对未标注数据进行预测。
但是,上述方案都需要大量的人力成本,并且对于未收录实体的识别效 果较差。
首先,基于规则和字典的方法,需要领域专家配置规则,一般在小数据 集上准确较高,但是召回低;并且不能识别词典之外的实体,即使在词典内, 基于规则词典的方法无法解决实体歧义问题;很难扩展到多领域,领域专家 配置规则人力成本较大。
其次,基于机器学习的方法,作为目前主流的解决方案,为了取得比较 好的训练效果,需要人力标注高质量的训练模型,人力成本较高;由于是从 标注的训练数据中学习,对于未收录实体识别效果较差;并且对没有明显特 征的实体,如歌曲名、影视名等识别效果较差。
另外,由于短文本,如query,title等,表达不规范及一些新热门实体 的出现,会导致基础的分词工具会将一些新出现的实体切散,造成识别效果 较差。
【发明内容】
本申请的多个方面提供一种实体识别方法及***,用以减少实体识别的 人力成本,提高整体效率,改善未收录实体的识别效果。
本申请的一方面,提供一种实体识别方法,包括:
对输入文本进行分词并进行实体标注;
根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配;
判断命中知识库实体词典的字符串是否符合预设词性规则;
利用符合预设词性规则的字符串,修正所述输入文本的实体标注结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 知识库实体词典包括:
知识库的百科实体中的名称字段;百科推送的人工整理的别名;百科中挖 掘的别名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据 知识库实体词典,利用前向最大匹配方法对输入文本进行匹配还包括:
根据新实体词典,对未命中知识库实体词典的字符串进行匹配;
若命中新实体词典,则跳过所述字符串,继续进行前向最大匹配;
若未命中新实体词典,则判断所述字符串是否符合预设词性规则,将符合 预设词性规则的字符串作为分词结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将符 合预设词性规则的字符串作为实体修正结果包括:
将符合预设词性规则的字符串作为候选实体,判断是否遍历输入文本;
如果已遍历,则将候选实体作为分词结果;
如果未遍历,则继续进行前向最大匹配。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 预设词性规则为:实体字符串为名词及由形容词修饰的名词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 新实体词典通过以下步骤获得:
获取搜索词;
对每个搜索词以字符为粒度,设置窗口,计算每个窗口内字符串的互信息 及左右信息熵;
将同时满足预设的互信息阈值、左信息熵阈值和右信息熵阈值的字符串作 为实体;
去除已经收录在知识库实体词典中的实体,得到新实体词典。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,利用 所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正包括:
将实体标注结果中被切散的多个实体替换为实体修正结果中对应的单个 实体。
本申请的另一方面,提供一种实体识别***,包括:
实体标注模块,用于对输入文本进行分词并进行实体标注;
知识库实体词典匹配模块,用于根据知识库实体词典,利用前向最大匹配 方法对输入文本进行匹配;
词性规则判断模块,用于判断命中知识库实体词典的字符串是否符合预设 词性规则;
修正模块,用于利用符合预设词性规则的字符串,修正所述输入文本的实 体标注结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 知识库实体词典包括:
知识库的百科实体中的name字段;百科推送的人工整理的别名;百科中 挖掘的别名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 ***还包括新实体词典匹配模块,用于:
根据新实体词典,对未命中知识库实体词典的字符串进行匹配;
若命中新实体词典,则跳过所述字符串,则由知识库实体词典匹配模块继 续进行前向最大匹配;
若未命中新实体词典,则由词性规则判断模块判断所述字符串是否符合预 设词性规则,将符合预设词性规则的字符串作为分词结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 词性规则判断模块具体还用于:
将符合预设词性规则的字符串作为候选实体,判断是否遍历输入文本;
如果已遍历,则将候选实体作为分词结果;
如果未遍历,则由知识库实体词典匹配模块继续进行前向最大匹配。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 预设词性规则为:实体字符串为名词及由形容词修饰的名词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 新实体词典通过以下步骤获得:
获取用户搜索词;
对每个搜索词以字为粒度,设置窗口,计算每个窗口内字符串的互信息及 左右信息熵;
将同时满足预设的互信息阈值、左信息熵阈值和右信息熵阈值的字符串作 为实体;
去除已经收录在知识库实体词典中的实体,得到新实体词典。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述 修正模块具体用于:
将实体标注结果中被切散的多个实体替换为实体修正结果中对应的单个 实体。
本申请的另一方面,提供一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或 多个处理器实现任一上述的方法。
本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机 程序,其特征在于,该程序被处理器执行时实现任一上述的方法。
由所述技术方案可知,采用本实施例提供的技术方案,修正了分词边界 错误减少了实体识别的人力成本,提高了整体效率,改善了未收录实体的识 别效果。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的 附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的实体识别方法的流程示意图;
图2为本申请另一实施例提供的实体识别***的结构示意图;
图3为适于用来实现本发明实施例的示例性计算机***/服务器的框图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的全部其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表 示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联 对象是一种“或”的关系。
图1为本申请一实施例提供的实体识别方法的流程图,如图1所示,包 括以下步骤:
步骤S11、利用自然语言处理方法对输入文本进行分词并进行实体标注;
步骤S12、根据知识库实体词典,利用前向最大匹配方法对输入文本进行 匹配;
步骤S13、判断命中知识库实体词典的字符串是否符合预设词性规则;
步骤S14、利用符合预设词性规则的字符串,修正所述输入文本的实体标 注结果。
在步骤S11的一种优选实现方式中,
在知识库实体词典中对输入文本进行查询;
如果命中,则将所述输入文本作为实体识别结果并进行词性标注;例如, 用户输入的文本仅仅是由一个实体组成,且所述实体已经收录在知识库实体 词典中,则可以直接识别并进行输出,而无需后续步骤。
如果未命中,对输入文本进行分词,并根据知识库实体词典对分词结果 进行词性标注。
优选地,采用NLP自然语言处理技术进行分词,例如基于词典(基于字 典、词库匹配)、基于统计(基于次频度统计)、基于规则(基于知识理解) 的分词算法对输入的短文本进行分词。
优选地,采用百度NLPC平台对输入文本进行分词及实体标注。
但是,采用NLP自然语言处理技术进行分词容易出现分词边界错误,例 如,输入文本为“犬夜叉之最强的妖下载”,其中“犬夜叉之最强的妖”是 个具有完整语义的实体(已经收录在知识库实体词典中),但采用NLP自然语 言处理技术进行分词会将其切散为“犬夜叉n之u最强a的u妖Ng”, 从而导致分词边界错误。另外,由于短文本(如query、title等)中可能会存 在未登录实体(知识库实体词典中未收录的新实体),例如网络上出现新词, 这部分未登录实体往往会被切分导致NLP的分词边界错误。因此,需要对上 述分词边界错误进行修正。
在步骤S12的一种优选实现方式中,
优选地,根据知识库实体词典中的最长实体的汉字字符数i作为匹配窗 口长度,将输入文本的前i个字符作为候选字符串,查找知识库实体词典。
如果取出的候选字符串命中知识库实体词典,判断所述候选字符串是否 符合词性规则限制。
如果取出的候选字符串未命中知识库实体词典,继续利用新实体词典进 行匹配;若命中新实体词典,则跳过该候选字符串(目前,由于挖掘的新实 体准确率为60%,无法直接作为实体词典,因此对于命中新实体词典的mention 采用不召回策略,以损失召回的方式来提高整体准确率),减小匹配窗口, 将候选字符串的最后一个字符去掉,对剩下的字符串继续进行前向最大匹配。
优选地,若未命中新实体词典,则判断所述候选字符串是否符合词性规 则,以提高召回率(例如,一些生僻词既未收录在知识库实体词典中,也未 收录在新实体词典中,但是,只要其符合名词的词性规则限制,则将其作为 候选实体,以提高召回率)。
在步骤S13的一种优选实现方式中,
优选地,判断所述候选字符串是否符合词性规则限制进一步包括:如果 符合,则将所述候选字符串作为候选实体;如果不符合,则跳过该候选字符 串,减小匹配窗口,将候选字符串的最后一个字符去掉,对剩下的字符串继 续进行前向最大匹配。
其中,所述词性规则如下:根据汉语的语言模式,一个有意义的实体字 符串为名词及由形容词修饰的名词。例如,输入的短文本为“学习韩语的方 法”,其中,“学习韩语”是知识库中的一个实体,收录在知识库实体词典 中,因此,由于“学习汉语”命中了知识库实体词典,会将本来NLP正确的 分词结果错误拼接,需要判断其是否符合词性规则限制来对前向最大匹配结 果进行校验。在“学习韩语”的case中,由于“学习”是动词,不满足由形 容词修饰的名词的假设,因此不会将“学习韩语”作为候选实体,需要跳过 该候选字符串,减小匹配窗口,将候选字符串中的最后一个字符去掉,对剩 下的字符串继续进行前向最大匹配。
将所述符合词性规则限制的候选字符串列为候选实体后还包括以下步 骤:
判断是否遍历输入文本,如果是,则输出所有与候选实体;如果否,将 所述候选实体从短文本中去掉,对剩下的字符串继续进行前向最大匹配。
在步骤S14的一种优选实现方式中,
优选地,将实体标注结果中被切散的多个实体替换为实体修正结果中对应 的单个实体,以修正NLP分词边界错误。
例如,将NLP分词得到的实体“犬夜叉”、“妖”替换为“犬夜叉之最强的 妖”。
优选地,所述知识库实体词典是通过以下步骤获得的:
获取知识库的百科实体中的name字段;
接收百科推送的人工整理的别名;
从百科info-box挖掘别名,例如,“周杰伦”的别名为“周董”。
优选地,所述新实体词典是通过以下步骤获得的:
1)获取搜索引擎的querylog;
2)对于每一个query以字为粒度,设置窗口,计算每个窗口内字符串 的互信息及左右信息熵;
互信息其中p(x,y)是X和Y的联合概率分布函 数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
互信息体现了两个变量X,Y之间的相互依赖程度,互信息值越高,表明X和 Y的相关性越高,则X和Y组成有意义的实体的可能性越大。
左右熵是指多字词表达的左边界的熵和右边界的熵,以左熵为例,对一个 字符串左边所有可能的词以及词频,计算信息熵,然后求和。
对于字符串w,左右熵的公式如下:
其中,a表示字符串w的相邻词语,左右熵值越高,表明字符串w组成有意 义的实体的可能性越大。
左右熵反应了term的自由度,例如,对于“齐天大圣”,计算其右熵 可以得到E(齐天大*)<<E(齐天大圣*),可以看到,“齐天大圣”作为一个 字符串组成有意义的实体可能性更大。
3)根据预设的互信息阈值、左信息熵阈值和右信息熵阈值,将同时满 足上述阈值的字符串作为实体。
4)从得到的实体中去除已经收录在知识库实体词典中的实体,得到新 实体词典。
通过对海量的用户query log进行处理,可以及时得挖掘到新出现的实 体。
目前,由于通过上述方法挖掘的新实体准确率为60%,无法直接作为实体 词典,仅作为新实体词典,因此对于命中新实体词典的实体采用不召回策略, 以损失召回的方式来提高整体准确率。
本实施例所述方法,基于知识库实体词典,采用前向最大匹配,修正分 词边界错误,将切散的实体重新拼接起来;从querylog中挖掘新实体词典, 来解决了分词边界错误。减少了实体识别的人力成本,提高了整体效率,改 善了未收录实体的识别效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表 述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描 述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同 时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属 于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在所述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有 详述的部分,可以参见其他实施例的相关描述。
图2为本申请一实施例提供的实体识别***的结构图,如图2所示,包 括:
实体标注模块21,用于对输入文本进行分词并进行实体标注;
知识库实体词典匹配模块22,用于根据知识库实体词典,利用前向最大 匹配方法对输入文本进行匹配;
词性规则判断模块23,用于判断命中知识库实体词典的字符串是否符合 预设词性规则;
修正模块24,用于利用符合预设词性规则的字符串,修正所述输入文本 的实体标注结果。
在实体标注模块21的一种优选实现方式中,
在知识库实体词典中对输入文本进行查询;
如果命中,则将所述输入文本作为实体识别结果并进行词性标注;例如, 用户输入的文本仅仅是由一个实体组成,且所述实体已经收录在知识库实体 词典中,则可以直接识别并进行输出,而无需后续步骤。
如果未命中,对输入文本进行分词,并根据知识库实体词典对分词结果 进行词性标注。
优选地,采用NLP自然语言处理技术进行分词,例如基于词典(基于字 典、词库匹配)、基于统计(基于次频度统计)、基于规则(基于知识理解) 的分词算法对输入的短文本进行分词。
优选地,采用百度NLPC平台对输入文本进行分词及实体标注。
但是,采用NLP自然语言处理技术进行分词容易出现分词边界错误,例 如,输入文本为“犬夜叉之最强的妖下载”,其中“犬夜叉之最强的妖”是 个具有完整语义的实体(已经收录在知识库实体词典中),但采用NLP自然语 言处理技术进行分词会将其切散为“犬夜叉n之u最强a的u妖Ng”, 从而导致分词边界错误。另外,由于短文本(如query、title等)中可能会存 在未登录实体(知识库实体词典中未收录的新实体),例如网络上出现新词, 这部分未登录实体往往会被切分导致NLP的分词边界错误。因此,需要对上 述分词边界错误进行修正。
在知识库实体词典匹配模块22的一种优选实现方式中,
优选地,根据知识库实体词典中的最长实体的汉字字符数i作为匹配窗 口长度,将输入文本的前i个字符作为候选字符串,查找知识库实体词典。
如果取出的候选字符串命中知识库实体词典,判断所述候选字符串是否 符合词性规则限制。
如果取出的候选字符串未命中知识库实体词典,继续利用新实体词典进 行匹配;若命中新实体词典,则跳过该候选字符串(目前,由于挖掘的新实 体准确率为60%,无法直接作为实体词典,因此对于命中新实体词典的mention 采用不召回策略,以损失召回的方式来提高整体准确率),减小匹配窗口, 将候选字符串的最后一个字符去掉,对剩下的字符串继续进行前向最大匹配。
优选地,若未命中新实体词典,则判断所述候选字符串是否符合词性规 则,以提高召回率(例如,一些生僻词既未收录在知识库实体词典中,也未 收录在新实体词典中,但是,只要其符合名词的词性规则限制,则将其作为 候选实体,以提高召回率)。
在词性规则判断模块23的一种优选实现方式中,
优选地,判断所述候选字符串是否符合词性规则限制进一步包括:如果 符合,则将所述候选字符串作为候选实体;如果不符合,则跳过该候选字符 串,减小匹配窗口,将候选字符串的最后一个字符去掉,对剩下的字符串继 续进行前向最大匹配。
其中,所述词性规则如下:根据汉语的语言模式,一个有意义的实体字 符串为名词及由形容词修饰的名词。例如,输入的短文本为“学习韩语的方 法”,其中,“学习韩语”是知识库中的一个实体,收录在知识库实体词典 中,因此,由于“学习汉语”命中了知识库实体词典,会将本来NLP正确的 分词结果错误拼接,需要判断其是否符合词性规则限制来对前向最大匹配结 果进行校验。在“学习韩语”的case中,由于“学习”是动词,不满足由形 容词修饰的名词的假设,因此不会将“学习韩语”作为候选实体,需要跳过 该候选字符串,减小匹配窗口,将候选字符串中的最后一个字符去掉,对剩 下的字符串继续进行前向最大匹配。
所述***还包括遍历模块25,用于在将所述符合词性规则限制的候选字 符串列为候选实体后,判断是否遍历输入文本,如果是,则输出所有与候选 实体;如果否,将所述候选实体从短文本中去掉,由知识库实体词典匹配模 块22对剩下的字符串继续进行前向最大匹配。
在修正模块24的一种优选实现方式中,
优选地,将实体标注结果中被切散的多个实体替换为实体修正结果中对应 的单个实体,以修正NLP分词边界错误。
例如,将NLP分词得到的实体“犬夜叉”、“妖”替换为“犬夜叉之最强的 妖”。
优选地,所述知识库实体词典是通过获取知识库的百科实体中的name字 段、接收百科推送的人工整理的别名、从百科info-box挖掘别名获得的。例 如,“周杰伦”的别名为“周董”。
优选地,所述新实体词典是通过以下步骤获得的:
1)获取搜索引擎的querylog;
2)对于每一个query以字为粒度,设置窗口,计算每个窗口内字符串 的互信息及左右信息熵;
互信息其中p(x,y)是X和Y的联合概率分布函 数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
互信息体现了两个变量X,Y之间的相互依赖程度,互信息值越高,表明X和 Y的相关性越高,则X和Y组成有意义的实体的可能性越大。
左右熵是指多字词表达的左边界的熵和右边界的熵,以左熵为例,对一个 字符串左边所有可能的词以及词频,计算信息熵,然后求和。
对于字符串w,左右熵的公式如下:
其中,a表示字符串w的相邻词语,左右熵值越高,表明字符串w组成有意 义的实体的可能性越大。
左右熵反应了term的自由度,例如,对于“齐天大圣”,计算其右熵 可以得到E(齐天大*)<<E(齐天大圣*),可以看到,“齐天大圣”作为一个 字符串组成有意义的实体可能性更大。
3)对每个窗口内字符串的互信息及左右信息熵求和,通过阈值过滤获 得新实体词典。
通过对海量的用户query log进行处理,可以及时得挖掘到新出现的实 体。
目前,由于通过上述方法挖掘的新实体准确率为60%,无法直接作为实体 词典,仅作为新实体词典,因此对于命中新实体词典的实体采用不召回策略, 以损失召回的方式来提高整体准确率。
本实施例所述***,基于知识库实体词典,采用前向最大匹配,修正分 词边界错误,将切散的实体重新拼接起来;从query log中挖掘新实体词典, 来解决了分词边界错误。减少了实体识别的人力成本,提高了整体效率,改 善了未收录实体的识别效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描 述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的, 例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或 一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或 直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连 接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 功能单元的形式实现。
图3示出了适于用来实现本发明实施方式的示例性计算机***/服务器 012的框图。图3显示的计算机***/服务器012仅仅是一个示例,不应对本 发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机***/服务器012以通用计算设备的形式表现。计算 机***/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理 单元016,***存储器028,连接不同***组件(包括***存储器028和处理 单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储 器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任 意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体 系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频 电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器012典型地包括多种计算机***可读介质。这些介质 可以是任何能够被计算机***/服务器012访问的可用介质,包括易失性和非 易失性介质,可移动的和不可移动的介质。
***存储器028可以包括易失性存储器形式的计算机***可读介质,例 如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务 器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系 统存储介质。仅作为举例,存储***034可以用于读写不可移动的、非易失 性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出, 可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器, 以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写 的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质 接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品 具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各 实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在 例如存储器028中,这样的程序模块042包括——但不限于——操作***、 一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个 或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描 述的实施例中的功能和/或方法。
计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、 指向设备、显示器024等)通信,在本发明中,计算机***/服务器012与外 部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机***/服务 器012交互的设备通信,和/或与使得该计算机***/服务器012能与一个或 多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。 这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机***/服务 器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN), 广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配 器020通过总线018与计算机***/服务器012的其它模块通信。应当明白, 尽管图3中未示出,可以结合计算机***/服务器012使用其它硬件和/或软 件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱 动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元016通过运行存储在***存储器028中的程序,从而执行本发 明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质 被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多 个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径 不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算 机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者 计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、 磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组 合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个 或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式 紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意 合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序 的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合 使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数 据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用 多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组 合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机 可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、 装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括— —但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的 计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言 或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地 在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部 分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远 程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例 如利用因特网服务提供商来通过因特网连接)。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其 限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (16)

1.一种实体识别方法,其特征在于,包括:
对输入文本进行分词并进行实体标注;
根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配;
判断命中知识库实体词典的字符串是否符合预设词性规则;
利用符合预设词性规则的字符串,修正所述输入文本的实体标注结果。
2.根据权利要求1所述的方法,其特征在于,所述知识库实体词典包括:
知识库的百科实体中的名称字段;百科推送的人工整理的别名;百科中挖掘的别名。
3.根据权利要求1所述的方法,其特征在于,根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配还包括:
根据新实体词典,对未命中知识库实体词典的字符串进行匹配;
若命中新实体词典,则跳过所述字符串,继续进行前向最大匹配;
若未命中新实体词典,则判断所述字符串是否符合预设词性规则,将符合预设词性规则的字符串作为分词结果。
4.根据权利要求3所述的方法,其特征在于,判断命中知识库实体词典的字符串是否符合预设词性规则还包括:
将符合预设词性规则的字符串作为候选实体,判断是否遍历输入文本;
如果已遍历,则将候选实体作为分词结果;
如果未遍历,则继续进行前向最大匹配。
5.根据权利要求4所述的方法,其特征在于,所述预设词性规则为:实体字符串为名词及由形容词修饰的名词。
6.根据权利要求3所述的方法,其特征在于,所述新实体词典通过以下步骤获得:
获取搜索词;
对每个搜索词以字符为粒度,设置窗口,计算每个窗口内字符串的互信息及左右信息熵;
将同时满足预设的互信息阈值、左信息熵阈值和右信息熵阈值的字符串作为实体;
去除已经收录在知识库实体词典中的实体,得到新实体词典。
7.根据权利要求1所述的方法,其特征在于,利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正包括:
将实体标注结果中被切散的多个实体替换为实体修正结果中对应的单个实体。
8.一种实体识别***,其特征在于,包括:
实体标注模块,用于对输入文本进行分词并进行实体标注;
知识库实体词典匹配模块,用于根据知识库实体词典,利用前向最大匹配方法对输入文本进行匹配;
词性规则判断模块,用于判断命中知识库实体词典的字符串是否符合预设词性规则;
修正模块,用于利用符合预设词性规则的字符串,修正所述输入文本的实体标注结果。
9.根据权利要求8所述的***,其特征在于,所述知识库实体词典包括:
知识库的百科实体中的name字段;百科推送的人工整理的别名;百科中挖掘的别名。
10.根据权利要求8所述的***,其特征在于,所述***还包括新实体词典匹配模块,用于:
根据新实体词典,对未命中知识库实体词典的字符串进行匹配;
若命中新实体词典,则跳过所述字符串,则由知识库实体词典匹配模块继续进行前向最大匹配;
若未命中新实体词典,则由词性规则判断模块判断所述字符串是否符合预设词性规则,将符合预设词性规则的字符串作为分词结果。
11.根据权利要求10所述的***,其特征在于,所述词性规则判断模块具体还用于:
将符合预设词性规则的字符串作为候选实体,判断是否遍历输入文本;
如果已遍历,则将候选实体作为分词结果;
如果未遍历,则由知识库实体词典匹配模块继续进行前向最大匹配。
12.根据权利要求11所述的***,其特征在于,所述预设词性规则为:实体字符串为名词及由形容词修饰的名词。
13.根据权利要求10所述的***,其特征在于,所述新实体词典通过以下步骤获得:
获取用户搜索词;
对每个搜索词以字为粒度,设置窗口,计算每个窗口内字符串的互信息及左右信息熵;
将同时满足预设的互信息阈值、左信息熵阈值和右信息熵阈值的字符串作为实体;
去除已经收录在知识库实体词典中的实体,得到新实体词典。
14.根据权利要求8所述的***,其特征在于,所述修正模块具体用于:
将实体标注结果中被切散的多个实体替换为实体修正结果中对应的单个实体。
15.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201810101815.7A 2018-02-01 2018-02-01 一种实体识别方法及*** Active CN108491373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810101815.7A CN108491373B (zh) 2018-02-01 2018-02-01 一种实体识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810101815.7A CN108491373B (zh) 2018-02-01 2018-02-01 一种实体识别方法及***

Publications (2)

Publication Number Publication Date
CN108491373A true CN108491373A (zh) 2018-09-04
CN108491373B CN108491373B (zh) 2022-05-27

Family

ID=63344351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810101815.7A Active CN108491373B (zh) 2018-02-01 2018-02-01 一种实体识别方法及***

Country Status (1)

Country Link
CN (1) CN108491373B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271630A (zh) * 2018-09-11 2019-01-25 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109271392A (zh) * 2018-10-30 2019-01-25 长威信息科技发展股份有限公司 快速判别和抽取关系型数据库实体及属性的方法及设备
CN109508382A (zh) * 2018-10-19 2019-03-22 北京明略软件***有限公司 一种标签标注方法和装置、计算机可读存储介质
CN110390101A (zh) * 2019-07-22 2019-10-29 中新软件(上海)有限公司 实体合同备注的非标设计判断方法、装置及计算机设备
CN110705258A (zh) * 2019-09-18 2020-01-17 北京明略软件***有限公司 文本实体识别方法及装置
CN110750991A (zh) * 2019-09-18 2020-02-04 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN111062216A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111178080A (zh) * 2020-01-02 2020-05-19 杭州涂鸦信息技术有限公司 一种基于结构化信息的命名实体识别方法及***
CN111353020A (zh) * 2020-02-27 2020-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111382570A (zh) * 2018-12-28 2020-07-07 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN111401083A (zh) * 2019-01-02 2020-07-10 阿里巴巴集团控股有限公司 名称的识别方法及装置、存储介质和处理器
CN111414766A (zh) * 2018-12-18 2020-07-14 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111611779A (zh) * 2020-04-07 2020-09-01 腾讯科技(深圳)有限公司 辅助文本标注方法、装置、设备及其存储介质
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN112417876A (zh) * 2020-11-23 2021-02-26 北京乐学帮网络技术有限公司 一种文本处理方法、装置、计算机设备及存储介质
CN113051900A (zh) * 2021-04-30 2021-06-29 中国平安人寿保险股份有限公司 同义词识别方法、装置、计算机设备及存储介质
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及***
CN113987145A (zh) * 2021-10-22 2022-01-28 智联(无锡)信息技术有限公司 一种精准推理用户属性实体的方法、***、设备和存储介质
CN114138945A (zh) * 2022-01-19 2022-03-04 支付宝(杭州)信息技术有限公司 数据分析中的实体识别方法和装置
CN114218935A (zh) * 2022-02-15 2022-03-22 支付宝(杭州)信息技术有限公司 数据分析中的实体展示方法和装置
WO2022111083A1 (zh) * 2020-11-30 2022-06-02 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN115238702A (zh) * 2022-09-21 2022-10-25 中科雨辰科技有限公司 一种实体库处理方法及存储介质
CN116049447A (zh) * 2023-03-24 2023-05-02 中科雨辰科技有限公司 一种基于知识库的实体链接***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及***
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
US20130204606A1 (en) * 2010-08-09 2013-08-08 Institute Of Automation, Chinese Academy Of Sciences Method for labeling semantic role of bilingual parallel sentence pair
CN103530298A (zh) * 2012-07-06 2014-01-22 深圳市世纪光速信息技术有限公司 一种信息搜索方法和装置
CN104391837A (zh) * 2014-11-19 2015-03-04 熊玮 一种基于格语义的智能语法分析方法
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN106372060A (zh) * 2016-08-31 2017-02-01 北京百度网讯科技有限公司 搜索文本的标注方法和装置
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106649250A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 一种情感新词的识别方法及装置
CN107273356A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204606A1 (en) * 2010-08-09 2013-08-08 Institute Of Automation, Chinese Academy Of Sciences Method for labeling semantic role of bilingual parallel sentence pair
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及***
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN103530298A (zh) * 2012-07-06 2014-01-22 深圳市世纪光速信息技术有限公司 一种信息搜索方法和装置
CN104391837A (zh) * 2014-11-19 2015-03-04 熊玮 一种基于格语义的智能语法分析方法
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN106649250A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 一种情感新词的识别方法及装置
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN106372060A (zh) * 2016-08-31 2017-02-01 北京百度网讯科技有限公司 搜索文本的标注方法和装置
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN107273356A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵成 等: "一种中文地址知识库支撑的中文地址分词算法", 《测绘科学技术学报》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271630A (zh) * 2018-09-11 2019-01-25 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109508382A (zh) * 2018-10-19 2019-03-22 北京明略软件***有限公司 一种标签标注方法和装置、计算机可读存储介质
CN109271392A (zh) * 2018-10-30 2019-01-25 长威信息科技发展股份有限公司 快速判别和抽取关系型数据库实体及属性的方法及设备
CN111414766B (zh) * 2018-12-18 2024-01-30 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111414766A (zh) * 2018-12-18 2020-07-14 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111382570B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN111382570A (zh) * 2018-12-28 2020-07-07 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN111401083A (zh) * 2019-01-02 2020-07-10 阿里巴巴集团控股有限公司 名称的识别方法及装置、存储介质和处理器
CN111401083B (zh) * 2019-01-02 2023-05-02 阿里巴巴集团控股有限公司 名称的识别方法及装置、存储介质和处理器
CN110390101B (zh) * 2019-07-22 2023-04-25 中新软件(上海)有限公司 实体合同备注的非标设计判断方法、装置及计算机设备
CN110390101A (zh) * 2019-07-22 2019-10-29 中新软件(上海)有限公司 实体合同备注的非标设计判断方法、装置及计算机设备
CN110750991B (zh) * 2019-09-18 2022-04-15 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN110750991A (zh) * 2019-09-18 2020-02-04 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN110705258A (zh) * 2019-09-18 2020-01-17 北京明略软件***有限公司 文本实体识别方法及装置
CN111062216B (zh) * 2019-12-18 2021-11-23 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111062216A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111178080A (zh) * 2020-01-02 2020-05-19 杭州涂鸦信息技术有限公司 一种基于结构化信息的命名实体识别方法及***
CN111178080B (zh) * 2020-01-02 2023-07-18 杭州涂鸦信息技术有限公司 一种基于结构化信息的命名实体识别方法及***
CN111353020B (zh) * 2020-02-27 2023-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111353020A (zh) * 2020-02-27 2020-06-30 北京奇艺世纪科技有限公司 挖掘文本数据的方法、装置、计算机设备和存储介质
CN111611779B (zh) * 2020-04-07 2023-10-13 腾讯科技(深圳)有限公司 辅助文本标注方法、装置、设备及其存储介质
CN111611779A (zh) * 2020-04-07 2020-09-01 腾讯科技(深圳)有限公司 辅助文本标注方法、装置、设备及其存储介质
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN112417876A (zh) * 2020-11-23 2021-02-26 北京乐学帮网络技术有限公司 一种文本处理方法、装置、计算机设备及存储介质
WO2022111083A1 (zh) * 2020-11-30 2022-06-02 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及***
CN113051900A (zh) * 2021-04-30 2021-06-29 中国平安人寿保险股份有限公司 同义词识别方法、装置、计算机设备及存储介质
CN113051900B (zh) * 2021-04-30 2023-08-22 中国平安人寿保险股份有限公司 同义词识别方法、装置、计算机设备及存储介质
CN113987145A (zh) * 2021-10-22 2022-01-28 智联(无锡)信息技术有限公司 一种精准推理用户属性实体的方法、***、设备和存储介质
CN113987145B (zh) * 2021-10-22 2024-02-02 智联网聘信息技术有限公司 一种精准推理用户属性实体的方法、***、设备和存储介质
CN114138945B (zh) * 2022-01-19 2022-06-14 支付宝(杭州)信息技术有限公司 数据分析中的实体识别方法和装置
CN114138945A (zh) * 2022-01-19 2022-03-04 支付宝(杭州)信息技术有限公司 数据分析中的实体识别方法和装置
CN114218935B (zh) * 2022-02-15 2022-06-21 支付宝(杭州)信息技术有限公司 数据分析中的实体展示方法和装置
CN114218935A (zh) * 2022-02-15 2022-03-22 支付宝(杭州)信息技术有限公司 数据分析中的实体展示方法和装置
CN115238702B (zh) * 2022-09-21 2022-12-06 中科雨辰科技有限公司 一种实体库处理方法及存储介质
CN115238702A (zh) * 2022-09-21 2022-10-25 中科雨辰科技有限公司 一种实体库处理方法及存储介质
CN116049447A (zh) * 2023-03-24 2023-05-02 中科雨辰科技有限公司 一种基于知识库的实体链接***
CN116049447B (zh) * 2023-03-24 2023-06-13 中科雨辰科技有限公司 一种基于知识库的实体链接***

Also Published As

Publication number Publication date
CN108491373B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108491373A (zh) 一种实体识别方法及***
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US11216504B2 (en) Document recommendation method and device based on semantic tag
US10776578B2 (en) Method and apparatus for building synonymy discriminating model and method and apparatus for discriminating synonymous text
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
JP6901816B2 (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
US7493251B2 (en) Using source-channel models for word segmentation
CN109684634B (zh) 情感分析方法、装置、设备及存储介质
CN108460011A (zh) 一种实体概念标注方法及***
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN108628830B (zh) 一种语义识别的方法和装置
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN110245348A (zh) 一种意图识别方法及***
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
MX2007015438A (es) Traduccion de colocacion a partir de cuerpos monolingue y bilingue disponibles.
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
US20210042470A1 (en) Method and device for separating words
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN108121697A (zh) 一种文本改写的方法、装置、设备和计算机存储介质
CN110334209A (zh) 文本分类方法、装置、介质及电子设备
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN108932218A (zh) 一种实例扩展方法、装置、设备和介质
CN108984554A (zh) 用于确定关键词的方法和装置
CN109785829A (zh) 一种基于语音控制的客服辅助方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant