CN113657100A - 实体识别方法、装置、电子设备及存储介质 - Google Patents

实体识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113657100A
CN113657100A CN202110821289.3A CN202110821289A CN113657100A CN 113657100 A CN113657100 A CN 113657100A CN 202110821289 A CN202110821289 A CN 202110821289A CN 113657100 A CN113657100 A CN 113657100A
Authority
CN
China
Prior art keywords
entity
information
message data
candidate
mention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110821289.3A
Other languages
English (en)
Other versions
CN113657100B (zh
Inventor
万凡
骆金昌
王杰
王海威
陈坤斌
和为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110821289.3A priority Critical patent/CN113657100B/zh
Publication of CN113657100A publication Critical patent/CN113657100A/zh
Priority to EP22185888.9A priority patent/EP4113357A1/en
Priority to US17/813,691 priority patent/US20220358292A1/en
Application granted granted Critical
Publication of CN113657100B publication Critical patent/CN113657100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了实体识别方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及云计算、知识图谱、自然语言处理等人工智能技术领域。具体实现方案为:获取待处理消息数据;采用多模匹配方法处理待处理消息数据,以得到实体提及信息;确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息;以及根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体,能够有效提升消息数据中所涉及实体的识别合理性和识别效率,从而能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。

Description

实体识别方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及云计算、知识图谱、自然语言处理等人工智能技术领域,尤其涉及实体识别方法、装置、电子设备及存储介质。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
在消息交互场景下,由于消息交互用户的认知存在差异,可能会出现用户所不熟悉的实体提及信息,该实体提及信息可能是项目内部专属,实体提及信息例如,项目中的缩写词、指代词、项目词、文化词等。
发明内容
本公开提供了一种实体识别方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的第一方面,提供了一种实体识别方法,包括:获取待处理消息数据;采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
根据本公开的第二方面,提供了一种实体识别装置,包括:第一获取模块,用于获取待处理消息数据;处理模块,用于采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;第一确定模块,用于确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及第二确定模块,用于根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的实体识别方法。
根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开实施例公开的实体识别方法。
根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,当计算机程序由处理器执行时实现本公开实施例公开的实体识别方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是本公开实施例中实体描述信息示意图;
图4是本公开实施例中实体识别方法的应用场景示意图;
图5是根据本公开第三实施例的示意图;
图6是本公开实施例中训练实体排序模型的流程示意图;
图7是根据本公开第四实施例的示意图;
图8是本公开实施例中的实体识别方法的应用示意图;
图9是根据本公开第五实施例的示意图;
图10是根据本公开第六实施例的示意图;
图11示出了可以用来实施本公开的实施例的实体识别方法的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开第一实施例的示意图。
其中,需要说明的是,本实施例的实体识别方法的执行主体为实体识别装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本公开实施例涉及云计算、知识图谱、自然语言处理等人工智能技术领域。
其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。
云计算,是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的***进行处理和分析这些小程序得到结果并返回给用户。
自然语言处理(Natural Language Processing,NLP),能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
而知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
本公开实施例可以应用在消息交互场景下,消息交互场景例如,即时通信((Instant Messaging,IM)场景,即时通信IM通常支持实时通信,允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流。
如图1所示,该实体识别方法包括:
S101:获取待处理消息数据。
其中,上述即时通信IM场景中实时传递的文字消息、文件、语音等可以被称为消息数据。
其中,待处理消息数据可以例如“paddlecloud如何部署Ernie模型?”。
其中,飞桨paddlecloud是一种集深度学***台为一体,且功能完备的开源深度学习平台,而Ernie模型(即文心Ernie模型)是用于语言理解的持续预训练框架,其中可以通过多任务学习逐步建立和学习预训练任务。在此框架中,可以随时逐步引入不同的自定义任务。例如,利用包括命名实体预测,语篇关系识别,句子顺序预测的任务,以使模型能够学习语言表示,关于飞桨paddlecloud和Ernie模型的说明在此不再赘述。
本公开实施例中,可以实时地监听即时通信IM场景中实时传递的消息数据,当捕获到实时传递的消息数据时,识别该消息数据对应的消息文本数据作为待处理消息数据,当然,也可以识别该消息数据对应的消息语音数据作为待处理消息数据,也即是说,本公开实施例中的待处理消息数据的形式可以是文本、语音等,对此不做限制。
本公开实施例中,当实时地监听即时通信IM场景中实时传递的消息数据,并实时地获取待处理消息数据,能够有效地实现实体识别的及时性,从而能够将识别到的目标实体及时提供至消息交互用户,以保障消息交互用户的交互体验。
S102:采用多模匹配方法处理待处理消息数据,以得到实体提及信息。
上述在获取待处理消息数据之后,可以用多模匹配方法处理待处理消息数据,以得到实体提及信息,其中,实体提及信息可以是待处理消息数据中可能涉及实体名称和/或实体别名的数据段,或者,实体提及信息也可以是待处理消息数据中可能涉及实体相关属性的数据段,对此不做限制。
一些实施例中,当获取待处理消息数据时,可以对待处理消息数据进行语义理解及识别,以从待处理消息数据中识别得到实体提及信息,或者,也可以将待处理消息数据传输至云平台中,由云平台基于大数据分析处理技术来识别得到实体提及信息,该实体提及信息可以是直接被包含在待处理消息数据之中,或者,该实体提及信息也可以是由待处理消息数据的语义内容所链接的信息,对此不做限制。
本公开实施例中,为了提升消息数据中所涉及实体的识别合理性和识别效率,还可以采用多模匹配方法处理待处理消息数据,以得到实体提及信息。
其中,多模匹配方法是指在目标字符串中同时查找多个模式串,多模匹配方法例如包括:Aho-Corasick自动机(Aho-Corasick automaton,AC自动机)算法、二维数组法等,对此不做限制。
本公开实施例中,可以预先采用消息交互场景中的知识图谱数据来建模训练AC自动机或者二维数组模型,而后,基于训练得到的AC自动机或者二维数组模型,来对待处理消息数据进行识别,以从中识别得到可能涉及实体名称和/或实体别名的数据段,作为实体提及信息,当然,也可以采用知识图谱数据来建模训练多模匹配方法中其它任意可能的模型,以使训练得到的多模匹配模型能够执行识别实体提及信息的任务,对此不做限制。
S103:确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息。
上述在采用多模匹配方法处理待处理消息数据,以得到实体提及信息之后,可以确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息。
其中,与实体提及信息关联的实体,可以被称为候选实体,而关联,可以是指该候选实体与实体提及信息存在语义维度、上下文维度、链接维度等的关联关系,该候选实体可能是实体提及信息所涉及的实体,而由于不同实体间可能会存在歧义,从而本公开实施例中可以是首先确定与实体提及信息关联的候选实体,而后辅助从关联的候选实体当中确定出实体提及信息所提及的实体,作为目标实体,该目标实体可以是属于候选实体。
本公开实施例中,当确定与实体提及信息关联的候选实体,而后支持后续从关联的候选实体之中确定出目标实体,从而能够有效地简化识别计算量,提升实体识别效率,保障实体识别能够有效地满足消息交互场景的实时性需求。
上述在确定与实体提及信息关联的候选实体之后,可以确定与候选实体对应的实体描述信息,其中,实体描述信息,用于描述该候选实体的含义、类型、名称、别名、属性、应用场景、扩展信息等内容。
在一些实施例中,可以结合消息交互场景中涉及的知识图谱数据,确定出与候选实体对应的实体描述信息,或者,也可以采用预配置的描述模型,来确定与候选实体对应的实体描述信息,或者,也可以结合实体相关的数据资料,从相关的数据资料之中提取出与候选实体对应的实体描述信息,对此不做限制。
S104:根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体。
上述在确定与候选实体对应的实体描述信息之后,可以根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体。
举例而言,如果候选实体的数量为一个,则可以直接将该候选实体作为实体提及信息提及的目标实体,如果候选实体的数量为多个,则可以结合各个候选实体对应的实体描述信息,来分析各个候选实体与待处理消息数据之间的上下文关联性(例如,可以采用模式匹配的方式、相似性分析算法等),将关联性较为密切的候选实体作为目标实体,或者,也可以采用其它任意可能的方式来实现从多个候选实体中确定出实体提及信息提及的目标实体,对此不做限制。
本实施例中,通过获取待处理消息数据,采用多模匹配方法处理待处理消息数据,以得到实体提及信息,确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息,及根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体,能够有效提升消息数据中所涉及实体的识别合理性和识别效率,从而能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。
图2是根据本公开第二实施例的示意图。
如图2所示,该实体识别方法包括:
S201:获取知识图谱数据,知识图谱数据包括:多个实体描述信息,以及与多个实体描述信息分别关联的多个实体。
其中,知识图谱数据,是消息交互场景所属企业环境中的知识数据,知识图谱数据的形式可以如图3所示,图3是本公开实施例中实体描述信息示意图,在图3中,示出了一个实体描述信息的示意,在实际应用中,知识图谱数据可以多个实体描述信息组合构成,对此不做限制。
在图3中实体描述信息包括:实体类型(type),实体标识(entity_id),实体名称(name)、实体别名(alias)、描述(desc)、部门(department)、链接(url)、相关用户(related_persons)等。
其中,上述实体描述信息分别关联的多个实体,可以例如是图3中实体名称(name)、实体别名(alias)中所包含的内容:"知识feed"、"feed"、"如流feed"、"feed推荐"等,对此不做限制。
本公开实施例中,可以从图3所示的实体描述信息之中提取出实体名称和实体别名,而后根据实体名称和实体别名,结合实体描述信息构建索引表(例如倒排索引表),从而实现根据实体提及信息(mention)返回可能的候选实体的集合,候选实体的集合中包括多个候选实体,可以作为后续实体排序模块的输入。
S202:对多个实体描述信息进行解析,以分别得到对应多个目标提及信息。
本公开实施例中,可以对多个实体描述信息进行解析,从各个实体描述信息中解析得到所有实体:实体别名的映射,entity:[name,alias_0,alias_1,……,alias_n],作为目标提及信息,其中,name表征实体的名称,alias_0,alias_1,……,alias_n分别表征该实体对应的多个实体别名,而后,将实体:实体别名的映射结合实体本身来辅助后续构建索引表。
S203:根据多个目标提及信息和关联的多个实体构建索引表。
上述对多个实体描述信息进行解析,从各个实体描述信息中解析得到所有实体:实体别名的映射,entity:【name,alias_0,alias_1,……,alias_n】,作为目标提及信息之后,可以将实体:实体别名的映射所实际属于的一个或者多个实体作为关联的实体,而后,根据实体:实体别名的映射结合关联的实体构建索引表。
举例而言,可以首先查询企业的知识图谱数据,获取所有实体:实体别名的映射,entity:【name,alias_0,alias_1,……,alias_n】;而后,对实体:实体别名映射,进行倒排,把实体名称name和实体别名alias作为目标提及信息mention,构建倒排索引表mention:【entity_0,entity_1,……,entity_n】,对于每个目标提及信息mention可能关联一个或者多个实体。
由此,通过在获取待处理消息数据之前,获取知识图谱数据,知识图谱数据包括:多个实体描述信息,以及与多个实体描述信息分别关联的多个实体,并对多个实体描述信息进行解析,以分别得到对应多个目标提及信息,以及根据多个目标提及信息和关联的多个实体构建索引表,能够辅助后续快速地确定出与实体提及信息关联的候选实体,并且,由于该索引表是结合了企业的知识图谱数据构建得到的,在实体识别过程中,能够充分利用知识图谱数据的准确性、多样性和扩展性等优势,来辅助实现实体召回和排序,从而有效地保障实体识别的准确性和实体识别效果。
当然,也可以采用其它任意可能的方式来构建得到具有索引功能的数据结构表,或者,也可以基于企业的知识图谱数据构建具有确定与实体提及信息关联的候选实体的识别模型,从而辅助后续基于数据结构表或者识别模型来确定候选实体,对此不做限制。
本公开实施例中,还可以结合知识图谱数据来训练上述的AC自动机(AC自动机是一种多模匹配算法),以使训练得到的AC自动机具备从待处理消息数据中心匹配出实体提及信息的功能。
举例而言,构建AC自动机:可以首先查询企业的知识图谱数据,获取知识图谱数据中所有实体的name:alias映射(名称:别名),entity:【name,alias_0,alias_1,……,alias_n】,而后,将所有的name:alias映射(名称:别名)作为实体提及信息,***至AC自动机,对此不做限制。
上述在基于知识图谱数据构建索引表和AC自动机后,还可以动态地根据消息交互业务场景的变更对索引表和AC自动机进行更新,从而保障索引表和AC自动机的辅助识别效果。
S204:获取待处理消息数据。
S205:采用多模匹配方法处理待处理消息数据,以得到实体提及信息。
S204-S205的描述说明可以具体参见上述实施例,在此不再赘述。
S206:根据索引表,确定与实体提及信息匹配的目标提及信息,索引表,用于根据目标提及信息索引关联的实体。
上述结合了企业的知识图谱数据构建得到的索引表(例如,倒排索引表),包含多个目标提及信息,以及与各个目标提及信息所关联的实体,从而本实施例中,在从待处理消息数据之中解析得到实体提及信息之后,可以将实体提及信息与索引表中的各个目标提及信息进行匹配,以确定出与实体提及信息匹配的目标提及信息,而后,根据索引表的索引,确定出与目标提及信息关联的实体,作为候选实体。
S207:将目标提及信息所关联的实体作为候选实体。
本实施例中,由于是结合上述的索引表,确定与实体提及信息匹配的目标提及信息,并将目标提及信息所关联的实体作为候选实体,能够实现快速地确定出与实体提及信息关联的候选实体,并且所确定的候选实体是预先基于知识图谱数据解析得到的,从而使得候选实体能够与企业知识背景相适配,使得实体识别满足消息交互场景的个性化需求。
S208:确定与候选实体对应的实体描述信息。
S209:根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体。
S208-S209的描述说明可以具体参见上述实施例,在此不再赘述。
本实施例中,能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。通过在获取待处理消息数据之前,获取知识图谱数据,知识图谱数据包括:多个实体描述信息,以及与多个实体描述信息分别关联的多个实体,并对多个实体描述信息进行解析,以分别得到对应多个目标提及信息,以及根据多个目标提及信息和关联的多个实体构建索引表,能够辅助后续快速地确定出与实体提及信息关联的候选实体,并且,由于该索引表是结合了企业的知识图谱数据构建得到的,在实体识别过程中,能够充分利用知识图谱数据的准确性、多样性和扩展性等优势,来辅助实现实体召回和排序,从而有效地保障实体识别的准确性和实体识别效果。由于是结合上述的索引表,确定与实体提及信息匹配的目标提及信息,并将目标提及信息所关联的实体作为候选实体,能够实现快速地确定出与实体提及信息关联的候选实体,并且所确定的候选实体是预先基于知识图谱数据解析得到的,从而使得候选实体能够与企业知识背景相适配,使得实体识别满足消息交互场景的个性化需求。
如图4所示,图4是本公开实施例中实体识别方法的应用场景示意图,包括:消息数据提供模块41,该消息数据提供模块41可以包括:如流服务端(即,如流server端)、如流知识库、其它业务方,可以提供消息数据,当获取待处理消息数据时,可以生成实体链接请求,并将该实体链接请求发送至实体链接服务42,由该实体链接服务42执行实体链接任务,实体链接服务42可以预先基于远程字典服务(Remote Dictionary Server,Redis)图谱数据43构建倒排索引表和AC自动机,以辅助进行文本预处理(文本预处理可以参见后续实施例)、识别实体提及信息,以及实体排序,当识别出目标实体之后,还可以将目标实体和实体描述信息组装为词条卡片,以进行展示。在图4中,还包括埋点反馈模块44,当得到词条卡片之后,可以经由埋点反馈模块44对包含该目标实体的文本(即文本形式的消息数据)进行埋点处理。
图5是根据本公开第三实施例的示意图。
如图5所示,该实体识别方法包括:
S501:获取初始消息数据。
其中,直接从即时通信IM场景中实时捕获得到的消息数据,可以被称为初始消息数据,而后,可以触发后续对初始消息数据进行预处理的步骤。
S502:对初始消息数据进行预处理,以得到候选消息数据。
上述在直接从即时通信IM场景中实时捕获得到初始消息数据之后,可以对初始消息数据进行预处理,以得到候选消息数据,能够有效地提升实体链接在线服务的吞吐能力,避免干扰消息数据对实体链接的影响。
可以理解的是,对即时通信IM场景下的消息数据进行统计得出,可能会有一些消息数据并不包含实体提及信息,该消息数据通常以统一资源定位符(Uniform ResourceLocator,URL)、JS对象简谱(JavaScript Object Notation,JSON)数据、配置数据(例如,可扩展标记语言(Extensible Markup Language,XML))、训练数据样本、错误日志、路径、代码段、机器名等形式存在,为了提升实体链接服务的性能,本公开实施例中可以对初始消息数据进行预处理,并将预处理得到的消息数据作为候选消息数据。
可选地,一些实施例中,对初始消息数据进行预处理,以得到候选消息数据,可以是从初始消息数据之中识别出第一类型的第一数据段,并对第一数据段进行类型转换,以得到第二类型的第二数据段,第一类型和第二类型不相同,以及采用第二数据段替换初始消息数据之中的第一数据段,以得到候选消息数据,从而能够有效地辅助后续针对消息数据是否可能提及实体的判定处理逻辑,并且,有效地减少判定处理逻辑的计算量,保障判定处理逻辑的合理性和可靠性。
上述的类型转换,可以是以将第一类型的第一数据转换为第二类型的第二数据段,使得第二数据段体现为第一数据段的正则表达,或者其它任意可能的表达形式,第一类型可以为URL类型、路径类型、标记类型(例如@类型),初始消息数据之中以第一类型呈现的数据,可以被称为第一数据,从而识别出初始消息数据之中的第一类型的第一数据之后,可以将URL类型、路径类型、标记类型(例如@类型)的第一数据转换为正则表达的数据,正则表达的数据,可以被称为第二数据。
举例而言,对初始消息数据(假设初始消息数据的形式是文本形式)进行预处理,可以如下所示:
1.以正则表达形式替换初始消息数据中的统一资源定位符URL。
2.以正则表达形式替换初始消息数据中的路径。
路径例如:
/home/so_km_tuijian/wanfan01/merge_result_log/get_mergeResult_data.py。
3.@类型的第一数据较多,则可以删除@字符后面的2个字或3个字。
4.以正则表达形式替换初始消息数据中的网际互连协议(Internet Protocol,IP)地址,机器名。
当然,也可以采用其它任意可能的方式实现对初始消息数据进行预处理,例如,对初始消息数据进行语义分析、上下文关联、特征匹配、模型预测的方式,对此不做限制。
S503:如果候选消息数据的数据特征满足设定条件,则将候选消息数据作为待处理消息数据。
上述对初始消息数据进行预处理,以得到候选消息数据之后,可以判定该候选消息数据之中是否携带实体提及信息。
可以理解的是,通常实体提及信息会包括一定的长度、或者是预设字符的比例,从而本实施例中,可以分析候选消息数据的数据特征(数据特征例如,候选消息数据的长度特征,和/或预设字符占比特征,或者是其它任意能够表征数据维度的特征,对此不做限制),并将该数据特征与设定条件(该设定条件可以是结合消息交互场景的需求自适应配置,对此不做限制)进行比对,如果数据特征满足设定条件,则判定候选消息数据携带实体提及信息,从而将候选消息数据作为待处理消息数据,否则可以对该条候选消息数据进行过滤处理。
本实施例中,通过配置数据特征,是候选消息数据的长度特征,和/或预设字符占比特征,能够有效地表征出消息数据的数据维度的特征,并且当基于长度特征,和/或预设字符占比特征来辅助判定候选消息数据携带实体提及信息,能够有效保障判定的合理性,保障判定准确性。
举例而言,消息数据的过滤处理,可以例如:
若预处理后的候选消息数据的长度特征(长度值)>500,则可以对该条候选消息数据进行过滤处理;若预处理后的候选消息数据的长度特征(长度值)<5,则可以对该条候选消息数据进行过滤处理;即,设定条件配置为长度值小于或等于500,且大于或等于3。若预处理后的候选消息数据中预设字符占比特征(英文字符占比)小于30%,则可以对该条候选消息数据进行过滤处理,即,设定条件配置为英文字符占比大于或等于30%,对此不做限制。
本实施例中,还通过获取初始消息数据,对初始消息数据进行预处理,以得到候选消息数据,以及如果候选消息数据的数据特征满足设定条件,则将候选消息数据作为待处理消息数据,能够实现针对消息数据是否提及实体进行准确地判定,当判定提及实体时,触发后续解析实体提及信息,而若未提及实体,可以直接对该条消息数据进行过滤,能够有效地保障实体识别方法的命中准确性,降低实体识别方法对软硬件资源的消耗,当将实体识别方法结合至消息交互场景中时,有效地保障了实体识别的合理性和适用性。
S504:采用多模匹配方法处理待处理消息数据,以得到实体提及信息。
S505:确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息。
S504-S505的描述说明可以具体参见上述实施例,在此不再赘述。
本公开实施例中,如果确定与实体提及信息关联的候选实体的数量为一个,则可以直接将该候选实体作为目标实体,而如果候选实体的数量为多个,则可以触发后续步骤。
S506:采用实体提及信息处理待处理消息数据,以得到待匹配消息数据。
本实施例中S506-S508的步骤,可以被视为对候选实体进行排序的过程,当排序之后,可以选出去排序第一位的候选实体作为目标实体。
举例而言,如果候选实体只有一个,直接返回;若超过一个,通过实体排序模型返回排序第一位的候选实体。例如,若实体提及信息mention=feed时,可能会召回多个候选实体:【手百feed】【知识feed】【好看feed】等,则可以从【手百feed】【知识feed】【好看feed】中确定出排序第一位的候选实体作为实体提及信息提及的目标实体。
本实施例中,当识别出实体提及信息之后,可以采用实体提及信息处理待处理消息数据,以得到待匹配消息数据,从而能够便于实体排序模型对待匹配消息数据中实体提及信息的识别。
举例而言,可以对待匹配消息数据中的实体提及信息,采用“#”进行前后位置的标记,将携带标记的消息数据作为输入实体排序模型的待匹配消息数据。
其中,待匹配消息数据例如:
【新版本发布了,大家去知识广场体验新版#feed#,辛苦给下反馈。】,其中,采用“#”对实体提及信息的前后位置进行了标记。
S507:将待匹配消息数据和多个实体描述信息输入至实体排序模型之中,以得到实体排序模型分别输出的多个相关程度值,相关程度值,描述对应实体描述信息所属的候选实体与待匹配消息数据之间的相关程度。
其中,实体排序模型可以是人工智能模型,人工智能模型可以具体例如神经网络模型或者机器学习模型,对此不做限制。
该实体排序模型可以是预先训练得到的,下面给出预先训练实体排序模型的流程说明:
可以首先获取初始的人工智能模型,例如,Ernie模型等预训练模型,而后准备样本数据(样本消息数据、样本消息数据中包括的样本实体提及信息、样本实体描述信息):
样本消息数据的构造:
样本消息数据作为初始的人工智能模型的输入,可以将样本消息数据中样本实体提及信息mention的位置信息输入人工智能模型,以使人工智能模型能够判定出样本实体提及信息mention在样本消息数据中的具***置。
例如,可以在样本消息数据中的样本实体提及信息mention的前后位置加入统一标识符“#”,假设mention=feed,示例样本消息数据如下:
样本消息数据1:【新版本发布了,大家去知识广场体验新版#feed#,辛苦给下反馈。】。
样本消息数据2:【今天晚上七点,有公司应用程序牛人分享#feed#推荐架构,请感兴趣同学关注。】。
上述示例样本消息数据中的样本提及信息均可以为【feed】。
样本实体描述信息构造,其中,样本实体描述信息可以具体例如实体主语(subject)、谓语(predicate)、宾语(object)三元组SPO信息。
样本实体描述信息可以包含企业背景的知识图谱数据中样本实体提及信息mention对应的实体标准名、实体的类型、实体相关的SPO信息等。
在构造样本实体描述信息时,可以将样本实体提及信息mention和实体标准名称用“:”进行拼接作为输入的样本实体描述信息,以告知模型实体标准名称和mention是否相同;
将“类型:实体类型”拼接作为输入的样本实体描述信息;
将实体的SPO信息,例如,实体描述,实体所属部门等属性值拼接作为输入的样本实体描述信息。
样本实体描述信息可以示例如下:
样本实体描述信息1:【feed:知识feed;类型:产品;智能办公平台部;知识feed,主要是服务企业办公场景,可以迅速扩展员工的知识获取渠道,提高企业员工的办公效率】。
样本实体描述信息2:【feed:feed;类型:释义词;通用;feed流是一个信息出口,想要与他人或资讯建立连接,只需要刷新这一个动作,即可获得大量所需,并且不断在更新之中】。
上述在准备样本数据(样本消息数据、样本消息数据中包括的样本实体提及信息、样本实体描述信息)之后,可以将样本消息数据、样本消息数据中包括的样本实体提及信息作为文本Text_a段,样本实体描述信息作为文本Text_b段,对文本Text_a段和文本Text_b段进行拼接,得到拼接后语段,而后输入至初始的人工智能模型。
而后对拼接后语段对应的特征向量、样本实体提及信息mention的开始位置以及结束位置,经过多层变压器Transformer编码,而后,对输出的各个编码向量进行拼接,作为实体排序任务的特征向量,经过全连接层,激活层输出[0,1]区间的分数,来衡量样本消息数据中的样本实体提及信息mention和候选实体的相似性,分数越高则表征是目标实体的可能性越高。
如图6所示,图6是本公开实施例中训练实体排序模型的流程示意图,以实体排序模型是Ernie模型进行示例,包括:多层变压器Transformer,用于对输入的文本Text_a段和文本Text_b段进行编码处理,以得到多个编码向量,多个编码向量分别对应拼接后语段对应的特征向量、样本实体提及信息mention的开始位置以及结束位置,而后,对多个编码向量进行一些模型处理操作,例如,基于concatenation(级联)级联相关神经网络的级联操作、稠密Dense(稠密)层的特征空间变换操作、以及激活层Sigmoid的映射操作等。
可以理解的是,在训练实体排序模型时输入的是标记了样本实体提及信息的样本消息数据、样本实体描述信息,实体排序模型输出的是相关性的预测值,即该预测值表征样本消息数据中的样本实体提及信息与样本实体描述信息的相关性,从而本实施例在使用已训练的实体排序模型时,可以将待匹配消息数据和多个实体描述信息输入至实体排序模型之中,以得到实体排序模型分别输出的多个相关程度值(该相关程度值,即是模型预测得到的相关程度值),相关程度值,描述待匹配消息数据中的实体提及信息,与对应实体描述信息之间的相关程度。
S508:将多个相关程度值之中值最大的相关程度值对应的实体描述信息所属的候选实体作为目标实体。
上述在预测得到与各个实体描述信息分别对应的多个相关程度值之后,可以将多个相关程度值之中值最大的相关程度值对应的实体描述信息所属的候选实体作为目标实体。
由此,当候选实体的数量为多个时,通过采用实体提及信息处理待处理消息数据,以得到待匹配消息数据,将待匹配消息数据和多个实体描述信息输入至实体排序模型之中,以得到实体排序模型分别输出的多个相关程度值,相关程度值,描述待匹配消息数据中的实体提及信息,与对应实体描述信息之间的相关程度,将多个相关程度值之中值最大的相关程度值对应的实体描述信息所属的候选实体作为目标实体,从而实现结合企业的知识图谱数据,构建得到适用于消息交互场景的实体排序模型,当采用该实体排序模型辅助预测出实体提及信息提及的目标实体时,能够具有更加准确的实体识别效果,较大程度地提升消息数据中实体提及信息所提及实体的识别效率,使得实体识别逻辑与消息交互场景相融合。
本公开实施例中,为了保障训练得到的实体排序模型是用于消息交互场景的实时性需求,还可以采用模型蒸馏方法来降低实体排序模型的结构复杂度,便于针对其进行线上部署。本公开实施例中的实体识别方法,还具有较强的实践意义和较高的可扩展性,易于扩展至其它场景下的实体链接场景。举例而言,模型蒸馏方法主要分以下3个阶段:
(1)基于样本数据对复杂结构的人工智能模型进行参数微调,得到实体排序模型的教师模型。
(2)蒸馏教师模型中的变压器transformer层的输出和注意力attention矩阵,采用人工智能模型通用的学生模型,本阶段拟合目标包含:教师模型的变压器transformer层的输出与学生模型变压器transformer层的输出的损失值;教师模型与学生模型的注意力attention矩阵的损失值,参考两种损失值进行反向传播训练阶段,在反向传播训练阶段,更新学生模型参数。
(3)蒸馏预测层,训练得到学生模型。
本阶段拟合目标包含:学生模型的预测层输出与教师模型的预测层输出的交叉熵;学生模型的预测层输出与真实标签的交叉熵;反向传播训练阶段更新学生模型参数,可以不更新教师模型参数。
本实施例中,能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。通过获取初始消息数据,对初始消息数据进行预处理,以得到候选消息数据,以及如果候选消息数据的数据特征满足设定条件,则将候选消息数据作为待处理消息数据,能够实现针对消息数据是否提及实体进行准确地判定,当判定提及实体时,触发后续解析实体提及信息,而若未提及实体,可以直接对该条消息数据进行过滤,能够有效地保障实体识别方法的命中准确性,降低实体识别方法对软硬件资源的消耗,当将实体识别方法结合至消息交互场景中时,有效地保障了实体识别的合理性和适用性。从而实现结合企业的知识图谱数据,构建得到适用于消息交互场景的实体排序模型,当采用该实体排序模型辅助预测出实体提及信息提及的目标实体时,能够具有更加准确的实体识别效果,较大程度地提升消息数据中实体提及信息所提及实体的识别效率,使得实体识别逻辑与消息交互场景相融合。
图7是根据本公开第四实施例的示意图。
如图7所示,该实体识别方法包括:
S701:获取待处理消息数据。
S701的描述说明可以具体参见上述实施例,在此不再赘述。
S702:采用多模匹配方法处理待处理消息数据,以得到候选提及信息。
本实施例中,可以将多模匹配方法处理待处理消息数据,得到的提及信息作为候选提及信息,而后,触发后续对候选提及信息进行校验处理的步骤。
其中,可以采用上述构建得到的AC自动机进行多模匹配,得到待处理消息数据中包含的所有的提及信息作为候选提及信息。
S703:对候选提及信息进行校验处理,以得到校验结果。
本实施例中,可以将多模匹配方法处理待处理消息数据,得到的提及信息作为候选提及信息,而后,触发对候选提及信息进行校验处理,以得到校验结果,从而可以根据校验结果实现对候选提及信息进行准确性验证,当将验证通过的候选提及信息作为实体提及信息时,能够有效保障实体提及信息识别的准确性和识别效率,从而较大程度地保障目标实体识别的准确性。
可选地,一些实施例中,对候选提及信息进行校验处理,可以是在候选提及信息是第一信息类型时,对候选提及信息进行分词校验处理,在候选提及信息是第二信息类型时,对候选提及信息进行词周校验处理,第一信息类型和第二信息类型不相同,由此,本实施例中能够结合候选提及信息的信息类型实现对候选提及信息进行个性化校验,能够有效提提升候选提及信息校验的灵活性,有效地提升校验结果的可参考性。
其中,第一信息类型指示该实体提及信息中包含中文,而第二信息类型指示该实体提及信息是全字符,例如该实体提及信息全部由英文字符构成,或者该实体提及信息全部由***字符构成,对此不做限制。
举例而言,当对候选提及信息进行分词校验处理时,可以将候选提及信息输入至预训练的分词模型之中,以对该候选提及信息进行分词得到多个候选分词,并分别对每个候选分词进行校验,以得到校验结果,或者也可以采用其它任意可能的方法来实现对候选提及信息进行分词校验处理,对此不做限制。
举例而言,当对候选提及信息进行词周校验处理时,可以基于候选提及信息语义内容分析其对应的合理的词周,即该语义内容匹配的起始词和结尾词,而后,基于起始词和结尾词判断是否能够对候选提及信息校验通过,以得到校验结果,或者也可以采用其它任意可能的方法来实现对候选提及信息进行词周校验处理,对此不做限制。
可选地,一些实施例中,在对候选提及信息进行分词校验处理时,可以是对待处理消息数据进行分词处理,以得到多个分词,如果候选提及信息与第一分词相匹配,则确定分词校验处理的校验结果满足校验条件(即校验条件是候选提及信息与待处理消息数据中的任一个分词相匹配),第一分词属于多个分词,从而能够有效地提升分词校验处理的便捷性,在保障校验准确率的同时,较大程度地优化分词校验处理的效率。
其中,多个分词中,与候选提及信息匹配(语义匹配或者是正则匹配)的分词,可以被称为第一分词。
举例而言,待处理消息数据可以例如“paddlecloud如何部署Ernie模型?”,则对待处理消息数据进行分词得到的多个分词:【paddlecloud】【如何】【部署】【Ernie】【模型】,候选提及信息是:【paddle】【Ernie】,则多个分词中不包含【paddle】,可以将候选提及信息【paddle】过滤,而多个分词中包含【Ernie】,则将候选提及信息【Ernie】作为实体提及信息,对此不做限制。
可选地,一些实施例中,在对候选提及信息进行词周校验处理时,可以是在候选提及信息是未截断信息时,确定词周校验处理的校验结果满足校验条件(即校验条件是候选提及信息是未截断信息),从而能够有效地提升词周校验处理的便捷性,在保障校验准确率的同时,较大程度地优化词周校验处理的效率。
其中,未截断信息,指示该候选提及信息包含完整的语义,而不是从一个整体词中截取得到。
举例而言,如果候选提及信息的信息类型是第二信息类型,第二信息类型指示该实体提及信息是全字符,例如该实体提及信息全部由英文字符构成,或者该实体提及信息全部由***字符构成,以第二类型是候选提及信息由全英文字符构成进行示例,当执行词周校验任务时,可以检查候选提及信息mention的前后各一个字符,如果前后各一个字符出现英文字符,则表明该候选提及信息是截断信息(即从一个完整词中截取得到),从而可以确定该候选提及信息不满足校验条件,可以对该候选提及信息进行过滤处理,如果前后各一个字符未出现英文字符,则可以继续校验候选提及信息mention的前后各一个字符,如果为“-”、“.”等可能标识其为截断信息的符号,则可以判定候选提及信息是截断信息,对其进行过滤处理,而如果前述两种情况均校验通过,则表明词周校验处理的校验结果满足校验条件。
S704:如果校验结果满足校验条件,则将候选提及信息作为实体提及信息。
上述在对候选提及信息进行校验处理,以得到校验结果之后,如果校验结果满足校验条件,则将候选提及信息作为实体提及信息,而如果校验结果不满足校验条件,则可以将该候选提及信息进行过滤处理。
S705:确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息。
S706:根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体。
S705-S706的描述说明可以具体参见上述实施例,在此不再赘述。
本实施例中,能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。通过将多模匹配方法处理待处理消息数据,得到的提及信息作为候选提及信息,而后,触发对候选提及信息进行校验处理,以得到校验结果,从而可以根据校验结果实现对候选提及信息进行准确性验证,当将验证通过的候选提及信息作为实体提及信息时,能够有效保障实体提及信息识别的准确性和识别效率,从而较大程度地保障目标实体识别的准确性。
如图8所示,图8是本公开实施例中的实体识别方法的应用示意图,实体识别方法包括两部分,即线上识别部分和线下建模部分,在线上识别部分中,可以包括:消息数据预处理、实体召回、实体排序等,线下建模部分包含获取知识图谱数据、构建AC自动机、构建倒排索引等。
在图8中,在线下建模部分,可以实时地获取企业中的知识图谱数据,并根据实时获取的知识图谱数据构建和更新AC自动机(AC自动机的本地存储中可包括所涉及的全部的候选提及信息),而后,构建和更新倒排索引表(倒排索引表可包括所涉及的全部的候选提及信息,以及相应的关联的实体),该AC自动机和倒排索引表可被用于线上的实体识别。
在线上识别部分,可以接收初始消息数据(以初始消息数据是消息文本进行示例),对消息文本进行预处理,如果直接对该消息文本进行过滤处理,则可以持续监听下一段消息文本,如果校验通过后保留了该消息文本,则可以从该消息文本中,基于线下建模部分得到的AC自动机识别出候选提及信息,当对候选提及信息进行多重校验处理后得到实体提及信息,而后基于该实体提及信息结合倒排索引表得到关联的一个或者多个候选实体,当得到多个候选实体时,采用预训练的实体排序模型进行实体消歧,分装返回词条卡片。
图9是根据本公开第五实施例的示意图。
如图9所示,该实体识别装置90,包括:
第一获取模块901,用于获取待处理消息数据;
处理模块902,用于采用多模匹配方法处理待处理消息数据,以得到实体提及信息;
第一确定模块903,用于确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息;以及
第二确定模块904,用于根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体。
在本公开的一些实施例中,如图10所示,图10是根据本公开第六实施例的示意图,该实体识别装置100,包括:第一获取模块1001、处理模块1002、第一确定模块1003、第二确定模块1004,其中,第二确定模块1004,具体用于:
采用实体提及信息处理待处理消息数据,以得到待匹配消息数据;
将待匹配消息数据和多个实体描述信息输入至实体排序模型之中,以得到实体排序模型分别输出的多个相关程度值,相关程度值,描述待匹配消息数据中的实体提及信息,与对应实体描述信息之间的相关程度;
将多个相关程度值之中,值最大的相关程度值对应的实体描述信息所属的候选实体作为目标实体。
在本公开的一些实施例中,其中,第一确定模块1003,具体用于:
根据索引表,确定与实体提及信息匹配的目标提及信息,索引表,用于根据目标提及信息索引关联的实体;
将目标提及信息所关联的实体作为候选实体。
在本公开的一些实施例中,实体识别装置100,还包括:
第二获取模块1005,用于在获取待处理消息数据之前,获取知识图谱数据,知识图谱数据包括:多个实体描述信息,以及与多个实体描述信息分别关联的多个实体;
解析模块1006,用于对多个实体描述信息进行解析,以分别得到对应的多个目标提及信息;以及
构建模块1007,用于根据多个目标提及信息和关联的多个实体构建索引表。
在本公开的一些实施例中,其中,第一获取模块1001,包括:
获取子模块10011,用于获取初始消息数据;
第一处理子模块10012,用于对初始消息数据进行预处理,以得到候选消息数据;以及
第二处理子模块10013,用于在候选消息数据的数据特征满足设定条件时,将候选消息数据作为待处理消息数据。
在本公开的一些实施例中,其中,第一处理子模块10012,具体用于:
从初始消息数据之中识别出第一类型的第一数据段;
对第一数据段进行类型转换,以得到第二类型的第二数据段,第一类型和第二类型不相同;以及
采用第二数据段替换初始消息数据之中的第一数据段,以得到候选消息数据。
在本公开的一些实施例中,其中,数据特征,是候选消息数据的长度特征,和/或,预设字符占比特征。
在本公开的一些实施例中,其中,处理模块1002,包括:
第三处理子模块10021,用于采用多模匹配方法处理待处理消息数据,以得到候选提及信息;
第四处理子模块10022,用于对候选提及信息进行校验处理,以得到校验结果;以及
第五处理子模块10023,用于在校验结果满足校验条件时,将候选提及信息作为实体提及信息。
在本公开的一些实施例中,其中,第四处理子模块10022,包括:
第一处理单元100221,用于在候选提及信息是第一信息类型时,对候选提及信息进行分词校验处理;
第二处理单元100222,用于在候选提及信息是第二信息类型时,对候选提及信息进行词周校验处理,第一信息类型和第二信息类型不相同。
在本公开的一些实施例中,其中,第一处理单元100221,具体用于:
对待处理消息数据进行分词处理,以得到多个分词;
如果候选提及信息与第一分词相匹配,则确定分词校验处理的校验结果满足校验条件,第一分词属于多个分词。
在本公开的一些实施例中,其中,第二处理单元100222,具体用于:
如果候选提及信息是未截断信息,则确定词周校验处理的校验结果满足校验条件。
可以理解的是,本实施例附图10中的实体识别装置100与上述实施例中的实体识别装置90,第一获取模块1001与上述实施例中的第一获取模块901,处理模块1002与上述实施例中的处理模块902,第一确定模块1003与上述实施例中的第一确定模块903,第二确定模块1004与上述实施例中的第二确定模块904,可以具有相同的功能和结构
需要说明的是,前述对实体识别方法的解释说明也适用于本实施例的实体识别装置,此处不再赘述。
本实施例中,通过获取待处理消息数据,采用多模匹配方法处理待处理消息数据,以得到实体提及信息,确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息,及根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体,能够有效提升消息数据中所涉及实体的识别合理性和识别效率,从而能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的实体识别方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其它设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如实体识别方法。例如,在一些实施例中,实体识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的实体识别方法的一个或多个步骤。备选地,在其它实施例中,计算单元1101可以通过其它任何适当的方式(例如,借助于固件)而被配置为执行实体识别方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其它可编程实体识别装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网及区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其它因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种实体识别方法,包括:
获取待处理消息数据;
采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;
确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及
根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
2.根据权利要求1所述的方法,所述候选实体的数量为多个,其中,所述根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体,包括:
采用所述实体提及信息处理所述待处理消息数据,以得到待匹配消息数据;
将所述待匹配消息数据和多个所述实体描述信息输入至实体排序模型之中,以得到所述实体排序模型分别输出的多个相关程度值,所述相关程度值,描述所述待匹配消息数据中的实体提及信息,与对应所述实体描述信息之间的相关程度;
将所述多个相关程度值之中,值最大的所述相关程度值对应的所述实体描述信息所属的候选实体作为所述目标实体。
3.根据权利要求1所述的方法,其中,所述确定与所述实体提及信息关联的候选实体,包括:
根据索引表,确定与所述实体提及信息匹配的目标提及信息,所述索引表,用于根据所述目标提及信息索引关联的实体;
将所述目标提及信息所关联的实体作为所述候选实体。
4.根据权利要求3所述的方法,在所述获取待处理消息数据之前,还包括:
获取知识图谱数据,所述知识图谱数据包括:多个实体描述信息,以及与所述多个实体描述信息分别关联的多个实体;
对所述多个实体描述信息进行解析,以分别得到对应的多个目标提及信息;以及
根据所述多个目标提及信息和所述关联的多个实体构建所述索引表。
5.根据权利要求1所述的方法,其中,所述获取待处理消息数据,包括:
获取初始消息数据;
对所述初始消息数据进行预处理,以得到候选消息数据;以及
如果所述候选消息数据的数据特征满足设定条件,则将所述候选消息数据作为所述待处理消息数据。
6.根据权利要求5所述的方法,其中,所述对所述初始消息数据进行预处理,以得到候选消息数据,包括:
从所述初始消息数据之中识别出第一类型的第一数据段;
对所述第一数据段进行类型转换,以得到第二类型的第二数据段,所述第一类型和所述第二类型不相同;以及
采用所述第二数据段替换所述初始消息数据之中的所述第一数据段,以得到所述候选消息数据。
7.根据权利要求5所述的方法,其中,所述数据特征,是所述候选消息数据的长度特征,和/或,预设字符占比特征。
8.根据权利要求1所述的方法,其中,所述采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息,包括:
采用多模匹配方法处理所述待处理消息数据,以得到候选提及信息;
对所述候选提及信息进行校验处理,以得到校验结果;以及
如果所述校验结果满足校验条件,则将所述候选提及信息作为所述实体提及信息。
9.根据权利要求8所述的方法,其中,所述对所述候选提及信息进行校验处理,包括:
如果所述候选提及信息是第一信息类型,则对所述候选提及信息进行分词校验处理;
如果所述候选提及信息是第二信息类型,则对所述候选提及信息进行词周校验处理,所述第一信息类型和所述第二信息类型不相同。
10.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行分词校验处理,包括:
对所述待处理消息数据进行分词处理,以得到多个分词;
如果所述候选提及信息与第一分词相匹配,则确定所述分词校验处理的校验结果满足所述校验条件,所述第一分词属于所述多个分词。
11.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行词周校验处理,包括:
如果所述候选提及信息是未截断信息,则确定所述词周校验处理的校验结果满足所述校验条件。
12.一种实体识别装置,包括:
第一获取模块,用于获取待处理消息数据;
处理模块,用于采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;
第一确定模块,用于确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及
第二确定模块,用于根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。
13.根据权利要求12所述的装置,所述候选实体的数量为多个,其中,所述第二确定模块,具体用于:
采用所述实体提及信息处理所述待处理消息数据,以得到待匹配消息数据;
将所述待匹配消息数据和多个所述实体描述信息输入至实体排序模型之中,以得到所述实体排序模型分别输出的多个相关程度值,所述相关程度值,描述所述待匹配消息数据中的实体提及信息,与对应所述实体描述信息之间的相关程度;
将所述多个相关程度值之中,值最大的所述相关程度值对应的所述实体描述信息所属的候选实体作为所述目标实体。
14.根据权利要求12所述的装置,其中,所述第一确定模块,具体用于:
根据索引表,确定与所述实体提及信息匹配的目标提及信息,所述索引表,用于根据所述目标提及信息索引关联的实体;
将所述目标提及信息所关联的实体作为所述候选实体。
15.根据权利要求14所述的装置,还包括:
第二获取模块,用于在所述获取待处理消息数据之前,获取知识图谱数据,所述知识图谱数据包括:多个实体描述信息,以及与所述多个实体描述信息分别关联的多个实体;
解析模块,用于对所述多个实体描述信息进行解析,以分别得到对应的多个目标提及信息;以及
构建模块,用于根据所述多个目标提及信息和所述关联的多个实体构建所述索引表。
16.根据权利要求12所述的装置,其中,所述第一获取模块,包括:
获取子模块,用于获取初始消息数据;
第一处理子模块,用于对所述初始消息数据进行预处理,以得到候选消息数据;以及
第二处理子模块,用于在所述候选消息数据的数据特征满足设定条件时,将所述候选消息数据作为所述待处理消息数据。
17.根据权利要求16所述的装置,其中,所述第一处理子模块,具体用于:
从所述初始消息数据之中识别出第一类型的第一数据段;
对所述第一数据段进行类型转换,以得到第二类型的第二数据段,所述第一类型和所述第二类型不相同;以及
采用所述第二数据段替换所述初始消息数据之中的所述第一数据段,以得到所述候选消息数据。
18.根据权利要求16所述的装置,其中,所述数据特征,是所述候选消息数据的长度特征,和/或,预设字符占比特征。
19.根据权利要求12所述的装置,其中,所述处理模块,包括:
第三处理子模块,用于采用多模匹配方法处理所述待处理消息数据,以得到候选提及信息;
第四处理子模块,用于对所述候选提及信息进行校验处理,以得到校验结果;以及
第五处理子模块,用于在所述校验结果满足校验条件时,将所述候选提及信息作为所述实体提及信息。
20.根据权利要求19所述的装置,其中,所述第四处理子模块,包括:
第一处理单元,用于在所述候选提及信息是第一信息类型时,对所述候选提及信息进行分词校验处理;
第二处理单元,用于在所述候选提及信息是第二信息类型时,对所述候选提及信息进行词周校验处理,所述第一信息类型和所述第二信息类型不相同。
21.根据权利要求20所述的装置,其中,所述第一处理单元,具体用于:
对所述待处理消息数据进行分词处理,以得到多个分词;
如果所述候选提及信息与第一分词相匹配,则确定所述分词校验处理的校验结果满足所述校验条件,所述第一分词属于所述多个分词。
22.根据权利要求20所述的装置,其中,所述第二处理单元,具体用于:
如果所述候选提及信息是未截断信息,则确定所述词周校验处理的校验结果满足所述校验条件。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
CN202110821289.3A 2021-07-20 2021-07-20 实体识别方法、装置、电子设备及存储介质 Active CN113657100B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110821289.3A CN113657100B (zh) 2021-07-20 2021-07-20 实体识别方法、装置、电子设备及存储介质
EP22185888.9A EP4113357A1 (en) 2021-07-20 2022-07-20 Method and apparatus for recognizing entity, electronic device and storage medium
US17/813,691 US20220358292A1 (en) 2021-07-20 2022-07-20 Method and apparatus for recognizing entity, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110821289.3A CN113657100B (zh) 2021-07-20 2021-07-20 实体识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113657100A true CN113657100A (zh) 2021-11-16
CN113657100B CN113657100B (zh) 2023-12-15

Family

ID=78477578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110821289.3A Active CN113657100B (zh) 2021-07-20 2021-07-20 实体识别方法、装置、电子设备及存储介质

Country Status (3)

Country Link
US (1) US20220358292A1 (zh)
EP (1) EP4113357A1 (zh)
CN (1) CN113657100B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398136A (zh) * 2022-01-17 2022-04-26 北京达佳互联信息技术有限公司 对象提及方法、装置、终端及存储介质
CN114579626A (zh) * 2022-03-09 2022-06-03 北京百度网讯科技有限公司 数据处理方法、数据处理装置、电子设备和介质
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
CN116992883A (zh) * 2023-09-27 2023-11-03 苏州远眸智能科技有限公司 实体对齐的处理方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663563B (zh) * 2023-07-27 2023-11-17 中国科学技术大学 基于多任务负采样的跨领域实体链接方法、装置及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107438814A (zh) * 2015-04-28 2017-12-05 谷歌公司 移动设备上的实体动作建议
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置
CN109408622A (zh) * 2018-10-31 2019-03-01 腾讯科技(深圳)有限公司 语句处理方法及其装置、设备和存储介质
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN110321437A (zh) * 2019-05-27 2019-10-11 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110738055A (zh) * 2019-10-23 2020-01-31 北京字节跳动网络技术有限公司 文本的实体识别方法、设备及存储介质
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111738808A (zh) * 2020-07-24 2020-10-02 浙江口碑网络技术有限公司 数据处理方法、装置及设备
CN111949274A (zh) * 2020-09-23 2020-11-17 成都精灵云科技有限公司 参数校验器和基于结构体标签的字段校验方法
CN112084781A (zh) * 2020-09-10 2020-12-15 腾讯科技(深圳)有限公司 一种标准术语确定方法、装置及存储介质
CN112732993A (zh) * 2020-12-31 2021-04-30 京东数字科技控股股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN113033179A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107438814A (zh) * 2015-04-28 2017-12-05 谷歌公司 移动设备上的实体动作建议
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置
CN109408622A (zh) * 2018-10-31 2019-03-01 腾讯科技(深圳)有限公司 语句处理方法及其装置、设备和存储介质
CN109918669A (zh) * 2019-03-08 2019-06-21 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
CN110321437A (zh) * 2019-05-27 2019-10-11 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110738055A (zh) * 2019-10-23 2020-01-31 北京字节跳动网络技术有限公司 文本的实体识别方法、设备及存储介质
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111738808A (zh) * 2020-07-24 2020-10-02 浙江口碑网络技术有限公司 数据处理方法、装置及设备
CN112084781A (zh) * 2020-09-10 2020-12-15 腾讯科技(深圳)有限公司 一种标准术语确定方法、装置及存储介质
CN111949274A (zh) * 2020-09-23 2020-11-17 成都精灵云科技有限公司 参数校验器和基于结构体标签的字段校验方法
CN112732993A (zh) * 2020-12-31 2021-04-30 京东数字科技控股股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN113033179A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JULIEN PLU: "Knowledge Extraction in Web Media: At The Frontier of NLP, Machine Learning and Semantics", 《INTERNATIONAL WORLD WIDE WEB CONFERENCE COMMITTEE (IW3C2)》, pages 317 - 322 *
PABLO N. MENDES 等: "DBpedia Spotlight: Shedding Light on the Web of Documents", 《PROCEEDINGS OF THE 7TH INTERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS》, pages 1 - 8 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398136A (zh) * 2022-01-17 2022-04-26 北京达佳互联信息技术有限公司 对象提及方法、装置、终端及存储介质
CN114579626A (zh) * 2022-03-09 2022-06-03 北京百度网讯科技有限公司 数据处理方法、数据处理装置、电子设备和介质
CN114579626B (zh) * 2022-03-09 2023-08-11 北京百度网讯科技有限公司 数据处理方法、数据处理装置、电子设备和介质
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
CN116992883A (zh) * 2023-09-27 2023-11-03 苏州远眸智能科技有限公司 实体对齐的处理方法和装置
CN116992883B (zh) * 2023-09-27 2023-12-05 苏州远眸智能科技有限公司 实体对齐的处理方法和装置

Also Published As

Publication number Publication date
US20220358292A1 (en) 2022-11-10
EP4113357A1 (en) 2023-01-04
CN113657100B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
EP4113354A2 (en) Method and apparatus for generating pre-trained language model, electronic device and storage medium
CN113657100B (zh) 实体识别方法、装置、电子设备及存储介质
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
CN112507700A (zh) 事件抽取方法、装置、电子设备及存储介质
CN112507040A (zh) 多元关系生成模型的训练方法、装置、电子设备及介质
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN112487173A (zh) 人机对话方法、设备和存储介质
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN113722493A (zh) 文本分类的数据处理方法、设备、存储介质及程序产品
CN113268560A (zh) 用于文本匹配的方法和装置
CN111767334A (zh) 信息抽取方法、装置、电子设备及存储介质
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN115470313A (zh) 信息检索及模型训练方法、装置、设备和存储介质
CN116955561A (zh) 问答方法、装置、电子设备以及存储介质
JP2022088540A (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN114417878A (zh) 语义识别方法、装置、电子设备及存储介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN112906368A (zh) 行业文本增量方法、相关装置及计算机程序产品
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant