CN113821592B - 一种数据处理方法、装置、设备以及存储介质 - Google Patents

一种数据处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113821592B
CN113821592B CN202110702133.3A CN202110702133A CN113821592B CN 113821592 B CN113821592 B CN 113821592B CN 202110702133 A CN202110702133 A CN 202110702133A CN 113821592 B CN113821592 B CN 113821592B
Authority
CN
China
Prior art keywords
entity
training
word
words
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110702133.3A
Other languages
English (en)
Other versions
CN113821592A (zh
Inventor
罗锦文
郭伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110702133.3A priority Critical patent/CN113821592B/zh
Publication of CN113821592A publication Critical patent/CN113821592A/zh
Application granted granted Critical
Publication of CN113821592B publication Critical patent/CN113821592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请实施例公开了一种数据处理方法、装置、设备以及存储介质,其中方法包括:获取目标对象标识关联的多媒体数据;调用实体识别模型对多媒体数据进行实体识别,并根据实体识别模型的识别结果确定多媒体数据中的实体词、及实体词的实体词类型;根据实体词和实体词类型,对目标对象标识进行对象数据处理;实体识别模型包括编码模块和解码模块,编码模块用于确定多媒体数据中目标字符的特征向量,目标字符的特征向量用于表示目标字符处于多媒体数据时的字符特征,目标字符在不同的多媒体数据下对应的特征向量不相同,解码模块用于根据目标字符的特征向量对目标字符进行实体识别。可以实现对细粒度实体词的识别,从而提高识别精度。

Description

一种数据处理方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备以及存储介质。
背景技术
命名实体是指文本中描述实体的词汇,比如人名、地名、组织机构名、产品名等,这些词汇称为命名实体(Name Entity)。命名实体往往是句子中人们最关注的词汇,命名实体的实体识别是信息提取、问答***、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。命名实体的定义因人而异、因场景而异,比如在电商领域,商品的名称就可能被定义为命名实体,在医疗领域,疾病的名称就可能被定义为命名实体。
目前确定命名实体的方式一般是通过已有的词典来进行的,这些词典中包括了大量的各种类型的实体词,当前通过词典来确定实体词的方式还存在一定的局限,比如词典的内容有限,而实体词的量则非常大,基于词典来确定句子中的实体词不够全面准确。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,可较为全面准确地实现实体词识别。
一方面,本申请实施例公开了一种数据处理方法,所述方法包括:
获取目标对象标识关联的多媒体数据;
调用实体识别模型对所述多媒体数据进行实体识别,并根据所述实体识别模型的识别结果确定所述多媒体数据中的实体词、及所述实体词的实体词类型;
根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理;
其中,所述实体识别模型包括编码模块和解码模块,所述编码模块用于确定所述多媒体数据中目标字符的特征向量,所述目标字符的特征向量用于表示所述目标字符处于所述多媒体数据时的字符特征,所述目标字符在不同的多媒体数据下对应的特征向量不相同,所述解码模块用于根据所述目标字符的特征向量对所述目标字符进行实体识别。
另一方面,本申请实施例公开了一种数据处理装置,所述装置包括:
获取单元,用于获取目标对象标识关联的多媒体数据;
识别单元,用于调用实体识别模型对所述多媒体数据进行实体识别,并根据所述实体识别模型的识别结果确定所述多媒体数据中的实体词、及所述实体词的实体词类型;
处理单元,用于根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理;
其中,所述实体识别模型包括编码模块和解码模块,所述编码模块用于确定所述多媒体数据中目标字符的特征向量,所述目标字符的特征向量用于表示所述目标字符处于所述多媒体数据时的字符特征,所述目标字符在不同的多媒体数据下对应的特征向量不相同,所述解码模块用于根据所述目标字符的特征向量对所述目标字符进行实体识别。
相应地,本申请实施例还公开了一种智能设备,包括处理器、存储器和网络接口,所述处理器、存储器和网络接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的方法。
相应地,本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述的方法。
相应地,本申请实施例还公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,智能设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,实现上述的方法。
在本申请实施例中,可以获取目标对象标识关联的多媒体数据,并调用实体识别模型对多媒体数据进行实体识别,以根据实体识别模型的识别结果确定多媒体数据中的实体词以及实体词的实体词类型,进一步的可以根据实体词和实体词类型,对目标对象标识进行对象数据处理。通过实施上述方法,通过模型识别的方式可以实现实体词的快速识别,使得实体词的识别更加全面,并且可以提高实体词识别的精确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种数据处理方法的流程示意图;
图1b是本申请实施例提供的一种数据处理***的架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3a是本申请实施例提供的一种利用实体识别模型识别的流程示意图;
图3b是本申请实施例提供的一种搜索界面的界面示意图;
图3c是本申请实施例提供的一种搜索结果浏览界面的界面示意图;
图4是本申请实施例提供的一种数据处理方法的流程示意图;
图5a是本申请实施例提供的一种利用实体分类模型分类的流程示意图;
图5b是本申请实施例提供的一种实体分类模型训练的流程示意图;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种智能设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能技术中所提及的机器学习、自然语言处理等技术,具体通过如下实施例进行说明。
命名实体识别(Named Entity Recognition,NER)是指在从文本中识别出特殊对象,这些对象的语义类别通常可以在识别前被预定义好,预定义类别可以是人名、地名、机构名等。命名实体识别可以是独立的信息抽取任务,也可以在应用在自然语言处理技术,例如,命名实体识别可以应用在信息检索、自动文本摘要、句法分析、问答***、机器翻译、知识建库(知识图谱)等领域。
其中,命名实体可以理解为文本中描述实体的词语,例如,人名、地名、组织机构名、产品名等均可称为命名实体。命名实体往往是句子中人们最关注的词汇。命名实体的定义可以因人而异、因场景而异,比如,在电商领域,商品的名称就可能被定义为实体,在医疗领域,疾病的名称就可能被定义为实体。
可以理解的是,实体识别任务的难点通常可以包括以下三点:
一是实体数量是无穷的。实体是一个开放的集合,例如,针对结构性强的实体,如“1929-11-10”的实体类型为时间,“好邻居公司”的实体类型为机构名,可以通过模板匹配的方式进行实体识别。但是,针对弱结构化实体,如“都挺好”则难以通过模板匹配或者词典的方式进行识别,因为“都挺好”可以是作品也可以是指其他类型,例如,“都挺好”可以是餐厅的名称,则“都挺好”的实体类型可以是机构名。
二是实体的词边界较为灵活。例如,以“又看到张三正在吃饭”为例进行说明,在对该句子进行识别时,有可能将“张三”识别为人名,也有可能将“张三正”识别为人名。
三是实体类型容易混淆。例如,以“电视剧都挺好带火了这家都挺好餐厅”为例进行说明,该句子中的两个“都挺好”表达了两个不同类型的实体,第一个“都挺好”的类型是作品,而第二个“都挺好”的类型是机构名。在类似于美食推荐等场景下,将第二个“都挺好”识别为机构名更为重要,而“都挺好”的类型也可以是作品,那么,在这种情况下,很有可能将实体类型混淆。
在本申请实施例中,具体是采用一个实体识别模型来实现一个句子或者段落中实体词的分析识别,可以将实体识别任务看作序列标注任务,通过端到端的模型来进行实体识别。其中,实体识别模型通常可分为输入层、编码层、解码层。如图1a所示是本申请提供的一种数据处理方法的流程示意图,从图1a中可以看出,模型的输入层可以采用字粒度方式或词粒度方式或字词混合方式进行输入,字词混合方式要比字粒度方式和词粒度方式的效果好。模型的编码层通常可以采用循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、Transformer网络。解码层通常可以采用条件随机场(Conditional Random Field,CRF)和SoftMax。
在一种实现方式中,在上述描述中利用模型来进行实体识别时,是需要先对模型进行训练的。在一种实现方式中,对模型进行训练前需要进行先获取语料,以及对语料进行标注。其中,语料包括多个句子,每个句子可以包含实体词,语料可以从全领域中获取,也可以从特定领域中获取。全领域可以是包括各个领域,例如医疗领域、体育领域、美食领域等等,特定领域可以是根据需求指定的领域,例如,若要识别体育中的人名,则特定领域可以是指体育领域。进行标注也就是确定语料中每个句子中所包括的实体词以及实体词对应的实体词类型。其中,进行标注的方式可以是人工标注方式或远监督方式。
在一种实现方式中,本申请提供了一种数据处理方法,可以获取目标对象标识关联的多媒体数据,并调用实体识别模型对多媒体数据进行实体识别,以根据该实体识别模型的识别结果确定多媒体数据中所包括的实体词以及实体词的实体词类型,进一步的,可以根据实体词和实体词类型,对目标对象标识进行对象数据处理。需要说明的是,本申请各实施例中提及的对象主要是指一些可以执行浏览各种资讯、收发文本消息等动作的用户,而本申请各实施例中所涉及的多媒体数据主要是指一些文本类的数据,比如一篇文本类型的新闻、用户之间收发的文字等等,在一些实施例中,多媒体数据也可以是各种音视频数据、图像数据等等,通过从音频数据、视频数据、图像数据中提取出对应的文本内容后,即可执行下述本申请实施例所提及的处理过程。
在一种实现方式中,上述的实体识别模型可以包括编码模块和解码模块,该编码模块可以用于确定多媒体数据中目标字符的特征向量,该目标字符的特征向量用于表示目标字符处于多媒体数据时的字符特征,其中,目标字符在不同的多媒体数据下对应的特征向量不相同。解码模块可以用于根据目标字符的特征向量对目标字符进行实体识别。通过本申请,可以实现更加细粒度的实体识别。例如,目前的实体识别方法通常可以解决粗粒度的实体识别,常见的如人名、地名和机构名等实体类型。
如果将目前的实体识别方法应用在例如新闻推荐等场景下,通常只能粗略的识别实体的实体类型,而例如新闻推荐等场景下需要更加细粒的实体类型来刻画实体,从而就需要提供更加具体的语义信息,以增强实体类型的指示性。例如,在识别人名时,人名还可以划分为体育人名和娱乐人名等。细粒度实体识别可以通过需要解决的场景来定义实体的类型,可以指定需要识别实体的实体类型。例如,本申请以针对新闻推荐等场景为例,可以重新定义多种实体类型,以实现细粒度实体识别。例如,该多种实体类型可以包括:人名、地名、机构名、作品、美食、商品、生物、时间、事件、医疗。还可以包括其他实体类型,在本申请不做限定。
在一个实施例中,细粒度实体识别用途广泛,以门户网站的场景为例,细粒度实体识别可以应用在搜索、推荐、广告等多个方面。例如,如图1b所示,对象在利用终端浏览一篇关于“都挺好”餐厅的文章之后,服务器可以检测到对象的浏览操作,并获取该文章,以利用本申请中的数据处理方法来识别出该文章中所包含的实体词以及实体词对应的实体词类型。而在得到识别结果(识别结果为实体词以及实体词对应的实体词类型)之后,可以根据该识别结果应用在多种实际场景下,例如,该实际场景可以是用户画像、广告投放、搜索、兴趣点泛化、周边推荐等等。
具体地,通过本申请,可以从如图1b所示的文章中识别出实体词:“都挺好”,以及该实体词对应的实体词类型分别属于作品和机构名。同时,还可以识别出文章中的实体词类型为地名的实体词:杭州和新开元酒店,以及实体词类型为美食的实体词:乳鸽。如图1b所示,在识别出上述的实体词以及实体词类型之后,在用户画像场景下,可以通过实体词类型来判断文章中的哪些实体词可以作为对象的用户画像,以表达对象的真实兴趣。例如,如果用户画像需要的实体词类型为作品以及美食,则可以将都挺好和乳鸽作为对象的用户画像。在广告投放场景下,实体词类型为机构名的实体词:都挺好,以及实体词类型为美食的实体词:乳鸽,均是较好的广告触发词。在搜索场景下,识别结果可以更好地帮助实现搜索的意图识别以及槽位抽取,以优化搜索结果。还可以实现兴趣点泛化,例如,可以通过判断实体词“乳鸽”的实体词类型为美食之后,利用相关算法将具体的实体词通过兴趣点泛化,例如,可以将“乳鸽”泛化为经典粤菜,以更好地刻画对象的兴趣点,提升推荐的多样性。还可以实现周边推荐,例如,基于实体词类型为地名的实体词:杭州和新开元酒店,可以对对象推荐杭州本地相关的内容,比如可以推荐新开元酒店附近的景点西溪国家湿地公园。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,Mobile Internet Device)等智能设备中的游戏类终端。终端与服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图,本申请实施例的所述方法可以应用在智能设备中,该智能设备例如可以智能终端,比如智能手机、平板电脑、智能可穿戴设备等等,该智能设备还可以是服务器。本申请实施例的所述数据处理方法包括以下步骤。
S201:获取目标对象标识关联的多媒体数据。目标对象标识可以是目标对象对应的标识,该目标对象可以是利用终端进行网页浏览或网页搜索的对象,也可以是利用社交软件进行社交的对象。与目标对象标识关联的多媒体数据可以是目标对象在网页所浏览的句子,或是目标对象在搜索引擎输入的搜索句子,或是目标对象在利用社交软件的聊天会话中的对话句子,或是目标对象在朋友圈等社交圈中针对所浏览的某条消息的回复句子等等。
S202:调用实体识别模型对多媒体数据进行实体识别,并根据实体识别模型的识别结果确定多媒体数据中的实体词以及实体词的实体词类型。实体识别模型可以包括编码模块和解码模块。在实体识别任务中,实体识别模型的编码模块通常可以是RNN或CNN或Transformer,解码模块通常可以是CRF或SoftMax。针对编码模块,考虑到将基于RNN作为编码模块时,利用RNN获取语义信息的能力较弱,或者将基于CNN作为编码模块时,利用CNN可能容易丢失长距离信息,或者将基于Transformer模型作为编码模块时,利用Transformer学习词语的边界能力较弱。
而为了提高模型的模型效果,本申请还可以采用语义表示强大的预训练模型作为编码模块,该给编码模块可以很好的学习出输入句子中每个字符的上下文信息,例如,该编码模块可以是BERT或ERNIE或LICHEE等。针对解码模块,可以利用CRF或SoftMax进行解码,而考虑到利用CRF这样的马尔科夫性的结构需要按照时间步进行解码,无法实现解码并行化,那么,可能会影响模型的推理速度,即实体识别模型的解码效率会降低。而利用SoftMax直接对输出进行分类可能会导致模型在解码时缺失标签间的约束。那么,在本申请时,解码模块还可以利用指针标注(MS)的方式来实现解码,MS解码可以改进CRF解码无法实现并行的问题,MS解码还可以根据多媒体数据中所包括的各个字符的上下文信息来识别实体词对应的实体词类型,从而可以解决SoftMax解码中缺失标签间约束的问题。MS解码还可以借鉴MRC架构的思路,将实体词的对应的实体词类型的识别拆解为开始(start)和结束(end)两步,即可以识别实体词中的第一个词(可以理解为start)以及实体词中的最后一个词(可以理解为end),以根据识别到的第一个词和最后一个词确定实体词,以及确定实体词对应的实体词类型。
举例来说,表1所示为实体识别模型中编码模块相同,解码模块为不相同时的解码速度以及模型效果。其中,模型效果可以利用参数F1值表示,F1值是精准率与召回率的调和平均数,F1值的取值范围为0到1,且数值越大,表明模型效果越好。从表1可以看出,在编码模块相同的情况下,利用基于MS的解码模块的模型效果接近基于CRF的解码模块的模型效果,但是基于MS的解码模块的解码速度是基于CRF的解码模块的解码速度的2.5倍。
表1:
模型结构 解码速度(ms) F1
LICHEE+CRF 32.5 0.8064
LICHEE+SoftMax 12.5 0.7938
LICHEE+MS 12.9 0.8026
在一种实现方式中,编码模块可以是用于确定多媒体数据中目标字符的特征向量,该目标字符的特征向量可以用于表示目标字符处于多媒体数据中时的字符特征。例如,该目标字符可以是指实体词中的第一个词和实体词中的最后一个词,字符特征可以包括该字符在该多媒体数据中的上下文特征。需要说明的是,目标字符在不同的多媒体数据下对应的特征向量是不相同的,例如,句子“A作者发表一篇文章”中的字符“文”的特征向量和句子“文章A介绍了网球的发展历史”中的字符“文”的特征向量是不相同的。解码模块可以用于根据目标字符的特征向量对目标字符进行实体识别,以确定该目标字符是否是实体词,以及该实体词对应的实体词类型。
在一种实现方式中,编码模块的输入可以为按照语序排列的多媒体数据中的各个字符,编码模块的输出可以为每个字符对应的L维特征向量,该L为大于1的整数。例如,该特征向量可以是768维的向量,该特征向量中可以包含字符对应的上下文特征。其中,解码模块的输入可以为上述每个字符对应的L维特征向量,解码模块的输出可以为L维特征向量所对应的字符属于实体词中的第一个词的概率、或者输出为L维特征向量所对应的字符属于实体词中的最后一个词的概率。
举例来说,如图3a所示为实体识别模型的识别过程,以多媒体数据为某一句子“秋云当晚献唱”为例进行说明。如图3a所示,编码模块的输入是“秋云当晚献唱”中的各个字符,编码模块的输出是“秋云当晚献唱”中的每个字符对应的特征向量。接着,上述每个字符对应的特征向量可以作为解码模块的输入,以使得解码模块根据每个字符对应的特征向量输出特征向量所对应的字符属于实体词中的第一个词的概率、或者输出特征向量所对应的字符属于实体词中的最后一个词的概率。进而可以根据上述的第一个词的概率和最后一个词的概率确定句子中包括的实体词。其中,如果某个字符是属于实体词中的第一个词或最后一个词时,则字符对应的概率不为0,如果某个字符是不属于实体词中的第一个词或最后一个词,则字符对应的概率为0,例如,图3a中的t1和t2不为0,t1~t6为0。其中,在解码模块的输出中可以存在第一个词对应的标识以及最后一个词的标识。那么,可以根据第一个词对应的标识以及最后一个词的标识在确定第一个词和最后一个词。而在确定第一个词和最后一个词之后,既可以确定训练句子中包括的实体词。其中,可以将第一个词、最后一个词以及第一个词与最后一个词之间所包括的词确定为一个实体词。例如,“秋”可以识别为第一个词,“云”可以识别为最后一个词,那么,实体词为“秋云”。又如,如果句子为“新开业的大世界酒店”,则“大”可以识别为第一个词,“店”识别为最后一个词,即实体词为“大世界酒店”。解码模块的输出还可以包括句子中每个字符对应的实体词类型,那么,在确定句子中所包含的实体词“秋云”之后,还可以根据实体词“秋云”所包含的每个字符对应的实体词类型,来确定实体词对应的实体词类型。例如,字符“秋”和字符“云”的实体词类型均为人名,则实体词“秋云”对应的实体词类型为人名。
S203:根据实体词和实体词类型,对目标对象标识进行对象数据处理。在一种实现方式中,可以根据实体词和实体词类型,对目标对象标识进行对象数据处理。例如,数据处理可以是对对象的用户画像进行更新,对对象进行信息推荐,对对象进行兴趣特征泛化等。例如,以资讯网站为例,对象在该资讯网站浏览了一篇文章之后,可以根据该文章中所包含的实体词以及实体词对应的实体词类型,进行用户画像更新、兴趣特征泛化、信息推荐。
在一种实现方式中,可以根据实体词和所述实体词类型,对目标对象标识所对应对象进行信息推荐。具体的,可以根据实体词和实体词类型,对目标对象标识所对应对象进行推荐特征分析。其中,该推荐特征分析可以基于实体词类型确定目标对象标识所要推荐的信息推荐类型。例如,假设实体词类型为美食,则可以确定目标对象标识对应的信息推荐类型为美食类型。而在进行推荐特征分析之后,可以得到相应的推荐特征分析结果,从而可以根据该推荐特征分析结果对目标对象标识对应对象进行信息推荐。例如,根据上述描述可知,推荐特征分析结果可以是信息推荐类型,该信息推荐类型具体可以是美食类型,那么,可以对目标对象标识推荐美食类型的信息。
举例来说,假设多媒体数据为图1b中所示的一篇关于“都挺好”餐厅的文章,该文章中的实体词以及实体词对应的实体词类型可以为下述描述。实体词:“都挺好”,该实体词对应的实体词类型分别属于作品和机构名;实体词:杭州和新开元酒店,该实体词对应的实体词类型为地名;实体词:乳鸽,该实体词对应的实体词类型为美食。那么,在确定该文章中的实体词以及实体词类型之后,可以基于实体词类型确定目标对象标识所要推荐的信息推荐类型。例如,上述描述中实体词类型有美食,则可以向目标对象标识推荐美食类型的文章。在一种实现方式中,信息推荐具体可以是周边推荐,例如,基于实体词类型为地名的实体词:杭州和新开元酒店,可以对目标对象标识实现周边信息的推荐。具体地,可以根据上述实体词以及实体词类型进行推荐特征分析,进而可以确定目标对象标识所要推荐的信息推荐类型可以为新开元酒店附近的酒店或美食或旅游景点等等。在一种实现方式中,信息推荐具体可以是广告投放,比如针对实体词类型为机构名的实体词:都挺好,以及实体词类型为美食的实体词:乳鸽,均是较好的广告触发词,那么,在根据上述实体词以及实体词类型进行推荐特征分析,进而可以确定目标对象标识所要推荐的广告类型可以为是类似于有乳鸽的餐厅。
在一种实现方式中,可以根据实体词和所述实体词类型,对目标对象标识所对应对象的用户画像进行更新。例如,可以通过实体词类型来判断哪些实体词可以确定为目标对象标识所对应对象的用户画像特征。以图1b所示的文章为例,如果用户画像所需要的用户画像特征类型包括作品以及美食,则可以将都挺好和乳鸽确定为目标对象标识所对应对象的用户画像特征,从而实现对目标对象标识所对应对象的用户画像的更新。而在对目标对象标识所对应的用户画像更新之后,如果将其继续应用到信息推荐场景下,则还可以根据更新后的用户画像对目标对象标识所对应对象进行信息推荐。在一种实现方式中,还可以根据实体词和实体词类型,对目标对象标识所对应对象的用户画像特征进行分析,以得到用户画像特征分析结果。例如,可以根据实体词类型确定目标对应标识的用户画像中的用户画像特征类型,比如可以将实体词类型确定为用户画像特征类型。而在得到用户画像特征分析结果之后,还可以根据用户画像特征分析结果,对目标用户标识所对应用户的用户画像进行更新。例如,上述用户画像特征分析结果可以是用户画像中的用户画像特征类型包括美食,则可以将实体词类型为美食的实体词添加到用户画像中。或者,也可以根据实体词类型确定的用户画像特征类型不断的更新目标对象标识所对应对象的用户画像。例如,在目标对象标识所对应对象浏览任意一篇文章后,即可根据文章中所述包括的实体词以及实体词类型对用户画像进行更新。
在一种实现方式中,可以根据实体词和实体词类型,对目标对象标识所对应对象进行兴趣特征泛化。具体地,可以根据实体词和实体词类型,对目标对象标识进行兴趣特征泛化处理,得到目标对象标识所对应的泛化对象特征。例如,以图1b所示的文章为例,确定该文章中的实体词“乳鸽”的实体词类型为美食之后,可以确定目标对象标识对应的兴趣特征为美食中的乳鸽,而为更好地刻画出目标对象标识的兴趣点,提升推荐的多样性。可以将该兴趣特征进行兴趣特征泛化处理,例如,可以利用相关泛化算法将实体词“乳鸽”进行兴趣特征泛化处理,以将“乳鸽”泛化为经典粤菜。那么,目标对象标识所对应的泛化对象特征为经典粤菜。而在得到目标对象标识所对应的泛化对象特征之后,如果将其继续应用到信息推荐场景下,还可以针对性的对目标对象标识推荐关于泛化对象特征对应的信息,例如,通过前述描述,可以向目标对象标识推荐关于经典粤菜的信息。
在一种实现方式中,还可以具体应用到搜索场景。具体地,可以在检测到基于多媒体数据发起的搜索事件时,根据多媒体数据中所包括的实体词和实体词的实体词类型,将实体词和实体词类型作为搜索关键词进行搜索处理,并将搜索处理得到的搜索结果显示在搜索结果浏览界面上。例如,当目标对象标识所对应对象在在搜索界面输入多媒体数据时,既可以确定检测到基于多媒体数据发起的搜索事件。
举例来说,目标对象标识所对应对象在搜索界面上输入多媒体数据之后,终端可以获取将该多媒体数据,并可以将该多媒体数据发送给服务器,以使得服务器确定该多媒体数据中所包含的实体词以及实体词类型,以将实体词和实体词类型作为搜索关键词进行在数据库进行搜索处理。例如,如图3b所示可以为搜索界面,对象可以在如图3b中由301标记的搜索区域输入所要搜索的数据,假设对象输入的多媒体数据是九寨沟怎么游玩,则服务器在获取到该多媒体数据之后,可以识别出该多媒体数据中的实体词为九寨沟,实体词类型为地名。而在确定实体词以及实体词类型之后,可以将实体词(九寨沟)和实体词类型(地名)作为搜索关键词在数据库进行搜索处理。例如,可以在数据库中搜索关于九寨沟的天气、九寨沟的旅游等等。而在服务器获取到搜索结果之后,服务器可以将搜索结果返回给终端,而终端也可以由图3b的搜索界面跳转至如图3c所示搜索结果浏览界面,以使得在搜索结果浏览界面上可以显示服务器返回的搜索结果。该搜索结果具体可以显示在图3c中由302标记的搜索结果区域,例如,在搜索结果区域所显示的九寨沟天气、九寨沟旅游即是搜索结果。
在本申请实施例中,可以获取目标对象标识关联的多媒体数据,并调用实体识别模型对多媒体数据进行实体识别,以根据实体识别模型的识别结果确定多媒体数据中的实体词以及实体词的实体词类型,进一步的可以根据实体词和实体词类型,对目标对象标识进行对象数据处理。通过实施上述方法,可以实现对细粒度实体词的识别,提高了识别的精确度。并可以根据识别的结果在多种应用场景中进行对应的数据处理,也可以提高数据处理效率以及准确性。
请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图,本申请实施例的所述方法可以应用在智能设备中,该智能设备例如可以智能终端,比如智能手机、平板电脑、智能可穿戴设备等等,该智能设备还可以是服务器。本申请实施例的所述数据处理方法包括以下步骤。
S401:获取目标对象标识关联的多媒体数据。
S402:通过训练样本集训练得到实体识别模型。
在一种实现方式中,实体识别模型可以是通过训练样本集训练得到的,其中,该训练样本集中可以包括多个训练样本对,该训练样本对可以包括训练句子以及该训练句子对应的标注信息。该训练句子的标注信息可以包括:该训练句子中包括的实体词以及实体词对应的实体词类型。需要说明的是,实体识别模型需要高质量的训练样本集,如果标注信息中存在错误标注或漏掉标注的情况,都会影响实体识别模型的识别效果。例如,将“作者A的梧桐树写的很精彩”中的“梧桐树”标注为树名,其实梧桐树的实体词类型应该是一个作品,这种情况是错误标注。又如,将“去年大火的都挺好”中的“都挺好”没有被标注,这种情况是漏掉标注。而细粒度实体识别由于识别的实体词对应的实体词类型变多,则在对实体词以及实体词类型进行标注的难度也会上升。在一种实现方式中,可以利用人工标注的方式进行标注,而考虑到采用人工标注的方法对句子中的实体词以及实体词类型进行标注是相当麻烦的,费时费力,而且还容易在标注的时候出错误,进而无法提高工作效率。那么,可以考虑通过自动构造训练样本的方式来准备实体识别模型对应的训练样本集。则本申请还可以利用远监督的思想来进行标注,例如,可以使用预先构建好的词典来对收集的句子进行标注,以得到句子中的实体词以及实体词类型。具体的标注方式可以理解为用词典中所包括的词语和句子进行字面匹配,比如,人名词典中所包括的人名有张三,则可以将句子中的“张三”标注为实体词,且该实体词类型为人名。
在一种实现方式中,通过训练样本集训练得到实体识别模型的具体实施过程可以为如下描述。其中,实体识别模型的结构可以如图3a所示。针对训练样本集中的任一训练句子,可以将训练句子输入实体识别模型中的编码模块,以得到该训练句子中每个字符对应的特征向量,该特征向量可以是768维向量,该特征向量中可以包含字符对应的上下文特征。而在得到训练句子中每个字符对应的特征向量之后,该训练句子中每个字符对应的特征向量可以输入实体识别模型中的解码模块,以确定该训练句子中每个字符属于实体词中的第一个词的概率、或者确定训练句子中每个字符属于实体词中的最后一个词的概率,以及还可以确定训练句子中每个字符对应的实体词类型。
进一步的,可以根据每个字符属于实体词中的第一个词的概率、或者每个字符属于实体词中的最后一个词的概率,确定训练句子中包括的训练实体词。其中,确定训练实体词的方法可以参考上述确定实体词的方法的描述,在此处不在赘述。例如,以训练句子“秋云当晚献唱”为例,“秋”可以识别为第一个词,“云”可以识别为最后一个词,那么,训练实体词为“秋云”。又如,以训练句子“新开业的大世界酒店”为例,“大”可以识别为第一个词,“店”识别为最后一个词,那么,训练实体词为“大世界酒店”。
而在确定训练句子中所包含的训练实体词之后,可以根据训练实体词所包含的每个字符对应的实体词类型来确定训练实体词对应的实体词预测类型。例如,上述描述的“秋云”对应的实体词预测类型为人名,又如,“大世界酒店”对应的实体词预测类型为地名。在确定训练实体词对应的实体词预测类型之后,即可根据训练句子的标注信息中的实体词及实体词对应的实体词类型、训练实体词及训练实体词对应的实体词预测类型,对实体识别模型进行训练,以得到训练后的实体识别模型。
其中,上述根据训练句子的标注信息中的实体词及实体词对应的实体词类型、训练实体词及训练实体词对应的实体词预测类型,对实体识别模型进行训练,得到训练后的实体识别模型具体实施步骤可以为如下描述:为方便描述,可以将实体词及实体词对应的实体词类型称之为第一信息,将训练实体词及训练实体词对应的实体词预测类型称之为第二信息,则可以根据第一信息和第二信息计算损失函数的梯度,其中,本申请对损失函数不做限定。再根据损失函数的梯度对实体识别模型的模型参数进行参数更新,并检测损失函数是否满足预设收敛条件,当检测到损失函数满足预设收敛条件时,则可以停止模型参数的参数更新,从而可以得到训练后的实体识别模型。其中,该预设收敛条件可以是指损失函数的梯度小于预先设置的一个阈值,或者是两次迭代之间的权值变化已经很小,且小于预先设置的一个阈值,或者模型的迭代次数达到了预先设置的最大迭代次数,在满足上述任一条件时,可以停止对实体识别模型的训练。
具体地,训练句子中所包括的实体词是可以通过获取到的参考词典集合从训练句子中查找确定的,而训练句子中包括的实体词对应的实体词类型是可以根据确定实体词时,所使用的参考词典所属的类型来确定的,参考词典所属的类型与前述提及的实体词类型相关,比如参考词典所属的类型和实体词类型均包括人名、地名、机构名、作品名等等类型,例如,人名类型的参考词典中的词语均为人名的实体词。其中,参考词典集合可以包括N个类型的参考词典,同一类型的参考词典中所包括的词语所属的类型均是相同的。其中,N为大于1的整数,该N值可以根据需要设置,例如,N可以为7,或10等数值。例如,针对资讯网站,可以定义10种实体词类型的细粒度实体识别,该10种实体词类型可以包括人名、地名、机构名、作品、美食、商品、生物、时间、事件、医疗,也可以包括其他类型,在本请不做限定。则N可以为10,那么,可以预先设置10个类型的参考词典。其中,参考词典中的词语可以通过知识图谱进行收集整理,每一个参考词典中的词语为一种实体词类型,例如,基于人名的参考词典中的词语均是人名,基于地名的参考词典中的词语均是地名。
在一种实现方式中,以训练句子“五环五年前就想做的事情,如今却被二环实现”为例进行说明,可以通过参考词典集合确定该训练句子中的实体词包括“五环”和“二环”(“五环”和“二环”既是道路名的类型,又是机构名的类型)。因为“五环”和“二环”在道路名的参考词典可以存在,在机构名的参考词典中也可以存在。如果是先通过道路名的参考词典查找的,则可能会将“五环”和“二环”的实体词类型确定为道路名。如果是先通过机构名参考词典查找的,则可能会将“五环”和“二环”的实体词类型确定为机构名。或者,若以出现频率来进行确定实体词类型,由于“五环”和“二环”在道路名的参考词典中的出现频率高于在机构名的参考词典中的出现频率,则可能会将“五环”和“二环”的实体词类型确定为道路名,但是,在该训练句子中“五环”和“二环”的实体词类型应该是一个机构名。可以理解的是,在上述情况下,可能会存在错标的情况。为了解决上述问题,可以先将训练句子进行句子分类。例如,训练句子“五环五年前就想做的事情,如今却被二环实现”来自于财经类文章,而财经类文章中,“五环”和“二环”为机构名实体词的概率要显著高于“五环”和“二环”为道路名实体词的概率。那么,在确定“五环”和“二环”对应的实体词类型时,选择的是机构名而不是道路名。
前述可知,在利用参考词典确定训练句子中包括的实体词对应的实体词类型往往会引来类型歧义的问题。例如,针对上述的训练句子“五环五年前就想做的事情,如今却被二环实现”,因为“五环”和“二环”在道路名的参考词典中的出现频率要高于在机构名的参考词典中的出现频率,在确定实体词的实体词类型时,可能会将“五环”和“二环”实体词类型确定为道路名,则会出现错标的问题。为了解决实体歧义问题,可以利用参考词典所属的类型和训练句子的分类类型共同确定实体词的实体词类型,以加强标注信息的准确性。具体地,当从训练句子中查找确定的目标实体词使用了M个参考词典时,其中,M为大于1的整数,即确定出了实体词但实体词所对应的参考词典有多个类型时(比如确定了目标实体词:“五环”,但是该目标实体词既是道路名的类型,又是一个机构名的类型),则该目标实体词对应的实体词类型是根据M个参考词典所属的类型和训练句子的分类类型确定的。而确定训练句子对应的分类类型则可以根据资讯文章所属的资讯类型来确定。例如,可以根据资讯文章所属的资讯类型为财经类来确定训练句子的分类类型为财经类型,那么,上述的目标实体词为“五环”的实体词类型应该是一个机构名。
例如,训练句子可以是从目标网站所公开的资讯文章中获取的,而目标网站上所公开的资讯文章可以是不同资讯类型的。其中,目标网站具体可以是某些互联网的门户网站,或其他资讯网站,在本申请不做限定。在门户网站中有着丰富的资讯数据,该资讯数据可以涉及影视综、体育、数码等14个资讯类型。那么,可以从门户网站所公开的资讯文章中获取训练句子,而在获取该训练句子时,也可以获取该训练句子对应的资讯文章所属的资讯类型。例如,从财经类文章中获取一训练句子为“五环五年前就想做的事情,如今却被二环实现”,一方面,通过机构名的参考词典,可以确定实体词“五环”和“二环”的实体词类型为机构名,并且通过道路名的参考词典,又可以确定实体词“五环”和“二环”的实体词类型为道路名;另一方面,因为该训练句子来自财经类文章,那么,可以将该训练句子对应的分类类型确定为财经类型。可以理解的是,与财经类型相关的参考词典是机构名的参考词典,那么,可以将实体词“五环”和“二环”的实体词类型确定为机构名。
在一种实现方式中,在上述利用训练句子的分类类型和参考词典所属的类型来共同确定实体词的实体词类型,以加强实体词的实体词类型的准确性时,可能还会存在实体词歧义的问题。例如,以训练句子“李四种下一棵杉树”为例进行说明,其中,“杉树”既是人名的类型,又是一个植物的类型。该训练句子从娱乐类文章中获取,则将训练句子的分类类型为娱乐类型,而娱乐类型相关的参考词典可以是人名参考词典,而在利用人名参考词典查找该训练句子中的实体词时,通常可以将该训练句子中的“杉树”确定为实体词,并将“杉树”对应的实体词类型确定为人名,而实际上该“杉树”属于植物。为了解决上述实体词歧义的问题,可以考虑根据实体词的上下文信息来对实体词以及实体词的类型进行进一步判断,以确定通过训练句子的分类类型和参考词典所属的类型来确定的实体词以及实体词类型是否是正确的。
在一种实现方式中,可以获取实体词的上下文信息,以根据上下文信息确定训练句子中的初始实体词以及初始实体词的初始实体词类型是否是正确的,如果不正确,则可以对训练句子中的初始实体词以及初始实体词的初始实体词类型进行调整,以得到训练句子中的实体词以及实体词的实体词类型。其中,上述对初始实体词以及初始实体词的初始实体词类型的调整可以利用实体分类模型来实现。例如,该实体分类模型可以是基于BERT模型的实体分类模型,也可以是其他可以获取上下文信息的实体分类模型,在本申请不做限定。
其中,对初始训练样本集中的初始实体词以及初始实体词的初始实体词类型进行调整的实施方式具体可以为如下描述。可以通过实体分类模型来确定初始实体词对应的多个候选实体词类型,以及初始实体词属于每个候选实体词类型的目标概率。从而可以将初始实体词的初始实体词类型调整为多个候选实体词类型中的目标候选实体词类型,以将多个候选实体词类型中的目标候选实体词类型作为初始实体词的实体词类型,其中,目标候选实体词类型的目标概率的值是最大的。也可以将初始实体词的实体词类型为参考实体词类型时,将该初始实体词作为实体词,其中,参考实体词类型可以理解为上述参考词典所属的类型。
举例来说,如图5a所示,可以将训练句子“在他与杉树和张兰合作的电视连续剧”输入实体分类模型,通过该实体分类模型可以确定初始实体词“杉树”的多个候选实体词类型,以及每个候选实体词类型的目标概率。其中,“杉树”对应的候选实体词类型为人名的目标概率为0.87,“杉树”对应的候选实体词类型为植物的目标概率为0.04。通过上述目标概率,可以将目标概率为0.87对应的候选实体词类型确定为“杉树”的实体词类型,即“杉树”的实体词类型为人名。同时,若人名也是多个参考实体词类型中的一种,那么,在实体分类模型的识别结果中“杉树”的实体词类型为人名。
举例再说,如图5a所示,将训练句子“李四种下一棵杉树”输入实体分类模型,通过该实体分类模型可以确定初始实体词“杉树”对应的候选实体词类型为人名的目标概率为0.12,“杉树”对应的候选实体词类型为植物的目标概率为0.74。可以将目标概率为0.74对应的候选实体词类型确定为“杉树”的实体词类型,即“杉树”的实体词类型为植物。同时,若植物也是多个参考实体词类型中的一种,那么,在实体分类模型的识别结果中“杉树”的实体词类型为植物。若植物不是多个参考实体词类型中的一种,那么,在实体分类模型的识别结果中“杉树”不存在对应的实体词类型。
在一种实现方式中,在利用实体分类模型对初始训练样本集中的初始实体词以及初始实体词的初始实体词类型进行调整之前,还可以对实体分类模型进行训练,以利用训练后的实体分类模型进行上述的调整。在一种实现方式中,该实体分类模型是通过实体词样本集训练得到的。该实体词样本集中可以包括实体词训练句子和标注信息,标注信息可以包括目标特性实体词及目标特性实体词类型。其中,目标特性可以是指实体词不存在歧义,即目标特性实体词可以理解为无歧义的实体词,目标特性实体词类型可以理解为无歧义的实体词类型。其中,目标特性实体词是可以通过对上述描述的参考词典进行歧义词过滤后得到的。例如,针对人名参考词典,人名参考词典中的“张三”、“李四”就是目标特性实体词,其对应的目标特性实体词类型为人名。又如,人名参考词典中的“梧桐”就不是目标特性实体词,“梧桐”即可理解为人名,也可理解为植物。
在一种实现方式中,如图5b所示为实体分类模型的训练过程,为了训练实体分类模型,需要先确定实体分类模型对应的实体词样本集,其中,实体词样本集中包括的实体词训练句子可以根据参考词典来确定。具体地,以目标特性实体词类型为人名为例进行说明,可以先对人名参考词典进行歧义词过滤,即将人名参考词典中的歧义词删除。例如,人名参考词典中包括梧桐、杉树、李四、张三,在进行歧义词过滤时,可以将梧桐、杉树过滤掉。在本申请中,实体词样本集可以是对上述训练样本集进行筛选过后的训练样本集,即保证筛选过后的实体词训练句子中不包括歧义词。可以将人名类的训练句子中的实体词与过滤后的人名参考词典中的词语进行匹配,如果训练句子中存在某一实体词不为过滤后的人名参考词典中的词语,则可以将该训练句子进行过滤。例如,训练句子“张三导演的3部作品全部大赚”中的实体词“张三”在过滤后的人名参考词典中,则该训练句子可以确定为实体词训练句子。又如,训练句子“李四穿西装搭配阔腿裤”中的实体词“李四”在过滤后的人名参考词典中,则该训练句子可以确定为实体词训练句子。又如,训练句子“梧桐的作文《我所理解的教育》”包括实体词“梧桐”,而“梧桐”不在过滤后的人名参考词典中,则可以将该训练句子过滤。那么,通过上述方法确定实体词样本集之后,就可以利用该实体词样本集对实体分类模型进行训练。
S403:调用实体识别模型对多媒体数据进行实体识别,并根据实体识别模型的识别结果确定多媒体数据中的实体词以及实体词的实体词类型。
S404:根据实体词和实体词类型,对目标对象标识进行对象数据处理。
其中,步骤S401、S403和S404的具体实施方式可以参见上述实施例步骤S201、S202和S203的具体描述,此处不再赘述。
在本申请实施例中,可以获取目标对象标识关联的多媒体数据,并通过训练样本集训练得到实体识别模型,以调用该实体识别模型对多媒体数据进行实体识别,从而可以根据实体识别模型的识别结果确定多媒体数据中的实体词以及实体词的实体词类型,进一步的,可以根据实体词和实体词类型,对目标对象标识进行对象数据处理。本申请通过参考词典远监督、句子的语境分类以及实体词的类型分类可以实现自动化的构造实体识别模型对应的训练样本集。相比于人工标注训练样本集中的标注信息,可以提高标注的效率以及标注信息的准确性。同时,利用本申请的实体识别模型,也可以提升该模型的解码效率。也可以提高采用实体识别模型进行实体识别的准确性以及效率。
请参阅图6,是本申请实施例提供的一种数据处理装置的结构示意图。本申请实施例的所述装置可以应用在智能设备中,该智能设备例如可以智能终端,比如智能手机、平板电脑、智能可穿戴设备等等,该智能设备还可以是服务器。本实施例中所描述的数据处理装置,包括:
获取单元601,用于获取目标对象标识关联的多媒体数据;
识别单元602,用于调用实体识别模型对所述多媒体数据进行实体识别,并根据所述实体识别模型的识别结果确定所述多媒体数据中的实体词、及所述实体词的实体词类型;
处理单元603,用于根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理;
其中,所述实体识别模型包括编码模块和解码模块,所述编码模块用于确定所述多媒体数据中目标字符的特征向量,所述目标字符的特征向量用于表示所述目标字符处于所述多媒体数据时的字符特征,所述目标字符在不同的多媒体数据下对应的特征向量不相同,所述解码模块用于根据所述目标字符的特征向量对所述目标字符进行实体识别。
在一种实现方式中,所述处理单元603,具体用于:
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象的用户画像进行更新;
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象进行信息推荐;
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象进行兴趣特征泛化。
在一种实现方式中,所述处理单元603,还用于:
在检测到基于所述多媒体数据发起的搜索事件时,根据所述实体词和所述实体词类型,将所述实体词和所述实体词类型作为搜索关键词进行搜索处理;
在搜索结果浏览界面上,显示搜索结果。
在一种实现方式中,所述编码模块的输入为按照语序排列的所述多媒体数据中的各个字符,所述编码模块的输出为每个字符对应的L维特征向量,L为大于1的整数;
所述解码模块的输入为所述每个字符对应的L维特征向量,所述解码模块的输出为L维特征向量所对应的字符属于实体词中的第一个词的概率、或者输出为L维特征向量所对应的字符属于实体词中的最后一个词的概率。
在一种实现方式中,所述实体识别模型是通过训练样本集训练得到的,所述训练样本集中包括训练样本对,所述训练样本对包括训练句子以及所述训练句子的标注信息,所述训练句子的标注信息包括:所述训练句子中包括的实体词以及所述实体词对应的实体词类型;
所述训练句子中包括的实体词是通过获取到的参考词典集合从训练句子中查找确定的,所述参考词典集合包括N个类型的参考词典,同一类型的参考词典中的词语所属的类型相同,N为大于1的整数;
所述训练句子中包括的实体词对应的实体词类型是根据确定实体词时所使用的参考词典所属的类型来确定的。
在一种实现方式中,当从训练句子中查找确定的目标实体词使用了M个参考词典时,则该目标实体词对应的实体词类型是根据M个参考词典所属的类型和所述训练句子的分类类型来确定的,M为大于1的整数;
其中,所述训练句子是从目标网站所公开的资讯文章中获取的,在所述目标网站上公开了不同资讯类型的资讯文章,所述训练句子的分类类型是根据资讯文章所属的资讯类型来确定的。
在一种实现方式中,所述训练样本集是通过调用实体分类模型对初始训练样本集中的初始实体词以及所述初始实体词的初始实体词类型进行调整后得到的;
对初始训练样本集中的初始实体词以及所述初始实体词的初始实体词类型进行调整包括:
通过所述实体分类模型来确定初始实体词对应的多个候选实体词类型,以及所述初始实体词属于每个候选实体词类型的目标概率;
将所述初始实体词的初始实体词类型调整为所述多个候选实体词类型中的目标候选实体词类型,以将所述多个候选实体词类型中的目标候选实体词类型作为所述初始实体词的实体词类型,所述目标候选实体词类型的目标概率的值最大。
在一种实现方式中,所述实体分类模型是通过实体词样本集训练得到的;
所述实体词样本集中包括实体词训练句子和标注信息,所述标注信息包括目标特性实体词及目标特性实体词类型;
所述目标特性实体词是通过对一个或者多个参考词典进行歧义词过滤后得到的。
在一种实现方式中,通过训练样本集训练得到实体识别模型包括:
针对所述训练样本集中的任一训练句子,将所述训练句子输入所述编码模块,确定所述训练句子中每个字符对应的特征向量;
将所述训练句子中每个字符对应的特征向量输入所述解码模块,确定所述训练句子中每个字符属于实体词中的第一个词的概率、或者确定所述训练句子中每个字符属于实体词中的最后一个词的概率;
根据所述每个字符属于实体词中的第一个词的概率、或者所述每个字符属于实体词中的最后一个词的概率,确定所述训练句子中包括的训练实体词,并确定所述训练实体词对应的实体词预测类型;
根据所述训练句子的标注信息中的实体词及实体词对应的实体词类型、所述训练实体词及训练实体词对应的实体词预测类型,对实体识别模型进行训练,得到训练后的实体识别模型。
可以理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。基于同一发明构思,本申请实施例中提供的数据处理装置解决问题的原理与有益效果与本申请方法实施例中数据处理装置解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
请参阅图7,是本申请实施例提供的一种智能设备的结构示意图。本实施例中所描述的智能设备,包括:处理器701、存储器702以及网络接口703。上述处理器701、存储器702以及网络接口703之间可以交互数据。本申请实施例的所述智能设备例如可以智能终端,比如智能手机、平板电脑、智能可穿戴设备等等,该智能设备还可以是服务器。
上述处理器701可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器702可以包括只读存储器和随机存取存储器,并向处理器701提供程序指令和数据。存储器702的一部分还可以包括非易失性随机存取存储器。其中,所述处理器701调用所述程序指令时用于执行:
获取目标对象标识关联的多媒体数据;
调用实体识别模型对所述多媒体数据进行实体识别,并根据所述实体识别模型的识别结果确定所述多媒体数据中的实体词、及所述实体词的实体词类型;
根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理;
其中,所述实体识别模型包括编码模块和解码模块,所述编码模块用于确定所述多媒体数据中目标字符的特征向量,所述目标字符的特征向量用于表示所述目标字符处于所述多媒体数据时的字符特征,所述目标字符在不同的多媒体数据下对应的特征向量不相同,所述解码模块用于根据所述目标字符的特征向量对所述目标字符进行实体识别。
在一种实现方式中,所述处理器701,具体用于:
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象的用户画像进行更新;
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象进行信息推荐;
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象进行兴趣特征泛化。
在一种实现方式中,所述处理器701,还用于:
在检测到基于所述多媒体数据发起的搜索事件时,根据所述实体词和所述实体词类型,将所述实体词和所述实体词类型作为搜索关键词进行搜索处理;
在搜索结果浏览界面上,显示搜索结果。
在一种实现方式中,所述编码模块的输入为按照语序排列的所述多媒体数据中的各个字符,所述编码模块的输出为每个字符对应的L维特征向量,L为大于1的整数;
所述解码模块的输入为所述每个字符对应的L维特征向量,所述解码模块的输出为L维特征向量所对应的字符属于实体词中的第一个词的概率、或者输出为L维特征向量所对应的字符属于实体词中的最后一个词的概率。
在一种实现方式中,所述实体识别模型是通过训练样本集训练得到的,所述训练样本集中包括训练样本对,所述训练样本对包括训练句子以及所述训练句子的标注信息,所述训练句子的标注信息包括:所述训练句子中包括的实体词以及所述实体词对应的实体词类型;
所述训练句子中包括的实体词是通过获取到的参考词典集合从训练句子中查找确定的,所述参考词典集合包括N个类型的参考词典,同一类型的参考词典中的词语所属的类型相同,N为大于1的整数;
所述训练句子中包括的实体词对应的实体词类型是根据确定实体词时所使用的参考词典所属的类型来确定的。
在一种实现方式中,当从训练句子中查找确定的目标实体词使用了M个参考词典时,则该目标实体词对应的实体词类型是根据M个参考词典所属的类型和所述训练句子的分类类型来确定的,M为大于1的整数;
其中,所述训练句子是从目标网站所公开的资讯文章中获取的,在所述目标网站上公开了不同资讯类型的资讯文章,所述训练句子的分类类型是根据资讯文章所属的资讯类型来确定的。
在一种实现方式中,所述训练样本集是通过调用实体分类模型对初始训练样本集中的初始实体词以及所述初始实体词的初始实体词类型进行调整后得到的;
对初始训练样本集中的初始实体词以及所述初始实体词的初始实体词类型进行调整包括:
通过所述实体分类模型来确定初始实体词对应的多个候选实体词类型,以及所述初始实体词属于每个候选实体词类型的目标概率;
将所述初始实体词的初始实体词类型调整为所述多个候选实体词类型中的目标候选实体词类型,以将所述多个候选实体词类型中的目标候选实体词类型作为所述初始实体词的实体词类型,所述目标候选实体词类型的目标概率的值最大。
在一种实现方式中,所述实体分类模型是通过实体词样本集训练得到的;
所述实体词样本集中包括实体词训练句子和标注信息,所述标注信息包括目标特性实体词及目标特性实体词类型;
所述目标特性实体词是通过对一个或者多个参考词典进行歧义词过滤后得到的。
在一种实现方式中,通过训练样本集训练得到实体识别模型包括:
针对所述训练样本集中的任一训练句子,将所述训练句子输入所述编码模块,确定所述训练句子中每个字符对应的特征向量;
将所述训练句子中每个字符对应的特征向量输入所述解码模块,确定所述训练句子中每个字符属于实体词中的第一个词的概率、或者确定所述训练句子中每个字符属于实体词中的最后一个词的概率;
根据所述每个字符属于实体词中的第一个词的概率、或者所述每个字符属于实体词中的最后一个词的概率,确定所述训练句子中包括的训练实体词,并确定所述训练实体词对应的实体词预测类型;
根据所述训练句子的标注信息中的实体词及实体词对应的实体词类型、所述训练实体词及训练实体词对应的实体词预测类型,对实体识别模型进行训练,得到训练后的实体识别模型。
基于同一发明构思,本申请实施例中提供的智能设备解决问题的原理与有益效果与本申请方法实施例中数据处理装置解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,所述程序执行时可包括如图2或者图4对应实施例中的数据处理方法的部分或全部步骤。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请中如“用户画像”等用户相关数据的收集处理在实例应用时应该严格根据相关国家法律法规的要求,具备合法性基础或获取个人信息主体的知情同意或单独同意,并在法律法规和/或个人信息主体的授权范围内,开展后续数据使用及处理行为。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。智能设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该智能设备执行上述各方法的实施例中所执行的步骤。
以上对本申请实施例所提供的一种数据处理方法、装置、设备以及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标对象标识关联的多媒体数据;
调用实体识别模型对所述多媒体数据进行实体识别,并根据所述实体识别模型的识别结果确定所述多媒体数据中的实体词、及所述实体词的实体词类型;
根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理;
其中,所述实体识别模型包括编码模块和解码模块,所述编码模块用于确定所述多媒体数据中目标字符的特征向量,所述目标字符的特征向量用于表示所述目标字符处于所述多媒体数据时的字符特征,所述目标字符在不同的多媒体数据下对应的特征向量不相同,所述解码模块用于根据所述目标字符的特征向量对所述目标字符进行实体识别,所述解码模块利用指针标注MS的方式实现解码;所述实体识别模型是通过训练样本集训练得到的,所述训练样本集中包括训练样本对,所述训练样本对包括训练句子以及所述训练句子的标注信息,所述训练句子的标注信息包括:所述训练句子中包括的实体词以及所述实体词对应的实体词类型;所述训练句子中包括的实体词是通过获取到的参考词典集合从训练句子中查找确定的,所述参考词典集合包括N个类型的参考词典,同一类型的参考词典中的词语所属的类型相同,N为大于1的整数;所述训练句子中包括的实体词对应的实体词类型是根据确定实体词时所使用的参考词典所属的类型来确定的;
通过训练样本集训练得到实体识别模型包括:
针对所述训练样本集中的任一训练句子,将所述训练句子输入所述编码模块,确定所述训练句子中每个字符对应的特征向量;
将所述训练句子中每个字符对应的特征向量输入所述解码模块,确定所述训练句子中每个字符属于实体词中的第一个词的概率、或者确定所述训练句子中每个字符属于实体词中的最后一个词的概率;
根据所述每个字符属于实体词中的第一个词的概率、或者所述每个字符属于实体词中的最后一个词的概率,确定所述训练句子中包括的训练实体词,并确定所述训练实体词对应的实体词预测类型;
根据所述训练句子的标注信息中的实体词及实体词对应的实体词类型、所述训练实体词及训练实体词对应的实体词预测类型,对实体识别模型进行训练,得到训练后的实体识别模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理,包括以下步骤中的任意一种或多种:
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象的用户画像进行更新;
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象进行信息推荐;
根据所述实体词和所述实体词类型,对所述目标对象标识所对应对象进行兴趣特征泛化。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到基于所述多媒体数据发起的搜索事件时,根据所述实体词和所述实体词类型,将所述实体词和所述实体词类型作为搜索关键词进行搜索处理;
在搜索结果浏览界面上,显示搜索结果。
4.如权利要求1所述的方法,其特征在于,
所述编码模块的输入为按照语序排列的所述多媒体数据中的各个字符,所述编码模块的输出为每个字符对应的L维特征向量,L为大于1的整数;
所述解码模块的输入为所述每个字符对应的L维特征向量,所述解码模块的输出为L维特征向量所对应的字符属于实体词中的第一个词的概率、或者输出为L维特征向量所对应的字符属于实体词中的最后一个词的概率。
5.如权利要求1所述的方法,其特征在于,
当从训练句子中查找确定的目标实体词使用了M个参考词典时,则该目标实体词对应的实体词类型是根据M个参考词典所属的类型和所述训练句子的分类类型来确定的,M为大于1的整数;
其中,所述训练句子是从目标网站所公开的资讯文章中获取的,在所述目标网站上公开了不同资讯类型的资讯文章,所述训练句子的分类类型是根据资讯文章所属的资讯类型来确定的。
6.如权利要求1所述的方法,其特征在于,
所述训练样本集是通过调用实体分类模型对初始训练样本集中的初始实体词以及所述初始实体词的初始实体词类型进行调整后得到的;
对初始训练样本集中的初始实体词以及所述初始实体词的初始实体词类型进行调整包括:
通过所述实体分类模型来确定初始实体词对应的多个候选实体词类型,以及所述初始实体词属于每个候选实体词类型的目标概率;
将所述初始实体词的初始实体词类型调整为所述多个候选实体词类型中的目标候选实体词类型,以将所述多个候选实体词类型中的目标候选实体词类型作为所述初始实体词的实体词类型,所述目标候选实体词类型的目标概率的值最大。
7.如权利要求6所述的方法,其特征在于,
所述实体分类模型是通过实体词样本集训练得到的;
所述实体词样本集中包括实体词训练句子和标注信息,所述标注信息包括目标特性实体词及目标特性实体词类型;
所述目标特性实体词是通过对一个或者多个参考词典进行歧义词过滤后得到的。
8.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标对象标识关联的多媒体数据;
识别单元,用于调用实体识别模型对所述多媒体数据进行实体识别,并根据所述实体识别模型的识别结果确定所述多媒体数据中的实体词、及所述实体词的实体词类型;
处理单元,用于根据所述实体词和所述实体词类型,对所述目标对象标识进行对象数据处理;
其中,所述实体识别模型包括编码模块和解码模块,所述编码模块用于确定所述多媒体数据中目标字符的特征向量,所述目标字符的特征向量用于表示所述目标字符处于所述多媒体数据时的字符特征,所述目标字符在不同的多媒体数据下对应的特征向量不相同,所述解码模块用于根据所述目标字符的特征向量对所述目标字符进行实体识别,所述解码模块利用指针标注MS的方式实现解码;所述实体识别模型是通过训练样本集训练得到的,所述训练样本集中包括训练样本对,所述训练样本对包括训练句子以及所述训练句子的标注信息,所述训练句子的标注信息包括:所述训练句子中包括的实体词以及所述实体词对应的实体词类型;所述训练句子中包括的实体词是通过获取到的参考词典集合从训练句子中查找确定的,所述参考词典集合包括N个类型的参考词典,同一类型的参考词典中的词语所属的类型相同,N为大于1的整数;所述训练句子中包括的实体词对应的实体词类型是根据确定实体词时所使用的参考词典所属的类型来确定的;
通过训练样本集训练得到实体识别模型包括:
针对所述训练样本集中的任一训练句子,将所述训练句子输入所述编码模块,确定所述训练句子中每个字符对应的特征向量;
将所述训练句子中每个字符对应的特征向量输入所述解码模块,确定所述训练句子中每个字符属于实体词中的第一个词的概率、或者确定所述训练句子中每个字符属于实体词中的最后一个词的概率;
根据所述每个字符属于实体词中的第一个词的概率、或者所述每个字符属于实体词中的最后一个词的概率,确定所述训练句子中包括的训练实体词,并确定所述训练实体词对应的实体词预测类型;
根据所述训练句子的标注信息中的实体词及实体词对应的实体词类型、所述训练实体词及训练实体词对应的实体词预测类型,对实体识别模型进行训练,得到训练后的实体识别模型。
9.一种智能设备,其特征在于,包括处理器、存储器和网络接口,所述处理器、存储器和网络接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。
CN202110702133.3A 2021-06-23 一种数据处理方法、装置、设备以及存储介质 Active CN113821592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110702133.3A CN113821592B (zh) 2021-06-23 一种数据处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110702133.3A CN113821592B (zh) 2021-06-23 一种数据处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113821592A CN113821592A (zh) 2021-12-21
CN113821592B true CN113821592B (zh) 2024-06-28

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN111785368A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于医疗知识图谱的分诊方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN111785368A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于医疗知识图谱的分诊方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11347782B2 (en) Internet text mining-based method and apparatus for judging validity of point of interest
CN108595494B (zh) 答复信息的获取方法及装置
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN106709040B (zh) 一种应用搜索方法和服务器
EP3825862A2 (en) Method and apparatus of recommending information based on fused relationship network, and device and medium
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其***
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及***
CN104391969B (zh) 确定用户查询语句句法结构的方法及装置
CN112231347A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
Sajeev et al. Effective web personalization system based on time and semantic relatedness
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
Al-Otaibi et al. Finding influential users in social networking using sentiment analysis
KR101955920B1 (ko) 속성 언어를 이용한 검색 방법 및 장치
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113254671A (zh) 基于query分析的图谱优化方法、装置、设备及介质
KR20190066156A (ko) 빅데이터 및 머신러닝 기반 스마트 관광 채팅로봇 시스템
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113821592B (zh) 一种数据处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant