CN108763555A

CN108763555A - 基于需求词的画像数据获取方法及装置

Info

Publication number: CN108763555A
Application number: CN201810555330.5A
Authority: CN
Inventors: 张心铭; 徐雅静; 高升; 李晓明; 耿硕钦; 王斌锋
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-06

Abstract

本发明公开了一种基于需求词的画像数据获取方法及装置。其中，方法包括：建立特定领域的知识图谱和/或事理图谱；根据用户行为数据，建立标签图谱；获取输入的属于特定领域的需求词；在知识图谱和/或事理图谱分别进行检索，得到与需求词对应的知识子图谱和/或事理子图谱；在标签图谱中检索与知识子图谱和/或事理子图谱对应的标签子图谱；根据标签子图谱得到与需求词匹配的画像数据。本方案通过知识图谱和/或事理图谱，以及标签图谱可快速有效地生成与输入的需求词匹配的画像数据，避免了现有技术中需人工提取用户画像而造成的提取效率低下，人工成本高的弊端；并且，获取的画像数据可全面及准确地反映与需求词对应的用户画像。

Description

基于需求词的画像数据获取方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于需求词的画像数据获取方法及装置。

背景技术

用户画像是通过对用户信息分类或标签化，而抽象得出的用户模型。针对于某一产品或需求，其用户画像数据为该产品或需求的目标用户的综合标签化数据。例如，针对于某一游戏产品的用户画像数据可以为：男性、爱打游戏、及未婚等。

目前，在获取与特定需求相对应的画像数据过程中，通常是采用人工构建的方法，利用某个或某几个特定领域人员的知识经验，根据与该特定需求紧密联系的用户数据，构建与特定需求对应的用户画像。然而，该方法获取与特定需求对应的画像数据的效率低下，人工成本高，选取的画像数据结果与构建人员依赖度较高，不利于大规模应用；并且，鉴于构建人员知识域的限制，以及所采用的与该特定需求紧密联系的用户数据的局限性，导致最终获取的画像数据往往具有片面性，无法真实地反映出该特定需求所对应的用户画像。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于需求词的画像数据获取方法及装置。

根据本发明的一个方面，提供了一种基于需求词的画像数据获取方法，其包括：

建立特定领域的知识图谱和/或事理图谱；

根据用户行为数据，建立标签图谱；

获取输入的属于特定领域的需求词；

在所述知识图谱和/或事理图谱分别进行检索，得到与所述需求词对应的知识子图谱和/或事理子图谱；

在所述标签图谱中检索与所述知识子图谱和/或事理子图谱对应的标签子图谱；

根据所述标签子图谱得到与所述需求词匹配的画像数据。

根据本发明的另一方面，提供了一种基于需求词的画像数据获取装置，其包括：

第一建立模块，适于建立特定领域的知识图谱和/或事理图谱；

第二建立模块，适于根据用户行为数据，建立标签图谱；

获取模块，适于获取输入的属于特定领域的需求词；

第一检索模块，适于在所述知识图谱和/或事理图谱分别进行检索，得到与所述需求词对应的知识子图谱和/或事理子图谱；

第二检索模块，适于在所述标签图谱中检索与所述知识子图谱和/或事理子图谱对应的标签子图谱；

画像获取模块，适于根据所述标签子图谱得到与所述需求词匹配的画像数据。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述基于需求词的画像数据获取方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述基于需求词的画像数据获取方法对应的操作。

根据本发明提供的基于需求词的画像数据获取方法及装置。其中，首先建立特定领域的知识图谱和/或事理图谱；并根据用户行为数据，建立标签图谱；其次，获取输入的属于特定领域的需求词，在知识图谱和/或事理图谱分别进行检索，得到与需求词对应的知识子图谱和/或事理子图谱，最终在标签图谱中检索与知识子图谱和/或事理子图谱对应的标签子图谱，并根据标签子图谱得到与需求词匹配的画像数据。本方案通过知识图谱和/或事理图谱，以及标签图谱可快速有效地生成与输入的需求词匹配的画像数据，避免了现有技术中需人工提取用户画像而造成的提取效率低下，人工成本高的弊端；并且，本方案中利用知识图谱和/或事理图谱，可扩宽特定领域数据的知识域，充分利用事物或事件间的相关性，获得与需求词对应的知识子图谱和/或事理子图谱，并根据知识子图谱和/或事理子图谱获得画像数据，从而使得最终获得的画像数据更为全面及准确地反映与需求词对应的用户画像。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例提供的基于需求词的画像数据获取方法的流程示意图；

图2示出了根据本发明另一个实施例提供的基于需求词的画像数据获取方法的流程示意图；

图3a示出了根据本发明另一个实施例提供的知识图谱示意图；

图3b示出了根据本发明另一个实施例提供的事理图谱示意图；

图3c示出了根据本发明另一个实施例提供的标签图谱示意图；

图4示出了根据本发明一个实施例提供的基于需求词的画像数据获取装置的结构框图；

图5示出了根据本发明一个实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例提供的基于需求词的画像数据获取方法的流程示意图。如图1所示，该方法包括：

步骤S110，建立特定领域的知识图谱和/或事理图谱。

其中，知识图谱为结构化的语义知识库，用以描述物理世界中的概念及其相互关系，其基本组成单位是“知识实体-关系-知识实体”三元组，知识实体之间通过关系相互联结，构成网状的知识结构。而事理图谱是以“事件实体-关系-事件实体”三元组为核心，描述事件的发展、因果等关系的逻辑知识库。

在获取与需求词对应的画像数据的过程中，由于需求词往往对应于某一特定领域，如金融领域、社交领域、或餐饮领域等等。所以，在本步骤中首先需建立特定领域的知识图谱和/或事理图谱。

知识图谱及事理图谱的构建方法本领域技术人员可根据实际的业务需求自行设置，本实施例在此不做限定。例如，可获取特定领域中的数据，针对该特定领域的数据进行信息提取并整合形成特定领域的知识图谱和/或事理图谱。

步骤S120，根据用户行为数据，建立标签图谱。

不同于步骤S110中所述的知识图谱及事理图谱，本步骤建立的标签图谱并非为基于特定领域数据而建立，而是根据用户行为数据，对用户行为数据抽取标签化信息后，获取标签之间的关联关系，构建“标签实体-关系-标签实体”三元组，从而建立标签图谱。

步骤S130，获取输入的属于特定领域的需求词。

其中，本步骤中的需求词并不局限于直接输入的特定领域的需求词，其还包括通过从输入的需求信息中提取出的属于特定领域的需求词。并且，本发明对输入的具体方式不做限定，例如，其可以为手动输入、语音录入、肢体识别录入等输入方式中的一种或多种的结合。

步骤S140，在知识图谱和/或事理图谱分别进行检索，得到与需求词对应的知识子图谱和/或事理子图谱。

具体地，可在知识图谱中检索与该需求词相匹配的知识实体，并根据该知识实体确定与需求词对应的知识子图谱；和/或，在事理图谱中检索与该需求词相匹配的事件实体，并根据该事件实体确定与需求词对应的事理子图谱。

通过本步骤，可获得与该需求词关联的知识子图谱和/或事理子图谱，避免直接根据需求词在标签图谱中得到的画像数据的全面性及准确度较低的弊端。

步骤S150，在标签图谱中检索与知识子图谱和/或事理子图谱对应的标签子图谱。

根据步骤S140中获得的知识子图谱和/或事理子图谱，通过相应的检索方法，检索出与知识子图谱和/或事理子图谱对应的标签子图谱。例如，可根据知识子图谱和/或事理子图谱中的各个知识实体或事件实体与标签图谱中的标签实体的相似度或关联性等，确定与知识子图谱和/或事理子图谱对应的标签子图谱，本实施例对检索与知识子图谱和/或事理子图谱对应的标签子图谱的具体方式不做限定，本领域技术人员可根据实际的业务需求自行设定。

步骤S160，根据标签子图谱得到与需求词匹配的画像数据。

根据步骤S150中确定的标签子图谱，通过标签提取或语义解析等方法得到与需求词相匹配的画像数据。

本实施例中首先建立特定领域的知识图谱和/或事理图谱，并根据用户行为数据，建立标签图谱；其次，获取输入的属于特定领域的需求词，在知识图谱和/或事理图谱分别进行检索，得到与需求词对应的知识子图谱和/或事理子图谱，最终在标签图谱中检索与知识子图谱和/或事理子图谱对应的标签子图谱，并根据标签子图谱得到与需求词匹配的画像数据。从而可根据知识图谱和/或事理图谱，以及标签图谱可快速有效地生成与输入的需求词匹配的画像数据，避免了现有技术中需人工提取用户画像而造成的提取效率低下，人工成本高的弊端；并且，本方案中利用知识图谱和/或事理图谱，可扩宽特定领域数据的知识域，充分利用事物或事件间的相关性，获得与需求词对应的知识子图谱和/或事理子图谱，并根据知识子图谱和/或事理子图谱获得画像数据，从而使得最终获得的画像数据更为全面及准确地反映与需求词对应的用户画像。

图2示出了根据本发明另一个实施例提供的基于需求词的画像数据获取方法的流程示意图。如图2所示，该方法包括：

步骤S210，建立特定领域的知识图谱和/或事理图谱。

具体地，在建立特定领域的知识图谱过程中，可先构建特定领域的初始知识图谱：其中，初始知识图谱在构建过程中，首先需设定该特定领域中的各个知识实体及对应的关系类型，如设定知识实体“银行”、知识实体“中国银行”及两者的对应关系为包含与被包含的关系，其次根据爬取的公开数据(包含结构化的知识图谱三元组数据及非结构化的文本数据)，人工提取非结构化文本数据中的知识实体及知识实体间的关系，从而形成知识图谱三元组数据，并根据该结构化的知识图谱三元组数据以及根据非结构化的文本数据生成的知识图谱三元组数据整合为初始知识图谱；进一步地，在构建初始知识图谱之后，将该初始知识图谱作为训练集，构建知识图谱的实体抽取模型与实体关系分类模型，其中，构建知识图谱的实体抽取模型与实体关系分类模型的具体方法本发明不做限定，例如，可采用BiLSTM+CRF模型构建知识图谱的实体抽取模型，以及根据BiGRU+2attention模型来构建知识图谱的实体关系分类模型；进一步地，在构建知识图谱的实体抽取模型与实体关系分类模型之后，爬取特定领域知识类的结构化数据和非结构化文本数据，并利用构建的实体抽取模型与实体关系分类模型在该结构化数据和非结构文本数据中抽取知识图谱三元组，对初始知识图谱进行扩充，获得构建后的知识图谱。例如，图3a中示出了构建的金融领域知识图谱中的部分图谱，从图3a中可看出，知识图谱中的节点为各个知识实体，知识实体之间为对应的知识实体关系，如知识实体“储蓄”、“汇兑”、“借贷”均为知识实体“银行”的业务属性；而知识实体“分期”属于知识实体“借贷”中的一类。

同理，在建立特定领域的事理图谱过程中，可构建特定领域的初始事理图谱，将初始事理图谱作为训练集，构建事理图谱的实体抽取模型与实体关系分类模型；爬取特定领域事理类的结构化数据和非结构化文本数据，根据事理图谱的实体抽取模型与实体关系分类模型在结构化数据和非结构文本数据中抽取事理图谱三元组，对初始事理图谱进行扩充，获得构建后的事理图谱。图3b为构建的金融领域的事理图谱中的部分图谱，从图3b中可看出事件“结婚”会导致事件“买房”和/或“旅行”的发生，而事件“买房”将导致事件“贷款”的发生。

步骤S220，根据用户行为数据，建立标签图谱。

不同于步骤S210中的知识图谱及事理图谱，本步骤建立的标签图谱并非基于特定领域数据而建立，而是通过获取用户行为数据，并提取用户行为数据中的用户标签数据，根据用户与用户标签数据之间的关联关系，建立标签图谱，其中，标签图谱中标签实体之间的关系是根据用户与用户标签数据之间的关联关系得到的。可选的，在提取用户标签数据之后，可进一步地根据用户标签数据获得相应的描述标签，根据描述标签与用户标签的对应关系以及用户与用户标签数据之间的关联关系建立标签图谱。如图3c所示，通过对用户行为数据的统计分析得出，90％的用户同时安装有安居客应用及汽车之家应用，而安装有汽车之家的用户中有80％安装有蚂蚁花呗，则建立标签“安居客”与“汽车之家”的关联关系，以及建立标签“汽车之家”与“蚂蚁花呗”的关联关系，并且，针对于标签“安居客”及标签“房天下”可获得相应的描述标签“买房”，则进一步建立标签“买房”与标签“安居客”及“房天下”的关联关系；同理，建立“汽车之家”及“瓜子网”与对应的描述标签“买车”的关联关系，以及，建立“瓜子网”、“蚂蚁花呗”、及“京东白条”与对应的描述标签“分期”的对应关系。从图中可看出，本步骤构建的标签图谱中并不记录用户信息(如用户ID，用户名称等)，而是将根据用户行为数据获得的标签数据呈现至标签图谱中，从而避免因将用户信息加入标签图谱而引发的数据处理量增加，处理速度降低等弊端。

步骤S230，获取输入的属于特定领域的需求词。

其中，本步骤中的需求词并不局限于直接输入的特定领域的需求词，其还包括通过从输入的需求信息中通过语义分析等方法提取出的属于特定领域的需求词。并且，本发明对输入的具体方式不做限定，例如，其可以为手动输入、语音录入、肢体识别录入等输入方式中的一种或多种的结合。

步骤S240，查找与需求词对应的至少一个泛化词。

具体地，预先构建底层语料库。其中，底层语料库的具体构建方法本领域技术人员可自行设置，本实施例对此不做限定。例如，可将知识图谱、事理图谱、和/或标签图谱的原始语料作为构建底层语料库的语料，从而构建出底层语料库。可选的，为便于后续泛化词的查找效率，可将底层语料库中的语料数据转换为相应的词向量。例如，可对语料数据进行数据清洗，并对清理后的语料数据进行分词操作，通过词向量训练模型(如CBOW word2vec词向量训练模型)将分词结果生成词向量，获得包含词向量的底层语料库。

进一步地，在底层语料库中查找与该需求词对应的至少一个泛化词。在具体的实施过程中，可预先对该需求词进行解析，生成对应的需求词向量，并根据需求词向量与底层语料库中各个语料的词向量之间的距离，查找与需求词对应的至少一个泛化词。具体地，可将需求词向量与底层语料库中各个语料的词向量之间的距离由小至大进行排序，并获取位于排序位列中前n个词向量，将该n个词向量对应的词确定为与该需求词对应的泛化词。例如，需求词为“贷款”，则通过底层语料库可获取与“贷款”词向量距离最近的4个词向量，将该4个词向量对应的词“借贷”、“借钱”、“借款”、以及“贷钱”作为与“贷款”对应的泛化词。

步骤S250，在知识图谱进行检索，得到与需求词和至少一个泛化词对应的知识子图谱；和/或，在事理图谱进行检索，得到与需求词和至少一个泛化词对应的事理子图谱。

具体地，在知识图谱进行检索，得到与需求词和至少一个泛化词对应的知识子图谱过程中，可首先在知识图谱中确定与需求词及至少一个泛化词对应的至少一个知识实体(例如，可根据知识图谱中的知识实体与需求词或泛化词的欧式距离的大小确定与需求词及至少一个泛化词对应的知识实体)，并根据该至少一个知识实体，通过相应的知识图谱关系预测模型，获得对应的知识子图谱。其中，知识图谱关系预测模型可以为基于机器学习方法，以知识图谱中的三元组数据为训练集，通过RPEM(representation predictionembedding model)模型而构建。例如，在图3a所示的知识图谱中检索与需求词的一个泛化词“借贷”对应的知识图谱子图谱为包含知识实体“分期”、“银行”、“民间借贷”的知识图谱子图谱。

同理，在事理图谱进行检索，得到与需求词和至少一个泛化词对应的事理子图谱过程中，可首先在事理图谱中确定与需求词及至少一个泛化词对应的至少一个事件实体(例如，可根据事件图谱中的事件实体与需求词或泛化词的欧式距离的大小确定与需求词及至少一个泛化词对应的事件实体)，并根据该至少一个事件实体，通过相应的事理图谱关系预测模型，获得对应的事理子图谱。其中，事理图谱关系预测模型可基于机器学习方法，以事理图谱中的三元组数据为训练集，通过RPEM模型而构建。例如，在图3b所示的事理图谱中检索与需求词“贷款”对应的事理图谱子图谱为包含事件实体“买房”的事理图谱子图谱。

步骤S260，在标签图谱中检索与知识子图谱和/或事理子图谱对应的标签子图谱。

具体地，在标签图谱中检索与知识子图谱对应的标签子图谱时，可首先确定标签图谱中与知识子图谱的各个知识实体对应的标签，并根据相应的标签图谱关系预测模型确定与标签关联的标签子图谱。其中，标签图谱关系预测模型可基于机器学习方法，以标签图谱中的“标签实体-关系-标签实体”三元组数据为训练集，通过RPEM模型而构建。例如，若步骤S250中确定的知识图谱子图谱中包含知识实体“分期”，则确定图3c所示标签图谱中的标签实体“分期”与其相对应，并进一步地确定包含标签“蚂蚁花呗”、“京东白条”和/或“瓜子网”的标签子图谱为该知识子图谱对应的标签子图谱。

同理，在标签图谱中检索与事理子图谱对应的标签子图谱时，可首先确定标签图谱中与事理子图谱的各个事件实体对应的标签，并根据相应的标签图谱关系预测模型确定与标签关联的标签子图谱。例如，若步骤S250中确定的事理图谱子图谱中包含事件实体“买房”，则确定图3c所示标签图谱中的标签实体“买房”与其相对应，并进一步地确定包含标签“安居客”、“房天下”和/或“汽车之家”的标签子图谱为该事理子图谱对应的标签子图谱。

步骤S270，根据标签子图谱得到与需求词匹配的画像数据。

具体地，根据步骤S260中获得的标签子图谱中的各个标签实体，确定与该需求词匹配的画像数据。例如，若步骤S260中确定包含标签“蚂蚁花呗”、“京东白条”、“瓜子网”，“安居客”、“房天下”和/或“汽车之家”的标签子图谱为对应的标签子图谱，则与该需求词相匹配的画像数据包含使用和/或下载有蚂蚁花呗、京东白条、瓜子网，安居客、房天下和/或“汽车之家应用的画像数据。

在一种可选的实施方式中，在获取与需求词匹配的画像数据后，进一步地根据获取的与需求词匹配的画像数据，挖掘得到与需求词匹配的用户群体。以供为该用户群体推荐相应的产品或服务，例如，若需求词为“贷款”，则可为挖掘得到的用户群体推荐贷款类应用，从而提高推广效率及推广效果。可选的，在挖掘得到与需求词匹配的用户群体之后，可进一步地为该用户群体分配与该需求词对应的标签，从而便于根据该标签快速地检索相应的用户。

在另一种可选的实施方式中，可根据获取的与需求词匹配的画像数据，过滤非优质用户。例如，在金融领域中，通常需根据用户的信用值为用户匹配相应的贷款额度或金融产品的使用权限，为降低金融产品等的风险值，往往需筛选出金融产品的高风险用户，则采用本实施例提供的方法，可仅输入需求词“低信用度”，便可获得与“低信用度”对应的用户画像，以供对该用户画像对应的用户进行贷款限额或降低其使用金融产品的使用权限。

在又一种可选的实施方式中，在获取与需求词匹配的画像数据后，根据该画像数据对应的用户占所有用户的比例，预估与该需求词对应的产品或服务的推广效果，例如，若与需求词“游戏”匹配的画像数据包括“男性”、及“大学生”，而当前男性大学生占总人口的20％，则根据该比例预估与“需求词”对应的产品或服务的推广效果；或者，在获取与需求词匹配的画像数据后，调整与该需求词对应的产品或服务的推广渠道，沿用上例，根据与需求词“游戏”对应的用户画像数据“男性”及“大学生”，确定网络推广渠道为与该需求词“游戏”对应的产品或服务的主要推广渠道。

在再一种可选的实施方式中，可根据本实施例实现画像数据的归因处理。具体地，获取目标画像数据，并通过本实施例提供的方法分别获取与多个需求词各自对应的画像数据，通过目标画像数据与该多个需求词各自对应的画像数据的相似度比对，确定目标画像数据对应的至少一个需求词。举例来说，若目标画像数据为“男性”及“大学生”，而与需求词“游戏”对应的画像数据为“男性”及“大学生”，与需求词“化妆品”对应的画像数据为“女性”及“白领”，与需求词“保健品”对应的画像数据为“中老年”，则可确定与目标画像数据对应的需求词为“游戏”，从而达到为已知用户群体匹配对应的产品或服务的技术效果。

本实施例中通过建立的特定领域的知识图谱和/或事理图谱，以及根据用户行为数据建立的标签图谱，确定出与需求词匹配的画像数据，避免了现有技术中需人工提取用户画像而造成的提取效率低下，人工成本高的弊端；并且，本方案中通过获取需求词的泛化词，以及根据需求词及泛化词确定最终的画像数据，可提高获取的用户画像数据的全面性及准确度；进一步地，本方案中利用知识图谱和/或事理图谱，可扩宽特定领域数据的知识域，充分利用事物或事件间的相关性，获得与需求词对应的知识子图谱和/或事理子图谱，并根据知识子图谱和/或事理子图谱获得画像数据，从而使得最终获得的画像数据更为全面及准确地反映与需求词对应的用户画像，为挖掘新用户，规避风险用户，预估产品或服务的推广效果及推广策略的调整，及目标画像数据的归因处理提供基础。

图4示出了根据本发明一个实施例提供的基于需求词的画像数据获取装置的结构框图。如图4所示，该装置包括：第一建立模块41、第二建立模块42、获取模块43、第一检索模块44、第二检索模块45、以及画像获取模块46。

其中，第一建立模块41，适于建立特定领域的知识图谱和/或事理图谱。

第二建立模块42，适于根据用户行为数据，建立标签图谱。

获取模块43，适于获取输入的属于特定领域的需求词。

第一检索模块44，适于在所述知识图谱和/或事理图谱分别进行检索，得到与所述需求词对应的知识子图谱和/或事理子图谱。

第二检索模块45，适于在所述标签图谱中检索与所述知识子图谱和/或事理子图谱对应的标签子图谱。

画像获取模块46，适于根据所述标签子图谱得到与所述需求词匹配的画像数据。

可选的，该装置还包括：泛化模块(图中未示出)，适于所述获取模块在获取输入的属于特定领域的需求词之后，查找与所述需求词对应的至少一个泛化词。

第一检索模块44进一步适于：在所述知识图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的知识子图谱；和/或，在所述事理图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的事理子图谱。

可选的，泛化模块进一步适于：在底层语料库中查找与所述需求词对应的至少一个泛化词。

可选的，泛化模块进一步适于：对所述需求词进行解析，生成所述需求词向量；根据所述需求词向量与所述底层语料库中各个语料的词向量之间的距离，查找与所述需求词对应的至少一个泛化词。

可选的，第一建立模块41进一步适于：按照以下步骤构建知识图谱：

构建特定领域的初始知识图谱，将所述初始知识图谱作为训练集，构建知识图谱的实体抽取模型与实体关系分类模型；

爬取特定领域知识类的结构化数据和非结构化文本数据；

根据知识图谱的实体抽取模型与实体关系分类模型在所述结构化数据和非结构文本数据中抽取知识图谱三元组，对初始知识图谱进行扩充，获得构建后的知识图谱。

可选的，第一建立模块41进一步适于：按照以下步骤构建事理图谱：

构建特定领域的初始事理图谱，将所述初始事理图谱作为训练集，构建事理图谱的实体抽取模型与实体关系分类模型；

爬取特定领域事理类的结构化数据和非结构化文本数据；

根据事理图谱的实体抽取模型与实体关系分类模型在所述结构化数据和非结构文本数据中抽取事理图谱三元组，对初始事理图谱进行扩充，获得构建后的事理图谱。

可选的，第二建立模块42进一步适于：提取所述用户行为数据中的用户标签数据；根据用户与用户标签数据之间的关联关系，建立标签图谱，其中所述标签图谱中标签实体之间的关系是根据用户与用户标签数据之间的关联关系得到的。

可选的，该装置还包括：挖掘模块(图中未示出)，适于根据所述画像数据挖掘得到与需求词匹配的用户群体。

可选的，该装置还包括：标签分配模块，适于在所述挖掘模块根据所述画像数据挖掘得到与需求词匹配的用户群体之后，为所述用户群体中的所有用户配置与所述需求词对应的标签。

由此可见，本装置根据用户行为数据，建立标签图谱；其次，获取输入的属于特定领域的需求词，在知识图谱和/或事理图谱分别进行检索，得到与需求词对应的知识子图谱和/或事理子图谱，最终在标签图谱中检索与知识子图谱和/或事理子图谱对应的标签子图谱，并根据标签子图谱得到与需求词匹配的画像数据。从而可根据知识图谱和/或事理图谱，以及标签图谱可快速有效地生成与输入的需求词匹配的画像数据，避免了现有技术中需人工提取用户画像而造成的提取效率低下，人工成本高的弊端；并且，本装置中利用知识图谱和/或事理图谱，可扩宽特定领域数据的知识域，充分利用事物或事件间的相关性，获得与需求词对应的知识子图谱和/或事理子图谱，并根据知识子图谱和/或事理子图谱获得画像数据，从而使得最终获得的画像数据更为全面及准确地反映与需求词对应的用户画像。

根据本发明一个实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的方法。

图5示出了根据本发明一个实施例提供的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该终端可以包括：处理器(processor)502、通信接口(CommunicationsInterface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

建立特定领域的知识图谱和/或事理图谱；

根据用户行为数据，建立标签图谱；

获取输入的属于特定领域的需求词；

根据所述标签子图谱得到与所述需求词匹配的画像数据。

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：

查找与所述需求词对应的至少一个泛化词；

在所述知识图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的知识子图谱；

和/或，在所述事理图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的事理子图谱。

在底层语料库中查找与所述需求词对应的至少一个泛化词。

对所述需求词进行解析，生成所述需求词向量；

根据所述需求词向量与所述底层语料库中各个语料的词向量之间的距离，查找与所述需求词对应的至少一个泛化词。

按照以下步骤构建知识图谱：

爬取特定领域知识类的结构化数据和非结构化文本数据；

按照以下步骤构建事理图谱：

爬取特定领域事理类的结构化数据和非结构化文本数据；

获取用户行为数据；

提取所述用户行为数据中的用户标签数据；

根据用户与用户标签数据之间的关联关系，建立标签图谱，其中所述标签图谱中标签实体之间的关系是根据用户与用户标签数据之间的关联关系得到的。

根据所述画像数据挖掘得到与需求词匹配的用户群体。

为所述用户群体中的所有用户配置与所述需求词对应的标签。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种基于需求词的画像数据获取方法，其包括：

建立特定领域的知识图谱和/或事理图谱；

根据用户行为数据，建立标签图谱；

获取输入的属于特定领域的需求词；

根据所述标签子图谱得到与所述需求词匹配的画像数据。

A2.根据A1所述的方法，其中，在所述获取输入的属于特定领域的需求词之后，所述方法还包括：查找与所述需求词对应的至少一个泛化词；

所述在所述知识图谱和/或事理图谱分别进行检索，得到与所述需求词对应的知识子图谱和/或事理子图谱进一步包括：在所述知识图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的知识子图谱；

和/或，所述在所述知识图谱和/或事理图谱分别进行检索，得到与所述需求词对应的知识子图谱和/或事理子图谱进一步包括：在所述事理图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的事理子图谱。

A3.根据A2所述的方法，其中，所述查找与所述需求词对应的至少一个泛化词进一步包括：

在底层语料库中查找与所述需求词对应的至少一个泛化词。

A4.根据A3所述的方法，其中，所述在底层语料库中查找与所述需求词对应的至少一个泛化词进一步包括：

对所述需求词进行解析，生成所述需求词向量；

A5.根据A1-A4中任一项所述的方法，其中，所述建立特定领域的知识图谱和/或事理图谱进一步包括：

按照以下步骤构建知识图谱：

爬取特定领域知识类的结构化数据和非结构化文本数据；

A6.根据A1-A4中任一项所述的方法，其中，所述建立特定领域的知识图谱和/或事理图谱进一步包括：

按照以下步骤构建事理图谱：

爬取特定领域事理类的结构化数据和非结构化文本数据；

A7.根据A1-A6中任一项所述的方法，其中，所述根据用户行为数据，建立标签图谱进一步包括：

获取用户行为数据；

提取所述用户行为数据中的用户标签数据；

A8.根据A1所述的方法，其中，在所述根据所述标签子图谱得到与所述需求词匹配的画像数据之后，所述方法还包括：

根据所述画像数据挖掘得到与需求词匹配的用户群体。

A9.根据A8所述的方法，其中，在所述根据所述画像数据挖掘得到与需求词匹配的用户群体之后，所述方法还包括：为所述用户群体中的所有用户配置与所述需求词对应的标签。

本发明还公开了：B10.一种基于需求词的画像数据获取装置，其包括：

第二建立模块，适于根据用户行为数据，建立标签图谱；

获取模块，适于获取输入的属于特定领域的需求词；

B11.根据B10所述的装置，其中，所述装置还包括：泛化模块，适于所述获取模块在获取输入的属于特定领域的需求词之后，查找与所述需求词对应的至少一个泛化词；

所述第一检索模块进一步适于：在所述知识图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的知识子图谱；和/或，在所述事理图谱进行检索，得到与所述需求词和所述至少一个泛化词对应的事理子图谱。

B12.根据B11所述的装置，其中，所述泛化模块进一步适于：

在底层语料库中查找与所述需求词对应的至少一个泛化词。

B13.根据B12所述的装置，其中，所述泛化模块进一步适于：对所述需求词进行解析，生成所述需求词向量；

B14.根据B10-B13中任一项所述的装置，其中，所述第一建立模块进一步适于：

按照以下步骤构建知识图谱：

爬取特定领域知识类的结构化数据和非结构化文本数据；

B15.根据B10-B13中任一项所述的装置，其中，所述第一建立模块进一步适于：

按照以下步骤构建事理图谱：

爬取特定领域事理类的结构化数据和非结构化文本数据；

B16.根据B10-B15中任一项所述的装置，其中，所述第二建立模块进一步适于：

提取所述用户行为数据中的用户标签数据；

B17.根据B10所述的装置，其中，所述装置还包括：

挖掘模块，适于根据所述画像数据挖掘得到与需求词匹配的用户群体。

B18.根据B17所述的装置，其中，所述装置还包括：

标签分配模块，适于在所述挖掘模块根据所述画像数据挖掘得到与需求词匹配的用户群体之后，为所述用户群体中的所有用户配置与所述需求词对应的标签。

本发明还公开了：C19.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如A1-A9中任一项所述的基于需求词的画像数据获取方法对应的操作。

本发明还公开了：D20.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如A1-A9中任一项所述的基于需求词的画像数据获取方法对应的操作。

Claims

1.一种基于需求词的画像数据获取方法，其包括：

建立特定领域的知识图谱和/或事理图谱；

根据用户行为数据，建立标签图谱；

获取输入的属于特定领域的需求词；

根据所述标签子图谱得到与所述需求词匹配的画像数据。

2.根据权利要求1所述的方法，其中，在所述获取输入的属于特定领域的需求词之后，所述方法还包括：查找与所述需求词对应的至少一个泛化词；

3.根据权利要求2所述的方法，其中，所述查找与所述需求词对应的至少一个泛化词进一步包括：

在底层语料库中查找与所述需求词对应的至少一个泛化词。

4.根据权利要求3所述的方法，其中，所述在底层语料库中查找与所述需求词对应的至少一个泛化词进一步包括：

对所述需求词进行解析，生成所述需求词向量；

5.根据权利要求1-4中任一项所述的方法，其中，所述建立特定领域的知识图谱和/或事理图谱进一步包括：

按照以下步骤构建知识图谱：

爬取特定领域知识类的结构化数据和非结构化文本数据；

6.根据权利要求1-4中任一项所述的方法，其中，所述建立特定领域的知识图谱和/或事理图谱进一步包括：

按照以下步骤构建事理图谱：

爬取特定领域事理类的结构化数据和非结构化文本数据；

7.根据权利要求1-6中任一项所述的方法，其中，所述根据用户行为数据，建立标签图谱进一步包括：

获取用户行为数据；

提取所述用户行为数据中的用户标签数据；

8.一种基于需求词的画像数据获取装置，其包括：

第二建立模块，适于根据用户行为数据，建立标签图谱；

获取模块，适于获取输入的属于特定领域的需求词；

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于需求词的画像数据获取方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于需求词的画像数据获取方法对应的操作。