CN110598038A

CN110598038A - 画作标签生成方法及电子设备

Info

Publication number: CN110598038A
Application number: CN201910925106.5A
Authority: CN
Inventors: 周希波; 李慧
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2019-12-20
Also published as: US20210097104A1

Abstract

本发明提供了一种画作标签生成方法及电子设备。所述方法包括：获取目标画作的画作基础信息和画作简介信息；对所述画作基础信息进行预处理，生成画作属性信息；对所述画作简介信息执行主题词提取操作，生成画作主题词；基于所述画作属性信息和所述画作主题词，生成所述目标画作的画作标签。本发明通过根据画作的基础信息和简介信息自动生成画作的标签，无需人为添加画作标签，保证了标签的一致性，避免了标签信息冗余，并且能够减少人力资源成本的投入。

Description

画作标签生成方法及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种画作标签生成方法及电子设备。

背景技术

现有的画作资源日趋丰富，当用户想要搜索一幅画作时，不一定能够准确地指出画作的名称，而是输入画作的作者、流派等信息，甚至画作描绘的内容。此外，为用户推荐其感兴趣的画作时，也需要对这些画作资源构建完整的标签体系。然而，目前网上画作资源的属性信息存在缺失或内容不规范的情况，且对画作的内容的介绍大多是描述性段落，缺少内容的标签。

而现有的画作标签通常是人为添加，容易出现标签内容不一致、错别字等情况，且人为添加的方式工作量大，耗费了较多的人力资源成本。

发明内容

本发明提供一种画作标签生成方法及电子设备，以解决现有技术中人为添加画作标签的方式，容易出现标签内容不一致、错别字等情况，且工作量较大，耗费了较多人力资源成本的问题。

为了解决上述问题，本发明公开了一种画作标签生成方法，包括：

获取目标画作的画作基础信息和画作简介信息；

对所述画作基础信息进行预处理，生成画作属性信息；

对所述画作简介信息执行主题词提取操作，生成画作主题词；

基于所述画作属性信息和所述画作主题词，生成所述目标画作的画作标签。

可选地，所述对所述画作简介信息执行主题词提取操作，生成画作主题词，包括：

对所述画作简介信息进行分词处理，获取多个简介分词；

将所述多个简介分词输入预置主题生成模型，获取所述画作主题词。

可选地，所述对所述画作简介信息进行分词处理，获取多个简介分词，包括：

基于语料库中的词典构建前缀词典，并统计所述前缀词典中的多个前缀词在所述词典中的出现频率；

基于所述前缀词典，针对所述画作简介信息中的每句信息文本，获取多个文本切分方式；

结合所述每句信息文本和各所述出现频率，确定各所述文本切分方式的切分概率；

获取各所述文本切分方式中切分概率最大的文本方式；

采用所述切分概率最大的文本切分方式，对所述画作简介信息进行分词处理，获取多个简介分词。

基于所述画作内容简介中的待分词文本，构建隐马尔科夫模型；

获取所述待分词文本对应的多种分词序列；

将所述多种分词序列输入至所述隐马尔科夫模型；

接收由所述隐马尔科夫模型输出的每种所述分词序列的概率；

从所述多种分词序列中选择概率最大的分析序列，对所述画作简介信息进行分词处理，获取多个简介分词。

可选地，所述将所述多个简介分词输入预置主题生成模型，获取所述画作主题词，包括：

确定主题数目、第一超参数和第二超参数；

根据所述主题数目，为每个所述简介分词随机分配一个主题编号；

基于所述第一超参数，计算得到所述画作简介的主题分布概率；

基于所述第二超参数，计算得到每个所述简介分词的主题词分布概率；

采用吉布斯采样公式更新每个所述简介分词的主题编号，并重复执行所述基于所述第一超参数，计算得到所述画作简介的主题分布概率，至所述基于所述第二超参数，计算得到每个所述简介分词的主题词分布概率的步骤；

在达到收敛条件时，基于计算得到的多个主题分布概率和多个主题词分布概率，计算得到每个主题编号的综合编号分布概率；

基于每个所述主题编号的分布概率，计算得到每个所述主题词的综合词分布概率；

从各所述综合词分布概率选择出最大的综合词分布概率对应的主题词，作为所述画作主题词。

可选地，在所述基于所述画作属性信息和所述画作主题词，生成所述目标画作的画作标签之前，还包括：

对所述画作主题词进行聚类处理，获取所述画作主题词对应的主题词类别；

所述基于所述画作属性信息和所述画作主题词，生成所述目标画作的画作标签，包括：

基于所述画作属性信息和所述主题词类别，生成所述画作标签。

可选地，所述对所述画作主题词进行聚类处理，获取所述画作主题词对应的主题词类别，包括：

对所述画作主题词进行词嵌入编码处理，生成所述画作主题词对应的主题词向量；

根据所述主题词向量对所述画作主题词进行聚类处理，生成所述主题词类别。

可选地，所述对所述画作主题词进行词嵌入编码处理，生成所述画作主题词对应的主题词向量，包括：

将所述画作主题词输入至词向量模型；

接收由所述词向量模型输出的所述主题词向量。

可选地，所述根据所述主题词向量对所述画作主题词进行聚类处理，生成所述主题词类别，包括：

根据所述主题词向量，构建初始聚类特征树；

基于所述初始聚类特征树和最大半径阈值，确定所述主题词向量对应的主题词类别。

可选地，所述画作基础信息包括作者信息、尺寸信息、创作年份信息和价格信息中的至少一种，所述对所述画作基础信息进行预处理，生成画作属性信息，包括：

按照预置名称格式，对所述作者信息进行调整，生成画作名称属性；和/或

根据所述尺寸信息，确定所述目标画作对应的尺寸比例属性；和/或

根据所述创作年份信息，确定所述目标画作对应的年度分类属性；和/或

根据所述价格信息，确定所述目标画作对应的价格分类属性。

为了解决上述问题，本发明公开了一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的画作标签生成方法。

与现有技术相比，本发明包括以下优点：

本发明实施例提供了一种画作标签生成方法及电子设备。通过获取目标画作的画作基础信息和画作简介信息，对画作基础信息进行预处理，生成画作属性信息，对画作简介信息执行主题词提取操作，生成画作主题词，基于画作属性信息和主题词，生成目标画作的画作标签。本发明实施例通过根据画作的基础信息和简介信息自动生成画作的标签，无需人为添加画作标签，保证了标签的一致性，避免了标签信息冗余，并且能够减少人力资源成本的投入。

附图说明

图1示出了本发明实施例提供的一种画作标签生成方法的步骤流程图；

图2示出了本发明实施例提供的一种画作标签生成方法的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明实施例提供的一种画作标签生成方法的步骤流程图，该画作标签生成方法具体可以包括如下步骤：

步骤101：获取目标画作的画作基础信息和画作简介信息。

在本发明实施例中，目标画作是指用户添加标签的书画作品，例如，用于添加标签的毕加索的画作，或，用于添加标签的达芬奇的画作等等。

在某些示例中，可以通过根据作者名称从互联网上搜索得到目标画作，例如，在搜索引擎中输入“毕加索”，以获取毕加索的画作作为目标画作。

在某些示例中，可以采用摄像装置采集画作，得到目标画作，例如，用户在画展中看到需要添加标签的画作，并通过手机摄像头对画作进行拍摄，以得到目标画作。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例，不作为对本发明实施例的唯一限制。

在具体实现中，还可以采用其它方式获取目标画作，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

画作基础信息是指目标画作的基础描述信息，画作基础信息可以包括画作的名称、作者、国籍、创作年份、创作地点、创作媒介、尺寸、流派、收藏地点、类别、价格等基础描述信息。

画作名称是指为画作所起的名称，如“救世主”、“亚威农少女”等。

画作作者是指绘画目标画作的名称，如“救世主”的作者为达芬奇，“亚威农少女”的作者为毕加索等。

国籍是指画作作者所属的国籍，如达芬奇的国籍为意大利等。

创作年份是指目标画作创作的年份，如创作于1990年，或1985年等。

创作地点是指创作目标画作的地点，如中国北京、美国加州等。

创作媒介是指创作目标画作的媒介，如宣纸、布等。

尺寸是指目标画作的长宽尺寸。

流派是指目标画作所属的流派。

收藏地点是指目标画作的收藏地点，如中国北京博物馆等。

类别是指目标画作的类别，如山水、动物等。

价格是指目标画作当前的价格，如20W，或5.5W。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而对画作基础信息进行的描述，不作为对本发明实施例的唯一限制。

其中，画作的名称、作者、创作媒介、流派、收藏地点为艺术领域专有词汇，画作简介信息为长文本。

画作简介信息是指对目标画作简明扼要的介绍信息，例如，对名画“救世主”的一些介绍信息等。

在某些示例中，可以从指定的画作数据库中获取目标画作的画作基础信息和画作简介信息。

在某些示例中，可以采用搜索引擎搜索的方式，从互联网中获取目标化作的画作基础信息和画作简介信息。

在获取目标画作的画作基础信息和画作简介信息之后，执行步骤102和步骤102。

步骤102：对所述画作基础信息进行预处理，生成画作属性信息。

画作属性信息是指描述目标画作的属性信息，如画作名称属性、尺寸比例属性、分类属性等。

在得到目标画作的画作基础信息之后，作者信息存在各种不一致的情况，如标点缺省、别名、简繁体等，需要对画作基础信息进行预处理，从而可以得到目标画作的画作属性信息。

对于目标画作的画作基础信息进行预处理的过程，可以生成目标画作的画作属性信息。

步骤103：对所述画作简介信息执行主题词提取操作，生成画作主题词。

画作主题词是指对从画作简介信息中提取出的主题词，在得到画作简介信息之后，可以对画作简介信息进行分词，在得到多个分词之后，可以将得到的分词输入至主题生成模型，以由主题生成模型输出每个分词对应的主题词，以此作为画作主题词。

可以理解地，一个目标画作对应的画作简介信息进行主题词提取操作之后，可以得到多个画作主题词。

而对于生成画作主题词的详细过程，将在下述实施例中进行详细描述，本发明实施例在此不再加以赘述。

在根据画作简介信息得到画作主题词，及根据画作基础信息得到画作属性信息之后，执行步骤104。

步骤104：基于所述画作属性信息和所述画作主题词，生成所述目标画作的画作标签。

在得到目标画作对应的画作属性信息和主题词之后，可以根据画作属性信息和画作主题词生成目标画作的画作标签，具体地，可以根据画作主题词确定画作主题词所属的至少一个类别，即主题词类别，并将画作属性信息和主题词类别共同作为目标画作的画作标签。

对于基于画作属性信息和画作主题词生成画作标签的过程，将在下述实施例中进行详细描述，本发明实施例在此不再加以赘述。

本发明实施例通过根据画作的基础信息和简介信息自动生成画作的标签，无需人为添加画作标签。

本发明实施例提供的画作标签生成方法，通过获取目标画作的画作基础信息和画作简介信息，对画作基础信息进行预处理，生成画作属性信息，对画作简介信息执行主题词提取操作，生成画作主题词，基于画作属性信息和主题词，生成目标画作的画作标签。本发明实施例通过根据画作的基础信息和简介信息自动生成画作的标签，无需人为添加画作标签，保证了标签的一致性，避免了标签信息冗余，并且能够减少人力资源成本的投入。

参照图2，示出了本发明实施例提供的一种画作标签生成方法的步骤流程图，该画作标签生成方法具体可以包括如下步骤：

步骤201：获取目标画作的画作基础信息和画作简介信息。

创作媒介是指创作目标画作的媒介，如宣纸、布等。

尺寸是指目标画作的长宽尺寸。

流派是指目标画作所属的流派。

收藏地点是指目标画作的收藏地点，如中国北京博物馆等。

类别是指目标画作的类别，如山水、动物等。

价格是指目标画作当前的价格，如20W，或5.5W。

在获取目标画作的画作基础信息和画作简介信息之后，执行步骤102和步骤202。

步骤202：对所述画作基础信息进行预处理，生成画作属性信息。

对于画作基础信息的预处理过程，可以参照下述具体实现方式的描述。

在本发明实施例的一种具体实现中，在画作基础信息包括作者信息、尺寸信息、创作年份信息和价格信息中的至少一种时，上述步骤202可以包括：

子步骤A1：按照预置名称格式，对所述作者信息进行调整，生成画作名称属性。

在本发明实施例中，在画作基础信息为目标画作的作者信息时，作者信息存在各种不一致的情况，如标点缺省、别名、简繁体等(例：文森特·梵高，其他同义写法包括文森特梵高、梵高、凡高等)。根据维基/百度百科的作者介绍构建词典，将作者名称格式定为统一标准，并对错误的写法进行校正等。

针对此种情况，可以预先设置指定的名称格式，即预置名称格式，并按照预置名称格式对目标画作的作者信息进行调整，从而可以生成目标画作的画作名称属性。

子步骤A2：根据所述尺寸信息，确定所述目标画作对应的尺寸比例属性。

在画作基础信息为目标画作的尺寸信息时，画作尺寸一般由长与宽(单位为厘米)组成，数值的组合过于离散，本发明中为了将其归类，可以根据目标画作的尺寸信息，计算目标画作的尺寸比例，以作为目标画作的尺寸比例属性，例如，目标画作的长为100cm，宽为30cm，则目标画作的尺寸比例属性为：0.3，即宽/长。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而列列举的示例，不作为对本发明实施例的唯一限制。

子步骤A3：根据所述创作年份信息，确定所述目标画作对应的年度分类属性。

年度分类属性是指按照年份对目标画作进行分类的属性。

在画作基础信息为创作年份信息时，为了将目标画作进行分类，可以按照目标画作的创作年份信息，确定出目标画作的年度分类属性，例如，目标画作的创作年份为1985年，可以将目标画作的年度分类属性归为80年度等。

子步骤A4：根据所述价格信息，确定所述目标画作对应的价格分类属性。

价格分类属性是指按照目标画作的价格对目标画作进行分类的属性。

在画作基础信息为价格信息时，为了将目标画作进行分类，可以按照目标画作的价格信息，确定出目标画作的价格分类属性，例如，目标画作的价格为2.5万元，可以将目标画作的价格分类属性归为万元级别的分类。

可以理解地，上述具体实现方式仅是为了更好地理解本发明实施例的技术方案而列举的几种示例，而在画作基础信息为其它信息时，可以预先分别设定其它信息对应的属性设置条件，并对目标画作的属性进行设置，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

步骤203：对所述画作简介信息进行分词处理，获取多个简介分词。

简介分词是指对画作简介信息进行分词之后，得到的分词文本。

画作简介信息为长文本，需要采用自然语言处理技术对画作简介信息进行处理。

首先，可以对画作简介信息进行分词，具体地分词方法可以如下具体实现方式的描述。

在本发明的一种具体实现中，上述步骤203可以包括：

子步骤M1：基于语料库中的词典构建前缀词典，并统计所述前缀词典中的多个前缀词在所述词典中的出现频率。

在本发明实施例中，语料库是指预先形成的预料，如百度语料库等，在预料库中预先设置有一个词典，在该词典中记录有不同的句子文本。

首先，可以基于预料库中的词典构建前缀词典，该前缀词典是与画作关联的前缀词典，前缀词典中记录有画作关联的前缀词，如山水画、素描等。

然后，统计前缀词典中的多个前缀词在上述词典中的出现频率。

在统计前缀词典中的多个前缀词在词典中的出现频率之后，执行子步骤M2。

子步骤M2：基于所述前缀词典，针对所述画作简介信息中的每句信息文本，获取多个文本切分方式。

基于上述构建的前缀词典，可以针对画作简介信息中的每句信息文本，获取多个文本切分方式，如两词两词的切分、三词三词的切分，或混合切分等等，具体地，可以根据前缀词典，针对画作简介信息中的每句文本，生成每句文本中汉字所有可能成词的情况所构成的有向无环图，从而得到所有可能的句子切分形式。

在基于前缀词典，针对画作简介信息中的每句信息文本，获取多个文本切分方式，并执行子步骤M3。

子步骤M3：结合所述每句信息文本和各所述出现频率，确定各所述文本切分方式的切分概率。

然后，针对每个文本切分方式，查找已经切分好的词语在前缀词典中的出现频率，采用动态规划算法，对每句文本从右往左反向计算最大概率，从而得到各个文本切分方式的切分概率。

在结合每句信息文本和各前缀词的出现频率，确定各文本切分方式的切分概率之后，执行子步骤M4。

子步骤M4：获取各所述文本切分方式中切分概率最大的文本方式。

子步骤M5：采用所述切分概率最大的文本切分方式，对所述画作简介信息进行分词处理，获取多个简介分词。

在得到各文本切分方式的切分概率之后，可以根据各切分概率，选择出切分概率最大的文本切分方式，即将得到的最大切分概率的文本切分方式，作为最终的切分方式，以对画作简介信息进行切分，从而获取多个简介分词。

在本发明中，还可以采用隐马尔可夫模型确定分词方式，具体地，结合下述具体实现方式进行详细描述。

在本发明的另一种具体实现方式中，上述步骤203可以包括：

子步骤N1：基于所述画作内容简介中的待分词文本，构建隐马尔科夫模型。

在本发明实施例中，隐马尔科夫模型(Hidden Markov Model，HMM)是统计模型，可以用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

待分词文本可以是画作内容简介中的所有文本，也可以是在经过上述分词方式之后，未存在于词典中的文本，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

在得到画作内容简介中的待分词文本之后，可以根据待分词文本构建HMM，进而，执行子步骤N2。

子步骤N2：获取所述待分词文本对应的多种分词序列。

分词序列是指待分词文本所形成的序列，也即句子的观测序列。

在画作内容简介中，可以将画作内容简介文本按照字的先后划分，得到多中分词序列，分词结果为状态序列，即每个字的状态包括B(Begin，开始)、E(End，结束)、M(Middle，中间)和S(Single，独立词)，从而得到每句信息文本中的B、E、M、S四种状态序列。

子步骤N3：将所述多种分词序列输入至所述隐马尔科夫模型。

子步骤N4：接收由所述隐马尔科夫模型输出的每种所述分词序列的概率。

在得到上述四种分词序列之后，可以将四种分词序列输入至HMM，并采用基于***的语料库训练得到每个字处于四种状态的概率表，以及字与字之间所有状态转移组合的概率表。

结合字与字之间所有状态转移组合的概率表，可以得到每种分词序列的概率。

子步骤N5：从所述多种分词序列中选择概率最大的分析序列，对所述画作简介信息进行分词处理，获取多个简介分词。

然后，针对每个句子，可以采用维特比(Viterbi)算法，求出概率路径最大的状态序列，并根据该序列将句子进行切分。

可以理解地，上述两种分词方式仅是为了更好地理解本发明实施例的技术方案而列举的两种方式，在具体实现中，还可以采用其它分词方式，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

在对画作简介信息进行分词处理，获取多个简介分词之后，执行步骤204。

步骤204：将所述多个简介分词输入预置主题生成模型，获取所述画作主题词。

预置主题生成模型是指用于基于分词文本输出相应的主题词的模型。预置主题生成模型可以为为LDA(Latent Dirichlet Allocation，文档主题生成模型)或者TextRank等主题模型。

在得到多个简介分词之后，可以将多个简介分词输入至预置主题生成模型，从而可以获取画作主题词，以LDA为例，获取画作主题词的具体过程如下述具体实现方式的描述。

在本发明的一种具体实现中，上述步骤204可以包括：

子步骤S1：确定主题数目、第一超参数和第二超参数。

在本发明实施例中，可以由业务人员预先选择合适的主题数目、第一超参数和第二超参数，具体地，对于选择的主题数目、第一超参数和第二超参数的具体数值，可以根据业务需求而定，本发明实施例对此不加以限制。

如选择合适的主题数K以及超参数向量和(此处所使用的参数，将在下述公式计算中使用)。

在确定主题数目、第一超参数和第二超参数之后，执行子步骤S2。

子步骤S2：根据所述主题数目，为每个所述简介分词随机分配一个主题编号。

在得到主题数目之后，每个主题均对应于一个主题编号，在得到每个主题的主题编号之后，可以针对画作内容简介的所有简介分词，均随机分配一个主题编号，如对应数据表中的篇内容简介的每一个简介分词，随机赋予一个主题编号Z。

在根据主题数目，为每个简介分词随机分配一个主题编号之后，执行子步骤S3。

子步骤S3：基于所述第一超参数，计算得到所述画作简介的主题分布概率。

在每个简介分词随机分配一个主题编号之后，可以理由第一超参数计算得到画作简介的主题分布概率，如下述公式(1)所示：

上述公式(1)中，为第一超参数，β_l为画作简介的主题分布概率。

子步骤S4：基于所述第二超参数，计算得到每个所述简介分词的主题词分布概率。

在为每个简介分词分配一个主题编号之后，可以结合第二超参数，计算为每个简介分词分配的主题编号对应的主题词的分布概率，具体地，可以如下述公式(2)所示：

上述公式(2)中，为第二超参数，η_k为主题词分布概率。

子步骤S5：采用吉布斯采样公式更新每个所述简介分词的主题编号，并重复执行所述子步骤S3和子步骤S4。

吉布斯采样(Gibbs sampling)是统计学中用于马尔科夫蒙特卡洛(MCMC)的一种算法，用于在难以直接采样时从某一多变量概率分布中近似抽取样本序列。该序列可用于近似联合分布、部分变量的边缘分布或计算积分(如某一变量的期望值)。某些变量可能为已知变量，故对这些变量并不需要采样。

在经过上述子步骤S3和子步骤S4之后，可以采用吉布斯采样公式更新每个简介分词的主题编号，即为每个简介分词重新分配一个主题编号，并重复执行上述子步骤S3和子步骤S4，以计算在更新主题编号之后的主题分布概率，和主题词分布概率。

子步骤S6：在达到收敛条件时，基于计算得到的多个主题分布概率和多个主题词分布概率，计算得到每个主题编号的综合编号分布概率。

收敛条件是指在多次进行上述子步骤S5之后，所得到的主题分布概率和主题词分布概率几乎没有变化的条件。

综合编号分布概率是指多个简介分词中，每个简介分词隶属于某个主题编号的概率的综合，例如，简介分词包括分词a、分词b和分词c，分词a属于主题编号A的概率为0.1，分词b属于主题编号A的概率为0.3，分词c属于主题编号A的概率为0.8，那么可以结合这几个概率，计算得到一个综合词分布概率，具体地，计算过程可以如下述公式(3)所示：

Z_n＝multi(β_l) (3)

上述公式(3)中，Z_n为综合编号分布概率，β_l为主题词分布概率。即通过上述计算得到的多个主题词分布概率，可以采用求乘积的方式，计算得到综合编号分布概率。

当然，在本发明中，并非针对所有的主题编号均计算主题编号分布概率，而是结合主题分布概率，选择出主题分布概率大于阈值的概率所对应的主题编号进行计算，从而可以排除概率较小的主题编号对计算结果造成的误差影响。

子步骤S7：基于每个所述主题编号的综合编号分布概率，计算得到每个所述主题词的综合词分布概率。

综合词分布概率是指多个简介分词中，每个简介分词隶属于某个主题词的概率的综合。

在得到每个主题编号对应的综合编号分布概率之后，可以结合每个主题编号的综合编号分布概率，计算得到每个主题词的综合词分布概率，具体地，可以参照下述公式(4)所示：

W_n＝multi(Z_n) (4)

上述公式(4)中，W_n为综合词分布概率。即通过上述计算得到的多个综合编号分布概率，可以采用求乘积的方式，计算得到综合词分布概率。

子步骤S8：从各所述综合词分布概率选择出最大的综合词分布概率对应的主题词，作为所述画作主题词。

在得到各主题词的综合词分布概率之后，可以从综合词分布概率选择出最大的综合词分布概率对应的主题词，以作为目标画作的画作主题词。

在某些示例中，最终得到的画作主题词可以为一个，如多个主题词为A、B和C，计算得到的A的综合词分布概率为0.8，B的综合词分布概率为0.5，C的综合词分布概率为0.6，则将A作为画作主题词。

在某些示例中，最终得到的画作主题词可以为两个或以上，如多个主题词A、B、C和D，计算得到的A的综合词分布概率为0.8，B的综合词分布概率为0.7，C的综合词分布概率为0.6，D的综合词分布概率为0.8，则将A和D作为画作主题词。

可以理解地，上述步骤是以LDA模型为例，对多个简介分词进行训练输出画作主题词的过程，而对于其它主题生成模型可以按照现有技术中的描述，本发明实施例在此不再加以赘述。

在将多个简介分词输入预置主题生成模型，获取画作主题词之后，执行步骤205。

步骤205：对所述画作主题词进行聚类处理，获取所述画作主题词对应的主题词类别。

由于画作内容简介的主题词种类繁多，若将每个词单独作为标签，会严重影响查询或推荐的效率，且无法体现词与词之间的关联性。因此，本发明实施例中，可以针对目标画作对应的画作主题词进行聚类处理，从而可以获取画作主题词对应的主题词类别。

对于画作主题词进行聚类处理的详细过程，可以按照下述具体实现方式进行详细描述。

在本发明的一种具体实现中，上述步骤205可以包括：

子步骤B1：对所述画作主题词进行词嵌入编码处理，生成所述画作主题词对应的主题词向量。

在本发明实施例中，主题词向量是指将画作主题词转换为向量的形式进行表示，所得到的向量。

词嵌入是指提取画作简介信息中的主题词后，为了对其进一步处理，需要将这些词语映射为数值向量。

在得到画作主题词之后，可以对画作主题词进行词嵌入编码处理，从而可以生成主题词对应的主题词向量，例如，可以将画作主题词输入值词向量模型，由词向量模型输出画作主题词对应的主题词向量，具体地，结合下述具体实现方式进行详细描述。

在本发明的另一种具体实现中，上述子步骤B1可以包括：

子步骤C1：将所述画作主题词输入至词向量模型；

子步骤C2：接收由所述词向量模型输出的所述主题词向量。

在本发明实施例中，可以采用Bert模型对主题词进行词嵌入编码。Bert是一个词向量模型，其基础集成单元是Transformer的编码器，有很大的编码器层数。同时它有很大的前馈神经网络(768-1024个隐藏层神经元)，以及attention heads(12-16个)。将固定长度的字符串作为输入，数据由下而上传递计算，每一层都用到了self attention机制，并通过前馈神经网络传递其结果，将其交给下一个编码器，模型返回的输出是一个隐藏层大小的向量(768-1024维)。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例，在现有技术中，还可以采用其它方式获取画作主题词对应的主题词向量，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

在对画作主题词进行词嵌入编码处理，生成画作主题词对应的主题词向量之后，执行子步骤B2。

子步骤B2：根据所述主题词向量对所述画作主题词进行聚类处理，生成所述主题词类别。

在得到画作主题词对应的主题词向量之后，可以根据主题词向量对画作主题词进行聚类，从而可以得到每个画作主题词对应的主题词类别，具体地，可以结合下述具体实现方式进行详细描述。

在本发明的另一种具体实现方式中，上述子步骤B2可以包括：

子步骤D1：根据所述主题词向量，构建初始聚类特征树；

子步骤D2：基于所述初始聚类特征树和最大半径阈值，确定所述主题词向量对应的主题词类别。

在本发明实施例中，可以采用自顶向下的方法，将这些画作主题词进行聚类，使得同一类中的画作主题词具有较高的关联性，不同类之间的画作主题词尽量不相关，具体过程如下：

1、遍历所有主题词向量，建立初始聚类特征树；

2、每读入一个主题词向量时，根据最大半径阈值选择其所属的叶节点，或建立新的叶节点；

3、当某个叶节点的样本数超过阈值时，向下***为两个新的叶节点；

4、当某个根节点的叶节点数超过阈值时，向下***为两个子节点。

上述过程中，每个根节点和子节点均表示一种主题词的类别，其中根节点为父类，子节点为子类，一个父类可以包含一个或多个子类，即将所有的画作主题词进行分类，可以将一个或多个画作主题词归为一类。

可以理解地，上述过程仅是为了更好地理解本发明实施例的技术方案而列举的一种确定主题词类别，在具体实现中，还可以采用其它方式确定主题词类别，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

在对画作主题词进行聚类处理，获取画作主题词对应的主题词类别之后，执行步骤206。

步骤206：基于所述画作属性信息和所述主题词类别，生成所述画作标签。

在得到目标画作对应的画作属性信息和主题词类别之后，可以根据画作属性信息和画作主题词对应的主题词类别生成目标画作的画作标签，例如，对画作信息进行上述处理后，最终的画作标签类别体系包含如下标签种类：

1、画作名称、作者、国籍、创作地点、创作媒介(如纸面、布面等)、流派、收藏地点、类别(如油画、素描等)；

2、画作创作时期(年代的范围)、尺寸(长宽比的类型)、价格(范围)；

3、主题词的类别。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

另外地，本发明实施例还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的画作标签生成方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种画作标签生成方法和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种画作标签生成方法，其特征在于，包括：

获取目标画作的画作基础信息和画作简介信息；

对所述画作基础信息进行预处理，生成画作属性信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述画作简介信息执行主题词提取操作，生成画作主题词，包括：

对所述画作简介信息进行分词处理，获取多个简介分词；

3.根据权利要求2所述的方法，其特征在于，所述对所述画作简介信息进行分词处理，获取多个简介分词，包括：

获取各所述文本切分方式中切分概率最大的文本方式；

4.根据权利要求2所述的方法，其特征在于，所述对所述画作简介信息进行分词处理，获取多个简介分词，包括：

获取所述待分词文本对应的多种分词序列；

将所述多种分词序列输入至所述隐马尔科夫模型；

5.根据权利要求2所述的方法，其特征在于，所述将所述多个简介分词输入预置主题生成模型，获取所述画作主题词，包括：

确定主题数目、第一超参数和第二超参数；

基于每个所述主题编号的综合编号分布概率，计算得到每个所述主题词的综合词分布概率；

6.根据权利要求1所述的方法，其特征在于，在所述基于所述画作属性信息和所述画作主题词，生成所述目标画作的画作标签之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述画作主题词进行聚类处理，获取所述画作主题词对应的主题词类别，包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述画作主题词进行词嵌入编码处理，生成所述画作主题词对应的主题词向量，包括：

将所述画作主题词输入至词向量模型；

接收由所述词向量模型输出的所述主题词向量。

9.根据权利要求7所述的方法，其特征在于，所述根据所述主题词向量对所述画作主题词进行聚类处理，生成所述主题词类别，包括：

根据所述主题词向量，构建初始聚类特征树；

10.根据权利要求1所述的方法，其特征在于，所述画作基础信息包括作者信息、尺寸信息、创作年份信息和价格信息中的至少一种，所述对所述画作基础信息进行预处理，生成画作属性信息，包括：

11.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至10中任一项所述的画作标签生成方法。