CN111125387B

CN111125387B - 多媒体列表生成、命名方法、装置、电子设备和存储介质

Info

Publication number: CN111125387B
Application number: CN201911274690.9A
Authority: CN
Inventors: 华磊; 刘权; 李锐; 陈志刚
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-04-07
Anticipated expiration: 2039-12-12
Also published as: CN111125387A

Abstract

本发明实施例提供一种多媒体列表生成、命名方法、装置、电子设备和存储介质，其中列表生成方法包括：确定多个多媒体问答对；确定每一多媒体问答对的问答对特征，所述问答对特征表示所述多媒体问答对中包含的多媒体资源的类型特征；基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。本发明实施例提供的方法、装置、电子设备和存储介质，将自身包含有丰富的多媒体资源信息的多媒体问答用于多媒体列表的生成，有助于实现细粒度的多媒体资源划分，可以涵盖各种类型的用户需求。基于多媒体问答对的问答对特征进行无监督聚类，无需再额外耗费人力进行标注，能够有效节省多媒体列表生成所需的人力消耗。

Description

多媒体列表生成、命名方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种多媒体列表生成、命名方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的飞速发展，人们可通过互联网查询得到海量的多媒体资源。如果想要从海量的多媒体资源中得到感兴趣的内容，需要满耗费大量的时间和精力进行挑选甄别。

目前，可以通过人工标注多媒体资源的类型标签，生成多媒体列表，从而为人们提供不同种类的多媒体资源，以便于人们能够快速查找到感兴趣类型的多媒体资源。但是，人工标注所需的人力成本高昂，效率低下，且类型标签过于宽泛，无法满足细粒度的查找需求。

发明内容

本发明实施例提供一种多媒体列表生成、命名方法、装置、电子设备和存储介质，用以解决现有的多媒体列表生成方法存在的人力成本高、分类粒度粗的问题。

第一方面，本发明实施例提供一种多媒体列表生成方法，包括：

确定多个多媒体问答对；

确定每一多媒体问答对的问答对特征，所述问答对特征表示所述多媒体问答对中包含的多媒体资源的类型特征；

基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。

优选地，所述确定每一多媒体问答对的问答对特征，具体包括：

确定任一多媒体问答对的问题文本特征；

和/或，确定任一多媒体问答对的答案文本特征；

基于所述问题文本特征和/或所述答案文本特征，确定所述任一多媒体问答对的问答对特征。

优选地，所述确定任一多媒体问答对的问题文本特征，具体包括：

确定任一多媒体问答对的问题文本的语义特征，作为所述任一多媒体问答对的问题文本特征。

优选地，所述确定任一多媒体问答对的答案文本特征，具体包括：

确定所述任一多媒体问答对的答案文本所包含的每一多媒体资源；

确定每一多媒体资源的相关信息；

基于每一多媒体资源的相关信息，确定所述任一多媒体问答对的答案文本特征。

优选地，所述确定多个多媒体问答对，具体包括：

确定多个候选问答对；

将任一候选问答对输入至意图分类模型中，得到所述意图分类模型输出的意图分类结果；所述意图分类模型是基于样本问答对及其样本意图分类结果训练得到的；

若所述意图分类结果表示多媒体相关，则确定所述任一候选问答对为所述多媒体问答对。

优选地，所述将任一候选问答对输入至意图分类模型中，得到所述意图分类模型输出的意图分类结果，具体包括：

将任一候选问答对的问题文本中每个字的字向量输入至所述意图分类模型的语义编码层，得到所述语义编码层输出的所述问题文本的语义特征；

将所述语义特征输入至所述意图分类模型的分类输出层，得到所述分类输出层输出的所述意图分类结果。

优选地，所述基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表，具体包括：

基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，得到聚类结果；

基于属于所述聚类结果中的任一簇的每一多媒体问答对，生成所述任一簇对应的多媒体列表。

第二方面，本发明实施例提供一种多媒体列表命名方法，包括：

确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基于如第一方面所提供的多媒体列表生成方法生成的；

基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称。

优选地，所述基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称，具体包括：

确定所述多媒体列表中多媒体资源的相关文本的关键词；

基于所述关键词，生成多媒体列表的列表名称。

优选地，所述基于所述关键词，生成多媒体列表的列表名称，具体包括：

将所述关键词输入至列表名称生成模型中，得到所述列表名称生成模型输出的所述多媒体列表的列表名称；

其中，所述列表名称生成模型是基于样本关键词以及样本列表名称训练得到的。

第三方面，本发明实施例提供一种多媒体列表生成装置，包括：

多媒体问答对确定单元，用于确定多个多媒体问答对；

问答对特征确定单元，用于确定每一多媒体问答对的问答对特征，所述问答对特征表示所述多媒体问答对中包含的多媒体资源的类型特征；

列表生成单元，用于基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。

第四方面，本发明实施例提供一种多媒体列表命名装置，包括：

相关文本确定单元，用于确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基于如第一方面所提供的多媒体列表生成方法生成的；

命名单元，用于基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称。

第五方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面或第二方面所提供的方法的步骤。

第六方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。

本发明实施例提供的一种多媒体列表生成、命名方法、装置、电子设备和存储介质，将自身包含有丰富的多媒体资源信息的多媒体问答用于多媒体列表的生成，有助于实现细粒度的多媒体资源划分，可以涵盖各种类型的用户需求。基于多媒体问答对的问答对特征进行无监督聚类，无需再额外耗费人力进行标注，能够有效节省多媒体列表生成所需的人力消耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多媒体列表生成方法的流程示意图；

图2为本发明实施例提供的问答对特征确定方法的流程示意图；

图3为本发明实施例提供的答案文本特征确定方法的流程示意图；

图4为本发明实施例提供的多媒体问答对确定方法的流程示意图；

图5为本发明实施例提供的意图分类结果确定方法的流程示意图；

图6为本发明另一实施例提供的多媒体列表生成方法的流程示意图；

图7为本发明实施例提供的多媒体列表命名方法的流程示意图；

图8为本发明实施例提供的列表名称生成方法的流程示意图；

图9为本发明实施例提供的多媒体列表生成装置的结构示意图；

图10为本发明实施例提供的多媒体列表命名装置的结构示意图；

图11为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网技术的飞速发展，人们可通过互联网查询得到海量的多媒体资源。诸如影单、书单、歌单等各种多媒体列表的出现，为人们提供了不同种类的多媒体资源，使得人们能够快速查找到感兴趣类型的多媒体资源。

目前，多媒体列表的生成通常是人工完成的，例如用户可以根据对自己观看过的书籍进行分类，形成不同种类的书单，例如人物传记书单、旅行游记书单、美食书单等。此外，也可以通过人工标注多媒体资源的类型标签，实现多媒体列表的自动生成，但是人工标注的多媒体资源的类型标签，通常存在过于宽泛，分类粒度过粗的问题，例如在人工进行影片的类型标签标注时，类型标签可以是爱情，而实际上爱情类影片还可以细分为校园爱情、父辈爱情、战争爱情等，分类粒度过粗，导致自动生成的多媒体列表难以满足细粒度的查找需求。此外，人工标注需要消耗大量的人力和时间，成本过于高昂。

对此，本发明实施例提供一种多媒体列表生成方法，以实现细粒度、高效率的多媒体列表的自动生成。图1为本发明实施例提供的多媒体列表生成方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110，确定多个多媒体问答对。

具体地，多媒体问答对是与多媒体相关的问答对文本，多媒体问答对具体包括问题文本，以及问题文本所对应的答案文本，一个问题文本可以对应一个或多个答案文本。此处的多媒体问答对可以是针对一种或者多种多媒体领域而言的，例如在需要生成影单时，步骤110对应确定针对电影的问答对，在需要生成歌单时，步骤110对应确定针对歌曲的问答对，当需要生成书单时，步骤110对应确定针对书籍的问答对，当需要生成同时包含电影和歌曲的列表时，步骤110对应确定针对电影的问答对和/或针对歌曲的问答对。

此处，多媒体问答对可以是从互联网相关领域的论坛、社区或者其余类型的问答平台上挖掘得到的。多媒体问答对是天然的人工数据，通常带有很高的知识性和丰富的语义信息，有助于实现细粒度的多媒体资源划分，可以涵盖各种类型的用户需求。且多媒体问答对可以直接获取，无需再额外耗费人力进行标注。

步骤120，确定每一多媒体问答对的问答对特征，问答对特征表示多媒体问答对中包含的多媒体资源的类型特征。

具体地，针对任一多媒体问答对，该多媒体问答对中包含有多媒体资源，以及针对多媒体资源的相关描述。多媒体问答对的问答对特征用于表示多媒体问答对中包含的多媒体资源的类型特征，此处多媒体资源的类型特征用于表征多媒体资源所属类型的特征，多媒体资源的类型特征可以是多媒体资源本身所体现出来的特征，例如通过互联网采集到的或者数据库中预先存储的针对于多媒体资源本身所属类型的相关描述所对应的特征，也可以是多媒体问答对中针对于多媒体资源的相关描述的特征。此处的描述是指针对于多媒体资源的自然语言描述文本，可以是互联网中用户针对于多媒体资源发表的评论词语、设置的标签文本，也可以是多媒体问答对中针对于多媒体资源的形容词语等，本发明实施例对此不作具体限定。

例如，多媒体问答对中，问题文本为“哪些电影比较搞笑”，对应的答案文本为“夏洛特烦恼、宝贝计划都不错”，其中“夏洛特烦恼”、“宝贝计划”是该多媒体问答对中包含的两个多媒体资源，“搞笑”是对上述两个多媒体资源的描述，该多媒体问答对的问答对特征可以包括“搞笑”对应的特征，也可以包括通过互联网采集到的针对于“夏洛特烦恼”、“宝贝计划”两个多媒体资源所属类型的描述所对应的特征。

步骤130，基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。

具体地，基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，可以得到聚类结果。此处，聚类结果即若干个簇，每个簇内包含若干个问答对特征相类似的多媒体问答对，针对每一个簇对应生成一个多媒体列表。进一步地，针对任意一个簇，可以基于该簇内包含的每一多媒体问答对中包含的多媒体资源构建该簇对应的多媒体列表。

例如一个簇中包含两个多媒体问答对，多媒体问答对1的问题文本为“有哪些搞笑的电影可以推荐”，对应的答案文本为“飞驰人生、夏洛特烦恼我觉得就很搞笑”，多媒体问答对2的问题文本为“最近有什么好看的喜剧电影”，对应的答案文本为“那也就是两只老虎”，由此生成的多媒体列表中包括“飞驰人生”、“夏洛特烦恼”和“两只老虎”。

本发明实施例提供的方法，将自身包含有丰富的多媒体资源信息的多媒体问答用于多媒体列表的生成，有助于实现细粒度的多媒体资源划分，可以涵盖各种类型的用户需求。基于多媒体问答对的问答对特征进行无监督聚类，无需再额外耗费人力进行标注，能够有效节省多媒体列表生成所需的人力消耗。

基于上述实施例，图2为本发明实施例提供的问答对特征确定方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，确定任一多媒体问答对的问题文本特征。

具体地，多媒体问答对中包含有问题文本，问题文本中通常包含有对多媒体资源的相关描述，例如“有哪些搞笑的外国电影”，其中“搞笑”、“外国”即对电影类多媒体资源的相关描述。

问题文本特征是对问题文本进行特征提取得到的，问题文本特征可以是问题文本中每一分词的词向量，也可以是问题文本的语义特征，也可以是问题文本中与多媒体资源相关的描述的特征等。

和/或，步骤122，确定任一多媒体问答对的答案文本特征。

具体地，多媒体问答对中包含有答案文本，答案文本中通常包含有多媒体资源，还可能包含有对多媒体资源的相关描述，例如相对于问题文本“有哪些搞笑的外国电影”，答案文本可以是“憨豆特工就很好笑”，其中“憨豆特工”为多媒体资源，“好笑”是对上述多媒体资源的相关描述。

答案文本特征是对答案文本进行特征提取得到的，答案文本特征可以包含答案文本涉及的多媒体资源的类型特征，此处多媒体资源的类型特征可以是答案文本中对于多媒体资源的相关描述的特征，也可以是通过多媒体资源数据库或者其余途径得到的多媒体资源的各种标签的特征。

步骤123，基于问题文本特征和/或答案文本特征，确定该多媒体问答对的问答对特征。

具体地，当仅执行步骤121不执行步骤122时，可以直接将问题文本特征作为该多媒体问答对的问答对特征。当仅执行步骤122不执行步骤121时，可以直接将答案文本特征作为该多媒体问答对的问答对特征。当既执行步骤121也执行步骤122时，可以将问题文本特征和答案文本特征进行特征拼接或者通过其他特征融合方式，得到该多媒体问答对的问答对特征。

例如，任一多媒体问答对为[Q,A]，其中Q表示问题文本，A表示答案文本，问题文本的问题文本特征为S(Q)，答案文本的答案文本特征为S(A)，对应得到的问答对特征可以表示为S[Q,A]＝[S(Q),S(A)]。

本发明实施例提供的方法，参照多媒体问答对的文本结构，从问题文本和答案文本两个方向分别进行特征提取，以获取多媒体问答对的问答对特征，从而实现针对多媒体问答对的深层次挖掘，以提高多媒体问答对的聚类准确性，实现准确的多媒体列表生成。

基于上述任一实施例，该方法中，步骤121具体包括：确定任一多媒体问答对的问题文本的语义特征，作为该多媒体问答对的问题文本特征。

具体地，问题文本的语义特征即问题文本所蕴含的语义对应的特征。问题文本的语义特征可以是基于问题文本中每个字的隐层特征得到的，具体可以通过将问题文本中的每个字的字向量输入到循环神经网络RNN或者长短时记忆网络LSTM等神经网络中提取得到，本发明实施例对此不作具体限定。

将问题文本的语义特征作为该多媒体问答对的问题文本特征，并应用于多媒体问答对的聚类时，使得聚类结果中任一簇中的每一多媒体问答对的问题文本都具有类似的语义，由此实现问题相似的多媒体问答对的合并，例如一个问题文本为“想学习外语，求介绍好看的魔幻电影”，另一个问题文本为“有什么外国的魔幻电影推荐一下”，两个问题文本的语义类似，通过问题文本的语义特征进行聚类，使得上述两个问题文本对应的多媒体问答对被划分到同一个簇中，两个问题文本对应的答案文本中的多媒体资源列入同一多媒体列表。

本发明实施例提供的方法，将问题文本的语义特征作为该多媒体问答对的问题文本特征，能够实现问题文本语义类似的多媒体问答对的聚类，从而实现多媒体列表的自动生成。

基于上述任一实施例，图3为本发明实施例提供的答案文本特征确定方法的流程示意图，如图3所示，该方法中，步骤122具体包括：

步骤1221，确定该多媒体问答对的答案文本所包含的每一多媒体资源。

具体地，可以预先设定一个包含有大量多媒体资源的多媒体数据库，将多媒体数据库中的多媒体资源与答案文本进行匹配，即可确定答案文本中包含的每一多媒体资源。

步骤1222，确定每一多媒体资源的相关信息。

具体地，多媒体资源的相关信息可以是通过互联网检索多媒体资源得到的，也可以是从多媒体数据库中提取的，以电影类的多媒体资源为例，多媒体资源的相关信息可以包含电影类型、语言、导演等信息，也可以是网络平台上用户对多媒体资源设置的标签，例如电影“憨豆特工”对应的标签包括喜剧、英国、搞笑、特工、动作等。

步骤1223，基于每一多媒体资源的相关信息，确定该多媒体问答对的答案文本特征。

具体地，答案文本特征中包含有答案文本所包含的每一多媒体资源的相关信息的对应特征。答案文本特征的确定方法可以是先对于每一多媒体资源的相关信息进行特征转换，得到对应的特征，再将每一多媒体资源的相关信息的对应特征进行拼接，得到答案文本特征。或者可以先对每一多媒体资源的相关信息进行融合，得到融合后的相关信息，再对融合后的相关信息进行特征转换，得到答案文本特征。例如，每一多媒体资源均对应多个标签，将所有多媒体资源的标签进行整合，随后进行特征转换。特征转换可以采用独热编码one-hot的表达方式，或者直接将相关信息的分词转换为对应的词向量，本发明实施例对此不作具体限定。例如，答案文本特征可以表现为L-one-hot的向量，其中L用于表示该答案文本中所有多媒体资源对应的标签。

将答案文本的答案文本特征应用于多媒体问答对的聚类时，使得聚类结果中任一簇中，每一多媒体问答对的答案文本中包含的多媒体资源都具有类似的相关信息，由此实现所包含的多媒体资源相似的多媒体问答对的合并，例如一个答案文本为“憨豆特工就很好笑”，另一个答案文本为“我觉得王牌特工可以”，其中“憨豆特工”和“王牌特征”的相关信息均包括喜剧、英国、搞笑、特工，两个电影的相关信息类似，通过答案文本的答案文本特征进行聚类，使得上述两个答案文本对应的多媒体问答对被划分到同一个簇中，两个答案文本中的多媒体资源列入同一多媒体列表。

本发明实施例提供的方法，通过答案文本所包含的每一多媒体资源的相关信息，确定答案文本特征，能够实现多媒体资源相关信息类似的多媒体问答对的聚类，从而实现多媒体列表的自动生成。

基于上述任一实施例，图4为本发明实施例提供的多媒体问答对确定方法的流程示意图，如图4所示，步骤110具体包括：

步骤111，确定多个候选问答对。

此处，候选问答对可以是从互联网相关领域的论坛、社区或者其余类型的问答平台上挖掘得到的，候选问答对可能与多媒体存在较大关联，也可能与多媒体存在较小关联。

在进行候选问答对的采集时，可以通过网络上问答对对应的点赞数、浏览量等信息，从海量问答对中挑选点赞数、浏览量较高的问答对作为候选问答对，以确保候选问答对的质量。

步骤112，将任一候选问答对输入至意图分类模型中，得到意图分类模型输出的意图分类结果；意图分类模型是基于样本问答对及其样本意图分类结果训练得到的。

具体地，意图分类模型用于根据输入的候选问答对，判断该候选问答对的意图是否与多媒体相关，并输出表征候选问答对是否与多媒体相关的意图分类结果。此处，意图分类结果可以是多媒体相关或多媒体不相关，也可以是候选问答对与多媒体的相关概率，本发明实施例对此不作具体限定。

在执行步骤112之前，还可以预先训练得到意图分类模型，具体可以通过如下方式训练得到意图分类模型：首先，收集大量样本问答对，并通过人工标注样本问答对的样本意图分类结果，即样本问答对是否与多媒体相关。随即，基于样本问答对，以及样本问答对的样本意图分类结果对初始模型进行训练，从而得到意图分类模型。

步骤113，若意图分类结果表示多媒体相关，则确定该候选问答对为多媒体问答对。

具体地，根据意图分类结果，实现候选问答对的筛选，得到媒体问答对。例如，若意图分类结果为多媒体相关，则确定该候选问答对为多媒体问答对，否则不将该候选问答对作为多媒体问答对。又例如，若意图分类结果为多媒体相关概率，则概率值大于预先设定的概率阈值，则确定该候选问答对与多媒体相关，该候选问答对为多媒体问答对，否则不将该候选问答对作为多媒体问答对。

本发明实施例提供的方法，通过意图分类模型对候选问答对进行筛选，以确保多媒体问答对具备较高的置信度，后续生成的多媒体列表具备较高的准确性。

基于上述任一实施例，该方法中，步骤112具体包括：将任一候选问答对的问题文本输入至意图分类模型，得到意图分类模型输出的意图分类结果。

具体地，候选问答对中，问题文本通常包含有明确的意图，例如“找动作电影”，“求推荐适合野餐的时候听的歌曲”，其中“电影”、“歌曲”等均包含有明确的意图，通过问题文本即可判断与多媒体的相关性。

因此，在应用意图分类模型对候选问答对进行意图分类时，无需将候选问答对整体输入意图分类模型，仅需将候选问答对中的问题文本输入至意图分类模型即可。

基于上述任一实施例，图5为本发明实施例提供的意图分类结果确定方法的流程示意图，如图5所示，步骤112具体包括：

步骤1121，将任一候选问答对的问题文本中每个字的字向量输入至意图分类模型的语义编码层，得到语义编码层输出的问题文本的语义特征。

步骤1122，将语义特征输入至意图分类模型的分类输出层，得到分类输出层输出的意图分类结果。

具体地，意图分类模型包含语义编码层和分类输出层，其中语义编码层用于基于输入的问题文本的每个字的字向量，编码每个字的隐层特征，并基于隐层特征得到问题文本的语义特征输出；分类输出层用于基于输入的语义特征分析问题文本与多媒体相关的概率，并输出意图分类结果。

其中，每个字的字向量可以是随机初始化生成的，也可以是通过word2vec等工具训练生成的，本发明实施例对此不做具体限定。

语义编码层可以是循环神经网络RNN或者长短时记忆网络LSTM等，以RNN为例，语义编码层编码得到每个字的隐层特征h＝[h₁,h₂…h_i…h_N]，其中，

为第i个字所对应的隐含节点输出，即隐层特征，m为RNN隐含层所对应的隐含节点维度，N为问题文本的字数。由此得到的语义特征为h_N，即问题文本中最后一个字的隐层特征。

分类输出层可以应用softmax函数或者其余类型的分类器实现意图分类结果的输出，在应用softmax函数时具体表现为如下公式，式中，o即意图分类结果，表示问题文本与多媒体相关的概率，W和b为softmax函数的参数：

o＝softmax(h_NW+b)

假设意图分类结果o中包含的问题文本与多媒体相关的概率为o[1]，预先设定的概率阈值为0.9，候选问答对1、2、3所对应的o[1]分别为0.95、0.97和0.23，则候选问答对1、2为多媒体问答对，候选问答对3不是多媒体问答对，不参与后续多媒体列表的生成。

基于上述任一实施例，图6为本发明另一实施例提供的多媒体列表生成方法的流程示意图，如图6所示，步骤130具体包括：

步骤131，基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，得到聚类结果。

具体地，基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，可以得到聚类结果。此处，具体应用的聚类算法可以是k-means聚类算法、DBSCAN聚类算法、均值漂移聚类算法等，本发明实施例对此不作具体限定。

步骤132，基于属于聚类结果中的任一簇的每一多媒体问答对的答案文本所包含的每一多媒体资源，生成该簇对应的多媒体列表。

具体地，针对聚类得到的任意一个簇，该簇中可以包含若干个类似的多媒体问答对，每一多媒体问答对中均包含若干个多媒体资源，可以将该簇中的每一多媒体问答对中包含的多媒体资源列入该簇对应的多媒体列表。针对不同的簇可以生成不同的多媒体列表。

基于上述任一实施例，一种多媒体列表生成方法，用于电影列表的生成，具体包括如下步骤：

首先，采集多个候选问答对。随即将每一候选问答对的问题文本输入到意图分类模型中，得到意图分类模型输出的意图分类结果。

下表示出多个候选问答对，以及候选问答对的意图分类结果：

假设预设概率阈值为0.9，则确定序号1、2、4、5、6对应的问答对为与电影相关的多媒体问答对。

随即，对应每一多媒体问答对的问答对特征。此处，问答对特征是由问题文本特征与答案文本特征拼接得到的。其中，问题文本特征可以是问题文本的语义特征，此处表示为h_N，即问题文本中最后一个字的隐层特征，N为问题文本的字数。答案文本特征可以是答案文本中包含的每一多媒体资源的相关信息所对应的特征。上表中，每一答案文本中包含的多媒体资源均通过下划线的形式表现，以序号为4的多媒体问答对为例，答案文本中包含的三个多媒体资源(即三部电影)分别为“纳尼亚传奇”、“龙骑士”和“亚瑟和迷你国”，针对“亚瑟和迷你国”而言，通过互联网获取到的相关信息包括动画、吕克贝松、法国、魔幻等。在收集得到“纳尼亚传奇”、“龙骑士”和“亚瑟和迷你国”的相关信息后，将所有相关信息对应的集合表示为L，并应用独热编码one-hot的表达方式，将答案文本特征表现为L-one-hot。由此得到任一多媒体问答对的问答对特征S(Q,A)＝[h_N,L-one-hot]。

随后，基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，得到聚类结果。上表中，序号为1和4的多媒体问答对形成一个簇，序号为2和5的多媒体问答对形成一个簇，对应形成两个多媒体列表，其中一个多媒体列表包括“飞驰人生”、“夏洛特烦恼”和“两只老虎”，另一个多媒体列表包括“暮光之城”、“纳尼亚传奇”、“龙骑士”和“亚瑟和迷你国”。

目前，自动生成的多媒体列表通常直接将其中包含的多媒体资源的标签作为列表名称，例如将影单直接命名为爱情片。通过上述方法命名的列表名称形式单一，相对呆板，通常很难引起用户的兴趣。针对这一问题，本发明实施例提供了一种多媒体列表命名方法。图7为本发明实施例提供的多媒体列表命名方法的流程示意图，如图7所示，该方法包括：

步骤710，确定多媒体列表中多媒体资源的相关文本；其中，多媒体列表是基于上述任一实施例提供的多媒体列表生成方法生成的。

此处，相关文本是指与多媒体资源相关联的文本，例如用户对于多媒体资源发表的评论文本，或者网络上对于多媒体资源的介绍文本等。相关文本通常是人为撰写的文本，相对于标签，具有更加丰富的形式和表述，更容易引起用户的兴趣。

任一多媒体列表中可以包括若干个多媒体资源，此处的相关文本可以对应于其中一个多媒体资源，也可以对应于其中多个多媒体资源，本发明实施例对此不作具体限定。在进行相关文本采集时，可以通过网络上评论文本、介绍文本等对应的点赞数、浏览量等信息，从海量文本中挑选点赞数、浏览量较高的文本作为相关文本，以确保相关文本的质量。

步骤720，基于多媒体列表中多媒体资源的相关文本，生成多媒体列表的列表名称。

具体地，在得到相关文本之后，可以直接从相关文本中截取部分语段作为多媒体列表的列表名称，也可以基于相关文本中的高频词语自动生成列表名称，本发明实施例对此不作具体限定。

例如，多媒体列表中包括“夏洛特烦恼”，通过检索“夏洛特烦恼”得到用户发布的关于“夏洛特烦恼”的短评文本“这一部可以说是国产喜剧的巅峰之作”，将“国产喜剧巅峰”作为多媒体列表的列表名称。

本发明实施例提供的方法，通过多媒体资源的相关文本，生成多媒体列表的列表名称，相关文本的应用，有助于丰富列表名称的形式和表述，使得多媒体列表更容易引起用户的兴趣。

基于上述任一实施例，图8为本发明实施例提供的列表名称生成方法的流程示意图，如图8所示，步骤720具体包括：

步骤721，确定媒体列表中多媒体资源的相关文本的关键词。

步骤722，基于关键词，生成多媒体列表的列表名称。

具体地，关键词可以是相关文本中出现频次较高的词，或者是相关文本中重要性较高的分词，关键词可以是一个或多个。关键词的确定可以通过各种关键词提取方法实现，例如关键词匹配等，本发明实施例对此不作具体限定。将关键词应用于列表名称的生成，可以更好地体现相关文本所表现的丰富含义。

基于上述任一实施例，该方法中，步骤722具体包括：对相关文本中的关键词进行同义词替换，得到多媒体列表的列表名称。

具体地，可以基于预先收集的同义词对，确定相关文本中关键词所属的同义词对，进而对相关文本中的关键词进行同义词替换，将同义词替换后的相关文本作为列表名称。

在此之前，还可以预先完成同义词对的收集，例如可以通过如下方法实现同义词对的收集：收集大量样本相关文本的关键词，训练每一关键词的词向量，通过计算每两个关键词的词向量的点积，并比较点积与预先设定的阈值的大小，判断上述两个关键词是否为同义词对。

例如，相关文本为“国产动画的先驱”，关键词包括“国产”、“动画”，其中“动画”的同义词为“动漫”，通过同义词替换得到列表名称“国产动漫的先驱”。

本发明实施例提供的方法，通过对相关文本进行同义词替换，实现列表名称的多样性。

基于上述任一实施例，该方法中，步骤722具体包括：将关键词输入至列表名称生成模型中，得到列表名称生成模型输出的多媒体列表的列表名称；其中，列表名称生成模型是基于样本关键词以及样本列表名称训练得到的。

具体地，列表名称生成模型用于根据输入的关键词自动生成多媒体列表的列表名称。在执行步骤722之前，可以预先训练得到列表名称生成模型，具体可以通过如下方式训练得到列表名称生成模型：首先，收集大量样本关键词，以及样本关键词所对应样本列表名称。随即，基于样本关键词，以及样本列表名称对初始模型进行训练，从而得到列表名称生成模型。列表名称生成模型学习了样本关键词与样本列表名称之间的对应关系，并将上述对应关系应用在基于关键词的列表名称生成过程中，从而得到列表名称。此处的列表名称生成模型可以是seq2seq模型。

例如，将关键词“搞笑”、“动漫”输入到列表名称生成模型，得到列表名称生成模型输出的列表名称“搞笑动漫的巅峰之作”。

本发明实施例提供的方法，将关键词输入至列表名称生成模型，以确定列表名称，基于不同的关键词，可以得到更加多样化的列表名称。

基于上述任一实施例，图9为本发明实施例提供的多媒体列表生成装置的结构示意图，如图9所示，多媒体列表生成装置包括多媒体问答对确定单元910、问答对特征确定单元920和列表生成单元930；

多媒体问答对确定单元910用于确定多个多媒体问答对；

问答对特征确定单元920用于确定每一多媒体问答对的问答对特征，所述问答对特征表示所述多媒体问答对中包含的多媒体资源的类型特征；

列表生成单元930用于基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。

本发明实施例提供的装置，将自身包含有丰富的多媒体资源信息的多媒体问答用于多媒体列表的生成，有助于实现细粒度的多媒体资源划分，可以涵盖各种类型的用户需求。基于多媒体问答对的问答对特征进行无监督聚类，无需再额外耗费人力进行标注，能够有效节省多媒体列表生成所需的人力消耗。

基于上述任一实施例，问答对特征确定单元920包括：

问题文本特征确定单元，用于确定任一多媒体问答对的问题文本特征；

和/或，答案文本特征确定单元，用于确定任一多媒体问答对的答案文本特征；

问答对特征确定单元，用于基于所述问题文本特征和/或所述答案文本特征，确定所述任一多媒体问答对的问答对特征。

基于上述任一实施例，问题文本特征确定单元具体用于：

基于上述任一实施例，答案文本特征确定单元具体用于：

确定每一多媒体资源的相关信息；

基于上述任一实施例，多媒体问答对确定单元910包括：

候选问答对确定单元，用于确定多个候选问答对；

意图分类单元，用于将任一候选问答对输入至意图分类模型中，得到所述意图分类模型输出的意图分类结果；所述意图分类模型是基于样本问答对及其样本意图分类结果训练得到的；

问答对筛选单元，用于若所述意图分类结果表示多媒体相关，则确定所述任一候选问答对为所述多媒体问答对。

基于上述任一实施例，意图分类单元具体用于：

基于上述任一实施例，列表生成单元930具体用于：

基于上述任一实施例，图10为本发明实施例提供的多媒体列表命名装置的结构示意图，如图10所示，多媒体列表命名装置包括相关文本确定单元1010和命名单元1020；

其中，相关文本确定单元1010用于确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基于多媒体列表生成方法生成的；

命名单元1020用于基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称。

本发明实施例提供的装置，通过多媒体资源的相关文本，生成多媒体列表的列表名称，相关文本的应用，有助于丰富列表名称的形式和表述，使得多媒体列表更容易引起用户的兴趣。

基于上述任一实施例，命名单元1020包括：

关键词确定单元，用于确定所述多媒体列表中多媒体资源的相关文本的关键词；

名称生成单元，用于基于所述关键词，生成多媒体列表的列表名称。

基于上述任一实施例，名称生成单元具体用于：

图11为本发明实施例提供的电子设备的结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑命令，以执行如下方法：确定多个多媒体问答对；确定每一多媒体问答对的问答对特征，所述问答对特征表示所述多媒体问答对中包含的多媒体资源的类型特征；基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。

此外，处理器1110还可以调用存储器1130中的逻辑命令，以执行如下方法：确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基多媒体列表生成方法生成的；基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称。

此外，上述的存储器1130中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定多个多媒体问答对；确定每一多媒体问答对的问答对特征，所述问答对特征表示所述多媒体问答对中包含的多媒体资源的类型特征；基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表。

此外，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基多媒体列表生成方法生成的；基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多媒体列表生成方法，其特征在于，包括：

确定多个多媒体问答对；

基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表，所述聚类结果包括若干个簇；

所述基于聚类结果生成多媒体列表，包括：

基于所述聚类结果的簇中内包含的每一多媒体问答对中的多媒体资源，构建所述簇对应的多媒体列表；

所述确定每一多媒体问答对的问答对特征，具体包括：

确定任一多媒体问答对的答案文本所包含的每一多媒体资源；

确定每一多媒体资源的相关信息，所述相关信息通过互联网检索多媒体资源得到，或从多媒体数据库中提取得到；

基于每一多媒体资源的相关信息，确定所述任一多媒体问答对的答案文本特征；

基于所述答案文本特征，确定所述任一多媒体问答对的问答对特征。

2.根据权利要求1所述的多媒体列表生成方法，其特征在于，所述基于所述答案文本特征，确定所述任一多媒体问答对的问答对特征，具体包括：

确定任一多媒体问答对的问题文本特征；

基于所述问题文本特征和所述答案文本特征，确定所述任一多媒体问答对的问答对特征。

3.根据权利要求2所述的多媒体列表生成方法，其特征在于，所述确定任一多媒体问答对的问题文本特征，具体包括：

4.根据权利要求1所述的多媒体列表生成方法，其特征在于，所述确定多个多媒体问答对，具体包括：

确定多个候选问答对；

5.根据权利要求4所述的多媒体列表生成方法，其特征在于，所述将任一候选问答对输入至意图分类模型中，得到所述意图分类模型输出的意图分类结果，具体包括：

6.根据权利要求1至5中任一项所述的多媒体列表生成方法，其特征在于，所述基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表，具体包括：

7.一种多媒体列表命名方法，其特征在于，包括：

确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基于如权利要求1至6中任一项所述的多媒体列表生成方法生成的；

8.根据权利要求7所述的多媒体列表命名方法，其特征在于，所述基于所述多媒体列表中多媒体资源的相关文本，生成所述多媒体列表的列表名称，具体包括：

确定所述多媒体列表中多媒体资源的相关文本的关键词；

基于所述关键词，生成多媒体列表的列表名称。

9.根据权利要求8所述的多媒体列表命名方法，其特征在于，所述基于所述关键词，生成多媒体列表的列表名称，具体包括：

10.一种多媒体列表生成装置，其特征在于，包括：

多媒体问答对确定单元，用于确定多个多媒体问答对；

列表生成单元，用于基于每一多媒体问答对的问答对特征，对每一多媒体问答对进行聚类，基于聚类结果生成多媒体列表，所述聚类结果包括若干个簇；

所述基于聚类结果生成多媒体列表，包括：

所述问答对特征确定单元，具体用于：

11.一种多媒体列表命名装置，其特征在于，包括：

相关文本确定单元，用于确定多媒体列表中多媒体资源的相关文本；其中，所述多媒体列表是基于如权利要求1至6中任一项所述的多媒体列表生成方法生成的；

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的多媒体列表生成方法，或权利要求7至9中任一项所述的多媒体列表命名方法的步骤。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的多媒体列表生成方法，或权利要求7至9中任一项所述的多媒体列表命名方法的步骤。