CN115169472A - 针对多媒体数据的音乐匹配方法、装置和计算机设备 - Google Patents

针对多媒体数据的音乐匹配方法、装置和计算机设备 Download PDF

Info

Publication number
CN115169472A
CN115169472A CN202210845873.7A CN202210845873A CN115169472A CN 115169472 A CN115169472 A CN 115169472A CN 202210845873 A CN202210845873 A CN 202210845873A CN 115169472 A CN115169472 A CN 115169472A
Authority
CN
China
Prior art keywords
data
features
music
audio
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210845873.7A
Other languages
English (en)
Inventor
冯鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210845873.7A priority Critical patent/CN115169472A/zh
Publication of CN115169472A publication Critical patent/CN115169472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种针对多媒体数据的音乐匹配方法、装置、计算机设备、存储介质和计算机程序产品。方法通过先获取待配乐的多媒体数据以及候选音乐数据;分别提取每一候选音乐数据中的音频特征以及歌词特征,并提取多媒体数据的多媒体文本特征;针对每一候选音乐数据,根据音频特征以及歌词特征,构建音乐融合特征;将每一音乐融合特征分别与多媒体文本特征进行多模态匹配处理,得到每一候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度;根据每一候选音乐数据各自的语义匹配度,确定候选音乐数据中与多媒体数据匹配的目标音乐数据,本申请可以有效实现精准配乐。

Description

针对多媒体数据的音乐匹配方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种针对多媒体数据的音乐匹配方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了人工智能((Artificial Intelligence,AI))技术,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能可被应用于视频配乐领域来辅助配乐。
目前,对于人工智能配乐方法,一般可以通过使用多种的音频理解模型,为数据库中的每一首音乐进行结构化分析,然后生成音乐相对应的标签。并将待配乐的多媒体数据,比如视频也进行视频维度的结构化理解,识别出视频中的各种视频维度标签。最后将音频维度的标签与视频维度的标签进行多重匹配,筛选出最合适视频的音乐子集后再实现对视频的配乐。然而这种标签匹配的方法只能缩小匹配的范围,并不能实现精准匹配。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现精准配乐的针对多媒体数据的音乐匹配方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种针对多媒体数据的音乐匹配方法。所述方法包括:
获取待配乐的多媒体数据以及候选音乐数据;
分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
第二方面,本申请还提供了一种针对多媒体数据的音乐匹配装置。所述装置包括:
数据获取模块,用于获取待配乐的多媒体数据以及候选音乐数据;
特征提取模块,用于分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
特征融合模块,用于针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
多模态匹配模块,用于将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
目标音乐查找模块,用于根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待配乐的多媒体数据以及候选音乐数据;
分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待配乐的多媒体数据以及候选音乐数据;
分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待配乐的多媒体数据以及候选音乐数据;
分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
上述针对多媒体数据的音乐匹配方法、装置、计算机设备、存储介质和计算机程序产品,通过先获取待配乐的多媒体数据以及候选音乐数据;而后分别提取每一候选音乐数据中的音频特征以及歌词特征,并提取多媒体数据的多媒体文本特征,从而得到用于匹配的特征数据,以便基于候选音乐数据的特征以及多媒体数据的特征来实现内容匹配;而后针对每一候选音乐数据,根据音频特征以及歌词特征,构建音乐融合特征,基于音乐融合特征可以精准地表达出候选音乐数据的情感语义信息,最后将每一音乐融合特征分别与多媒体文本特征进行多模态匹配处理,即将候选音乐数据的情感语义信息与多媒体数据中的情感语义信息进行匹配,来精准地得到候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度;最终则是根据语义匹配度从候选音乐数据库确定待配乐的多媒体数据对应的目标音乐数据,从而可以得到与待配乐的多媒体数据匹配的音乐数据,保证配乐过程中音乐匹配的准确率。
附图说明
图1为一个实施例中针对多媒体数据的音乐匹配方法的应用环境图;
图2为一个实施例中针对多媒体数据的音乐匹配方法的流程示意图;
图3为一个实施例中通过VGGish模型提取音频特征帧序列步骤的流程示意图;
图4为一个实施例中提取音频特征所用的下游网络结构图;
图5为一个实施例中BERT模型结构图;
图6为一个实施例中BERT模型中转换器的结构图;
图7为一个实施例中三种特征融合方式的示意图;
图8为一个实施例中基于连接体时间分类算法和注意力机制的语音识别***图;
图9为一个实施例中多模态匹配过程的流程示意图;
图10为另一个实施例中针对多媒体数据的音乐匹配方法的流程示意图;
图11为一个实施例中通过语音识别技术识别视频中文本内容的流程示意图;
图12为一个实施例中配乐效果展示的示意图;
图13为一个实施例中针对多媒体数据的音乐匹配装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能领域,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及到了人工智能中的机器学习技术以及自然语言处理技术。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在本文中,需要理解的是,所涉及的术语:
Ffmpeg:一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。
多模态:描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息。或者指来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据,包括B超(B-Scan ultrasonography)、计算机断层扫描(CT)、核磁共振等;物联网背景下不同传感器所检测到的同一对象数据等。多模态信息具有不同的数据结构特点、表示形式的表意符号与信息。
嵌入(embedding):嵌入就是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。嵌入向量的性质是能使距离相近的向量对应的物体有相近的含义。
VGGish:在大量的数据集上训练得到的VGG模型中的一种,该模型中生成128维的嵌入向量,支持从音频波形中提取具有语义的128维的嵌入特征向量。
BERT(Bidirectional Encoder Representation from Transformers,双向转换器的编码模型):一种流行的文本预训练模型。
本申请实施例提供的针对多媒体数据的音乐匹配方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上,也可以放在云上或其他服务器上。当用户希望对拍摄或剪辑得到的视频等多媒体文件进行配乐时,为了更高效的找到匹配的音乐,可以通过本申请的针对多媒体数据的音乐匹配方法来从音乐数据库中筛选出合适的音乐,而后再将音乐加入到视频文件中,完成配乐流程。首先,终端102需要提交待配乐的多媒体数据至服务器104,服务器104接收待配乐的多媒体数据,并获取音乐数据库中的候选音乐数据。而后分别提取每一候选音乐数据中的音频特征以及歌词特征,并提取多媒体数据的多媒体文本特征;针对每一候选音乐数据,根据音频特征以及歌词特征,构建音乐融合特征;将每一音乐融合特征分别与多媒体文本特征进行多模态匹配处理,得到每一候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度;根据每一候选音乐数据各自的语义匹配度,确定候选音乐数据中与多媒体数据匹配的目标音乐数据。将确定的目标音乐数据反馈至终端102,终端102则可以使用目标音乐数据来对待配乐的多媒体数据进行配音处理。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种针对多媒体数据的音乐匹配方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤201,获取待配乐的多媒体数据以及候选音乐数据。
其中,待配乐的多媒体数据是指需要配乐的多媒体类型的数据,比如一段视频或者一段音频数据。而配乐则具体是指从众多的音乐数据中,挑选出能与当前多媒体数据情感匹配的一段音乐作为多媒体数据背景音乐,以烘托情感气氛。候选音乐数据则是指存在于音乐数据库中的多个不同的音乐数据,每个候选音乐数据都存在着音频以及歌词两部分内容,本申请可以结合音频以及歌词两部分内容来分析候选音乐数据的情感语义,从而提高匹配准确性。本申请可以借助Ffmpeg来处理视频等多媒体数据。
具体地,当终端102方的用户需要针对一段视频或者一段音频来进行配乐时,为了提高配乐效率,同时保证音乐匹配的准确性。可以通过本申请的针对多媒体数据的音乐匹配方法来从数据库的候选音乐数据中,筛选出合适的音乐数据实现配乐。首先,终端102可以提交待配乐的多媒体数据至服务器104,如提交一段音频或者一段视频数据,同时还可以指定候选音乐数据的数据库。服务器104则会直接获取用户提交的待配乐的多媒体数据,若是用户指定了候选音乐数据的数据库,则可直接从用户指定的数据库中获取候选音乐数据。若是用户未指定候选音乐数据,则可以直接从默认的音乐数据库中得到候选音乐数据。在另一个实施例中,为了提高匹配过程的处理效率,可以根据音乐数据的情感类型,如苦闷、愉悦以及悲伤等等情感类型,将音乐数据存放在数据库的不同分区,而后用户可以在提交待配乐的多媒体数据时,同时添加相应的情感类型标签,而服务器则可以根据多媒体数据所携带的标签,从数据库的对应分区中,查找到候选音乐数据。在一个具体的实施例中,本申请的方案具体应用于对视频内容进行背景音乐匹配,具体可以应用在以下场景:一是集锦视频配乐的场景,对于电视剧等长视频的视频信息整合,可以使用机器学习模型预测出整个剧集中精彩片段,组合成为整个剧集的集锦,构成一个短视频,而后使用本申请的音乐匹配方法能够根据集锦视频信息来进行对短视频配乐,最终提高整个集锦的质量,从而能够影响该视频的点击量和播放量。二是影视剧后期配乐的场景,在影视剧的后期制作中,需要对影视剧中的重点章节和片段(或者是较为高潮的片段)进行配乐,本申请能够直接根据选中的片段在乐库中自动挑选最为匹配的背景音乐。
步骤203,分别提取每一候选音乐数据中的音频特征以及歌词特征,并提取多媒体数据的多媒体文本特征。
其中,音频特征是指从候选音乐数据的音频维度中提取出的特征数据,而歌词特征则是指从候选音乐数据的歌词维度中提取出的特征数据。特征数据具体以嵌入特征向量的形式表示,分别表达了候选音乐数据在音频维度下的语义特征以及歌词维度下的语义特征。多媒体数据的多媒体文本特征则是指从多媒体数据中提取出相应的文本维度的内容后,再得到文本内容所对应的特征数据,表达了多媒体数据在文本维度下的语义特征。
具体地,当得到待配乐的多媒体数据以及候选音乐数据后,即可基于这两组数据来进行音乐匹配,在匹配时,每次都可以从候选音乐数据选一个来与多媒体数据匹配,并计算选出的候选音乐数据与待配乐的多媒体数据之间的情感语义匹配度,而后基于所有候选音乐数据的语义匹配度来选出一个或者多个音乐数据作为与多媒体数据匹配的目标音乐数据。在匹配计算时,可以基于多媒体数据以及候选音乐数据的特征来进行计算,其中,对于候选音乐数据,可以同时考虑音频维度和歌词维度两个维度的特征,在处理时,可以先将候选音乐数据分离为音频数据以及歌词数据,而后通过机器学习模型来分别提取出音频数据的音频特征与歌词数据的歌词特征。而对于多媒体数据,则可以直接提取多媒体数据中的台词作为情感参考的依据,提取出多媒体数据的台词内容中所包含的多媒体文本特征。在其中一个实施例中,多媒体数据中不包含台词等内容,此时可以直接识别出多媒体数据对应的文本描述,而后基于文本描述来提取多媒体文本特征。在一个具体的实施例中,本申请的方案具体应用于影视剧后期配乐,此时可以将每个待配乐重点章节或者精彩片段作为待配乐的多媒体数据。在提取候选音乐数据中的音频特征以及歌词特征时,可以先将音乐库中的音乐数据分为音频和歌词两部分内容,而后分别通过机器学习模型来提取两部分内容分别对应的音频特征以及歌词特征。而对于待配乐的多媒体数据,则可以通过语音识别的方式识别出其中包含的台词文本,而后提取出台词文本中的多媒体文本数据。
步骤205,针对每一候选音乐数据,根据音频特征以及歌词特征,构建音乐融合特征。
其中,音乐融合特征是指将音频特征以及歌词特征融合起来所构建的一个多模态的特征,音频特征以及歌词特征都只能表达候选歌曲数据的一部分语义特征,为了获得完整的候选音乐数据语义,可以在得到音频特征以及歌词特征,将两者综合起来,得到一个音乐融合特征。
具体地,本申请的方案通过机器学习的方法来实现针对多媒体数据的音乐匹配,在提取特征时,可以通过音频领域的特征提取模型来提取候选音乐数据中的音频特征audio embedding,同时通过自然语言处理领域的特征提取模型来提取候选音乐数据中的歌词特征text embedding,在得到两组特征后,为了计算待配乐的多媒体数据与候选音乐数据两者之间的匹配度,需要构建出一个能完整表达候选音乐数据语义的特征,因此,针对每一候选音乐数据都可以将音频特征audio embedding与歌词特征text embedding融合,通过将提取完的audio embedding和text embedding进行组合,共同生成音乐融合特征,即concat embedding向量,该特征向量用以提供音乐侧信息,以备后面的多模态匹配使用。在其中一个实施例中,可以通过向量拼接的方式来将音频特征audio embedding与歌词特征text embedding融合,得到音乐融合特征。在另一个实施例中,可以将音频特征audioembedding与歌词特征text embedding的维度统一化后再融合得到音乐融合特征。
步骤207,将每一音乐融合特征分别与多媒体文本特征进行多模态匹配处理,得到每一候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度。
其中,多模态匹配处理指的将音乐融合特征这个表征多模态的特征数据与多媒体文本特征进行匹配,得到多媒体文本特征与多模态的候选音乐数据之间的情感语义匹配度。语义匹配度越高,说明多媒体文本与候选音乐数据表达的情感语义越接近,候选音乐数据也越符合待配乐的多媒体数据的配乐需要。
具体地,当得到音乐融合特征与多媒体文本特征后,可以将每一个候选音乐数据对应的音乐融合特征与多媒体文本特征进行单独的匹配,每一个候选音乐数据都可以计算出一个初始的匹配度,而后通过归一化处理,可以将所有的候选音乐数据对应的语义匹配度在一个尺度下进行比较,得出最终的匹配结果。在其中一个实施例中,对音乐融合特征与多媒体文本特征进行多模态匹配处理的过程,可以将两个特征向量映射到同一维度之后,计算两个向量在同一维度下的空间距离,而后将空间距离作为匹配度来进行计算。在得到当前的音乐融合特征所对应的空间距离后,为了保证比较的有效性,还可以进一步地对匹配度进行归一化处理,得到归一化之后匹配度数值。
步骤209,根据每一候选音乐数据各自的语义匹配度,确定候选音乐数据中与多媒体数据匹配的目标音乐数据。
其中,目标音乐数据是指可以作为待配乐的多媒体数据的背景音乐参与配乐过程的音乐数据。用户可以直接将目标音乐数据通过处理后,添加到待配乐的多媒体数据中,作为多媒体数据的背景音乐来使用。
具体地,语义匹配度是一个归一化之后的数据,通过对比每一个候选音乐数据各自的语义匹配度,可以比较出哪个候选音乐数据与当前待配乐的多媒体数据更加匹配。因此,在通过反复计算,得出每个候选音乐数据各自的语义匹配度后,可以通过语义匹配度的大小比较,筛选出候选音乐数据中与多媒体数据匹配的目标音乐数据。在一个具体的实施例中,本申请的方案具体应用于影视剧后期配乐,此时可以将每个待配乐重点章节或精彩片段作为待配乐的多媒体数据。此时,针对每一个待配乐的多媒体数据,都可以计算出语义匹配度最高的一个候选音乐数据作为其背景音乐。在另外的实施例中吗,还可以选出语义匹配度前三或者前五的候选音乐数据,构建出一个候选组,而后针对每个待配乐的多媒体数据,都反馈相应的候选组背景音乐作为初步筛选的背景音乐,再由工作人员根据影视剧内容的实际情况,从候选组中选出可以作为背景音乐的目标音乐数据。
上述针对多媒体数据的音乐匹配方法,通过先获取待配乐的多媒体数据以及候选音乐数据;而后分别提取每一候选音乐数据中的音频特征以及歌词特征,并提取多媒体数据的多媒体文本特征,从而得到用于匹配的特征数据,以便基于候选音乐数据的特征以及多媒体数据的特征来实现内容匹配;而后针对每一候选音乐数据,根据音频特征以及歌词特征,构建音乐融合特征,基于音乐融合特征可以精准地表达出候选音乐数据的情感语义信息,最后将每一音乐融合特征分别与多媒体文本特征进行多模态匹配处理,即将候选音乐数据的情感语义信息与多媒体数据中的情感语义信息进行匹配,来精准地得到候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度;最终则是根据语义匹配度从候选音乐数据库确定待配乐的多媒体数据对应的目标音乐数据,从而可以得到与待配乐的多媒体数据匹配的音乐数据,保证配乐过程中音乐匹配的准确率。
在一个实施例中,音乐数据包括音频数据;提取音乐数据中的音频特征包括:通过音频特征提取模型提取音频数据中的音频特征帧序列;通过卷积神经网络对音频特征帧序列按维度进行信息整合处理,得到音频整合特征;通过双向长短期记忆人工神经网络提取音频整合特征对应的音频前向隐藏特征以及音频后向隐藏特征;将音频前向隐藏特征以及音频后向隐藏特征拼接,得到音乐数据中的音频特征。
其中,音频特征提取模型是一种机器学习模型,其适用于从音频数据中提取出对应的音频特征。在其中一个实施例中,本申请的音频特征提取模型包括了VGGish模型。而本实施例中用于信息整合的卷积神经网络具体可以是一个一维的卷积神经网络,用于实现高低频信息的整合。双向长短期记忆人工神经网络是一种时间循环神经网络,在本实施例中主要实现长段时音频信息的整合。它是长短期记忆人工神经网络(LSTM)的一种变型,LSTM只能实现单向的传递,当语句是承前启后的情况时,自然能完成。但是当语句顺序倒过来,关键落在后面时,LSTM的效果无法保证。所以可以通过双向长短期记忆人工神经网络来进行处理,双向长短期记忆人工神经网络的隐藏层要保存两个值,一个正向值参与正向计算,另一个值反向值参与反向计算,在本实施例中,这两个值即为音频前向隐藏特征以及音频后向隐藏特征,将两个特征拼接起来,得到的就是完整的音频特征。
具体地,当需要提取音乐数据中的完整语义特征时,首先要将音乐数据拆分为音频数据和歌词数据两种数据,并分别使用不同的特征提取方法来进行处理。对于音频数据,由于本申请的方案中输入的为整首歌曲的音频数据,为了整合音频数据的特征,可以先通过音频特征提取模型提取出帧级别的音频特征帧序列,而后再对这些音频特征帧序列进行整合,构建出一个完整的音频整合特征。最终则可以通过双向长短期记忆人工神经网络来对音频整合特征进行一次长段时信息的整合,从而得到可以表达音频角度歌曲情感特征的音频特征。在一个具体的实施例中,本申请音频数据提取的过程包括了上游的音频特征提取模型以及下游的卷积神经网络和双向长短期记忆人工神经网络。其中,音频特征提取模型包括了VGGish模型,VGGish模型结构图具体可以参见图3,输入音频数据通过提取特征,转化成了n*96*64音频特征序列,然后以96*64为基础特征图进行计算。由图中可以看出,VGGish由5层卷积层、3层全连接层、softmax输出层构成,层与层之间使用最大化池(max-pooling)分开,所有隐层的激活单元都采用修正线性单元(Rectified Linear Unit,ReLU)函数。VGGish使用多个较小卷积核(3x3)的卷积层代替一个卷积核较大的卷积层,一方面可以减少参数,另一方面相当于进行了更多的非线性映射,可以增加网络的拟合/表达能力。两个3x3的卷积堆叠获得的感受野大小,相当一个5x5的卷积;而3个3x3卷积的堆叠获取到的感受野相当于一个7x7的卷积。这样可以增加非线性映射,也能很好地减少参数。经过VGGish模型处理过后,每个96*64的微元都会计算成一个128阶的嵌入特征向量。这个128的嵌入特征向量已经包含了这96帧音频的所有信息,也就是VGGish输出的高级特征。整条音乐音频信号最终会生成一个n*128的嵌入特征向量序列组,即音频特征帧序列。而下游网络的结构可以参照图4所示,当上游模型生成的128阶的嵌入特征向量组输入到下游模型时,先使用一维的卷积核进行维度上的信息整合,因为嵌入特征向量是一个128阶的向量,所以由于不同频带上的特征表现是不同的,所以需要高低频信息的整合。卷积层出来的特征输入到一层双向长短期记忆人工神经网络中去进行长段时信息的整合,然后拼接音频前向隐藏特征以及音频后向隐藏特征作为最终的音频特征。本实施例中,通过音频特征提取模型、卷积神经网络以及双向长短期记忆人工神经网络来进行音频数据中音频特征的提取,能够保证音频特征数据提取的准确性,从而保证音乐匹配过程的准确性。
在其中一个实施例中,音乐数据包括歌词数据;提取音乐数据中的歌词特征包括:通过文本特征提取模型提取歌词数据中的歌词文本特征;通过双向长短期记忆人工神经网络提取歌词文本特征对应的文本前向隐藏特征以及文本后向隐藏特征;将文本前向隐藏特征以及文本后向隐藏特征拼接,得到音乐数据中的歌词特征。
其中,文本特征提取模型也是一种机器学习模型,其适用于从文本数据中提取出对应的文本特征。在其中一个实施例中,本申请的文本特征提取模型包括了BERT模型。而双向长短期记忆人工神经网络是一种时间循环神经网络,在本实施例中主要实现针对文本数据的长段时信息的整合。双向长短期记忆人工神经网络的隐藏层要保存两个值,一个正向值参与正向计算,另一个值反向值参与反向计算,在本实施例中,这两个值即为文本前向隐藏特征以及文本后向隐藏特征,将两个特征拼接起来,得到的就是完整的文本特征。
具体地,在歌曲音乐中不单存在音频维度的信号,同时也存在歌词文本维度的信息,尤其是在配乐的过程中,歌词的文本信息更能够表达歌曲的情感。对于歌词数据,由于本申请的方案中输入的为整首歌曲的文本数据,为了整合所有歌词数据所表达的特征,可以先通过文本特征提取模型提取出整体的歌词文本特征。而后可以通过双向长短期记忆人工神经网络来对歌词文本特征进行一次长段时信息的整合,从而得到可以表达文本角度歌曲情感特征的歌词特征。在一个具体的实施例中,本申请音频数据提取的过程包括了上游的文本特征提取模型以及下游的双向长短期记忆人工神经网络。其中,文本特征提取模型包括了BERT模型,该模型是用来生成歌词文本对应的嵌入特征向量,其网络的输出与词组的数量相对应,一条完整文本进入到网络后可以生成一个嵌入特征向量的序列,即歌词文本特征。BERT模型结构图具体可以参见图5,其作为一个Word2Vec模型的替代者,其在自然语言处理领域的11个方向大幅刷新了精度。BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的自然语言处理任务中,可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。BERT的网络架构使用的是多层转换器(Transformer)结构,其最大的特点是抛弃了传统的RNN和CNN,通过注意力机制将任意位置的两个单词的距离转换成1,有效的解决了自然语言处理中棘手的长期依赖问题。BERT中转换器的网络架构如图6所示,转换器是一个编码-解码(encoder-decoder)的结构,由若干个编码器和解码器堆叠形成。左侧部分为编码器,由多头注意力器(Multi-Head Attention)和一个全连接组成,用于将输入语料转化成特征向量。右侧部分是解码器,其输入为编码器的输出以及已经预测的结果,由变换多头注意力器(Masked Multi-Head Attention),多头注意力器以及一个全连接组成,用于输出最后结果的条件概率。对于右侧解码器部分的输出右移,一个原因是不希望模型在训练期间学习如何复制解码器输入,但是希望了解给定编码器序列和模型已经看到的特定解码器序列,可以预测下一个字/字符。如果不改变解码器的顺序,则模型将学习简单地“复制”解码器输入,通过将解码器输入移位一个位置,模型需要预测仅在解码器序列中仅看到字/字符1,…,i-1的位置i的目标字/字符,从而提高模型的训练效果。得到的歌词文本特征会在后续过程中输入到双向长短期记忆人工神经网络,通过双向长短期记忆人工神经网络提取歌词文本特征对应的文本前向隐藏特征以及文本后向隐藏特征,再拼接得到音乐数据中的歌词特征。通过双向长短期记忆人工神经网络来对歌词文本特征进行一次长段时信息的整合。本实施例中,通过文本特征提取模型以及双向长短期记忆人工神经网络来提取歌词数据中的歌词特征,可以有效保证歌词中情感语义特征提取的准确性。
在其中一个实施例中,根据音频特征以及歌词特征,构建音乐融合特征包括以下方式中的任意一种:
将音频特征以及歌词特征拼接,得到音乐融合特征;
对音频特征以及歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,对同一维度下的音频特征以及歌词特征中的对位元素值进行求平均处理,得到音乐融合特征;
对音频特征以及歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,对同一维度下的音频特征以及歌词特征中的对位元素值进行求和处理,得到音乐融合特征。
其中,维度转换是指通过特征维度转换的方法,将音频特征与歌词特征的维度统一化,得到相同维度的音频特征以及歌词特征,从而有效地对两种特征进行融合。
具体地,在得到音频特征以及歌词特征这两个特征后,由于这两个特征向量分别代表着音乐在音频维度的语义信息和歌词维度的语义信息,但是在计算匹配度时需要对每一首歌曲有唯一的特征向量,所以需要进行对音频特征以及歌词特征融合,生成一个唯一的音乐融合特征,该音乐融合特征既包含歌曲的音频语义信息又包含歌词的语义信息。如图7所示,本申请的方法可以通过三种方式来融合音频特征与歌词特征,从而构建融合特征,首先第一种方式是向量合并拼接的方式,将音频特征以及歌词特征两个不同阶数的一维向量进行拼接,生成一个更高阶的音乐融合特征。第二种方式是求平均的方法,该方法是将两个特征向量首先经过一层全连接层,将音频特征以及歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,然后进行对位求平均,得到音乐融合特征。第三种方式是求和的方法,和第二种方法类似,先对音频特征以及歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,然后在对应位置元素值相加,生成最终的音乐融合特征。本实施例中,通过向量拼接、求平均或者求和的方式可以有效地对音频特征以及歌词特征进行融合,得到音乐融合特征,并保证音乐融合特征可以有效地表达出音频和歌词两个维度下的情感语义。
在其中一个实施例中,提取多媒体数据的多媒体文本特征包括:提取多媒体数据中的语音音频数据;对语音音频数据进行语音识别处理,得到多媒体数据中的视频文本数据;对视频文本数据进行文本特征提取处理,得到视频文本数据中的多媒体文本特征。
其中,语音音频数据是指从多媒体数据中提取出的音频类数据,如果多媒体数据是视频数据,则可以直接从视频文件中分离出语音音频数据,而如果多媒体数据是一段音频,则可以将其直接作为语音音频数据。语音识别技术,也被称为自动语音识别(AutomaticSpeech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。本实施例中,在从多媒体数据分离出语音音频数据后,可以通过对语音音频数据进行语音识别处理,将其转换为视频文本数据,而后可以通过类似于歌词特征的提取过程,对视频文本数据进行文本特征提取处理,得到视频文本数据中的多媒体文本特征。
具体地,由于视频数据一般以动态图像和音频数据组成,当需要提取出视频数据中的文本台词内容的特征时,需要先将对多媒体数据中包含的台词等音频内容进行语音识别,得到视频文本数据,然后将生成的视频文本数据输入到与歌曲特征提取过程中一样的BERT网络进行多媒体文本特征的提取操作。在其中一个实施例中,视频文本数据具体可以通过基于连接体时间分类(Connectionist temporal classification,CTC)算法和注意力机制的语音识别***来实现,整体结构具体可以参见图8所示,CTC算法在预测时假设句子中每一个字符出现的概率为条件独立事件,在遇到难以判别的字符时CTC会出现误识别的情况,因此有时需要额外的语言模型来辅助预测。而注意力机制由数据驱动,基于输入与之前的字符来预测下一个字符,会隐含语言模型。因此通常情况下注意力机制的表现要强于CTC。但是,当注意力机制在数据有噪声时表现较差,同时如果输入序列较长,在训练前期注意力机制会难以进行学习。这是因为注意力机制在对齐时是从所有输入中找与之对应的,缺乏CTC中单调对齐的约束。虽然注意力机制也可以通过添加窗口机制来减小注意力范围,但窗口的参数需要根据训练数据进行调整,不能够自动进行调节。本申请通过CTC与注意力机制两者的解码器共享编码器部分,由于CTC的前向后向算法(forward-backwardalgorithm)能够强制进行输入与输出的单调对齐。因此在输入数据噪声过多时也能获得稳定的对齐效果。同时,由于CTC的前向后向算法的对齐过程不是数据驱动的,而注意力机制需要学习如何对齐。因此,在训练前期,即使注意力机制的编码器还未学习好如何正确对齐,CTC也能帮助网络解码器部分以单调对齐的方式进行学习,以此加速整个网络收敛。本申请通过使用上述的语音识别***来对多媒体数据的语音音频进行文本内容的识别,得到视频文本数据,然后识别出来的视频文本数据统一输入到上一个模块相同设计的BERT网络以及长短期记忆神经网络所组成的文本特征提取模型中,生成需要的多媒体文本特征,多媒体文本特征可以与音乐融合特征来进行多模态匹配计算。本实施例中,通过语音识别以及文本特征提取处理,可以有效地将多媒体数据中的语音音频数据转化为文本特征,从而得到表达多媒体数据情感语义的多媒体文本特征,有效保证多模态匹配过程的有效性,保证配乐的准确性。同时,本申请可以直接使用影视剧中的文本信息,无需再进行人工文本转录。
在其中一个实施例中,步骤205包括:针对每一音乐融合特征,通过全连接层将音乐融合特征与多媒体文本特征对映射处理,得到维度相同的稠密融合特征以及稠密多媒体文本特征;确定每一音乐融合特征对应的稠密融合特征和稠密多媒体文本特征的初始匹配度;对初始匹配度进行归一化处理,得到每一个候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度。
其中,全连接层中的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。其中,第一个全连接层可以将得到的音乐融合特征与多媒体文本特征转换为维度相同的特征。而第二全连接层中包含有匹配处理与归一化处理的函数,其可以针对相同维度的稠密融合特征以及稠密多媒体文本特征计算出空间距离,即初始匹配度,在对初始匹配度归一化处理后,得到候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度。
具体地,如图9所示,对于语义匹配度的计算过程,具体可以将所得到的音乐融合特征与多媒体文本特征都输入到同一个全连接层中,对齐进行向量维度转换的处理,得到相同纬度下的稠密特征,即稠密融合特征以及稠密多媒体文本特征。而后再将得到稠密融合特征以及稠密多媒体文本特征通过第二个全连接层,该层中包含有归一化处理用的函数,比如归一化指数函数(softmax)函数。在计算出稠密融合特征以及稠密多媒体文本特征之间的空间距离,得到初始匹配度后,将得到的匹配度通过softmax函数进行归一化处理,最终得到每一个候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度。由于进行了归一化处理,这里每一个候选音乐数据所对应的语义匹配度都是在相同尺度下得到的,因此在比较时,可以直接将不同候选音乐数据所对应的语义匹配度进行比较,来筛选出最终需要的目标音乐数据。如在其中一个实施例中,本申请具体应用于影视剧后期配乐的场景,当处理后得到一个128维音乐融合特征和80维的多媒体文本特征,首先通过全连接层,将128维音乐融合特征转化为64维的稠密融合特征,并将80维的多媒体文本特征转化为64维的稠密多媒体文本特征,而后通过向量之间空间距离,确定64维的稠密融合特征与64维的稠密多媒体文本特征之间的初始匹配度为8.8,而后通过包含有归一化指数函数的全连接层对初始匹配度进行归一化处理,映射到0至1之间,得到最终的语义匹配度为0.69。所得到的0.69即为当前待选音乐数据与影视剧对应片段的语义匹配度。当得到所有候选音乐数据的语义匹配度后,即可通过比较进一步地筛选出最终的目标音乐数据。本实施例中,通过映射以及归一化,可以有效地得出同一标准下的语义匹配度数据,从而有效地对候选音乐数据进行比较,筛选出最优的目标音乐数据,保证音乐匹配的准确性,提高配乐效果。
在其中一个实施例中,提取多媒体数据的多媒体文本特征包括:当识别到多媒体数据为无台词的视频数据时,基于多媒体数据构建视频描述虚拟文本;对视频描述虚拟文本进行文本特征提取处理,得到视频虚拟文本中的多媒体文本特征。
具体地,本申请中是必须要有台词等多媒体文本维度的信息出现,这个就会有一些局限性,因此后期处理时,可以使用根据多媒体内容来直接生成文本,将其作为能表达多媒体内容情感语义的虚拟文本来进行配乐选择。因此当多媒体数据为并不包含台词、旁白等文本内容的无台词视频数据时,可以通过构建视频描述虚拟文本来对无台词的视频数据的情感语义进行描述。在其中一个实施例中,可以通过视频描述生成(Video Captioning)的方法来构建虚拟文本,视频描述生成,即给定一段视频,通过人工智能技术对视频内容识别,输出描述这段视频的文字。目前视频描述生成一般可以通过模板方法或者序列方法来实现,例如可以通过基于循环神经网络(RNN)的序列到序列框架实现。在得到视频描述虚拟文本,可以通过上述实施例中的BERT模型以及双向长短期记忆人工神经网络的特征提取网络,直接对视频描述虚拟文本进行文本特征提取处理,得到视频虚拟文本中的多媒体文本特征,以便进行后续过程的匹配度计算。本实施例中,通过构建视频描述虚拟文本,可以有效地拓展本申请的使用范围,实现对无台词视频数据的配乐匹配。
本申请还提供一种应用场景,该应用场景应用上述的针对多媒体数据的音乐匹配方法。具体地,该针对多媒体数据的音乐匹配方法在该应用场景的应用如下:
当用户基于影视剧中的精彩片段组合制作完成一个集锦短视频后,为了有效地表达出短视频蕴含的情感语义,需要为短视频配上背景音乐来对情感进行衬托。此时,用户可以通过音乐匹配方法在音乐数据库中,查找到能与该集锦短视频相匹配的一段音乐作为其背景音乐。首先,用户可以通过终端向服务器提交该集锦短视频作为待配乐的多媒体数据来进行后续处理。处理的整体流程可以参照图10所示,首先服务器在获取待配乐的多媒体数据后,先查找乐库,得到其中的music_1、music_2、music_3....music_n等歌曲作为候选音乐数据,而后通过第一模块处理候选音乐数据,先将其分为歌词和音频两个维度的数据,针对歌词数据,可以通过文本特征提取模型BERT提取歌词数据中的歌词文本特征;通过双向长短期记忆人工神经网络提取歌词文本特征对应的文本前向隐藏特征以及文本后向隐藏特征;将文本前向隐藏特征以及文本后向隐藏特征拼接,得到音乐数据中的歌词特征。针对音频数据,可以通过音频特征提取模型VGGish提取音频数据中的音频特征帧序列;通过卷积神经网络对音频特征帧序列按维度进行信息整合处理,得到音频整合特征;通过双向长短期记忆人工神经网络提取音频整合特征对应的音频前向隐藏特征以及音频后向隐藏特征;将音频前向隐藏特征以及音频后向隐藏特征拼接,得到音乐数据中的音频特征。而后将音频特征以及歌词特征融合,构建出音乐融合特征。而针对集锦短视频,如图11所示,则可以通过第二模块来进行处理,先通过语音识别模型ASR提取出语音音频数据中的视频文本数据,再通过BERT模型提取视频文本数据中的多媒体文本特征。再通过第三模块,针对所得到的音乐融合特征与多媒体文本特征进行一次多模态匹配处理,得到当选取的歌曲与集锦短视频之间的情感语义匹配度。通过更换歌曲来进行重复进行情感语义匹配度的计算,当乐库内所有的歌曲都跑完时,则可以根据最终的匹配度计算结果,找出与集锦短视频情感语义最匹配的一个目标音乐数据,而后将目标音乐数据作为集锦短视频的背景音乐来进行配乐处理,得到配乐后的集锦短视频,具体效果可以参照图12所示。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的针对多媒体数据的音乐匹配方法的针对多媒体数据的音乐匹配装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个针对多媒体数据的音乐匹配装置实施例中的具体限定可以参见上文中对于针对多媒体数据的音乐匹配方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种针对多媒体数据的音乐匹配装置,包括:
数据获取模块1302,用于获取待配乐的多媒体数据以及候选音乐数据。
特征提取模块1304,用于分别提取每一候选音乐数据中的音频特征以及歌词特征,并提取多媒体数据的多媒体文本特征。
特征融合模块1306,用于针对每一候选音乐数据,根据音频特征以及歌词特征,构建音乐融合特征。
多模态匹配模块1308,用于将每一音乐融合特征分别与多媒体文本特征进行多模态匹配处理,得到每一候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度。
目标音乐查找模块1310,用于根据每一候选音乐数据各自的语义匹配度,确定候选音乐数据中与多媒体数据匹配的目标音乐数据。
在一个实施例中,音乐数据包括音频数据;特征提取模块1304具体用于:通过音频特征提取模型提取音频数据中的音频特征帧序列;通过卷积神经网络对音频特征帧序列按维度进行信息整合处理,得到音频整合特征;通过双向长短期记忆人工神经网络提取音频整合特征对应的音频前向隐藏特征以及音频后向隐藏特征;将音频前向隐藏特征以及音频后向隐藏特征拼接,得到音乐数据中的音频特征。
在一个实施例中,音乐数据包括歌词数据;特征提取模块1304具体用于:通过文本特征提取模型提取歌词数据中的歌词文本特征;通过双向长短期记忆人工神经网络提取歌词文本特征对应的文本前向隐藏特征以及文本后向隐藏特征;将文本前向隐藏特征以及文本后向隐藏特征拼接,得到音乐数据中的歌词特征。
在一个实施例中,特征融合模块1306可以通过以下方式中的任意一种实现特征融合:将音频特征以及歌词特征拼接,得到音乐融合特征;对音频特征以及歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,对同一维度下的音频特征以及歌词特征中的对位元素值进行求平均处理,得到音乐融合特征;对音频特征以及歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,对同一维度下的音频特征以及歌词特征中的对位元素值进行求和处理,得到音乐融合特征。
在一个实施例中,特征提取模块1304还用于:提取多媒体数据中的语音音频数据;对语音音频数据进行语音识别处理,得到多媒体数据中的视频文本数据;对视频文本数据进行文本特征提取处理,得到视频文本数据中的多媒体文本特征。
在一个实施例中,多模态匹配模块1308具体用于:针对每一音乐融合特征,通过全连接层将音乐融合特征与多媒体文本特征对映射处理,得到维度相同的稠密融合特征以及稠密多媒体文本特征;确定每一音乐融合特征对应的稠密融合特征和稠密多媒体文本特征的初始匹配度;对初始匹配度进行归一化处理,得到每一个候选音乐数据的语义信息与多媒体数据的语义信息之间的语义匹配度。
在一个实施例中,特征提取模块1304还用于:当识别到多媒体数据为无台词的视频数据时,基于多媒体数据构建视频描述虚拟文本;对视频描述虚拟文本进行文本特征提取处理,得到视频虚拟文本中的多媒体文本特征。
上述针对多媒体数据的音乐匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储配乐相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种针对多媒体数据的音乐匹配方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种针对多媒体数据的音乐匹配方法,其特征在于,所述方法包括:
获取待配乐的多媒体数据以及候选音乐数据;
分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
2.根据权利要求1所述的方法,其特征在于,所述音乐数据包括音频数据;
提取所述音乐数据中的音频特征包括:
通过音频特征提取模型提取所述音频数据中的音频特征帧序列;
通过卷积神经网络对所述音频特征帧序列按维度进行信息整合处理,得到音频整合特征;
通过双向长短期记忆人工神经网络提取所述音频整合特征对应的音频前向隐藏特征以及音频后向隐藏特征;
将所述音频前向隐藏特征以及所述音频后向隐藏特征拼接,得到音乐数据中的音频特征。
3.根据权利要求2所述的方法,其特征在于,所述音乐数据包括歌词数据;
提取所述音乐数据中的歌词特征包括:
通过文本特征提取模型提取所述歌词数据中的歌词文本特征;
通过双向长短期记忆人工神经网络提取所述歌词文本特征对应的文本前向隐藏特征以及文本后向隐藏特征;
将所述文本前向隐藏特征以及所述文本后向隐藏特征拼接,得到音乐数据中的歌词特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述音频特征以及所述歌词特征,构建音乐融合特征包括以下方式中的任意一种:
将所述音频特征以及所述歌词特征拼接,得到音乐融合特征;
对所述音频特征以及所述歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,对所述同一维度下的音频特征以及歌词特征中的对位元素值进行求平均处理,得到音乐融合特征;
对所述音频特征以及所述歌词特征进行维度转换,得到同一维度下的音频特征以及歌词特征,对所述同一维度下的音频特征以及歌词特征中的对位元素值进行求和处理,得到音乐融合特征。
5.根据权利要求1所述的方法,其特征在于,所述提取所述多媒体数据的多媒体文本特征包括:
提取所述多媒体数据中的语音音频数据;
对所述语音音频数据进行语音识别处理,得到所述多媒体数据中的视频文本数据;
对所述视频文本数据进行文本特征提取处理,得到所述视频文本数据中的多媒体文本特征。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度包括:
针对每一所述音乐融合特征,通过全连接层将所述音乐融合特征与所述多媒体文本特征对所述映射处理,得到维度相同的稠密融合特征以及稠密多媒体文本特征;
确定每一所述音乐融合特征对应的所述稠密融合特征和所述稠密多媒体文本特征的初始匹配度;
对所述初始匹配度进行归一化处理,得到每一个所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述提取所述多媒体数据的多媒体文本特征包括:
当识别到所述多媒体数据为无台词的视频数据时,基于所述多媒体数据构建视频描述虚拟文本;
对所述视频描述虚拟文本进行文本特征提取处理,得到所述视频虚拟文本中的多媒体文本特征。
8.一种针对多媒体数据的音乐匹配装置,其特征在于,所述装置包括:
数据获取模块,用于获取待配乐的多媒体数据以及候选音乐数据;
特征提取模块,用于分别提取每一所述候选音乐数据中的音频特征以及歌词特征,并提取所述多媒体数据的多媒体文本特征;
特征融合模块,用于针对每一所述候选音乐数据,根据所述音频特征以及所述歌词特征,构建音乐融合特征;
多模态匹配模块,用于将每一所述音乐融合特征分别与所述多媒体文本特征进行多模态匹配处理,得到每一所述候选音乐数据的语义信息与所述多媒体数据的语义信息之间的语义匹配度;
目标音乐查找模块,用于根据每一所述候选音乐数据各自的语义匹配度,确定所述候选音乐数据中与所述多媒体数据匹配的目标音乐数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210845873.7A 2022-07-19 2022-07-19 针对多媒体数据的音乐匹配方法、装置和计算机设备 Pending CN115169472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210845873.7A CN115169472A (zh) 2022-07-19 2022-07-19 针对多媒体数据的音乐匹配方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210845873.7A CN115169472A (zh) 2022-07-19 2022-07-19 针对多媒体数据的音乐匹配方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN115169472A true CN115169472A (zh) 2022-10-11

Family

ID=83494915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210845873.7A Pending CN115169472A (zh) 2022-07-19 2022-07-19 针对多媒体数据的音乐匹配方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN115169472A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862603A (zh) * 2022-11-09 2023-03-28 北京数美时代科技有限公司 一种歌曲语音识别方法、***、存储介质和电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992677A (zh) * 2019-03-14 2019-07-09 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配***
CN110519653A (zh) * 2019-07-22 2019-11-29 同济大学 一种基于事实转移的情感嵌入视频描述方法
CN110598651A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN111291221A (zh) * 2020-01-16 2020-06-16 腾讯科技(深圳)有限公司 对数据源生成语义描述的方法、设备和电子设备
CN111324773A (zh) * 2020-02-12 2020-06-23 腾讯科技(深圳)有限公司 一种背景音乐构建方法、装置、电子设备和存储介质
CN111800650A (zh) * 2020-06-05 2020-10-20 腾讯科技(深圳)有限公司 视频配乐方法、装置、电子设备及计算机可读介质
CN111918094A (zh) * 2020-06-29 2020-11-10 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN113190709A (zh) * 2021-03-31 2021-07-30 浙江大学 一种基于短视频关键帧的背景音乐推荐方法和装置
US20210295820A1 (en) * 2018-07-19 2021-09-23 Dolby International Ab Method and system for creating object-based audio content
CN114022822A (zh) * 2021-11-15 2022-02-08 北京达佳互联信息技术有限公司 视频配乐的获取方法、装置、电子设备及计算机可读介质
US20220076023A1 (en) * 2020-09-10 2022-03-10 Adobe Inc. Segmentation and hierarchical clustering of video
CN114242070A (zh) * 2021-12-20 2022-03-25 阿里巴巴(中国)有限公司 一种视频生成方法、装置、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210295820A1 (en) * 2018-07-19 2021-09-23 Dolby International Ab Method and system for creating object-based audio content
CN109992677A (zh) * 2019-03-14 2019-07-09 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配***
CN110519653A (zh) * 2019-07-22 2019-11-29 同济大学 一种基于事实转移的情感嵌入视频描述方法
CN110598651A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN111291221A (zh) * 2020-01-16 2020-06-16 腾讯科技(深圳)有限公司 对数据源生成语义描述的方法、设备和电子设备
CN111324773A (zh) * 2020-02-12 2020-06-23 腾讯科技(深圳)有限公司 一种背景音乐构建方法、装置、电子设备和存储介质
CN111800650A (zh) * 2020-06-05 2020-10-20 腾讯科技(深圳)有限公司 视频配乐方法、装置、电子设备及计算机可读介质
CN111918094A (zh) * 2020-06-29 2020-11-10 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
US20220076023A1 (en) * 2020-09-10 2022-03-10 Adobe Inc. Segmentation and hierarchical clustering of video
CN113190709A (zh) * 2021-03-31 2021-07-30 浙江大学 一种基于短视频关键帧的背景音乐推荐方法和装置
CN114022822A (zh) * 2021-11-15 2022-02-08 北京达佳互联信息技术有限公司 视频配乐的获取方法、装置、电子设备及计算机可读介质
CN114242070A (zh) * 2021-12-20 2022-03-25 阿里巴巴(中国)有限公司 一种视频生成方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862603A (zh) * 2022-11-09 2023-03-28 北京数美时代科技有限公司 一种歌曲语音识别方法、***、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US11657230B2 (en) Referring image segmentation
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别***、方法及实验评价方法
CN112104919B (zh) 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
Mei et al. Automated audio captioning: An overview of recent progress and new challenges
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
EP4235485A1 (en) Method for converting text data into acoustic feature, electronic device, and storage medium
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
Chen et al. Generating video descriptions with topic guidance
Niu et al. Improvement on speech emotion recognition based on deep convolutional neural networks
Lai et al. Multimodal sentiment analysis with asymmetric window multi-attentions
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Zeng et al. Robust multimodal sentiment analysis via tag encoding of uncertain missing modalities
Manzoor et al. Multimodality representation learning: A survey on evolution, pretraining and its applications
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
Vlasenko et al. Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition
CN117216185A (zh) 分发内容的评论生成方法、装置、设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
Liu et al. TACFN: transformer-based adaptive cross-modal fusion network for multimodal emotion recognition
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
Xie et al. Enhancing multimodal deep representation learning by fixed model reuse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40075318

Country of ref document: HK