CN107481735A - 一种转换音频发声的方法、服务器及计算机可读存储介质 - Google Patents

一种转换音频发声的方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN107481735A
CN107481735A CN201710752085.2A CN201710752085A CN107481735A CN 107481735 A CN107481735 A CN 107481735A CN 201710752085 A CN201710752085 A CN 201710752085A CN 107481735 A CN107481735 A CN 107481735A
Authority
CN
China
Prior art keywords
voice data
converted
frequency spectrum
spectrum information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710752085.2A
Other languages
English (en)
Inventor
冯祖学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Music Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Music Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Music Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710752085.2A priority Critical patent/CN107481735A/zh
Publication of CN107481735A publication Critical patent/CN107481735A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开了一种转换音频发声的方法,包括:获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。本发明还公开了一种转换音频发声装置以及计算机可读存储介质。

Description

一种转换音频发声的方法、服务器及计算机可读存储介质
技术领域
本发明涉及音频处理技术,尤其涉及一种转换音频发声的方法、服务器以及计算机可读存储介质。
背景技术
在现有的音乐APP中,虽然提供的功能越来越丰富,但是这些功能主要都是针对音乐APP的非音乐播放方面的功能,例如音乐社交功能以及音乐消费功能等,而针对传统的音乐播放领域,音乐APP所能提供的功能仍然主要为调音方面的功能,比如曲调、节奏等方面的调节,很明显这类功的主要目的是为了能带给用户一个更好的听歌体验,且要使用类似的调音功能也需要用户具有一定的音乐常识与基础,因而现有的音乐APP所能提供的这类调音功能的受众范围较小。因此,从整体上来说,现有的音乐APP所提供的功能在娱乐性方面仍略显不足,尤其是在音乐APP的基础功能——音乐播放方面,现有的音乐APP在音乐播放方面所提供的功能的娱乐性更显不足。
在日常生活中,每个用户往往都有自己所喜爱的一个或几个歌手,对于自己喜欢的歌手,用户不仅仅喜欢这些歌手自己唱的歌曲,可能还希望自己喜欢的歌手能演唱一些自己喜欢的其他歌曲。从目前现有技术中,还没有可以转换歌曲演唱者的方法,因此,现有的音乐APP所提供的功能无法满足用户使用需求。
发明内容
有鉴于此,本发明实施例期望提供一种转换音频发声的方法、服务器以及计算机可读存储介质,能够将选择的音频文件中原演唱者修改为自己喜欢的演唱者进行演唱,以提高趣味性和用户体验。
为达到上述目的,本发明实施例提供了一种转换音频发声的方法:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;
在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
其中,上述获取待转换的音频数据及转换目标对象之前,所述方法还包括:
获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
其中,上述获取至少一个对象的声学频谱信息,包括:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
其中,上述按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,包括:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
本发明实施例提供了一种转换音频发声装置,其特征在于,所述装置包括:
解析模块,用于获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;;
转换模块,用于在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
其中,上述装置还包括:
生成模块,用于获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
其中,上述生成模块,具体用于:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
其中,上述转换模块,具体用于:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
本发明实施例提供了一种服务器,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
本发明实施例提供的一种转换音频发声的方法、服务器以及计算机存储介质,获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。如此,将选择的音频数据进行解析,获取所述音频的音轨信息,根据设定的转换对象的声学频谱信息对所述音频的音轨信息进行转换,获得具备转换对象音频特征的音频数据,提高了音乐APP的娱乐性,同时给用户带来更好的使用体验。
附图说明
图1为本发明实施例转换音频发声方法的流程示意图;
图2为本发明实施例转换音频发声装置的结构示意图;
图3为本发明第一实施例流程示意图。
具体实施方式
为了能够更加详细的了解本发明实施例的特点与技术内容,下面对本发明实施例的实现进行详细阐述。
图1为本发明实施例转换音频发声方法的流程示意图,如图1所示,本发明实施例提供的音频转换方法包括以下步骤:
步骤101:获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息;
其中,所述音轨信息至少包含所述待转换音频数据的音色。
步骤102:在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
其中,根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
在实际应用中,所述按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据,还可以通过以下方式实现:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的中各个文本信息以及所述文本信息对应的发音音节;
在预设的声学频谱信息数据库中确定出所述转换目标对象对所述文本信息的发音信息以及所述发音信息的频谱信息,根据所述文本信息的文字顺序对所述确定出的发音信息的频谱信息进行排列以及音频转换,确定出转后的音频数据。
在所述步骤101之前,本发明实施例提供的音频转换方法还包括以下步骤:
获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库;
其中,对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
图2为本发明实施例转换音频发声装置的组成结构示意图,其特征在于,所述音频转换装置包括:
解析模块201,用于获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;
转换模块202,用于在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
其中,上述解析模块201,具体用于:
对所述待转换的音频数据进行解析后,确定出至少一个所述待转换的音频数据音节的音频特征,其中,所述音频特征包括所述音频数据音节的响度、音调、音色;
将所述确定出的待转换的音频数据音节的音频特征进行合成,获得所述待转换的音频数据的音轨信息。
其中,上述装置还包括:
生成模块203,用于获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
其中,上述生成模块203,具体用于:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
其中,上述转换模块202,具体用于:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
本发明实施例提供了一种服务器,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
其中,上述根据所述解析结果确定出所述待转换音频数据的音轨信息,包括:
对所述待转换的音频数据进行解析后,确定出至少一个所述待转换的音频数据音节的音频特征,其中,所述音频特征包括所述音频数据音节的响度、音调、音色;
将所述确定出的待转换的音频数据音节的音频特征进行合成,获得所述待转换的音频数据的音轨信息。
其中,上述获取待转换的音频数据及转换对象之前,所述方法还包括:
获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
其中,上述获取至少一个对象的声学频谱信息,包括:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
其中,上述根据所述转换对象的声学频谱对所述待转换音频数据的音轨信息进行转换,包括:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
其中,上述根据所述解析结果确定出所述待转换音频数据的音轨信息,包括:
对所述待转换的音频数据进行解析后,确定出至少一个所述待转换的音频数据音节的音频特征,其中,所述音频特征包括所述音频数据音节的响度、音调、音色;
将所述确定出的待转换的音频数据音节的音频特征进行合成,获得所述待转换的音频数据的音轨信息。
其中,上述获取待转换的音频数据及转换对象之前,所述方法还包括:
获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
其中,上述获取至少一个对象的声学频谱信息,包括:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
其中,上述根据所述转换对象的声学频谱对所述待转换音频数据的音轨信息进行转换,包括:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
上述生成模块203可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的生成模块203旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,所述服务器可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
下面通过音乐APP改变歌曲原演唱者为例对本发明实施例转换音频发声的方法进行进一步阐述。
实施例一
本发明第一实施例提供了一种转换音频发声方法的具体实现方法,如图3所示,所述方法包括以下步骤:
步骤301:采集声学频谱信息,建立声学频谱信息库;
在实际应用中,由于声音是一种具有一定振荡频率的声波,而声波有振荡频率、振幅、波形等物理参数或特性,正是这些不同的参数和特性,才使得声音有了各种不同的听觉效果。如果按照各种乐器的声音特点划分,有音调、音量、音色和音型等四种不同的表现形式,正是这些不同的形式,才决定了各种不同乐器声音的特点。其中,音调是和电磁波的振荡频率相关的一种形式,和频率成正比,频率高,则音调就高,频率低,则音调也低;音量是和电磁波的振荡幅度相关的一种形式,其大小与电磁波的振幅成正比,振幅大,音量就大,振幅小,音量也小。从我们比较直观的听觉效果来说,音调高,则发出的声音发尖、细,音调低则发出的声音显得浑厚。
而音色则是指声音的感觉特性,即人们听到声音的听觉效果,不同人的声音不同正是由音色区分的。同样是女高音,即使她们唱同一首歌,李谷一和***的声音,听众一听就可以准确的分辨出来,这就是音色的作用。而音色是由前面提到的电磁波的波形所决定的。标准电磁波的波形是正弦波,比如我们日常用的交流电,其波形就是一种标准的正弦波。但是,人的声音,各种乐器的声音,以及自然界中各种不同的声音,其波形往往是一种较为复杂的形状,恰恰是这些不同形状的波形,才决定了不同声音的音色。声音的音色除了可以通过波形表示(波形是声音的时域表示)外,还可以通过声音频谱表示(频谱是声音的频域表示),通过对声音的一小段波形进行傅里叶变换,即可得到该段波形所对应的声音频谱。
由于同一种音色的声音可能有多种不同的波形,但是同一种音色的声音的频谱往往是相同的,因而通常使用声音频谱作为区分不同声音音色不同的主要依据。
本发明实施例中,为了可以实现模仿不同人声音的效果,本发明需要预先对待模仿的人进行声音采集,并从采集到的音频数据中提取该用户的声学频谱信息,具体的,音乐APP可以预先采集歌手的声音信息,并从采集到的音频信息中提取该些歌手的声学频谱信息;或者,当前用户还可以利用终端的音频输入装置,例如,麦克风,录入自己的声音,并通过音乐APP将自己的声音上传至服务器,以使得服务器提取到该用户的声学频谱信息。
在实际应用中,在采集声学频谱信息时,只需要采集20个基础声学频谱即可,通过这20个基础声学频谱可以全组合成400多种声学频谱组合,从而可以通过这400多种声学频谱组合来模拟该用户的声音。
当采集到用户或者其他歌手的声学频谱信息后,可以将该些声学频谱信息与用户或者歌手的名称关联保存到服务器的声学频谱信息库中。
步骤302:对用户选择的、待改变演唱歌手的歌曲进行音频解析;
在实际应用中,声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频,我们平时通过音乐APP听到的歌曲,就是一种数字音频。这里所说的音频解析就是以数字音频信号为解析对象,以数字信号处理为解析手段,提取信号在时域、频域内一系列特性的过程。
音频解析主要利用了傅立叶变换和信号采样技术实现的。傅立叶变换是进行频谱分析的基础,信号的频谱分析是指按信号的频率结构,求取其分量的幅值、相位等按频率分布规律,建立以频率为横轴的各种“谱”,如幅度谱、相位谱。
本发明实施例中通过对用户选择的歌曲进行音频解析,可以得到该首歌曲的相关音频参数,比如音轨、响度、音调、波形等。其中,每条音轨都定义了该条音轨的属性,比如该条音轨的音色属性等。由于音色可以决定用户听到声音的不同,因此可以通过对该首歌曲解析得到的音轨进行修改,以改变该首歌曲演唱者的声音的效果。
步骤303:确定用户选择的歌手所对应的声学频谱信息,并按照确定的声学频谱信息,对待改变演唱歌手的歌曲的音轨信息进行修改;
在实际应用中,根据用户选择的歌手所对应的声学频谱信息,对通过执行步骤302获得的待改变演唱歌手的歌曲的音轨信息进行修改,通过改变音轨的方式,改变了该首歌曲演唱者的音色,从而可以达到将所述歌曲的演唱者的声音由原唱歌手的声音转换为用户所选择歌手的声音的效果。
实施例二
下面以对具体歌曲的演唱者进行转换为例对本发明实施例转换音频发声的方法进行阐述:
当前用户希望听到以孙燕姿的声音演唱原唱歌手为陶喆的歌曲《爱很简单》,首先,音乐APP对歌曲《爱很简单》的音频文件进行音频解析,获得该首歌曲的音轨;其次,从服务器中查找到孙燕姿的声学频谱信息,通过根据查找到的歌手孙燕姿的声学频谱信息对歌曲《爱很简单》的发音音轨进行修改,最终获得以孙燕姿的声音演唱的歌曲《爱很简单》,通过上述方式可以达到将歌曲《爱很简单》由陶喆的声音转化为孙燕姿的声音的效果。
在实际应用中对音轨进行修改的过程耗时很短,对一首10M左右的歌曲进行修改所耗费的时间大概在15s到30s左右,因而通过本发明给出的方法可以很快的到达转换歌曲演唱歌手声音的效果。
本发明实施例提供的一种转换音频发声的方法、服务器以及计算机存储介质,通过获取待转换的音频数据及转换对象,对所述待转换的音频数据进行解析,生成解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息;根据所述转换对象在预设的声学频谱信息数据库中确定出所述转换对象的声学频谱信息,根据所述转换对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。如此,基于目前用户的使用需求而产生的,可以针对一首喜欢的歌曲,再选择一个自己喜欢的歌手,并通过该名歌手的嗓音演唱该首歌曲,从而达到用喜欢的歌手的嗓音演唱其他歌曲的效果,提高了音乐APP的娱乐性,同时给用户带来更好的使用体验。
需要说明的是,以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种转换音频发声的方法,其特征在于,所述方法包括:
获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;
在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待转换的音频数据及转换目标对象之前,所述方法还包括:
获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
3.根据权利要求2所述的方法,其特征在于,所述获取至少一个对象的声学频谱信息,包括:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
4.根据权利要求1所述的方法,其特征在于,所述按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,包括:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
5.一种转换音频发声装置,其特征在于,所述装置包括:
解析模块,用于获取待转换的音频数据及所述待转换音频数据的转换目标对象,对所述待转换的音频数据进行解析,得到解析结果,根据所述解析结果确定出所述待转换音频数据的音轨信息,其中,所述音轨信息至少包含所述待转换音频数据的音色;
转换模块,用于在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息,按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换,确定出转换后的音频数据。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
生成模块,用于获取至少一个转换目标对象的声学频谱信息,将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联,生成声学频谱信息数据库。
7.根据权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
对对象的声音进行采集,对获得的所述对象声音进行数模转换,获得所述对象的数字音频数据,根据所述数字音频数据对所述对象进行解析,获取所述对象的声学频谱信息,其中,所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。
8.根据权利要求6所述的装置,其特征在于,所述转换模块,具体用于:
根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。
9.一种服务器,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至4任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一所述方法的步骤。
CN201710752085.2A 2017-08-28 2017-08-28 一种转换音频发声的方法、服务器及计算机可读存储介质 Pending CN107481735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710752085.2A CN107481735A (zh) 2017-08-28 2017-08-28 一种转换音频发声的方法、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710752085.2A CN107481735A (zh) 2017-08-28 2017-08-28 一种转换音频发声的方法、服务器及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107481735A true CN107481735A (zh) 2017-12-15

Family

ID=60602945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710752085.2A Pending CN107481735A (zh) 2017-08-28 2017-08-28 一种转换音频发声的方法、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107481735A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364658A (zh) * 2018-03-21 2018-08-03 冯键能 虚拟聊天方法及服务端
CN109243477A (zh) * 2018-10-17 2019-01-18 杭州兆华电子有限公司 一种音频转接盒
CN109348274A (zh) * 2018-09-12 2019-02-15 咪咕音乐有限公司 一种直播互动方法、装置及存储介质
CN110062267A (zh) * 2019-05-05 2019-07-26 广州虎牙信息科技有限公司 直播数据处理方法、装置、电子设备及可读存储介质
CN110162660A (zh) * 2019-05-28 2019-08-23 维沃移动通信有限公司 音频处理方法、装置、移动终端及存储介质
CN110170170A (zh) * 2019-05-30 2019-08-27 维沃移动通信有限公司 一种信息显示方法及终端设备
CN110505496A (zh) * 2018-05-16 2019-11-26 腾讯科技(深圳)有限公司 直播控制方法与装置、存储介质及电子装置
TWI685835B (zh) * 2018-10-26 2020-02-21 財團法人資訊工業策進會 有聲播放裝置及其播放方法
WO2021128256A1 (zh) * 2019-12-27 2021-07-01 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN113259701A (zh) * 2021-05-18 2021-08-13 游艺星际(北京)科技有限公司 个性化音色的生成方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN102881283A (zh) * 2011-07-13 2013-01-16 三星电子(中国)研发中心 用于语音处理的方法与***
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103295574A (zh) * 2012-03-02 2013-09-11 盛乐信息技术(上海)有限公司 唱歌语音转换设备及其方法
JP5545935B2 (ja) * 2009-09-04 2014-07-09 国立大学法人 和歌山大学 音声変換装置および音声変換方法
US20150025892A1 (en) * 2012-03-06 2015-01-22 Agency For Science, Technology And Research Method and system for template-based personalized singing synthesis
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息***有限公司 一种声音转换方法及装置
CN107093421A (zh) * 2017-04-20 2017-08-25 深圳易方数码科技股份有限公司 一种语音模拟方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
JP5545935B2 (ja) * 2009-09-04 2014-07-09 国立大学法人 和歌山大学 音声変換装置および音声変換方法
CN102881283A (zh) * 2011-07-13 2013-01-16 三星电子(中国)研发中心 用于语音处理的方法与***
CN103295574A (zh) * 2012-03-02 2013-09-11 盛乐信息技术(上海)有限公司 唱歌语音转换设备及其方法
US20150025892A1 (en) * 2012-03-06 2015-01-22 Agency For Science, Technology And Research Method and system for template-based personalized singing synthesis
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息***有限公司 一种声音转换方法及装置
CN107093421A (zh) * 2017-04-20 2017-08-25 深圳易方数码科技股份有限公司 一种语音模拟方法和装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364658A (zh) * 2018-03-21 2018-08-03 冯键能 虚拟聊天方法及服务端
CN110505496A (zh) * 2018-05-16 2019-11-26 腾讯科技(深圳)有限公司 直播控制方法与装置、存储介质及电子装置
CN109348274A (zh) * 2018-09-12 2019-02-15 咪咕音乐有限公司 一种直播互动方法、装置及存储介质
CN109243477A (zh) * 2018-10-17 2019-01-18 杭州兆华电子有限公司 一种音频转接盒
TWI685835B (zh) * 2018-10-26 2020-02-21 財團法人資訊工業策進會 有聲播放裝置及其播放方法
US11049490B2 (en) 2018-10-26 2021-06-29 Institute For Information Industry Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features
CN110062267A (zh) * 2019-05-05 2019-07-26 广州虎牙信息科技有限公司 直播数据处理方法、装置、电子设备及可读存储介质
CN110162660A (zh) * 2019-05-28 2019-08-23 维沃移动通信有限公司 音频处理方法、装置、移动终端及存储介质
CN110170170A (zh) * 2019-05-30 2019-08-27 维沃移动通信有限公司 一种信息显示方法及终端设备
WO2021128256A1 (zh) * 2019-12-27 2021-07-01 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN113259701A (zh) * 2021-05-18 2021-08-13 游艺星际(北京)科技有限公司 个性化音色的生成方法、装置及电子设备
CN113259701B (zh) * 2021-05-18 2023-01-20 游艺星际(北京)科技有限公司 个性化音色的生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107481735A (zh) 一种转换音频发声的方法、服务器及计算机可读存储介质
CN103959372B (zh) 用于使用呈现高速缓存针对所请求的音符提供音频的***和方法
EP3675122B1 (en) Text-to-speech from media content item snippets
CN102881283B (zh) 用于语音处理的方法与***
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
CN106652997A (zh) 一种音频合成的方法及终端
CN109299318A (zh) 音乐推荐的方法、装置、存储介质和终端设备
EP3759706B1 (en) Method, computer program and system for combining audio signals
CN104040618A (zh) 用于制作更和谐音乐伴奏以及用于将效果链应用于乐曲的***和方法
Zagorski-Thomas The musicology of record production
JP2019219638A (ja) 音楽合成方法及びシステム、端末並びにコンピュータ可読記憶媒体
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
Schneider Perception of timbre and sound color
Davies Works of Music: Approaches to the Ontology of Music from Analytic Philosophy
CN112669811B (zh) 一种歌曲处理方法、装置、电子设备及可读存储介质
CN105895079A (zh) 语音数据的处理方法和装置
CN103425901A (zh) 原创声响数据整理器
CN101370216B (zh) 一种手机音频文件的情绪化处理和播放方法
Einbond Subtractive Synthesis: noise and digital (un) creativity
KR20090023912A (ko) 음악 데이터 처리 시스템
Wang et al. Soundscape: in the view of music
Ornoy et al. Analysis of contemporary violin recordings of 19th century repertoire: Identifying trends and impacts
James et al. Representations of Decay in the Works of Cat Hope
CN107704534A (zh) 一种音频转换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215