CN112151048B - 音视图数据生成以及处理的方法 - Google Patents
音视图数据生成以及处理的方法 Download PDFInfo
- Publication number
- CN112151048B CN112151048B CN201910502799.7A CN201910502799A CN112151048B CN 112151048 B CN112151048 B CN 112151048B CN 201910502799 A CN201910502799 A CN 201910502799A CN 112151048 B CN112151048 B CN 112151048B
- Authority
- CN
- China
- Prior art keywords
- data
- audio
- automatic identification
- image
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 30
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/16—Transforming into a non-visible representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种音视图数据生成方法,它包括:将准音频数据和/或标记数据进行转换,形成相对应的第一编码数据和/或第二编码数据;将所述第一编码数据和/或第二编码数据转换为相对应的第一自动识别标识和/或第二自动识别标识;将所述第一自动识别标识和/或第二自动识别标识以数字水印方式嵌入到目标图片中,形成图音图像。前述的技术方案使得由此获得的图音图像改善了现有音图数据在制作和播放时的种种不便,同时也能节省音视图数据的传输量,节约音视图数据传播的运营成本。
Description
技术领域
本发明涉及一种数据处理技术,具体是一种音视图数据的生成以及处理的方案;属于互联网数据处理技术。
背景技术
音视图数据至少由音频数据、图像数据、文字数据、标记数据、视频数据中的任意两种以上数据以及其他播放控制参数数据集合而成的新兴互联网数据形态。参见申请号分别是20171000267.0、201910004505.2、201910223774.3的中国专利申请,其中披露了音视图数据的构成以及应用等技术方案。
由上述中国专利申请可知:音视图数据中的音图数据主要有两种类型:
第一种类型的音图数据是由一幅静态图片和一段将和该图片一道播放的音频所构成;对于该静态图片,在本发明中统称为图片;而对于该音频,在本发明中统称为图片音频。此外,在音图数据中还设计有被本发明人称之为对准参数的数据;对准参数根据其作用的不同,被分为图片对准参数和音频对准参数。
第二种类型的音图数据是由多幅静态图片和多段与多幅静态图片对应播放的音频所构成;对于这些静态图片,在本发明中也统称为图片;而对于这些音频,在本发明中也统称为图片音频。此外,由于图片和音频都是多个,因此,在音图数据中的对准参数也是多个;对准参数的数量和图片的数量或者音频的数量是对应的;第二种类型音图数据中的对准参数与第一种类型的音图数据一样,也被分为图片对准参数和音频对准参数。
前述的音图数据是一个完整的数据对象,它可以采用现有的任何图片、音频以及信息的数据格式拼合构成;也可以在具体的方案中,由相关的技术人员根据具体的需要将它们重新构成一个全新格式的一体化数据对象。
前述的音图是由至少一幅图片和一段音频所构成。一个音图数据被生成以后,在播放时,音图数据中的图片和音频被分别提取出来,然后按照播放设备默认的播放方式或者携带在音图数据中播放控制参数进行播放。这样,观看者可以在观看到音图数据中的图片的同时,听到音图数据中的音频信息。这是本发明人发明的一种新型数据以及播放这种新型数据的技术方案。这种新型数据以及播放这种新型数据的技术方案,使得人们在进行信息传递以及互动交流时,获得了更为方便有效的新的手段。
然而,由于前述的音图数据是由图片和音频组合而成,在某些实际的使用过程中,可能存在如下一些缺陷:
1、在一些情形下,人们在生成音图数据时,并不方便在获取图像的同时录制相应的音频;例如:在录制语音时,因为录制者自身的嗓音条件不好,会使得录制的语音不清晰;再例如:在制作音图数据时,虽然可以方便地利用便携式智能设备来采集图片(拍照),但由于环境的限制,可能并不方便发出或者播放需要录制的语音或者音乐;等等。
2、如前所述:由于音图数据由图片和音频两者所构成,其中的音频则需要一定的存储空间来容纳,这就使得音图数据因为需要容纳音频数据而整体的多占用一些空间,在互联网传送时也会多占用一些带宽资源,也会多花费一些传输流量。
3、在一些情形下播放音图数据时,音图数据中的语音音频和图片一并播放并不是很方便(例如:观看者正处于一个诸如会议厅这样需要安静的现场环境之中),这样,音图数据中的音频信息则不能为观看者所获取,或者需要采用类似于微信中的那种语音转文字的技术来处理。但这样一方面需要观看者花费更多的操作,另一方面也会因为语音识别技术至今还远未成熟到准确无误地将语音转换为文字的水平,依然不能向观看者呈现准确的信息。
发明内容
本发明的一个目的是提供一种音视图数据的生成方法,借助于该方法,人们可以在制作音视图数据的时候,使用编码数据来替代其中的音频,从而改善现有音图数据在制作和播放时的种种不便。为了将这种新型的音视图数据与现有的音图数据做一个区别,在本发明此后的叙述中,这种新型的音视图数据被称为“图音数据”或者“图音图像”。
本发明另一个目的是提供一种音视图数据的处理方法,借助于该方法,在接收到前述的图音时,可以方便地对其中的各种数据进行处理和变换,做好播放的准备。
本发明第一个目的是采用如下的技术方案实现的:
提供一种音视图数据生成方法,它包括:将准音频数据和/或标记数据进行转换,形成相对应的第一编码数据和/或第二编码数据;将所述第一编码数据和/或第二编码数据转换为相对应的第一自动识别标识和/或第二自动识别标识;将所述第一自动识别标识和/或第二自动识别标识以数字水印方式嵌入到目标图片中,形成图音图像。
本发明前述的技术方案通过将准音频数据和/或标记数据隐写到目标图片的方式,使得由此获得的图音图像改善了现有音图数据在制作和播放时的种种不便,同时也能节省音视图数据的传输量,节约音视图数据传播的运营成本。
本发明另一个目的是采用如下的技术方案实现的:提供一种音视图数据处理方法,它包括:对图音图像进行处理,从中提取第一自动识别标识和/或第二自动识别标识;对所述第一自动识别标识进行识读和解码以获得第一编码数据和/或对所述第二自动识别标识进行识读和解码以获得第二编码数据;对所述第一编码数据进行按照预定的规则进行解析,获得准音频数据;和/或,按照预定的规则对所述第二编码数据进行解析,获得标记复现数据和/或标记播放参数。
借助于上述的技术方案,可以从本发明第一个技术方案形成的图音图像中提取隐写入其中的准音频数据和/或标记数据,为在显示图音图像的同时播放相应的准音频数据和/或标记数据提供数据基础。
以下,将结合各个具体的实施方式,对本发明的技术方案做更为详细的披露。
附图说明
图1本发明具体实施方式中编码装置的原理示意图1;
图2本发明具体实施方式中编码装置的原理示意图2;
图3本发明具体实施方式中编码装置的原理示意图3;
图4本发明具体实施方式中解码装置的原理示意图1;
图5本发明具体实施方式中解码装置的原理示意图2;
图6本发明具体实施方式中解码装置的原理示意图3。
具体的实施方式
在详细介绍本发明的各个具体实施方式之前,为了方便此后的阅读,先对本发明涉及的一些数据对象和术语做一个具体的说明。本发明人在对本发明的各类技术方案进行研究和开发的时候,对本发明涉及的各个数据对象做了***性的梳理,由此建立和定义了如下的若干数据对象:
1.图音图像或者图音数据:是指采用包括水印技术在内的隐写技术,将准音频数据、音频播放参数等数据内嵌到目标图片后得到的电子图片。
2.准音频数据:至少由音频内容数据和/或音频播放参数所构成的对象;其中,音频内容数据可以是具有一定格式信息、可由语音合成工具生成智能语音的符号序列;也可以是音频内容链接地址,访问该链接地址则可以获得前述的具有一定格式信息、可由语音合成工具生成智能语音的符号序列;或者,获得可以直接播放的音频内容。
3.可由语音合成工具生成智能语音的符号序列:是指包含有人类自然语言文字以及特定标记符号所组成的、可以用来采用人工智能技术转换为语音或者语音信号的符号序列。
4.音频播放参数:是指播放设备用来控制音频播放的各种参数。
5.标记复现数据:是指在播放设备显示图音图像、播放音频时,可以用来按照一定的规则或者方式一并显示特定标记的数据对象。
6.标记播放参数:用以控制播放设备显示标记复现数据的各种参数。
本发明的第1类具体的实施方式,主要是生成图音图像的技术方案。它主要包括了如下的操作:
先将准音频数据进行转换,形成相对应的第一编码数据。
这里所谓的准音频数据,它不是真正的音频数据,而是用于生成音频内容的、可由语音合成工具生成智能语音的符号序列;也可以是用于获取这些可由语音合成工具生成智能语音的符号序列的链接地址;还可以是用于直接获取音频内容的链接地址;总之,准音频数据不是音频内容本身,而主要是用来获得或者转换为音频内容的间接型的音频内容。这样,准音频数据相对于图音图像而言,其数据量很小,可以方便地通过嵌入的方式隐写到一幅目标图片里去。
前述的准音频数据需要按照一个预定的规则或者格式进行编码,形成第一编码数据,以便未来在播放图音图像时,可以对该第一编码数据按照同样的规则或者格式进行解码,将这些准音频数据还原回来。
在获得了前述的第一编码数据以后,则需要进一步对该第一编码数据转换,获得第一自动识别标识。这里的第一自动识别标识主要是指诸如条形码、二维码以及特定的编码图案。
最后,将前述的第一自动识别标识作为数字水印图案,采用数字水印方式隐写到目标图片之中,最终获得携带有准音频数据的图音图像。数字水印方式隐写,实际上是利用人眼在观看图像时的掩蔽效应,将数据隐藏在图片数据中。人们在观看一幅隐写有数据的图像中,由于人眼的掩蔽效应,隐写的数据并不能为人类观察到。
当图音图像被显示的时候,其本身的图案与前述的目标图片的图案在观看者看来并没有什么区别,但由于其中隐写了含有准音频数据的第一自动识别标识;显示设备就可以利用特定的软件或者解码电路(芯片)对这些第一自动标识进行识读和解码,获得准音频数据。如前所述,这些准音频数据中包含有可由语音合成工具生成智能语音的符号序列、用于获取可由语音合成工具生成智能语音的符号序列的链接地址或者用于直接获取音频内容的链接地址;在获得了它们之后,就可以采用如下的方式,获得相应的音频内容:
对于可由语音合成工具生成智能语音的符号序列,则可以进一步利用语音合成工具来将前述的这些符号序列转换成语音音频,这个语音音频便作为音频内容与前述的图音图像一并播放。
对于用于获取可由语音合成工具生成智能语音的符号序列的链接地址,则可以通过访问该链接地址来获得相对应的可由语音合成工具生成智能语音的符号序列,然后,再利用语音合成工具来将这些符号序列转换成语音音频,这个语音音频便作为音频内容与前述的图音图像一并播放。
对于用于直接获取音频内容的链接地址,则直接访问该链接地址,这样便直接获得相应的音频内容,这些音频内容可以与前述的图音图像一并播放。
在一些情形下,一个音视图节目中,需要包含一些标记数据,这些标记数据主要是供节目的制作者在制作一个音视图节目时标记其希望强调或者引起观看者重点关注的内容。这些标记数据往往用来描述目标图片上的一些标记点、线、轨迹的参数。
为此,在本发明中第1类具体的实施方式中,这些标记数据可以被转换为第二编码数据;在获得该第二编码数据以后,可以将该第二编码数据与前述第一编码数据合并在一起,转换为第一自动识别标识,以与第一编码数据一道隐写到目标图片中。
当然,也可以将前述的第二编码数据独立地转换为第二自动识别标识,并且无论是否有无第一自动识别标识,都可以独立地将该第二自动标识隐写到目标图片中。这样做的目的在于:有时,在显示图音图像时,可能不一定需要同时播放音频内容,而只需要显示标记图案。因此,具有标记数据的第二自动标识被独立地生成和隐写入目标图片中是有必要的。
本发明上述第1类具体实施方式由于是以数字水印的方式将第一编码数据和/或第二编码数据隐写在目标图片中,这样,第一编码数据和/或第二编码数据的写入而使得图音图像的数据量与目标图片的数据量基本保持一致;
另一方面,由于准音频数据中的数据主要是可由语音合成工具生成智能语音的符号序列、用于获取可由语音合成工具生成智能语音的符号序列的链接地址或者用于直接获取音频内容的链接地址,利用这些准音频数据,可以在播放时要么采用人工智能的语音合成方式来对这些直接或者间接获得的符号序列进行处理而获得音频内容,要么可以直接通过方为相应的链接地址来获得相应的音频内容,这样就可以在不增加数据量的基础上,同样能获得与音图数据相同的播放效果,即:图片和音频一同播放。此外,第二编码数据的写入也同样能使得图音图像的播放能和音图节目的播放一样具有标记及其轨迹描画的效果;并且,这一切的实现在数据量的占用上,图音图像比音图数据更加节省空间和传输的流量。以一幅图片对应的音频长度为30秒计算,在图片内容完全一致的前提下,图音图像所需的数据量至少比相应的音图节目少150kB字节,对于手机这样的播放工具而言,这样能节省的数据量占音图数据的20%以上。
再一个方面,由于可由语音合成工具生成智能语音的符号序列的使用,可以保证语音信息和所谓的符号序列中的文字内容完全一致,从而避免了采用语音识别方式从自然语音中转换文字的准确性差的问题。
在一些情况下,为了应用上的方便,第一编码数据以及第二编码数据中都有可能会包含一种或多种不同应用下的数据类型,总体上可能有如下的四组合关系:
第一编码数据和第二编码数据中各自只有一种数据类型;第一编码数据中有一种数据类型,第二编码数据中有多种数据类型;第一编码数据中有多种数据类型,第二编码数据中有一种数据类型;第一编码数据中有多种数据类型,第二编码数据中有多种数据类型。
为此,本发明第2类具体实施方式在本发明第1类具体实施方式的基础上,进一步提供了可以将第一编码数据根据具体的应用需要,转换为一个或者多个第一自动识别标识的方案;同时,还提供了可以将第二编码数据根据具体的应用需要,转换为一个或者多个第二自动识别标识的方案。
这样做的目的在于在播放图音图像的时候,播放设备可以选择多个第一自动识别标识中的部分或者全部第一自动识别标识进行识别和解码;例如:基于权限的设置,播放设备可以在5个第一自动识别标识中选择其中的2个权限许可的第一自动识别标识来识别和解码。再例如:当播放设备被用户设置为只播放直接音频内容时,播放设备只识别那些含有用于直接获取音频内容的链接地址的第一自动识别标识,而不会对其他的第一自动识别标识进行处理。
同理,播放设备也可以选择多个第二自动识别标识中的部分或者全部第二自动识别标识进行识别和解码。例如:在同一个图音图像的不同位置会存在多个标记内容,这些标记内容所对应的标记数据则也可能被转换为多个对应的第二自动识别标识,在播放图音图像的不同阶段,这些多个标记内容会分别被复现出来;但是,在某一特定的时刻,播放设备只是从多个第二自动识别标识中选择该对应时段相应的第二自动识别标识来进行识别和解码处理。
总之,本发明第2类具体实施方式所提供的方案使得对于图音图像中的数据的利用更加灵活、便利,更加适用于丰富多彩的播放应用。
此外,在一些情形下,基于自动识别标识的选用,有时一个自动识别标识并没有足够的数据空间来容纳全部的第一编码数据和或第二编码数据,因此也有必要使用多个自动识别标识来容纳它们。但是,这样做的前提是:目标图片有足够大水印容纳空间。
在第一编码数据中,除了音频内容数据之外,还可以包括音频播放参数;音频播放参数主要是用来通知播放设备如何来播放音频内容。
例如:当音频内容数据是可由语音合成工具生成智能语音的符号序列时,前述的音频播放参数可以包含以何种语速、语音模式(男、女、童声等)以及是否有背景音等的信息,播放设备则可以根据这些参数来调用相应的软、硬件单元来做具体的实现。
再例如:当音频内容数据是音频内容链接地址时,前述的音频播放参数可以包含以播放速率、音频类型等控制参数,播放设备可以根据这样的参数来控制音频内容的播放速度,以及播放设备在音频内容链接地址所指向的多个音频内容中,找到并下载与相应音频类型参数匹配的那个音频内容。
又例如:对于不同的标记数据,在复现它们的时候,可能会有多种不同的复现精度、复现速度和色彩。
为此,本发明第3类具体实施方式在本发明第1、2类具体实施方式的基础上提供了如下的方案:
将音频内容数据和/或音频播放参数,都作为准音频数据的内容,按照预定的协议一体编码为第一编码数据;
另一方面,对于标记数据,可以做多种不同频率下的采样,以获得相对应的标记复现数据和/或标记播放参数;然后对这些标复现数据和/或标记播放参数按照预定的协议一体编码为第二编码数据。
如此类推,可以在第一编码数据和第二编码数据,除了可以分别容放音频内容或和标记数据外,还可以分别一体容放与音频内容和标记数据播放、传输、解码、解密等相关的参数或者数据,使得基于本发明第3类具体实施方式,可以满足多种图音图像播放的应用需求。
本发明第4类具体实施方式是在前述第1、2、3类具体实施方式的基础上,提供了对于其中的关键的准音频数据和/或标记数据进行加密的技术方案。加密的意义不言而喻,无需赘言。在本发明第4类具体实施方式中,可以根据相应的数据内容、类型分别加密,也可以分别采用不同的方式进行加密。这样使得相应的被加密数据之间被相互隔离,具有更高的安全性。
本发明第5类具体实施方式是前述本发明第1类具体实施方式采用硬件实现的一类具体技术方案。参见图1,在本发明第5类具体实施方式中,编码装置2(具体可以是:集成电路、独立芯片或者固件等)中包括:编码单元201、自动识别标识生成单元202和隐写单元203;其中:编码单元201将输入的准音频数据101编码为第一编码数据;该第一编码数据被送到自动识别标识生成单元202,由该自动识别标识生成单元202将该第一编码数据变换为自动识别符号图案302,隐写单元203将采用数字水印方式,将该自动识别符号图案302隐写到目标图片301中,最后获得图音图像401。
参见图2,在本发明第6类具体实施方式中,编码装置2的编码单元201除了可以对输入的准音频数据101编码外,还对标记数据102进行编码,生成第一编码数据。同理,该第一编码数据被送到自动识别标识生成单元202,由该自动识别标识生成单元202将该第一编码数据变换为自动识别符号图案302,隐写单元203将采用数字水印方式,将该自动识别符号图案302隐写到目标图片301中,最后获得图音图像401。
类似于本发明中第5、6两类具体的实施方式,在本发明第7类具体的实施方式中,编码装置2的编码单元201可以将准音频数据101和标记数据102转换为第一编码数据;也可以将标记数据102单独转换为第二编码数据;自动识别标识生成单元202在获得编码单元201输出的第一编码数据和/或第二编码数据时,则将该第一编码数据和/或第二编码数据对应地转换为自动识别符号图案302;参见图1和图2,当自动识别标识生成单元202获得第一编码数据时,自动识别标识生成单元202生成的是第一编码数据对应的自动识别符号图案302;当自动识别标识生成单元202获得第二编码数据时,自动识别标识生成单元202生成的则是第二编码数据对应的自动识别符号图案302;即,任何编码数据都是由当自动识别标识生成单元202转换为相对应的自动识别符号图案302。
本发明第8类具体的实施方式适用于这样的情形:编码单元201单独地将标记数据102编码为第二编码数据,自动识别标识生成单元202则独立地将该第二编码数据转换为第二自动识别符号图案302;随后,无论是否有第一编码数据对应的自动识别符号图案302,隐写单元203都会将前述第二编码数据对应的自动识别符号图案302独立地隐写到目标图片中。
参见图3,在本发明第9类具体实施方式中,编码装置2的编码单元201的前面还设置有加密单元201a。加密单元201a的作用是在编码单元201将准音频数据101和/或标记数据102转换为第一编码数据和/或第二编码数据之前,先根据用户的设定对它们进行加密处理,以在必要时提高准音频数据101和/或标记数据102的安全。实际上,加密单元201a也可以设置在编码单元201和自动识别标识生成单元202之间,这样的设置实际上是对第一编码数据和/或第二编码数据整体加密;而把加密单元201a设置在编码单元201之前,则可以对准音频数据101和/或标记数据102做更为精细地加密处理。例如:可以根据准音频数据102的具体类型来选择相应的加密方式;再例如:可以根据标记数据102内部的不同数据属性分别进行加密处理。
本发明上述的各类具体的实施方式,主要是提供了新型音视图数据——图音图像生成的技术方案。除此之外,本发明还通过如下的各类具体实施方式提供了对图音图像进行解码的各种技术方案。
本发明第10类具体的实施方式是对前述图音图像进行解码处理的基本技术方案。其中,对于待解码的图音图像,首先使用数字水印技术从图音图像中将隐写的第一自动识别标识和/或第二自动识别标识提取出来。
众所周知:采用数字水印技术隐写数据到一幅图像中,或者反过来从图像中将隐写数据恢复出来的时候,需要对数据采取诸如傅里叶变换、小波变换和它们的反变换等方面的处理,还会对变换的结果进行量化处理,这就使得最后在恢复数据的阶段中,提取出来的数据通常会因为前述的原因产生一些变化。因此,在本发明前述各类具体的实施方式中,隐写到目标图像里的数据需要被事先编码并变换成一种可自动识别的标识图案。
这样做的目的在于:由于自动识别标识图案本身具有确定的图案结构规则、编码规则、容错和校验规则或者算法,即使在前述各种变换、反变换以及量化过程数据会发生一些改变(主要体现在隐写的自动识别标识的图案畸变),也可以确保把隐写在图音图像中的数据完整并且准确地恢复出来。
因此,在本发明第10类具体的实施方式中,基于前述已经提取出来的第一自动识别标识和/或第二自动识别标识,采用与第一自动识别标识和/或第二自动识别标识相应的识读和解码规则对它们进行识读和解码,即可以从第一自动识别标识获得第一编码数据,从第二自动识别标识获得第二编码数据。基于不同的应用需要,在一些图音图像中可能只存在第一自动识别标识,而在另一些图音图像中可能只隐写了第二自动识别标识,还有一种可能就是在同一个图音图像中可能同时隐写了第一自动识别标识和第二自动识别标识。无论如何,这些第一自动识别标识和/或第二自动识别标识都采用前述的方式进行识读和解码。在本发明第10类具体的实施方式中,第一编码数据由第一自动识别标识承载,第二自动识别标识则承载第二编码数据。
参见此前的各类具体的实施方式可知:对第一自动识别标识和/或第二自动识别标识进行识读和解码后所得到是第一编码数据和/或第二编码数据。因此,还需要对前述经过识读和解码后所得到第一编码数据进行解析处理,以获得被编码于其中的准音频数据;同样,也需要对识读和解码后所得到第一编码数据进行解析处理以获得标记复现数据和/或标记播放参数。
上述本发明第10类具体的实施方式主要是将通过前述各类具体实施方式隐写在图音图像之中的准音频数据和/或标记复现数据等信息提取出来的技术方案。在获得前述提取出来的准音频数据和/或标记复现数据以及标记播放参数等数据之后,还可能需要将它们在播放设备上播放出来。
在本发明第11类具体的实施方式中,首先需要对前述获得的准音频数据进行处理,以获得音频内容数据和/或音频播放参数;其中的音频内容数据可以有多种形式,例如:它可以是一个符号序列,这个符号序列可以由语音合成工具生成智能语音;它也可以是一个获得可由语音合成工具生成智能语音符号序列的内容链接地址;它还可以是一个用于获得音频内容的链接地址。针对各种不同形式的音频内容数据,可以分别进行如下相应的播放操作:
当音频内容数据是可由语音合成工具生成智能语音的符号序列时,播放则根据该音频内容数据和前述的音频播放参数,显示所述图音图像,并将可由语音合成工具生成智能语音的符号序列转换为音频内容后播出。
当前述的音频内容数据是一个获得可由语音合成工具生成智能语音符号序列的内容链接地址时,播放设备首先需要根据这个内容链接地址获得可由语音合成工具生成智能语音的符号序列和前述的音频播放参数,此后的操作,与上述的情形是一样的,显示所述图音图像,并将可由语音合成工具生成智能语音的符号序列转换为音频内容后播出。
当所述音频内容数据是一个音频内容链接地址时,则需要基于该音频链接地址将获得对应的音频内容,显示图音图像,并根据音频播放参数来播放获得的音频内容。与前面两种情形不同,在这种情形下,链接地址所指向的不是一个可由语音合成工具生成智能语音符号序列,而是事先录制或者生成好的音频内容。因此,在获得它以后,就可以直接播放。
需要说明的是:上述的任何情形下,音频播放参数可以是如下的一种或者多种:用于控制音频播出与图音图像显示的时间关系的参数、用于控制音频播出的速率、断续、语音类别的参数,还可以是任何用于具体应用场景中特效控制的参数等。当然,前述的音频播放参数也可以没有,在这种情况下,播放设备可以按照用户预先设定的参数或默认的参数来播放相应的音频内容。有时,在一些特定的情况下,音频数据内容中可能只存在音频播放参数,这通常涉及只是复现标记内容的情形;这时,音频播放参数则用来控制与复现标记内容的***音频的播放。
在一些情形下,前述各类具体实施方式中的第二编码数据会被承载到第一自动识别标识之中。对应地,在本发明第12类具体的实施方式中,在对第一自动识别标识进行识读和解码时,可以获得第二编码数据。
如前所述,第二编码数据中主要编码承载了标记复现数据和/或标记播放参数。标记复现数据实际上是一些用于在显示本发明的图音图像期间,按照标记播放参数在图音图像上复现出一些点、线的标记或轨迹的数据。例如:一个教师利用带有触摸屏的显示设备解读一幅图音图像的内容时,可能会在触摸屏上圈圈点点地画出一些标记图案来,这些标记图案实际上是由一系列与图音图像相关的坐标数据所构成。带有触摸屏的设备当然还可以将这些标记图案上各个坐标点被输入的时间顺序与间隔信息记录下来,以便在复现这些标记的坐标点时按照记录下来的时间顺序与间隔信息来再现这些坐标点,使得这些标记本身在播放设备上复现的时候就像当初那个教师圈圈点点的一样。
前述的时间顺序与间隔信息实际上是标记播放参数的一类;除了这些,标记播放参数还可以包括标记的颜色、坐标点的尺寸(像素点数)、标记轨迹的粗细、闪烁等控制参数。总之,在第二编码数据中,可以单独地存放标记复现数据或者单独存放标记播放参数,也可以两者一起存放。
不过,在第二编码数据中单独地存放标记复现数据比较容易理解,但是,为什么可以单独地存放标记播放参数就显得不是太容易理解了。实际上,在一些引用软件中,标记复现数据可以采用模板的方式存在,而当播放设备获得相关的模板编号就能够自动地生成标记复现数据,而不需要把它们存放在第二编码数据中。既然标记复现数据可以模板化,自然就可以在第二编码数据中单独地存放标记播放参数,以个性化地复现模板化的标记复现数据。
在获得第二编码数据之后,本发明第12类具体的实施方式还要按照预定的规则对第二编码数据进行解析,得到存放于其中的标记复现数据和/或标记播放参数;然后,基于这些标记复现数据和/或标记播放参数,在播放设备上显示与这些标记复现数据对应的标记内容。
在一些具体的应用场景中,基于特定的目的,可能会在一个目标图片中隐写多个第一自动识别标识、多个第二自动识别标识。例如:用户有可能会在一个群发的图音图像中针对不同的接收者播放或者显现不同的音频、标记以及文字内容。因此,可以利用隐写多个第一自动识别标识和第二自动识别标识来告诉接收方播放与该接收方相应的第一自动识别标识和或第二自动识别标识中编码的内容。
为此,在本发明第13类具体的实施方式中需要针对前述的情形做如下的操作:
在对图音图像进行处理时,当检测到该图音图像中嵌入的第一自动识别标识和/或第二自动识别标识为多个时,则对多个第一自动识别标识和/或所述第二自动识别标识分别进行识读和解码。
对应于本发明第4类有关对准音频数据和/或标记数据进行加密的技术方案,在本发明第14类具体的实施方式中还进一步包括:在获得准音频数据和/或所述标记数据时,对该准音频数据和/或标记数据进行解密的处理。
本发明第15类具体实施方式是前述本发明第10类具体实施方式采用硬件实现的一类具体技术方案。参见图4,在本发明第15类具体实施方式中,解码装置5(具体可以是:集成电路、独立芯片或者固件等)中包括:检测提取单元501、识读解码单元502和编码解析单元503;其中:检测提取单元501对图音图像401进行检测,从中提取出自动识别标识图案601。
该自动识别标识图案601被送到识读解码单元502进行识读和解码后,得到第一编码数据(图中未示);接下来,第一编码数据被送到编码解析单元503进行解析,最终获得准音频数据101。准音频数据101将会在后续的应用中被使用和/或被存储。
参见图2,在本发明第16类具体实施方式中,解码装置5的检测提取单元501在对图音图像401进行检测时,除了可以提取出第一自动识别标识之外,还可以提取出第二自动识别标识(只要图音图像中存在);此外,对于第一自动识别标识以及第二自动识别标识,在本发明第16类具体的实施方式在中,都可以由检测提取单元501分别提取出来,只要它们在图音图像401中存在。
与第一自动识别标识一样,第二自动识别标识也会被送到识读解码单元502进行识读和解码,从而获得第二编码数据(图中未示)。第二编码数据则进一步被送到编码解析单元503中,被解析处理后得到标记数据102。
由此可见,本发明第16类具体实施方式实际上是本发明第15类具体实施方式所披露的技术方案的完善,它既可以提取第一自动识别标识并对其识读和解码,也可以提取第二自动识别标识并对其进行识读和解码;然后再分别基于对前面操作所获得的编码数据进行解析操作,分别获得准音频数据101和标记数据102。
当然,有的时候,用户会将标记数据和准音频数据都放在第一自动识别标识中承载,所以在本发明第16类具体的实施方式中也包括由识读解码单元502在对第一自动识别标识进行解码后同时获得第一编码数据和第二编码数据的情形,在这种情形下,编码解析单元503会对第一编码数据和第二编码数据分别进行解析,获得相应的准音频数据101和标记数据102。
类似于本发明中第15、16两类具体的实施方式,并且对应于本发明第9类的具体实施方式,在本发明第17类具体的实施方式中,在识读解码单元502和编码解析单元503之间,增加了一个解密单元503a,这与本发明第9类具体实施方式中在编码装置中设置加密单元相对应。显然,该解密单元503a是对经过加密单元加密的第一编码数据和/或第二编码数据进行解密。
Claims (9)
1.一种音视图数据生成方法,包括:
将准音频数据和/或标记数据进行转换,形成相对应的第一编码数据和/或第二编码数据;
将所述第一编码数据和/或第二编码数据转换为相对应的第一自动识别标识和/或第二自动识别标识;
其中,所述准音频数据对应所述第一编码数据,所述标记数据对应所述第二编码数据,所述第一编码数据转换为相对应的第一自动识别标识,所述第二编码数据转换为相对应的第二自动识别标识;
将所述第一自动识别标识和/或第二自动识别标识以数字水印方式嵌入到目标图片中,形成图音图像。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一编码数据和/或第二编码数据转换为相对应的第一自动识别标识和/或第二自动识别标识具体包括:
将所述第一编码数据转换为一个以上第一自动识别标识;
和/或
将所述第二编码数据转换为一个以上第二自动识别标识。
3.根据权利要求1所述的方法,其特征在于,所述形成相对应的第一编码数据和/或第二编码数据具体包括:
将音频内容数据和/或音频播放参数按照预定的协议一体编码为第一编码数据;
和/或
按照预定的频率对采集到的标记数据进行采样,以获得标记复现数据;
将所述标记复现数据和/或标记播放参数按照预定的协议一体编码为第二编码数据。
4.根据权利要求1或2或3所述的方法,其特征在于:
在将准音频数据和/或标记数据进行转换之前,还对所述准音频数据和/或标记数据,基于数据的类型和/或种类,分别加密和/或采用多种的方式进行加密处理。
5.一种音视图数据处理方法,包括:
对图音图像进行处理,从中提取第一自动识别标识和/或第二自动识别标识;
对所述第一自动识别标识进行识读和解码以获得第一编码数据和/或对所述第二自动识别标识进行识读和解码以获得第二编码数据;
对所述第一编码数据进行按照预定的规则进行解析,获得准音频数据;和/或,按照预定的规则对所述第二编码数据进行解析,获得标记数据。
6.根据权利要求5所述的方法,其特征在于,还包括:
对所述准音频数据进行处理,以获得音频内容数据和/或音频播放参数;
当所述音频内容数据是可由语音合成工具生成智能语音的符号序列时,根据所述音频内容数据和/或所述音频播放参数,显示所述图音图像,并将所述可由语音合成工具生成智能语音的符号序列转换为音频内容后播出;
或者
当所述音频内容数据是内容链接地址时,根据所述内容链接地址获得可由语音合成工具生成智能语音的符号序列和/或所述音频播放参数,显示所述图音图像,并将所述可由语音合成工具生成智能语音的符号序列转换为音频内容后播出;
或者
当所述音频内容数据是音频内容链接地址时,根据所述音频播放参数,显示所述图音图像,并基于所述音频内容链接地址将获得并播出与之对应的音频内容。
7.根据权利要求5或6所述的方法,其特征在于,还包括:
对所述第一自动识别标识进行识读和解码以获得第二编码数据;
按照预定的规则对所述第二编码数据进行解析,获得标记数据;
基于所述标记数据中的标记复现数据和/或标记播放参数显示与所述标记复现数据对应的标记内容。
8.根据权利要求5所述的方法,其特征在于,还包括:
所述对图音图像进行处理,当检测到所述图音图像中嵌入的所述第一自动识别标识和/或所述第二自动识别标识为多个时,则对多个所述第一自动识别标识和/或多个所述第二自动识别标识分别进行识读和解码。
9.根据权利要求5或6所述的方法,其特征在于:
在获得所述准音频数据和/或所述标记数据时,还对所述准音频数据和/或标记数据进行解密处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910502799.7A CN112151048B (zh) | 2019-06-11 | 2019-06-11 | 音视图数据生成以及处理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910502799.7A CN112151048B (zh) | 2019-06-11 | 2019-06-11 | 音视图数据生成以及处理的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151048A CN112151048A (zh) | 2020-12-29 |
CN112151048B true CN112151048B (zh) | 2024-04-02 |
Family
ID=73868308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910502799.7A Active CN112151048B (zh) | 2019-06-11 | 2019-06-11 | 音视图数据生成以及处理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151048B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863481B (zh) * | 2021-02-27 | 2023-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频生成方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2745296Y (zh) * | 2004-06-01 | 2005-12-07 | 深圳矽感科技有限公司 | 能生成语音条码相片的嵌入式数码照相设备 |
CN1918512A (zh) * | 2003-12-19 | 2007-02-21 | 创新科技有限公司 | 具有音频解码和编码的数字静态照相机、可打印音频格式和方法 |
CN104916298A (zh) * | 2015-05-28 | 2015-09-16 | 努比亚技术有限公司 | 编解码方法、编解码装置、电子设备及有声图片生成方法 |
CN106022011A (zh) * | 2016-05-30 | 2016-10-12 | 合欢森林网络科技(北京)有限公司 | 基于图像的保密信息传播方法、装置和*** |
CN107295284A (zh) * | 2017-08-03 | 2017-10-24 | 浙江大学 | 一种由音频和图片组成的视频文件的生成和检索播放方法、装置 |
CN109788161A (zh) * | 2018-12-18 | 2019-05-21 | 张亦茹 | 一种隐藏语音数据的图像处理方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475092B2 (en) * | 2004-11-29 | 2009-01-06 | Rothschild Trust Holdings, Llc | System and method for embedding symbology in digital images and using the symbology to organize and control the digital images |
KR100901142B1 (ko) * | 2005-08-04 | 2009-06-04 | 니폰 덴신 덴와 가부시끼가이샤 | 전자 워터마크 검출방법, 전자 워터마크 검출장치, 및 프로그램 |
-
2019
- 2019-06-11 CN CN201910502799.7A patent/CN112151048B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1918512A (zh) * | 2003-12-19 | 2007-02-21 | 创新科技有限公司 | 具有音频解码和编码的数字静态照相机、可打印音频格式和方法 |
CN2745296Y (zh) * | 2004-06-01 | 2005-12-07 | 深圳矽感科技有限公司 | 能生成语音条码相片的嵌入式数码照相设备 |
CN104916298A (zh) * | 2015-05-28 | 2015-09-16 | 努比亚技术有限公司 | 编解码方法、编解码装置、电子设备及有声图片生成方法 |
CN106022011A (zh) * | 2016-05-30 | 2016-10-12 | 合欢森林网络科技(北京)有限公司 | 基于图像的保密信息传播方法、装置和*** |
CN107295284A (zh) * | 2017-08-03 | 2017-10-24 | 浙江大学 | 一种由音频和图片组成的视频文件的生成和检索播放方法、装置 |
CN109788161A (zh) * | 2018-12-18 | 2019-05-21 | 张亦茹 | 一种隐藏语音数据的图像处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112151048A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101255427B1 (ko) | 스마트 슬레이트 | |
US9009482B2 (en) | Forensic marking using a common customization function | |
CN105612743A (zh) | 编码的媒体的音频视频回放同步 | |
KR20150057591A (ko) | 동영상파일에 대한 자막데이터 생성방법 및 장치 | |
WO2020244474A1 (zh) | 视频水印添加、提取的方法、装置和设备 | |
WO2016069016A1 (en) | Object-based watermarking | |
CN113257259A (zh) | 基于神经网络的安全音频水印加注 | |
KR100828479B1 (ko) | 전자기기에서 이미지 파일에 추가 정보 삽입 장치 및 방법 | |
CN104065908A (zh) | 用于创建和再现生动图片文件的设备和方法 | |
CN112151048B (zh) | 音视图数据生成以及处理的方法 | |
CN117596433B (zh) | 一种基于时间轴微调的国际中文教学视听课件编辑*** | |
JP4087537B2 (ja) | データ処理装置及びデータ記録媒体 | |
JP2010526514A (ja) | デジタルシネマのための映画ベース捜査データ | |
CN102158768B (zh) | 基于mp4文件封装格式的视频认证水印嵌入和提取方法 | |
US20200151917A1 (en) | Image reproduction device, information processing device, image reproduction method, and data structure of image data | |
CN108550369A (zh) | 一种可变长度的全景声信号编解码方法 | |
CN102123327B (zh) | 基于流媒体非关键帧的数字水印嵌入和提取的方法 | |
KR101018781B1 (ko) | 증강 현실을 이용하여 부가 컨텐츠를 제공하는 방법 및 그 시스템 | |
CN102577413B (zh) | 用于向视频内容添加语音内容的方法及实现该方法的设备 | |
CN106792219B (zh) | 一种直播回看的方法及装置 | |
Suzuki et al. | AnnoTone: Record-time audio watermarking for context-aware video editing | |
KR100670443B1 (ko) | 음악/이미지 동조용 데이터 파일이 기록된 컴퓨터로 읽을수 있는 기록매체 및 이미지 데이터 샘플을 오디오 파일에삽입하는 방법 | |
KR102150639B1 (ko) | 디지털 데이터의 무결성을 검증할 수 있는 장치 및 디지털 데이터의 무결성을 검증할 수 있는 방법 | |
Kondasinghe | A System to Preserve Metadata using Steganography | |
EP3598742B1 (en) | Recording device and recording method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |