CN105283916A

CN105283916A - 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序

Info

Publication number: CN105283916A
Application number: CN201380077322.XA
Authority: CN
Inventors: 中村匡伸; 森田真弘
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-06-11
Filing date: 2013-06-11
Publication date: 2016-01-27
Anticipated expiration: 2033-06-11
Also published as: WO2014199450A1; US20160099003A1; US9881623B2; JP6203258B2; JPWO2014199450A1; CN105283916B

Abstract

本发明的电子水印嵌入装置具备：合成声音生成部，其按照所输入的文本，输出合成声音和合成声音所包含的音素的时刻信息；推定部，其推定在上述所输入的文本中是否包含潜在风险表达，输出被推定为包含上述潜在风险表达的潜在风险区间；嵌入控制部，其通过使上述潜在风险区间与上述时刻信息相对应，来确定并输出上述合成声音中的电子水印的嵌入时刻；以及嵌入部，其对上述合成声音，在由上述合成声音的上述嵌入时刻指定的时刻的特定的频带嵌入电子水印。

Description

电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序

技术领域

本发明的实施方式涉及电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序。

背景技术

用近年的声音信号处理技术可以合成各种声音，例如通过合成后的声音，产生了使用熟人声音的假冒和/或名人声音的非法利用等危险性。另外，由于能够容易地生成与他人相似的声音(相似声)，未来也无法否定使用熟人声音的假冒欺诈和/或非法利用名人声音的名誉损害等犯罪行为增加的可能性。为了防止这些犯罪于未然，开发了通过在合成音嵌入电子水印来与真人发声区别、检测合成音的非法利用的技术。

专利文献1：日本专利第3812848号公报

专利文献2：日本特开平11-85766号公报

另外，在使用声音合成技术作成相似声的媒体内容中包含以歧视用语和/或猥亵表达为代表的禁止播放表达或者联想到犯罪的表达等的情况下，若误使用该内容，则有可能发展为相似声本人的信用问题。因而，在可以生成这样的合成声音的装置中，需要在包含禁止播放用语等的情况下边保持声音的品质边嵌入能够高精度地检测的电子水印的功能，但是并未研究出有效的方法。

发明内容

本发明的实施方式是鉴于上述而提出的，其目的在于提供可以抑制声音的品质降低并且嵌入检测精度高的电子水印的电子水印嵌入装置。

为了解决上述问题，达到目的，本发明的实施方式具备：合成声音生成部，其按照所输入的文本，输出合成声音和合成声音所包含的音素的时刻信息；推定部，其推定在上述所输入的文本中是否包含潜在风险表达，输出被推定为包含上述潜在风险表达的潜在风险区间；嵌入控制部，其通过使上述潜在风险区间与上述时刻信息相对应，来确定并输出上述合成声音中的电子水印的嵌入时刻；以及嵌入部，其对上述合成声音，在由上述合成声音的上述嵌入时刻指定的时刻的特定的频带嵌入电子水印。

附图说明

图1是表示第1实施方式的电子水印嵌入装置的功能构成的方框图。

图2是表示第1实施方式的加入水印声音生成部的详细构成的方框图。

图3是说明第1实施方式的加入水印声音生成部中的水印的嵌入方法的图。

图4是表示第2实施方式的电子水印嵌入装置的功能构成的方框图。

图5是表示第3实施方式的电子水印嵌入装置的功能构成的方框图。

图6是表示第4实施方式的电子水印嵌入装置的功能构成的方框图。

图7是表示各实施方式的电子水印嵌入装置的硬件构成的方框图。

具体实施方式

(第1实施方式)

以下，参照附图说明电子水印嵌入装置的实施方式。图1是表示电子水印嵌入装置的功能构成的方框图。如图1所示，电子水印嵌入装置1具备推定部101、合成声音生成部102、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置1输入包含文字信息的输入文本10，输出嵌入了电子水印的合成声音17。推定部101从外部取得输入文本10。以下，所谓“潜在风险区间”，定义为使用“潜在风险表达”的声音区间，将满足下述的单词、表达、语境定义为“潜在风险表达”。

·以歧视用语和/或猥亵表达为代表的不适于播放的单词、表达、语境

·联想到假冒欺诈等犯罪和/或其计划的单词、表达、语境

·有可能与他人的名誉损害有关的单词、表达、语境

推定部101根据输入文本10判定潜在风险区间，确定该区间的危险度。但是，输入文本10也可以是将通过进行文本分析而获得的韵律信息用文本形式表达出来的中间语言信息。在潜在风险区间的判定中，例如考虑以下的方法。

·预先存储列举了潜在风险表达的列表，检索在输入文本10是否包含列表中的表达的方法

·预先存储列举了潜在风险表达的列表，检索在进行了语素分析的输入文本10是否包含列表中的表达的方法

·学习包含潜在风险表达的单词排列(N-gram)的出现概率，对输入文本10的单词排列使用似然进行判定的方法

·在推定部101使用判断输入文本10是否可成为潜在风险表达的意图理解模块进行判定的方法

在潜在风险区间的危险度的确定中，如以下所例示可有各种方法。

·对在列举了潜在风险表达的列表中列举的各潜在风险表达分配危险度，计算输入文本10中与列表一致的潜在风险表达的危险度的方法

·通过使包含潜在风险表达的各单词排列(N-gram)与危险度对应，对输入文本10中出现的潜在风险表达分配危险度的方法

·在意图理解模块中，通过使危险度与可成为潜在风险表达的各语境对应，在输入文本10可成为潜在风险表达的情况下，对该语境分配危险度的方法

推定部101将潜在风险区间11及潜在风险表达的危险度12向嵌入控制部103输出。

合成声音生成部102从外部取得输入文本10。合成声音生成部102从输入文本10提取音素串、暂停、音拍(mora)数、重音等韵律信息，生成合成声音13。为了与嵌入电子水印的时刻对应，需要各音素发声的时刻信息。因此，合成声音生成部102使用从输入文本10提取的音素串、暂停、音拍数等输出音素时刻信息。合成声音生成部102向加入水印声音生成部104输出合成声音13，向嵌入控制部103输出合成声音13的音素时刻信息14。

嵌入控制部103以从推定部101输出的潜在风险区间11、潜在风险表达的危险度12和从合成声音生成部102输出的音素时刻信息14作为输入。嵌入控制部103将从推定部101输出的潜在风险表达的危险度12改变为水印强度15。危险度12越高，水印强度15设定得越高。水印强度具有如下特征：若水印强度大则噪声耐性和/或编解码器耐性提高、水印的检测精度提高，另一方面人听到时会感觉到刺耳的声音。本实施方式的目的在于高精度地检测在合成声音13中包含的若被滥用则危险度高的潜在风险表达。因此，优选即使产生稍微的音质劣化也将水印强度设定得高。另外，也可以不基于危险度12来设定水印强度15，而将包含潜在风险表达的区间的水印强度15一律设定成高的值。

嵌入控制部103根据潜在风险区间11和音素时刻信息14，计算水印的嵌入时刻16。所谓嵌入时刻16，指以水印强度15指定的强度嵌入前述的电子水印的时刻的信息。嵌入控制部103将水印强度15和嵌入时刻16向加入水印声音生成部104输出。

加入水印声音生成部104以从合成声音生成部102输出的合成声音13、从嵌入控制部103输出的水印强度15和嵌入时刻16作为输入。加入水印声音生成部104在由嵌入时刻16指定的时刻，通过以水印强度15指定的强度对合成声音13嵌入电子水印，来生成加入水印合成声音17。

以下，说明加入水印声音生成部104中的水印的嵌入方法。作为电子水印的嵌入方法，需要满足以下2点条件：

(1)是在加入水印合成声音17的生成时，可以在潜在风险区间内嵌入水印且检测水印的方法

(2)是能够调整嵌入水印的强度的方法

参照图2说明能够实施满足上述2个条件的电子水印的嵌入方法的加入水印声音生成部104的详细功能构成。如图2所示，加入水印声音生成部104具备提取部201、变换应用部202、嵌入部203、逆变换应用部204和再合成部205。

提取部201从外部取得合成声音13。提取部201通过从合成声音13按单位时间切出时间长2T(例如，2T＝64毫秒)的声音波形，来生成时刻(t)的单位声音帧21。另外，在以后的说明中，时间长2T也称为分析窗口宽度。提取部201除了切出时间长2T的声音波形的处理之外，也可以进行除去所切出的声音波形的直流分量的处理、强调所切出的声音波形的高频分量的处理、将所切出的声音波形乘以窗口函数(例如，正弦窗口)的处理等。提取部201将单位声音帧21向变换应用部202输出。

变换应用部202以来自提取部201的单位声音帧21作为输入。变换应用部202对单位声音帧21应用正交变换，向频率区域射影。在正交变换中，可以使用离散傅里叶变换、离散余弦变换、修正离散余弦变换、正弦变换、离散小波变换等变换方式。变换应用部202将应用正交变换后的单位帧22向嵌入部203输出。

嵌入部203以来自变换应用部202的单位帧22、水印强度15、嵌入时刻16作为输入。如果单位帧22是由嵌入时刻16指定的单位帧，则嵌入部203对指定的子频带以基于水印强度15的强度嵌入电子水印。另外，电子水印的嵌入方法将后述。嵌入部203将加入水印单位帧23向逆变换应用部204输出。

逆变换应用部204以来自嵌入部203的加入水印单位帧23作为输入。逆变换应用部204对加入水印单位帧23应用逆正交变换，返回到时间域。在逆正交变换中，可以使用逆离散傅里叶变换、逆离散余弦变换、逆修正离散余弦变换、逆离散正弦变换、逆离散小波变换等，但是优选是与由变换应用部202使用的正交变换对应的逆正交变换。逆变换应用部204将应用逆正交变换后的单位帧24向再合成部205输出。

再合成部205以来自逆变换应用部204的应用逆正交变换后的单位帧24作为输入。再合成部205通过对应用逆正交变换后的单位帧24重叠前后的帧而进行求和(和算)，来生成加入水印合成声音17。另外，前后的帧优选例如以分析窗口长2T的一半即时间长T重复。

接着，使用图3说明由嵌入部203进行的水印的嵌入方法的详细情况。图3的上图表示从变换应用部202输出的某单位帧22。横轴表示频率，纵轴表示振幅频谱的强度。在本实施方式中，图3中设定P组和N组这2种子频带。在子频带中，至少包含2个以上相邻的频率bin。作为P组和N组的设定方法，可以在预先将全体频带基于特定的规则划分为指定个数的子频带之后，从所获得的子频带之中选择。另外，P组和N组可以在全部的单位帧22中设定相同的组，也可以按每单位帧22改变。

在某单位帧22，作为附加信息，考虑以水印强度2δ(δ≥0)嵌入1位的水印位{0，1}。在将某时刻t的第k个频率binW_k的振幅频谱强度设为|X_t(W_k)|、将属于P组的全体频率的集合设为Ω_p时，属于P组的全体频率bin的振幅频谱强度和由以下的数学式表示。

[数学式1]

\underset{{kω}_{k} &Element; Ω_{P}}{Σ} | X_{t} (ω_{k}) | = S_{P} (t) ... (1)

同样，将属于N组的全体频率bin的振幅频谱强度和表示为S_N(t)。此时，以满足以下的数学式的方式，根据嵌入的水印位改变S_N(t)与S_p(t)的大小关系。

若以水印强度2δ嵌入水印位“1”，则S_p(t)-S_N(t)≥2δ≥0

若以水印强度2δ嵌入水印位“0”，则S_p(t)-S_N(t)<2δ<0

作为例子，考虑在某单位帧22以水印强度2δ嵌入水印位“1”的情况。若嵌入水印位“1”，则只要在单位帧22改变各频率bin的强度，使得振幅频谱强度和的大小关系成为S_p(t)-S_N(t)≥2δ即可。即，若嵌入水印前的P组和N组的振幅强度差为S_p(t)-S_N(t)＝2δ₀(δ₀≤δ)，则使属于P组的全体频率bin的振幅频谱强度增加合计(δ-δ₀)以上，且使属于N组的全体频率bin的振幅频谱强度减少合计(δ-δ₀)以上。

另外，也可以取代本处理，而采用仅使属于P组的全体频率bin的振幅频谱强度增加合计(2δ-2δ₀)以上的处理、或仅使属于N组的全体频率bin的振幅频谱强度减少合计(2δ-2δ₀)以上的处理。另外，若δ<δ₀，则由于满足数学式1的条件，所以也可有不嵌入水印等方法。这样，通过比较P组和N组的子频带中的S_p(t)与S_N(t)值，能够检测所嵌入的电子水印位。

通过以上，嵌入部203根据嵌入时刻16，确定是否在所输入的单位帧22嵌入水印。另外，嵌入部203在嵌入水印的情况下，以由水印强度15指定的强度嵌入。

接着，说明本实施方式中的意图理解模块。意图理解模块是理解所输入的文本的意图，判断该文本是否可成为潜在风险表达的模块。意图理解模块可以通过已有的公知技术、例如专利文献2中记载的技术实现。在本技术中，根据所输入的英文文本中的单词和词类的信息来捕捉文本的意思构造，提取最佳表现该意图的主要关键字。在日文文本中利用本公知技术的情况下，优选对文本进行语素分析而分解为词类。在给予了可成为潜在风险表达的文本的情况及给予了不可成为潜在风险表达的文本的情况下，所提取的关键字的种类和/或出现频度往往不同。因此，通过将这些分别模型化，识别从所输入的文本提取出的关键字接近哪一模型，能够判别潜在风险表达。

根据以上所示的实施方式的电子水印嵌入装置1，对包含潜在风险表达的单位帧，根据危险度将水印强度设定得高，嵌入电子水印。另一方面，对于不包含潜在风险表达的单位帧，设为不嵌入电子水印。这样，通过将水印强度设定得大，能够更切实地检测包含潜在风险表达的单位帧。

(第2实施方式)

接着，说明第2实施方式的电子水印嵌入装置2。如图4所示，电子水印嵌入装置2具备推定部401、合成声音生成部402、嵌入控制部403和加入水印声音生成部104。图4的电子水印嵌入装置2以输入文本10为输入，输出嵌入了电子水印的合成声音17。

推定部401从外部取得输入文本10。推定部401从输入文本10判定潜在风险区间，确定该区间的危险度。潜在风险区间及该区间的危险度作为文本标签记叙在文本10上。推定部401将带标签文本40向合成声音生成部402输出。

合成声音生成部402从推定部401取得带标签文本40。合成声音生成部402从带标签文本40提取音素串、暂停、音拍数、重音等韵律信息及潜在风险区间、潜在风险表达的危险度，生成合成声音13。在本实施方式中，为了与嵌入电子水印的时刻对应，需要各音素发声的时刻信息。因此，合成声音生成部402使用从带标签文本40提取的音素串、暂停、音拍数、潜在风险区间等，计算潜在风险表达的音素时刻信息41，计算潜在风险表达的危险度42。合成声音生成部402将合成声音13向加入水印声音生成部104输出，将合成声音13的潜在风险表达的音素时刻信息41及潜在风险表达的危险度42向嵌入控制部403输出。

嵌入控制部403输入从合成声音生成部402输出的潜在风险表达的音素时刻信息41和潜在风险表达的危险度42。嵌入控制部403将从合成声音生成部402输出的潜在风险表达的音素时刻信息41改变为水印的嵌入时刻16，将潜在风险表达的危险度42改变为水印强度15。嵌入控制部403将水印强度15和嵌入时刻16向加入水印声音生成部104输出。

与第1实施方式的差异在于以下方面不同：将由推定部401推定的潜在风险区间以文本标签等的形式追加到输入文本10上，作为带标签文本40输出，向合成声音生成部402输入。

(第3实施方式)

接着，说明第3实施方式的电子水印嵌入装置3。如图5所示，电子水印嵌入装置3具备推定部501、合成声音生成部502、嵌入控制部503和加入水印声音生成部504。电子水印嵌入装置3以输入文本10为输入，输出嵌入了电子水印的合成声音17。

合成声音生成部502从外部取得文本10。合成声音生成部502从输入文本10提取音素串、暂停、音拍数、重音等韵律信息，生成合成声音13。另外，合成声音生成部502使用音素串、暂停、音拍数等计算音素时刻信息14。进而，根据音素串、重音等生成中间语言信息50。所谓中间语言信息，是将通过合成声音生成部502进行文本分析而获得的韵律信息以文本形式进行表达的信息。合成声音生成部502将合成声音13向加入水印声音生成部104输出，将音素时刻信息14向嵌入控制部103输出，将中间语言信息50向推定部501输出。

推定部501从合成声音生成部502取得中间语言信息50。推定部501根据中间语言信息50判定潜在风险区间，确定该区间的危险度。潜在风险区间的判定，可有各种方法，但是也可以是预先存储例如使潜在风险表达与其中间语言表达相对应的列表，检索在所取得的中间语言信息50中是否包含列表中的中间语言表达的方法。对于潜在风险表达的危险度，也可以与第1实施方式同样，是使危险度与上述列表中的各中间语言表达相对应的方法。

在第1实施方式中，在推定部中，从输入文本10直接搜索潜在风险表达，但是在本实施方式中，成为从由合成声音生成部502输出的中间语言信息进行搜索的方法。

(第4实施方式)

接着，说明第4实施方式的电子水印嵌入装置4。如图6所示，电子水印嵌入装置4具备推定部601、合成声音生成部102、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置输入文本10，输出嵌入了电子水印的合成声音17。

推定部601从输入文本10判定潜在风险区间，根据输入信号60确定该区间的危险度。在第1实施方式中，根据输入文本10唯一地确定危险度，但是即使使用了相同文本，有时也要相应地依所使用的相似声说话人来改变潜在风险表达的危险度。因此，在本实施方式中，根据输入信号60改变该区间的危险度。例如，即使是包含相同猥亵表达的输入文本10，在

·在使用了清纯派且人气急升中的偶像的相似声的情况

·在使用了擅长恶搞逗笑的艺人的相似声的情况下，自然要改变潜在风险表达的危险度。在前一种情况下，为了防止名誉损害，优选提高该区间的危险度，切实地检测猥亵表达。但是，输入信号60不限于相似声说话人的信息。例如，在利用本装置的用户多次使用了相同潜在风险表达的情况下，也可以视为有恶意的使用而每次使危险度增加等，将用户使用了该潜在风险表达的次数用于输入信号60。

在第1实施方式中，在推定部101中，无法从输入文本10以外改变潜在风险表达的危险度12，但是在本实施方式中，可以根据输入文本10以外的条件改变危险度12。

接着，使用图7说明各实施方式涉及的电子水印嵌入装置的硬件构成。图7是表示实施方式涉及的电子水印嵌入装置及检测装置的硬件构成的说明图。

实施方式涉及的电子水印嵌入装置具备CPU(CentralProcessingUnit：中央处理单元)51等控制装置、ROM(ReadOnlyMemory：只读存储器)52和/或RAM(RandomAccessMemory：随机存取存储器)53等存储装置、与网络连接而进行通信的通信I/F54、连接各部分的总线61。

由实施方式涉及的电子水印嵌入装置执行的程序通过预先装入ROM52等而提供。

由实施方式涉及的电子水印嵌入装置执行的程序也可以构成为以可以安装的形式或可以执行的形式的文件记录在CD-ROM(CompactDiskReadOnlyMemory，光盘只读存储器)、软盘(FD)、CD-R(CompactDiskRecordable，可刻录光盘)、DVD(DigitalVersatileDisk，数字多功能盘)等由计算机可以读取的记录介质，作为计算机程序产品而提供。

进而，也可以构成为将由实施方式涉及的电子水印嵌入装置执行的程序存储到与因特网等网络连接的计算机上，经由网络下载而提供。另外，也可以构成为将由实施方式涉及的电子水印嵌入装置执行的程序经由因特网等网络提供或分发。

由实施方式涉及的电子水印嵌入装置执行的程序可以使计算机作为上述各部分而起作用。该计算机的CPU51能够从计算机可以读取的存储介质读出程序到主存储装置上并执行。另外，各部分的一部分或全部也可以通过硬件电路实现。

以上，虽然说明了本发明的实施方式，但是这些实施方式是作为例子而呈现的，并非要限定发明的范围。这些新的实施方式可以其他各种方式实施，在不脱离发明的主旨的范围，能够进行各种省略、置换、变更。这些实施方式和/或其变形包含于发明的范围和/或主旨，并且包含于权利要求的范围所记载的发明及其均等的范围。

符号的说明

1电子水印嵌入装置，2电子水印嵌入装置，3电子水印嵌入装置，4电子水印嵌入装置，10输入文本，11潜在风险区间，12危险度，13合成声音，14音素时刻信息，15水印强度，16嵌入时刻，17合成声音，21单位声音帧，22单位帧，23单位帧，24单位帧，40带标签文本，41音素时刻信息，42危险度，50中间语言信息，60输入信号，101推定部，102合成声音生成部，103嵌入控制部，104加入水印声音生成部，201提取部，202变换应用部，203嵌入部，204逆变换应用部，205再合成部，401推定部，402合成声音生成部，403嵌入控制部，501推定部，502合成声音生成部，503嵌入控制部，504加入水印声音生成部，601推定部。

Claims

1.一种电子水印嵌入装置，其特征在于，具备：

合成声音生成部，其按照所输入的文本，输出合成声音和合成声音所包含的音素的时刻信息；

推定部，其推定在上述所输入的文本中是否包含潜在风险表达，输出被推定为包含上述潜在风险表达的潜在风险区间；

嵌入控制部，其通过使上述潜在风险区间与上述时刻信息相对应，来确定并输出上述合成声音中的电子水印的嵌入时刻；以及

嵌入部，其对上述合成声音，在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。

2.权利要求1所述的电子水印嵌入装置，其特征在于，

上述合成声音生成部按照所输入的中间语言信息，输出合成声音和合成声音所包含的音素的时刻信息，

上述推定部推定在所输入的上述中间语言信息中是否包含上述潜在风险表达，输出被推定为包含上述潜在风险表达的上述潜在风险区间。

3.权利要求1所述的电子水印嵌入装置，其特征在于，

上述推定部输出上述潜在风险区间所包含的潜在风险表达的危险度，

上述嵌入控制部基于上述危险度设定并输出上述电子水印的嵌入强度，

上述嵌入部基于上述嵌入强度在上述合成声音嵌入上述电子水印。

4.权利要求1所述的电子水印嵌入装置，其特征在于，

上述推定部对上述所输入的文本，将上述潜在风险区间及上述危险度作为文本标签进行描述并输出，

上述合成声音生成部基于描述了上述文本标签的文本，输出上述合成声音及上述潜在风险表达的音素的时刻信息。

5.权利要求1所述的电子水印嵌入装置，其特征在于，

上述合成声音生成部输出中间语言信息，所述中间语言信息以文本形式表示了进行上述所输入的文本的文本分析而获得的韵律信息，

上述推定部推定在所输入的上述中间语言信息中是否包含潜在风险表达，输出被推定为包含上述潜在风险表达的潜在风险区间。

6.权利要求3所述的电子水印嵌入装置，其特征在于，

上述推定部参照来自外部的输入信号所包含的信息，确定上述所输入的文本的上述潜在风险区间的上述危险度。

7.一种电子水印嵌入方法，其特征在于，包括：

合成声音生成步骤，按照所输入的文本，输出合成声音和合成声音所包含的音素的时刻信息；

推定步骤，推定在上述所输入的文本中是否包含潜在风险表达，输出被推定为包含上述潜在风险表达的潜在风险区间；

嵌入控制步骤，通过使上述潜在风险区间与上述时刻信息相对应，来确定并输出上述合成声音中的电子水印的嵌入时刻；以及

嵌入步骤，对上述合成声音，在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。

8.一种电子水印嵌入程序，其用于使计算机执行：