CN105283916A - 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序 - Google Patents

电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序 Download PDF

Info

Publication number
CN105283916A
CN105283916A CN201380077322.XA CN201380077322A CN105283916A CN 105283916 A CN105283916 A CN 105283916A CN 201380077322 A CN201380077322 A CN 201380077322A CN 105283916 A CN105283916 A CN 105283916A
Authority
CN
China
Prior art keywords
mentioned
synthetic video
potential risk
watermark
exports
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380077322.XA
Other languages
English (en)
Other versions
CN105283916B (zh
Inventor
中村匡伸
森田真弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN105283916A publication Critical patent/CN105283916A/zh
Application granted granted Critical
Publication of CN105283916B publication Critical patent/CN105283916B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明的电子水印嵌入装置具备:合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及嵌入部,其对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻的特定的频带嵌入电子水印。

Description

电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序
技术领域
本发明的实施方式涉及电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序。
背景技术
用近年的声音信号处理技术可以合成各种声音,例如通过合成后的声音,产生了使用熟人声音的假冒和/或名人声音的非法利用等危险性。另外,由于能够容易地生成与他人相似的声音(相似声),未来也无法否定使用熟人声音的假冒欺诈和/或非法利用名人声音的名誉损害等犯罪行为增加的可能性。为了防止这些犯罪于未然,开发了通过在合成音嵌入电子水印来与真人发声区别、检测合成音的非法利用的技术。
专利文献1:日本专利第3812848号公报
专利文献2:日本特开平11-85766号公报
另外,在使用声音合成技术作成相似声的媒体内容中包含以歧视用语和/或猥亵表达为代表的禁止播放表达或者联想到犯罪的表达等的情况下,若误使用该内容,则有可能发展为相似声本人的信用问题。因而,在可以生成这样的合成声音的装置中,需要在包含禁止播放用语等的情况下边保持声音的品质边嵌入能够高精度地检测的电子水印的功能,但是并未研究出有效的方法。
发明内容
本发明的实施方式是鉴于上述而提出的,其目的在于提供可以抑制声音的品质降低并且嵌入检测精度高的电子水印的电子水印嵌入装置。
为了解决上述问题,达到目的,本发明的实施方式具备:合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及嵌入部,其对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻的特定的频带嵌入电子水印。
附图说明
图1是表示第1实施方式的电子水印嵌入装置的功能构成的方框图。
图2是表示第1实施方式的加入水印声音生成部的详细构成的方框图。
图3是说明第1实施方式的加入水印声音生成部中的水印的嵌入方法的图。
图4是表示第2实施方式的电子水印嵌入装置的功能构成的方框图。
图5是表示第3实施方式的电子水印嵌入装置的功能构成的方框图。
图6是表示第4实施方式的电子水印嵌入装置的功能构成的方框图。
图7是表示各实施方式的电子水印嵌入装置的硬件构成的方框图。
具体实施方式
(第1实施方式)
以下,参照附图说明电子水印嵌入装置的实施方式。图1是表示电子水印嵌入装置的功能构成的方框图。如图1所示,电子水印嵌入装置1具备推定部101、合成声音生成部102、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置1输入包含文字信息的输入文本10,输出嵌入了电子水印的合成声音17。推定部101从外部取得输入文本10。以下,所谓“潜在风险区间”,定义为使用“潜在风险表达”的声音区间,将满足下述的单词、表达、语境定义为“潜在风险表达”。
·以歧视用语和/或猥亵表达为代表的不适于播放的单词、表达、语境
·联想到假冒欺诈等犯罪和/或其计划的单词、表达、语境
·有可能与他人的名誉损害有关的单词、表达、语境
推定部101根据输入文本10判定潜在风险区间,确定该区间的危险度。但是,输入文本10也可以是将通过进行文本分析而获得的韵律信息用文本形式表达出来的中间语言信息。在潜在风险区间的判定中,例如考虑以下的方法。
·预先存储列举了潜在风险表达的列表,检索在输入文本10是否包含列表中的表达的方法
·预先存储列举了潜在风险表达的列表,检索在进行了语素分析的输入文本10是否包含列表中的表达的方法
·学习包含潜在风险表达的单词排列(N-gram)的出现概率,对输入文本10的单词排列使用似然进行判定的方法
·在推定部101使用判断输入文本10是否可成为潜在风险表达的意图理解模块进行判定的方法
在潜在风险区间的危险度的确定中,如以下所例示可有各种方法。
·对在列举了潜在风险表达的列表中列举的各潜在风险表达分配危险度,计算输入文本10中与列表一致的潜在风险表达的危险度的方法
·通过使包含潜在风险表达的各单词排列(N-gram)与危险度对应,对输入文本10中出现的潜在风险表达分配危险度的方法
·在意图理解模块中,通过使危险度与可成为潜在风险表达的各语境对应,在输入文本10可成为潜在风险表达的情况下,对该语境分配危险度的方法
推定部101将潜在风险区间11及潜在风险表达的危险度12向嵌入控制部103输出。
合成声音生成部102从外部取得输入文本10。合成声音生成部102从输入文本10提取音素串、暂停、音拍(mora)数、重音等韵律信息,生成合成声音13。为了与嵌入电子水印的时刻对应,需要各音素发声的时刻信息。因此,合成声音生成部102使用从输入文本10提取的音素串、暂停、音拍数等输出音素时刻信息。合成声音生成部102向加入水印声音生成部104输出合成声音13,向嵌入控制部103输出合成声音13的音素时刻信息14。
嵌入控制部103以从推定部101输出的潜在风险区间11、潜在风险表达的危险度12和从合成声音生成部102输出的音素时刻信息14作为输入。嵌入控制部103将从推定部101输出的潜在风险表达的危险度12改变为水印强度15。危险度12越高,水印强度15设定得越高。水印强度具有如下特征:若水印强度大则噪声耐性和/或编解码器耐性提高、水印的检测精度提高,另一方面人听到时会感觉到刺耳的声音。本实施方式的目的在于高精度地检测在合成声音13中包含的若被滥用则危险度高的潜在风险表达。因此,优选即使产生稍微的音质劣化也将水印强度设定得高。另外,也可以不基于危险度12来设定水印强度15,而将包含潜在风险表达的区间的水印强度15一律设定成高的值。
嵌入控制部103根据潜在风险区间11和音素时刻信息14,计算水印的嵌入时刻16。所谓嵌入时刻16,指以水印强度15指定的强度嵌入前述的电子水印的时刻的信息。嵌入控制部103将水印强度15和嵌入时刻16向加入水印声音生成部104输出。
加入水印声音生成部104以从合成声音生成部102输出的合成声音13、从嵌入控制部103输出的水印强度15和嵌入时刻16作为输入。加入水印声音生成部104在由嵌入时刻16指定的时刻,通过以水印强度15指定的强度对合成声音13嵌入电子水印,来生成加入水印合成声音17。
以下,说明加入水印声音生成部104中的水印的嵌入方法。作为电子水印的嵌入方法,需要满足以下2点条件:
(1)是在加入水印合成声音17的生成时,可以在潜在风险区间内嵌入水印且检测水印的方法
(2)是能够调整嵌入水印的强度的方法
参照图2说明能够实施满足上述2个条件的电子水印的嵌入方法的加入水印声音生成部104的详细功能构成。如图2所示,加入水印声音生成部104具备提取部201、变换应用部202、嵌入部203、逆变换应用部204和再合成部205。
提取部201从外部取得合成声音13。提取部201通过从合成声音13按单位时间切出时间长2T(例如,2T=64毫秒)的声音波形,来生成时刻(t)的单位声音帧21。另外,在以后的说明中,时间长2T也称为分析窗口宽度。提取部201除了切出时间长2T的声音波形的处理之外,也可以进行除去所切出的声音波形的直流分量的处理、强调所切出的声音波形的高频分量的处理、将所切出的声音波形乘以窗口函数(例如,正弦窗口)的处理等。提取部201将单位声音帧21向变换应用部202输出。
变换应用部202以来自提取部201的单位声音帧21作为输入。变换应用部202对单位声音帧21应用正交变换,向频率区域射影。在正交变换中,可以使用离散傅里叶变换、离散余弦变换、修正离散余弦变换、正弦变换、离散小波变换等变换方式。变换应用部202将应用正交变换后的单位帧22向嵌入部203输出。
嵌入部203以来自变换应用部202的单位帧22、水印强度15、嵌入时刻16作为输入。如果单位帧22是由嵌入时刻16指定的单位帧,则嵌入部203对指定的子频带以基于水印强度15的强度嵌入电子水印。另外,电子水印的嵌入方法将后述。嵌入部203将加入水印单位帧23向逆变换应用部204输出。
逆变换应用部204以来自嵌入部203的加入水印单位帧23作为输入。逆变换应用部204对加入水印单位帧23应用逆正交变换,返回到时间域。在逆正交变换中,可以使用逆离散傅里叶变换、逆离散余弦变换、逆修正离散余弦变换、逆离散正弦变换、逆离散小波变换等,但是优选是与由变换应用部202使用的正交变换对应的逆正交变换。逆变换应用部204将应用逆正交变换后的单位帧24向再合成部205输出。
再合成部205以来自逆变换应用部204的应用逆正交变换后的单位帧24作为输入。再合成部205通过对应用逆正交变换后的单位帧24重叠前后的帧而进行求和(和算),来生成加入水印合成声音17。另外,前后的帧优选例如以分析窗口长2T的一半即时间长T重复。
接着,使用图3说明由嵌入部203进行的水印的嵌入方法的详细情况。图3的上图表示从变换应用部202输出的某单位帧22。横轴表示频率,纵轴表示振幅频谱的强度。在本实施方式中,图3中设定P组和N组这2种子频带。在子频带中,至少包含2个以上相邻的频率bin。作为P组和N组的设定方法,可以在预先将全体频带基于特定的规则划分为指定个数的子频带之后,从所获得的子频带之中选择。另外,P组和N组可以在全部的单位帧22中设定相同的组,也可以按每单位帧22改变。
在某单位帧22,作为附加信息,考虑以水印强度2δ(δ≥0)嵌入1位的水印位{0,1}。在将某时刻t的第k个频率binWk的振幅频谱强度设为|Xt(Wk)|、将属于P组的全体频率的集合设为Ωp时,属于P组的全体频率bin的振幅频谱强度和由以下的数学式表示。
[数学式1]
Σ kω k ∈ Ω P | X t ( ω k ) | = S P ( t ) ... ( 1 )
同样,将属于N组的全体频率bin的振幅频谱强度和表示为SN(t)。此时,以满足以下的数学式的方式,根据嵌入的水印位改变SN(t)与Sp(t)的大小关系。
若以水印强度2δ嵌入水印位“1”,则Sp(t)-SN(t)≥2δ≥0
若以水印强度2δ嵌入水印位“0”,则Sp(t)-SN(t)<2δ<0
作为例子,考虑在某单位帧22以水印强度2δ嵌入水印位“1”的情况。若嵌入水印位“1”,则只要在单位帧22改变各频率bin的强度,使得振幅频谱强度和的大小关系成为Sp(t)-SN(t)≥2δ即可。即,若嵌入水印前的P组和N组的振幅强度差为Sp(t)-SN(t)=2δ00≤δ),则使属于P组的全体频率bin的振幅频谱强度增加合计(δ-δ0)以上,且使属于N组的全体频率bin的振幅频谱强度减少合计(δ-δ0)以上。
另外,也可以取代本处理,而采用仅使属于P组的全体频率bin的振幅频谱强度增加合计(2δ-2δ0)以上的处理、或仅使属于N组的全体频率bin的振幅频谱强度减少合计(2δ-2δ0)以上的处理。另外,若δ<δ0,则由于满足数学式1的条件,所以也可有不嵌入水印等方法。这样,通过比较P组和N组的子频带中的Sp(t)与SN(t)值,能够检测所嵌入的电子水印位。
通过以上,嵌入部203根据嵌入时刻16,确定是否在所输入的单位帧22嵌入水印。另外,嵌入部203在嵌入水印的情况下,以由水印强度15指定的强度嵌入。
接着,说明本实施方式中的意图理解模块。意图理解模块是理解所输入的文本的意图,判断该文本是否可成为潜在风险表达的模块。意图理解模块可以通过已有的公知技术、例如专利文献2中记载的技术实现。在本技术中,根据所输入的英文文本中的单词和词类的信息来捕捉文本的意思构造,提取最佳表现该意图的主要关键字。在日文文本中利用本公知技术的情况下,优选对文本进行语素分析而分解为词类。在给予了可成为潜在风险表达的文本的情况及给予了不可成为潜在风险表达的文本的情况下,所提取的关键字的种类和/或出现频度往往不同。因此,通过将这些分别模型化,识别从所输入的文本提取出的关键字接近哪一模型,能够判别潜在风险表达。
根据以上所示的实施方式的电子水印嵌入装置1,对包含潜在风险表达的单位帧,根据危险度将水印强度设定得高,嵌入电子水印。另一方面,对于不包含潜在风险表达的单位帧,设为不嵌入电子水印。这样,通过将水印强度设定得大,能够更切实地检测包含潜在风险表达的单位帧。
(第2实施方式)
接着,说明第2实施方式的电子水印嵌入装置2。如图4所示,电子水印嵌入装置2具备推定部401、合成声音生成部402、嵌入控制部403和加入水印声音生成部104。图4的电子水印嵌入装置2以输入文本10为输入,输出嵌入了电子水印的合成声音17。
推定部401从外部取得输入文本10。推定部401从输入文本10判定潜在风险区间,确定该区间的危险度。潜在风险区间及该区间的危险度作为文本标签记叙在文本10上。推定部401将带标签文本40向合成声音生成部402输出。
合成声音生成部402从推定部401取得带标签文本40。合成声音生成部402从带标签文本40提取音素串、暂停、音拍数、重音等韵律信息及潜在风险区间、潜在风险表达的危险度,生成合成声音13。在本实施方式中,为了与嵌入电子水印的时刻对应,需要各音素发声的时刻信息。因此,合成声音生成部402使用从带标签文本40提取的音素串、暂停、音拍数、潜在风险区间等,计算潜在风险表达的音素时刻信息41,计算潜在风险表达的危险度42。合成声音生成部402将合成声音13向加入水印声音生成部104输出,将合成声音13的潜在风险表达的音素时刻信息41及潜在风险表达的危险度42向嵌入控制部403输出。
嵌入控制部403输入从合成声音生成部402输出的潜在风险表达的音素时刻信息41和潜在风险表达的危险度42。嵌入控制部403将从合成声音生成部402输出的潜在风险表达的音素时刻信息41改变为水印的嵌入时刻16,将潜在风险表达的危险度42改变为水印强度15。嵌入控制部403将水印强度15和嵌入时刻16向加入水印声音生成部104输出。
与第1实施方式的差异在于以下方面不同:将由推定部401推定的潜在风险区间以文本标签等的形式追加到输入文本10上,作为带标签文本40输出,向合成声音生成部402输入。
(第3实施方式)
接着,说明第3实施方式的电子水印嵌入装置3。如图5所示,电子水印嵌入装置3具备推定部501、合成声音生成部502、嵌入控制部503和加入水印声音生成部504。电子水印嵌入装置3以输入文本10为输入,输出嵌入了电子水印的合成声音17。
合成声音生成部502从外部取得文本10。合成声音生成部502从输入文本10提取音素串、暂停、音拍数、重音等韵律信息,生成合成声音13。另外,合成声音生成部502使用音素串、暂停、音拍数等计算音素时刻信息14。进而,根据音素串、重音等生成中间语言信息50。所谓中间语言信息,是将通过合成声音生成部502进行文本分析而获得的韵律信息以文本形式进行表达的信息。合成声音生成部502将合成声音13向加入水印声音生成部104输出,将音素时刻信息14向嵌入控制部103输出,将中间语言信息50向推定部501输出。
推定部501从合成声音生成部502取得中间语言信息50。推定部501根据中间语言信息50判定潜在风险区间,确定该区间的危险度。潜在风险区间的判定,可有各种方法,但是也可以是预先存储例如使潜在风险表达与其中间语言表达相对应的列表,检索在所取得的中间语言信息50中是否包含列表中的中间语言表达的方法。对于潜在风险表达的危险度,也可以与第1实施方式同样,是使危险度与上述列表中的各中间语言表达相对应的方法。
在第1实施方式中,在推定部中,从输入文本10直接搜索潜在风险表达,但是在本实施方式中,成为从由合成声音生成部502输出的中间语言信息进行搜索的方法。
(第4实施方式)
接着,说明第4实施方式的电子水印嵌入装置4。如图6所示,电子水印嵌入装置4具备推定部601、合成声音生成部102、嵌入控制部103和加入水印声音生成部104。电子水印嵌入装置输入文本10,输出嵌入了电子水印的合成声音17。
推定部601从输入文本10判定潜在风险区间,根据输入信号60确定该区间的危险度。在第1实施方式中,根据输入文本10唯一地确定危险度,但是即使使用了相同文本,有时也要相应地依所使用的相似声说话人来改变潜在风险表达的危险度。因此,在本实施方式中,根据输入信号60改变该区间的危险度。例如,即使是包含相同猥亵表达的输入文本10,在
·在使用了清纯派且人气急升中的偶像的相似声的情况
·在使用了擅长恶搞逗笑的艺人的相似声的情况下,自然要改变潜在风险表达的危险度。在前一种情况下,为了防止名誉损害,优选提高该区间的危险度,切实地检测猥亵表达。但是,输入信号60不限于相似声说话人的信息。例如,在利用本装置的用户多次使用了相同潜在风险表达的情况下,也可以视为有恶意的使用而每次使危险度增加等,将用户使用了该潜在风险表达的次数用于输入信号60。
在第1实施方式中,在推定部101中,无法从输入文本10以外改变潜在风险表达的危险度12,但是在本实施方式中,可以根据输入文本10以外的条件改变危险度12。
接着,使用图7说明各实施方式涉及的电子水印嵌入装置的硬件构成。图7是表示实施方式涉及的电子水印嵌入装置及检测装置的硬件构成的说明图。
实施方式涉及的电子水印嵌入装置具备CPU(CentralProcessingUnit:中央处理单元)51等控制装置、ROM(ReadOnlyMemory:只读存储器)52和/或RAM(RandomAccessMemory:随机存取存储器)53等存储装置、与网络连接而进行通信的通信I/F54、连接各部分的总线61。
由实施方式涉及的电子水印嵌入装置执行的程序通过预先装入ROM52等而提供。
由实施方式涉及的电子水印嵌入装置执行的程序也可以构成为以可以安装的形式或可以执行的形式的文件记录在CD-ROM(CompactDiskReadOnlyMemory,光盘只读存储器)、软盘(FD)、CD-R(CompactDiskRecordable,可刻录光盘)、DVD(DigitalVersatileDisk,数字多功能盘)等由计算机可以读取的记录介质,作为计算机程序产品而提供。
进而,也可以构成为将由实施方式涉及的电子水印嵌入装置执行的程序存储到与因特网等网络连接的计算机上,经由网络下载而提供。另外,也可以构成为将由实施方式涉及的电子水印嵌入装置执行的程序经由因特网等网络提供或分发。
由实施方式涉及的电子水印嵌入装置执行的程序可以使计算机作为上述各部分而起作用。该计算机的CPU51能够从计算机可以读取的存储介质读出程序到主存储装置上并执行。另外,各部分的一部分或全部也可以通过硬件电路实现。
以上,虽然说明了本发明的实施方式,但是这些实施方式是作为例子而呈现的,并非要限定发明的范围。这些新的实施方式可以其他各种方式实施,在不脱离发明的主旨的范围,能够进行各种省略、置换、变更。这些实施方式和/或其变形包含于发明的范围和/或主旨,并且包含于权利要求的范围所记载的发明及其均等的范围。
符号的说明
1电子水印嵌入装置,2电子水印嵌入装置,3电子水印嵌入装置,4电子水印嵌入装置,10输入文本,11潜在风险区间,12危险度,13合成声音,14音素时刻信息,15水印强度,16嵌入时刻,17合成声音,21单位声音帧,22单位帧,23单位帧,24单位帧,40带标签文本,41音素时刻信息,42危险度,50中间语言信息,60输入信号,101推定部,102合成声音生成部,103嵌入控制部,104加入水印声音生成部,201提取部,202变换应用部,203嵌入部,204逆变换应用部,205再合成部,401推定部,402合成声音生成部,403嵌入控制部,501推定部,502合成声音生成部,503嵌入控制部,504加入水印声音生成部,601推定部。

Claims (8)

1.一种电子水印嵌入装置,其特征在于,具备:
合成声音生成部,其按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;
推定部,其推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;
嵌入控制部,其通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及
嵌入部,其对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
2.权利要求1所述的电子水印嵌入装置,其特征在于,
上述合成声音生成部按照所输入的中间语言信息,输出合成声音和合成声音所包含的音素的时刻信息,
上述推定部推定在所输入的上述中间语言信息中是否包含上述潜在风险表达,输出被推定为包含上述潜在风险表达的上述潜在风险区间。
3.权利要求1所述的电子水印嵌入装置,其特征在于,
上述推定部输出上述潜在风险区间所包含的潜在风险表达的危险度,
上述嵌入控制部基于上述危险度设定并输出上述电子水印的嵌入强度,
上述嵌入部基于上述嵌入强度在上述合成声音嵌入上述电子水印。
4.权利要求1所述的电子水印嵌入装置,其特征在于,
上述推定部对上述所输入的文本,将上述潜在风险区间及上述危险度作为文本标签进行描述并输出,
上述合成声音生成部基于描述了上述文本标签的文本,输出上述合成声音及上述潜在风险表达的音素的时刻信息。
5.权利要求1所述的电子水印嵌入装置,其特征在于,
上述合成声音生成部输出中间语言信息,所述中间语言信息以文本形式表示了进行上述所输入的文本的文本分析而获得的韵律信息,
上述推定部推定在所输入的上述中间语言信息中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间。
6.权利要求3所述的电子水印嵌入装置,其特征在于,
上述推定部参照来自外部的输入信号所包含的信息,确定上述所输入的文本的上述潜在风险区间的上述危险度。
7.一种电子水印嵌入方法,其特征在于,包括:
合成声音生成步骤,按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;
推定步骤,推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;
嵌入控制步骤,通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及
嵌入步骤,对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
8.一种电子水印嵌入程序,其用于使计算机执行:
合成声音生成步骤,按照所输入的文本,输出合成声音和合成声音所包含的音素的时刻信息;
推定步骤,推定在上述所输入的文本中是否包含潜在风险表达,输出被推定为包含上述潜在风险表达的潜在风险区间;
嵌入控制步骤,通过使上述潜在风险区间与上述时刻信息相对应,来确定并输出上述合成声音中的电子水印的嵌入时刻;以及
嵌入步骤,对上述合成声音,在由上述合成声音的上述嵌入时刻指定的时刻嵌入电子水印。
CN201380077322.XA 2013-06-11 2013-06-11 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 Expired - Fee Related CN105283916B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/066110 WO2014199450A1 (ja) 2013-06-11 2013-06-11 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム

Publications (2)

Publication Number Publication Date
CN105283916A true CN105283916A (zh) 2016-01-27
CN105283916B CN105283916B (zh) 2019-06-07

Family

ID=52021786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380077322.XA Expired - Fee Related CN105283916B (zh) 2013-06-11 2013-06-11 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质

Country Status (4)

Country Link
US (1) US9881623B2 (zh)
JP (1) JP6203258B2 (zh)
CN (1) CN105283916B (zh)
WO (1) WO2014199450A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731219A (zh) * 2017-09-06 2018-02-23 百度在线网络技术(北京)有限公司 语音合成处理方法、装置及设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755694B2 (en) * 2018-03-15 2020-08-25 Motorola Mobility Llc Electronic device with voice-synthesis and acoustic watermark capabilities
KR102514990B1 (ko) * 2018-05-17 2023-03-27 구글 엘엘씨 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
US11537690B2 (en) * 2019-05-07 2022-12-27 The Nielsen Company (Us), Llc End-point media watermarking
US11138964B2 (en) * 2019-10-21 2021-10-05 Baidu Usa Llc Inaudible watermark enabled text-to-speech framework
CN117995165B (zh) * 2024-04-03 2024-05-31 中国科学院自动化研究所 基于隐变量空间添加水印的语音合成方法、装置及设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11296200A (ja) * 1998-04-08 1999-10-29 M Ken:Kk 音声データに透かし情報を埋め込む装置とその方法及び音声データから透かし情報を検出する装置とその方法及びその記録媒体
CN1302399A (zh) * 1999-02-22 2001-07-04 松下电器产业株式会社 计算机和程序记录媒体
JP2001305957A (ja) * 2000-04-25 2001-11-02 Nippon Hoso Kyokai <Nhk> Id情報埋め込み方法および装置ならびにid情報制御装置
JP2002297199A (ja) * 2001-03-29 2002-10-11 Toshiba Corp 合成音声判別方法と装置及び音声合成装置
CN1519696A (zh) * 2003-01-27 2004-08-11 ������������ʽ���� 信息提供装置、信息提供方法
CN1619643A (zh) * 2003-09-04 2005-05-25 株式会社东芝 语音识别评价装置和语音识别评价方法
US20060009977A1 (en) * 2004-06-04 2006-01-12 Yumiko Kato Speech synthesis apparatus
CN1953417A (zh) * 1996-09-04 2007-04-25 英特托拉斯技术公司 一种从用户站点向外部站点发布使用数据的方法
JP2007156169A (ja) * 2005-12-06 2007-06-21 Canon Inc 音声合成装置及び音声合成方法
JP2007333851A (ja) * 2006-06-13 2007-12-27 Oki Electric Ind Co Ltd 音声合成方法、音声合成装置、音声合成プログラム、音声合成配信システム
CN101185122A (zh) * 2005-06-03 2008-05-21 皇家飞利浦电子股份有限公司 用于安全水印的同态加密
JP2009086597A (ja) * 2007-10-03 2009-04-23 Hitachi Ltd テキスト音声変換サービスシステム及び方法
CN102136762A (zh) * 2010-01-25 2011-07-27 索尼公司 电子水印生成设备和方法、电子水印验证设备和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024016B2 (en) * 1996-05-16 2006-04-04 Digimarc Corporation Digital watermarking apparatus and methods
JPH11190996A (ja) * 1997-08-15 1999-07-13 Shingo Igarashi 合成音声判別システム
JP3575242B2 (ja) 1997-09-10 2004-10-13 日本電信電話株式会社 キーワード抽出装置
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器
JP3511502B2 (ja) * 2000-09-05 2004-03-29 インターナショナル・ビジネス・マシーンズ・コーポレーション データ加工検出システム、付加情報埋め込み装置、付加情報検出装置、デジタルコンテンツ、音楽コンテンツ処理装置、付加データ埋め込み方法、コンテンツ加工検出方法、記憶媒体及びプログラム伝送装置
GB2378370B (en) * 2001-07-31 2005-01-26 Hewlett Packard Co Method of watermarking data
CN102203853B (zh) * 2010-01-04 2013-02-27 株式会社东芝 合成语音的方法和装置
WO2015068310A1 (ja) * 2013-11-11 2015-05-14 株式会社東芝 電子透かし検出装置、方法及びプログラム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953417A (zh) * 1996-09-04 2007-04-25 英特托拉斯技术公司 一种从用户站点向外部站点发布使用数据的方法
JPH11296200A (ja) * 1998-04-08 1999-10-29 M Ken:Kk 音声データに透かし情報を埋め込む装置とその方法及び音声データから透かし情報を検出する装置とその方法及びその記録媒体
CN1302399A (zh) * 1999-02-22 2001-07-04 松下电器产业株式会社 计算机和程序记录媒体
JP2001305957A (ja) * 2000-04-25 2001-11-02 Nippon Hoso Kyokai <Nhk> Id情報埋め込み方法および装置ならびにid情報制御装置
JP2002297199A (ja) * 2001-03-29 2002-10-11 Toshiba Corp 合成音声判別方法と装置及び音声合成装置
CN1519696A (zh) * 2003-01-27 2004-08-11 ������������ʽ���� 信息提供装置、信息提供方法
CN1619643A (zh) * 2003-09-04 2005-05-25 株式会社东芝 语音识别评价装置和语音识别评价方法
US20060009977A1 (en) * 2004-06-04 2006-01-12 Yumiko Kato Speech synthesis apparatus
CN1826633A (zh) * 2004-06-04 2006-08-30 松下电器产业株式会社 声音合成装置
CN101185122A (zh) * 2005-06-03 2008-05-21 皇家飞利浦电子股份有限公司 用于安全水印的同态加密
JP2007156169A (ja) * 2005-12-06 2007-06-21 Canon Inc 音声合成装置及び音声合成方法
JP2007333851A (ja) * 2006-06-13 2007-12-27 Oki Electric Ind Co Ltd 音声合成方法、音声合成装置、音声合成プログラム、音声合成配信システム
JP2009086597A (ja) * 2007-10-03 2009-04-23 Hitachi Ltd テキスト音声変換サービスシステム及び方法
CN102136762A (zh) * 2010-01-25 2011-07-27 索尼公司 电子水印生成设备和方法、电子水印验证设备和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731219A (zh) * 2017-09-06 2018-02-23 百度在线网络技术(北京)有限公司 语音合成处理方法、装置及设备

Also Published As

Publication number Publication date
WO2014199450A1 (ja) 2014-12-18
US20160099003A1 (en) 2016-04-07
US9881623B2 (en) 2018-01-30
JP6203258B2 (ja) 2017-09-27
JPWO2014199450A1 (ja) 2017-02-23
CN105283916B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
Hu et al. Pitch‐based gender identification with two‐stage classification
CN105283916A (zh) 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
Davis et al. Environmental sound classification using deep convolutional neural networks and data augmentation
US20120143363A1 (en) Audio event detection method and apparatus
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN103903633A (zh) 检测语音信号的方法和装置
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
US9058384B2 (en) System and method for identification of highly-variable vocalizations
CN107895571A (zh) 无损音频文件识别方法及装置
Doets et al. Distortion estimation in compressed music using only audio fingerprints
CN117116292A (zh) 音频检测方法、装置、电子设备及存储介质
JP2006227330A (ja) 音響信号に対する情報の埋め込み装置・方法、音響信号からの情報の抽出装置・方法
Wu et al. Audio watermarking algorithm with a synchronization mechanism based on spectrum distribution
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
CN110739006A (zh) 音频处理方法、装置、存储介质及电子设备
Petry et al. Fractal dimension applied to speaker identification
Wang et al. Audio fingerprint based on spectral flux for audio retrieval
Büker et al. Deep convolutional neural networks for double compressed AMR audio detection
Zong et al. Black-box audio adversarial example generation using variational autoencoder
Dubnov et al. Review of ICA and HOS methods for retrieval of natural sounds and sound effects
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
Dharini et al. Contrast of Gaussian mixture model and clustering algorithm for singer identification
Koerich et al. Cross-representation transferability of adversarial perturbations: From spectrograms to audio waveforms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190607