JPH11190996A - Synthesis voice discriminating system - Google Patents

Synthesis voice discriminating system

Info

Publication number
JPH11190996A
JPH11190996A JP10236623A JP23662398A JPH11190996A JP H11190996 A JPH11190996 A JP H11190996A JP 10236623 A JP10236623 A JP 10236623A JP 23662398 A JP23662398 A JP 23662398A JP H11190996 A JPH11190996 A JP H11190996A
Authority
JP
Japan
Prior art keywords
voice
speech
synthesized
information
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10236623A
Other languages
Japanese (ja)
Inventor
Shingo Igarashi
伸吾 五十嵐
Hiroshi Kurita
洋 栗田
Keiichi Kato
圭一 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP10236623A priority Critical patent/JPH11190996A/en
Publication of JPH11190996A publication Critical patent/JPH11190996A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To make easily discriminable a synthesis voice from a natural voice in order to prevent a misuse of a telephone and the like and to make easily knowable a profile in the case of a synthesis voice by providing a means discriminating an actual human voice from a synthesis voice. SOLUTION: A system of receiver using a general telephone circuit is provided with a discriminating means 15 discriminating whether it is a synthesis voice or an actual human voice. When it cannot be mounted in a telephone, a voice is recorded and may be analyzed. And, information indicating a synthesis voice is extracted from a sound including this synthesis voice by an extracting means 16. And, the existence of this information is discriminated by a detecting means 17, when this information exists, a receiver of a telephone is informed of it by an informing means 18 that this information is a synthesis voice. In this case, an information signal indicating a synthesis voice has coherent frequencies of 2,900 Hz, 3,100 Hz, and this is generated in an information signal generating means.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明はパソコン、ワープロ、ゲ
ーム機、専用機、NC(ネットワークコンピュータ
ー)、STB(セット・トップ・ボックス)などを利用
して音声合成を行う際に、ユーザーが任意でかつ多様な
合成音声を発生するシステムに関し、特に音声が合成音
声か実際の人の声かを簡便に判定すること及びそれが合
成音声である場合その合成音声の生い立ちを簡便に明ら
かにするシステムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a personal computer, a word processor, a game machine, a special-purpose machine, an NC (network computer), an STB (set top box), and the like. In addition, the present invention relates to a system for generating a variety of synthesized voices, and more particularly to a system for easily determining whether a voice is a synthesized voice or a real human voice and, when it is a synthesized voice, a system for easily clarifying the origin of the synthesized voice. .

【0002】[0002]

【従来の技術】従来の音声合成に関しては、多種多様の
装置及び方法が提案されておりまた構内放送、ゲーム情
報サービス等の様々な分野で応用されている。音声は言
語として意味をなす最小単位である音素から構成されて
いる。この音素は波形として表現処理される。その波形
の一部あるいは全部が音声の合成に使用される音声素片
となる。この音声素片を合成単位として任意の音声を作
る合成方式では、各音声素片を一定の規則に従って結合
し、合成音声を発生させている。
2. Description of the Related Art A wide variety of devices and methods have been proposed for conventional speech synthesis, and are applied in various fields such as private broadcasting and game information services. Speech is composed of phonemes, which are the minimum units that make sense as a language. This phoneme is represented and processed as a waveform. A part or all of the waveform becomes a speech unit used for speech synthesis. In the synthesis method in which an arbitrary voice is generated by using the voice units as a synthesis unit, the voice units are combined according to a certain rule to generate a synthesized voice.

【0003】自然な言語を実現するために各音声素片の
接合の工夫も種々の工夫が提案されており人が実際に発
声するように自然な発声が実現されている。平成8年特
許願第213255号において提案しているように、人
間の声を基に各音声素片を含む各人間の音声辞書を作成
し前記音声辞書をユーザーに供給しユーザーは前記音声
辞書を任意に選択することにより、文章を任意の声質の
合成音声を得ることが可能である。
In order to realize a natural language, various devices have been proposed for joining voice units, and natural voices are realized as if a person actually utters voices. As proposed in Japanese Patent Application No. 21255/1996, a human voice dictionary including each voice segment is created based on a human voice, and the voice dictionary is supplied to a user. By arbitrarily selecting a sentence, it is possible to obtain a synthesized speech of a sentence having an arbitrary voice quality.

【0005】[0005]

【発明が解決しようとする課題】しかしながらある特定
の人の音声とその人の声を基に作成した音声辞書を使用
した合成音声とを必要に応じて悪用防止の点から判別す
る必要性がある。また合成された音声はそれぞれ合成ソ
フト及び任意の人の声を基に作成した音声辞書を使うわ
けであるから合成音声のプロフィール、すなわちどの合
成ソフトを使用し、どの音声辞書を使用したかというこ
とで合成音声の出典を明らかにすることができれば悪用
を防止する有用な手段となる。
However, it is necessary to discriminate, as necessary, the voice of a specific person and the synthesized voice using a voice dictionary created based on the voice of the person from the viewpoint of abuse prevention. . The synthesized speech uses the synthesis software and the voice dictionary created based on the voice of any person, so the profile of the synthesized voice, that is, which synthesis software was used and which voice dictionary was used If it is possible to clarify the source of the synthesized speech, it is a useful means for preventing abuse.

【0006】[0006]

【課題を解決するための手段】即ち、本発明によって提
供される手段は合成音声か肉声かを判別することであ
り、また合成音声の場合はそのプロフィールを明らかに
することである。人間の声を基に各音声素片を含む各人
間の音声辞書を作成し、前記音声辞書をユーザーに供給
し、ユーザーは前記音声辞書を選択することにより、ユ
ーザーの文章を任意の声質で合成音声を得るシステムに
おいて、実際の人の声と合成音声とを判別する手段を有
することである。
That is, the means provided by the present invention is to discriminate between synthesized voice and real voice, and in the case of synthesized voice, to clarify the profile. Based on the human voice, create a human voice dictionary including each speech unit, supply the voice dictionary to the user, and the user selects the voice dictionary, thereby synthesizing the user's text with an arbitrary voice quality A system for obtaining a voice is to have means for distinguishing between a real human voice and a synthesized voice.

【0007】そして前記判別手段は以下のように A:実際の人の声と合成音声を区別する目的で合成音声
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段 B:必要に応じて前記埋め込まれた情報を抽出する抽出
手段 C:前記合成音声であることを示す抽出された情報の有
無を検出する検出手段 の各手段を有することにより、人の声と合成音声との判
別を効果的に達成することが可能となる。
The discriminating means is as follows: A: embedding means for embedding information indicating synthetic speech in a product containing synthetic speech for the purpose of distinguishing between actual human voice and synthetic speech. Extracting means for extracting the embedded information in response thereto C: detecting means for detecting the presence / absence of the extracted information indicating the synthesized speech, thereby discriminating between human voice and synthesized speech. Can be effectively achieved.

【0008】前記埋め込み手段は合成音声であることを
示す情報を1以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加すればよい。実際に合成音声
を悪用する場合に想定される媒体は一般電話の場合が多
い。電話の周波数特性は300Hzから3400Hzの範囲
であるのでこの情報信号は300Hzから3400Hzの範
囲であることが好ましい。また容易にこの信号の有無を
知られないためにも合成音声を示す情報を暗号化するこ
とも有用である。そしてこの合成音声か肉声かの判別し
た結果を必要に応じて必要な人に通知する通知手段を設
ければ簡単に知ることが可能となる。通知手段としては
ディスプレーに視覚的に表示する方法、或いは音声ガイ
ドで聴覚的に示す等の方法をとればよい。
The embedding means may convert the information indicating that the speech is a synthesized speech into one or more specific information signals, and add the specific information signal to the synthesized speech. In many cases, the medium assumed when a synthetic voice is abused is a general telephone. Since the frequency characteristics of the telephone are in the range of 300 Hz to 3400 Hz, this information signal is preferably in the range of 300 Hz to 3400 Hz. It is also useful to encrypt the information indicating the synthesized speech so that the presence or absence of this signal is not easily known. Then, if a notification means is provided for notifying a necessary person of the result of discrimination between the synthesized voice and the real voice as needed, it can be easily known. As the notifying means, a method of visually displaying the information on the display, or a method of giving an audible indication with an audio guide may be used.

【0009】人間の声を基に各音声素片を含む各人間の
音声辞書を作成し前記音声辞書をユーザーに供給しユー
ザーは前記音声辞書を任意に選択することにより、任意
の文章をユーザーの任意の声質で合成音声を得るシステ
ムにおいて以下のように A:合成音声を含む成果物に情報を埋め込む埋め込み手
段 B:必要に応じて前記情報を抽出する抽出手段 C:前記情報を復号化する復号化手段 の各手段を有することにより任意の情報を合成音声を含
む成果物に埋め込み必要に応じてその情報を確認するこ
とが可能となる。
[0009] Based on a human voice, a speech dictionary of each person including each speech unit is created, and the speech dictionary is supplied to a user. The user can arbitrarily select the speech dictionary to thereby arbitrarily select an arbitrary sentence of the user. In a system for obtaining synthesized speech with an arbitrary voice quality, A: embedding means for embedding information in a product including synthesized speech B: extraction means for extracting the information as necessary C: decoding for decoding the information By having each means of the conversion means, it becomes possible to embed arbitrary information in a product including synthesized speech and to confirm the information as necessary.

【0010】合成された音声のプロフィールを明らかに
する目的を達成するために合成音声か肉声かを判別する
目的を達成するためには音声合成ソフトの個別番号(シ
リアルナンバー)及び音声辞書の個別番号(シリアルナ
ンバー)から選ばれた少なくとも1つの情報を成果物
(合成音声を含む)に埋め込めばよい。そして必要に応
じてこの埋め込まれた情報を合成音声を含む成果物より
抽出し、復号化すれば合成音声を含む成果物の判別情報
が明らかになる。
In order to achieve the purpose of clarifying the profile of the synthesized voice, the individual number (serial number) of the voice synthesis software and the individual number of the voice dictionary are required to achieve the purpose of determining whether the voice is synthesized voice or real voice. At least one piece of information selected from the (serial number) may be embedded in the product (including the synthesized speech). Then, if necessary, this embedded information is extracted from the product containing the synthesized speech and decoded, and the discrimination information of the product containing the synthesized speech becomes clear.

【0011】埋め込み手段としては合成音声に音声合成
ソフトの個別番号(シリアルナンバー)及び音声辞書の
個別番号(シリアルナンバー)から選ばれた少なくとも
1つの情報を合成音声に付加可能な特定の情報信号に加
工し、この信号を合成音声に付加するればよい。付加し
た情報信号は必要に応じて合成音声から抽出し、復号化
すればよい。この結果、合成ソフトの個別番号、音声辞
書の個別番号が明らかになる。
As an embedding means, at least one information selected from an individual number (serial number) of voice synthesis software and an individual number (serial number) of a voice dictionary is added to the synthesized speech to a specific information signal which can be added to the synthesized speech. After processing, the signal may be added to the synthesized speech. The added information signal may be extracted from the synthesized speech as necessary and decoded. As a result, the individual number of the synthesis software and the individual number of the voice dictionary become clear.

【0012】実際に合成音声を悪用する場合に想定され
る媒体は一般電話の場合が多い。電話の周波数特性は3
00Hzから3400Hzの範囲であるのでこの情報信号は
300Hzから3400Hzの範囲であることが好ましい。
また容易に合成音声を含む成果物に埋め込まれた情報を
知られないためにも情報を暗号化することも非常に有用
である。そしてこの情報を必要に応じて必要な人に通知
する通知手段を設ければ簡単に知ることが可能となる。
通知手段としてはディスプレーに視覚的に表示する方
法、或いは音声ガイドで聴覚的に示す等の方法をとれば
よい。
[0012] In many cases, a medium assumed when actually abusing synthesized speech is a general telephone. Phone frequency response is 3
This information signal is preferably in the range of 300 Hz to 3400 Hz since it is in the range of 00 Hz to 3400 Hz.
It is also very useful to encrypt the information so that the information embedded in the product including the synthesized speech is not easily known. If a notifying means is provided for notifying a necessary person of this information as needed, the information can be easily known.
As the notifying means, a method of visually displaying the information on the display, or a method of giving an audible indication with an audio guide may be used.

【0013】音声辞書を作成する際に、音声素片をメモ
リーに格納するときに、合成音声であることを示す標識
または音声辞書の個体識別番号を同じメモリーに格納し
ておき、音声合成時に合成音声標識あるいは個体識別番
号を分離して、合成された音声に埋め込む。ここで、各
音声素片のウエーブ格納部分にシリアル番号を分割し
て、いくつかの音声素片のメモリーに割り当てて格納し
ておく方が望ましい。
When a speech dictionary is created, when a speech unit is stored in a memory, a sign indicating that the speech is a synthesized speech or an individual identification number of the speech dictionary is stored in the same memory. The voice sign or the individual identification number is separated and embedded in the synthesized voice. Here, it is desirable to divide the serial number into the wave storage part of each speech unit and allocate and store it in the memory of some speech units.

【0014】これまで説明してきた合成音声の判別シス
テムにおいて 1)音声辞書の利用者に対してユーザー登録するステッ
プ、 2)ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、 3)登録ユーザーの音声辞書利用状況を記録するステッ
プ というステップをさらに加えて、ユーザー登録は、ユー
ザーへの識別番号の付与によって行い、音声辞書をその
ユーザーに配布するときに付与した識別番号を埋め込ん
でおく。そうすれば、不明の合成音声を判別し、合成に
使われた音声辞書のユーザーを特定することができる。
In the synthesized speech discrimination system described above, 1) a step of registering a user as a user of a voice dictionary, 2) a step of authenticating a user and distributing the voice dictionary to registered users, 3) In addition to the step of recording the usage status of the registered user's voice dictionary, user registration is performed by assigning an identification number to the user, and the identification number assigned when distributing the voice dictionary to the user is embedded. . Then, the unknown synthesized speech can be determined, and the user of the speech dictionary used for the synthesis can be specified.

【0015】[0015]

【作 用】前述のシステムによればある特定の人の音声
とその人の声を基に作成した音声辞書を使用した合成音
声とを必要に応じて判別することが可能である。また成
果物である合成音声の出典を調べることも容易となり、
合成音声を悪用する大きなな抑止手段となるだけではな
く、実際にある人から脅迫の電話がかかって来た場合に
おいてもその人か或いはその人の声を基に作成した音声
辞書を使用した合成音声を用いてのいたずらかの判別が
容易であり、かつ必要に応じて音声合成、音声辞書のシ
リアルナンバーを調査することにより、悪用した者を探
す手段となる。
[Operation] According to the above-mentioned system, it is possible to discriminate between a specific person's voice and a synthesized voice using a voice dictionary created based on that person's voice as necessary. It also makes it easier to look up the source of the synthesized speech,
Not only is it a great deterrent to abusing synthetic speech, but also using a voice dictionary created based on that person or his voice, even when a threatening call is actually received from a person It is easy to judge whether there is any mischief using voice, and it is a means of searching for a misused person by examining voice synthesis and a serial number of a voice dictionary as necessary.

【0016】[0016]

【実施例】以下、図面に従って本発明の実施例を説明す
る。図1は本発明の第1の実施例の概略を示している。
あるユーザーが任意の入力テキストを用いてある特定の
人の声を基にした音声辞書14を使用し音声合成を行
う。そしてこの音声は一般電話回線を通じて他の人に偽
の電話をかけた場合を想定する。まずあるユーザーは任
意の入力テキストテキスト解析部11においてテキスト
解析を行い、次に音声合成する。この場合図の音声合成
手段10に示してあるように、音声合成部12だけでな
く、合成音声であることを示す情報を埋め込む情報埋め
込み手段13を装備しておく。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 schematically shows a first embodiment of the present invention.
A certain user performs speech synthesis using an arbitrary input text and using a speech dictionary 14 based on a specific person's voice. Then, it is assumed that this voice makes a fake call to another person through a general telephone line. First, a certain user performs text analysis in an arbitrary input text / text analysis unit 11, and then performs speech synthesis. In this case, as shown in the voice synthesizing means 10 in the figure, not only the voice synthesizing unit 12 but also information embedding means 13 for embedding information indicating a synthesized voice is provided.

【0017】この結果が合成音声を含む成果の音であ
る。これを一般電話回線を通して受けた受け手のシステ
ムには合成音声であるか実際の肉声であるかを判別する
判別手段15を装備しておく。電話に装備できない場合
は録音しておきその結果を解析してもよい。そしてこの
合成音声を含む成果の音から抽出手段16において合成
音声であることを示す情報を抽出する。そして17にお
いてこの情報の有無を判別しこの情報がある場合には合
成音声であることを電話の受け手に通知手段18により
通知すればよい。
The result is the sound of the result including the synthesized speech. The receiving system that receives this through a general telephone line is provided with a determining means 15 for determining whether the voice is a synthesized voice or an actual voice. If you cannot equip the phone, you can record it and analyze the result. Then, information indicating the synthesized voice is extracted by the extracting means 16 from the sound of the result including the synthesized voice. Then, the presence or absence of this information is determined at 17, and if this information is present, the receiver of the telephone may be notified of the synthesized voice by the notification means 18.

【0018】前述したように実際に合成音声を悪用する
場合に想定される媒体は一般電話の場合が多い。電話の
周波数特性は300Hzから3400Hzの範囲であるので
この情報信号は300Hzから3400Hzの範囲である必
要がある。本実施例においては、合成音声であることを
示す情報信号を2900Hz及び3100Hzのそれぞれの
コヒーレントな周波数とし、図2に示す情報信号生成手
段20において作成する。この時の情報信号のパターン
を図3に示すように、2900Hzの信号を0.1秒 続
いて3100Hzの信号を0.02秒 そして無信号を
0.38秒という0.5秒周期のパターンを繰り返すも
のとした。
As described above, the medium assumed when a synthesized speech is actually exploited is a general telephone in many cases. Since the frequency characteristics of the telephone are in the range of 300 Hz to 3400 Hz, this information signal needs to be in the range of 300 Hz to 3400 Hz. In the present embodiment, the information signal indicating the synthesized speech is generated at the information signal generating means 20 shown in FIG. 2 with coherent frequencies of 2900 Hz and 3100 Hz. As shown in FIG. 3, the pattern of the information signal at this time is as follows: a 2900 Hz signal is 0.1 second, a 3100 Hz signal is 0.02 second, and a no signal is 0.38 second with a 0.5 second period pattern. It was to be repeated.

【0019】次にこの情報信号を情報信号付加手段21
において合成音声に付加する。この時合成音声によるマ
スキング効果(合成音声により合成音声であることを表
す情報信号をおおい隠す)を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより7dB
低く付加する。
Next, the information signal is transmitted to the information signal adding means 21.
In the synthesized speech. At this time, the intensity energy of the information signal is 7 dB higher than the intensity energy of the synthesized voice in order to use the masking effect by the synthesized voice (covering the information signal indicating that the synthesized voice is the synthesized voice).
Add low.

【0020】この合成音声を含む成果の音を一般公衆電
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段22において2900Hz及び3100
Hzのそれぞれの情報信号を抽出分離する。そして検出手
段23においてこの2900Hz及び3100Hzのそれぞ
れの情報信号が存在しかつ図3に示す情報信号パターン
と合致しているかどうかにより合成音声を示す情報信号
の有無を検出する。そして存在する場合にはディスプレ
ーに合成音声であることを表示する。
The resulting sound including the synthesized voice is transmitted over a general public telephone line. The receiver extracts and separates the 2900 Hz and 3100
Extract and separate each Hz information signal. Then, the detection means 23 detects the presence or absence of the information signal indicating the synthesized voice based on whether or not the information signals of 2900 Hz and 3100 Hz exist and match the information signal pattern shown in FIG. If it is present, the display indicates that it is a synthesized voice.

【0021】図4に、第2の実施例の概略を示す。本実
施例においてもあるユーザーが任意の入力テキストを用
いてある特定の人の声を基にした音声辞書44を使用し
音声の合成を行う。そしてこの音声は一般電話回線を通
じて他の人に偽の電話をかけた場合を想定する。まずあ
るユーザーは任意の入力テキストをテキスト解析部41
でテキスト解析を行い音声合成する。この場合音声合成
手段40に示してあるように、音声合成部42だけでな
く、情報埋め込み手段43を装備しておく。この埋め込
み手段43では音声合成ソフトのシリアルナンバーおよ
び音声辞書のシリアルナンバーを合成音声に埋め込む。
FIG. 4 shows an outline of the second embodiment. Also in the present embodiment, a certain user synthesizes voice using an arbitrary input text and using a voice dictionary 44 based on the voice of a specific person. Then, it is assumed that this voice makes a fake call to another person through a general telephone line. First, a certain user inputs an arbitrary input text into the text analysis unit 41.
Performs text analysis and synthesizes speech. In this case, as shown in the voice synthesizing unit 40, not only the voice synthesizing unit 42 but also the information embedding unit 43 is provided. The embedding means 43 embeds the serial number of the speech synthesis software and the serial number of the speech dictionary in the synthesized speech.

【0022】この結果が合成音声を含み音声合成ソフト
及び音声辞書のシリアルナンバーが埋め込んである成果
の音である。これを一般電話回線を通して受けた受け手
のシステムには情報取り出し手段45を装備しておく。
先ほどと同様に電話に装備できない場合は録音し、その
結果を解析してももよい。そしてこの合成音声を含む成
果の音から抽出手段46において合成ソフトおよび音声
辞書のシリアルナンバー情報を抽出する。そして47に
おいてこの情報を復号化し電話の受け手に通知手段48
により通知すればよい。
The result is a sound that includes synthesized speech and is embedded in the speech synthesis software and the serial number of the speech dictionary. The information receiving means 45 is provided in the system of the recipient who receives this via a general telephone line.
As before, if the telephone cannot be equipped, the recording may be performed and the result may be analyzed. Then, the extracting means 46 extracts the serial number information of the synthesized software and the voice dictionary from the sound of the result including the synthesized voice. Then, at 47, the information is decrypted and notified to the telephone receiver.
May be notified.

【0023】前述したよう悪用される媒体は電話の場合
が多いので、情報信号は300Hzから3400Hzの範囲
である必要がある。本実施例においては、各数字を以下
の各周波数を割り付ける。1:400Hz及び1900
Hz 2:550Hz及び2050Hz 3:700H
z及び2200Hz 4:850Hz及び2350H
z 5:1000Hz及び2500Hz 6:1150
Hz2650Hz 7:1300Hz及び2800Hz
8:1300Hz及び2950Hz 9:1450H
z及び2100Hz 0:1600Hz及び3250と
する。
As described above, since the medium to be exploited is often a telephone, the information signal needs to be in the range of 300 Hz to 3400 Hz. In the present embodiment, each number is assigned to each of the following frequencies. 1: 400 Hz and 1900
Hz 2: 550Hz and 2050Hz 3: 700H
z and 2200Hz 4: 850Hz and 2350H
z 5: 1000 Hz and 2500 Hz 6: 1150
Hz 2650 Hz 7: 1300 Hz and 2800 Hz
8: 1300Hz and 2950Hz 9: 1450H
z and 2100 Hz 0: 1600 Hz and 3250.

【0024】また合成ソフトのシリアルナンバーの先頭
を表す情報信号を500Hz及び1050Hz及び30
00Hz、合成ソフトのシリアルナンバーの最後を表す
情報信号を500Hz及び900Hz及び2850Hz
とする。音声辞書のシリアルナンバーの先頭を表す情報
信号を800Hz及び1200Hz及び3150Hz、
音声辞書のシリアルナンバーの最後を表す情報信号を8
00Hz及び1150Hz及び2700Hzとする。そ
れぞれの周波数はコヒーレントな周波数とし図5に示す
50の情報変換手段部分においてそれぞれ合成ソフト及
び音声辞書のシリアルナンバーをうけとり前述の割付を
基に変換を行い、51においてそれぞれの情報信号発生
する。
The information signal representing the head of the serial number of the synthesis software is 500 Hz, 1050 Hz and 30 Hz.
00 Hz, 500 Hz, 900 Hz and 2850 Hz information signals representing the end of the serial number of the synthesis software
And The information signal representing the head of the serial number of the voice dictionary is 800 Hz, 1200 Hz, 3150 Hz,
The information signal indicating the end of the serial number of the voice dictionary is 8
00 Hz, 1150 Hz and 2700 Hz. The respective frequencies are assumed to be coherent frequencies, and the information converter means 50 shown in FIG. 5 receives the serial numbers of the synthesizing software and the voice dictionary, converts them based on the above-mentioned assignment, and generates the respective information signals at 51.

【0025】合成ソフトおよび音声辞書のシリアルナン
バーがそれぞれ541732、285674とした図6
に合成ソフトを基にした情報信号のパターンと図7に音
声辞書のシリアルナンバーを基にした情報信号のパター
ンを示す。ここでそれぞれ図6及び図7の縦軸は情報信
号のそれぞれのコヒーレントな周波数を表し横軸は時間
をあらわしている。それぞれの情報信号のタイミングは
図示してあるように各1.0秒毎とした。
FIG. 6 shows that the serial numbers of the synthesis software and the voice dictionary are 541732 and 285674, respectively.
FIG. 7 shows an information signal pattern based on the synthesis software and FIG. 7 shows an information signal pattern based on the serial number of the voice dictionary. Here, the vertical axes of FIGS. 6 and 7 represent the respective coherent frequencies of the information signal, and the horizontal axes represent time. The timing of each information signal was set to 1.0 seconds as shown.

【0026】図6における3つの61は合成ソフトのシ
リアルナンバーの先頭を表し、3つの62は合成ソフト
のシリアルナンバーの最後を表している。そしてその間
が合成ソフトのシリアルナンバーを表している。同様に
図7における3つの71は音声辞書のシリアルナンバー
の先頭を表し、3つの72は音声辞書のシリアルナンバ
ーの最後を表している。そしてその間が音声辞書のシリ
アルナンバーを表している。
In FIG. 6, three 61 indicate the head of the serial number of the composite software, and three 62 indicate the last of the serial number of the composite software. The interval between them represents the serial number of the composite software. Similarly, three 71 in FIG. 7 indicate the head of the serial number of the voice dictionary, and three 72 indicate the last of the serial number of the voice dictionary. The interval between them represents the serial number of the audio dictionary.

【0027】次にこの情報信号を情報信号付加手段52
において合成音声に付加する。この時合成音声によるマ
スキング効果(合成音声により合成音声であることを表
す情報信号をおおい隠す)を利用するために情報信号の
強度エネルギーは合成音声の強度エネルギーより7dB
低く付加する。
Next, this information signal is converted to information signal adding means 52.
In the synthesized speech. At this time, the intensity energy of the information signal is 7 dB higher than the intensity energy of the synthesized voice in order to use the masking effect by the synthesized voice (covering the information signal indicating that the synthesized voice is the synthesized voice).
Add low.

【0028】この合成音声を含む成果の音を一般公衆電
話回線で送信する。受け手はこの合成音声を含む成果音
から抽出分離手段53においてそれぞれの情報信号を分
離する。そして復号手段53においてこの情報信号を復
号化する。復号化は前述の情報信号化の逆手順、すなわ
ち抽出分離した各コヒーレントな周波数信号から各情報
を読み出す。そして、合成ソフトのシリアルナンバー或
いは音声辞書のシリアルナンバー或いはその両者をディ
スプレーに表示する。
The resulting sound including the synthesized voice is transmitted over a general public telephone line. The receiver separates each information signal in the extraction / separation means 53 from the resultant sound including the synthesized voice. Then, the decoding means 53 decodes this information signal. Decoding is the reverse procedure of the above-mentioned information signal conversion, that is, each information is read from each extracted and separated coherent frequency signal. Then, the serial number of the synthesizing software and / or the serial number of the audio dictionary are displayed on the display.

【0029】図8は第3の実施例のフローである。ここ
では、音声を入力し81の音声認識手段で音素を検出
し、82の音声合成手段において、検出した音素をB氏
の声をもとに作成した84の音声辞書Bの音素に置き換
え、別の人の声を合成し合成音声Bを出力する。
FIG. 8 is a flow chart of the third embodiment. Here, a voice is input, a phoneme is detected by voice recognition means 81, and the detected phoneme is replaced with a phoneme of a voice dictionary B 84 based on the voice of Mr. And outputs a synthesized voice B.

【0030】図9は、音声辞書の個体識別番号(ここで
は、57639という5桁の数字)が、音声辞書のメモ
リーテーブルに格納された様態を図示したものである。
84の音声辞書Bを作成する時、B氏の声から切り出し
た音素片を格納するメモリーテーブルに音声辞書の個体
識別番号を格納する。81は、個体識別番号の5桁の数
字が格納される場所を示している。切り出された音素片
から、k1、k2、k3、k4、k5を選び、それらを
5桁の認識番号N1,N2,N3,N4,N5に割り振
って、音素片のメモリーテーブルに格納する。92は、
個体識別番号57639が、割り振られた様態を示して
いる。93は、音声素片k3のウェーブ格納メモリーに
割り当てられた個体識別番号の部分である「6」の格納
を示した図である。
FIG. 9 illustrates the manner in which the individual identification number (here, 57639 of five digits) of the voice dictionary is stored in the memory table of the voice dictionary.
When creating the speech dictionary B of 84, the individual identification number of the speech dictionary is stored in a memory table that stores speech segments cut out from the voice of Mr. B. Numeral 81 indicates a place where the five-digit number of the individual identification number is stored. The k1, k2, k3, k4, and k5 are selected from the cut-out phoneme pieces, are assigned to five-digit recognition numbers N1, N2, N3, N4, and N5, and are stored in the phoneme piece memory table. 92 is
The individual identification number 57639 indicates the allocated mode. Numeral 93 is a diagram showing the storage of "6" which is the part of the individual identification number assigned to the wave storage memory of the speech unit k3.

【0031】ユーザーAは、音声合成のために音声辞書
のプロバイダー85に対して音声辞書Bの供給を依頼す
る。この時、プロバイダーは登録ユーザーにのみ音声辞
書を供給することとし、登録がなされていなければ、8
6の認証機関に登録する。プロバイダーは、登録ユーザ
ーへ音声辞書を供給した場合、ユーザーの認識番号と音
声辞書の個体識別番号とを認証機関86に報告する。こ
のようにして、認証機関では、登録ユーザーの音声辞書
使用の状況を記録する。
The user A requests the speech dictionary provider 85 to supply the speech dictionary B for speech synthesis. At this time, the provider shall supply the audio dictionary only to registered users, and if no registration has been made, 8
Register with 6 certification bodies. When the provider has supplied the voice dictionary to the registered user, the provider reports the identification number of the user and the individual identification number of the voice dictionary to the certification authority 86. In this way, the certification organization records the use status of the registered user's voice dictionary.

【0032】図10に82の音声合成手段での個体識別
番号埋め込みのフローを示す。音声辞書の各音声素片に
格納された識別番号の部分は、101の識別番号分離手
段で分離される。分離された情報は、102の識別番号
再成手段でもとの形に戻し、103の識別信号生成手段
において実施例2で説明したような300Hzから34
00Hzの信号に変換し、104において合成音より7
db低くして付加することで埋め込む。
FIG. 10 shows a flow of embedding the individual identification number in the voice synthesis means 82. The identification number portion stored in each speech unit of the speech dictionary is separated by the identification number separation unit 101. The separated information is returned to the original form by the identification number reconstructing means 102, and the identification information generating means 103 converts the separated information from 300 Hz to 34 as described in the second embodiment.
The signal is converted to a signal of 00 Hz,
Embed by adding db lower.

【0032】音声辞書Bを使って、合成された合成音声
Bは、判別手段83において実施例2と同様に判別され
る。ここで必要なら認証機関86に問い合わせて、合成
音声に用いられた音声辞書のユーザー名を判別する。
The synthesized voice B synthesized using the voice dictionary B is determined by the determining means 83 in the same manner as in the second embodiment. Here, if necessary, an inquiry is made to the certification authority 86 to determine the user name of the speech dictionary used for the synthesized speech.

【発明の効果】以上説明したように本発明によれば、人
間の声を基にした音声辞書を使用し作成した合成音声と
実際の肉声かを容易に判別する可能となり、さらに合成
音声のプロフィールを追跡することが可能となる。
As described above, according to the present invention, it is possible to easily discriminate between a synthesized voice created using a voice dictionary based on a human voice and an actual real voice, and furthermore, a profile of the synthesized voice. Can be tracked.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の実施例の概要FIG. 1 is an outline of a first embodiment.

【図2】第1の実施例のフロチャートFIG. 2 is a flowchart of the first embodiment.

【図3】情報信号パターンFIG. 3 Information signal pattern

【図4】第2の実施例の概要FIG. 4 is an outline of a second embodiment.

【図5】第2の実施例のフロチャートFIG. 5 is a flowchart of a second embodiment.

【図6】合成ソフトのシリアルナンバーの情報信号パタ
ーン
FIG. 6 is an information signal pattern of a serial number of synthetic software.

【図7】音声辞書のシリアルナンバーの情報信号パター
FIG. 7 is an information signal pattern of a serial number of a voice dictionary.

【図8】第3の実施例のフローチャートFIG. 8 is a flowchart of a third embodiment.

【図9】音声辞書の個別識別番号の埋め込みの様態FIG. 9 shows a mode of embedding an individual identification number in a voice dictionary.

【図10】個別識別番号の埋め込みのフローチャートFIG. 10 is a flowchart for embedding an individual identification number.

【符号の説明】[Explanation of symbols]

10 音声合成手段 15 判別手段 40 音声合成手段 45 情報取り出し手段 DESCRIPTION OF SYMBOLS 10 Speech synthesis means 15 Judgment means 40 Speech synthesis means 45 Information extraction means

───────────────────────────────────────────────────── フロントページの続き (72)発明者 五十嵐 伸吾 埼玉県川越市藤間137−1 ソフィア川越 604 (72)発明者 栗田 洋 神奈川県藤沢市片瀬1丁目4番13号フェリ ス片瀬3−201 (72)発明者 加藤 圭一 神奈川県川崎市宮前区馬絹1634−1コスモ 宮崎台アバンシード305号 ────────────────────────────────────────────────── ─── Continuing from the front page (72) Inventor Shingo Igarashi 137-1 Fujima, Kawagoe-shi, Saitama 604 Sofia-Kawagoe 604 (72) Inventor Hiroshi Kurita 1-4-13-1 Katase, Katase, Fujisawa-shi, Kanagawa 3-201 Katase, Japan 72) Inventor Keiichi Kato 1634-1 Mashin, Miyamae-ku, Kawasaki City, Kanagawa Prefecture Cosmo Miyazakidai Avanseed 305

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】人間の声を基に音声辞書を作成し、前記音
声辞書を使用して音声合成を行うシステムにおいて、実
際の人の声と前記音声辞書を使用し合成した合成音声と
を判別する手段を有することを特徴とする合成音声判別
システム。
1. A system for creating a voice dictionary based on a human voice and performing voice synthesis using the voice dictionary, wherein an actual human voice and a synthesized voice synthesized using the voice dictionary are discriminated. A synthesized speech discriminating system, comprising:
【請求項2】前記判別手段は A:実際の人の声と合成音声を区別する目的で合成音声
を含む成果物に合成音声であることを示す情報を埋め込
む埋め込み手段 B:必要に応じて前記埋め込まれた情報を抽出する抽出
手段 C:前記合成音声であることを示す抽出された情報の有
無を検出する検出手段 以上の手段を有することにより実際の人の声と合成音声
を判別することを特徴とする特許請求範囲第1項記載の
合成音声判別システム。
2. The discriminating means includes: A: embedding means for embedding information indicating that the speech is a synthesized speech in a product including a synthesized speech for the purpose of distinguishing an actual human voice from a synthesized speech. Extraction means for extracting embedded information C: Detection means for detecting the presence or absence of the extracted information indicating the synthesized speech The presence of the above means enables the discrimination between the actual human voice and the synthesized speech. The synthesized speech discrimination system according to claim 1, characterized in that:
【請求項3】前記埋め込み手段は合成音声であることを
示す情報を1以上の特定の情報信号に変換し前記特定の
情報信号を合成音声に付加することを特徴とする特許請
求範囲第2項記載の合成音声判別システム。
3. The apparatus according to claim 2, wherein said embedding means converts information indicating that the speech is synthesized speech into one or more specific information signals and adds the specific information signal to the synthesized speech. The synthesized speech discrimination system described.
【請求項4】前記合成音声に付加される情報信号は30
0Hzから3400Hzの範囲の情報信号であることを特徴
とする特許請求範囲第3項記載の合成音声判別システ
ム。
4. The information signal added to the synthesized speech is 30
4. The system according to claim 3, wherein the information signal is an information signal in a range of 0 Hz to 3400 Hz.
【請求項5】人間の声を基に音声辞書を作成し、前記音
声辞書を使用して音声合成を行うシステムにおいて A:合成音声を含む成果物に情報を埋め込む埋め込み手
段 B:必要に応じて前記情報を抽出する抽出手段 C:前記抽出した情報を復号化する復号化手段 以上の手段を有することを特徴とする合成音声判別シス
テム。
5. A system for creating a speech dictionary based on human voice and performing speech synthesis using the speech dictionary. A: Embedding means for embedding information in a product containing a synthesized speech. B: As required. Extraction means for extracting the information C: decoding means for decoding the extracted information A synthetic speech discrimination system comprising the above means.
【請求項6】前記合成音を含む成果物に埋め込む情報
は、その合成音が合成されるまでの履歴を示す情報であ
ることを特徴とする特許請求範囲第5項記載の合成音声
判別システム。
6. The synthesized speech discrimination system according to claim 5, wherein the information to be embedded in the product including the synthesized speech is information indicating a history until the synthesized speech is synthesized.
【請求項7】前記合成音を含む成果物に埋め込む情報が
音声合成ソフトの個別番号(シリアルナンバー)及び音
声辞書の個別番号(シリアルナンバー)から選ばれた少
なくとも1つの情報であることを特徴とする特許請求範
囲第5項記載の合成音声判別システム。
7. The information to be embedded in the product including the synthesized sound is at least one information selected from an individual number (serial number) of voice synthesis software and an individual number (serial number) of a voice dictionary. The synthesized speech discrimination system according to claim 5, wherein
【請求項8】前記埋め込み手段は情報を特定の情報信号
に変換し合成音声に前記特定の情報信号を付加すること
であることを特徴とする特許請求範囲第5項記載の合成
音声判別システム。
8. The synthesized speech discrimination system according to claim 5, wherein said embedding means converts information into a specific information signal and adds the specific information signal to a synthesized speech.
【請求項9】前記付加する情報信号が300Hzから34
00Hzの範囲の情報信号であることを特徴とする特許請
求範囲第8項記載の合成音声判別システム。
9. An information signal to be added is 300 Hz to 34 Hz.
9. The synthesized speech discrimination system according to claim 8, wherein the information signal is an information signal in a range of 00 Hz.
【請求項10】前記情報は暗号化されたことを特徴とす
る情報であることを特徴とする特許請求範囲第5項記載
の合成音声判別システム。
10. A system according to claim 5, wherein said information is information that is encrypted.
【請求項11】前記合成音声か否かの結果及び前記合成
音声を含む成果物に埋め込まれた情報から選ばれた少な
くとも1つを通知する通知手段を有することを特徴とす
る特許請求範囲第1項記載および第5項記載の合成音声
判別システム。
11. A system according to claim 1, further comprising a notifying means for notifying a result of whether or not the synthesized voice is included and at least one selected from information embedded in a product including the synthesized voice. Item 6. The synthesized speech discrimination system according to item 5 and item 5.
【請求項12】音声辞書を作成する際、各音声素片を格
納するメモリーに合成音声を示す標識或いは音声辞書の
個体識別記号を示す標識を付加してあることを特徴とす
る特許請求範囲第1項記載および第5項記載の合成音声
判別システム。
12. When the speech dictionary is created, a mark indicating a synthesized speech or a sign indicating an individual identification symbol of the speech dictionary is added to a memory for storing each speech unit. Item 7. The synthesized speech discrimination system according to Item 1 or 5.
【請求項13】前記音声辞書の個体識別記号を示す標識
は各音声素片のメモリーに分割して格納し、音声合成時
に音声素片から分離し合成音声に音声辞書個体識別記号
を埋め込むことを特徴とする特許請求範囲12項記載の
合成音声判別システム。
13. The sign indicating the individual identification symbol of the speech dictionary is divided and stored in the memory of each speech unit, separated from the speech unit at the time of speech synthesis, and the speech dictionary individual identification symbol is embedded in the synthesized speech. 13. The synthesized speech discrimination system according to claim 12, wherein:
【請求項14】前記音声素片のウエーブ格納の部分に前
記個体識別番号を格納することを特徴とする特許請求範
囲第13項記載の合成音声判別システム。
14. The synthesized speech discrimination system according to claim 13, wherein said individual identification number is stored in a portion of said speech unit which is stored in a wave.
【請求項15】人間の声を基に音声辞書を作成し、前記
音声辞書を使用して音声合成を行うシステムにおいて 1)音声辞書の利用者に対してユーザー登録するステッ
プ、 2)ユーザーの認証を行って、登録ユーザーに音声辞書
の配布するステップ、 3)登録ユーザーの音声辞書利用状況を記録するステッ
プ、 以上を特徴とする特許請求範囲第5項、第6項、第7
項、第8項、第10項および第12項記載の合成音声判
別システム。
15. A system for creating a voice dictionary based on a human voice and performing voice synthesis using the voice dictionary: 1) registering a user of a voice dictionary user; 2) authenticating a user Performing a step of distributing a voice dictionary to registered users; 3) recording a voice dictionary usage status of the registered user; and claim 5, claim 6, and claim 7.
Item 13. The synthesized speech discrimination system according to Item 8, Item 10, and Item 12.
【請求項16】前記ユーザー登録は、ユーザーへの識別
番号を付与によって行われることを特徴とする特許請求
範囲第15項記載の合成音声判別システム。
16. The synthesized speech discrimination system according to claim 15, wherein said user registration is performed by giving an identification number to a user.
【請求項17】前記音声辞書の配布において、ユーザー
の識別番号を音声辞書に埋め込む作業が行われることを
特徴とする特許請求範囲第15項記載の合成音声判別シ
ステム。
17. The synthesized speech discrimination system according to claim 15, wherein in the distribution of said speech dictionary, an operation of embedding a user identification number in the speech dictionary is performed.
【請求項18】合成音声に埋め込まれた情報を抽出し、
合成音声の使用者を検出することを特徴とする特許請求
範囲第15項記載の合成音声判別システム。
18. Extracting information embedded in synthesized speech,
16. The synthesized speech discrimination system according to claim 15, wherein a user of the synthesized speech is detected.
JP10236623A 1997-08-15 1998-08-10 Synthesis voice discriminating system Pending JPH11190996A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10236623A JPH11190996A (en) 1997-08-15 1998-08-10 Synthesis voice discriminating system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP23329197 1997-08-15
JP9-233291 1997-08-15
JP10236623A JPH11190996A (en) 1997-08-15 1998-08-10 Synthesis voice discriminating system

Publications (1)

Publication Number Publication Date
JPH11190996A true JPH11190996A (en) 1999-07-13

Family

ID=26530968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10236623A Pending JPH11190996A (en) 1997-08-15 1998-08-10 Synthesis voice discriminating system

Country Status (1)

Country Link
JP (1) JPH11190996A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297199A (en) * 2001-03-29 2002-10-11 Toshiba Corp Method and device for discriminating synthesized voice and voice synthesizer
JP2014511154A (en) * 2011-03-17 2014-05-12 インターナショナル・ビジネス・マシーンズ・コーポレーション Method, system, and computer program product for speech conversion, and method and system for reconstructing speech conversion
WO2014199450A1 (en) * 2013-06-11 2014-12-18 株式会社東芝 Digital-watermark embedding device, digital-watermark embedding method, and digital-watermark embedding program
KR20220040813A (en) * 2020-09-24 2022-03-31 장원준 Computing Detection Device for AI Voice
CN116153337A (en) * 2023-04-20 2023-05-23 北京中电慧声科技有限公司 Synthetic voice tracing evidence obtaining method and device, electronic equipment and storage medium

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297199A (en) * 2001-03-29 2002-10-11 Toshiba Corp Method and device for discriminating synthesized voice and voice synthesizer
JP2014511154A (en) * 2011-03-17 2014-05-12 インターナショナル・ビジネス・マシーンズ・コーポレーション Method, system, and computer program product for speech conversion, and method and system for reconstructing speech conversion
WO2014199450A1 (en) * 2013-06-11 2014-12-18 株式会社東芝 Digital-watermark embedding device, digital-watermark embedding method, and digital-watermark embedding program
JPWO2014199450A1 (en) * 2013-06-11 2017-02-23 株式会社東芝 Digital watermark embedding apparatus, digital watermark embedding method, and digital watermark embedding program
US9881623B2 (en) 2013-06-11 2018-01-30 Kabushiki Kaisha Toshiba Digital watermark embedding device, digital watermark embedding method, and computer-readable recording medium
KR20220040813A (en) * 2020-09-24 2022-03-31 장원준 Computing Detection Device for AI Voice
CN116153337A (en) * 2023-04-20 2023-05-23 北京中电慧声科技有限公司 Synthetic voice tracing evidence obtaining method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
CN101124623B (en) Voice authentication system and method
CN104123115B (en) Audio information processing method and electronic device
US9792912B2 (en) Method for verifying the identity of a speaker, system therefore and computer readable medium
TWI711967B (en) Method, device and equipment for determining broadcast voice
US20020088336A1 (en) Method of identifying pieces of music
JP3812848B2 (en) Speech synthesizer
CN102203853B (en) Method and apparatus for synthesizing a speech with information
EP1100073A2 (en) Classifying audio signals for later data retrieval
GB2393605A (en) Selecting actions or phrases for an agent by analysing conversation content and emotional inflection
CN105283916B (en) Electronic watermark embedded device, electronic watermark embedding method and computer readable recording medium
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
JPH11190996A (en) Synthesis voice discriminating system
Oermann et al. Verifier-tuple for audio-forensic to determine speaker environment
CN110992984B (en) Audio processing method and device and storage medium
JP2006227330A (en) Embedding device/method of information to audio signals, extraction device/method of information from audio signals
Chen et al. Audio privacy: reducing speech intelligibility while preserving environmental sounds
JP2002297199A (en) Method and device for discriminating synthesized voice and voice synthesizer
JPH1125112A (en) Method and device for processing interactive voice, and recording medium
JP3394289B2 (en) Symbol processing device for speech synthesis
JP3626398B2 (en) Text-to-speech synthesizer, text-to-speech synthesis method, and recording medium recording the method
JPS5962899A (en) Voice recognition system
Mezghani et al. Speech/music discrimination-based audio characterization using blind watermarking scheme.
JPH11249683A (en) Voice input device
JPH02109100A (en) Voice input device
Stopczańska Music trademarks and their protection in Trademark and Copyright Law