JP4256393B2 - Voice processing method and program thereof - Google Patents

Voice processing method and program thereof Download PDF

Info

Publication number
JP4256393B2
JP4256393B2 JP2006009913A JP2006009913A JP4256393B2 JP 4256393 B2 JP4256393 B2 JP 4256393B2 JP 2006009913 A JP2006009913 A JP 2006009913A JP 2006009913 A JP2006009913 A JP 2006009913A JP 4256393 B2 JP4256393 B2 JP 4256393B2
Authority
JP
Japan
Prior art keywords
state
speech
paragraph
probability
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2006009913A
Other languages
Japanese (ja)
Other versions
JP2006146261A (en
Inventor
浩太 日▲高▼
理 水野
信弥 中嶌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006009913A priority Critical patent/JP4256393B2/en
Publication of JP2006146261A publication Critical patent/JP2006146261A/en
Application granted granted Critical
Publication of JP4256393B2 publication Critical patent/JP4256393B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To extract a summary section by deciding an emphasizing state in a conversation without depending upon a speaker. <P>SOLUTION: A code book which stores appearance probabilities groups of speech feature quantities, such as temporal variation characteristics of a fundamental frequency, power, and a dynamic feature quantity, in an emphasizing state by codes and also stores respective inter-frame transition probabilities using a hidden Markov model and output probabilities by state transitions while the appearance probabilities by the codes are regarded initial state probabilities is used to find initial state probabilities of the groups of speech feature quantities of respective starting frames in speech small paragraphs including voiced sections sandwiched between voiceless sections in a speech signal, find output probabilities by state transitions of the groups of speech feature quantities and inter-frame transition probabilities for respective 2nd and succeeding frames, and find likelihoods of the speech small paragraphs based upon the maximum value or the total sum of the product among products of the initial state probabilities, output probabilities, and transition probabilities by all state transition paths of the speech small paragraphs. <P>COPYRIGHT: (C)2006,JPO&amp;NCIPI

Description

この発明は音声信号を分析して、人間が発声した内容のうち強調した部分を抽出する方法、その方法に用いる音声処理方法、及びそのプログラムに関する。   The present invention relates to a method of analyzing an audio signal and extracting an emphasized portion of content uttered by a human, an audio processing method used in the method, and a program thereof.

音声信号から、その発声内容のうち発話者が重要なものとして強調している部分を抽出して、その発話内容の要約を自動的に作成することが提案されている。例えば特許文献1では、音声信号を解析してFFTスペクトルやLPCケプストラムなどを音声特徴量として求め、任意の区間の音声特徴量系列と、他の区間の音声特徴量系列とのDPマッチングを行って、これら系列間の距離を求め、この距離が所定以下の場合、これらの両区間は音韻的に類似した区間であると抽出し、時間位置情報を加えて重要部分としている。つまり音声中の繰り返し出現する言葉は重要であることが多いという現象を利用したものである。   It has been proposed to extract from the speech signal a portion of the utterance content that the speaker emphasizes as important and automatically create a summary of the utterance content. For example, in Patent Document 1, an audio signal is analyzed to obtain an FFT spectrum, an LPC cepstrum, or the like as an audio feature quantity, and DP matching is performed between an audio feature quantity sequence in an arbitrary section and an audio feature quantity series in another section. The distance between these sequences is obtained, and when the distance is less than or equal to a predetermined distance, both sections are extracted as phonologically similar sections, and time position information is added as an important part. In other words, it uses the phenomenon that words that appear repeatedly in speech are often important.

また特許文献2では、話者同士による対話音声などの音声信号からFFTスペクトルやLPCケプストラムなどを音声特徴量として求め、この音声特徴量を用いて音素片を認識して音素片記号系列を求め、区間どうしの音素片系列のDPマッチングにより、両区間の距離を求め、その距離が小さいものを、つまり音韻的に類似した区間を重要部分と抽出し、更にシソーラスを用いて、複数の話題内容を推定している。
また音声中の文や単語単位を抽出する技術として、音声中の文や単語単位の語調成分とアクセント成分とを合わせたピッチパターンが、低いピッチ周波数から始まって中ごろ前半で一番高く、後半徐々に低くなり、語尾で急激に低くなって発音がとまるという日本語によく現れる性質を活用した方法がある。例えば、非特許文献1などである。
In Patent Document 2, an FFT spectrum, an LPC cepstrum, and the like are obtained as speech feature amounts from speech signals such as dialogue speech between speakers, and phoneme symbol sequences are obtained by recognizing phonemes using the speech feature amounts. By DP matching of phoneme sequences between sections, the distance between both sections is obtained, and the one with a small distance, that is, the phonologically similar section is extracted as an important part, and further, a thesaurus is used to extract a plurality of topic contents. Estimated.
Also, as a technique for extracting sentence and word units in speech, the pitch pattern that combines the tone component and accent component of sentences and words in speech starts at a low pitch frequency and is the highest in the first half, and gradually in the second half. There is a method that takes advantage of the property that often appears in Japanese that the pronunciation is suddenly lowered at the end of the word. For example, Non-Patent Document 1 is used.

音声信号を伴う映像情報から重要なシーンをその音声信号を利用して抽出することが特許文献3で提案されている。これには音声信号を解析してスペクトル情報、急な立ち上がりと短時間持続する信号レベルなどの音声特徴量をとらえ、予め設定されている条件、例えば観客の歓声があがった時の音声信号の音声特徴量と比べて類似または近似する部分を抽出し、それらをつなぎ合わせることが開示されている。
特開平10-39890号公報 特開2000-284793号公報 特開平3−80782号公報 板橋等、「韻律情報を考慮した音声要約の一方法」日本音響学会2000年春季研究発表会講演論文集I 239〜240
Patent Document 3 proposes extracting an important scene from video information accompanied by an audio signal using the audio signal. This is done by analyzing the audio signal and capturing spectral features, audio features such as sudden rises and signal levels that last for a short time, and the audio of the audio signal when the audience is cheering for a preset condition, for example It is disclosed to extract portions that are similar or approximate to the feature amount and connect them together.
Japanese Patent Laid-Open No. 10-39890 JP 2000-284793 A JP-A-3-80782 Itabashi et al. "A method of speech summarization considering prosodic information" The Acoustical Society of Japan 2000 Spring Meeting I 239-240

特開平10−39890号公報に示すものは、FFTスペクトルやLPCケプストラムなど音声特徴量が、話者に依存するため、不特定発声者の音声信号や、複数の不特定話者の会話に対応できない問題があった。また、スペクトル情報を用いているため、原稿などを使用しない、自然な話し言葉や会話への適応は難しく、複数話者の同時発話が出現する環境への実現は困難である。
特開2000−284793号公報に示すものでは、重要部分を音素片記号系列として認識しているため、特開平10−39890号公報の技術と同様に原稿などを使用しない、自然な話し言葉や会話への適応は難しく、複数話者の同時発話が出現する環境への実現は困難である。また要約音声の単語認識結果とシソーラスを用いて話題要約を試みているが、定量的な評価を行っておらず、重要な単語は出現頻度が高く継続時間が長いという仮定に基づいているが、言語的な情報を利用していないため、話題に関係のない単語が抽出されてしまう問題があった。
In Japanese Patent Laid-Open No. 10-39890, since voice features such as FFT spectrum and LPC cepstrum depend on the speaker, the voice signal of an unspecified speaker or a conversation of a plurality of unspecified speakers cannot be handled. There was a problem. In addition, since spectrum information is used, it is difficult to adapt to natural spoken language and conversation without using a manuscript or the like, and it is difficult to realize an environment in which multiple speakers speak simultaneously.
In the one shown in Japanese Patent Laid-Open No. 2000-284793, the important part is recognized as a phoneme symbol series, so that a natural spoken word or conversation is avoided without using a manuscript or the like as in the technique of Japanese Patent Laid-Open No. 10-39890. Is difficult to adapt, and it is difficult to realize an environment where multiple speakers speak simultaneously. We are also trying to summarize topics using word recognition results and thesaurus of summary speech, but we have not performed a quantitative evaluation and based on the assumption that important words have a high appearance frequency and a long duration. Since linguistic information is not used, there is a problem that words unrelated to the topic are extracted.

また、原稿などを使用しない、自然な話し言葉は、文法が適切でないことが多く、発話方法が話者に依存するため、意味を理解できる単位としての音声段落を、基本周波数から抽出するのは、板橋秀一等、「韻律情報を考慮した音声要約の一方法」 日本音響学会2000年春季研究発表会講演論文集I 239〜240の方法では問題がある。
特開平3−80782号公報に示すものは、予め抽出する条件を設定しなければならなく、また、抽出した音声区間が短く、再構成のために切り取り、合わせた場合、その切り取った部分の前後において音声の特徴が不連続となるため聞き取りにくい問題があった。
In addition, natural spoken words that do not use manuscripts etc. often have grammatical inaccuracy, and the utterance method depends on the speaker, so extracting the speech paragraph as a unit that can understand the meaning from the fundamental frequency is Shuichi Itabashi et al., “A method of speech summarization considering prosodic information” The method of the IEE239-240 Spring Proceedings of the Acoustical Society of Japan 2000 has problems.
Japanese Patent Application Laid-Open No. 3-80782 discloses that the conditions for extraction must be set in advance, and the extracted speech section is short and is cut out for reconstruction. In this case, there is a problem that it is difficult to hear due to the discontinuity of voice characteristics.

この発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、予め抽出したい条件を設定することなく、また、原稿などを使用しない、自然な話し言葉や会話においても、話者に依存せず、複数話者の同時発話にも依存せず、雑音環境でも安定して、音声が強調状態であるか平静状態であるかの判定ができる音声処理方法、またその方法を利用して音声の要約区間を自動的に抽出できる音声処理方法、及びこれらのプログラムを提供することを目的とする。   The present invention has been made in view of the above-mentioned drawbacks of the prior art. The speaker can be used in natural spoken words and conversations without setting conditions to be extracted in advance and without using a manuscript. A speech processing method that can determine whether the speech is in an emphasized state or in a calm state without depending on the simultaneous speech of multiple speakers, stable in a noisy environment, and using that method It is an object of the present invention to provide a speech processing method capable of automatically extracting speech summary sections and these programs.

この発明によれば、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうちの少なくともいずれか1つを含む音声特徴量の組からなる音声特徴量ベクトルにそれぞれのコードを対応させ、
上記強調状態での上記各コードが出現するコード出現確率と、上記強調状態での各状態が遷移する状態遷移確率と、上記強調状態での状態遷移時に上記コードが出現する遷移コード出現確率とを格納した符号帳を作成し、
上記強調状態での初期状態確率に対応する上記コード出現確率と、上記強調状態での上記音声特徴量ベクトルに対応する状態遷移ごとの上記遷移コード出現確率と状態遷移に対応する強調状態での上記状態遷移確率からなる強調状態音響モデルを上記符号帳を用いて作成し、
(a-1) フレーム毎の音声信号について、無声区間か有声区間か判定し、
(a-2) 所定フレーム数以上の無声区間に挟まれ、少なくとも1フレーム以上の有声区間を含む部分を音声小段落とし、
(a-3) 上記音声小段落の最初のフレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの強調状態での初期状態確率を上記符号帳から求め、
上記強調状態音響モデルより上記音声小段落の2番目以降の各フレームについて上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルに対応する状態遷移ごとの強調状態での出力確率を求め、上記音声小段落内の各フレーム間の強調状態での遷移確率を求め、
(b) 上記音声小段落における全ての状態遷移経路ごとの上記強調状態での初期状態確率と上記出力確率と上記遷移確率の積の最大値又は上記積の総和に基づき、上記音声小段落が強調状態となる尤度を算出し、
(c) 上記強調状態となる尤度に基づいて上記音声小段落が強調状態であるか否かを判定する。
According to this invention,
At least one of six of the basic frequency, the power, the time variation characteristic of the dynamic feature amount, the difference between frames of the fundamental frequency, the difference between frames of the power, and the difference between frames of the time variation property of the dynamic feature amount Each code corresponds to a speech feature vector consisting of a set of speech features
A code appearance probability that each code appears in the emphasized state, a state transition probability that each state changes in the emphasized state, and a transition code appearance probability that the code appears in the state transition in the emphasized state Create a stored codebook,
The code appearance probability corresponding to the initial state probability in the emphasized state, the transition code appearance probability for each state transition corresponding to the speech feature vector in the emphasized state, and the emphasized state corresponding to the state transition the emphasized state acoustic model consisting of the state transition probability created using the codebook,
(a-1) For the audio signal for each frame, determine whether it is unvoiced or voiced,
(a-2) A portion including a voiced section of at least one frame sandwiched between unvoiced sections of a predetermined number of frames or more is a voice sub-paragraph,
(a-3) Obtaining an initial state probability in the emphasized state of a speech feature vector corresponding to a code obtained by quantizing the speech feature set of the first frame of the speech sub-paragraph from the codebook,
For the second and subsequent frames of the speech sub-paragraph from the enhanced state acoustic model, the output probability in the enhanced state for each state transition corresponding to the speech feature vector corresponding to the code obtained by quantizing the speech feature set pair. Find the transition probability in the emphasized state between each frame in the audio sub-paragraph,
(b) The voice sub-paragraph is emphasized based on the maximum value of the product of the initial state probability and the output probability and the transition probability in the emphasized state or the sum of the products for all the state transition paths in the voice sub-paragraph. Calculate the likelihood of becoming a state,
(c) It is determined whether or not the audio sub-paragraph is in the emphasized state based on the likelihood of being in the emphasized state.

以上述べたようにこの発明によれば、自然な話し言葉の音声の、音声強調状態や音声段落を抽出でき、音声小段落の発話の強調状態を判定できる。この方法を使用して、強調状態である音声小段落を含む音声段落を切り取り、合わせて再構成した音声が、元の音声の重要部分を伝える、要約音声を作成することが可能となる。しかも発話状態の判定や音声要約は話者に依存しない。   As described above, according to the present invention, it is possible to extract the voice emphasis state and the voice paragraph of the speech of the natural spoken language, and to determine the utterance emphasis state of the speech sub-paragraph. Using this method, it is possible to create a summary speech in which speech paragraphs that include emphasized speech sub-paragraphs are cut out and the reconstructed speech conveys a significant portion of the original speech. Moreover, the determination of speech state and voice summarization do not depend on the speaker.

以下に図面を参照してこの発明の音声強調状態判定を行う音声処理方法とともにこの方法を用いた音声強調状態要約方法を説明する。まずこの発明の実施例においても一部を用いる参考例を説明する。
第1参考例
図1にこの参考例による音声要約方法の基本手順を示す。ステップS1で入力音声信号を分析して音声特徴量を抽出する。この音声特徴量の組は音声処理技術においては規格化して使用されるので後で述べるように話者に依存しない規格化したパラメータとして使用する。ステップS2で入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出し、ステップS3で各音声小段落を構成するフレームが平静状態か、強調状態かの発話状態を判定し、この判定に基づきステップS4で要約音声を作成し、音声要約を得る。
A speech enhancement state summarizing method using this method as well as a speech processing method for performing speech enhancement state determination according to the present invention will be described below with reference to the drawings. First, a reference example using a part of the embodiment of the present invention will be described.
First Reference Example FIG. 1 shows a basic procedure of a speech summarization method according to this reference example. In step S1, the input voice signal is analyzed to extract a voice feature amount. Since this set of speech feature values is used after being standardized in the speech processing technology, it is used as a standardized parameter independent of the speaker as described later. In step S2, an audio sub-paragraph of the input audio signal and an audio paragraph composed of a plurality of audio sub-paragraphs are extracted. In step S3, an utterance state indicating whether the frame constituting each audio sub-paragraph is calm or emphasized is determined. Based on this determination, a summary voice is created in step S4 to obtain a voice summary.

以下に、原稿などを使用しない、自然な話し言葉や会話音声の、音声要約に適応する場合の第1参考例を述べる。音声特徴量としては、スペクトル情報などに比べて、雑音環境下でも安定して得られ、かつ発話状態の判定が話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数f0、パワーp、音声の動的特徴量の時間変化特性d、無声区間Tsを抽出する。これらの音声特徴量の抽出法は、たとえば、「音響・音声工学」(古井貞煕、近代科学社、1992)、「音声符号化」(守谷健弘、電子情報通信学会、1998)、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」(嵯峨山茂樹、博士論文、1998)などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり日本国特許第2976998号に記載のものを用いてもよい。即ち、スペクトル包絡を反映するLPCスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数、即ち動的特徴量が求められる。より具体的にはフレーム毎にLPCケプストラム係数C1(t), …, CK(t)を抽出して次式のような時点tでの動的特徴量d(ダイナミックメジャー)を求める。 In the following, a first reference example in the case of adapting to speech summarization of natural spoken words and conversational speech without using a manuscript will be described. As the speech feature amount, a speech feature amount that can be obtained more stably in a noise environment than the spectrum information and the speech state determination is less dependent on the speaker is used. A basic frequency f0, power p, a time dynamic characteristic d of voice dynamic feature, and an unvoiced section T s are extracted from the input speech signal as speech feature. These speech feature extraction methods include, for example, “acoustic / speech engineering” (Sadaaki Furui, Modern Science, 1992), “speech coding” (Takehiro Moriya, IEICE, 1998), “digital "Speech processing" (Sadaaki Furui, Tokai University Press, 1985), "Study on speech analysis algorithm based on composite sine wave model" (Shigeki Hatakeyama, PhD thesis, 1998). The time change of the dynamic feature amount of the voice is a parameter serving as a measure of the speech speed, and the one described in Japanese Patent No. 2976998 may be used. That is, the time change characteristic of the LPC spectrum coefficient reflecting the spectrum envelope is obtained, and the speech rate coefficient, that is, the dynamic feature amount is obtained based on the time change. More specifically, the LPC cepstrum coefficients C 1 (t),..., C K (t) are extracted for each frame, and the dynamic feature quantity d (dynamic measure) at the time t as shown in the following equation is obtained.

Figure 0004256393
Figure 0004256393

ここで、±F0は前後の音声区間フレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)、KはLPCケプストラムの次数、k = 1, 2, …,Kである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
参考例では例えば100msを1フレーム長とし、フレームの開始点を50msずつシフトし、1フレームごとに入力信号の平均の基本周波数f0'を求める。パワーについても同様に1フレームごとに入力信号の平均パワーp'を求める。更に現フレームのf0'とiフレーム前のf0'と後のf0'との差分をとり、それぞれΔf0'(-i), Δf0'(i)とする。パワーについても同様に現フレームのp'とiフレーム前後のp'との差分Δp'(-i), Δp'(i)を求める。次にこれらf0'、Δf0'(-i), Δf0'(i)、p'、Δp'(-i), Δp'(i)を規格化する。この規格化は例えばf0'、 Δf0'(-i),Δf0'(i)をそれぞれ、例えば音声波形全体の平均基本周波数で割り算することにより規格化する。あるいは後述する音声小段落、又は音声段落ごとの平均基本周波数で割り算してもよいし、あるいは数秒後と又は数分後との平均基本周波数で割り算してもよい。これら規格化された値をf0"、Δf0"(-i),Δf0"(i)と表わす。p'、Δp'(-i), Δp'(i)についても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割算し、規格化する。あるいは、音声小段落、音声段落ごとの平均パワーで割算してもよい。あるいは数秒毎又は数分毎の平均パワーで割算していもよい。これら規格化された値をp"、Δp"(-i), Δp"(i)と表わす。iの値は例えばi=4とする。
Here, ± F 0 is the number of frames in the preceding and following speech sections (not necessarily an integer number of frames but may be a fixed time section), and K is the order of the LPC cepstrum, k = 1, 2,. As the coefficient of speech rate, the number of maximum points of change in dynamic feature quantity per unit time or the rate of change per unit time is used.
In the reference example, for example, 100 ms is set to one frame length, the start point of the frame is shifted by 50 ms, and the average fundamental frequency f0 ′ of the input signal is obtained for each frame. Similarly for the power, the average power p ′ of the input signal is obtained for each frame. Further, the difference between f0 ′ of the current frame, f0 ′ before i frame, and f0 ′ after i frame is obtained and set as Δf0 ′ (− i) and Δf0 ′ (i), respectively. Similarly, regarding the power, differences Δp ′ (− i) and Δp ′ (i) between p ′ of the current frame and p ′ before and after the i frame are obtained. Next, these f0 ′, Δf0 ′ (− i), Δf0 ′ (i), p ′, Δp ′ (− i), and Δp ′ (i) are normalized. For example, the normalization is performed by dividing f0 ′, Δf0 ′ (− i), Δf0 ′ (i), for example, by the average fundamental frequency of the entire speech waveform, for example. Or you may divide by the audio | voice subparagraph mentioned later or the average fundamental frequency for every audio | voice paragraph, or you may divide by the average fundamental frequency after several seconds or after several minutes. These normalized values are represented as f0 ", Δf0" (-i), and Δf0 "(i). Similarly, p ', Δp' (-i), and Δp '(i) are also subject to speech state determination. Divide by the average power of the entire speech waveform to normalize, or you may divide by the average power of each audio sub-paragraph and audio paragraph, or divide by the average power every few seconds or every few minutes These normalized values are expressed as p ″, Δp ″ (− i), Δp ″ (i). The value of i is, for example, i = 4.

現フレームの例えば開始時刻の前後±T1msの区間(幅2T1ただし、T1は例えばフレーム長の10倍程度と、フレーム長より十分長く選ぶので、幅2T1の中心点は現フレームのどの時点に選んでもよい)内の、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数dpを計数する。これと、現フレームの開始時刻のT2ms前の時刻を中心とする幅2T1内のdpとの差成分Δdp(-T2)を求める。同様に、前記±T1ms内のdp数と、現フレームの終了時刻からT3ms後の時刻を中心とする幅2T1の区間内のdpとの差成分Δdp(T3)を求める。これら、T1,T2,T3の値はフレーム長より十分長く、ここでは例えばT1=T2=T3=450msとする。フレームの前後の無声区間の長さをtSR, TSFとする。ステップS1ではこれらパラメータの各値をフレームごとに抽出する。 For example, a section of ± T 1 ms before and after the start time of the current frame (width 2T 1 where T 1 is selected to be, for example, about 10 times the frame length and sufficiently longer than the frame length, so the center point of the width 2T 1 The number of peaks of the dynamic measure, that is, the number of maximum points d p of the change of the dynamic feature amount is counted. A difference component Δd p (−T 2 ) between this and d p within a width 2T 1 centering on a time T 2 ms before the start time of the current frame is obtained. Similarly, the d p number of the ± T within 1 ms, the difference component [Delta] d p and d p in the interval of width 2T 1 around the time after T 3 ms from the end time of the current frame (T 3) Ask for. These values of T 1 , T 2 , and T 3 are sufficiently longer than the frame length. Here, for example, T 1 = T 2 = T 3 = 450 ms. Let t SR and T SF be the length of the silent section before and after the frame. In step S1, the values of these parameters are extracted for each frame.

ステップS2における入力音声の音声小段落と、音声段落を抽出する方法の例を図2に示す。音声小段落とは発話状態判定を行う単位であり、音声段落は例えば400msec以上の無声区間ではさまれた少なくとも1つ以上の音声小段落を含む区間である。
ステップS201で、入力音声信号の無声区間と有声区間を抽出する。有声/無声の判定は、周期性/非周期性の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値で判定を行なうことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数、即ち変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声/無声の判定を行う。またそのピークを与える遅延時間によってピッチ周期1/f0(基本周波数f0)の抽出を行なう。
FIG. 2 shows an example of the voice sub-paragraph of the input voice and the method of extracting the voice paragraph in step S2. The audio sub-paragraph is a unit for determining the utterance state, and the audio paragraph is a section including at least one audio sub-paragraph sandwiched between silent sections of 400 msec or more, for example.
In step S201, unvoiced and voiced sections of the input voice signal are extracted. The determination of voiced / unvoiced is often regarded as equivalent to the determination of periodicity / non-periodicity, and the determination is often made based on the peak value of the autocorrelation function or the modified correlation function. An autocorrelation function of a prediction residual obtained by removing a spectral envelope from a short-time spectrum of an input signal, that is, a modified correlation function, and voiced / unvoiced is determined depending on whether or not the peak of the modified correlation function is larger than a predetermined threshold. The pitch period 1 / f0 (basic frequency f0) is extracted according to the delay time giving the peak.

ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、音声信号が例えばCELP(Code-Excited Linear Prediction)などにより既にフレーム毎に符号化(即ち、分析)されて得られている係数もしくは符号が表す音声特徴量を用いてもよい。CELPによる符号には一般に線形予測係数、利得係数、ピッチ周期等が符号化されて含まれている。従ってCELPによる符号を復号してこれらの音声特徴量を得ることができる。例えば、復号された利得係数の絶対値もしくは二乗値をパワーとして用い、ピッチ成分の利得係数の、非周期成分の利得係数に対する比に基づいて有声/無声判定を行うことができる。復号されたピッチ周期の逆数をピッチ周波数、即ち基本周波数として用いることができる。また、式(1) で説明した動的特徴量の計算に使用するLPCケプストラムは復号して得られたLPC係数を変換して求めることができる。もちろんCELPによる符号にLSP係数が含まれていれば、これを一旦LPC係数に変換し、それから求めてもよい。このようにCELPによる符号にはこの発明で使用できる音声特徴量が含まれているので、CELPによる符号を復号し、フレーム毎の必要な音声特徴量の組を取り出し、それらの音声特徴量の組に対し以下の処理を行えばよい。   Here, the analysis of each audio feature amount from the audio signal for each frame has been described. However, the audio signal is already encoded (ie, analyzed) for each frame by CELP (Code-Excited Linear Prediction), for example. A voice feature amount represented by a coefficient or a sign may be used. CELP codes generally include encoded linear prediction coefficients, gain coefficients, pitch periods, and the like. Therefore, these audio feature quantities can be obtained by decoding the CELP code. For example, the absolute value or square value of the decoded gain coefficient can be used as power, and voiced / unvoiced determination can be performed based on the ratio of the gain coefficient of the pitch component to the gain coefficient of the non-periodic component. The reciprocal of the decoded pitch period can be used as the pitch frequency, ie the fundamental frequency. Further, the LPC cepstrum used for the calculation of the dynamic feature amount described in the equation (1) can be obtained by converting the LPC coefficient obtained by decoding. Of course, if the code by CELP includes an LSP coefficient, it may be once converted into an LPC coefficient and then obtained. As described above, the CELP code includes speech feature values that can be used in the present invention. Therefore, the CELP code is decoded, a set of necessary speech feature values for each frame is extracted, and a set of these speech feature values is obtained. However, the following processing may be performed.

ステップS202で、有声区間の両側の無声区間の時間tSR, tSFがそれぞれ予め決めたts秒以上になるとき、その無声区間で囲まれた有声区間を含む部分を音声小段落Sとする。この無声区間の時間tsは例えばts=400msとする。
ステップS203で、この音声小段落内の、好ましくは後半部の、有声区間内の平均パワーpと、その音声小段落の平均パワー値PS の定数β倍とを比較し、p<βPSであればその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落と決定する。
In step S202, when the times t SR and t SF of the unvoiced sections on both sides of the voiced section are equal to or longer than the predetermined t s seconds, the portion including the voiced section surrounded by the unvoiced section is defined as the audio sub-paragraph S. . Time t s of the silent interval is, for example, t s = 400ms.
In step S203, the average power p in the voiced section, preferably in the latter half of the speech sub-paragraph, is compared with a constant β times the average power value P S of the speech sub-paragraph, and p <βP S If there is, the audio sub-paragraph is set as the end audio sub-paragraph, and the audio paragraph from the audio sub-paragraph after the immediately preceding end audio sub-paragraph to the currently detected end audio sub-paragraph is determined as the audio paragraph.

図3に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無声区間の時間がts秒以上の条件で、抽出する。図3では、音声小段落Sj-1,Sj,Sj+1について示している。これより、音声小段落Sjについて述べる。音声小段落Sjは、Qj個の有声区間から構成され、その平均パワーをPjとする。音声小段落Sjに含まれるq番目の有声区間Vq(q=1,2,…,Qj)の平均パワーをpqと表す。音声小段落Sjが音声段落Bの末尾の音声小段落であるか否かは、音声小段落Sjを構成する後半部分の有声区間のパワーから判定する。q=Qj-αからQjまでの有声区間の平均パワーpqの平均が音声小段落Sjの平均パワーPjより小さい時、即ち、 FIG. 3 schematically shows voiced sections, audio sub-paragraphs, and audio paragraphs. A voice sub-paragraph is extracted under the condition that the time of the unvoiced section surrounding the voiced section is at least ts seconds. FIG. 3 shows the audio sub-paragraphs S j−1 , S j and S j + 1 . Now, the audio sub-paragraph S j will be described. The audio sub-paragraph S j is composed of Q j voiced sections, and its average power is P j . The average power of the qth voiced section V q (q = 1, 2,..., Q j ) included in the small speech paragraph S j is expressed as p q . Whether or not the audio sub-paragraph S j is the audio sub-paragraph at the end of the audio paragraph B is determined from the power of the voiced section in the latter half part of the audio sub-paragraph S j . When the average of the average power p q of the voiced interval from q = Q j −α to Q j is smaller than the average power P j of the speech sub-paragraph S j , that is,

Figure 0004256393
Figure 0004256393

を満たす時、音声小段落Sjが音声段落Bの末尾音声小段落であるとする。式(2) のα,βは定数であり、αはQj/2以下の値であり、βは例えば0.5〜1.5程度の値である。これらの値は、音声段落の抽出を最適化するように予め実験により決める。ただし、有声区間の平均パワーpqはその有声区間内の全フレームの平均パワーであり、またこの参考例では、α=3、β=0.8とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
図1中のステップS3における音声小段落発話状態判定方法の例を図4に示す。ここで、発話状態とは、話者が強調して発話している状態か、平静に発話している状態かをさす。予め作成した符号帳を使ってステップS301で入力音声小段落の音声特徴量の組をベクトル量子化する。発話状態はあとで詳述するように、前述の音声特徴量である基本周波数f0", その前後iフレームとの差分Δf0"(-i), Δf0"(i)、平均パワーp", その前後iフレームとの差分Δp"(-i), Δp"(i)、ダイナミックメジャーのピーク本数dp, 及びその差分Δdp(-T), Δdp(T) などのうち、予め決めた1つ以上の音声特徴量の組を使って判定する。音声特徴量の組の例は後で詳しく述べる。符号帳には予め、各コード(インデックス)と対応して量子化された音声特徴量の組の値が音声特徴量ベクトルとして格納されており、符号帳に蓄えられた音声特徴量ベクトルの中から入力音声もしくは既に分析して得られた音声のフレーム毎の音声特徴量の組と最も近いものを特定する。その特定には、一般に入力信号の音声特徴量の組と符号帳中の音声特徴量ベクトルとの歪(距離)を最小にするものを特定する。
符号帳の作成
図5に、この符号帳の作成法の例を示す。多数の学習用音声を被験者から採取し、発話状態が、平静状態であるものと、強調状態であるものをそれぞれ識別できるようにラベリングする(S501)。
It is assumed that the audio sub-paragraph S j is the last audio sub-paragraph of the audio paragraph B. In the formula (2), α and β are constants, α is a value of Q j / 2 or less, and β is a value of about 0.5 to 1.5, for example. These values are determined in advance by experiments so as to optimize the extraction of speech paragraphs. However, the average power p q of the voiced section is the average power of all frames in the voiced section, and in this reference example, α = 3 and β = 0.8. In this way, a group of audio sub-paragraphs between adjacent end audio sub-paragraphs with the end audio sub-paragraph as a delimiter can be determined as an audio paragraph.
FIG. 4 shows an example of the voice sub-paragraph utterance state determination method in step S3 in FIG. Here, the utterance state means a state in which the speaker emphasizes or speaks calmly. In step S301, a set of speech feature values of the input speech sub-paragraph is vector-quantized using a codebook created in advance. As will be described in detail later, the speech state is the fundamental frequency f0 ", which is the above-mentioned voice feature amount, the difference Δf0" (-i), Δf0 "(i), the average power p", before and after that A predetermined one of the differences Δp ″ (− i), Δp ″ (i) from the i frame, the number of dynamic measure peaks d p , and the differences Δd p (−T), Δd p (T), etc. Judgment is made using the above-mentioned set of speech feature values. An example of a set of speech feature values will be described in detail later. In the codebook, values of a set of speech feature quantities quantized corresponding to each code (index) are stored as speech feature quantity vectors in advance. From the speech feature quantity vectors stored in the codebook, The input speech or the speech feature value for each frame of speech already obtained by analysis is identified as being closest to the set. For the specification, generally, the one that minimizes the distortion (distance) between the speech feature amount set of the input signal and the speech feature amount vector in the codebook is identified.
Creation of Code Book FIG. 5 shows an example of a method for creating this code book. A large number of learning voices are collected from the subject and labeled so that the utterance state can be distinguished from the utterance state and the emphasis state (S501).

例えば、日本語による発話の場合、被験者の発話が強調状態にあると判断する理由として、
(a) 声が大きく、名詞や接続詞を伸ばすように発話している場合、
(b) 話し始めを伸ばして話題変更を主張、意見を要約するように声を大きくしている場合、
(c) 声を大きく高くして重要な名詞などを強調している場合、
(d) 高音であるが声はそれほど大きくない場合、
(e) 苦笑いしながら、焦りから本音をごまかすようにしている場合、
(f) 周囲に同意を求める、あるいは問いかけるように、語尾が高音にしている場合、
(g) ゆっくりと力強く、念を押すように、語尾の声が大きくしている場合、
(h) 声が大きく高く、割り込んで発話する、相手より大きな声で主張している場合、
(i) 大きな声では憚れるような本音や秘密をひそひそ発言している場合、あるいは普段、声の大きい人が重要なことを小さくボソボソ発言している場合、
を挙げることができる。この例では、平静状態とは、前記の(a)〜(i)のいずれでもなく、発話が平静であると被験者が感じたものとした。
For example, in the case of an utterance in Japanese, as a reason to determine that the subject's utterance is in an emphasized state,
(a) If you speak loudly and speak nouns or conjunctions,
(b) If you are starting to speak, insisting on a topic change, and speaking loudly to summarize your opinion,
(c) If your voice is loud and emphasizes important nouns,
(d) If it is a high tone but the voice is not so loud,
(e) If you're trying to cheat your true intentions while laughing,
(f) If the ending part is at high pitch, asking for consent or asking the others
(g) If the ending voice is loud enough to be slow and powerful
(h) If your voice is loud and loud, you speak loudly, and you are speaking louder than your opponent,
(i) When speaking loudly and secretly, such as when speaking loudly, or when speaking loudly, a person with a loud voice usually speaks importantly
Can be mentioned. In this example, the calm state is not any of the above (a) to (i), and the subject felt that the utterance was calm.

尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは歌曲において、歌声から強調状態を特定しようとした場合に、強調と感じる理由として、
(a') 声が大きく、かつ声が高い
(b') 声が力強い
(c') 声が高く、かつアクセントが強い
(d') 声が高く、声質が変化する
(e') 声を伸長させ、かつ声が大きい
(f') 声が大きく、かつ、声が高く、アクセントが強い
(g') 声が大きく、かつ、声が高く、叫んでいる
(h') 声が高く、アクセントが変化する
(i') 声を伸長させ、かつ、声が大きく、語尾が高い
(j') 声が高く、かつ、声を伸長させる
(k') 声を伸長させ、かつ、叫び、声が高い
(l') 語尾上がり力強い
(m') ゆっくり強め
(n') 曲調が不規則
(o') 曲調が不規則、かつ、声が高い
また、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる利用として、
(a") 強調部分全体のパワー増大
(b") 音の高低差が大きい
(c") パワーが増大する
(d") 楽器の数が変化する
(e") 曲調、テンポが変化する
等がある。これらを基に符号帳を作成しておくことにより、発話に限らず歌、器楽曲の要約も行うことができることになる。従って、請求項において使用されている用語「音声」は歌や器楽曲も含むものである。
In the above description, the object to be determined to be in the emphasized state has been described as an utterance, but the emphasized state can also be specified in music. Here, as a reason to feel emphasis when trying to identify the emphasis state from the singing voice,
(a ') loud and loud
(b ') Voice is strong
(c ') High voice and strong accent
(d ') Voice is high and voice quality changes
(e ') Elongate voice and loud voice
(f ') loud voice, high voice, strong accent
(g ') Voice is loud and loud and screaming
(h ') Voice is loud and accent changes
(i ') Stretching voice, loud voice, high ending
(j ') The voice is loud and the voice is extended
(k ') Stretching voice and screaming, high voice
(l ') Strong ending
(m ') Slowly strengthen
(n ') Irregular tune
(o ') The tone is irregular and the voice is high. Also, the emphasized state can be specified even for a musical piece performance that does not include voice. As use that feels that emphasis,
(a ") Increase the power of the entire emphasis
(b ") Large pitch difference
(c ") Increased power
(d ") Number of instruments changes
(e ") Musical tone, tempo changes, etc. By creating a codebook based on these, it is possible to summarize not only utterances but also songs and instrumental music. The term “speech” used in the term includes songs and instrumental music.

平静状態と強調状態の各ラベル区間について、図1中のステップS1と同様に、音声特徴量を抽出し(S502)、状態判定に使用する音声特徴量の組を選択する(S503)。平静状態と強調状態のラベル区間の、前記パラメータを用いて、LBGアルゴリズムで符号帳を作成する(S504)。LBGアルゴリズムについては、例えば、(Y.Linde,A.Buzo and R.M.Gray,“An algorithm for vector quantizer design,”IEEE Trans.Commun., vol.Com-28, pp.84-95,1980)がある。符号帳サイズは2m個(mは1以上の整数)に可変であり、mビットコードC=00...0〜C=11...1に対応した量子化ベクトルが予め決められる。この符号帳作成は音声小段落ごとの全音声特徴量、又はこれより長い適当な区間ごとの全音声特徴量、あるいは学習音声全体の音声特徴量を例えばその平均値と標準偏差で標準化処理をして2m個の音声特徴量ベクトルを生成して用いることが好ましい。 For each label section in the calm state and the emphasized state, as in step S1 in FIG. 1, the speech feature amount is extracted (S502), and a set of speech feature amounts used for state determination is selected (S503). A codebook is created by the LBG algorithm using the parameters in the label section of the calm state and the emphasized state (S504). As for the LBG algorithm, for example, there is (Y. Linde, A. Buzo and RMGray, “An algorithm for vector quantizer design,” IEEE Trans. Commun., Vol. Com-28, pp. 84-95, 1980). The codebook size is variable to 2 m (m is an integer of 1 or more), and quantization vectors corresponding to m-bit codes C = 00... 0 to C = 11. This codebook is created by standardizing the total speech feature value for each sub-speech paragraph, the total speech feature value for each longer appropriate section, or the overall speech feature value of the learning speech, for example, using the average value and standard deviation. Preferably, 2 m speech feature vectors are generated and used.

図4の発話状態判定処理に戻って、ステップS301で、入力音声小段落の各フレームごとに得られる音声特徴量を符号帳作成に用いたと同じ平均値と標準偏差により標準化処理し、その標準化処理された音声特徴量をこの符号帳を用いてベクトル量子化(符号化)し、フレームごとに量子化ベクトルに対応するコードを得る。この際の入力音声信号から抽出した音声特徴量パラメータのうち、発話状態判定に使用するパラメータの組は前記の符号帳作成に用いたパラメータの組と同じものである。
強調状態が含まれる音声小段落を特定するために、音声小段落中のコードC(量子化音声特徴量ベクトルのインデックス)を用いて、発話状態の尤度を、平静状態と強調状態のそれぞれについて求める。このために、予め、任意のコードの出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組として符号帳に格納しておく。以下にこの出現確率の求め方の例を述べる。前記の符号帳作成に用いた学習音声中のラベルが与えられた1つの区間(ラベル区間)内のフレーム数をnとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でC1,C2,C3,…,Cnであるとき、そのラベル区間Aが強調状態となる確率PAemp、平静状態となる確率PAnrmは次式、
Returning to the utterance state determination process of FIG. 4, in step S301, the voice feature obtained for each frame of the input voice sub-paragraph is standardized by the same average value and standard deviation as used in the codebook creation, and the standardization process The obtained speech feature quantity is vector quantized (encoded) using this codebook, and a code corresponding to the quantized vector is obtained for each frame. Of the speech feature parameters extracted from the input speech signal at this time, the set of parameters used for the speech state determination is the same as the set of parameters used for creating the codebook.
In order to identify a speech sub-paragraph that includes an emphasis state, the likelihood of the utterance state is determined for each of the calm state and the emphasis state using the code C (index of the quantized speech feature vector) in the speech sub-paragraph. Ask. For this purpose, the appearance probability of an arbitrary code is obtained in advance for the case of the calm state and the case of the emphasized state, and this appearance probability and the code are stored as a set in the codebook. An example of how to determine the appearance probability is described below. The number of frames in one section (label section) given a label in the learning speech used for the codebook creation is n, and the speech feature vector code obtained from each frame is C 1 in time series. , C 2, C 3, ..., when a C n, the probability P AEMP of the label section a is emphasized, the probability P Anrm as a calm state equation,

Figure 0004256393
Figure 0004256393

で表される。ただし、Pemp(Ci|C1…Ci-1)はコード列C1…Ci-1の次にコードCiが強調状態となる条件付確率、Pnrm(Ci|C1…Ci-1)は同様にC1…Ci-1に対しコードCiが平静状態となる確率である。またPemp(C1)は符号帳を使って全学習音声についてフレーム毎に音声特徴量ベクトルを量子化し、これらコード中の、音声が強調状態とラベリングされた部分に存在したコードC1の総個数を計数し、その計数値を強調状態とラベリングされた音声データの全コード数(=フレーム数)で割算した値であり、Pnrm(C1)はコードC1が平静状態とラベリングされた部分に存在した個数を平静状態とラベリングされた音声データの全コード数で割算した値である。 It is represented by However, P emp (C i | C 1 … C i-1 ) is a conditional probability that the code C i is in an emphasized state next to the code string C 1 … C i−1 , and P nrm (C i | C 1 … Similarly, C i-1 ) is the probability that the code C i is in a calm state with respect to C 1 ... C i-1 . Also, P emp (C 1 ) quantizes the speech feature vector for each frame for all learning speech using the codebook, and in these codes, the total of the codes C 1 existing in the portion where the speech is labeled as emphasized. The number is counted, and the counted value is divided by the total number of codes (= number of frames) of the voice data labeled with the emphasis state. P nrm (C 1 ) is the code C 1 is labeled as calm. This is a value obtained by dividing the number of existing data by the total number of codes of voice data labeled as calm.

この各条件付確率の計算を簡単にするために、この例ではN-gramモデル(N<i)を用いる。N-gramモデルは、ある時点でのある事象の出現はその直前のN-1個の事象の出現に依存すると近似するモデルであり、例えばi番目のフレームにコードCiが出現する確率をP(Ci)=(Ci|Ci-N+1…Ci-1)として求める。式(3), (4) 中の各条件付確率Pemp(Ci|C1…Ci-1), Pnrm(Ci|C1…Ci-1)にN-gramモデルを適用すると次式
Pemp(Ci|C1…Ci-1)=Pemp(Ci|Ci-N+1…Ci-1) (5)
Pnrm(Ci|C1…Ci-1)=Pnrm(Ci|Ci-N+1…Ci-1) (6)
のように近似できる。このような式(3), (4) 中の条件付確率Pemp(Ci|C1…Ci-1), Pnrm(Ci|C1…Ci-1) をN-gramモデルで近似した条件付確率Pemp(Ci|Ci-N+1…Ci-1), Pnrm(Ci|Ci-N+1…Ci-1)をラベリングされた学習音声の量子化コード列から全て求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次の(即ちコード列の長い)条件付確率と単独出現確率とから低次の条件付出現確率とを補間して求める。具体的には以下に定義するN=3の場合であるtrigram、N=2の場合であるbigram、N=1の場合であるunigramを用いて線形補間法を施す。即ち、
N=3(trigram):Pemp(Ci|Ci-2Ci-1)、Pnrm(Ci|Ci-2Ci-1)
N=2(bigram):Pemp(Ci|Ci-1)、Pnrm(Ci|Ci-1)
N=1(unigram):Pemp(Ci)、Pnrm(Ci)
であり、これら3つの強調状態でのCiの出現確率、また3つの平静状態でのCiの出現確率をそれぞれ用いて次の線形補間式、
Pemp(Ci|Ci-2Ci-1)=λemp1Pemp(Ci|Ci-2Ci-1)+λemp2Pemp(Ci|Ci-1)+λemp3Pemp(Ci)
(7)
Pnrm(Ci|Ci-2Ci-1)=λnrm1Pnrm(Ci|Ci-2Ci-1)+λnrm2Pnrm(Ci|Ci-1)+λnrm3Pnrm(Ci)
(8)
によりPemp(Ci|Ci-2Ci-1)、Pnrm(Ci|Ci-2Ci-1)を得ることにする。
In order to simplify the calculation of each conditional probability, an N-gram model (N <i) is used in this example. N-gram model, the appearance of an event at a certain point in time is a model which approximates to be dependent on the appearance of the N-1 event just before, for example, the probability that the i-th frame code C i appears P (C i ) = (C i | C i−N + 1 ... C i−1 ) Apply the N-gram model to each conditional probability P emp (C i | C 1 … C i-1 ), P nrm (C i | C 1 … C i-1 ) in Eqs. (3) and (4) Then the following formula
P emp (C i | C 1 … C i-1 ) = P emp (C i | C i-N + 1 … C i-1 ) (5)
P nrm (C i | C 1 … C i-1 ) = P nrm (C i | C i-N + 1 … C i-1 ) (6)
It can be approximated as follows. The conditional probabilities P emp (C i | C 1 … C i-1 ) and P nrm (C i | C 1 … C i-1 ) in Eqs. (3) and (4) are expressed as N-gram models. Of the learning speech labeled with the conditional probabilities P emp (C i | C i-N + 1 … C i-1 ), P nrm (C i | C i-N + 1 … C i-1 ) approximated by Although all are obtained from the quantized code sequence, there is a case where the speech code corresponding to the quantized code sequence of the input speech signal is not obtained from the learning speech. For this reason, the low-order conditional appearance probability is obtained by interpolation from the high-order (that is, long code string) conditional probability and the single appearance probability. Specifically, linear interpolation is performed using a trigram when N = 3, a bigram when N = 2, and a unigram when N = 1 defined below. That is,
N = 3 (trigram): P emp (C i | C i-2 C i-1 ), P nrm (C i | C i-2 C i-1 )
N = 2 (bigram): P emp (C i | C i-1 ), P nrm (C i | C i-1 )
N = 1 (unigram): P emp (C i ), P nrm (C i )
, And the three probability of occurrence of C i in the emphasized state, and using the probability of occurrence of C i at three undisturbed state; next linear interpolation formula,
P emp (C i | C i-2 C i-1 ) = λ emp1 P emp (C i | C i-2 C i-1 ) + λ emp2 P emp (C i | C i-1 ) + λ emp3 P emp (C i )
(7)
P nrm (C i | C i-2 C i-1 ) = λ nrm1 P nrm (C i | C i-2 C i-1 ) + λ nrm2 P nrm (C i | C i-1 ) + λ nrm3 P nrm (C i )
(8)
Thus, P emp (C i | C i−2 C i−1 ) and P nrm (C i | C i−2 C i−1 ) are obtained.

Trigramの強調状態とラベリングされた学習データのフレーム数をnとし、時系列でコードC1, C2, ..., Cnが得られたとき、λemp1, λemp2, λemp3の再推定式は次のようになる。 Re-estimate λ emp1 , λ emp2 , and λ emp3 when the number of frames of the training data labeled with Trigram and the number of frames of labeled learning data is n, and codes C 1 , C 2 , ..., C n are obtained in time series The formula is as follows.

Figure 0004256393
Figure 0004256393

以下同様にしてλnrm1, λnrm2, λnrm3も求められる。
この例では、ラベル区間Aのフレーム数がFAであり、得られたコードがC1,C2,…,CFAのとき、このラベル区間Aが強調状態となる確率PAemp及び平静状態となる確率PAnrmはそれぞれ、
PAemp=Pemp(C3|C1C2)…Pemp(CFA|CFA-2CFA-1) (9)
PAnrm=Pnrm(C3|C1C2)…Pnrm(CFA|CFA-2CFA-1) (10)
となる。この計算ができるように前記のtrigram, bigram, unigramを任意のコードについて求めて符号帳に格納しておく。つまり符号帳には各コードに対応して音声特徴量ベクトルと、その強調状態での出現確率と、平静状態での出現確率との組が格納される。その強調状態での出現確率としては、各コードが過去のフレームで出現したコードと無関係に強調状態で出現する確率(単独出現確率)及び/又は直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが強調状態で出現する条件付確率を使用する。平静状態での出現確率も同様に、そのコードが過去のフレームで出現したコードと無関係に平静状態で出現する単独出現確率及び/又は直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが平静状態で出現する条件付確率を使用する。
Similarly, λ nrm1 , λ nrm2 , and λ nrm3 are obtained.
In this example, when the number of frames in the label section A is F A and the obtained codes are C 1 , C 2 ,..., C FA , the probability P Aemp and the calm state that the label section A is in the emphasized state Each probability P Anrm is
P Aemp = P emp (C 3 | C 1 C 2 )… P emp (C FA | C FA-2 C FA-1 ) (9)
P Anrm = P nrm (C 3 | C 1 C 2 )… P nrm (C FA | C FA-2 C FA-1 ) (10)
It becomes. The trigram, bigram, and unigram are obtained for an arbitrary code and stored in the codebook so that this calculation can be performed. That is, the codebook stores a set of speech feature vectors, appearance probabilities in the emphasized state, and appearance probabilities in the calm state corresponding to each code. As the appearance probability in the emphasized state, the probability that each code appears in the emphasized state regardless of the code that appeared in the past frame (single appearance probability) and / or the code that can be taken by a predetermined number of immediately preceding frames is possible. Use the conditional probability that the code appears in the highlighted state next to the column. Similarly, the probability of appearance in the calm state is the next to the single occurrence probability that the code appears in a calm state regardless of the code that appeared in the previous frame and / or the sequence of codes that can be taken in the immediately preceding predetermined number of frames. The conditional probability that the code appears in a calm state is used.

例えば図12に示すように符号帳には各コードC1,C2,…ごとにその音声特徴量ベクトルと、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。ここで、コードC1, C2, C3,…は符号帳の各音声特徴量ベクトルに対応したコード(インデックス)を表し、それぞれmビットの値"00...00", "00...01", "00...10",…である。符号帳におけるh番目のコードをChで表し、例えばC1は第1番目のコードを表すものとする。
この発明に適用する好ましい音声特徴量の組の例としてパラメータf0",p",dpを使用し、符号帳サイズ(音声特徴量ベクトル数)が25の場合の強調状態及び平静状態での、unigram及びbigramの例について説明する。図6は、unigramである。縦軸はPemp(Ch),Pnrm(Ch)で、横軸はコードChの値であり、各Chの値の左の棒グラフはPemp(Ch)、右の棒グラフはPnrm(Ch)である。この例では、コードC17のunigramは
Pemp(C17)=0.065757
Pnrm(C17)=0.024974
となった。図6から、任意のChについて、Pemp(Ch)とPnrm(Ch)とに有意な差があることから、強調状態の音声特徴量の組をベクトル量子化したコードと、平静状態の音声特徴量の組をベクトル量子化したコードのunigramが互いに分離していることがわかる。図7は、bigramである。Pemp(Ci|Ci-1)とPnrm(Ci|Ci-1)の値の一部を図14〜16に示す。ただしiはフレーム番号に対応する時系列番号であり、各コードCは任意のコードChを取り得る。この例では、コードCh=C27のbigramは図8に示すようになった。縦軸はPemp(C27|Ci-1)、Pnrm(C27|Ci-1)で、横軸はコードCh=0, 1, …,31であり、各Ci-1の左の棒グラフはPemp(C27|Ci-1)、右の棒グラフはPnrm(C27|Ci-1)である。この例ではコードC9からコードC27に遷移する確率は、
Pemp(C27|C9)=0.11009
Pnrm(C27|C9)=0.05293
であった。図8から、任意のコードCi-1について、Pemp(C27|Ci-1)とPnrm(C27|Ci-1)間に値の有意な差があり、図14〜16から任意のコードCiについても同様の結果が得られたことから、強調状態の音声特徴量の組をベクトル量子化したコードと、平静状態の音声特徴量の組をベクトル量子化したコードのbigramが互いに異なる値をとっており、分離していることがわかる。このことは、その符号帳に基づいて計算するbigramが強調状態と平静状態に対し互いに異なる確率を与えることを保証している。
For example, as shown in FIG. 12, in the codebook, for each code C1, C2,..., The speech feature vector, its single appearance probability is in the emphasized state and calm state, and the conditional probability is in the emphasized state and calm state. Each is stored as a set. Here, codes C1, C2, C3,... Represent codes (indexes) corresponding to each speech feature vector of the codebook, and m-bit values “00 ... 00”, “00 ... 01”, respectively. , "00 ... 10", ... The h-th code in the code book is represented by Ch, and for example, C1 represents the first code.
Parameters f0 Preferred example of a set of speech features to be applied to the present invention ", p", using the d p, codebook size (audio feature vector number) in the enhancement state and calm condition if 2 5 Examples of unigram and bigram will be described. FIG. 6 is a unigram. The vertical axis is P emp (Ch), P nrm (Ch), the horizontal axis is the code Ch value, the left bar graph of each Ch value is P emp (Ch), and the right bar graph is P nrm (Ch) It is. In this example, the unigram with code C17 is
P emp (C17) = 0.065757
P nrm (C17) = 0.024974
It became. From FIG. 6, since there is a significant difference between P emp (Ch) and P nrm (Ch) for an arbitrary Ch, a code obtained by vector quantization of a set of emphasized speech feature values and a calm speech It can be seen that unigrams of codes obtained by vector quantization of feature pairs are separated from each other. FIG. 7 is a bigram. A part of the values of P emp (C i | C i-1 ) and P nrm (C i | C i-1 ) are shown in FIGS. However, i is a time series number corresponding to the frame number, and each code C can take an arbitrary code Ch. In this example, the bigram of the code Ch = C27 is as shown in FIG. The vertical axis P emp (C27 | C i- 1), P nrm | In (C27 C i-1), the horizontal axis is the code Ch = 0, 1, ..., a 31, a left of each C i-1 The bar graph is P emp (C27 | C i-1 ), and the right bar graph is P nrm (C27 | C i-1 ). In this example, the probability of transition from code C9 to code C27 is
P emp (C27 | C9) = 0.11009
P nrm (C27 | C9) = 0.05293
Met. From FIG. 8, there is a significant difference in value between P emp (C27 | C i-1 ) and P nrm (C27 | C i-1 ) for an arbitrary code C i−1 , which is arbitrary from FIGS. since similar results were obtained also for the code C i, and code set vector quantization of speech features of the emphasized state, the code sets of speech features of calm conditions and vector quantization bigram each other Different values are taken and it can be seen that they are separated. This guarantees that the biggram calculated based on the codebook gives different probabilities for the emphasized state and the calm state.

図4中のステップS302では、入力音声小段落の全フレームのコードについてのその符号帳に格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図9に参考例の模式図を示す。時刻tから始まる音声小段落のうち、第4フレームまでをi〜i+3で示している。前記のように、ここでは、フレーム長は100ms、フレームシフトを50msとした。フレーム番号i、時刻t〜t+100でコードC1が、フレーム番号i+1、時刻t+50〜t+150でコードC2が、フレーム番号i+2、時刻t+100〜t+200でコードC3が、フレーム番号i+3、時刻t+150〜t+250でコードC4が得られ、つまりフレーム順にコードがC1,C2,C3,C4であるとき、フレーム番号i+2以上のフレームでtrigramが計算できる。音声小段落Sが強調状態となる確率をPSemp、平静状態となる確率をPSnrmとすると第4フレームまでの確率はそれぞれ、
PSemp=Pemp(C3|C1C2)Pemp(C4|C2C3) (11)
PSnrm=Pnrm(C3|C1C2)Pnrm(C4|C2C3) (12)
となる。ただし、この例では、符号帳からC3,C4の強調状態及び平静状態の各単独出現確率を求め、またC2の次にC3が強調状態及び平静状態で各出現する条件付確率、更にC3が、連続するC1,C2の次に、C4が、連続するC2,C3の次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率を求めると以下のようになる。
In step S302 in FIG. 4, the likelihood of the speech state is obtained for the calm state and the emphasized state from the probabilities stored in the codebook for the codes of all frames of the input speech sub-paragraph. FIG. 9 shows a schematic diagram of a reference example. Of the audio sub-paragraphs starting from time t, i to i + 3 are shown up to the fourth frame. As described above, here, the frame length is 100 ms and the frame shift is 50 ms. Frame number i, the time t~t + 100 code C 1 is the frame number i + 1, code C 2 at time t + 50~t + 150, frame number i + 2, time t + 100~t + 200 Code C 3 is frame number i + 3, and code C 4 is obtained at time t + 150 to t + 250, that is, when the codes are C 1 , C 2 , C 3 , C 4 in frame order, the frame number Trigram can be calculated with i + 2 or more frames. If the probability that the speech sub-paragraph S is in the emphasized state is P Semp and the probability that it is in the calm state is P Snrm , then the probability up to the fourth frame is
P Semp = P emp (C 3 | C 1 C 2 ) P emp (C 4 | C 2 C 3 ) (11)
P Snrm = P nrm (C 3 | C 1 C 2 ) P nrm (C 4 | C 2 C 3 ) (12)
It becomes. However, in this example, the single occurrence probability of the emphasized state and the calm state of C 3 and C 4 is obtained from the codebook, and the conditional probability that C 3 appears in the emphasized state and the calm state next to C 2 , Furthermore the C 3, the next C 1, C 2 consecutive, C 4 is, to C 2, and in the following C 3 of obtaining the conditional probability of occurrence, respectively each emphasized and calm state following the continuous Become.

Pemp(C3|C1C2)=λemp1Pemp(C3|C1C2)+λemp2Pemp(C3|C2)+λemp3Pemp(C3) (13)
Pemp(C4|C2C3)=λemp1Pemp(C4|C2C3)+λemp2Pemp(C4|C3)+λemp3Pemp(C4) (14)
Pnrm(C3|C1C2)=λnrm1Pnrm(C3|C1C2)+λnrm2Pnrm(C3|C2)+λnrm3Pnrm(C3) (15)
Pnrm(C4|C2C3)=λnrm1Pnrm(C4|C2C3)+λnrm2Pnrm(C4|C3)+λnrm3Pnrm(C4) (16)
上記式(13)〜(16)を用いて式(11)と(12)で示される第3フレームまでの強調状態となる確率PSempと、平静状態となる確率PSnrmが求まる。ここで、Pemp(C3|C1C2), Pnrm(C3|C1C2)はフレーム番号i+2において計算できる。
P emp (C 3 | C 1 C 2 ) = λ emp1 P emp (C 3 | C 1 C 2 ) + λ emp2 P emp (C 3 | C 2 ) + λ emp3 P emp (C 3 ) (13)
P emp (C 4 | C 2 C 3 ) = λ emp1 P emp (C 4 | C 2 C 3 ) + λ emp2 P emp (C 4 | C 3 ) + λ emp3 P emp (C 4 ) (14)
P nrm (C 3 | C 1 C 2 ) = λ nrm1 P nrm (C 3 | C 1 C 2 ) + λ nrm2 P nrm (C 3 | C 2 ) + λ nrm3 P nrm (C 3 ) (15)
P nrm (C 4 | C 2 C 3 ) = λ nrm1 P nrm (C 4 | C 2 C 3 ) + λ nrm2 P nrm (C 4 | C 3 ) + λ nrm3 P nrm (C 4 ) (16)
The formula (13) to the probability P Semp to be emphasized to the third frame of the formula (11) and (12) with (16), a calm state probability P SNRM is obtained. Here, P emp (C 3 | C 1 C 2 ) and P nrm (C 3 | C 1 C 2 ) can be calculated at frame number i + 2.

上述は第4フレームi+3までの計算について説明したが、この例では、フレーム数FSの音声小段落Sのそれぞれのフレームから得たコードがC1,C2,…,CFSのとき、この音声小段落Sが強調状態になる確率PSempと平静状態になる確率PSnrmを次式により計算する。
PSemp=Pemp(C3|C1C2)…Pemp(CFS|CFS-2CFS-1) (17)
PSnrm=Pnrm(C3|C1C2)…Pnrm(CFS|CFS-2CFS-1) (18)
これらの確率が、PSemp>PSnrmであれば、その音声小段落Sは強調状態、PSemp≦PSnrmであれば、平静状態とする。
The above describes the calculation up to the fourth frame i + 3. In this example, the codes obtained from the frames of the audio sub-paragraph S with the number of frames F S are C 1 , C 2 ,. to calculate the probability P Semp probability P SNRM become calm state where the audio sub-paragraph S is emphasized by the following equation.
P Semp = P emp (C 3 | C 1 C 2 )… P emp (C FS | C FS-2 C FS-1 ) (17)
P Snrm = P nrm (C 3 | C 1 C 2 )… P nrm (C FS | C FS-2 C FS-1 ) (18)
If these probabilities are P Semp > P Snrm , the audio sub-paragraph S is in an emphasized state, and if P Semp ≦ P Snrm , it is in a calm state.

図1中のステップS4の要約音声作成は、図4中のステップS302で強調状態と判定された音声小段落を含む音声段落を繋ぎ合わせて構成される。
この参考例の方法で、企業で行われた、原稿などを使用しない、自然な話し言葉や会話による会議音声を用いて、音声要約実験を行った。この例では図6〜図8に示した場合と異なる条件で強調状態の判定、要約部分の抽出を行っている。
これより、符号帳サイズ(符号数)を256として、50msを1フレームとし、シフトを50msとし、符号帳に格納された各音声特徴量ベクトルを構成する音声特徴量の組を
[f0",Δf0"(1),Δf0"(-1),Δf0"(4),Δf0"(-4),p",Δp"(1),Δp"(-1),Δp"(4),Δp"(-4),dp,Δdp(T),Δdp(-T)]
としたときの実験例について述べる。発話状態判定実験は、被験者により強調状態及び平静状態とラベルがつけられた音声区間の音声特徴量を用いた。符号帳作成に用いた、強調状態707個と平静状態807個のラベルについて、各ラベル区間の、全フレームのコードを、前記の式(9), (10)によって、発話状態を判定し、この実験をclose実験とした。close実験は、符号帳の作成に使用した音声データを用いた実験であり、open実験は符号帳の作成に使用してない音声データを用いた実験である。
The summary speech creation in step S4 in FIG. 1 is configured by connecting speech paragraphs including the speech subparagraph determined to be in the emphasized state in step S302 in FIG.
Using the method of this reference example, we conducted speech summarization experiments using natural speech and conversational conference voices that were conducted in a company and did not use manuscripts. In this example, the determination of the emphasis state and the extraction of the summary portion are performed under different conditions from those shown in FIGS.
From this, the codebook size (number of codes) is set to 256, 50 ms is set to 1 frame, shift is set to 50 ms, and a set of audio feature values constituting each audio feature vector stored in the codebook is set.
[f0 ", Δf0" (1), Δf0 "(-1), Δf0" (4), Δf0 "(-4), p", Δp "(1), Δp" (-1), Δp "(4 ), Δp "(-4), d p , Δd p (T), Δd p (-T)]
An example of the experiment will be described. The speech state determination experiment used speech feature values of speech sections labeled as emphasized state and calm state by the subject. For the 707 emphasis state and 807 calm state labels used in the codebook creation, the utterance state is determined by the above equations (9) and (10) for all frame codes in each label section. The experiment was a close experiment. The close experiment is an experiment using voice data used to create a codebook, and the open experiment is an experiment using voice data not used to create a codebook.

一方、符号帳作成に用いていない、強調状態173個、平静状態193個のラベルについて、各ラベル区間の、全フレームのコードを、前記の式(9), (10)によって、発話状態を判定し、この実験をopen実験とした。
評価は再現率と適合率を用いて行った。ここで再現率は被験者が設定した正解集合に対して、この参考例の方法が判定した発話状態の正解の割合であり、適合率はこの参考例の方法が判定した発話状態の数のうち、正解した割合である。結果は、
close実験 強調状態:再現率89%、適合率87%
平静状態:再現率88%、適合率90%
open実験 強調状態:再現率84%、適合率91%
平静状態:再現率92%、適合率87%
となった。ただし、
λemp1=λnrm1=0.41
λemp2=λnrm2=0.41
λemp3=λnrm3=0.08
とした。
On the other hand, for the 173 emphasized labels and 193 calmed labels that are not used in the codebook creation, the utterance state is determined by the above equations (9) and (10) for all the frame codes in each label section. This experiment was designated as an open experiment.
The evaluation was performed using the recall and precision. Here, the recall is the ratio of correct answer of the utterance state determined by the method of this reference example to the correct answer set set by the subject, and the relevance rate is the number of utterance states determined by the method of this reference example, This is the correct answer. Result is,
close experiment Emphasis state: 89% recall, 87% conformity
Quiet state: 88% recall, 90% compliance
Open experiment Emphasis state: 84% recall, 91% compliance
Quiet state: 92% recall, 87% compliance
It became. However,
λ emp1 = λ nrm1 = 0.41
λ emp2 = λ nrm2 = 0.41
λ emp3 = λ nrm3 = 0.08
It was.

音声特徴量は前記のように、参考例として前後参照フレーム範囲を±i(i=4)とした場合は29個存在し、組み合わせはΣ29Cn個ある。ただし、Σの範囲はn=1〜29であり、29Cnは29からn個を取る組合せである。これより、そのうちの18種類の音声特徴量を一組とするベクトルから成る符号帳を用いた参考例について述べる。以下では再びフレームを100ms、シフト量を50msとする。図17に示すその18種類の音声特徴量の組み合わせ番号と、各々の音声特徴量を示す。発話状態判定実験は、被験者が設定した強調状態と平静状態のラベル区間の音声特徴量を用いた。close実験として、符号帳作成に用いた、強調状態613個と平静状態803個のラベルについて、open実験として、符号帳作成に用いていない、強調状態171個、平静状態193個のラベルについて発話状態を判定した。符号帳サイズは128で、
λemp1=λnrm1=0.41
λemp2=λnrm2=0.41
λemp3=λnrm3=0.08
とした。図10は、18組の音声特徴量の組み合わせで実験した、close実験と、open実験の再現率を示している。縦軸は再現率、横軸はパラメータの組み合わせ番号であり、○印はclose実験、×印はopen実験である。再現率の平均と分散は、
close実験 平均0.94546、分散0.00013507
open実験 平均0.78788、分散0.00046283
であった。図10には、再現率0.95と0.8にそれぞれ実線を表示した。それぞれ、close実験、open実験に対応しており、例えばclose実験の再現率で0.95以上かつ、open実験の再現率で0.8以上を得るためには、音声特徴量の組み合わせで7番、11番、18番のいずれも使用することができる。これらはいずれも動的特徴量の時間変化特性dpを含んでおり、これが重要なパラメータであることがわかる。また、7番及び11番のパラメータの組は、基本周波数、パワー、動的特徴量の時間変化特性、及びそれらのフレーム間差分を含んでいることを特徴としている。又、番号19の組はopen実験での上記条件をわずかに満たしていないが、基本周波数f0"、パワーp"、動的特徴量の時間変化特性dpの3つのみであり、演算処理量が少なくてすむ利点がある。
Audio feature amount as described above, when the ± a reference frame range before and after as a reference example i (i = 4) exists 29, the combination is 29 C n pieces sigma. However, the range of Σ is n = 1 to 29, and 29 C n is a combination of 29 to n. Thus, a reference example using a codebook composed of a vector including a set of 18 types of speech feature values will be described. In the following, it is assumed that the frame is again 100 ms and the shift amount is 50 ms. FIG. 17 shows the combination numbers of the 18 types of audio feature values and the respective audio feature values. In the speech state determination experiment, the speech feature amount of the label state between the emphasized state and the calm state set by the subject was used. As a close experiment, 613 emphasis state and 803 calm state labels used for codebook creation, and as an open experiment, 171 emphasis state and 193 calm state utterance states not used for codebook creation Was judged. The codebook size is 128,
λ emp1 = λ nrm1 = 0.41
λ emp2 = λ nrm2 = 0.41
λ emp3 = λ nrm3 = 0.08
It was. FIG. 10 shows the recall rate of the close experiment and the open experiment, which were performed with combinations of 18 voice feature values. The vertical axis represents the recall ratio, the horizontal axis represents the parameter combination number, the circle indicates a close experiment, and the cross indicates an open experiment. The average recall and variance are
close experiment average 0.94546, dispersion 0.00013507
Open experiment average 0.78788, variance 0.00046283
Met. In FIG. 10, solid lines are displayed at recalls of 0.95 and 0.8, respectively. Each corresponds to a close experiment and an open experiment. For example, in order to obtain a recall ratio of 0.95 or more in a close experiment and 0.8 or more in a recall ratio of an open experiment, the combination of voice features is the seventh, eleventh, Any of No. 18 can be used. Each of these includes a time change characteristic d p of the dynamic feature amount, and it is understood that this is an important parameter. Further, the set of parameters Nos. 7 and 11 is characterized in that it includes a fundamental frequency, power, a time change characteristic of a dynamic feature amount, and a difference between the frames. Although a set of numbers 19 is not slightly satisfy the above conditions in open experiments, the fundamental frequency f0 ", the power p", and only three of the time change characteristic d p of dynamic features, arithmetic processing amount There is an advantage that less is required.

図10の結果より、符号帳作成に用いていない、被験者が前記(a)〜(i)の理由で、設定した強調状態のラベルと、(a)〜(i)のいずれでもなく、発話が平静であるとした平静状態であるラベルの、発話状態を判定し(open実験)、再現率を0.8以上にすることは、音声特徴量の組み合わせを選択することで可能となることがわかる。また、このことは、使用している符号長が適正に作成されていることを示している。
これより、図17中の18番目の音声特徴量の組み合わせの符号帳サイズ依存性についての実験例を述べる。符号帳サイズを2, 4, 8, 16, 32, 64, 128, 256と変化させたときのclose実験とopen実験の再現率を図11に示す。縦軸に再現率、横軸は2n のnを示し、実線曲線はclose実験を、破線曲線はopen実験を示す。ただし、
λemp1=λnrm1=0.41
λemp2=λnrm2=0.41
λemp3=λnrm3=0.08
とした。図11から、符号帳サイズを増加すると、再現率が上昇することがわかり、例えば、再現率を0.8以上にすることは、符号帳サイズ(符号帳に格納されているコードの数)を選択することで可能となることがわかる。また符号帳サイズが2でも再現率が0.5以上となっている。これは条件付確率を用いているためと思われる。この参考例によれば、被験者が前記(a)〜(i)の理由で、設定した強調状態と、(a)〜(i)のいずれでもなく、発話が平静であるとした平静状態の音声特徴量の組をベクトル量子化して符号帳を作成した場合、任意のコードの強調状態と平静状態の出現確率は統計的に分離するので、発話状態を判定することが可能であることがわかる。
From the result of FIG. 10, the subject who is not used for the codebook creation has the highlighted state label set for the reasons (a) to (i) above, and the utterance is not any of (a) to (i). It can be seen that it is possible to determine the utterance state (open experiment) of the label in the calm state, which is considered to be calm, and to set the recall rate to 0.8 or more by selecting a combination of voice feature amounts. This also indicates that the code length used is properly created.
In the following, an experimental example of the codebook size dependency of the combination of the 18th speech feature quantity in FIG. 17 will be described. FIG. 11 shows the recall ratio of the close experiment and the open experiment when the codebook size is changed to 2, 4, 8, 16, 32, 64, 128, 256. The vertical axis represents the recall, the horizontal axis represents 2n , the solid curve represents the close experiment, and the dashed curve represents the open experiment. However,
λ emp1 = λ nrm1 = 0.41
λ emp2 = λ nrm2 = 0.41
λ emp3 = λ nrm3 = 0.08
It was. From FIG. 11, it can be seen that increasing the codebook size increases the recall rate. For example, setting the recall rate to 0.8 or more selects the codebook size (the number of codes stored in the codebook). It turns out that this is possible. Even if the codebook size is 2, the recall is 0.5 or more. This seems to be due to the use of conditional probabilities. According to this reference example, the voice in a calm state in which the test subject is calm because the subject has set the emphasized state for any of the reasons (a) to (i) described above and is not any of (a) to (i). When a codebook is created by vector quantization of a set of feature values, the appearance probability of an arbitrary code is statistically separated from the appearance probability of a calm state, and it can be seen that the utterance state can be determined.

この参考例の方法で、原稿などを使用しない、自然な話し言葉や会話による、1時間の会議音声の要約音声を作成した。要約音声は23の音声段落から構成され、要約音声時間は、元の音声時間の、11%の時間であった。音声段落の評価として、被験者が23の音声段落を聴取し、83%が意味を理解できると判定した。作成した要約音声を評価するため、要約音声を被験者が聴取し、作成した議事録と、元の音声を聴取し、作成した議事録を比較した。再現率が86%で、検出率が83%であった。この発明の、音声要約方法により、原稿などを使用しない、自然な話し言葉や会話の音声要約が可能になることがわかる。   Using the method of this reference example, a summary audio of a one-hour conference voice was created using natural spoken language and conversation without using a manuscript. The summary speech consisted of 23 speech paragraphs, and the summary speech time was 11% of the original speech time. As an evaluation of speech paragraphs, subjects listened to 23 speech paragraphs and 83% determined that they could understand the meaning. In order to evaluate the created summary speech, the subjects listened to the summary speech and the minutes produced were compared with the minutes produced by listening to the original speech. The recall was 86% and the detection rate was 83%. It can be seen that the speech summarization method of the present invention enables speech summaries of natural spoken words and conversations without using a manuscript or the like.

この参考例の音声強調状態判定方法の別形態を説明する。この場合も前述と同様に図1中のステップS1と同様に入力音声信号のフレームごとの音声特徴量を抽出し、例えば図12に示した符号帳を用い、図4を参照して説明したように、入力音声信号のフレームごとの音声特徴量の組を符号帳によりベクトル量子化(ベクトル符号化)し、得られたコードが強調状態で出現する確率と平静状態で出現する確率を符号帳にコードと対応して格納されている出現確率を用いて求めるが、ここでは各フレームのコードの出現確率を、直前の2つの連続するフレームのコード列を条件とする条件付出現確率として求め、フレームごとに発話状態の判定、即ち強調状態であるか否かの判定を行う。つまり図4のステップS303における発話状態の尤度計算において、図9に示したように音声特徴量の組がベクトル符号化された場合、フレーム番号i+2では強調状態尤度Pe(i+2)と平静状態尤度Pn(i+2)を、
Pe(i+2)=Pemp(C3|C1C2)
Pn(i+2)=Pnrm(C3|C1C2)
により計算する。この場合も、Pemp(C3|C1C2)を式(13) により計算し、またPnrm(C3|C1C2)を式(15)により計算することが好ましい。このようにして求めたPe(i+2)とPn(i+2)とを比較し、Pe(i+2)>Pn(i+2)であればこのフレーム番号i+2は強調状態と判定し、Pe(i+2)>Pn(i+2)でなければ、このフレームは強調状態でないと判定する。
Another embodiment of the speech enhancement state determination method of this reference example will be described. Also in this case, as described above, the speech feature amount for each frame of the input speech signal is extracted in the same manner as in step S1 in FIG. 1, and for example, as described with reference to FIG. 4 using the codebook shown in FIG. In addition, a set of speech features for each frame of the input speech signal is vector quantized by the codebook (vector coding), and the probability that the obtained code appears in the emphasized state and the probability that it appears in the calm state is stored in the codebook. This is obtained using the appearance probability stored in correspondence with the code. Here, the appearance probability of the code of each frame is obtained as a conditional appearance probability that is conditional on the code sequence of the two immediately preceding frames. Each time, the utterance state is determined, that is, whether or not it is in the emphasized state. In other words, in the speech state likelihood calculation in step S303 in FIG. 4, when the speech feature value pair is vector-encoded as shown in FIG. 9, the enhancement state likelihood Pe (i +) is obtained at frame number i + 2. 2) and the calm state likelihood P n (i + 2),
P e (i + 2) = P emp (C 3 | C 1 C 2 )
P n (i + 2) = P nrm (C 3 | C 1 C 2 )
Calculate according to Also in this case, it is preferable to calculate P emp (C 3 | C 1 C 2 ) by the equation (13) and P nrm (C 3 | C 1 C 2 ) by the equation (15). P e (i + 2) and P n (i + 2) thus obtained are compared, and if P e (i + 2)> P n (i + 2), this frame number i + 2 It determines that determines that emphasized, unless P e (i + 2)> P n (i + 2), this frame is not emphasized.

次のフレーム番号i+3においては、
Pe(i+3)=Pemp(C4|C2C3),
Pn(i+3)=Pnrm(C4|C2C3)
をそれぞれ計算して、Pe(i+3)>Pn(i+3)であればこのフレームを強調状態と判定する。以下同様に各フレームについて順次強調状態か否かを判定する。
このようにして音声小段落中の強調状態と判定されたフレームの条件付出現確率Peの音声小段落にわたる積ΠPeと平静状態と判定されたフレームの条件付確率Pnの音声小段落にわたる積ΠPnを求め、ΠPe>ΠPnであればその音声小段落は強調状態であると判定し、ΠPe≦ΠPnであれば平静状態であると判定する。あるいは、強調状態と判定されたフレームのPeの音声小段落にわたる総和ΣPeと平静状態と判定されたフレームのPnの音声小段落にわたる総和ΣPnを求め、ΣPe>ΣPnならその音声小段落は強調状態であると判定し、ΣPe≦ΣPnであれば平静状態と判定してもよい。あるいは、これら条件付確率の総積あるいは条件付確率の総和を重み付け比較して音声小段落の発話状態を判定してもよい。
In the next frame number i + 3,
P e (i + 3) = P emp (C 4 | C 2 C 3 ),
P n (i + 3) = P nrm (C 4 | C 2 C 3 )
Are calculated, and if P e (i + 3)> P n (i + 3), this frame is determined to be in an emphasized state. In the same manner, it is determined whether or not each frame is in an enhanced state sequentially.
Thus over the stressed state determination frame conditional probability P e of the audio sub-paragraph over product PaiP e and calm state determination frame conditional probability P n of audio sub-paragraphs of in the speech sub-paragraph Multiplies PaiP n, determines that its voice subsections if ΠP e> ΠP n determined to be emphasized is a calm state if ΠP e ≦ ΠP n. Alternatively, the total sum .SIGMA.P n over voice subsections of P n of frames is determined as the sum .SIGMA.P e and calm state over voice subsections of P e of the frame is determined to emphasized, the sound if .SIGMA.P e> .SIGMA.P n The small paragraph may be determined to be in an emphasized state, and may be determined to be in a calm state if ΣP e ≦ ΣP n . Alternatively, the utterance state of the audio sub-paragraph may be determined by weighted comparison of the total product of the conditional probabilities or the sum of the conditional probabilities.

この音声強調状態判定方法においても、用いる音声特徴量については上記の方法の場合と同様であり、出現確率も単独出現確率又はこれと条件付確率の組合せでもよく、更にこの組合せを用いる場合は、条件付確率の計算に対し線形補間法を用いることが好ましい。またこの音声強調状態判定方法においても、音声小段落又はこれよりも長い適当な区間ごとに、あるいは全体の音声信号の各音声特徴量の平均値で各音声特徴量を規格化してフレームごとの音声特徴量の組を形成し、図4のステップS301のベクトル量子化以後の処理を行うことが好ましい。音声強調状態判定方法及び音声要約方法の何れにおいても、音声特徴量の組としてはf0"、p0"、Δf0"(i)、Δf0"(-i)、Δp"(i)、Δp"(-i)、dp、Δdp(T)、Δdp(-T)の少なくともいずれかを含む組を用いる。 Also in this speech enhancement state determination method, the speech feature amount used is the same as in the above method, and the appearance probability may be a single appearance probability or a combination of this and a conditional probability, and when this combination is used, It is preferable to use a linear interpolation method for the calculation of the conditional probability. Also, in this speech enhancement state determination method, each speech feature is normalized by the average value of each speech feature for every small sub-paragraph or longer appropriate section, or for each speech feature of the entire speech signal. It is preferable to form a set of feature amounts and perform the processing after vector quantization in step S301 in FIG. In any speech enhancement state determination method and the audio summarizing method, as a set of speech features f0 ", p 0", Δf0 "(i), Δf0" (- i), Δp "(i), Δp" ( -i), a set including at least one of d p , Δd p (T), and Δd p (−T) is used.

図13を参照してこの参考例による音声強調状態判定装置及び音声要約装置を説明する。
入力部11に音声強調状態が判定されるべき、又は音声の要約を検出する対象とする音声信号が入力され、入力部11には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。ディジタル化された音声信号は必要に応じて記憶部12に一旦格納される。音声特徴量抽出部13で前述した音声特徴量の組がフレームごとに算出される。算出した各音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部14で各フレームの音声特徴量の組が符号帳メモリ15を参照して量子化されコードを出力する。このコードは強調状態確率計算部16と平静状態確率計算部17に与えられる。符号帳メモリ15は例えば図12に示したようなものである。
The speech enhancement state determination device and speech summarization device according to this reference example will be described with reference to FIG.
The input unit 11 is input with a speech signal whose speech enhancement state is to be determined or whose speech summary is to be detected, and the input unit 11 includes a function of converting the input speech signal into a digital signal as necessary. It is. The digitized audio signal is temporarily stored in the storage unit 12 as necessary. The speech feature amount extraction unit 13 calculates the above-described set of speech feature amounts for each frame. Each calculated speech feature value is normalized by the average value of the speech feature values as necessary, and a set of speech feature values of each frame is quantized by the quantization unit 14 with reference to the codebook memory 15 to generate a code. Output. This code is given to the emphasis state probability calculation unit 16 and the calm state probability calculation unit 17. The codebook memory 15 is, for example, as shown in FIG.

強調確率計算部16によりその量子化された音声特徴量の組のコードの強調状態での出現確率が、符号帳メモリ15に格納されている対応する出現確率を用いて、例えば式(13)又は(14) により計算される。同様に平静確率計算部17により、前記量子化された音声特徴量の組の平静状態での出現確率が符号帳メモリ15に格納されている対応する音声特徴量ベクトルの出現確率を用いて、例えば式(15)又は(16)により計算される。強調確率計算部16及び平静確率計算部17で各フレーム毎に算出された強調状態での出現確率と平静状態での出現確率及び各フレームのコードは各フレームの番号と共に記憶部12に格納される。強調状態判定部18はこれら計算された強調状態での出現確率と平静状態での出現確率とを比較し、前者の方が大きければそのフレームの音声は強調状態であると判定し、そうでない場合は強調状態でないと判定する。   Using the corresponding appearance probability stored in the codebook memory 15, the appearance probability in the enhancement state of the code of the speech feature quantity group quantized by the enhancement probability calculation unit 16 is used, for example, Calculated by (14). Similarly, by using the appearance probability of the corresponding speech feature quantity vector stored in the codebook memory 15 as the appearance probability in the calm state of the set of quantized speech feature quantities by the calm probability calculation unit 17, for example, Calculated by equation (15) or (16). The appearance probability in the emphasized state, the appearance probability in the calm state, and the code of each frame calculated for each frame by the enhancement probability calculation unit 16 and the calm probability calculation unit 17 are stored in the storage unit 12 together with the number of each frame. . The enhancement state determination unit 18 compares the calculated appearance probability in the enhancement state with the appearance probability in the calm state. If the former is larger, the speech of the frame is determined to be in the enhancement state. Is determined not to be in an emphasized state.

これら各部の制御は制御部19の制御のもとに順次行われる。
音声要約装置の実施形態は、図13中の実線ブロックで示す音声強調状態判定装置に対し、更に破線ブロックが付加されて構成される。つまり、記憶部12に格納されている各フレームの音声特徴量が無声区間判定部21と有声区間判定部22に与えられ、無声区間判定部21により各フレームごとに無声区間か否かが判定され、また有声区間判定部22により各フレームごとに有声区間か否かが判定される。これら無声区間判定結果と有声区間判定結果は音声小段落判定部23に入力される。
Control of these units is sequentially performed under the control of the control unit 19.
The embodiment of the speech summarization device is configured by further adding a broken line block to the speech enhancement state determination device indicated by the solid line block in FIG. That is, the voice feature amount of each frame stored in the storage unit 12 is given to the unvoiced segment determination unit 21 and the voiced segment determination unit 22, and the unvoiced segment determination unit 21 determines whether each frame is an unvoiced segment. In addition, the voiced section determination unit 22 determines whether each frame is a voiced section. These unvoiced segment determination results and voiced segment determination results are input to the audio sub-paragraph determination unit 23.

音声小段落判定部23はこれら無声区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数以上連続する無声区間に囲まれた有声区間を含む部分を音声小段落と判定する。音声小段落判定部23の判定結果は記憶部12に書き込まれ、記憶部12に格納されている音声データ列に付記され、無声区間で囲まれたフレーム群に音声小段落番号を付与する。これと共に音声小段落判定部23の判定結果は末尾音声小段落判定部24に入力される。
末尾音声小段落判定部24では、例えば図3を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部25に入力され、音声段落判定部25により各検出末尾音声小段落の次の音声小段落の開始から、次の検出末尾音声小段落の終わりまでを音声段落と判定する。この音声段落判定結果も記憶部12に書き込まれ、記憶部12に記憶している音声小段落番号列に音声段落列番号を付与する。
Based on the unvoiced segment determination and the voiced segment determination, the audio subparagraph determination unit 23 determines a portion including a voiced segment surrounded by the unvoiced segments that are continuous for a predetermined number of frames or more as described in the previous method embodiment. Is determined. The determination result of the audio sub-paragraph determination unit 23 is written in the storage unit 12, added to the audio data string stored in the storage unit 12, and an audio sub-paragraph number is assigned to the frame group surrounded by the silent section. At the same time, the determination result of the audio sub-paragraph determination unit 23 is input to the end audio sub-paragraph determination unit 24.
In the end audio sub-paragraph determination unit 24, the end audio sub-paragraph is detected by the method described with reference to FIG. 3, for example, and the end audio sub-paragraph determination result is input to the audio paragraph determination unit 25. The audio paragraph is determined from the start of the next audio sub-paragraph of each detection end audio sub-paragraph to the end of the next detection end audio sub-paragraph. The voice paragraph determination result is also written in the storage unit 12, and the voice paragraph string number is assigned to the voice sub-paragraph number string stored in the storage unit 12.

音声要約装置として動作する場合、強調状態確率計算部16及び平静確率計算部17では記憶部12から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式(17)及び(18)により計算される。強調状態判定部18ではこの音声小段落ごとの確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部26では音声段落中の1つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を要約区間として取出す。各部の制御は制御部19により行われる。   When operating as a speech summarization apparatus, the emphasis state probability calculation unit 16 and the calm probability calculation unit 17 read out the enhancement probability and the calm probability of each frame constituting each speech sub-paragraph from the storage unit 12, and the probability for each speech sub-paragraph Is calculated by, for example, equations (17) and (18). The emphasis state determination unit 18 compares the calculated probability values for each audio sub-paragraph to determine whether or not the audio sub-paragraph is in an emphasis state, and the summary section extraction unit 26 determines even one audio sub-paragraph in the audio paragraph. If there is one determined to be in the emphasized state, the speech paragraph including the speech sub-paragraph is taken out as a summary section. Control of each unit is performed by the control unit 19.

音声強調状態判定装置及び音声要約装置の何れもコンピュータによりプログラムを実行させて機能させることになる。この場合は音声強調状態判定プログラム又は音声要約プログラムを通信回線を介してインターネットから、又はCD−ROM、磁気ディスクなどからプログラムメモリ27にダウンロードし、CPU又はマイクロプロセッサよりなる制御部19がそのプログラムを実行することになる。なお符号帳の内容もインターネットからプログラムと同様に通信回線を介してダウンロードさせて用いてもよい。
第2参考例
前述の第1参考例による音声強調状態判定方法、音声要約方法では、任意の音声小段落において、強調状態となる確率が平静状態となる確率より大きい音声小段落を一つでも含む音声段落は全て要約として抽出されるため、任意の要約率(圧縮率)で要約することができない不都合がある。この第2参考例では、この点を改善し、任意の要約率で元の音声の要約を自動生成することができる音声処理方法、音声処理装置及び音声処理プログラムを実現する。
Both the speech enhancement state determination device and the speech summarization device are caused to function by causing a computer to execute a program. In this case, the voice enhancement state determination program or the voice summarization program is downloaded to the program memory 27 from the Internet or from a CD-ROM, a magnetic disk or the like via a communication line, and the control unit 19 comprising a CPU or a microprocessor downloads the program. Will be executed. The contents of the code book may also be downloaded from the Internet via a communication line in the same manner as the program.
Second Reference Example In the speech enhancement state determination method and the speech summarization method according to the first reference example described above, any speech sub-paragraph includes at least one speech sub-paragraph whose probability of being in an emphasized state is greater than the probability of being in a calm state. Since all speech paragraphs are extracted as summaries, there is a disadvantage that they cannot be summarized at an arbitrary summarization rate (compression rate). In the second reference example, this point is improved, and a speech processing method, speech processing apparatus, and speech processing program capable of automatically generating a summary of the original speech at an arbitrary summarization rate are realized.

図18に第2参考例による音声処理方法の基本手順を示す。
ステップS11で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
ステップS12では要約条件入力ステップS12を実行する。この要約条件入力ステップS12では例えば利用者に要約時間又は要約率又は圧縮率のうち予め決められた少なくとも1つの入力を促す情報を提供し、要約時間又は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から少なくとも一つを選択する入力方法を採ることもできる。
FIG. 18 shows the basic procedure of the speech processing method according to the second reference example.
In step S11, a speech enhancement probability calculation process is executed to obtain the enhancement probability and calm probability of the speech sub-paragraph.
In step S12, summary condition input step S12 is executed. In this summary condition input step S12, for example, information prompting the user to input at least one of the summary time, the summary rate, or the compression rate is provided, and the summary time, the summary rate, or the compression rate is input. Note that an input method of selecting at least one of a plurality of preset summary times, summarization ratios, and compression ratios may be employed.

ステップS13では抽出条件の変更を繰り返す動作を実行し、ステップS12の要約条件入力ステップS12で入力された要約時間又は要約率又は圧縮率を満たす抽出条件を決定する。
ステップS14で要約抽出ステップを実行する。この要約抽出ステップS14では抽出条件変更ステップS13で決定した抽出条件を用いて要約として採用すべき音声段落を決定し、この採用すべき音声段落の総時間長を計算する。
ステップ15では要約再生処理を実行し、要約抽出ステップS14で抽出した音声段落列を再生する。
In step S13, an operation of repeatedly changing the extraction condition is executed, and an extraction condition that satisfies the summary time, summary rate, or compression rate input in the summary condition input step S12 of step S12 is determined.
In step S14, a summary extraction step is executed. In this summary extraction step S14, the speech paragraph to be adopted as the summary is determined using the extraction condition determined in the extraction condition changing step S13, and the total time length of the speech paragraph to be adopted is calculated.
In step 15, summary reproduction processing is executed, and the speech paragraph string extracted in summary extraction step S14 is reproduced.

図19は図18に示した音声強調確率算出ステップS11の詳細を示す。
ステップS101で要約対象とする音声波形列を音声小段落に分離する。
ステップS102ではステップS101で分離した音声小段落列から音声段落を抽出する。音声段落とは図3で説明したように、1つ以上の音声小段落で構成され、その部分の音声を再生した場合、大多数の受聴者が意味を理解できる単位である。ステップS101, S102による音声小段落及び音声段落の抽出は図2で説明したと同様の方法で行うことができる。
ステップS103及びステップS104でステップS101で抽出した音声小段落毎に図12で説明した符号帳と前述した式(17), (18)等を利用して各音声小段落が強調状態となる確率(強調確率)PSempと、平静状態となる確率(平静確率)PSnrmとを求める。
FIG. 19 shows details of the speech enhancement probability calculation step S11 shown in FIG.
In step S101, the speech waveform sequence to be summarized is separated into speech sub-paragraphs.
In step S102, a speech paragraph is extracted from the speech sub-paragraph sequence separated in step S101. As described with reference to FIG. 3, the audio paragraph is a unit composed of one or more audio sub-paragraphs, and the majority of the listeners can understand the meaning when the audio of that portion is reproduced. The extraction of audio sub-paragraphs and audio paragraphs in steps S101 and S102 can be performed by the same method as described in FIG.
The probability that each audio sub-paragraph is in an emphasized state using the code book described in FIG. 12 and the above-described equations (17), (18), etc. for each audio sub-paragraph extracted in step S101 in steps S103 and S104 ( Emphasis probability) P Semp and the probability of being in a calm state (calm probability) P Snrm are obtained.

ステップS105ではステップS103及びS104において各音声小段落毎に求めた強調確率PSempと平静確率PSnrmなどを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図20に記憶手段に格納した音声強調確率テーブルの一例を示す。図20に示すM1, M2, M3, …は音声小段落毎に求めた音声小段落強調確率PSempと、音声小段落平静確率PSnrmを記録した音声小段落確率記憶部を示す。これらの小段落確率記憶部M1, M2, M3, …には各音声小段落Sjの属する音声段落番号Bと、音声小段落Sjに付された音声小段落番号jと、開始時刻(要約対象音声の先頭から計時した時刻)終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数FS等が格納される。
In step S105, the emphasis probability P Semp and the calm probability P Snrm determined for each audio sub-paragraph in steps S103 and S104 are sorted for each audio sub-paragraph and stored in the storage means as an audio enhancement probability table.
FIG. 20 shows an example of the speech enhancement probability table stored in the storage means. M1, M2, M3,... Shown in FIG. 20 indicate a voice sub-paragraph probability storage unit in which the voice sub-paragraph emphasis probability P Semp obtained for each voice sub-paragraph and the voice sub-paragraph calm probability P Snrm are recorded. In these sub-paragraph probability storage units M1, M2, M3,..., The audio paragraph number B to which each audio sub-paragraph S j belongs, the audio sub-paragraph number j assigned to the audio sub-paragraph S j , and the start time (summary) starting time was counted from) the end time of the target speech, the speech subsections enhancement probability, speech subsections calm probability, frame number F S like that constitute each audio sub-paragraph is stored.

図18における要約条件入力ステップS12で入力する条件としては要約すべきコンテンツの全長TCを1/X(Xは正の整数)の時間TS=TC/Xに要約することを示す要約率r=1/X、あるいは要約時間TSを入力する。
この要約条件の設定に対し、抽出条件変更ステップS13では初期値として重み係数WをW=1に設定し、この重み係数を要約抽出ステップS14に入力する。
要約抽出ステップS14は重み係数W=1として音声強調確率テーブルから各音声小段落毎に格納されている強調確率PSempと平静確率PSnrmとを比較し、
WPSemp>PSnrm (19)
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間TG(秒)を求める。
The summarization ratio indicating that the total length T C of the content to be summarized is summarized at time T S = T C / X of 1 / X (X is a positive integer) as the condition to be input in the summary condition input step S12 in FIG. Enter r = 1 / X or summary time T S.
In response to the setting of the summary condition, in the extraction condition changing step S13, the weighting factor W is set to W = 1 as an initial value, and this weighting factor is input to the summary extracting step S14.
The summary extraction step S14 compares the emphasis probability P Semp and the calm probability P Snrm stored for each audio sub-paragraph from the audio emphasis probability table with the weighting factor W = 1.
WP Semp > P Snrm (19)
Are extracted, and a speech paragraph including at least one extracted speech subparagraph is extracted, and a total extension time T G (seconds) of the extracted speech paragraph string is obtained.

抽出した音声段落列の総延長時間TGと要約条件で決めた所定の要約時間TSとを比較する。ここでTG≒TS(TSに対するTGの誤差が例えば±数%程度の範囲)であれば抽出した音声段落列をそのまま要約音声として再生する。
要約条件で設定した要約時間TSに対するコンテンツの要約した総延長時間TGの誤差値が規定より大きく、その関係がTG>TSであれば抽出した音声段落列の総延長時間TGが、要約条件で定めた要約時間TSより長いと判定し、図18に示した抽出条件変更ステップS13を再実行させる。抽出条件変更ステップS13では重み係数がW=1で抽出した音声段落列の総延長時間TGが要約条件で定めた要約時間TSより「長い」とする判定結果を受けて強調確率PSempに現在値より小さい重み付け係数Wを乗算して重み付けを施す。重み係数Wとしては例えばW=1-0.001×L(Lはループ回数)で求める。
Extracted predetermined summary decided summary conditions the total extension time T G of the audio paragraph column time is compared with T S. Here, if T G ≈T S (the error of T G with respect to T S is in a range of, for example, about ± several percent), the extracted speech paragraph string is reproduced as it is as summary speech.
If the error value of the total extension time T G summarized of the content with respect to the summary time T S set in the summary condition is larger than the specified value, and the relationship is T G > T S , the total extension time T G of the extracted speech paragraph sequence is Then, it is determined that it is longer than the summarization time T S defined by the summarization condition, and the extraction condition changing step S13 shown in FIG. 18 is re-executed. In the extraction condition changing step S13, the enhancement probability P Semp is received in response to the determination result that the total extension time T G of the speech paragraph sequence extracted with the weighting factor W = 1 is “longer” than the summary time T S defined in the summary condition. Weighting is performed by multiplying the weighting coefficient W smaller than the current value. For example, the weighting factor W is calculated by W = 1−0.001 × L (L is the number of loops).

つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率PSempの配列に1回目のループではW=1-0.001×1で決まる重み係数W=0.999を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率WPSempと各音声小段落の平静確率PSnrmとを比較し、WPSemp>PSnrmの関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップS14では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間TGを算出し、この総延長時間TGと要約条件で定められる要約時間TSとを比較する。比較の結果がTG≒TSであれば、その音声段落列を要約音声と決定し、再生する。
In other words, the weighting factor W = 0.999 determined by W = 1−0.001 × 1 in the first loop is added to the array of enhancement probabilities P Semp obtained for all speech sub-paragraphs of the speech paragraph sequence read from the speech enhancement probability table. Multiply and weight. The weighted emphasis probability WP Semp of each voice sub-paragraph and the calm probability P Snrm of each voice sub-paragraph are compared, and a voice sub-paragraph having a relationship of WP Semp > P Snrm is extracted.
In the summary extraction step S14 according to this extraction result, a speech paragraph including the extracted speech sub-paragraph is extracted, and a summary speech paragraph string is obtained again. At the same time, the total extension time T G of this summary speech paragraph sequence is calculated, and the total extension time T G is compared with the summary time T S defined by the summary conditions. If the comparison result is T G ≈T S , the speech paragraph string is determined as summary speech and reproduced.

1回目の重み付け処理の結果が依然としてTG>TSであれば抽出条件変更ステップを、2回目のループとして実行させる。このとき重み係数WはW=1-0.001×2で求める。全ての強調確率PSempにW=0.998の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Wの値を徐々に小さくするように抽出条件を変更していくことによりWPSemp>PSnrmの条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすTG≒TSの状態を検出することができる。
If the result of the first weighting process is still T G > T S , the extraction condition changing step is executed as a second loop. At this time, the weighting factor W is obtained as W = 1−0.001 × 2. All weighting probabilities P Semp are weighted with W = 0.998.
In this way, each time the loop is repeated, the extraction condition is changed so that the value of the weighting factor W is gradually decreased in this example, thereby reducing the number of audio sub-paragraphs that satisfy the condition of WP Semp > P Snrm. Can be gradually reduced. As a result, a state of T G ≈T S satisfying the summary condition can be detected.

尚、上述では要約時間TGの収束条件としてTG≒TSとしたが、厳密にTG=TSに収束させることもできる。この場合には要約条件に例えば5秒不足している場合、あと1つの音声段落を加えると10秒超過してしまうが、音声段落から5秒のみ再生することで利用者の要約条件に一致させることができる。また、この5秒は強調と判定された音声小段落の付近の5秒でもよいし、音声段落の先頭から5秒でもよい。
また、上述した初期状態でTG<TSと判定された場合は重み係数Wを現在値よりも小さく例えばW=1-0.001×Lとして求め、この重み係数Wを平静確率PSnrmの配列に乗算し、平静確率PSnrmに重み付けを施せばよい。また、他の方法としては初期状態でTG>TSと判定された場合に重み係数を現在値より大きくW=1+0.001×Lとし、この重み係数Wを平静確率PSnrmの配列に乗算してもよい。
In the above description, T G ≈T S is set as the convergence condition of the summary time T G , but it is also possible to strictly converge to T G = T S. In this case, for example, if the summarization condition is insufficient for 5 seconds, for example, if one more audio paragraph is added, it will exceed 10 seconds. However, by playing only 5 seconds from the audio paragraph, the summarization condition of the user is matched. be able to. Further, the 5 seconds may be 5 seconds near the audio sub-paragraph determined to be emphasized, or 5 seconds from the beginning of the audio paragraph.
If it is determined that T G <T S in the initial state described above, the weighting factor W is determined to be smaller than the current value, for example, W = 1−0.001 × L, and this weighting factor W is arranged in an array of calm probabilities P Snrm . Multiplication is performed, and the calm probability P Snrm is weighted. As another method, when it is determined that T G > T S in the initial state, the weighting factor is set larger than the current value to W = 1 + 0.001 × L, and the weighting factor W is multiplied by the array of the calm probability P Snrm. May be.

また、要約再生ステップS15では要約抽出ステップS14で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Wを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Wに各音声小段落を構成するフレームの数F乗してWFとして重み付けを行うことが望ましい。式(17)及び(18)で算出する条件付の強調確率PSempは各フレーム毎に求めた強調状態となる確率を音声小段落にわたって乗算して求めており、また平静状態となる確率PSnrmも各フレーム毎に算出した平静状態となる確率を音声小段落にわたって乗算して求めている。そこで、例えば強調確率PSempに重み付けを施すには各フレーム毎に求めた強調状態となる確率に係数Wで重み付けして音声小段落にわたって乗算すればWFの重み付けを施したことになる。
In the summary playback step S15, the speech paragraph sequence extracted in the summary extraction step S14 has been described as being played back. However, in the case of image information with speech, the image information corresponding to the speech paragraph extracted as the summary speech is cut out and connected. In addition, it is possible to summarize a television broadcast or a movie by playing it with sound.
In the above description, it has been described that weighting is performed by directly multiplying either the enhancement probability or the calm probability obtained for each speech sub-paragraph stored in the speech enhancement probability table by the weighting factor W. well in order to detect, it is desirable to perform the weighting as the number F-ride to W F of frames constituting each audio sub-paragraph weighting factor W. The conditional emphasis probability P Semp calculated by the equations (17) and (18) is obtained by multiplying the probability of becoming the emphasis state obtained for each frame over the voice sub-paragraph, and the probability P Snrm of being in a calm state. Is also obtained by multiplying the probability of a calm state calculated for each frame over the audio sub-paragraph. Therefore, it means that subjected to weighting W F is multiplied over the audio sub-paragraph for example to apply a weighting to emphasize the probability P Semp weighted by a factor W to the probability that the emphasized state determined for each frame.

この結果、フレームの数Fに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる確率の積に重み係数Wを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数WをWFとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率PSemp又は平静確率PSnrmに重み付けを施してPSemp>PSnrmを満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率PSempと平静確率PSnrmに関してそれぞれその確率比PSemp/PSnrmを演算し、この確率比の降順に対応する音声小段落を含む音声段落を同一段落は一回に限定して累積して、それらの音声段落の累積時間を算出し、その時間和、即ち要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの累積音声段落の時刻順配列を要約と決定して要約音声を編成してもよい。
As a result, the influence of weighting is increased / decreased according to the number F of frames, and an audio sub-paragraph with a larger number of frames, that is, an audio sub-paragraph with a longer extension time is given a higher weight.
However, if it is only necessary to change the extraction condition for determining the emphasis state, the product of the probability of becoming the emphasis state obtained for each frame or the product of the probability of becoming the calm state is simply multiplied by the weighting factor W. The extraction conditions can be changed. Therefore, it is not always necessary to the weighting coefficient W and W F.
Further, in the above description , as a means for changing the extraction condition, a method is adopted in which the weighting is applied to the emphasis probability P Semp or the calm probability P Snrm obtained for each audio sub-paragraph and the number of audio sub-paragraphs satisfying P Semp > P Snrm is changed. However, as another method, the probability ratio P Semp / P Snrm is calculated for the emphasis probability P Semp and the calm probability P Snrm of all the audio sub-paragraphs, and the audio paragraph including the audio sub-paragraphs corresponding to the descending order of this probability ratio is calculated. The same paragraph is accumulated only once, and the accumulated time of those speech paragraphs is calculated, and if the sum of the times, that is, the sum of the times of the summary sections, substantially matches the predetermined summary time, then The summary speech may be organized by determining the time sequence of the accumulated speech paragraphs as the summary.

この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比PSemp/PSnrmの判定閾値を変更すれば抽出条件を変更することができる。即ち、判定閾値を大きくすれば、強調状態と判定される音声小段落の数は減少するので要約区間として検出される音声段落数も減少し、総要約時間も短くなる。判定閾値を小さくすればその逆となる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。 In this case, if the total extended time of the organized summary audio is excessive or deficient with respect to the summary time set in the summary condition, the determination threshold of the probability ratio P Semp / P Snrm for determining that it is in the emphasized state The extraction condition can be changed by changing. That is, if the determination threshold value is increased, the number of small audio paragraphs determined to be in the emphasized state is reduced, so that the number of audio paragraphs detected as the summary section is also reduced, and the total summary time is shortened. The opposite is true if the decision threshold is reduced. In the case of adopting this extraction condition changing method, there is an advantage that it is possible to simplify the process until the summary voice that satisfies the summary condition is organized.

上述では各音声小段落毎に求める強調確率PSempと平静確率PSnrmを各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に強調状態となる確率を求め、それらの音声小段落内の平均値を求め、この平均値をその音声小段落の強調確率PSemp及び平静確率PSnrmとして用いることもできる。従って、この強調確率PSemp及び平静確率PSnrmの算出方法を採る場合には重み付けに用いる重み付け係数Wはそのまま強調確率PSemp又は平静確率PSnrmに乗算すればよい。 In the above description , the emphasis probability P Semp and the calm probability P Snrm to be calculated for each audio sub-paragraph are described as being calculated by the product of the probability of being in an emphasized state and the product of the probability of being in a calm state calculated for each frame. It is also possible to obtain the probability of being in an emphasized state for each frame as a method of the above, obtain the average value in those speech sub-paragraphs, and use this average value as the emphasis probability P Semp and the calm probability P Snrm of the speech sub-paragraph. . Therefore, when the calculation method of the emphasis probability P Semp and the calm probability P Snrm is employed, the weighting coefficient W used for weighting may be directly multiplied by the emphasis probability P Semp or the calm probability P Snrm .

図21を参照してこの第2参考例による要約率を自由に設定できる音声処理装置を説明する。この参考例では図13に示した音声強調状態要約装置の構成に要約条件入力部31と、音声強調確率テーブル32と、強調小段落抽出部33と、抽出条件変更部34と、仮要約区間判定部35と、この仮要約区間判定部35の内部に要約音声の総延長時間を求める総延長時間算出部35Aと、この総延長時間算出部35Aが算出した要約音声の総延長時間が要約条件入力部31でユーザが入力した要約時間に対し、その誤差が予め決められた値の範囲に入っているか否かを判定する要約区間決定部35Bと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部35Cを設けた構成とした点を特徴とするものである。   A speech processing apparatus capable of freely setting the summarization rate according to the second reference example will be described with reference to FIG. In this reference example, the summary condition input unit 31, the speech enhancement probability table 32, the enhancement small paragraph extraction unit 33, the extraction condition change unit 34, and the provisional summary section determination are added to the configuration of the speech enhancement state summarization apparatus shown in FIG. 35, a total extension time calculation unit 35A for obtaining the total extension time of the summary speech in the temporary summary section determination unit 35, and a summary condition input time for the summary speech calculated by the total extension time calculation unit 35A A summary section determination unit 35B that determines whether or not the error is within a predetermined value range with respect to the summary time input by the user in the unit 31, and stores and reproduces the summary audio that meets the summary condition The summary voice storage / playback unit 35C is provided.

入力音声から図13で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部16と平静確率計算部17でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部12に格納する。更に、このフレーム番号に音声小段落判定部で判定した音声小段落に付与した音声小段落番号jとその音声小段落が属する音声段落番号Bが付記され、各フレーム及び音声小段落にアドレスが付与される。
この参考例による音声処理装置では強調確率算出部16と平静確率算出部17は記憶部12に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率PSempと平静確率PSnrmとを求め、これら強調確率PSempと平静確率PSnrmを音声強調確率テーブル32に格納する。
As described with reference to FIG. 13, the speech feature amount is obtained for each frame from the input speech, and the enhancement probability calculation unit 16 and the calm probability calculation unit 17 calculate the enhancement probability and the calm probability for each frame according to the speech feature amount. The emphasis probability and the calm probability are stored in the storage unit 12 together with the frame number assigned to each frame. Furthermore, the audio subparagraph number j assigned to the audio subparagraph determined by the audio subparagraph determination unit and the audio paragraph number B to which the audio subparagraph belongs are appended to this frame number, and an address is assigned to each frame and audio subparagraph. Is done.
In the speech processing apparatus according to this reference example, the enhancement probability calculation unit 16 and the calm probability calculation unit 17 read the enhancement probability and the calm probability of each frame stored in the storage unit 12, and each speech sub-paragraph is calculated from the enhancement probability and the calm probability. the emphasis probability calculated a P Semp and undisturbed probability P SNRM, stores these enhancement probabilities P Semp and undisturbed probability P SNRM speech enhancement probability tables 32 each.

音声強調確率テーブル32には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納されており、いつでも利用者の要求に応じて要約を実行できる。利用者は要約条件入力部31に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率rを指す。要約条件としてはコンテンツの全長を1/10に要約するか、或は時間で10分に要約するなどの入力方法が考えられる。ここで例えば要約率r=1/10と入力した場合は要約時間算出部31Aはコンテンツの全長時間を1/10にする時間を算出し、その算出した要約時間を要約区間仮判定部35の要約区間決定部35Bに送り込む。   The speech enhancement probability table 32 stores enhancement probabilities and calming probabilities obtained for each speech sub-paragraph of speech waveforms of various contents, and summarization can be executed at any time according to the user's request. The user inputs the summary condition to the summary condition input unit 31. The summarization condition here refers to the name of the content to be summarized and the summarization rate r for the total time of the content. As the summarization condition, an input method such as summarizing the total length of the content to 1/10 or summing up to 10 minutes in time can be considered. Here, for example, when the summary rate r = 1/10 is input, the summary time calculation unit 31A calculates a time for reducing the total length time of the content to 1/10, and the calculated summary time is summarized by the summary section temporary determination unit 35. This is sent to the section determination unit 35B.

要約条件入力部31に要約条件が入力されたことを受けて制御部19は要約音声の生成動作を開始する。その開始の処理としては音声強調確率テーブル32から利用者が希望したコンテンツに対して強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部33に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声小段落を抽出するための条件を変更する方法としては上述した強調確率PSempと平静確率PSnrmに対する相対重み付け係数Wを変更してWPSemp>PSnrmの関係にある音声小段落を抽出し、それら音声小段落を含む音声段落により要約音声を得る方法と、重み付き確率比WPSemp/PSnrmを算出し、この重み係数を変更して重み付き確率比の降順に強調音声段落を含む音声段落の時間を1回に制限して累算して要約時間を得る方法とを用いることができる。
In response to the summary condition being input to the summary condition input unit 31, the control unit 19 starts the operation for generating the summary speech. As the start process, the emphasis probability and the calm probability are read out from the voice emphasis probability table 32 for the content desired by the user. The read-out emphasis probability and calmness probability are sent to the emphasis sub-paragraph extraction unit 33, and the audio sub-paragraph number determined to be in the emphasis state is extracted.
As a method of changing the condition for extracting a speech sub-paragraph in an emphasized state, the above-described speech enhancement with a relationship of WP Semp > P Snrm is performed by changing the relative weighting coefficient W for the emphasis probability P Semp and the calm probability P Snrm . Extracting paragraphs and obtaining summary speech using speech paragraphs including these speech sub-paragraphs, calculating weighted probability ratio WP Semp / P Snrm , and changing this weighting factor to emphasize emphasized speech in descending order of weighted probability ratio A method of obtaining a summary time by limiting the time of a speech paragraph including a paragraph to one time and accumulating the time can be used.

抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数Wの初期値をW=1としてもよい。また、各音声小段落毎に求めた強調確率PSempと平静確率PSnrmの確率比PSemp/PSnrmの値に応じて強調状態と判定する場合は初期値としてその比の値が例えばPSemp/PSnrm≧1である場合を強調状態と判定してもよい。
この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部33から要約区間仮判定部35に送り込む。要約区間仮判定部35では強調状態と判定された小段落番号を含む音声段落を記憶部12に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部35Aで算出し、その総延長時間と要約条件として入力された要約時間とを要約区間決定部35Bで比較する。比較結果が要約条件を満たすか否かの判定は、例えば要約総時間TGと入力要約時間TSが予め決めた許容誤差ΔTに対し、|TG-TS|≦ΔTを満足しているか否かを判定してもよいし、予め決めた1より小さい正の値δに対し0<|TG-TS|<δを満足しているか否かを判定してもよい。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部35Cで保存し、再生する。この再生動作は強調小段落抽出部33で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
As an initial value of the extraction condition, when the extraction condition is changed by weighting, the initial value of the weighting coefficient W may be set to W = 1. In addition, when determining the emphasis state according to the value of the probability ratio P Semp / P Snrm of the emphasis probability P Semp and the calm probability P Snrm obtained for each audio sub-paragraph, the value of the ratio is, for example, P Semp A case where / P Snrm ≧ 1 may be determined as the emphasized state.
Data representing the voice sub-paragraph number, the start time, and the end time determined to be in the emphasized state in the initial setting state are sent from the emphasized small paragraph extracting unit 33 to the summary section temporary determining unit 35. The summary section tentative determination unit 35 searches and extracts a speech paragraph including the small paragraph number determined to be in the emphasized state from the speech paragraph sequence stored in the storage unit 12. The total extension time of the extracted speech paragraph string is calculated by the total extension time calculation unit 35A, and the total extension time and the summary time input as the summary condition are compared by the summary section determination unit 35B. Whether the comparison result satisfies the summary condition is determined by, for example, whether or not the summary total time T G and the input summary time T S satisfy | T G −T S | ≦ ΔT with respect to a predetermined allowable error ΔT. It may be determined whether or not 0 <| T G −T S | <δ is satisfied for a positive value δ smaller than 1, which is determined in advance. If the comparison result satisfies the digest condition, the speech paragraph string is stored in the summary speech storage / playback unit 35C and played back. In this reproduction operation, an audio paragraph is extracted from the number of the audio sub-paragraph determined to be in the emphasized state by the emphasized sub-paragraph extracting unit 33, and the audio data or video data of each content is designated by specifying the start time and end time of the audio paragraph. Are output as summary audio and summary video data.

要約区間決定部35Bで要約条件を満たしていないと判定した場合は、要約区間決定部35Bから抽出条件変更部34に抽出条件の変更指令信号を出力し、抽出条件変更部34に抽出条件の変更を行わせる。抽出条件変更部34は抽出条件の変更を行い、その抽出条件を強調小段落抽出部33に入力する。強調小段落抽出部33は抽出条件変更部34から入力された抽出条件に従って再び音声強調確率テーブル32に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部33が抽出した強調音声小段落は再び要約区間仮判定部35に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部35Bで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部12から読み出され再生され、ユーザ端末に配信される。
When the summary section determination unit 35B determines that the summary condition is not satisfied, the summary section determination unit 35B outputs an extraction condition change command signal to the extraction condition change unit 34, and the extraction condition change unit 34 changes the extraction condition. To do. The extraction condition changing unit 34 changes the extraction condition and inputs the extraction condition to the emphasized small paragraph extracting unit 33. The emphasized small paragraph extraction unit 33 performs comparison determination between the enhancement probability and the calm probability of each audio subparagraph stored in the speech enhancement probability table 32 again according to the extraction condition input from the extraction condition changing unit 34.
The emphasized audio sub-paragraph extracted by the emphasized sub-paragraph extracting unit 33 is sent again to the summary section temporary determination unit 35 to extract the audio paragraph including the audio sub-paragraph determined to be in the emphasized state. The total extension time of the extracted speech paragraph is calculated, and the summary section determination unit 35B determines whether or not the calculation result satisfies the summary condition. This operation is repeated until the summary condition is satisfied, and the audio paragraph string that satisfies the summary condition is read out from the storage unit 12 as summary audio and summary video data, reproduced, and distributed to the user terminal.

この第2参考例による音声処理方法はコンピュータによりプログラムを実行させて実現することになる。この場合は符号帳及び処理プログラムを通信回線を介してダウンロードしたり、又はCD-ROM、磁気ディスク等の記憶媒体に格納されたプログラムをインストールして計算機内のCPU等の処理装置でこの参考例の方法を実行させることも可能である。
実施例
以下に発明の実施例を説明する。
第1参考例で説明した図1のステップS3における発話状態判定処理は、図4及び12を参照して説明したように、被験者の音声を分析して強調状態及び平静状態とラベルされた区間の各音声特徴量ベクトルについて予め求めた単独出現確率及び条件付出現確率を計算して符号帳にコードと対応して格納しておき、入力音声小段落の一連のフレームのコードから音声小段落が強調状態となる確率と平静状態となる確率を例えば式(17)及び(18)で求め、それらの大小関係により音声小段落が強調状態か平静状態かを判定したが、この発明の実施例では音響モデルとして隠れマルコフモデル(HMM:Hidden Markov Model)を使用して判定を行う例を以下に説明する。
The voice processing method according to the second reference example is realized by executing a program by a computer. In this case, the codebook and processing program can be downloaded via a communication line, or the program stored in a storage medium such as a CD-ROM or magnetic disk can be installed and used in a processing unit such as a CPU in the computer. It is also possible to execute the method.
EXAMPLES Examples of the invention will be described below.
As described with reference to FIGS. 4 and 12, the speech state determination process in step S <b> 3 of FIG. 1 described in the first reference example is performed by analyzing the subject's voice and labeling the emphasized state and the calm state. The single appearance probability and conditional appearance probability obtained in advance for each speech feature vector are calculated and stored in the codebook in correspondence with the code, and the speech sub-paragraph is emphasized from the code of a series of frames of the input speech sub-paragraph The probability of becoming a state and the probability of being in a calm state are obtained by, for example, equations (17) and (18), and it is determined whether the speech sub-paragraph is in an emphasized state or a calm state based on the magnitude relationship between them. An example in which the determination is performed using a hidden Markov model (HMM) as a model will be described below.

この実施例では、例えば予め被験者の学習用音声信号データ中の強調状態とラベル付けされた多数の区間と平静状態とラベル付けされた多数の区間から強調状態のHMMと平静状態のHMMをそれぞれ作成し、入力音声小段落の強調状態HMMに対する尤度と平静状態HMMに対する尤度を求め、その大小関係から発話状態を判定する。
HMMは一般に以下のパラメータにより構成される。
S:状態の有限集合;S={Si
Y:観測データ集合;Y={y1,..., yt
A:状態遷移確率の集合;A={aij
B:出力確率の集合;B={bj(yt)}
π:初期状態確率の集合;π={πi
図22A,22Bは状態数4(i=1,2,3,4)の場合の典型的な強調状態HMMと平静状態HMMの例を示す。この発明の実施例において、例えば学習音声データ中の強調状態と平静状態のラベル区間を、予め決めた状態数4にモデル化する場合、強調状態のHMMの状態における有限集合Semp={Semmpi}はSemp1, Semp2, Semp3, Semp4であり、平静状態のHMMの状態における有限集合Snrm={Snrmi}はSnrm1, Snrm2, Snrm3, Snrm4である。観測データ集合Yの要素{y1…,yt}は強調状態と平静状態のラベル区間の量子化された音声特徴量の組である。この実施例においても音声特徴量として、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ及び/又はそれらのフレーム間差分の少なくともいずれか1つを含む音声特徴量の組を使用する。aempijは状態SempiからSempjに遷移する確率を示し、bempj(yt)は状態Sempjに遷移してytを出力する出力確率を示す。初期状態確率はπemp(y1)、πnrm(y1)となる。aempij, anrmij, bempj(yt), bnrmj(yt)は学習音声からEM(Expectation-Maximization)アルゴリズム、または前向き・後ろ向きアルゴリズムによって推定する。
In this embodiment, for example, an HMM in an emphasized state and an HMM in a calm state are respectively created from a number of sections labeled as emphasized states and a number of sections labeled as calm states in the speech signal data for learning of the subject in advance. Then, the likelihood for the emphasis state HMM of the input speech sub-paragraph and the likelihood for the calm state HMM are obtained, and the speech state is determined from the magnitude relationship.
The HMM is generally composed of the following parameters.
S: finite set of states; S = {S i }
Y: observation data set; Y = {y 1 , ..., y t }
A: set of state transition probabilities; A = {a ij }
B: set of output probabilities; B = {b j (y t )}
π: set of initial state probabilities; π = {π i }
22A and 22B show examples of typical emphasis state HMM and calm state HMM in the case of the number of states 4 (i = 1, 2, 3, 4). In the embodiment of the present invention, for example, when the emphasized state and the calm state label section in the learning speech data are modeled to a predetermined number of states 4, a finite set S emp = {S empipi in the state of the emphasized HMM } Is S emp1 , S emp2 , S emp3 , S emp4 , and the finite set S nrm = {S nrmi } in the HMM state in a calm state is S nrm1 , S nrm2 , S nrm3 , S nrm4 . The elements {y 1 ..., Y t } of the observation data set Y are a set of quantized speech feature quantities in the emphasized state and calm state label sections. In this embodiment as well, a set of audio feature amounts including at least one of fundamental frequency, power, time-varying characteristics of dynamic feature amounts and / or at least one of their inter-frame differences as audio feature amounts. Is used. a empij represents the probability of transition from the state S empi to S empj , and b empj (y t ) represents the output probability of transitioning to the state S empj and outputting y t . The initial state probabilities are π emp (y 1 ) and π nrm (y 1 ). a empij , a nrmij , b empj (y t ), and b nrmj (y t ) are estimated from the learning speech by an EM (Expectation-Maximization) algorithm or a forward / backward algorithm.

以下に強調状態のHMMの設計の概要を説明する。
ステップS1:まず、学習音声データ中の強調状態又は平静状態とラベル付けされた全ての区間のフレームを分析して各フレームの予め決めた音声特徴量の組を求め、量子化符号帳を作る。例えば、ここでは、音声特徴量として第1参考例の実験で使用した後述する図17に組み番号7で示す13個のパラメータを含む音声特徴量の組を使用するものとし、量子化符号帳として、13次元ベクトルの符号帳を1つ作成する。量子化符号帳のサイズをMとし、各ベクトルに対応するコードをCm, (1, …, M)と表し、各コードに対応して学習により求めた音声特徴量ベクトルが格納された量子化符号帳を作成する。
ステップS2:学習音声データ中の強調状態と平静状態の全てのラベル区間のフレームの音声特徴量の組を量子化符号帳により量子化して、各強調ラベル区間の音声特徴量ベクトルのコード列Cmt, t=1,…,LN、(LNは区間のフレーム数)を得る。第1参考例で述べたように、量子化符号帳の各コードCmの強調状態での出現確率Pemp(Cm)が求まり、これが初期状態確率πemp(Cm)となる。同様に、平静状態での出現確率Pnrm(Cm)が求まり、これが初期状態確率πnrm(Cm)となる。図23AはコードCmの番号とそれに対応する初期状態確率πemp(Cm)とπnrm(Cm)の関係を表として示す。
ステップS3:強調状態HMMの状態数は任意に決めてよい。ここでは例えば図22A、22Bの場合、強調状態HMMと平静状態HMMの状態数はいずれも4とした場合を示し、強調状態のHMMは状態Sempi、状態Semp2、状態Semp3、状態Semp4が、平静状態のHMMは状態Snrm1、状態Snrm2、状態Snrm3、状態Snrm4が設けられている。
The following outlines the design of the emphasized HMM.
Step S1: First, frames of all sections labeled as emphasized state or calm state in the learning speech data are analyzed to obtain a predetermined speech feature amount set for each frame, and a quantization codebook is created. For example, here, a speech feature amount set including 13 parameters indicated by a combination number 7 in FIG. 17 (described later) used in the experiment of the first reference example is used as the speech feature amount, and a quantization codebook is used. Create one 13-dimensional vector codebook. The size of the quantization codebook is set to M, the code corresponding to each vector is represented as Cm, (1, ..., M), and the quantized code storing the speech feature vector obtained by learning corresponding to each code Create a book.
Step S2: A speech feature vector code sequence Cm t of each emphasized label section is quantized by a quantization codebook for a set of speech feature quantities of frames in all the label sections in the emphasized state and the calm state in the learned speech data. , t = 1,..., LN, (LN is the number of frames in the section). As described in the first reference example, the appearance probability P emp (Cm) in the emphasized state of each code Cm in the quantization codebook is obtained, and this is the initial state probability π emp (Cm). Similarly, the appearance probability P nrm (Cm) in a calm state is obtained, and this is the initial state probability π nrm (Cm). FIG. 23A shows the relationship between the code Cm number and the corresponding initial state probabilities π emp (Cm) and π nrm (Cm) as a table.
Step S3: The number of states of the emphasis state HMM may be arbitrarily determined. Here, for example, in the case of FIGS. 22A and 22B, the number of states of the emphasized state HMM and the calm state HMM is 4 and the HMM in the emphasized state is the state S empi , the state S emp2 , the state S emp3 , and the state S emp4. There, HMM calm state state S nrm1, state S nrm2, state S nrm3, state S Nrm4 is provided.

学習音声データの強調ラベル区間の一連のフレームから得たコード列から状態の遷移回数を計算し、それに基づいてEMアルゴリズム及び前向き・後ろ向きアルゴリズムを使って遷移確率aempij, anrmijと、出力確率bempj(Cm), bnrmj(Cm)を最尤推定する。これらの計算方法については例えばBaum, L.E.,"An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Function of a Markov Process", In-equalities, vol.3, pp.1-8(1972)に示されている。図23B、23Cにそれぞれの状態に対して設けられる遷移確率aempij, anrmijを示し、図24に強調状態HMMのそれぞれの状態Sempj, 及び平静状態HMM のそれぞれの状態Snrmj, (j=1,…,4)での各コードの出力確率bempj(Cm), bnrmj(Cm)を表で示す。 The number of state transitions is calculated from the code sequence obtained from a series of frames in the emphasized label section of the learning speech data, and based on this, transition probabilities a empij , a nrmij and output probability b using EM algorithm and forward / backward algorithm empj (Cm), b nrmj (Cm) is estimated with maximum likelihood. These calculation methods are described in, for example, Baum, LE, "An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Function of a Markov Process", In-equalities, vol.3, pp.1-8 (1972). Yes. 23B and 23C show transition probabilities a empij and a nrmij provided for the respective states, and FIG. 24 shows the respective states S empj and S jrmj , (j = The output probabilities b empj (Cm) and b nrmj (Cm) of each code in 1, ..., 4) are shown in a table.

これら状態遷移確率aempij, anrmijとコードの出力確率bempj(Cm), bnrmj(Cm)はそれぞれ表として例えば図13の装置の符号帳メモリ15内に格納され、以下に説明する入力音声信号の発話状態の判定に使用される。なお、出力確率の表は第1及び第2参考例における符号帳に対応する。
このようにして設計した強調状態HMMと平静状態HMMを使って入力音声小段落の発話状態を以下のようにして判定することができる。
入力音声小段落の一連のフレーム(フレーム数FN)から得た音声特徴量の組の列が得られ、それぞれの音声特徴量の組を量子化符号帳により量子化してコード列{Cm1, Cm2, …,CmFN}を得る。このコード列を、上記強調状態HMMで状態Semp1から開始して状態Semp4に達する全ての取り得る遷移経路について、音声小段落が強調状態となる確率(尤度)を算出する。ある経路kの遷移経路について以下に説明する。図25に、音声小段落の各フレームについて、コード列、状態、状態遷移確率、出力確率をまとめて示す。強調状態HMMでの経路kの状態系列Sk empがSk emp={Sk emp1, Sk emp2, …, Sk empFN}であるときの強調状態となる確率P(Sk emp)は、次式により求められる。
These state transition probabilities a empij , a nrmij and code output probabilities b empj (Cm), b nrmj (Cm) are respectively stored as tables in the codebook memory 15 of the apparatus of FIG. 13, for example. Used to determine the speech state of the signal. The output probability table corresponds to the codebook in the first and second reference examples.
Using the emphasis state HMM and the calm state HMM designed as described above, the utterance state of the input speech sub-paragraph can be determined as follows.
A sequence of speech feature values obtained from a series of frames (number of frames FN) of the input speech sub-paragraph is obtained, and each speech feature value set is quantized by a quantization codebook to generate a code sequence {Cm 1 , Cm 2 , ..., Cm FN }. The code sequence for all possible transition paths to reach the state S Emp4 starting from state S emp1 above emphasized state HMM, calculates the probability (likelihood) that voice subsections is emphasized. A transition path of a certain path k will be described below. FIG. 25 collectively shows the code string, state, state transition probability, and output probability for each frame of the audio sub-paragraph. The probability P (S k emp ) of being in the emphasized state when the state sequence S k emp of the path k in the emphasized state HMM is S k emp = {S k emp1 , S k emp2 , ..., S k empFN } is It is obtained by the following formula.

Figure 0004256393
Figure 0004256393

全ての経路kについて式(20)を算出する。音声小段落が強調状態となる確率PempHMMを例えば、最尤経路上の強調状態となる確率とすると、次式で表される。 Equation (20) is calculated for all routes k. If the probability P empHMM that the speech sub-paragraph is in the emphasized state is, for example, the probability that the speech sub-paragraph is in the emphasized state on the maximum likelihood path, it is expressed by the following equation.

Figure 0004256393
Figure 0004256393

あるいは、全ての経路についての上記式(20)の和で次式 Alternatively, the sum of the above equation (20) for all routes is

Figure 0004256393
Figure 0004256393

として求めてもよい。
同様に、平静状態のHMMについて、経路kの状態系列Sk nrmがSk nrm={Sk nrm1, Sk nrm2, …, Sk nrmFN}であるときの強調状態となる確率P(Sk nrm)は次式、
You may ask as.
Similarly, with respect to the HMM in a calm state, the probability P (S k of being an enhanced state when the state sequence S k nrm of the path k is S k nrm = {S k nrm1 , S k nrm2 , ..., S k nrmFN }. nrm ) is:

Figure 0004256393
Figure 0004256393

により求める。音声小段落が平静状態となる確率PnrmHMMを最尤経路上の平静状態となる確率とする場合、次式 Ask for. When the probability P nrmHMM that a speech sub-paragraph is in a calm state is defined as the probability that it is in a calm state on the maximum likelihood path,

Figure 0004256393
Figure 0004256393

で表される。あるいは、全ての経路についての上記式(22)の和で次式 It is represented by Alternatively, the sum of the above equation (22) for all routes is

Figure 0004256393
Figure 0004256393

として求めてもよい。
音声小段落について、強調状態確率PempHMMと平静状態確率PnrmHMMを比較し、前者が大きければ音声小段落は強調状態であると判定し、後者が大きければ音声小段落は平静状態であると判定する。あるいは、確率比PempHMM/PnrmHMMが予め決めた基準値より大きければ強調状態、基準値以下であれば平静状態と判定してもよい。
この実施例で説明したHMMを使用した強調状態確率及び平静状態確率の計算は、音声要約を行う第2参考例で説明した図18のステップS11、詳しくは、図19のステップS103, S104における音声強調確率算出処理に利用してもよい。即ち、式(17), (18)により確率PSemp, PSnrmを求める代わりに式(21), (23)又は式(21'), (23')により求めた強調状態確率PempHMM及び平静状態確率PnrmHMMを使用し、図20に示した音声強調確率テーブルに格納してもよい。確率比PempHMM/PnrmHMMと比較する基準値の値を変化させることにより、要約率を変えることができることは第2参考例の場合と同様である。
You may ask as.
Compares the emphasis state probability P empHMM and the calm state probability P nrmHMM for the audio sub-paragraph, and determines that the audio sub-paragraph is in the emphasized state if the former is large, and determines that the audio sub-paragraph is in the calm state if the latter is large. To do. Alternatively, the emphasis state may be determined if the probability ratio P empHMM / P nrmHMM is greater than a predetermined reference value, and the calm state may be determined if the probability ratio P empHMM / P nrmHMM is less than the reference value.
The calculation of the emphasized state probability and the calm state probability using the HMM described in this embodiment is performed in step S11 of FIG. 18 described in the second reference example for performing speech summarization, more specifically, in steps S103 and S104 of FIG. You may utilize for an emphasis probability calculation process. In other words, instead of obtaining the probabilities P Semp and P Snrm from Eqs . (17) and (18), the emphasis state probability P empHMM and the calmness obtained from Eqs. (21) and (23) or Eqs. (21 ') and (23') The state probability P nrmHMM may be used and stored in the speech enhancement probability table shown in FIG. The summarization rate can be changed by changing the value of the reference value compared with the probability ratio P empHMM / P nrmHMM as in the case of the second reference example.

第1参考例の音声要約方法の基本手順例を示す流れ図。The flowchart which shows the example of a basic procedure of the audio | voice summarization method of a 1st reference example. 図1中のステップS2において、入力音声から、有声区間、音声小段落、音声段落を抽出する手順の例を示す流れ図。The flowchart which shows the example of the procedure which extracts a voiced area, an audio | voice small paragraph, and an audio | voice paragraph from input audio | voice in step S2 in FIG. 有声区間、音声小段落、音声段落の関係を説明するための図。The figure for demonstrating the relationship between a voiced area, an audio | voice small paragraph, and an audio | voice paragraph. 図1中のステップS3における入力音声小段落の発話状態を判定する手順の例を示す流れ図。The flowchart which shows the example of the procedure which determines the utterance state of the input audio | voice subparagraph in step S3 in FIG. この発明において用いられる、符号帳の一部を作成する手順の例を示す流れ図。The flowchart which shows the example of the procedure which produces a part of codebook used in this invention. 音声特徴量をベクトル量子化したコードのunigramの例を示す図。The figure which shows the example of the unigram of the code | cord | chord which carried out the vector quantization of the audio | voice feature-value. 音声特徴量をベクトル量子化したコードのbigramの例を示す図。The figure which shows the example of the bigram of the code | cord | chord which carried out the vector quantization of the audio | voice feature-value. 図7に示したbigramのうち、コードCh=27のbigramを示す図。The figure which shows the bigram of the code | cord | chord Ch = 27 among the bigrams shown in FIG. 発話状態尤度計算を説明するための図。The figure for demonstrating speech state likelihood calculation. 18組のパラメータの組み合わせで実験した、close実験とopen実験の再現率を示す図。The figure which shows the reproduction rate of the close experiment and open experiment which experimented with the combination of 18 sets of parameters. 符号帳サイズを変化させたときの、close実験とopen実験の再現率を示す図。The figure which shows the recall of a close experiment and an open experiment when changing a codebook size. 符号帳の記憶例を示す図。The figure which shows the example of a memory | storage of a code book. 第1参考例による音声強調状態判定装置及び音声要約装置の各機能構成例を示す図。The figure which shows each function structural example of the audio | voice emphasis state determination apparatus and audio | voice summarization apparatus by a 1st reference example. 音声特徴量をベクトル量子化したbigramの例を示す図。The figure which shows the example of the bigram which carried out the vector quantization of the audio | voice feature-value. 図14の続きを示す図。The figure which shows the continuation of FIG. 図15の続きを示す図。The figure which shows the continuation of FIG. 実際に用いた音声特徴量のパラメータの組合せの例を示す図。The figure which shows the example of the parameter combination of the audio | voice feature-value actually used. 第2参考例の音声要約方法を説明するフローチャート。The flowchart explaining the audio | voice summarizing method of a 2nd reference example. 音声強調確率テーブルの作成方法を示すフローチャート。The flowchart which shows the preparation method of a speech emphasis probability table. 音声強調確率テーブルを説明するための図。The figure for demonstrating a speech emphasis probability table. 第2参考例の音声強調状態判定装置及び音声強調状態要約装置の構成例を示すブロック図。The block diagram which shows the structural example of the audio | voice emphasis state determination apparatus and audio | voice emphasis state summary apparatus of a 2nd reference example. Aはこの発明の実施例における強調状態HMMを説明するための図、Bはこの実施例における平静状態HMMを説明するための図。A is a diagram for explaining an emphasized state HMM in an embodiment of the present invention, and B is a diagram for explaining a calm state HMM in this embodiment. Aは各コードに対する強調状態の初期状態確率と平静状態の初期状態確率を示し、Bは強調状態での各遷移状態に対し設けられる状態遷移確率の表を示し、Cは平静状態での各遷移状態に対し設けられる状態遷移確率の表を示す図。A shows the initial state probability of the emphasized state and the initial state probability of the calm state for each code, B shows a table of state transition probabilities provided for each transition state in the emphasized state, and C shows each transition in the calm state The figure which shows the table | surface of the state transition probability provided with respect to a state. 強調状態の各遷移状態と平静状態の各遷移状態でのそれぞれのコードの出力確率の表を示す。The table of the output probability of each code | cord in each transition state of an emphasis state and each transition state of a calm state is shown. 1つの音声小段落における一連のフレームから得たコード列とそれらのコードがとる1つの状態遷移系列及びそれに従った状態遷移確率と出力確率をまとめた表を示す。2 shows a table summarizing code sequences obtained from a series of frames in one audio sub-paragraph, one state transition sequence taken by those codes, and state transition probabilities and output probabilities according thereto.

Claims (6)

フレーム毎の音声特徴量の組に基づき音声の強調状態を判定する音声処理方法であって、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうちの少なくともいずれか1つを含む音声特徴量の組からなる音声特徴量ベクトルにそれぞれのコードを対応させ、
上記強調状態での上記各コードが出現するコード出現確率と、上記強調状態での各状態が遷移する状態遷移確率と、上記強調状態での状態遷移時に上記コードが出現する遷移コード出現確率とを格納した符号帳を作成し、
上記強調状態での初期状態確率に対応する上記コード出現確率と、上記強調状態での上記音声特徴量ベクトルに対応する状態遷移ごとの上記遷移コード出現確率と状態遷移に対応する強調状態での上記状態遷移確率からなる強調状態音響モデルを上記符号帳を用いて作成し、
(a-1) フレーム毎の音声信号について、無声区間か有声区間か判定し、
(a-2) 所定フレーム数以上の無声区間に挟まれ、少なくとも1フレーム以上の有声区間を含む部分を音声小段落とし、
(a-3) 上記音声小段落の最初のフレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの強調状態での初期状態確率を上記符号帳から求め、
上記強調状態音響モデルより上記音声小段落の2番目以降の各フレームについて上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルに対応する状態遷移ごとの強調状態での出力確率を求め、上記音声小段落内の各フレーム間の強調状態での遷移確率を求めるステップと、
(b) 上記音声小段落における全ての状態遷移経路ごとの上記強調状態での初期状態確率と上記出力確率と上記遷移確率の積の最大値又は上記積の総和に基づき、上記音声小段落が強調状態となる尤度を算出するステップと、
(c) 上記強調状態となる尤度に基づいて上記音声小段落が強調状態であるか否かを判定するステップとを含むことを特徴とする音声処理方法。
An audio processing method for determining an audio enhancement state based on a set of audio feature values for each frame,
At least one of six of the basic frequency, the power, the time variation characteristic of the dynamic feature amount, the difference between frames of the fundamental frequency, the difference between frames of the power, and the difference between frames of the time variation property of the dynamic feature amount Each code corresponds to a speech feature vector consisting of a set of speech features
A code appearance probability that each code appears in the emphasized state, a state transition probability that each state changes in the emphasized state, and a transition code appearance probability that the code appears in the state transition in the emphasized state Create a stored codebook,
The code appearance probability corresponding to the initial state probability in the emphasized state, the transition code appearance probability for each state transition corresponding to the speech feature vector in the emphasized state, and the emphasized state corresponding to the state transition the emphasized state acoustic model consisting of the state transition probability created using the codebook,
(a-1) For the audio signal for each frame, determine whether it is unvoiced or voiced,
(a-2) A portion including a voiced section of at least one frame sandwiched between unvoiced sections of a predetermined number of frames or more is a voice sub-paragraph,
(a-3) Obtaining an initial state probability in the emphasized state of a speech feature vector corresponding to a code obtained by quantizing the speech feature set of the first frame of the speech sub-paragraph from the codebook,
For the second and subsequent frames of the speech sub-paragraph from the enhanced state acoustic model, the output probability in the enhanced state for each state transition corresponding to the speech feature vector corresponding to the code obtained by quantizing the speech feature set pair. Determining a transition probability in an emphasized state between each frame in the audio sub-paragraph;
(b) The voice sub-paragraph is emphasized based on the maximum value of the product of the initial state probability and the output probability and the transition probability in the emphasized state or the sum of the products for all the state transition paths in the voice sub-paragraph. Calculating the likelihood of becoming a state;
(c) determining whether or not the audio sub-paragraph is in an emphasized state based on the likelihood of being in an emphasized state.
請求項1に記載の方法において、
上記符号帳を、平静状態での上記各コードが出現するコード出現確率と、上記平静状態での各状態が遷移する状態遷移確率と、上記平静状態での状態遷移時に上記コードが出現する遷移コード出現確率とをも格納するようにして作成し、
上記平静状態での初期状態確率に対応する上記コード出現確率と、上記音声特徴量ベクトルに対応する状態遷移ごとの上記遷移コード出現確率と状態遷移に対応する平静状態での上記状態遷移確率からなる平静状態音響モデルを上記符号帳を用いて作成し、
上記ステップ(a-3) は、更に上記音声小段落の最初のフレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での初期状態確率を求め、
上記平静状態音響モデルより上記音声小段落の2番目以降の各フレームについて上記音声特徴量ベクトルの組の量子化した音声特徴量ベクトルに対応する状態遷移ごとの平静状態での出力確率を求め、上記音声小段落内の各フレーム間の平静状態での遷移確率を求めるステップも含み、
上記ステップ(b) は、更に上記音声小段落における上記平静状態音響モデルの全ての状態遷移経路ごとの上記平静状態での初期状態確率と上記出力確率と上記遷移確率の積の最大値又は上記積の総和に基づき、上記音声小段落が平静状態となる尤度として算出するステップを含み、
上記ステップ(c)における上記音声小段落が上記強調状態であるか否かの判定は、上記
強調状態音響モデルを用いて求めた上記強調状態となる尤度と、上記平静状態音響モデルを用いて求めた上記平静状態となる尤度とを比較して判定することを特徴とする音声処理方法。
The method of claim 1, wherein
The codebook includes a code appearance probability that each code appears in a calm state, a state transition probability that each state transitions in the calm state, and a transition code in which the code appears during a state transition in the calm state. Create it to store the appearance probability,
And the code occurrence probability corresponding to the initial state probability in the calm state, and the transition code occurrence probability for each state transition corresponding to the audio feature vectors, and the state transition probability in calm state corresponding to the state transition A calm state acoustic model is created using the above codebook,
The step (a-3) further determines an initial state probability in a calm state of a speech feature vector corresponding to a code obtained by quantizing the speech feature set of the first frame of the speech sub-paragraph,
Obtaining an output probability in a calm state for each state transition corresponding to a quantized speech feature vector of the speech feature vector set for each of the second and subsequent frames of the speech sub-paragraph from the calm state acoustic model; Including determining the transition probability in a calm state between each frame in the audio sub-paragraph,
The step (b) further includes the maximum value of the product of the initial state probability, the output probability, and the transition probability in the calm state for each state transition path of the calm state acoustic model in the sub audio paragraph or the product. Calculating the likelihood that the audio sub-paragraph is in a calm state based on the sum of
The determination as to whether or not the audio sub-paragraph in the step (c) is in the emphasized state is performed using the likelihood that the emphasized state obtained using the emphasized state acoustic model and the calm state acoustic model are used. A speech processing method, characterized in that determination is made by comparing the obtained likelihood of being in a calm state.
請求項1又は2に記載の方法において、上記ステップ(a-2) は、更に上記音声小段落の後半部に含まれる1フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定するステップを含み、
上記ステップ(c)は、強調状態であると判定することに加えて、上記強調状態と判定さ
れた音声小段落を含む上記音声段落を要約区間と判定するステップも含むことを特徴とする音声処理方法。
3. The method according to claim 1 or 2, wherein the step (a-2) further includes calculating the average power of the voiced section of one or more frames included in the latter half of the audio sub-paragraph as the average power in the audio sub-paragraph. Determining a group of audio sub-paragraphs ending with audio sub-paragraphs smaller than a constant multiple as audio paragraphs;
In addition to determining that the step (c) is in the emphasized state, the step (c) includes a step of determining the speech paragraph including the small audio paragraph determined to be in the emphasized state as a summary section. Method.
請求項2に記載の方法において、上記ステップ(a-2) は、更に上記音声小段落の後半部に含まれる1フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定するステップを含み、
上記ステップ(c) における上記比較して判定することは、
(c-1) 上記音声小段落が強調状態となる尤度と平静状態となる尤度の尤度比を算出するステップと、
(c-2) 上記尤度比を基準値と比較し、基準値より大きければ上記音声小段落が強調状態であると判定するステップを有し、
上記ステップ(c)は上記強調状態であると判定することに加えて、上記強調状態と判定
された音声小段落を含む上記音声段落を要約区間と判定するステップ(c-3)も含むことを
特徴とする音声処理方法。
3. The method according to claim 2, wherein the step (a-2) further includes a step in which the average power of one or more voiced sections included in the latter half of the audio sub-paragraph is a constant multiple of the average power in the audio sub-paragraph. Determining a group of audio sub-paragraphs ending with a smaller audio sub-paragraph as an audio paragraph;
Judging by the comparison in step (c) above
(c-1) calculating a likelihood ratio between the likelihood that the speech sub-paragraph is in an emphasized state and the likelihood in which it is in a calm state;
(c-2) comparing the likelihood ratio with a reference value, and determining that the audio sub-paragraph is in an emphasized state if it is greater than the reference value;
In addition to determining that the step (c) is in the emphasized state, the step (c) includes a step (c-3) of determining the speech paragraph including the audio subparagraph determined to be the emphasized state as a summary section. A voice processing method as a feature.
請求項4に記載の方法において、
(c-4) 上記ステップ(c-3)で得られた要約区間の要約率または要約時間が所定の要約率
または要約時間であるか否かを判断し、
所定の要約率または要約時間でない場合は上記基準値を変更してステップ(c-2)に戻るステップを含むことを特徴とする音声処理方法。
The method of claim 4, wherein
(c-4) Determine whether the summarization rate or summarization time of the summarization section obtained in step (c-3) above is a predetermined summarization rate or summarization time,
A speech processing method comprising a step of changing the reference value and returning to step (c-2) when the summarization rate or summarization time is not a predetermined value.
請求項1乃至5のいずれかに記載の音声処理方法の各ステップをコンピュータに実行させる音声処理プログラム。   A speech processing program for causing a computer to execute each step of the speech processing method according to claim 1.
JP2006009913A 2001-08-08 2006-01-18 Voice processing method and program thereof Expired - Lifetime JP4256393B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006009913A JP4256393B2 (en) 2001-08-08 2006-01-18 Voice processing method and program thereof

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001241278 2001-08-08
JP2002047597 2002-02-25
JP2006009913A JP4256393B2 (en) 2001-08-08 2006-01-18 Voice processing method and program thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002230598A Division JP3803311B2 (en) 2001-08-08 2002-08-07 Voice processing method, apparatus using the method, and program thereof

Publications (2)

Publication Number Publication Date
JP2006146261A JP2006146261A (en) 2006-06-08
JP4256393B2 true JP4256393B2 (en) 2009-04-22

Family

ID=36625907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006009913A Expired - Lifetime JP4256393B2 (en) 2001-08-08 2006-01-18 Voice processing method and program thereof

Country Status (1)

Country Link
JP (1) JP4256393B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101315970B1 (en) * 2012-05-23 2013-10-08 (주)엔써즈 Apparatus and method for recognizing content using audio signal
JP5875504B2 (en) * 2012-11-27 2016-03-02 日本電信電話株式会社 Speech analysis device, method and program
JP6229530B2 (en) * 2014-02-20 2017-11-15 富士通株式会社 Voice communication apparatus and voice processing program
CN109036381A (en) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 Method of speech processing and device, computer installation and readable storage medium storing program for executing

Also Published As

Publication number Publication date
JP2006146261A (en) 2006-06-08

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
EP1288911B1 (en) Emphasis detection for automatic speech summary
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US7096183B2 (en) Customizing the speaking style of a speech synthesizer based on semantic analysis
CN114203147A (en) System and method for text-to-speech cross-speaker style delivery and for training data generation
JP2001209662A (en) Information processor, information processing method and recording medium
JP3803311B2 (en) Voice processing method, apparatus using the method, and program thereof
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
US20220293091A1 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
JP4256393B2 (en) Voice processing method and program thereof
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
Prahallad et al. Automatic building of synthetic voices from large multi-paragraph speech databases.
JP4580190B2 (en) Audio processing apparatus, audio processing method and program thereof
JP4696418B2 (en) Information detection apparatus and method
Nakano et al. A drum pattern retrieval method by voice percussion
Schnell et al. Investigating a neural all pass warp in modern TTS applications
Lee et al. A segmental speech coder based on a concatenative TTS
Furui Robust methods in automatic speech recognition and understanding.
Abdullaeva et al. Uzbek Speech synthesis using deep learning algorithms
WO2004077381A1 (en) A voice playback system
JP3803306B2 (en) Acoustic signal encoding method, encoder and program thereof
JP2003259311A (en) Video reproducing method, video reproducing apparatus, and video reproducing program
JPH07230293A (en) Voice recognition device
EP1589524A1 (en) Method and device for speech synthesis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090129

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4256393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term