JP2006285254A - Method and apparatus for measuring voice speed, and sound recorder - Google Patents

Method and apparatus for measuring voice speed, and sound recorder Download PDF

Info

Publication number
JP2006285254A
JP2006285254A JP2006095376A JP2006095376A JP2006285254A JP 2006285254 A JP2006285254 A JP 2006285254A JP 2006095376 A JP2006095376 A JP 2006095376A JP 2006095376 A JP2006095376 A JP 2006095376A JP 2006285254 A JP2006285254 A JP 2006285254A
Authority
JP
Japan
Prior art keywords
voice
phoneme
speech
word
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006095376A
Other languages
Japanese (ja)
Inventor
Je Hao
ハオ・ジェ
Riifu I
イ・リーフ
Shaoyaen Rou
ロウ・シャオヤェン
Jen Ri
リ・ジェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2006285254A publication Critical patent/JP2006285254A/en
Abandoned legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice speed measuring method for measuring voice speed automatically. <P>SOLUTION: The voice speed measuring method comprises: a step for inputting voice information including voices; a step for recognizing a timing point corresponding to a phoneme sequence and each phoneme from the voice information; a step for recognizing a timing point corresponding to a word sequence and each word from the timing point corresponding to the phoneme sequence and each phoneme; and a step for calculating the voice speed based on the timing point corresponding to the recognized word sequence and each word. <P>COPYRIGHT: (C)2007,JPO&amp;INPIT

Description

本発明は、音声処理技術、特に音声速度測定方法及び装置並びに録音装置に関する。   The present invention relates to a voice processing technique, and more particularly to a voice speed measuring method and apparatus and a recording apparatus.

現在、各種のタイプの録音装置がプロフェショナル録音スタジオ又は家庭用に幅広く使用されている。
J.W. Picone, signal Modeling Techniques in Speed Recognition. Proc.IEEE,1993,81(9):1215-1247 Viterbi, A.J., Error bounds for conventional code and an asymptotically optimum decoding algorithm. IEEE Trans. on IT, 13(2), Apri, 1967及びL.R.Rabiner, A tutorial on Hidden Markov MOdels and Selected Application in Speech Recognition, Proc. IEEE Vol. 77, No. 2, Feb., 1989,pp. 257-285 P.F. Brown, C-H. Lee, J. C. Hopper, Baysian Adaptation in Speech recognition, ICASSP 1983, pp761-764及びC.J. Leggetter, P.C. Woodkabd, Speaker Adaptation of Continuous Density HMMs Using Multivariate Linear Regression, ICSLP94
Currently, various types of recording devices are widely used in professional recording studios or homes.
JW Picone, signal Modeling Techniques in Speed Recognition.Proc.IEEE, 1993,81 (9): 1215-1247 Viterbi, AJ, Error bounds for conventional code and an asymptotically optimum decoding algorithm.IEEE Trans. On IT, 13 (2), Apri, 1967 and LRRabiner, A tutorial on Hidden Markov MOdels and Selected Application in Speech Recognition, Proc.IEEE Vol 77, No. 2, Feb., 1989, pp. 257-285 PF Brown, CH. Lee, JC Hopper, Baysian Adaptation in Speech recognition, ICASSP 1983, pp761-764 and CJ Leggetter, PC Woodkabd, Speaker Adaptation of Continuous Density HMMs Using Multivariate Linear Regression, ICSLP94

多くの録音装置は音の大きさ及び周波数を測定し、制御する機能を有するが、音声速度を測定し、制御する機能を有していない。他方、録音スタジオ又は実験室での録音作業中には、(アナウンサのような)話者及びディレクタ又はモニタなどは自らの経験に基づいて音の速度を主観的に測定し、制御しており、結果は余り正確ではないことが多い。録音を完了した後に語、文又は節の開始及び停止時刻を手動にてマーク付けすることによって音声速度を測定することができるが、これは、リアルタイムで音声速度を測定する必要があるときには使用できない。   Many recording devices have the function of measuring and controlling the volume and frequency of sound, but do not have the function of measuring and controlling the voice speed. On the other hand, during recording work in a recording studio or laboratory, speakers (such as announcers) and directors or monitors, etc., subjectively measure and control the speed of sound based on their experience, The results are often not very accurate. You can measure voice speed by manually marking the start and stop times of words, sentences or clauses after recording is complete, but this is not available when you need to measure voice speed in real time .

故に、録音又は音発生中に音声速度を自動的に測定し、計算し、情報を素早く又はリアルタイムで話者及び(ディレクタ、DJ及び他のような)関係者にフィードバックすることができれば望ましく、それにより、彼等はいつでも話者の音声速度を知ることができ、音声時間及び速度を制御できる。   Therefore, it would be desirable to be able to automatically measure and calculate voice speed during recording or sound generation and to feed back information quickly and in real time to speakers and parties (such as directors, DJs and others) Thus, they can know the voice speed of the speaker at any time and can control the voice time and speed.

従来技術の上記問題を解決するために、本発明が提供される。本発明の一態様は、音声を含む音声情報を入力するステップと、前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと含むことを特徴とする。   In order to solve the above problems of the prior art, the present invention is provided. One aspect of the present invention includes a step of inputting speech information including speech, a step of recognizing a phoneme sequence and a timing point corresponding to each phoneme from the speech information, and a timing point corresponding to the phoneme sequence and each phoneme. Recognizing a word string and a timing point corresponding to each word, and calculating a speed of the voice based on the word string and a timing point corresponding to each recognized word.

本発明の他の態様は、音声に対応するテキスト情報を入力するステップと、前記音声を含む音声情報を入力するステップと、前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップとを含むことを特徴とする。   According to another aspect of the present invention, a step of inputting text information corresponding to speech, a step of inputting speech information including the speech, and a step of generating a phoneme sequence corresponding to a word sequence included in the text information, Recognizing a timing point corresponding to each phoneme of the phoneme sequence from the speech information to obtain a timing point corresponding to each word of the word sequence, and corresponding to the word sequence and each recognized word Calculating the speed of the voice based on a timing point.

本発明の他の態様は、音声を含む音声情報を入力するよう構成される音声入力部と、前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するよう構成される音素列認識部と、前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部とを具備することを特徴とする。   According to another aspect of the present invention, a speech input unit configured to input speech information including speech, and a phoneme string and a timing point corresponding to each phoneme are recognized from the speech information input by the speech input unit. A phoneme string recognition unit configured as described above, and a word string included in the speech and a timing point corresponding to each word from the phoneme string and the timing point corresponding to each phoneme recognized by the phoneme string recognition unit A speech speed calculator configured to calculate the speed of the speech based on the word sequence and the timing point corresponding to each word recognized by the word sequence recognizer It comprises the part.

本発明の他の態様は、速度を含む音声情報を入力するように構成される音声入力部と、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト情報に含まれる語列に対応する音素列を生成するように構成される音素列生成部と、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、前記語列及び各語に対応する前記タイミング点に基づいて前記音声の前記速度を算出するように構成される音声速度計算部とを具備することを特徴とする。   Another aspect of the present invention includes a voice input unit configured to input voice information including speed, a text input unit configured to input text information corresponding to the voice, and the text information. A phoneme string generator configured to generate a phoneme string corresponding to an included word string, and generated by the phoneme string generator from the speech information to obtain a timing point corresponding to each word of the word string. A compulsory matching unit configured to recognize a timing point corresponding to each phoneme of the phoneme string, and to calculate the speed of the speech based on the word string and the timing point corresponding to each word. And a voice speed calculator configured.

本発明の他の態様は、上記音声速度測定装置を含む録音装置を提供する。   Another aspect of the present invention provides a recording device including the above-described audio speed measuring device.

図1は、本発明の実施形態に従った音声速度測定方法を示すフローチャートである。図1に示すように、最初にステップ101で、音声を含む音声情報が入力される。ここで、音声情報は話者の音声を含む音声データであり、これはWAV,RAM,MP3などのような異なるフォーマットであっても良い。このステップで、音声情報はマイクロフォンやサンプリング回路のような装置からリアルタイムで得られてもよく、通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録していた記録媒体から読み出されても良い。   FIG. 1 is a flowchart illustrating an audio speed measurement method according to an embodiment of the present invention. As shown in FIG. 1, first, in step 101, voice information including voice is input. Here, the voice information is voice data including the voice of the speaker, and this may be in different formats such as WAV, RAM, MP3 and the like. In this step, the audio information may be obtained in real time from a device such as a microphone or a sampling circuit, may be transmitted from another external device via a communication means, or the recording medium on which the audio information has been recorded May be read from.

次に、ステップ105で、音素列及び各音素に対応するタイミング点が音声情報から認識される。当業者により知られているように、音素は自然言語の音声の基本単位である。音声の要素は実際には多数の音素で成る音素列である。既存の音声認識技術では、音声情報から音素列を認識するために使用できる多くの方法があることは知られている。例えば、ビタビ復号アルゴリズム、Aアルゴリズムなど全てが本発明に適用できる。これらは次の実施形態において説明する。更に、本ステップでは、音声列を認識しながら音声の各音素のタイミング点、即ち各音素の開始及び終止タイミングが決定される。 Next, in step 105, the phoneme string and the timing points corresponding to each phoneme are recognized from the speech information. As is known by those skilled in the art, phonemes are the basic unit of natural language speech. A speech element is actually a phoneme string composed of a large number of phonemes. In existing speech recognition technology, it is known that there are many methods that can be used to recognize phoneme sequences from speech information. For example, Viterbi decoding algorithm, A * algorithm, etc. can all be applied to the present invention. These will be described in the next embodiment. Further, in this step, the timing point of each phoneme of the speech, that is, the start and end timing of each phoneme is determined while recognizing the speech sequence.

次に、ステップ110で、語列及び各語に対応するタイミング点が音素列及び各音素に対応するタイミング点から認識される。本発明では、語は例えば自然語の基本単位を意味し、それは中国語の文字であり、英語の単一単語、或いは日本語の仮名又は漢字である。当業者により知られているように、音声では、語は1つ以上の子音音素及び1以上の母音音素により構成される。既存の音声認識技術では、音素列から語列を認識するために使用できる多数の方法がある。たとえば、共通に使用される方法は対応する語列を見つけるようにマッチングのための認識音素列を検索するために発音語彙集を使用することである。更に、このステップでは、語列を認識しながら音声の各語のタイミング点、即ち、音素の開始及び終止タイミングが決定される。   Next, in step 110, the word sequence and the timing points corresponding to each word are recognized from the phoneme sequence and the timing points corresponding to each phoneme. In the present invention, a word means, for example, a basic unit of a natural language, which is a Chinese character, an English single word, or a Japanese kana or kanji. As is known by those skilled in the art, in speech, a word is composed of one or more consonant phonemes and one or more vowel phonemes. In existing speech recognition techniques, there are a number of methods that can be used to recognize word sequences from phoneme sequences. For example, a commonly used method is to use a pronunciation vocabulary to search the recognized phoneme sequence for matching to find the corresponding word sequence. Further, in this step, the timing point of each word of the speech, that is, the start and end timing of the phoneme is determined while recognizing the word string.

最後に、ステップ115で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。本発明の音声速度を表すために多くの方法が使用できる。例えば、中国語の場合は、音声速度は「秒当たりの語」又は「分当たりの語」で表してもよい。故に、音声に含まれる語列及び各語に対応するタイミング点を得た後、時間単位当たりの語数(即ち、音声速度)が計算できる。例えば、英語の場合は、音声速度は時間単位当たりの語数又は時間帯当たりの音節数で表すことができる。音声速度が中国語の場合と同様に、時間単位当たりの語数で表されると、時間単位当たりの語数が認識語列及び各語に対応するタイミング点に基づいて計算できる。音声速度が時間単位当たりの音節数で表されると、時間単位当たりの音節数を得るために各語に含まれる音節を合計する必要がある。   Finally, in step 115, the voice speed of the voice is calculated based on the recognition word string and the timing points corresponding to each word. Many methods can be used to represent the voice speed of the present invention. For example, in the case of Chinese, the voice speed may be expressed in “words per second” or “words per minute”. Therefore, after obtaining a word string included in speech and a timing point corresponding to each word, the number of words per time unit (ie, speech speed) can be calculated. For example, in the case of English, the voice speed can be expressed as the number of words per time unit or the number of syllables per time slot. Similarly to the case where the voice speed is Chinese, when expressed in terms of the number of words per unit of time, the number of words per unit of time can be calculated based on the recognized word string and the timing points corresponding to the respective words. If the voice speed is expressed in terms of the number of syllables per time unit, the syllables included in each word must be summed to obtain the number of syllables per time unit.

本実施形態の音声速度測定方法が採用されれば、音声の要素の音声速度が以前のように記録過程の後に音声速度を手動で測定する必要がなく自動的に測定されることは上記説明から明らかである。   If the voice speed measuring method of this embodiment is adopted, the voice speed of the voice elements is automatically measured without the need to manually measure the voice speed after the recording process as before. it is obvious.

更に、音声速度を測定する本実施形態の方法は録音過程でのリアルタイム測定、即ち話者又はその他の人(例えば、ディレクタ、管理者など)に音声速度情報を提供するように音声列に従って音声速度を測定するため本実施形態の方法を繰り返し実行するために使用されてもよい。   Furthermore, the method of the present embodiment for measuring the voice speed is a real-time measurement during the recording process, that is, the voice speed according to the voice string so as to provide voice speed information to the speaker or other person (eg, director, administrator, etc.). May be used to repeatedly perform the method of the present embodiment.

図2は、本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明のこの実施形態に従った音声速度測定方法は図2を鑑みて説明する。図2において、上記実施形態と同様な部分に対しては同じ参照符号が使用されている。以下の説明では、これら同じ部分に対しては説明を省略する。   FIG. 2 is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to this embodiment of the invention will be described in view of FIG. In FIG. 2, the same reference numerals are used for the same parts as in the above embodiment. In the following description, description of these same parts is omitted.

図2に示すように、先ず、ステップ101では、音声を含む音声情報が入力される。次に、ステップ205では、音声特徴が入力音声情報から抽出される。当業者によって知られているように、音声特徴は音声信号から抽出され、異なる音を区別するために使用できる特徴である。現在、比較的に一般的に使用される音声特徴は例えば、MFCC特徴などを含む(例えば、非特許文献1を参照)。   As shown in FIG. 2, first, in step 101, voice information including voice is input. Next, in step 205, voice features are extracted from the input voice information. As known by those skilled in the art, speech features are features that are extracted from a speech signal and can be used to distinguish different sounds. Currently, speech features that are relatively commonly used include, for example, MFCC features (see, for example, Non-Patent Document 1).

次に、ステップ210では、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて用いられる。当業者に知られているように、ビタビ復号は音声認識、通信などの分野で広く使用されている実用的で有効な技術である。音声要素が入力されると、音響モデルに基づくアルゴリズムが最高確率で音声の要素を生成するはずである音素列を見つけることができる。これらの音素を合成することにより列が生成されることになり、それによって音声のこの要素の認識が実現される。ビタビ復号アルゴリズムについては、次のような文献、即ち、非特許文献2を参照する。   Next, in step 210, Viterbi decoding of the extracted speech features is used based on the acoustic model to recognize the phoneme sequence and the timing points corresponding to each phoneme. As known to those skilled in the art, Viterbi decoding is a practical and effective technique widely used in the fields of speech recognition and communication. When a speech element is input, an algorithm based on the acoustic model can find a phoneme sequence that should generate the speech element with the highest probability. By synthesizing these phonemes, a sequence will be generated, thereby realizing recognition of this element of speech. For the Viterbi decoding algorithm, reference is made to the following document, that is, Non-Patent Document 2.

音素列を認識するために本実施形態にはビタビ復号アルゴリズムが使用されているが、Aアルゴリズムのような他の方法が本発明に使用できることは留意すべきである。即ち、音声認識の既存する他の技術は、それらが抽出音声特徴から音素列を認識できる限り本発明に使用できる。 It should be noted that although the Viterbi decoding algorithm is used in this embodiment to recognize phoneme sequences, other methods such as the A * algorithm can be used in the present invention. That is, other existing technologies for speech recognition can be used in the present invention as long as they can recognize phoneme sequences from extracted speech features.

次に、ステップ215では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。   Next, in step 215, a word string corresponding to the phoneme string and a timing point corresponding to each word are recognized using the pronunciation vocabulary collection.

最後に、ステップ115で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。   Finally, in step 115, the voice speed of the voice is calculated based on the recognition word string and the timing points corresponding to each word.

本発明が採用されれば、ビタビ復号技術の使用により音声速度が効果的に測定できる。   If the present invention is adopted, the voice speed can be effectively measured by using the Viterbi decoding technique.

図3Aは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図3Aを鑑みて説明する。図3Aにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。   FIG. 3A is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to an embodiment of the present invention will be described in view of FIG. 3A. In FIG. 3A, the same reference numerals are used for the same parts as those of the above embodiment. Explanation of these same parts is omitted.

図3Aに示されるように、先ず、ステップ301では、音声に対応するテキストが入力される。即ち、このステップでは、音声テキスト(テキスト情報)が入力される。この音声テキストは音声速度が測定されることになる音声に対応する語を含む。具体的には、テキスト情報はキーボード又は他の入力装置を介して入力されてもよく、又は通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録した記録媒体から読み取られてもよい。   As shown in FIG. 3A, first, in step 301, text corresponding to speech is input. That is, in this step, speech text (text information) is input. This speech text includes words corresponding to the speech whose speech speed is to be measured. Specifically, the text information may be input via a keyboard or other input device, may be transmitted from another external device via communication means, or read from a recording medium on which audio information is recorded. May be.

次に、ステップ305では、入力テキスト情報に基づいた音響モデルが採用される。一般的に、音声認識に使用される音響モデルは一般的に使用される音響モデルであり、即ち、音素の情報及び音声の一般的状態に適する音声特徴を含む音響モデルである。しかしながら、本実施形態では、処理すべき音声のテキスト情報は予め知られているので、音響モデルは処理すべき音声の内容に適合してもよい。この種の適合はこの分野では「管理適合」と呼ばれる。音響モデルの適合については、次の文献、即ち非特許文献3が参照される。   Next, in step 305, an acoustic model based on the input text information is employed. In general, the acoustic model used for speech recognition is a commonly used acoustic model, i.e., an acoustic model that includes phonetic information and speech features suitable for the general state of speech. However, in this embodiment, since the text information of the voice to be processed is known in advance, the acoustic model may be adapted to the content of the voice to be processed. This type of adaptation is referred to in this field as “management adaptation”. Regarding the adaptation of the acoustic model, reference is made to the following document, that is, Non-Patent Document 3.

次に、ステップ101にて、音声情報が入力され、ステップ205で、音声特徴が抽出される。   Next, in step 101, voice information is input, and in step 205, voice features are extracted.

次に、ステップ310で、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミングを認識するように適合音響モデルに基づいて行われる。使用される音響モデルは処理されることになる音声の内容に適合されていたので、このステップでは、音素列認識速度及び制度が向上される。   Next, in step 310, Viterbi decoding of the extracted speech features is performed based on the adaptive acoustic model so as to recognize the phoneme sequence and the timing corresponding to each phoneme. Since the acoustic model used was adapted to the content of the speech to be processed, this step improves the phoneme sequence recognition speed and system.

次に、ステップ215では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。   Next, in step 215, a word string corresponding to the phoneme string and a timing point corresponding to each word are recognized using the pronunciation vocabulary collection.

最後に、ステップ115で、音声の音声速度が認識された語列及び各語に対応するタイミング点に基づいて算出される。   Finally, in step 115, the voice speed of the voice is calculated based on the recognized word string and the timing point corresponding to each word.

上記から、本発明が採用されれば、音響モデルが処理されるべき音声の内容に監視適合されるので、音素列がより速く、より正確に認識でき、かつ音声速度がより速く、より性格に計算できることが理解できる。   From the above, if the present invention is adopted, the acoustic model is supervised and adapted to the content of the speech to be processed, so that the phoneme sequence can be recognized faster and more accurately, and the speech speed is faster and more personal. I can understand that I can calculate.

図3Aに示されるようにステップ301(音声テキストの入力)及びステップ305(音響モデルの適合)はステップ101の前に行われるけれども、ステップ301及び305は音素列の認識(ステップ310)の前に行う必要があるだけであることが理解できることは留意すべきである。   As shown in FIG. 3A, steps 301 (input speech text) and 305 (acoustic model adaptation) are performed before step 101, but steps 301 and 305 are performed before phoneme sequence recognition (step 310). It should be noted that it can be understood that it only needs to be done.

図3Bは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図3Bを鑑みて説明する。図3Bにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。   FIG. 3B is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to an embodiment of the present invention will be described in view of FIG. 3B. In FIG. 3B, the same reference numerals are used for the same parts as those of the above embodiment. Explanation of these same parts is omitted.

本実施形態と図3Aを鑑みて説明される実施形態の両方は予め音声テキストを知っているものと仮定し、違いは本実施形態がテキストに基づいて音声テキストに対応する音素列を生成することである。   Both this embodiment and the embodiment described in view of FIG. 3A assume that the phonetic text is known beforehand, the difference being that this embodiment generates a phoneme sequence corresponding to the phonetic text based on the text. It is.

具体的には、図3Bに示すようにステップ301の後にステップ305’で音声テキストが発音語彙集を用いて入力され、音声テキストの語列に対応する音素列が生成される。本実施形態では、音声テキストの語列を音素列に変換するのは発音語彙集に基づいている。   Specifically, as shown in FIG. 3B, after step 301, speech text is input using a pronunciation vocabulary collection in step 305 ′ to generate a phoneme string corresponding to the word string of the speech text. In the present embodiment, conversion of a speech text word string into a phoneme string is based on a pronunciation vocabulary collection.

次に、ステップ101での音声情報入力及びステップ205での音声特徴の抽出後に、ステップ310’で抽出された音声特徴のビタビ復号が音素列の各音素に対応するタイミング点を得るように音響モデルに基づいて行われる。このプロセスはこの分野では「強制整合」と呼ばれる。更に、周知の音素列に対応する語列により、音素列に対応する語列及び各語に対応するタイミング点が同時に得ることができる。   Next, after the speech information input in step 101 and the speech feature extraction in step 205, the acoustic model is obtained so that the Viterbi decoding of the speech feature extracted in step 310 ′ obtains a timing point corresponding to each phoneme in the phoneme sequence. Based on. This process is called “forced matching” in this field. Furthermore, a word string corresponding to a phoneme string and a timing point corresponding to each word can be obtained simultaneously by a word string corresponding to a known phoneme string.

最後に、ステップ115では、音声速度が算出できる。   Finally, in step 115, the voice speed can be calculated.

上記の説明から、本実施形態が採用されれば、音素列が音声テキストに基づいて予め生成され、それからビタビ復号がタイミング点を得るように強制整合を行うために使用されるということにより、音声速度は速く、最も正確に計算できる。音素を得るためにビタビ復号を用い、それから語列を認識する方法に比べて本実施形態の方法はより高い精度を持つ。   From the above description, if this embodiment is adopted, the phoneme sequence is generated in advance based on the speech text, and then Viterbi decoding is used to perform the forced matching so as to obtain the timing point. The speed is fast and can be calculated most accurately. Compared with the method of using Viterbi decoding to obtain phonemes and then recognizing word strings, the method of this embodiment has higher accuracy.

その上、本実施形態は上記実施形態と組み合わせて実施できる。即ち、本実施形態でも更に該方法の正確さ及び速度を向上するように音響モデルの適合ができる。   In addition, this embodiment can be implemented in combination with the above embodiment. That is, in this embodiment, the acoustic model can be adapted to further improve the accuracy and speed of the method.

その上、音声テキストが図3A及び3Bに示される実施形態で知られているので、本発明の好ましい実施によると、音声の速度が算出された後に、現音声速度に従って音声テキストの残り語を完了するにはどのくらい時間がかかるかを評価するために残り時間が音声テキストの残り語と現音声速度に基づいて計算される。ゆえに、話者(及び他者)は常に発話時間及び速度を知り、制御することができる。   Moreover, since the speech text is known in the embodiment shown in FIGS. 3A and 3B, according to the preferred implementation of the present invention, after the speech speed is calculated, the remaining words of the speech text are completed according to the current speech speed. In order to evaluate how long it will take, the remaining time is calculated based on the remaining words in the speech text and the current speech speed. Thus, the speaker (and others) can always know and control the speaking time and speed.

図4は本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図4を鑑みて説明する。図4において、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。   FIG. 4 is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to an embodiment of the present invention will be described with reference to FIG. In FIG. 4, the same reference numerals are used for the same parts as those of the above embodiment. Explanation of these same parts is omitted.

図4に示すように、先ず、ステップ101で、音声情報が入力され、ステップ205で音声特徴が抽出される。   As shown in FIG. 4, first, voice information is input in step 101, and voice features are extracted in step 205.

次に、ステップ210で、抽出された音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて行われる。   Next, in step 210, Viterbi decoding of the extracted speech features is performed based on the acoustic model so as to recognize a phoneme sequence and a timing point corresponding to each phoneme.

次に、ステップ215で、発音語彙集を用いて音声列に対応する語列及び各語に対応するタイミング点が認識される。更に、ステップ115で、音声の速度が計算される。   Next, in step 215, the word string corresponding to the speech string and the timing point corresponding to each word are recognized using the pronunciation vocabulary collection. Further, at step 115, the speed of the voice is calculated.

それから、ステップ420で、音声が終了したか否かが決定される。音声が終了していれば、処理はステップ440に進み、そこで終る。音声が終了していなければ、処理はステップ425に進む。   Then, in step 420, it is determined whether the voice has ended. If the voice has ended, the process proceeds to step 440 and ends there. If the audio has not ended, the process proceeds to step 425.

ステップ425では、音響モデルが適正に調整される。当業者により知られるように、通常、音響モデルが音声の一般的状態に利用できる一般的な音声認識ために準備される。しかしながら、話者の発音又は音声環境の違いにより各特定の音声は異なってもよい。既存の音声認識技術では、音響モデルは次の音声認識の精度を向上するように先に認識された語列に基づいて適応的に調整できることは知られている。これは図3Aを鑑みて説明されている実施形態の適合に類似するが、本実施形態では音声テキストがなく、認識された語列を使用して適合がなされる。故に、この処理はこの分野では「非管理適合」と呼ばれる。   In step 425, the acoustic model is adjusted appropriately. As is known by those skilled in the art, acoustic models are usually prepared for general speech recognition that can be used for the general state of speech. However, each particular voice may be different due to differences in speaker pronunciation or voice environment. In the existing speech recognition technology, it is known that the acoustic model can be adaptively adjusted based on the previously recognized word string so as to improve the accuracy of the next speech recognition. This is similar to the adaptation of the embodiment described in view of FIG. 3A, but in this embodiment there is no speech text and the adaptation is done using recognized word strings. This process is therefore referred to in this field as “unmanaged fit”.

ステップ425の後のステップ430では、元の音声モデルが適正に調整された音響モデルと置き換えられる。それから、処理はステップ210に戻り、音声の次の部分を認識し、音声速度を算出する。   In step 430 after step 425, the original speech model is replaced with a properly adjusted acoustic model. The process then returns to step 210 to recognize the next part of the voice and calculate the voice speed.

上記説明から、本実施形態によると、音響モデルを同時に調整しながら音声の速度を測定し、測定精度を連続的に向上するように音声速度の次の測定のために調整された音響モデルを使用することができる。   From the above description, according to the present embodiment, the sound speed is measured while simultaneously adjusting the sound model, and the sound model adjusted for the next measurement of the sound speed is used to continuously improve the measurement accuracy. can do.

更に、本実施形態は音声速度の測定精度を向上するように認識制度を向上するために音声の同じ要素に対して繰り返し適正調整及び認識の処理を行うことができる。   Furthermore, this embodiment can repeatedly perform appropriate adjustment and recognition processing on the same elements of speech in order to improve the recognition system so as to improve the measurement accuracy of speech speed.

更に、本実施形態は図3A及び3Bを鑑みて説明した上記実施形態の利点を持つために上記実施形態と組み合わせて実施できる。   Furthermore, this embodiment can be implemented in combination with the above embodiment to have the advantages of the above embodiment described in view of FIGS. 3A and 3B.

図5は本発明の実施形態に従った音声測定装置を示すブロック図である。図5に示すように、本実施形態の音声速度測定装置500は音声を含む音声情報を入力するように構成された音声入力部510と、音声入力部510によって入力された音声情報から音素列及び各音素に対応するタイミング点を認識するように構成された音素列認識部520と、音素列認識イブ520によって認識された音素列及び各音素に対応するタイミング点から音声に含まれる語列及び各語に対応するタイミング点を認識するように構成された語列認識部530と、語列認識部530によって認識された語列及び各語に対応するタイミング点に基づいて音声の速度を算出するように構成された音声速度計算部540により構成される。   FIG. 5 is a block diagram showing an audio measuring device according to an embodiment of the present invention. As shown in FIG. 5, the audio velocity measuring apparatus 500 of the present embodiment is configured to input audio information including audio, and from the audio information input by the audio input unit 510, A phoneme string recognition unit 520 configured to recognize a timing point corresponding to each phoneme; a phoneme string recognized by the phoneme string recognition eve 520; a word string included in the speech from a timing point corresponding to each phoneme; A word string recognition unit 530 configured to recognize a timing point corresponding to a word, and a voice speed calculated based on the word string recognized by the word string recognition unit 530 and a timing point corresponding to each word. It is comprised by the audio | voice speed calculation part 540 comprised by these.

本実施形態の音声測定装置500の上記構成要素はハードウエア又はソフトウエアによって実施できる。例えば、音素列認識部520、語列認識部530、音声速度計算部540などは特定回路又はチップによって構成されてもよく、又は対応するプログラムを実行するコンピュータ(プロセッサ)によって実行できる。   The above-described components of the audio measurement device 500 of the present embodiment can be implemented by hardware or software. For example, the phoneme string recognition unit 520, the word string recognition unit 530, the voice speed calculation unit 540, and the like may be configured by a specific circuit or a chip, or can be executed by a computer (processor) that executes a corresponding program.

更に、音声入力部510は音声信号を入力し、獲得するための記録装置の回路部品であってもよく、又は音声情報を他の装置から入力するための(ネットワークカードのような)通信装置或いは音声情報を記録した記録媒体からデータを読み出す(ディスクドライブのような)装置であってもよい。   Furthermore, the audio input unit 510 may be a circuit component of a recording device for inputting and acquiring an audio signal, or a communication device (such as a network card) for inputting audio information from another device or A device (such as a disk drive) that reads data from a recording medium on which audio information is recorded may be used.

動作において、本実施形態の音声速度測定装置500は図1を鑑みて上記実施形態の音声速度測定方法を実施できる。   In operation, the audio velocity measuring apparatus 500 of the present embodiment can implement the audio velocity measuring method of the above embodiment in view of FIG.

図6は本発明の他の実施形態に従った音声速度想定装置のブロック図である。本発明の実施形態に従った音声速度測定装置は図6を鑑みて説明する。図6では、上記実施形態と同じ部分に対しては同じ参照符号が使用されている。書き説明では、同じ部分については説明が省略されている。   FIG. 6 is a block diagram of an audio speed assumption device according to another embodiment of the present invention. An audio speed measuring device according to an embodiment of the present invention will be described in view of FIG. In FIG. 6, the same reference numerals are used for the same parts as in the above embodiment. In the written description, the description of the same part is omitted.

図6に示されるように、図5の実施形態と比較して、本実施形態は音素列認識部520が入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部521、音響モデルを記憶するように構成された音響モデル記憶部422及び最高確率を有する音素列及び各音素に対応するタイミング点を得るために音声特徴抽出部521によって抽出された音声特徴をビタビ復号するように構成されるビタビ復号部523を更に含む点が異なっている。その上、語列認識部530は発音語彙集を記憶するように構成される発音語彙集記憶部531を更に含む。   As shown in FIG. 6, compared with the embodiment of FIG. 5, the present embodiment is that the phoneme sequence recognition unit 520 is configured to extract a speech feature from input speech information, and an acoustic model. The speech model extracted by the speech feature extraction unit 521 in order to obtain a phoneme string having the highest probability and a timing point corresponding to each phoneme. The difference is that it further includes a Viterbi decoding unit 523. In addition, the word string recognition unit 530 further includes a pronunciation vocabulary collection storage unit 531 configured to store a pronunciation vocabulary collection.

本実施形態の音響モデル記憶部522及び発音語彙記憶部531はRAM,ROM,HDD,フラッシュメモリのような各種記憶装置により構成されてもよく、それらは互いに物理的に独立していてもよく、或いは互いに組み合わされてもよい。   The acoustic model storage unit 522 and the pronunciation vocabulary storage unit 531 of the present embodiment may be configured by various storage devices such as RAM, ROM, HDD, and flash memory, and they may be physically independent of each other. Alternatively, they may be combined with each other.

上述した音声特徴抽出部521、ビタビ復号部523などは特定回路又はチップによって構成されてもよく、或いは対応するプログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。   The voice feature extraction unit 521, the Viterbi decoding unit 523, and the like described above may be configured by a specific circuit or a chip, or may be performed by a computer (processor) that executes a corresponding program.

動作において、本実施形態の音声速度測定装置500は図2を鑑みて上述した実施形態の音声速度測定方法を実施できる。   In operation, the audio velocity measuring apparatus 500 of the present embodiment can implement the audio velocity measuring method of the embodiment described above in view of FIG.

その上、本実施形態では、A復号部は最高確率を有する音素列及び各音素に対応するタイミング点を得るようにAアルゴリズムで抽出音声特徴を復号するためにビタビ復号部523の代わりに使用されてもよい。同様に、A復号部は特定回路又はチップ或いは対応するプログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。 In addition, in this embodiment, the A * decoding unit replaces the Viterbi decoding unit 523 to decode the extracted speech feature with the A * algorithm so as to obtain the phoneme string having the highest probability and the timing point corresponding to each phoneme. May be used. Similarly, the A * decoding unit may be performed by a specific circuit or chip or a computer (processor) that executes a corresponding program.

図7は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置は図7を鑑みて説明する。図7では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分いついては説明を省略する。   FIG. 7 is a block diagram showing an audio speed measuring apparatus according to another embodiment of the present invention. An audio speed measuring device according to an embodiment of the present invention will be described with reference to FIG. In FIG. 7, the same reference numerals are used for the same parts as in the above embodiment. In the following description, description of the same parts will be omitted.

図7に示されるように、図6の実施形態と比較して、本実施形態は音声速度測定装置500は処理されるべき音声に対応するテキスト情報を入力するように構成されるテキスト入力部550及びテキスト入力部550によって入力されたテキスト情報に基づいて音響モデルを管理適合するように構成される管理適合部560を更に有する点で異なる。   As shown in FIG. 7, compared to the embodiment of FIG. 6, in this embodiment, the voice speed measuring apparatus 500 is configured to input text information corresponding to the voice to be processed, and a text input unit 550. And a management adapting unit 560 configured to manage and adapt the acoustic model based on the text information input by the text input unit 550.

本実施形態のテキスト入力部はキーボードのような入力装置、又は他の装置からテキスト情報を入力するために(ネットワークカードのような)通信装置、或いはテキスト情報を記録した記録媒体からデータを読み出すための(ディスクドライブのような)装置であってもよい。   The text input unit of the present embodiment reads data from an input device such as a keyboard, a communication device (such as a network card) for inputting text information from another device, or a recording medium on which text information is recorded. (Such as a disk drive).

本実施形態の音響モデル管理適合部560は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。   The acoustic model management adaptation unit 560 of the present embodiment may be performed by a specific circuit or chip, or a computer (processor) that executes a corresponding program.

動作において、本実施形態の音声速度測定装置500は図3A及び3Bを鑑みて上述した実施形態の音声速度測定方法を実施することができる。   In operation, the audio velocity measuring apparatus 500 of the present embodiment can implement the audio velocity measuring method of the embodiment described above in view of FIGS. 3A and 3B.

図8は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図8を鑑みて説明する。図8では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。   FIG. 8 is a block diagram showing an audio speed measuring apparatus according to another embodiment of the present invention. An audio speed measuring device according to an embodiment of the present invention will be described with reference to FIG. In FIG. 8, the same reference numerals are used for the same parts as in the above embodiment. In the following description, the description of the same part is omitted.

図8に示されるように、図7の実施形態と比較して、本実施形態は音声速度測定装置500が語列認識部530によって認識された語列に基づいて音響モデルを非管理適合するように構成される音響モデル非管理適合部570及び音声速度計算部540によって算出された音声毒度に関する情報を表示するように構成される音声速度表示部580を更に含むことが異なる。   As shown in FIG. 8, as compared with the embodiment of FIG. 7, the present embodiment is configured so that the audio speed measurement device 500 unsupervises the acoustic model based on the word sequence recognized by the word sequence recognition unit 530. It further includes an audio speed display unit 580 configured to display information on the audio poisoning degree calculated by the acoustic model non-management adaptation unit 570 and the audio speed calculation unit 540 configured as described above.

本実施形態の音響モデル非管理適合部570は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ(プロセッサ)によって行われてもよい
本実施形態の音声速度表示部580はLCD,CRT,PDPのような表示装置であってもよい。特に、音声速度に関する情報は図10A及び10Bに示されるようにデジタル数字又はバーチャートによって表示されてもよい。更に、音声テキストが事前に入力されていれば、予想音声速度、即ち所定期間内で音声テキストが完了するために必要な音声速度が音声速度表示部580に表示されてもよい。
The acoustic model non-management adaptation unit 570 of this embodiment may be performed by a specific circuit, a chip, or a computer (processor) that executes a corresponding program. The voice speed display unit 580 of this embodiment is an LCD, CRT, PDP, or the like. A simple display device may be used. In particular, the information regarding the voice speed may be displayed by digital numbers or bar charts as shown in FIGS. 10A and 10B. Furthermore, if the voice text is input in advance, the expected voice speed, that is, the voice speed necessary for completing the voice text within a predetermined period may be displayed on the voice speed display unit 580.

更に、図8に示されるように、本実施形態は算出音声速度及びテキスト情報から残り時間を算出するように構成される残り時間計算部590を更に含む。残り時間計算機590によって算出された残り時間は音声速度表示部580に表示されてもよい。   Furthermore, as shown in FIG. 8, the present embodiment further includes a remaining time calculation unit 590 configured to calculate the remaining time from the calculated voice speed and the text information. The remaining time calculated by the remaining time calculator 590 may be displayed on the voice speed display unit 580.

動作において、本実施形態の音声速度測定装置500は図3A及び4を鑑みて上述した実施形態の音声速度測定方法を実施できる。   In operation, the audio velocity measuring apparatus 500 of the present embodiment can implement the audio velocity measuring method of the embodiment described above in view of FIGS. 3A and 4.

図9は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図9を鑑みて説明する。図9では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。   FIG. 9 is a block diagram showing an audio speed measuring apparatus according to another embodiment of the present invention. An audio speed measuring apparatus according to an embodiment of the present invention will be described with reference to FIG. In FIG. 9, the same reference numerals are used for the same parts as in the above embodiment. In the following description, the description of the same part is omitted.

図9に示されるように、本実施形態の音声速度測定装置500’は音声入力部510、テキスト入力部550、音素列生成部630、強制整合部620、音声速度計算部540および音声速度表示部580を含む。   As shown in FIG. 9, the voice speed measuring apparatus 500 ′ of this embodiment includes a voice input unit 510, a text input unit 550, a phoneme string generation unit 630, a forced matching unit 620, a voice speed calculation unit 540, and a voice speed display unit. 580.

本実施形態と上記実施形態との主要な違いは本実施形態が音素列生成部630および強制整合部620を有し、音素列生成部630はテキスト入力部550によって入力されるテキスト情報に含まれる語列に対応する音素列を生成するように構成され、発音語彙集が記憶されている発音語彙列記憶部631を含む。音素列生成部630は発音語彙集を参照して、テキスト情報に含まれる語列を音素列に変換する。   The main difference between the present embodiment and the above embodiment is that the present embodiment has a phoneme string generation unit 630 and a forced matching unit 620, and the phoneme string generation unit 630 is included in the text information input by the text input unit 550. A pronunciation vocabulary string storage unit 631 configured to generate a phoneme string corresponding to the word string and storing a pronunciation vocabulary collection is included. The phoneme string generation unit 630 refers to the pronunciation vocabulary collection and converts a word string included in the text information into a phoneme string.

強制整合部620は語列の各語に対応するタイミング点を得るように音声入力部510によって入力された音声情報から音素列生成部630によって生成される音素列の各語に対応するタイミング点を認識するように構成される。特に、本実施形態によると、強制整合部620は上記実施形態の音声特徴抽出部521と同様に入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部621と、上記実施形態の音響モデル記憶部522と同様に音響モデルを記憶するように構成される音声特徴記憶部622と、音素列と整合するように抽出音声特徴をビタビ復号するように構成されるビタビ復号部623を含む。強制整合の処理は上記実施形態において説明されており、繰り返して説明しない。   The compulsory matching unit 620 obtains timing points corresponding to the words of the phoneme string generated by the phoneme string generator 630 from the speech information input by the voice input unit 510 so as to obtain timing points corresponding to the words of the word string. Configured to recognize. In particular, according to the present embodiment, the forced matching unit 620 is configured to extract a voice feature from the input voice information in the same manner as the voice feature extraction unit 521 of the above embodiment, Similar to the acoustic model storage unit 522, a speech feature storage unit 622 configured to store an acoustic model and a Viterbi decoding unit 623 configured to Viterbi-decode the extracted speech features so as to match the phoneme sequence. . The forced matching process has been described in the above embodiment and will not be repeated.

動作において、本実施形態の音声速度測定装置500’は図3Bを鑑みて上述した実施形態の音声速度測定方法を実施できる。   In operation, the audio velocity measuring apparatus 500 ′ of the present embodiment can implement the audio velocity measuring method of the embodiment described above in view of FIG. 3B.

更に、本実施形態では、A復号部は音声列と整合するようにAアルゴリズムで抽出音声特徴を復号するためビタビ復号部の代わりに使用できる。 Further, in the present embodiment, the A * decoding unit can be used in place of the Viterbi decoding unit to decode the extracted speech features with the A * algorithm so as to match the speech sequence.

その上、本実施形態では、上記実施形態に記載された、残り時間計算部590などのような幾つかの構成要素が含まれてもよく、実施形態は上記実施形態と組み合わされてもよい。   Moreover, in the present embodiment, some components such as the remaining time calculation unit 590 described in the above embodiment may be included, and the embodiment may be combined with the above embodiment.

更に、上述した実施形態の音声速度測定装置の適用形態として、本発明は既存の録音装置に音声速度測定機能を設けるように音声速度測定装置500が既存の録音装置に加えられている録音装置を更に提供する。   Furthermore, as an application mode of the audio speed measuring device of the above-described embodiment, the present invention provides a recording device in which the audio speed measuring device 500 is added to the existing recording device so that the existing recording device is provided with an audio speed measuring function. Further provide.

好ましくは、音声速度測定装置500の音声入力部510は録音装置によって入力され、獲得される音情報から音声情報を直接取り込んでもよい。   Preferably, the voice input unit 510 of the voice speed measuring device 500 may directly input voice information from sound information that is input and acquired by a recording device.

音声速度測定方法、音声速度測定装置および録音装置が幾つかの実施形態で詳細に説明されているが、これら実施形態は網羅していない。当業者は本発明の精神と範囲内で種々変更及び変形できる。ゆえに、本発明はこれら実施例に限定されなく、むしろ本発明の範囲は特許請求によってのみ規定される。   An audio speed measurement method, an audio speed measurement device, and a recording device have been described in detail in some embodiments, but these embodiments are not exhaustive. Those skilled in the art can make various changes and modifications within the spirit and scope of the present invention. Therefore, the invention is not limited to these examples, but rather the scope of the invention is defined only by the claims.

本発明の実施形態に従った音声速度測定方法を示すフローチャートである。4 is a flowchart illustrating a method for measuring a voice speed according to an embodiment of the present invention. 本発明の他の実施形態に従った音声測定方法を示すフローチャートである。6 is a flowchart illustrating a sound measurement method according to another embodiment of the present invention. 本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。7 is a flowchart illustrating a method for measuring a voice speed according to another embodiment of the present invention. 本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。7 is a flowchart illustrating a method for measuring a voice speed according to another embodiment of the present invention. 本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。7 is a flowchart illustrating a method for measuring a voice speed according to another embodiment of the present invention. 本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。It is a block diagram which shows the audio | voice speed measuring apparatus according to other embodiment of this invention. 本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。It is a block diagram which shows the audio | voice speed measuring apparatus according to other embodiment of this invention. 本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。It is a block diagram which shows the audio | voice speed measuring apparatus according to other embodiment of this invention. 本発明の実施形態に従った音声速度測定装置を示すブロック図である。It is a block diagram which shows the audio | voice speed measuring apparatus according to embodiment of this invention. 本発明の実施形態に従った音声速度測定装置を示すブロック図である。It is a block diagram which shows the audio | voice speed measuring apparatus according to embodiment of this invention. 本発明の実施形態に従った音声速度を表示する例を示す図である。It is a figure which shows the example which displays the audio | voice speed according to embodiment of this invention.

符号の説明Explanation of symbols

510…音声入力部、520…音素列認識部、521…音声特徴抽出部、522…音響モデル記憶部、523…ビタビ復号部、530…語列認識部、531…発音語彙集記憶部、
540…音声速度計算部、550…テキスト入力部、560…音響モデル管理適合部、570…音響モデル非管理適合部、580…音声速度表示部、590…残り時間計算部、620…強制整合部、621…音声特徴抽出部、622…音響モデル記憶部、630…音素列生成部、631…発音語彙集記憶部
510 ... Speech input unit, 520 ... Phoneme sequence recognition unit, 521 ... Speech feature extraction unit, 522 ... Acoustic model storage unit, 523 ... Viterbi decoding unit, 530 ... Word sequence recognition unit, 531 ... Pronunciation vocabulary collection storage unit,
540 ... voice speed calculation unit, 550 ... text input unit, 560 ... acoustic model management adaptation unit, 570 ... acoustic model non-management adaptation unit, 580 ... voice speed display unit, 590 ... remaining time calculation unit, 620 ... forced matching unit, 621 ... Speech feature extraction unit, 622 ... Acoustic model storage unit, 630 ... Phoneme sequence generation unit, 631 ... Pronunciation vocabulary collection storage unit

Claims (30)

音声を含む音声情報を入力するステップと、
前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、
前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、
前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。
Inputting voice information including voice;
Recognizing phoneme strings and timing points corresponding to each phoneme from the speech information;
Recognizing a word string and a timing point corresponding to each word from the phoneme string and a timing point corresponding to each phoneme;
Calculating the speed of the voice based on the word string and a timing point corresponding to each recognized word.
前記認識ステップは、前記入力音声情報から音声特徴を抽出するステップと、
最高確率を有する音素列及び各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴を復号するステップと、を含むことを特徴とする請求項1記載の音声速度測定方法。
The step of recognizing extracts voice features from the input voice information;
The speech speed measurement method according to claim 1, further comprising: decoding the extracted speech feature using an acoustic model to obtain a phoneme string having the highest probability and a timing point corresponding to each phoneme.
前記復号ステップは、最高確率を有する音素列及び各音素に対応するタイミング点を得るためにビタビ復号アルゴリズムによって前記抽出音声特徴を復号することを特徴とする請求項2記載の音声速度測定方法。   The method according to claim 2, wherein the decoding step decodes the extracted speech feature by a Viterbi decoding algorithm to obtain a phoneme string having the highest probability and a timing point corresponding to each phoneme. 前記復号ステップは、最高確率を有する音素列及び各音素に対応するタイミング点を得るためにAアルゴリズムによって前記抽出音声特徴を復号することを特徴とする請求項2記載の音声速度測定方法。 The method according to claim 2, wherein the decoding step decodes the extracted speech feature by an A * algorithm to obtain a phoneme string having the highest probability and a timing point corresponding to each phoneme. 前記認識ステップは、発音語彙集を用いて行うことを特徴とする請求項1記載の音声速度測定方法。   The method according to claim 1, wherein the recognition step is performed using a pronunciation vocabulary collection. 更に前記音声に対応するテキスト情報を入力するステップと、
前記入力テキスト情報に基づいて最適化された前記音響モデルを前記音声に適合するステップとを含み、
前記復号ステップは、前記適合音響モデルによって行われることを特徴とする請求項2記載の音声速度測定方法。
A step of inputting text information corresponding to the voice;
Adapting the acoustic model optimized based on the input text information to the speech,
The method according to claim 2, wherein the decoding step is performed by the adaptive acoustic model.
更に前記認識語列に基づいて前記音響モデルを非監視適合するステップと、
前記認識ステップ及び後続のステップを前記適合音響モデルによって行うステップと、を含むことを特徴とする請求項2又は請求項6記載の音声速度測定方法。
And further non-supervising adaptation of the acoustic model based on the recognition word string;
The voice speed measurement method according to claim 2, further comprising: performing the recognition step and the subsequent step by the adaptive acoustic model.
更に前記算出音声速度及び前記テキスト情報から残り時間を算出するステップを含むことを特徴とする請求項6記載の音声速度測定方法。   The method according to claim 6, further comprising a step of calculating a remaining time from the calculated voice speed and the text information. 音声に対するテキスト情報を入力するステップと、
前記音声を含む音声情報を入力するステップと、
前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、
前記語列及び認識された、各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。
Inputting text information for speech;
Inputting voice information including the voice;
Generating a phoneme string corresponding to a word string included in the text information;
Recognizing a timing point corresponding to each phoneme of the phoneme sequence from the speech information to obtain a timing point corresponding to each word of the word sequence;
Calculating the speed of the voice based on the word string and the recognized timing point corresponding to each word.
前記認識ステップは、前記入力音声情報から音声特徴を抽出するステップと、
前記音素列の各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴に強制整合を行うステップと、を含むことを特徴とする請求項9記載の音声速度測定方法。
The step of recognizing extracts voice features from the input voice information;
The method of claim 9, further comprising: forcibly matching the extracted speech feature using an acoustic model to obtain a timing point corresponding to each phoneme of the phoneme string.
前記強制整合ステップは、前記音素列と揃えるためにビタビ復号アルゴリズムで前記抽出音声特徴を復号することを特徴とする請求項10記載の音声速度測定方法。   11. The speech velocity measurement method according to claim 10, wherein in the forced matching step, the extracted speech feature is decoded by a Viterbi decoding algorithm to align with the phoneme string. 前記強制整合ステップは、前記音素列と揃えるためにAアルゴリズムで前記抽出音声特徴を復号することを特徴とする請求項10記載の音声速度測定方法。 11. The speech velocity measurement method according to claim 10, wherein in the forced matching step, the extracted speech feature is decoded by an A * algorithm to align with the phoneme string. 前記音素列生成ステップは、発音語彙集を用いて行われることを特徴とする請求項9記載の音声速度測定方法。   10. The speech velocity measuring method according to claim 9, wherein the phoneme string generation step is performed using a pronunciation vocabulary collection. 更に前記算出音声速度及び前記テキスト情報から残り時間を算出するステップを含むことを特徴とする請求項9記載の音声速度測定方法。   The method according to claim 9, further comprising a step of calculating a remaining time from the calculated voice speed and the text information. 音声を含む音声情報を入力するように構成される音声入力部と、
前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するように構成される音素列認識部と、
前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、
前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。
A voice input unit configured to input voice information including voice;
A phoneme string recognition unit configured to recognize a phoneme string and a timing point corresponding to each phoneme from the voice information input by the voice input unit;
A word string recognition unit configured to recognize a word string included in the speech and a timing point corresponding to each word from the timing points corresponding to each phoneme recognized by the phoneme string and the phoneme string recognition unit; ,
A voice speed calculation unit configured to calculate the speed of the voice based on the word string and the timing point corresponding to each word recognized by the word string recognition unit. Voice speed measuring device.
前記音素列認識部は、前記入力音声情報から音声特徴を抽出するよう構成される音声特徴抽出部と、音響モデルを記憶するように構成される音響モデル記憶部とで構成されることを特徴とする請求項15記載の音声速度測定装置。   The phoneme sequence recognition unit includes a speech feature extraction unit configured to extract speech features from the input speech information, and an acoustic model storage unit configured to store an acoustic model. The voice speed measuring device according to claim 15. 前記音素列認識部は、最高確率を有する音素列及び各音素に対応するタイミング点を得るために前記音声特徴抽出部により抽出された前記音声特徴をビタビ復号するビタビ復号部を更に具備することを特徴とする請求項16記載の音声速度測定装置。   The phoneme sequence recognition unit further includes a Viterbi decoding unit that performs Viterbi decoding on the speech features extracted by the speech feature extraction unit in order to obtain a phoneme sequence having the highest probability and a timing point corresponding to each phoneme. The voice velocity measuring apparatus according to claim 16, wherein 前記音素列認識部は、最高確率を有する音素列及び各音素に対応するタイミング点を得るために前記抽出音声特徴をAアルゴリズムを用いて復号するように構成されるA復号部を更に具備することを特徴とする請求項16記載の音声速度測定装置。 The phoneme sequence recognition unit further includes an A * decoding unit configured to decode the extracted speech feature using an A * algorithm in order to obtain a phoneme sequence having the highest probability and a timing point corresponding to each phoneme. The voice speed measuring device according to claim 16, wherein 前記語列認識部は、発音語彙集を記憶するように構成される発音語彙集記憶部により構成されることを特徴とする請求項15記載の音声速度測定装置。   16. The speech velocity measuring apparatus according to claim 15, wherein the word string recognition unit includes a pronunciation vocabulary collection storage unit configured to store a pronunciation vocabulary collection. 更に、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト入力部によって入力された前記テキスト情報に基づいて前記音響モデルを監視適合するため構成される監視適合部とを具備することを特徴とする請求項16記載の音声速度測定装置。   Furthermore, a text input unit configured to input text information corresponding to the speech, and a monitoring adaptation unit configured to monitor and match the acoustic model based on the text information input by the text input unit The voice speed measuring device according to claim 16, further comprising: 更に、前記語列認識部によって認識された前期語列に基づいて前記音響モデルを非監視適合するように構成される音響モデル非監視適合部を具備することを特徴とする請求項16記載の音声速度測定装置。   17. The voice according to claim 16, further comprising an acoustic model non-monitoring adaptation unit configured to non-supervise adaptation of the acoustic model based on the previous word sequence recognized by the word sequence recognition unit. Speed measuring device. 前記音声速度計算部によって算出された前記音声速度に関する情報を表示するように構成される音声速度表示部を更に含むことを特徴とする請求項15記載の音声速度測定装置。   16. The voice speed measuring device according to claim 15, further comprising a voice speed display unit configured to display information related to the voice speed calculated by the voice speed calculation unit. 前記算出音声速度及び前記入力テキスト情報から残り時間を算出する残り時間計算部を更に有し、前記音声速度表示部は前記残り時間計算部により算出された前記残り時間に関する情報を更に表示するように構成されることを特徴とする請求項15記載の音声速度測定装置。   A remaining time calculation unit that calculates a remaining time from the calculated voice speed and the input text information is further included, and the voice speed display unit further displays information on the remaining time calculated by the remaining time calculation unit. The voice velocity measuring device according to claim 15, which is configured. 速度を含む音声情報を入力するように構成される音声入力部と、
前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、
前記テキスト情報に含まれる語列に対応する音素列を生成するため構成される音素列生成部と、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、
前記語列及び各語に対応する前記タイミング点に基づいて前記音声速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。
A voice input unit configured to input voice information including speed;
A text input unit configured to input text information corresponding to the speech;
A phoneme string generation unit configured to generate a phoneme string corresponding to a word string included in the text information;
A compulsory matching unit configured to recognize a timing point corresponding to each phoneme of the phoneme sequence generated by the phoneme sequence generation unit from the speech information to obtain a timing point corresponding to each word of the word sequence When,
A voice speed measuring device comprising: a voice speed calculation unit configured to calculate the voice speed based on the word string and the timing point corresponding to each word.
更に、前記入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部と、
音響モデルを記憶するように構成される音響モデル記憶部と
を具備することを特徴とする請求項24記載の音声速度測定装置。
A speech feature extraction unit configured to extract speech features from the input speech information;
The sound speed measuring device according to claim 24, further comprising: an acoustic model storage unit configured to store an acoustic model.
前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をビタビ復号するビタビ復号部を更に有することを特徴とする請求項25記載の音声速度測定装置。   26. The speech velocity measuring apparatus according to claim 25, wherein the compulsory matching unit further includes a Viterbi decoding unit that performs Viterbi decoding on the speech feature extracted by the speech feature extraction unit in order to match the speech sequence. 前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をAアルゴリズムによって復号するA復号部を更に有することを特徴とする請求項25記載の音声速度測定装置。 26. The speech according to claim 25, wherein the compulsory matching unit further includes an A * decoding unit that decodes the speech feature extracted by the speech feature extraction unit using an A * algorithm in order to match the speech sequence. Speed measuring device. 前記音素列生成部は、発音語彙集を記憶するように構成される発音語彙集記憶部により構成され、前記強制整合部は、前記音声列と合わせるために前記音声特徴抽出部によって抽出された前記音声特徴をビタビ復号するビタビ復号部を更に有することを特徴とする請求項24記載の音声速度測定装置。   The phoneme sequence generation unit is configured by a pronunciation vocabulary collection storage unit configured to store a pronunciation vocabulary collection, and the compulsory matching unit is extracted by the speech feature extraction unit to match with the speech sequence The voice speed measuring device according to claim 24, further comprising a Viterbi decoding unit for Viterbi decoding the voice feature. 前記算出音声速度及び前記入力テキスト情報から残り時間を算出する残り時間計算部を更に有することを特徴とする請求項24記載の音声速度測定装置。   25. The voice speed measuring apparatus according to claim 24, further comprising a remaining time calculating unit that calculates a remaining time from the calculated voice speed and the input text information. 請求項15乃至請求項29のいずれか1に従って音声速度を測定する装置により構成される録音装置。   30. A recording apparatus comprising a device for measuring a voice speed according to any one of claims 15 to 29.
JP2006095376A 2005-03-31 2006-03-30 Method and apparatus for measuring voice speed, and sound recorder Abandoned JP2006285254A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510059832 CN1841496A (en) 2005-03-31 2005-03-31 Method and apparatus for measuring speech speed and recording apparatus therefor

Publications (1)

Publication Number Publication Date
JP2006285254A true JP2006285254A (en) 2006-10-19

Family

ID=37030481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006095376A Abandoned JP2006285254A (en) 2005-03-31 2006-03-30 Method and apparatus for measuring voice speed, and sound recorder

Country Status (2)

Country Link
JP (1) JP2006285254A (en)
CN (1) CN1841496A (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101472060B (en) * 2007-12-27 2011-12-07 新奥特(北京)视频技术有限公司 Method and device for estimating news program length
CN103632667B (en) * 2013-11-25 2017-08-04 华为技术有限公司 acoustic model optimization method, device and voice awakening method, device and terminal
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
CN107123419A (en) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 The optimization method of background noise reduction in the identification of Sphinx word speeds
CN107767869B (en) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 Method and apparatus for providing voice service
CN108109633A (en) * 2017-12-20 2018-06-01 北京声智科技有限公司 The System and method for of unattended high in the clouds sound bank acquisition and intellectual product test
CN109994106B (en) * 2017-12-29 2023-06-23 阿里巴巴集团控股有限公司 Voice processing method and equipment
CN108682420B (en) * 2018-05-14 2023-07-07 平安科技(深圳)有限公司 Audio and video call dialect recognition method and terminal equipment
CN112185363B (en) * 2020-10-21 2024-02-13 北京猿力未来科技有限公司 Audio processing method and device
CN113838456B (en) * 2021-09-28 2024-05-31 中国科学技术大学 Phoneme extraction method, voice recognition method, device, equipment and storage medium
CN114067787B (en) * 2021-12-17 2022-07-05 广东讯飞启明科技发展有限公司 Voice speech speed self-adaptive recognition system

Also Published As

Publication number Publication date
CN1841496A (en) 2006-10-04

Similar Documents

Publication Publication Date Title
CN108573693B (en) Text-to-speech system and method, and storage medium therefor
JP2006285254A (en) Method and apparatus for measuring voice speed, and sound recorder
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
WO2017067206A1 (en) Training method for multiple personalized acoustic models, and voice synthesis method and device
US10650810B2 (en) Determining phonetic relationships
US20190130894A1 (en) Text-based insertion and replacement in audio narration
WO2021225830A1 (en) Speech synthesis prosody using a bert model
Fendji et al. Automatic speech recognition using limited vocabulary: A survey
CN110265028B (en) Method, device and equipment for constructing speech synthesis corpus
JP5007401B2 (en) Pronunciation rating device and program
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
JP2020034883A (en) Voice synthesizer and program
US20230343319A1 (en) speech processing system and a method of processing a speech signal
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
EP3376497B1 (en) Text-to-speech synthesis using an autoencoder
JP5180800B2 (en) Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program
CN110930975A (en) Method and apparatus for outputting information
CN112908308B (en) Audio processing method, device, equipment and medium
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
CN113421571B (en) Voice conversion method and device, electronic equipment and storage medium
US11670292B2 (en) Electronic device, method and computer program
CN115700871A (en) Model training and speech synthesis method, device, equipment and medium
KR20210059581A (en) Method and apparatus for automatic proficiency evaluation of speech
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka

Legal Events

Date Code Title Description
A621 Written request for application examination

Effective date: 20070926

Free format text: JAPANESE INTERMEDIATE CODE: A621

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090928