JP2020190671A - Speech-to-text converter, speech-to-text conversion method and speech-to-text conversion program - Google Patents

Speech-to-text converter, speech-to-text conversion method and speech-to-text conversion program Download PDF

Info

Publication number
JP2020190671A
JP2020190671A JP2019096723A JP2019096723A JP2020190671A JP 2020190671 A JP2020190671 A JP 2020190671A JP 2019096723 A JP2019096723 A JP 2019096723A JP 2019096723 A JP2019096723 A JP 2019096723A JP 2020190671 A JP2020190671 A JP 2020190671A
Authority
JP
Japan
Prior art keywords
voice
recognition result
voice recognition
waveform
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019096723A
Other languages
Japanese (ja)
Other versions
JP6735392B1 (en
Inventor
喜美子 川嶋
Kimiko Kawashima
喜美子 川嶋
安永 健治
Kenji Yasunaga
健治 安永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2019096723A priority Critical patent/JP6735392B1/en
Application granted granted Critical
Publication of JP6735392B1 publication Critical patent/JP6735392B1/en
Publication of JP2020190671A publication Critical patent/JP2020190671A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To output a speech recognition result with higher accuracy.SOLUTION: A noise suppression unit 11 suppresses noise of an original speech waveform f1, a speech segment detection unit 12 detects a speech segment tj from a noise suppressed speech waveform f2, a speech waveform cutting unit 13 cuts the original speech waveform f1 and the noise suppressed speech waveform f2 at each speech segment tj to obtain a segmental speech waveforms f1_tj and f2_tj, a speech recognition unit 14 then speech-recognizes each of the segmental speech waveforms f1_tj and f2_tj before and after the noise suppression by each of a plurality of speech recognition engines ei so that the one with the larger number of characters is regarded as a speech recognition result Rij for the speech segment tj by the speech recognition engines ei, and a recognition result correction unit 15 compares the speech recognition results Rij for each speech segment tj to correct the speech recognition results.SELECTED DRAWING: Figure 1

Description

本発明は、音声認識精度を向上する技術に関する。 The present invention relates to a technique for improving speech recognition accuracy.

近年、音声認識技術が広く利用されている。例えば、ネットワークに接続されたスピーカーにマイクを内蔵し、音声認識による操作を可能とするスマートスピーカーが普及している。様々な企業から音声認識エンジンが提供されており、音声をテキスト化することが容易になっている。 In recent years, speech recognition technology has been widely used. For example, smart speakers that have a built-in microphone in a speaker connected to a network and can be operated by voice recognition have become widespread. Speech recognition engines are provided by various companies, making it easy to convert speech into text.

また、音声認識の精度を向上させるための雑音抑圧技術も検討されている(例えば非特許文献1)。 Further, a noise suppression technique for improving the accuracy of speech recognition has also been studied (for example, Non-Patent Document 1).

“雑音環境下での音声認識精度の向上に向けた音声処理技術”、日本電信電話株式会社、[平成31年4月22日検索]、インターネット〈URL:http://www.ntt.co.jp/svlab/activity/category_2/product2_29.html〉"Voice processing technology for improving voice recognition accuracy in noisy environments", Nippon Telegraph and Telephone Corporation, [Search on April 22, 2019], Internet <URL: http://www.ntt.co. jp / svlab / activity / category_2 / product2_29.html>

音声認識エンジンによって認識結果の特性が異なり、音声認識エンジンごとに得意不得意がある。音声認識エンジンごとに学習に用いているデータや音声認識アルゴリズムが異なるので、文章のような整った話し方の音声での認識精度が高い音声認識エンジンや、話し言葉のようなくだけた話し方の音声での認識精度が高い音声認識エンジンがある。音声認識エンジンによっては、認識精度が高いと推定される箇所のみを出力するものもあれば、認識できた箇所すべてを出力するものもある。 The characteristics of the recognition result differ depending on the voice recognition engine, and each voice recognition engine has its strengths and weaknesses. Since the data and voice recognition algorithm used for learning are different for each voice recognition engine, a voice recognition engine with high recognition accuracy in a well-organized voice such as a sentence, or a voice with a simple speech like a spoken word There is a voice recognition engine with high recognition accuracy. Some speech recognition engines output only the parts that are estimated to have high recognition accuracy, while others output all the parts that can be recognized.

また、雑音抑圧することで、音声認識精度が向上する箇所とそうでない箇所があり、雑音抑圧すれば認識精度が必ずしも上がるわけではない。例えば、雑音抑圧技術を適用すると、雑音のある個所は雑音が抑圧されるため音声認識精度が向上する。しかし、雑音のない箇所は、雑音抑圧処理が施されることで音質が下がり、音声認識精度が低下してしまうことがある。 In addition, there are places where the voice recognition accuracy is improved by suppressing noise, and there are places where it is not, and suppressing noise does not necessarily improve the recognition accuracy. For example, when the noise suppression technique is applied, the noise is suppressed in the noisy part, so that the voice recognition accuracy is improved. However, in a place where there is no noise, the sound quality may be lowered due to the noise suppression processing, and the voice recognition accuracy may be lowered.

本発明は、上記に鑑みてなされたものであり、より精度が高い音声認識結果を出力することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to output a voice recognition result with higher accuracy.

本発明に係る音声テキスト化装置は、入力した音声波形の雑音を抑圧する雑音抑圧部と、複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得て、前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択する音声認識部と、前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正する認識結果補正部と、を有することを特徴とする。 The voice text conversion device according to the present invention uses a noise suppression unit that suppresses the noise of the input voice waveform, a first voice recognition result of voice recognition of the voice waveform by each of the plurality of voice recognition engines, and noise. The second voice recognition result of voice recognition of the suppressed noise suppression voice waveform is obtained, and the voice recognition result of the voice recognition engine is the one having the larger number of characters among the first voice recognition result and the second voice recognition result. It is characterized by having a voice recognition unit selected as, and a recognition result correction unit that compares the voice recognition results of the plurality of voice recognition engines with each other and corrects the voice recognition result.

本発明に係る音声テキスト化方法は、入力した音声波形の雑音を抑圧するステップと、複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得るステップと、前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択するステップと、前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正するステップと、を有することを特徴とする。 In the voice text conversion method according to the present invention, the first voice recognition result of voice recognition of the voice waveform and the noise are suppressed by the step of suppressing the noise of the input voice waveform and each of the plurality of voice recognition engines. The step of obtaining the second voice recognition result of voice recognition of the noise-suppressed voice waveform, and the voice recognition result of the voice recognition engine is the one having the larger number of characters among the first voice recognition result and the second voice recognition result. It is characterized by having a step of selecting and a step of comparing the voice recognition results of the plurality of voice recognition engines with each other and correcting the voice recognition result.

本発明によれば、より精度が高い音声認識結果を出力することができる。 According to the present invention, it is possible to output a voice recognition result with higher accuracy.

本実施形態の音声テキスト化装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the voice text conversion apparatus of this embodiment. 本実施形態の音声テキスト化装置の処理の流れを示すフローチャートである。It is a flowchart which shows the process flow of the voice text conversion apparatus of this embodiment. 音声波形切断処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the voice waveform cutting process. 音声波形の頭からの無音区間の長さと認識精度との関係を示す図である。It is a figure which shows the relationship between the length of a silent section from the head of a speech waveform, and recognition accuracy. 音声認識処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a voice recognition process. 認識結果補正処理の流れを示すフローチャートである。It is a flowchart which shows the flow of recognition result correction processing. 音声認識結果を形態素に分割し、不一致箇所を抽出した例を示す図である。It is a figure which shows the example which divided the voice recognition result into morphemes and extracted the inconsistent part. 補正状態フラグの一例を示す図である。It is a figure which shows an example of the correction state flag.

以下、本発明の実施の形態について図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(音声テキスト化装置の構成)
図1は、本実施形態の音声テキスト化装置1の構成を示す機能ブロック図である。音声テキスト化装置1は、音声を入力し、入力した音声を音声認識した認識結果であるテキストを出力する。音声テキスト化装置1は、テキストに加えて、音声認識結果の補正内容を示す補正状態を出力してもよい。
(Configuration of voice text conversion device)
FIG. 1 is a functional block diagram showing the configuration of the voice text conversion device 1 of the present embodiment. The voice text conversion device 1 inputs voice and outputs a text which is a recognition result of voice recognition of the input voice. The voice text conversion device 1 may output a correction state indicating the correction content of the voice recognition result in addition to the text.

図1に示す音声テキスト化装置1は、雑音抑圧部11、発話区間検出部12、音声波形切断部13、音声認識部14、および認識結果補正部15を備える。音声テキスト化装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは音声テキスト化装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。 The voice text conversion device 1 shown in FIG. 1 includes a noise suppression unit 11, an utterance section detection unit 12, a voice waveform cutting unit 13, a voice recognition unit 14, and a recognition result correction unit 15. Each part included in the voice text conversion device 1 may be configured by a computer provided with an arithmetic processing unit, a storage device, and the like, and the processing of each part may be executed by a program. This program is stored in a storage device included in the voice text conversion device 1, and can be recorded on a recording medium such as a magnetic disk, an optical disk, or a semiconductor memory, or can be provided through a network.

雑音抑圧部11は、音声認識対象となる元音声波形f1を入力し、雑音抑圧処理を実施して、雑音抑圧音声波形f2を出力する。雑音抑圧処理は、例えば、非特許文献1の音声処理技術や、ノイズキャンセリングイヤホン等に実装されている技術を用いることができる。元音声波形f1と雑音抑圧音声波形f2は、音声波形切断部13に入力される。 The noise suppression unit 11 inputs the original voice waveform f1 to be voice recognition target, performs noise suppression processing, and outputs the noise suppression voice waveform f2. For the noise suppression processing, for example, the voice processing technology of Non-Patent Document 1 or the technology implemented in a noise canceling earphone or the like can be used. The original voice waveform f1 and the noise suppression voice waveform f2 are input to the voice waveform cutting unit 13.

発話区間検出部12は、雑音抑圧音声波形f2を入力し、音声波形の中で人が発話している発話区間tj(j=1,2,・・・,m)を検出する。発話区間の検出には、Google等が公開しているVAD(Voice Activity Detection)ライブラリを利用できる。発話区間検出部12は、元音声波形f1から発話区間を検出してもよい。 The utterance section detection unit 12 inputs the noise suppression voice waveform f2, and detects the utterance section tj (j = 1, 2, ..., M) spoken by a person in the voice waveform. A VAD (Voice Activity Detection) library published by Google and others can be used to detect the utterance section. The utterance section detection unit 12 may detect the utterance section from the original voice waveform f1.

音声波形切断部13は、元音声波形f1と雑音抑圧音声波形f2のそれぞれを発話区間tjで音声波形を切り出し、切り出した発話区間ごとの音声波形のそれぞれの先頭に無音波形を付加する。音声波形切断部13は、元音声波形f1から発話区間tjごとに切り出して無音波形を付加した区間音声波形f1_tjと、雑音抑圧音声波形f2から発話区間tjごとに切り出して無音波形を付加した区間音声波形f2_tjを音声認識部14へ出力する。 The voice waveform cutting unit 13 cuts out a voice waveform of each of the original voice waveform f1 and the noise suppression voice waveform f2 in the utterance section tj, and adds a silence type to the head of each of the cut out voice waveforms for each utterance section. The voice waveform cutting unit 13 cuts out a section voice waveform f1_tj cut out from the original voice waveform f1 for each utterance section tj and adds a silence type, and a section voice cut out from the noise suppression voice waveform f2 for each utterance section tj and adds a silence type. The waveform f2_tj is output to the voice recognition unit 14.

音声認識部14は、複数の音声認識エンジンei(i=1,2,・・・,n)を用いて、発話区間tjごとに、雑音抑圧前後の区間音声波形f1_tjと区間音声波形f2_tjを音声認識する。音声認識部14は、区間音声波形f1_tjと区間音声波形f2_tjの認識結果のうち文字数が多い方の認識結果を、音声認識エンジンeiによる発話区間tjの音声認識結果Rijとする。つまり、音声認識部14は、発話区間tjごとに、複数の音声認識エンジンeiによる音声認識結果Rijを出力する。 The voice recognition unit 14 uses a plurality of voice recognition engines ei (i = 1, 2, ..., N) to voice the section voice waveform f1_tj and the section voice waveform f2_tj before and after noise suppression for each utterance section tj. recognize. The voice recognition unit 14 uses the recognition result of the section voice waveform f1_tj and the section voice waveform f2_tj, whichever has the larger number of characters, as the voice recognition result Rij of the utterance section tj by the voice recognition engine ei. That is, the voice recognition unit 14 outputs the voice recognition result Rij by the plurality of voice recognition engines ei for each utterance section tj.

音声認識部14は、複数の音声認識エンジンeiを備えてもよいし、外部の音声認識サービスを用いて音声認識してもよい。異なる複数の音声認識エンジンeiを用いるのであれば、その形式は問わない。複数の結果を出力する音声認識エンジンに関しては、信頼度が最大の認識結果を採用する。あるいは、複数の結果のうち信頼度が上位のものから複数個を出力し、後段の認識結果補正部15で比較してもよい。 The voice recognition unit 14 may include a plurality of voice recognition engines ei, or may use an external voice recognition service for voice recognition. If a plurality of different voice recognition engines ei are used, the format does not matter. For a speech recognition engine that outputs multiple results, the recognition result with the highest reliability is adopted. Alternatively, a plurality of the results having the highest reliability may be output and compared by the recognition result correction unit 15 in the subsequent stage.

認識結果補正部15は、発話区間tjごとに、音声認識エンジンeiごとの音声認識結果Rijを比較して不一致箇所を特定し、不一致箇所に関して、より多くの音声認識エンジンeiの音声認識結果を採用する。音声テキスト化装置1の入力した音声が映像やスライドに付随するものである場合、認識結果補正部15は、不一致箇所に関して、音声認識結果Rijを映像やスライドの文字認識結果と比較し、最も適した内容に補正する。映像やスライドの文字認識結果は、別の装置が映像等を処理して抽出したものを音声テキスト化装置1が入力してもよいし、音声テキスト化装置1が映像等を入力して抽出してもよい。 The recognition result correction unit 15 compares the voice recognition result Rij of each voice recognition engine ei for each utterance section tj to identify a mismatched part, and adopts more voice recognition results of the voice recognition engine ei for the mismatched part. To do. When the voice input by the voice text conversion device 1 accompanies the video or slide, the recognition result correction unit 15 compares the voice recognition result Rij with the character recognition result of the video or slide with respect to the inconsistent portion, and is most suitable. Correct the contents. The voice text conversion device 1 may input the character recognition result of the video or slide, which is extracted by processing the video or the like by another device, or the voice text conversion device 1 inputs and extracts the video or the like. You may.

認識結果補正部15は、補正後の音声認識結果であるテキストに加えて、音声認識結果Rijの不一致箇所の補正状態を出力する。例えば、認識結果補正部15は、補正した不一致箇所に対して、音声認識比較での補正または文字認識との比較での補正などの情報を付与する。 The recognition result correction unit 15 outputs the correction state of the non-matching portion of the voice recognition result Rij in addition to the text which is the voice recognition result after the correction. For example, the recognition result correction unit 15 adds information such as correction in voice recognition comparison or correction in comparison with character recognition to the corrected inconsistent portion.

(音声テキスト化装置の動作)
次に、本実施形態の音声テキスト化装置1の動作について説明する。
(Operation of voice text conversion device)
Next, the operation of the voice text conversion device 1 of the present embodiment will be described.

図2は、本実施形態の音声テキスト化装置1の処理の流れを示すフローチャートである。 FIG. 2 is a flowchart showing a processing flow of the voice text conversion device 1 of the present embodiment.

ステップS1にて、雑音抑圧部11は、元音声波形f1に対して雑音抑圧処理を実施し、雑音抑圧音声波形f2を出力する。 In step S1, the noise suppression unit 11 performs noise suppression processing on the original voice waveform f1 and outputs the noise suppression voice waveform f2.

ステップS2にて、発話区間検出部12は、雑音抑圧音声波形f2から発話区間tjを検出する。 In step S2, the utterance section detection unit 12 detects the utterance section tj from the noise suppression voice waveform f2.

ステップS3にて、音声波形切断部13は、元音声波形f1と雑音抑圧音声波形f2のそれぞれから発話区間tjを切り出すとともに、切り出した区間音声波形f1_tj,f2_tjの頭に無音波形を付加する。音声波形切断部13による音声波形切断処理の詳細は後述する。 In step S3, the voice waveform cutting unit 13 cuts out the utterance section tj from each of the original voice waveform f1 and the noise suppression voice waveform f2, and adds a silence type to the heads of the cut out section voice waveforms f1_tj and f2_tj. The details of the voice waveform cutting process by the voice waveform cutting unit 13 will be described later.

なお、元音声波形f1が短い場合は、ステップS2,S3の処理を行わずに、元音声波形f1と雑音抑圧音声波形f2を音声認識部14に渡してもよい。 If the original voice waveform f1 is short, the original voice waveform f1 and the noise suppression voice waveform f2 may be passed to the voice recognition unit 14 without performing the processes of steps S2 and S3.

ステップS4にて、音声認識部14は、複数の音声認識エンジンeiを用いて、区間音声波形f1_tj,f2_tjのそれぞれを音声認識し、音声認識結果Rijを得る。音声認識部14による音声認識処理の詳細は後述する。 In step S4, the voice recognition unit 14 uses a plurality of voice recognition engines ei to perform voice recognition of each of the section voice waveforms f1_tj and f2_tj, and obtains the voice recognition result Rij. The details of the voice recognition process by the voice recognition unit 14 will be described later.

ステップS5にて、認識結果補正部15は、複数の音声認識エンジンeiによる音声認識結果Rijを比較し、適切な認識結果を採用してテキストを出力する。認識結果補正部15は、元音声に関連した文字認識結果を用いて音声認識結果を補正してもよい。認識結果補正部15による認識結果補正処理の詳細は後述する。 In step S5, the recognition result correction unit 15 compares the voice recognition results Rij by the plurality of voice recognition engines ei, adopts an appropriate recognition result, and outputs a text. The recognition result correction unit 15 may correct the voice recognition result by using the character recognition result related to the original voice. The details of the recognition result correction process by the recognition result correction unit 15 will be described later.

(音声波形切断処理)
図3は、音声波形切断処理の流れを示すフローチャートである。音声波形切断部13は、元音声波形f1、雑音抑圧音声波形f2、および発話区間tjを入力し、音声波形切断処理を実行する。
(Voice waveform cutting process)
FIG. 3 is a flowchart showing the flow of the voice waveform cutting process. The voice waveform cutting unit 13 inputs the original voice waveform f1, the noise suppression voice waveform f2, and the utterance section tj, and executes the voice waveform cutting process.

ステップS31にて、音声波形切断部13は、元音声波形f1を発話区間tjで切り出す。 In step S31, the voice waveform cutting unit 13 cuts out the original voice waveform f1 in the utterance section tj.

ステップS32にて、音声波形切断部13は、雑音抑圧音声波形f2を発話区間tjで切り出す。 In step S32, the voice waveform cutting unit 13 cuts out the noise suppression voice waveform f2 in the utterance section tj.

ステップS33にて、音声波形切断部13は、元音声波形f1および雑音抑圧音声波形f2を発話区間tjで切り出した音声波形のそれぞれの先頭に無音波形を付加する。音声波形切断部13は、元音声波形f1を発話区間tjで切り出して無音を付加した区間音声波形f1_tjと、雑音抑圧音声波形f2を発話区間tjで切り出して無音を付加した区間音声波形f2_tjを出力する。 In step S33, the voice waveform cutting unit 13 adds an ansonic form to the beginning of each of the voice waveforms obtained by cutting out the original voice waveform f1 and the noise suppression voice waveform f2 in the utterance section tj. The voice waveform cutting unit 13 outputs the section voice waveform f1_tj obtained by cutting out the original voice waveform f1 in the utterance section tj and adding silence, and the section voice waveform f2_tj in which the noise suppression voice waveform f2 is cut out in the utterance section tj and adding silence. To do.

図4に示すように、音声認識の際、発話前の無音区間が所定の長さ以上あれば認識精度が向上する。そのため、音声波形切断部13は、認識精度が飽和するような無音区間の時間を事前に決定しておき、切り出した区間音声波形f1_tj,f2_tjの頭に無音区間を付加する。 As shown in FIG. 4, in voice recognition, if the silent section before utterance has a predetermined length or more, the recognition accuracy is improved. Therefore, the voice waveform cutting unit 13 determines in advance the time of the silent section in which the recognition accuracy is saturated, and adds the silent section to the head of the cut section voice waveforms f1_tj and f2_tj.

ステップS34にて、音声波形切断部13は、全ての発話区間について処理したか否かを判定する。処理していない発話区間が存在する場合は、ステップS31に戻り、次の発話区間tj+1を処理する。全ての発話区間を切り出した場合は、音声波形切断処理を終了する。 In step S34, the voice waveform cutting unit 13 determines whether or not all the utterance sections have been processed. If there is an utterance section that has not been processed, the process returns to step S31 and the next utterance section tj + 1 is processed. When all the utterance sections have been cut out, the voice waveform cutting process is terminated.

(音声認識処理)
図5は、音声認識処理の流れを示すフローチャートである。音声認識部14は、雑音抑圧前後の区間音声波形f1_tj,f2_tjを入力し、複数の音声認識エンジンのそれぞれを用いて、発話区間ごとに音声認識結果を求める。
(Voice recognition processing)
FIG. 5 is a flowchart showing the flow of the voice recognition process. The voice recognition unit 14 inputs the section voice waveforms f1_tj and f2_tj before and after noise suppression, and uses each of the plurality of voice recognition engines to obtain the voice recognition result for each utterance section.

ステップS41にて、音声認識部14は、複数の音声認識エンジンの中から一つの音声認識エンジンeiを選択する。 In step S41, the voice recognition unit 14 selects one voice recognition engine ei from the plurality of voice recognition engines.

ステップS42にて、音声認識部14は、ステップS41で選択した音声認識エンジンeiを用いて、元音声波形f1から切り出した区間音声波形f1_tjを音声認識する。 In step S42, the voice recognition unit 14 uses the voice recognition engine ei selected in step S41 to perform voice recognition of the section voice waveform f1_tj cut out from the original voice waveform f1.

ステップS43にて、音声認識部14は、ステップS41で選択した音声認識エンジンeiを用いて、雑音抑圧音声波形f2から切り出した区間音声波形f2_tjを音声認識する。 In step S43, the voice recognition unit 14 uses the voice recognition engine ei selected in step S41 to perform voice recognition of the section voice waveform f2_tj cut out from the noise suppression voice waveform f2.

ステップS44にて、音声認識部14は、ステップS42,S43で得られた音声認識結果の文字数を比較し、文字数の多い方の音声認識結果を音声認識エンジンeiによる発話区間tjの音声認識結果Rijとして採用する。雑音抑圧前後の波形の認識結果を比較することで、雑音抑圧により音声認識精度が向上する箇所とそうでない箇所があることを反映できる。雑音抑圧前後の認識文字数を比較し、文字数が多い認識結果を採用することで、認識漏れを防ぐことができる。 In step S44, the voice recognition unit 14 compares the number of characters of the voice recognition result obtained in steps S42 and S43, and the voice recognition result having the larger number of characters is the voice recognition result Rij of the utterance section tj by the voice recognition engine ei. Adopt as. By comparing the recognition results of the waveforms before and after noise suppression, it is possible to reflect that there are places where the voice recognition accuracy is improved by noise suppression and where it is not. By comparing the number of recognized characters before and after noise suppression and adopting the recognition result with a large number of characters, it is possible to prevent recognition omission.

ステップS45にて、音声認識部14は、全ての発話区間について処理したか否かを判定する。処理していない発話区間が存在する場合は、ステップS42に戻り、次の発話区間tj+1を処理する。 In step S45, the voice recognition unit 14 determines whether or not all the utterance sections have been processed. If there is an unprocessed utterance section, the process returns to step S42 and the next utterance section tj + 1 is processed.

ステップS46にて、音声認識部14は、全ての音声認識エンジンで処理したか否かを判定する。処理していない音声認識エンジンが存在する場合は、ステップS41に戻り、次の音声認識エンジンei+1を選択し、最初の発話区間から順に処理する。なお、ステップS42〜S45までの処理を複数の音声認識エンジンで並列に実行してもよい。 In step S46, the voice recognition unit 14 determines whether or not all the voice recognition engines have processed. If there is a voice recognition engine that has not been processed, the process returns to step S41, the next voice recognition engine ei + 1 is selected, and processing is performed in order from the first utterance section. The processes from steps S42 to S45 may be executed in parallel by a plurality of speech recognition engines.

(認識結果補正処理)
図6は、認識結果補正処理の流れを示すフローチャートである。認識結果補正部15は、発話区間tjごとに各音声認識エンジンeiの音声認識結果Rijを比較し、比較結果に基づいて音声認識結果を補正する。
(Recognition result correction processing)
FIG. 6 is a flowchart showing the flow of the recognition result correction process. The recognition result correction unit 15 compares the voice recognition result Rij of each voice recognition engine ei for each utterance section tj, and corrects the voice recognition result based on the comparison result.

ステップS51にて、認識結果補正部15は、発話区間tjについて、音声認識エンジンごとの音声認識結果を比較して不一致箇所を抽出する。具体的には、認識結果補正部15は、MeCabやJuman等を用いて音声認識結果Rijを形態素に分割し、difflib等のライブラリを用いて形態素ごとに音声認識エンジン間での認識結果を比較して不一致箇所を抽出する。 In step S51, the recognition result correction unit 15 compares the voice recognition results for each voice recognition engine with respect to the utterance section tj, and extracts a mismatched portion. Specifically, the recognition result correction unit 15 divides the voice recognition result Rij into morphemes using MeCab, Juman, etc., and compares the recognition results between the voice recognition engines for each morpheme using a library such as difflib. And extract the inconsistent part.

図7に、音声認識結果を形態素に分割し、不一致箇所を抽出した例を示す。同図の例では、発話区間tjにおける6つの音声認識エンジンe1〜e6の認識結果を形態素に分割して示している。発話区間tjの、音声認識エンジンe1−e3による音声認識結果は「私は山に登り」であり、音声認識エンジンe4,e5による音声認識結果は「わしは山に乗り」であり、音声認識エンジンe6による音声認識結果は「私は山に乗り」である。各音声認識結果を形態素に分割して比較したとき、「私」と「わし」、「登り」と「乗り」が不一致箇所として抽出される。 FIG. 7 shows an example in which the voice recognition result is divided into morphemes and the inconsistent parts are extracted. In the example of the figure, the recognition results of the six speech recognition engines e1 to e6 in the utterance section tj are divided into morphemes and shown. The voice recognition result by the voice recognition engine e1-e3 in the utterance section tj is "I climb the mountain", and the voice recognition result by the voice recognition engines e4 and e5 is "I ride the mountain", and the voice recognition engine The voice recognition result by e6 is "I ride a mountain". When each voice recognition result is divided into morphemes and compared, "I" and "eagle", "climbing" and "riding" are extracted as inconsistent parts.

ステップS52にて、認識結果補正部15は、不一致箇所について、複数の音声認識エンジンが出力している結果を採用する。例えば、図7の例で、「私」と「わし」で不一致の箇所について、認識結果補正部15は、「私」と認識した音声認識エンジンの数が「わし」と認識した音声認識エンジンの数よりも多いので、「私」を採用する。また、図7の例で、「登り」と「乗り」で不一致の箇所について、認識結果補正部15は、音声認識エンジンの数が同数であるので、どちらを採用してもよい。 In step S52, the recognition result correction unit 15 adopts the results output by the plurality of voice recognition engines for the mismatched parts. For example, in the example of FIG. 7, for the part where "I" and "Washi" do not match, the recognition result correction unit 15 recognizes that the number of voice recognition engines recognized as "I" is "Washi". Since there are more than numbers, I will adopt "I". Further, in the example of FIG. 7, the recognition result correction unit 15 may adopt either of the voice recognition engines because the number of voice recognition engines is the same for the parts where the “climbing” and the “riding” do not match.

ステップS53にて、認識結果補正部15は、不一致箇所について、文字認識結果と不一致箇所の認識結果とを比較し、より適切な候補を採用する。例えば、発話区間tjの前後10秒を含めた区間から映像やスライドから文字認識結果を取得し、文字認識結果と不一致箇所の各認識結果の意味ベクトルを比較し、文字認識結果と意味が類似している認識結果を採用する。意味ベクトルは、word2vecなどのベクトル化手法を用いて導出できる。図7の例で、映像から「山登り」という文字が取得できた場合、「登り」と「乗り」で不一致の箇所について、認識結果補正部15は「登り」を採用する。 In step S53, the recognition result correction unit 15 compares the character recognition result with the recognition result of the non-matching portion for the non-matching portion, and adopts a more appropriate candidate. For example, the character recognition result is acquired from the video or slide from the section including 10 seconds before and after the utterance section tj, the meaning vector of the character recognition result and each recognition result of the mismatched part is compared, and the character recognition result and the meaning are similar. Adopt the recognition result. The semantic vector can be derived using a vectorization method such as word2vec. In the example of FIG. 7, when the character "mountain climbing" can be obtained from the video, the recognition result correction unit 15 adopts "climbing" for the inconsistent portion between "climbing" and "riding".

ステップS52とステップS53の順序は逆でもよい。ステップS52とステップS53で同じ不一致箇所を補正した場合は、より信頼度の高い方を採用してもよい。 The order of steps S52 and S53 may be reversed. When the same inconsistency is corrected in step S52 and step S53, the one with higher reliability may be adopted.

ステップS54にて、認識結果補正部15は、ステップS52およびステップS53での補正状況に基づいて、補正状態フラグを設定する。図8に、補正状態フラグの一例を示す。図8の例では、ステップS52およびステップS53で音声認識結果を補正しなかった場合は補正状態フラグを1とし、ステップS52で音声認識結果間での比較に基づいて音声認識結果を補正した場合は補正状態フラグを2とし、ステップS53で文字認識結果との比較に基づいて音声認識結果を補正した場合は補正状態フラグを3としている。フラグは上記に限るものではない。 In step S54, the recognition result correction unit 15 sets the correction state flag based on the correction status in steps S52 and S53. FIG. 8 shows an example of the correction state flag. In the example of FIG. 8, when the voice recognition result is not corrected in steps S52 and S53, the correction state flag is set to 1, and when the voice recognition result is corrected based on the comparison between the voice recognition results in step S52. When the correction state flag is set to 2 and the voice recognition result is corrected based on the comparison with the character recognition result in step S53, the correction state flag is set to 3. The flag is not limited to the above.

ステップS55にて、認識結果補正部15は、発話区間tjについて、音声認識結果のテキストTjとともにステップS54で設定した補正状態フラグfjを出力する。 In step S55, the recognition result correction unit 15 outputs the correction state flag fj set in step S54 together with the text Tj of the voice recognition result for the utterance section tj.

ステップS56にて、認識結果補正部15は、全ての発話区間について処理したか否かを判定する。処理していない発話区間が存在する場合は、ステップS51に戻り、次の発話区間tj+1を処理する。 In step S56, the recognition result correction unit 15 determines whether or not all the utterance sections have been processed. If there is an utterance section that has not been processed, the process returns to step S51 and the next utterance section tj + 1 is processed.

以上説明したように、本実施形態によれば、雑音抑圧部11が元音声波形f1の雑音を抑制し、発話区間検出部12が雑音抑圧音声波形f2から発話区間tjを検出し、音声波形切断部13が元音声波形f1と雑音抑圧音声波形f2を発話区間tjごとに切断して区間音声波形f1_tj,f2_tjを得て、音声認識部14が、複数の音声認識エンジンeiのそれぞれにより、雑音抑圧前後の区間音声波形f1_tj,f2_tjのそれぞれを音声認識し、文字数の多い方を音声認識エンジンeiによる発話区間tjの音声認識結果Rijとし、認識結果補正部15が発話区間tjごとに音声認識結果Rijを比較して音声認識結果を補正することにより、雑音抑圧効果の有無および音声認識エンジンの得意不得意に応じて音声認識の精度を向上できる。 As described above, according to the present embodiment, the noise suppression unit 11 suppresses the noise of the original voice waveform f1, the speech section detection unit 12 detects the speech section tj from the noise suppression voice waveform f2, and the speech waveform is cut off. The unit 13 cuts the original voice waveform f1 and the noise suppression voice waveform f2 for each speech section tj to obtain the section voice waveforms f1_tj and f2_tj, and the voice recognition unit 14 suppresses the noise by each of the plurality of voice recognition engines ei. Each of the preceding and following section voice waveforms f1_tj and f2_tj is voice-recognized, and the one with the larger number of characters is set as the voice recognition result Rij of the speech section tj by the voice recognition engine ei, and the recognition result correction unit 15 sets the voice recognition result Rij for each speech section tj. By comparing and correcting the voice recognition result, the accuracy of voice recognition can be improved according to the presence or absence of the noise suppression effect and the strengths and weaknesses of the voice recognition engine.

本実施形態によれば、音声波形切断部13が区間音声波形f1_tj,f2_tjの頭に無音波形を付加することにより、区間音声波形f1_tj,f2_tjの音声認識の精度を向上できる。 According to the present embodiment, the voice waveform cutting unit 13 can improve the accuracy of voice recognition of the section voice waveforms f1_tj and f2_tj by adding the asonic type to the head of the section voice waveforms f1_tj and f2_tj.

本実施形態によれば、認識結果補正部15が元音声波形に付随する映像から抽出した文字認識結果に基づいて音声認識結果を補正することにより、音声の意味に合った音声認識結果が得られる。 According to the present embodiment, the recognition result correction unit 15 corrects the voice recognition result based on the character recognition result extracted from the video accompanying the original voice waveform, so that the voice recognition result matching the meaning of the voice can be obtained. ..

本実施形態によれば、認識結果補正部15が音声認識結果の補正内容を示す補正状態フラグを出力することにより、音声認識結果の妥当性を判断できるようになる。 According to the present embodiment, the recognition result correction unit 15 can determine the validity of the voice recognition result by outputting the correction state flag indicating the correction content of the voice recognition result.

1…音声テキスト化装置
11…雑音抑圧部
12…発話区間検出部
13…音声波形切断部
14…音声認識部
15…認識結果補正部
1 ... Voice text conversion device 11 ... Noise suppression unit 12 ... Speaking section detection unit 13 ... Voice waveform cutting unit 14 ... Voice recognition unit 15 ... Recognition result correction unit

Claims (6)

入力した音声波形の雑音を抑圧する雑音抑圧部と、
複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得て、前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択する音声認識部と、
前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正する認識結果補正部と、を有する
ことを特徴とする音声テキスト化装置。
A noise suppressor that suppresses the noise of the input voice waveform,
Each of the plurality of voice recognition engines obtained a first voice recognition result in which the voice waveform was voice-recognized and a second voice recognition result in which the noise-suppressed voice waveform was voice-recognized, and the first voice recognition result was obtained. A voice recognition unit that selects the voice recognition result and the second voice recognition result having the larger number of characters as the voice recognition result of the voice recognition engine.
A voice text conversion device including a recognition result correction unit that compares the voice recognition results of the plurality of voice recognition engines with each other and corrects the voice recognition result.
前記音声波形から発話区間を検出する発話区間検出部と、
前記音声波形と前記雑音抑圧音声波形を発話区間ごとに切断するとともに、発話区間ごとに切断した区間音声波形の頭に無音波形を付加する音声波形切断部と、を有し、
前記音声認識部は、前記発話区間ごとに、前記音声波形と前記雑音抑圧音声波形のそれぞれから切り出した前記区間音声波形を音声認識する
ことを特徴とする請求項1に記載の音声テキスト化装置。
An utterance section detection unit that detects an utterance section from the voice waveform,
It has a voice waveform cutting section that cuts the voice waveform and the noise suppression voice waveform for each utterance section, and adds a sinusoidal shape to the head of the section voice waveform cut for each utterance section.
The voice text conversion device according to claim 1, wherein the voice recognition unit performs voice recognition of the section voice waveform cut out from each of the voice waveform and the noise suppression voice waveform for each utterance section.
前記認識結果補正部は、前記音声波形に付随する映像から抽出した文字認識結果に基づいて前記音声認識結果を補正する
ことを特徴とする請求項1または2に記載の音声テキスト化装置。
The voice text conversion device according to claim 1 or 2, wherein the recognition result correction unit corrects the voice recognition result based on a character recognition result extracted from a video accompanying the voice waveform.
前記認識結果補正部は、前記音声認識結果の補正内容を示す情報を出力する
ことを特徴とする請求項1ないし3のいずれかに記載の音声テキスト化装置。
The voice text conversion device according to any one of claims 1 to 3, wherein the recognition result correction unit outputs information indicating the correction content of the voice recognition result.
入力した音声波形の雑音を抑圧するステップと、
複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得るステップと、
前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択するステップと、
前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正するステップと、を有する
ことを特徴とする音声テキスト化方法。
Steps to suppress the noise of the input voice waveform,
A step of obtaining a first voice recognition result in which the voice waveform is voice-recognized by each of the plurality of voice recognition engines and a second voice recognition result in which the noise-suppressed voice waveform in which noise is suppressed is voice-recognized.
A step of selecting the one having the larger number of characters from the first voice recognition result and the second voice recognition result as the voice recognition result of the voice recognition engine, and
A voice text conversion method comprising a step of comparing the voice recognition results of the plurality of voice recognition engines with each other and correcting the voice recognition result.
請求項1ないし4のいずれかに記載の音声テキスト化装置の各部としてコンピュータを動作させることを特徴とする音声テキスト化プログラム。 A voice text conversion program comprising operating a computer as each part of the voice text conversion device according to any one of claims 1 to 4.
JP2019096723A 2019-05-23 2019-05-23 Audio text conversion device, audio text conversion method, and audio text conversion program Active JP6735392B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019096723A JP6735392B1 (en) 2019-05-23 2019-05-23 Audio text conversion device, audio text conversion method, and audio text conversion program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019096723A JP6735392B1 (en) 2019-05-23 2019-05-23 Audio text conversion device, audio text conversion method, and audio text conversion program

Publications (2)

Publication Number Publication Date
JP6735392B1 JP6735392B1 (en) 2020-08-05
JP2020190671A true JP2020190671A (en) 2020-11-26

Family

ID=71892351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019096723A Active JP6735392B1 (en) 2019-05-23 2019-05-23 Audio text conversion device, audio text conversion method, and audio text conversion program

Country Status (1)

Country Link
JP (1) JP6735392B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013007764A (en) * 2011-06-22 2013-01-10 Clarion Co Ltd Voice data repeating device, terminal, voice data repeating method, and voice recognition system
JP2016126330A (en) * 2014-12-26 2016-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speech recognition device and speech recognition method
JP2016180916A (en) * 2015-03-25 2016-10-13 日本電信電話株式会社 Voice recognition system, voice recognition method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013007764A (en) * 2011-06-22 2013-01-10 Clarion Co Ltd Voice data repeating device, terminal, voice data repeating method, and voice recognition system
JP2016126330A (en) * 2014-12-26 2016-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speech recognition device and speech recognition method
JP2016180916A (en) * 2015-03-25 2016-10-13 日本電信電話株式会社 Voice recognition system, voice recognition method, and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岡田 治郎, 外2名: "複数の雑音抑圧手法を用いた認識結果の統合によるロバスト音声認識の検討", 電子情報通信学会技術研究報告, vol. 第103巻, 第519号, JPN6020022986, 11 December 2003 (2003-12-11), JP, pages 109 - 114, ISSN: 0004297233 *
廣近 理希, 外1名: "音声認識を用いたラジオ放送の実時間情報表示システム", 第74回(平成24年)全国大会講演論文集(2) 人工知能と認知科学, JPN6020022988, 6 March 2012 (2012-03-06), pages 2 - 621, ISSN: 0004297234 *

Also Published As

Publication number Publication date
JP6735392B1 (en) 2020-08-05

Similar Documents

Publication Publication Date Title
US11250851B2 (en) Multi-layer keyword detection
US11776540B2 (en) Voice control of remote device
US10186265B1 (en) Multi-layer keyword detection to avoid detection of keywords in output audio
US10593328B1 (en) Voice control of remote device
US9986394B1 (en) Voice-based messaging
WO2010021368A1 (en) Language model creation device, language model creation method, voice recognition device, voice recognition method, program, and storage medium
JPWO2019106517A5 (en)
JP2002140089A (en) Method and apparatus for pattern recognition training wherein noise reduction is performed after inserted noise is used
JP2006251545A (en) Speech interaction system and computer program
JP2016180839A (en) Noise-suppressed speech recognition device and program therefor
US10504520B1 (en) Voice-controlled communication requests and responses
CN114385800A (en) Voice conversation method and device
JP2021033051A (en) Information processing device, information processing method and program
KR101122591B1 (en) Apparatus and method for speech recognition by keyword recognition
CN112541324A (en) Punctuation mark adding method and device and electronic equipment
JP4752516B2 (en) Voice dialogue apparatus and voice dialogue method
KR100639931B1 (en) Recognition error correction apparatus for interactive voice recognition system and method therefof
JP6485941B2 (en) LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE
JP7326931B2 (en) Program, information processing device, and information processing method
JP6735392B1 (en) Audio text conversion device, audio text conversion method, and audio text conversion program
JP2010262147A (en) Response creating device and program
KR20200102309A (en) System and method for voice recognition using word similarity
US11563708B1 (en) Message grouping
WO2021059968A1 (en) Speech recognition device, speech recognition method, and program
US20210303619A1 (en) Method and apparatus for automatic speaker diarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200713

R150 Certificate of patent or registration of utility model

Ref document number: 6735392

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250