JP2020529032A - 音声認識翻訳方法及び翻訳装置 - Google Patents

音声認識翻訳方法及び翻訳装置 Download PDF

Info

Publication number
JP2020529032A
JP2020529032A JP2019563570A JP2019563570A JP2020529032A JP 2020529032 A JP2020529032 A JP 2020529032A JP 2019563570 A JP2019563570 A JP 2019563570A JP 2019563570 A JP2019563570 A JP 2019563570A JP 2020529032 A JP2020529032 A JP 2020529032A
Authority
JP
Japan
Prior art keywords
voice
translation
language
speech
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019563570A
Other languages
English (en)
Inventor
岩 張
岩 張
涛 熊
涛 熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Langogo Technology Co ltd
Original Assignee
Langogo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201810602359.4A external-priority patent/CN108920470A/zh
Application filed by Langogo Technology Co ltd filed Critical Langogo Technology Co ltd
Publication of JP2020529032A publication Critical patent/JP2020529032A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】翻訳作業を簡素化し、翻訳の精度を向上することができる音声認識翻訳方法及び翻訳装置を提供する。【解決手段】本発明に係る音声認識翻訳方法は、翻訳ボタンが押される時に、音声認識状態に入り、音声収集装置によりユーザの音声を収集するステップと、プロセッサーにより収集された音声を異なる代替言語に対応する複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ信頼度及び予め設定された確定ルールに基づいて、ユーザが使用するソース言語を確定するステップと、音声認識状態において、翻訳ボタンが放されると、音声認識状態が終了し、且つプロセッサーにより前記音声をソース言語からデフォルト言語の対象音声に変換するステップと、音声再生装置により対象音声を再生するステップと、を含む。本発明の音声認識翻訳方法及びこの方法を採用した翻訳装置は、翻訳作業を簡素化にし、翻訳の精度を向上できる。

Description

本発明は、データ処理技術分野に関し、特に音声認識翻訳方法及び翻訳装置に関する。
現在、翻訳ツールの種類は益々多くなり、その機能も多様であり、ネットワーク用語を翻訳するものがあり、火星の言語を翻訳するものもある。今、最も一般的に使用される翻訳ツールは、翻訳機である。翻訳機は、英語、中国語、スペイン語、ドイツ語、ロシア語及びフランス語などを含む33種類の言語と方言の翻訳をサポートしており、且つこれらの言語のインタラクティブ翻訳が可能である。現在の翻訳機器には複数のボタンが装備されている。翻訳する際に、ユーザは異なるボタンを押して、ソース言語とターゲット言語の設定、録音及び翻訳などの操作を完了する必要があり、操作が煩雑であり、間違ったボタンを押すことに起因する翻訳エラーが発生し易い。
本発明は、従来の問題に鑑みて、翻訳作業を簡素化し、翻訳の精度を向上することができる音声認識翻訳方法及び翻訳装置を提供することを目的とする。
上記の課題を解決するために、本発明の実施形態に係る音声認識翻訳方法は、翻訳ボタンが設けられた翻訳装置に適用し、前記翻訳装置は、プロセッサー及び前記プロセッサーに電気的に接続される音声収集装置、音声再生装置を含み、
前記音声認識翻訳方法は、前記翻訳ボタンが押される時に、前記翻訳装置は、音声認識状態に入り、前記音声収集装置によりユーザの音声を収集するステップと、前記プロセッサーによって、収集された音声を異なる代替言語に対応する複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいて、ユーザが使用するソース言語を確定するステップと、前記音声認識状態において、前記翻訳ボタンが放されると、前記翻訳装置は、前記音声認識状態が終了し、且つ前記プロセッサーによって前記音声を前記ソース言語からデフォルト言語の対象音声に変換するステップと、前記音声再生装置により前記対象音声を再生するステップと、を含む。
もう一方で、本発明の実施形態は、前記翻訳ボタンが押される時に、音声認識状態に入り、音声収集装置を介してユーザの音声を収集するための録音モジュールと、
収集された音声をそれぞれ複数の音声認識エンジンに導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいてユーザが使用したソース言語を確定するための音声認識モジュールと、
前記音声認識状態において、前記翻訳ボタンが放された時に、前記音声認識状態を終了し、前記音声を前記ソース言語からデフォルト言語の対象音声に変換するための音声変換モジュールと、
音声再生装置により前記対象音声を再生するための再生モジュールと、を含む翻訳装置を提供し、
複数の前記音声認識エンジンは、それぞれ異なる前記代替言語に対応している。
また、本発明のもう1つの実施形態に係る翻訳装置は、本体と、前記本体の機体に設けられた録音孔、表示パネル及び翻訳ボタンと、前記本体の内部に設けられたプロセッサー、メモリー、音声収集装置、音声再生装置及び通信モジュールと、を含み、
前記表示パネル、前記翻訳ボタン、前記メモリー、前記音声収集装置、前記音声再生装置及び前記通信モジュールは、前記プロセッサーに電気的に接続されており、前記メモリーには、前記プロセッサーで実行されることが可能であるコンピュータプログラムが格納されており、
前記プロセッサーは、前記コンピュータプログラムを実行する際に、前記翻訳ボタンが押される時に、前記翻訳装置は、音声認識状態に入って、前記音声収集装置を介してユーザの音声を収集し、収集された音声を異なる前記代替言語に対応している複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいてユーザが使用したソース言語を確定し、
前記音声認識状態において、前記翻訳ボタンが放されると、前記翻訳装置は、音声認識状態を終了して、前記音声を前記ソース言語からデフォルト言語の対象言語に変換して、前記音声再生装置により前記対象言語を再生する。
上記の各実施形態では、翻訳ボタンが押されると、翻訳装置が音声認識状態に入り、ユーザの音声がリアルタイムに収集され、収集された音声は複数の音声認識エンジンにそれぞれ導入され、異なる代替言語に対応する音声の信頼度が取得される。そして、取得した信頼度に応じて、ユーザが使用するソース音声を決定する。また、当該音声認識状態では、ユーザが翻訳ボタンを放すと、音声認識状態が終了し、音声がソース言語からデフォルト言語の対象音声に変換されて再生されて、ワンクリック翻訳とソース言語の自動認識を実現する。従って、本発明は、ボタン操作を簡素化し、間違ったボタンを押すことによる翻訳エラーを回避し、翻訳の精度を向上することができる。
本発明の1つの実施形態に係る音声認識翻訳方法のフローチャートである。 本発明のもう1つの実施形態に係る音声認識翻訳方法のフローチャートである。 本発明の1つの実施形態に係る翻訳装置の内部構造を示すブロック図である。 本発明のもう1つの実施形態に係る翻訳装置の内部構造を示すブロック図である。 本発明の1つの実施形態に係る翻訳装置のハードウェア構造を示す図である。 図5に示した翻訳装置の外観を示す図である。 本発明のもう1つの実施形態に係る翻訳装置のハードウェア構造を示す図である。
以下、明細書の図面を参照しながら、本発明の構成、目的及び利点などを詳細に説明する。明らかなように、以下記述した実施形態は、ただ本発明の一部の実施形態であり、全ての実施形態ではない。当業者は、下記の実施形態に基づいて、何の創造的な労働を払わない前提下で得た他の実施形態も、本発明の保護範囲内に含まれることは言うまでもない。
図1は、本発明の1つの実施形態に係る音声認識翻訳方法のフローチャートである。前記音声認識翻訳方法は、翻訳装置に適用される。前記翻訳装置は、プロセッサー及び当該プロセッサーに電気的に接続される音声収集装置及び音声再生装置を含む。前記翻訳装置には、翻訳ボタンがさらに設けられている。前記音声収集装置は、マイク或いはピックアップなどであり、前記音声再生装置は、スピーカーなどである。前記翻訳ボタンは、物理ボタンまたは仮想ボタンの何れかである。前記翻訳ボタンが仮想ボタンである場合、前記翻訳装置はタッチパネルをさらに含む。前記翻訳装置は、起動された後に、前記プロセッサーを介して、前記仮想ボタンのみを含むユーザインターフェイスと前記仮想ボタンのデモアニメーションを生成してから、前記タッチパネルでユーザインターフェイスを表示し、且つユーザインターフェイスにおいて前記デモアニメーションを再生する。前記デモアニメーションは、前記仮想ボタンの用途を説明するために使用される。図1に示すように、前記音声認識翻訳方法は、以下のステップを含む。
S101では、翻訳ボタンが押される時に、翻訳装置は、音声認識状態に入り、音声収集装置によってユーザの音声を収集する。
S102では、収集された音声をプロセッサーによって複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する当該音声の信頼度を取得し、且つ前記信頼度及びデフォルトルールに基づいて、ユーザが使用するソース言語を確定する。
S103では、音声認識の状態下で、翻訳ボタンが放された時に、前記翻訳装置は、音声認識状態を終了し、且つプロセッサーを介して音声をソース言語からデフォルト言語の対象音声に変換する。
S104では、音声再生デバイスで、前記対象音声を再生する。
具体的には、前記翻訳装置には、複数の音声認識エンジンが予め設けられており、前記複数の音声認識エンジンは、それぞれ異なる代替言語に対応する。翻訳ボタンが押される及び離される時に、プロセッサーに異なる信号を送信して、プロセッサーは、翻訳ボタンからの信号により、翻訳ボタンの状態を確定する。
翻訳ボタンが押圧された状態にある場合、翻訳装置は、音声認識状態に入って、音声収集装置を介してユーザの音声をリアルタイム収集し、且つプロセッサーを介して収集された音声を複数の音声認識エンジンにそれぞれ導入して、前記音声を認識して、異なる代替言語に対応する前記音声の信頼度(confidence)を取得する。その後、デフォルトルールに基づいて、得た各信頼度の値を利用して、ユーザが使用したソース言語を確定する。そのうち、信頼度は、オーディオ波形から得たテキストの精度の確率と見なされることができる。即ち、前記信頼度は、当該音声に対応する言語が音声認識エンジンに対応する言語であることを表明する確率である。例えば、前記音声が中国語音声認識エンジンに導入された後、前記中国語音声認識エンジンは中国語認識結果の信頼度をフィードバックする。即ち、前記音声に対応する言語が中国語である確率をフィードバックする。または、信頼度は、人工知能音声認識(Auto Speech Recognize,ASR)エンジンが認識されたテキストの自信度とも見なされる。例えば、もし英語音声が中国語ASRエンジンに導入されれば、得た認識結果の中に中国語文字を含む可能があるが、当該文字が乱雑しており、前記中国語ASRエンジンは認識結果に対する自信度が低く、出力したconfidence値も低い。
音声認識状態において、翻訳ボタンが放された状態にある時に、翻訳装置は音声認識状態を終了し、且つ音声収集操作を停止し、音声認識状態の下で収集したあらゆる音声をソース言語からデフォルト言語の対象音声に変換し、且つ音声再生装置により前記対象音声を再生する。そのうち、デフォルト言語は、ユーザの操作により設定されたものである。翻訳装置は、ユーザの事前操作に従って、当該事前操作が指す言語をデフォルト言語に設定する。前記事前操作とは、例えば前記翻訳ボタンを短時間押す操作であり、タッチパネルのユーザインターフェイスにおいて各種の言語設定用のボタンをクリックする操作であり、音声制御操作などであることが可能である。
本発明のもう1つの実施形態において、前記翻訳装置は、前記プロセッサーに電気的に接続される無線信号トランシーバーをさらに含む。前記翻訳装置は、前記プロセッサーを介して収集された音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得する。具体的に説明すると、前記プロセッサーにより、前記音声を複数の音声認識エンジンにそれぞれ対応するクライアントに導入する。各クライアントは、前記無線信号トランシーバーを介して、前記音声をストリーミングメディアの形式で対応するサーバーにリアルタイムに送信し、且つ各サーバーによりフィードバックされる信頼度を受信する。パケットロス、ネットワークの速度が事前設定速度より遅い、又は切断率が事前設定頻度より大きいことが検出された場合、前記音声の送信操作が停止される。当該音声認識状態では、前記翻訳ボタンが放されたことを検出すると、各クライアントを介して、前記無線信号トランシーバーにより前記音声認識状態の下で収集されたあらゆる音声を、ファイルの形で対応するサーバーに送信し、且つ各サーバーによりフィードバックされる信頼度を受信する。又は、前記クライアントを介してローカルデータベースを呼び出して、前記音声を認識して、前記信頼度を得る。
本実施形態では、翻訳ボタンが押されると、翻訳装置は、音声認識状態に入り、ユーザの音声をリアルタイムに収集し、且つ収集した音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する音声の信頼度を取得する。その後、取得した信頼度に応じて、ユーザが使用するソース言語を確定する。また、当該音声認識状態では、ユーザが翻訳ボタンを放すと、翻訳装置は、音声認識状態が終了し、音声をソース言語からデフォルト言語の対象音声に変換して再生し、ワンクリック翻訳とソース言語の自動認識を実現する。従って、本発明は、ボタン操作を簡素化し、間違ったボタンを押すことによる翻訳エラーを回避し、翻訳の精度を向上することができる。
図2は、本発明のもう1つの実施形態に係る音声認識翻訳方法のフローチャートである。当該実施形態に関連する音声認識翻訳方法は、翻訳装置に適用される。前記翻訳装置は、プロセッサー及び当該プロセッサーに電気的に接続される音声収集装置及び音声再生装置を含む。前記翻訳装置には、翻訳ボタンがさらに設けられている。前記音声収集装置は、マイク或いはピックアップなどであり、前記音声再生装置は、スピーカーなどである。前記翻訳ボタンは、物理ボタンまたは仮想ボタンの何れかである。前記翻訳ボタンが仮想ボタンである場合、前記翻訳装置はタッチパネルをさらに含む。前記翻訳装置は、起動された後に、前記プロセッサーを介して、前記仮想ボタンのみを含むユーザインターフェイスと前記仮想ボタンのデモアニメーションを生成してから、前記タッチパネルでユーザインターフェイスを表示し、且つユーザインターフェイスにおいて前記デモアニメーションを再生する。前記デモアニメーションは、前記仮想ボタンの用途を説明するために使用される。図2に示すように、当該実施形態に関連する音声認識翻訳方法は、以下のステップを含む。
S201では、翻訳ボタンが押される時に、翻訳装置は、音声認識状態に入り、音声収集装置によってユーザの音声を収集する。
S202では、収集された音声をプロセッサーによって複数の音声認識エンジンにそれぞれ導入して、当該音声の各代替言語にそれぞれ対応する複数の第一テキストと複数の信頼度を取得する。
具体的には、前記翻訳装置には、複数の音声認識エンジンが予め設けられており、前記複数の音声認識エンジンは、それぞれ異なる代替言語に対応する。翻訳ボタンが押される時及び離される時に、プロセッサーに異なる信号を送信して、プロセッサーは、翻訳ボタンからの信号により、翻訳ボタンの状態を確定する。
翻訳ボタンが押される時に、翻訳装置は、音声認識状態に入って、音声収集装置を介してユーザの音声をリアルタイム収集し、且つプロセッサーを介して収集された音声を複数の音声認識エンジンにそれぞれ導入して、前記音声を認識して、異なる代替言語に対応する前記音声の認識結果を取得する。前記認識結果は、前記音声に対応する第一テキストと信頼度(confidence)とを含む。そのうち、信頼度は、オーディオ波形から得たテキストの精度の確率と見なされることができ、即ち、前記信頼度は、当該音声に対応する言語が音声認識エンジンに対応する言語であることを表明する確率である。例えば、前記音声が中国語音声認識エンジンに導入された後、前記中国語音声認識エンジンは中国語認識結果の信頼度をフィードバックする。即ち、前記音声に対応する言語が中国語である確率をフィードバックする。または、信頼度は、人工知能音声認識ASRエンジンが認識されたテキストの自信度とも見なされる。例えば、もし英語音声が中国語ASRエンジンに導入されれば、得た認識結果の中に中国語文字を含む可能があるが、当該文字が乱雑しており、前記中国語ASRエンジンは、認識結果に対する自信度が低く、それ相応に、より低いconfidence値を出力する。
好ましくは、本発明の前記もう1つの実施形態において、前記翻訳装置は、前記プロセッサーに電気的に接続される運動センサーをさらに含む。こうして、前記翻訳ボタンのほかに、ユーザは、予め設定されたアクションを利用して、前記翻訳装置を音声認識状態に入るか又は音声認識状態から退出するように制御する。より詳細には、前記運動センサーにより検出されたユーザの第一動作と第二動作を、それぞれ第一プリセットアクションと第二プリセットアクションとに設定する。ユーザが前記第一プリセットアクションを実行したことが前記運動センサーにより検出されると、前記翻訳装置は音声認識状態に入る。一方で、ユーザが前記第二プリセットアクションを実行したことが前記運動センサーにより検出されると、前記翻訳装置は音声認識状態を終了する。前記プリセットアクションは、予め設定された角度又は頻度で前記翻訳装置を振る動作である。前記第一プリセットアクションと前記第二プリセットアクションは、同じでも異なっていてもよい。前記運動センサーは、加速度タッチセンサー、重力センサー又はジャイロスコープなどである。
S203では、前記代替言語の中から信頼度の値が第一設定値より大きい複数の第一言語を選別する。任意に隣接する2つの前記第一言語の信頼度の値の差は、第二設定値より小さい。
S204では、前記第一言語に包含される第二言語の数が1であるかどうかを判断する。前記第二言語に対応する前記第一言語は、前記第二言語のテキストルールに合致する。
S205では、もし前記第二言語の数が1であれば、前記第二言語を前記ソース言語と確定する。
S206では、もし前記第二言語の数が1より大きければ、各第二言語の中の第三言語を前記ソース言語とする。全ての第二言語の中で、前記第三言語に対応する前記第一テキストの構文は、前記第三言語の構文ルールと一番マッチングしている。
本実施形態において、所定の決定ルールは、信頼度の値の大きさ、テキストルールの一致結果及び構文ルールの一致結果に基づいてソース言語を確定する。信頼度、テキストルールの一致化及び構文ルールの一致化を組み合わせることによって、ソース言語を確定する時の精度を高めることができる。
以下、例を挙げて詳細に説明する。まず、第一ユーザは、自分が欲しい対象言語Aを設定する。その後、第一ユーザがボタンを押した時に、第二ユーザは話し始める。第二ユーザが使用する言語は、X(言語a、b、c、d、e…又は全世界のほぼ百種言語の中の何れか)である。すると、翻訳装置は、ユーザの音声を収集し始め、且つ取得した第二ユーザの音声を各言語種類の音声認識エンジンの中に導入した後、各音声認識エンジンが出力した認識結果に基づいて、第二ユーザが使用した言語Xが一体どの言語であることを確定する。
仮に、代替言語がa、b、c、d、eであれば、収集された音声は、a言語の音声認識エンジンY1、b言語の音声認識エンジンY2、c言語の音声認識エンジンY3、d言語の音声認識エンジンY4及びe言語の音声認識エンジンY5の中にそれぞれ導入される。音声認識エンジンY1、Y2、Y3、Y4及びY5は、それぞれ前記言語を認識し、且つ認識結果を出力する。
上記の認識結果は、前記音声のa言語に対応する第一テキストa−Text1と信頼度confidence1、前記音声のb言語に対応する第一テキストb−Text1と信頼度confidence2、前記音声のc言語に対応する第一テキストc−Text1と信頼度confidence3、前記音声のd言語に対応する第一テキストd−Text1と信頼度confidence4及び前記音声のe言語に対応する第一テキストe−Text1と信頼度confidence5である。
その後、前記代替言語の中の信頼度confidenceの値がデフォルト値より低い言語を排除して、信頼度confidenceの値がより高い且つソース言語に近い幾つかの言語を残す。例えば、confidence2、confidence4及びconfidence5の各々に対応する言語b、d及びeを保留する。
さらに、残った第一テキストb−Text1がb言語に対応するテキストルールに合うかどうか、第一テキストd−Text1がd言語に対応するテキストルールに合うかどうか、第一テキストe−Text1がe言語に対応するテキストルールに合うかどうかを分析する。第一テキストb−Text1を例として、仮にb言語が日本語であれば、第一テキストb−Text1の中に日本語以外の文字があるかどうかを分析し、且つ存在する非日本語文字のあらゆる第一テキストb−Text1の中での割合が予め設定された割合より小さいかどうかを分析する。第一テキストb−Text1の中に日本語以外の文字が存在しない場合又は前記割合が予め設定された割合より小さい場合、第一テキストb−Text1が日本語に対応するテキストルールに合うことを確定する。
上記の分析から分かるように、一方では、もし第一テキストb−Text1のみがb言語に対応するテキストルールに準拠すれば、第二ユーザが使用する言語Xをb言語として確定する。もう一方では、もし第一テキストb−Text1のみがb言語に対応するテキストルールに準拠し、且つ第一テキストe−Text1がe言語に対応するテキストルールに準拠すれば、第一テキストb−Text1とb言語に対応する構文ルールとをマッチングして、第一テキストb−Text1とb言語に対応する構文ルールとの一致度1を得ると共に、第一テキストe−Text1とe言語に対応する構文ルールとをマッチングして、第一テキストe−Text1とe言語に対応する構文ルールとの一致度2を得て、一致度1と一致度2とを比較する。一致度2の値がより大きい場合、第二ユーザが使用する言語Xをe言語として確定する。前記構文ルールは、文法を含む。
好ましくは、本発明のもう1つの実施形態において、予め設定された確定ルールは、信頼度の値の大きさに基づいてソース言語を確定する。具体的には、各代替言語の中の信頼度の値が一番大きい言語をユーザが使用するソース言語に決める。例えば、上記のconfidence1、confidence2、confidence3、confidence4及びconfidence5を、大きい方から小さい方への順序に従って配列する。もし、confidence3が第一位になれば、confidence3に対応する言語cを第二ユーザが使用するソース言語として確定する。上記の記載から分かるように、信頼度の値によりソース言語を確定することは、方法が簡単であり、且つ計算量も小さく、ソース言語を確定する際の速度を高めることができる。
上記の音声認識エンジンは、前記翻訳装置ローカルで収集された音声を認識することができ、前記音声をサーバーに伝送して、サーバーで収集された音声を認識することもできる。
好ましくは、本発明のもう1つの実施形態において、前記プロセッサーを介して、前記音声をそれぞれ複数の前記音声認識エンジンに導入することによって、前記音声の各代替言語に対応する単語確率リストn−bestを得ることもできる。前記ソース言語を認識した後に、前記ソース言語に対応する前記第一テキストを前記タッチパネルにおいて表示させる。ユーザの前記タッチパネルでのクリック動作が検出されると、前記タッチパネルにより表示される前記第一テキストにおける前記クリック動作が指向する第一単語を第二単語に切り換える。前記第二単語は、前記単語確率リストn−bestの中の確率が前記第一単語に次ぐ単語である。前記単語確率リストn−bestには、認識された前記音声に対応する複数の単語が包含されている。各単語は、大きい確率から小さい確率へとの順序に従って配列される。例えば、発音がshu xueである音声は、数学、輸血、樹穴という複数の中国単語に対応している。ユーザのクリック動作に準拠して、認識結果を修正することによって、翻訳の精度をさらに高めることができる。
好ましくは、本発明のもう1つの実施形態において、前記翻訳装置は、前記プロセッサーに電気的に接続される無線信号トランシーバーをさらに含む。前記翻訳装置は、前記プロセッサーを介して収集された音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度と第一テキストとを取得する。具体的には、以下のステップを含む。
S2021では、前記プロセッサーによって、前記音声を複数の前記音声認識エンジンにそれぞれ対応するクライアントに導入する。
実際の応用において、音声認識エンジンとクライアントは、一対一の対応関係であることでき、多数対一の対応関係であることもできる。
また、各音声認識エンジンの開発者の得意言語ファミリーに基づいて、複数の異なる開発者により開発された音声認識エンジンを選択する。例えば、Baiduの中国語音声認識エンジン、Googleの英語音声認識エンジン及びMicrosoftの日本語音声認識エンジンなどを使用することができる。このとき、各音声認識エンジンのクライアントは、収集されたユーザの音声を異なるサーバーにそれぞれ伝送して、音声認識を行なう。各音声認識エンジンの開発者は異なる言語ファミリーが得意であるため、異なる開発者の音声認識エンジンを統合することにより、翻訳結果の精度をさらに向上させることができる。
S2022では、各クライアントは、前記無線信号トランシーバーを介して、ストリーミングメディアの形で前記音声を対応するサーバーにリアルタイムに送信し、且つ各サーバーによりフィードバックされる第一テキストと信頼度を受信する。
S2023では、パケットロス、ネットワークの速度が事前設定速度より遅いか、又は切断率が事前設定頻度より大きいことが検出された場合、前記音声の送信操作を停止する。
S2024では、前記音声認識状態では、前記翻訳ボタンが放されたことを検出すると、各クライアントを介して、前記音声認識状態の下で収集したあらゆる音声を、前記無線信号トランシーバーによりファイルの形で対応するサーバーに送信し、且つ各サーバーによりフィードバックされる信頼度と第一テキストを受信する。
収集されたユーザの音声をファイル形式に切り換えてサーバーに送信して音声認識を行なうシナリオの下で、もし音声をファイルの形でサーバーに送信する前に、表示パネルにおいて対応する第一テキストを表示すれば、ユーザの音声をストリーミングメディアの形で送信することを停止すると、対応する第一テキストは表示パネルに表示されなくなる。
また、パケット損失が発生するか、ネットワーク速度が事前設定速度よりも遅いか、切断率が事前設定頻度よりも大きいことが検出されると、前記音声の送信操作を停止し、且つ前記クライアントを介してローカルデータベースを呼び出して前記音声を認識して、対応する信頼度と第一テキストを取得する。
また、ネットワーク信号が弱い場合、ローカルオフラインデータベースを利用して音声認識を行なうことは、ネットワーク品質に起因する翻訳遅延を回避し、翻訳効率を改善することが理解できる。スペース占有率を削減するため、通常ローカルオフラインデータベースのデータ量は、サーバー側のデータベースのデータ量より少ない。
S207では、音声認識状態において、前記翻訳ボタンが放されると、前記翻訳装置は音声認識状態を終了し、且つ前記プロセッサーにより、前記ソース言語に対応する第一テキストをデフォルト言語の第二テキストに翻訳した後、音声合成システムによって、前記第二テキストを対象音声に変換する。
S208では、前記音声再生装置によって、前記対象音声を再生する。
具体的には、音声認識状態において、前記翻訳ボタンが放されると、前記翻訳装置は、音声認識状態を終了し、且つ音声収集操作を停止した後に、前記プロセッサーを介して音声認識状態で収集したあらゆる音声に対応する前記ソース言語の第一テキストをデフォルト言語の第二テキストに翻訳する。さらに、TTS(Text To Speech,テスストから音声へ)音声合成システムを利用して前記第二テキストを対象音声に変換して、スピーカーを介して前記対象音声を再生する。
本実施形態では、翻訳ボタンが押されると、翻訳装置は、音声認識状態に入り、ユーザの音声をリアルタイムに収集し、且つ収集した音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する音声の信頼度を取得する。その後、取得した信頼度に応じて、ユーザが使用するソース言語を確定する。また、当該音声認識状態では、ユーザが翻訳ボタンを放すと、翻訳装置は、音声認識状態が終了し、音声をソース言語からデフォルト言語の対象音声に変換して再生し、ワンクリック翻訳とソース言語の自動認識を実現する。従って、本発明は、ボタン操作を簡素化し、間違ったボタンを押すことによる翻訳エラーを回避し、翻訳の精度を向上することができる。
図3は、本発明の1つの実施形態に係る翻訳装置の構造を示すブロック図である。前記翻訳装置は、図1で示された音声認識翻訳方法を実現することに用いられ、図5又は図7に示す翻訳装置又は当該翻訳装置の中の1つの機能モジュールである。図3に示すように、前記翻訳装置は、録音モジュール301、音声認識モジュール302、音声変換モジュール303及び再生モジュール304を含む。
前記録音モジュール301は、前記翻訳ボタンが押される時に、音声認識状態に入り、音声収集装置を介してユーザの音声を収集する。
前記音声認識モジュール302は、収集された音声をそれぞれ複数の音声認識エンジンに導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいてユーザが使用したソース言語を確定する。複数の前記音声認識エンジンは、それぞれ異なる前記代替言語に対応している。
音声変換モジュール303は、前記音声認識状態において、前記翻訳ボタンが放された時に、前記音声認識状態を終了し、前記音声を前記ソース言語からデフォルト言語の対象音声に変換する。
再生モジュール304は、音声再生装置により前記対象音声を再生することに用いられる。
さらに、図4に示すように、本発明のもう1つの実施形態において、音声認識モジュール302は、第一認識モジュール3021を含む。第一認識モジュール3021は、各代替言語の中の信頼度の値が一番大きい言語を、ユーザが使用するソース言語と確定する。
さらに、音声認識モジュール302は、導入モジュール3022、選別モジュール3023、判断モジュール3024、第二認識モジュール3025及び第三認識モジュール3026を含む。導入モジュール3022は、前記音声をそれぞれ各音声認識エンジンに導入して、当該音声の各代替言語にそれぞれ対応する複数の第一テキストと複数の信頼度を取得する。選別モジュール3023は、前記代替言語の中から信頼度の値が第一設定値より大きい複数の第一言語を選別する。任意に隣接する2つの前記第一言語の信頼度の値の差は、第二設定値より小さい。判断モジュール3024は、前記第一言語に包含される第二言語の数が1であるかどうかを判断する。前記第二言語に対応する前記第一言語は、前記第二言語のテキストルールに合致する。第二認識モジュール3025は、前記第二言語の数が1であれば、前記第二言語を前記ソース言語と確定する。第三認識モジュール3026は、前記第二言語の数が1より大きければ、前記第二言語の中の第三言語を前記ソース言語とする。全ての第二言語において、前記第三言語に対応する前記第一テキストの構文は、前記第三言語の構文ルールと一番マッチングしている。
さらに、音声変換モジュール303は、前記ソース言語に対応する第一テキストをデフォルト言語の第二テキストに翻訳した後、音声合成システムによって、前記第二テキストを対象音声に変換することに用いられる。
さらに、導入モジュール3022は、前記音声を複数の音声認識エンジンにそれぞれ対応するクライアントに導入することに用いられる。各クライアントは、前記無線信号トランシーバーを介して、前記音声をストリーミングメディアの形式で対応するサーバーにリアルタイムに送信し、且つ各サーバーによりフィードバックされる信頼度を受信する。パケットロスが発生するか、ネットワークの速度が事前設定速度より遅いか、又は切断率が事前設定頻度より大きいことが検出された場合、各クライアントは前記音声の送信操作を停止する。
また、導入モジュール3022は、前記音声認識状態において、前記翻訳ボタンが放されたことを検出すると、各クライアントを介して、前記無線信号トランシーバーにより前記音声認識状態の下で収集されたあらゆる音声を、ファイルの形で対応するサーバーに送信し、且つ各サーバーによりフィードバックされる信頼度を受信する。
また、導入モジュール3022は、前記クライアントを介してローカルデータベースを呼び出して、前記音声を認識して、前記信頼度を得ることに用いられる。
さらに、導入モジュール3022は、前記音声をそれぞれ複数の前記音声認識エンジンに導入することによって、前記音声の各代替言語に対応する単語確率リストを得ることに用いられる。
前記翻訳装置は、ディスプレーモジュール401と切換モジュール402とを含む。ディスプレーモジュール401は、前記ソース言語を認識した後に、タッチパネルにおいて前記ソース言語に対応する前記第一テキストを表示する。切換モジュール402は、ユーザの前記タッチパネルでのクリック動作が検出されると、前記タッチパネルにより表示される前記第一テキストにおける前記クリック動作が指向する第一単語を第二単語に切り換える。前記第二単語は、前記単語確率リストの中の確率が前記第一単語に次ぐ単語である。
さらに、前記翻訳装置は、設定モジュール403と制御モジュール404とをさらに含む。設定モジュール403は、前記運動センサーにより検出されたユーザの第一動作と第二動作を、それぞれ第一プリセットアクションと第二プリセットアクションとに設定する。制御モジュール404は、ユーザが前記第一プリセットアクションを実行したことが前記運動センサーにより検出された時に、前記翻訳装置を制御して音声認識状態に入る。また、制御モジュール404は、ユーザが前記第二プリセットアクションを実行したことが前記運動センサーにより検出された時に、前記翻訳装置を制御して音声認識状態を終了する。
上記各モジュールの各々機能を実現するための具体的なプロセスについては、図1及び図2に示す実施形態の関連記載を参照することができ、ここで再度説明しない。
本実施形態では、翻訳ボタンが押されると、翻訳装置は、音声認識状態に入り、ユーザの音声をリアルタイムに収集し、且つ収集した音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する音声の信頼度を取得する。その後、取得した信頼度に応じて、ユーザが使用するソース言語を確定する。また、当該音声認識状態では、ユーザが翻訳ボタンを放すと、翻訳装置は、音声認識状態が終了し、音声をソース言語からデフォルト言語の対象音声に変換して再生し、ワンクリック翻訳とソース言語の自動認識を実現する。従って、本発明は、ボタン操作を簡素化し、間違ったボタンを押すことによる翻訳エラーを回避し、翻訳の精度を向上することができる。
図5は、本発明の1つの実施形態に係る翻訳装置のハードウェア構造を示す図である。図6は、図5に示した翻訳装置の外部構造を示す図である。図5と図6に示すように、本発明に係る翻訳装置は、本体1と、本体1の機体に設けられた録音孔2と、表示パネル3と、翻訳ボタン4と、本体1の内部に設けられたプロセッサー501と、メモリー502と、音声収集装置503と、音声再生装置504と、通信モジュール505と、を備える。
表示パネル3、翻訳ボタン4、メモリー502、音声収集装置503、音声再生装置504及び通信モジュール505は、プロセッサー501に電気的に接続されている。メモリー502は、高速ランダムアクセスメモリ(RAM,Random Access Memory)であることができ、ディスクストレージなどの不揮発性メモリ(non−volatile memory)であってもよい。メモリー502には、実行可能なプログラムコードが格納されている。通信モジュール505は、ネットワーク信号トランシーバーであって、無線ネットワーク信号を送受信することに用いられる。表示パネル3は、タッチスクリーンである。
より詳細には、メモリー502には、プロセッサー501で実行されることが可能であるコンピュータプログラムが格納されている。プロセッサー501は、前記コンピュータプログラムを実行する際に、以下のステップを行なう。
翻訳ボタン4が押される時に、翻訳装置は、音声認識状態に入って、音声収集装置503を介してユーザの音声を収集し、収集した音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいてユーザが使用したソース言語を確定する。複数の前記音声認識エンジンは、それぞれ異なる前記代替言語に対応している。
音声認識状態において、翻訳ボタン4が放されると、前記翻訳装置は音声認識状態を終了し、前記音声をソース言語からデフォルト言語の対象言語に変換して、音声再生装置504を介して前記対象言語を再生する。
図7に示すように、本発明のもう1つの実施形態において、本体1の下端には、スピーカーウィンドウ(図示せず)が設けられている。本体1の内部には、プロセッサー501にそれぞれ電気的に接続されるバッテリー701、運動センサー702及び音声収集装置503に電気的に接続されるオーディオ信号増幅回路703が設けられている。運動センサー702は、加速度タッチセンサー、重力センサー又はジャイロスコープなどである。
上記各素子の各々機能を実現する過程については、図1及び図2に示す実施形態の関連記載を参照することができ、ここで再度説明しない。
本実施形態では、翻訳ボタンが押されると、翻訳装置は、音声認識状態に入り、ユーザの音声をリアルタイムに収集し、且つ収集した音声を複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する音声の信頼度を取得する。その後、取得した信頼度に応じて、ユーザが使用するソース言語を確定する。また、当該音声認識状態では、ユーザが翻訳ボタンを放すと、翻訳装置は、音声認識状態が終了し、音声をソース言語からデフォルト言語の対象音声に変換して再生し、ワンクリック翻訳とソース言語の自動認識を実現する。従って、本発明は、ボタン操作を簡素化し、間違ったボタンを押すことによる翻訳エラーを回避し、翻訳の精度を向上することができる。
本発明の幾つかの実施形態により開示された装置及び方法は、他の形で実現され得ることを理解されたい。例えば、上記のデバイスは、ただ例示的であり、モジュールの分割は、ただ論理的な機能の区分にすぎない。実際の応用では、他の区分方式がある。例えば、複数のモジュール又はコンポーネントを組み合わせたり、別のシステムに統合したり、一部の機能を省略したり、実行しないことができる。加えて、図示された又は説明された相互結合、直接結合又は通信接続は、何らかの接続ポート又はインターフェースを介して実現される。デバイス又はモジュールの間接結合又は通信接続は、電気的、機械的又はその他であり得る。
分離部品として説明されるモジュールは、物理的に離れるか又は物理的に離れておらず、モジュールとして示される部品は、物理モジュールであるか又は物理モジュールではない。即ち、1つの場所に位置するか又は複数のネットワークモジュールに分布されてもよい。しかも、実際の必要に応じて、一部又は全てのモジュールを選んで本発明の提案を実現することができる。
さらに、本発明の各実施形態における各機能モジュールは、1つの処理モジュールに統合されてもよく、各モジュールは物理的に別々に存在してもよく、または2つ以上のモジュールが1つのモジュールに統合されてもよい。上記の統合モジュールは、ハードウェアの形またはソフトウェアの形で実現される。
前記統合モジュールは、ソフトウェアの形で実現され、且つ別個の製品として販売または使用される場合、コンピュータの読み取り可能な記憶媒体に格納されることができる。 そのような理解に基づいて、本発明の先行技術に貢献する一部または全ての技術提案は、ソフトウェア製品の形で具現化され得る。前記ソフトウェア製品は、1つの読み取り可能な媒体に格納され、本願の様々な実施形態で説明された方法の全部または一部のステップをコンピュータ(パソコン、サーバーまたはネットワークデバイスなどであってもよい)に実行させるための命令を含む。前述の読み取り可能な記憶媒体は、プログラムコードを記憶することができるUディスク、モバイルハードディスク、ROM、RAM、磁気ディスクまたはCDなどを含む。
前述の方法実施形態に対して、簡潔にするために、それらを全て一連のアクションの組み合わせとして説明されているが、当業者は、本発明が説明されたアクションのシーケンスによって限定されないことに留意されたい。なぜなら、本発明に従って幾つかのステップは、他のシーケンスでまたは同時に実行される可能性があるからである。しかも、当業者は、明細書に記載された実施形態は全て好ましい実施形態であり、関与する動作及びモジュールは必ずしも本発明に必要でないことも理解されたい。
上記の様々な実施形態に対する説明は、それぞれに独自の重点があり、ある実施形態において詳述されていない部分を他の実施形態の関連記載を参照することができる。
以上は、本発明によって提供される音声認識翻訳方法及び翻訳装置の説明である。当業者にとって、本発明の実施形態の主旨に応じて、具体的な実施形態及び適用範囲を変更できることが明らかである。本明細書の記載は、本願を制限するものではない。
1 本体
2 録音孔
3 表示パネル
4 翻訳ボタン
301 録音モジュール
302 音声認識モジュール
303 音声変換モジュール
304 再生モジュール
401 ディスプレーモジュール
402 切換モジュール
403 設定モジュール
404 制御モジュール
501 プロセッサー
502 メモリー
503 音声収集装置
504 音声再生装置
505 通信モジュール
701 バッテリー
702 運動センサー
703 オーディオ信号増幅回路
3021 第一認識モジュール
3022 導入モジュール
3023 選別モジュール
3024 判断モジュール
3025 第二認識モジュール
3026 第三認識モジュール

Claims (10)

  1. 翻訳ボタンが設けられており、プロセッサー及び前記プロセッサーに電気的に接続される音声収集装置と音声再生装置を含む翻訳装置に適用する音声認識翻訳方法であって、
    前記翻訳ボタンが押される時に、前記翻訳装置は、音声認識状態に入り、前記音声収集装置によりユーザの音声を収集するステップと、
    前記プロセッサーによって、収集された音声を異なる代替言語に対応する複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいて、ユーザが使用するソース言語を確定するステップと、
    前記音声認識状態において、前記翻訳ボタンが放されると、前記翻訳装置は、前記音声認識状態が終了し、且つ前記プロセッサーによって前記音声を前記ソース言語からデフォルト言語の対象音声に変換するステップと、
    前記音声再生装置により前記対象音声を再生するステップと、を含むことを特徴とする音声認識翻訳方法。
  2. 前記信頼度及び予め設定された確定ルールに基づいて、ユーザが使用するソース言語を確定するステップは、具体的に各代替言語の中の信頼度の値が一番大きい言語をユーザが使用するソース言語に決めることを含むことを特徴とする請求項1に記載の音声認識翻訳方法。
  3. 前記プロセッサーによって、収集された音声を異なる代替言語に対応する複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいて、ユーザが使用するソース言語を確定するステップは、具体的に、
    収集された前記音声を前記プロセッサーによって各音声認識エンジンにそれぞれ導入して、当該音声の各代替言語にそれぞれ対応する複数の第一テキストと複数の信頼度を取得するステップと、
    前記代替言語の中から信頼度の値が第一設定値より大きい複数の第一言語を選別するステップと、
    前記第一言語に包含される第二言語の数が1であるかどうかを判断するステップと、
    前記第二言語の数が1であれば、前記第二言語を前記ソース言語と確定するステップと、
    前記第二言語の数が1より大きければ、各第二言語の中の第三言語を前記ソース言語とするステップと、を含み、
    任意に隣接する2つの前記第一言語の信頼度の値の差は、第二設定値より小さく、前記第二言語に対応する前記第一言語は、前記第二言語のテキストルールに合致し、全ての前記第二言語の中では、前記第三言語に対応する前記第一テキストの構文は、前記第三言語の構文ルールと一番マッチングしていることを特徴とする請求項1に記載の音声認識翻訳方法。
  4. 前記音声を前記ソース言語からデフォルト言語の対象音声に変換するステップは、具体的に前記ソース言語に対応する前記第一テキストを前記デフォルト言語の第二テキストに翻訳するステップと、音声合成システムによって、前記第二テキストを前記対象音声に変換するステップと、を含むことを特徴とする請求項3に記載の音声認識翻訳方法。
  5. 前記翻訳装置は、前記プロセッサーに電気的に接続される無線信号トランシーバーをさらに含み、前記プロセッサーによって、収集された音声を異なる代替言語に対応する複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得するステップは、具体的に、
    前記プロセッサーにより、前記音声を複数の前記音声認識エンジンにそれぞれ対応するクライアントに導入するステップと、
    各前記クライアントは、前記無線信号トランシーバーを介して、前記音声をストリーミングメディアの形で対応するサーバーにリアルタイムに送信し、且つ各サーバーによりフィードバックされる前記信頼度を受信するステップと、
    パケットロスが発生するか、ネットワークの速度が事前設定速度より遅いか、又は切断率が事前設定頻度より大きいことが検出された場合、前記音声の送信操作を停止するステップと、
    前記音声認識状態において、前記翻訳ボタンが放されたことを検出すると、各クライアントを介して、収集されたあらゆる音声を前記無線信号トランシーバーによりファイルの形で対応するサーバーに送信して、各サーバーによりフィードバックされる前記信頼度を受信するかまたは前記クライアントを介してローカルデータベースを呼び出して、前記音声を認識して前記信頼度を得るステップと、を含むことを特徴とする請求項1に記載の音声認識翻訳方法。
  6. 前記翻訳装置は、前記プロセッサーに電気的に接続されたタッチパネルをさらに含み、
    前記音声認識翻訳方法は、前記プロセッサーによって前記音声をそれぞれ複数の前記音声認識エンジンに導入して、前記音声の各代替言語に対応する単語確率リストを得るステップと、前記ソース言語を認識した後に、前記ソース言語に対応する前記第一テキストを前記タッチパネルにおいて表示させるステップと、ユーザの前記タッチパネルでのクリック動作が検出された時に、前記タッチパネルで表示される前記第一テキストにおける前記クリック動作が指向する第一単語を第二単語に切り換えるステップと、をさらに含み、
    前記第二単語は、前記単語確率リストの中の確率が前記第一単語に次ぐ単語であることを特徴とする請求項3に記載の音声認識翻訳方法。
  7. 前記翻訳装置は、前記プロセッサーに電気的に接続される運動センサーをさらに含み、前記音声認識翻訳方法は、前記運動センサーにより検出されたユーザの第一動作と第二動作を、それぞれ第一プリセットアクションと第二プリセットアクションとに設定するステップと、前記運動センサーによりユーザが前記第一プリセットアクションを実行したことが検出されると、前記音声認識状態に入るステップと、前記運動センサーを介してユーザが前記第二プリセットアクションを実行したことが検出されると、前記音声認識状態を終了するステップと、をさらに含むことを特徴とする請求項1に記載の音声認識翻訳方法。
  8. 翻訳ボタンが押される時に、音声認識状態に入り、音声収集装置を介してユーザの音声を収集するための録音モジュールと、
    収集された音声をそれぞれ複数の音声認識エンジンに導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいてユーザが使用したソース言語を確定するための音声認識モジュールと、
    前記音声認識状態において、前記翻訳ボタンが放された時に、前記音声認識状態を終了し、前記音声を前記ソース言語からデフォルト言語の対象音声に変換するための音声変換モジュールと、
    音声再生装置により前記対象音声を再生するための再生モジュールと、を含み、
    複数の前記音声認識エンジンは、それぞれ異なる前記代替言語に対応していることを特徴とする翻訳装置。
  9. 本体と、前記本体の機体に設けられた録音孔、表示パネル及び翻訳ボタンと、前記本体の内部に設けられたプロセッサー、メモリー、音声収集装置、音声再生装置及び通信モジュールと、を含む翻訳装置であって、
    前記表示パネル、前記翻訳ボタン、前記メモリー、前記音声収集装置、前記音声再生装置及び前記通信モジュールは、前記プロセッサーに電気的に接続されており、前記メモリーには、前記プロセッサーで実行されることが可能であるコンピュータプログラムが格納されており、
    前記プロセッサーは、前記コンピュータプログラムを実行する際に、前記翻訳ボタンが押される時に、前記翻訳装置は、音声認識状態に入って、前記音声収集装置を介してユーザの音声を収集し、収集された音声を異なる代替言語に対応している複数の音声認識エンジンにそれぞれ導入して、異なる代替言語に対応する前記音声の信頼度を取得し、且つ前記信頼度及び予め設定された確定ルールに基づいてユーザが使用したソース言語を確定し、前記音声認識状態において、前記翻訳ボタンが放されると、前記翻訳装置は、音声認識状態を終了して、前記音声を前記ソース言語からデフォルト言語の対象言語に変換して、前記音声再生装置により前記対象言語を再生することを特徴とする翻訳装置。
  10. 前記本体の下端には、スピーカーウィンドウが設けられており、前記本体の内部には、バッテリー、運動センサー及びオーディオ信号増幅回路が設けられ、前記バッテリーと前記運動センサーは、それぞれ前記プロセッサーに電気的に接続され、前記オーディオ信号増幅回路は、前記音声収集装置に電気的に接続され、前記表示パネルは、タッチスクリーンであることを特徴とする請求項9に記載の翻訳装置。
JP2019563570A 2018-06-12 2019-04-09 音声認識翻訳方法及び翻訳装置 Pending JP2020529032A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201820905381.1 2018-06-12
CN201820905381 2018-06-12
CN201810602359.4 2018-06-12
CN201810602359.4A CN108920470A (zh) 2018-06-12 2018-06-12 一种自动检测音频的语言并进行翻译的方法
PCT/CN2019/081886 WO2019237806A1 (zh) 2018-06-12 2019-04-09 语音识别及翻译方法以及翻译装置

Publications (1)

Publication Number Publication Date
JP2020529032A true JP2020529032A (ja) 2020-10-01

Family

ID=68841919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019563570A Pending JP2020529032A (ja) 2018-06-12 2019-04-09 音声認識翻訳方法及び翻訳装置

Country Status (4)

Country Link
US (1) US20210365641A1 (ja)
JP (1) JP2020529032A (ja)
CN (1) CN110800046B (ja)
WO (1) WO2019237806A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7507885B2 (ja) 2020-11-13 2024-06-28 グーグル エルエルシー アシスタントリクエストの協調的処理のための、グループ化されたアシスタントデバイスの、オンデバイスモデルを動的に適応させること

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN113129861A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 一种文本转语音的处理方法、终端及服务器
CN113014986A (zh) * 2020-04-30 2021-06-22 北京字节跳动网络技术有限公司 互动信息处理方法、装置、设备及介质
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111680527B (zh) * 2020-06-09 2023-09-19 语联网(武汉)信息技术有限公司 基于专属机翻引擎训练的人机共译***与方法
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
WO2022266825A1 (zh) * 2021-06-22 2022-12-29 华为技术有限公司 语音处理方法、装置及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124695A (ja) * 1997-06-27 1999-01-29 Sony Corp 音声認識処理装置および音声認識処理方法
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
KR20170007107A (ko) * 2015-07-10 2017-01-18 한국전자통신연구원 음성인식 시스템 및 방법
JP2017126042A (ja) * 2016-01-15 2017-07-20 シャープ株式会社 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
JP2018085091A (ja) * 2016-11-11 2018-05-31 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别***及方法
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
US20140365200A1 (en) * 2013-06-05 2014-12-11 Lexifone Communication Systems (2010) Ltd. System and method for automatic speech translation
US9569430B2 (en) * 2014-10-24 2017-02-14 International Business Machines Corporation Language translation and work assignment optimization in a customer support environment
JP6141483B1 (ja) * 2016-03-29 2017-06-07 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
KR102251832B1 (ko) * 2016-06-16 2021-05-13 삼성전자주식회사 번역 서비스를 제공하는 전자 장치 및 방법
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译***
CN106710586B (zh) * 2016-12-27 2020-06-30 北京儒博科技有限公司 一种语音识别引擎自动切换方法和装置
CN107886940B (zh) * 2017-11-10 2021-10-08 科大讯飞股份有限公司 语音翻译处理方法及装置
CN108519963B (zh) * 2018-03-02 2021-12-03 山东科技大学 一种将流程模型自动转换为多语言文本的方法
CN108920470A (zh) * 2018-06-12 2018-11-30 深圳市合言信息科技有限公司 一种自动检测音频的语言并进行翻译的方法
CN108874792A (zh) * 2018-08-01 2018-11-23 李林玉 一种便携式语言翻译装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124695A (ja) * 1997-06-27 1999-01-29 Sony Corp 音声認識処理装置および音声認識処理方法
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
KR20170007107A (ko) * 2015-07-10 2017-01-18 한국전자통신연구원 음성인식 시스템 및 방법
JP2017126042A (ja) * 2016-01-15 2017-07-20 シャープ株式会社 コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム
JP2018085091A (ja) * 2016-11-11 2018-05-31 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7507885B2 (ja) 2020-11-13 2024-06-28 グーグル エルエルシー アシスタントリクエストの協調的処理のための、グループ化されたアシスタントデバイスの、オンデバイスモデルを動的に適応させること

Also Published As

Publication number Publication date
CN110800046B (zh) 2023-06-30
US20210365641A1 (en) 2021-11-25
CN110800046A (zh) 2020-02-14
WO2019237806A1 (zh) 2019-12-19

Similar Documents

Publication Publication Date Title
JP2020529032A (ja) 音声認識翻訳方法及び翻訳装置
JP6952184B2 (ja) ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体
US11176938B2 (en) Method, device and storage medium for controlling game execution using voice intelligent interactive system
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
US7953590B2 (en) Using separate recording channels for speech-to-speech translation systems
CN110914828B (zh) 语音翻译方法及翻译装置
JP2020016875A (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
CN111506291B (zh) 音频数据采集方法、装置、计算机设备及存储介质
JP2021503094A (ja) 音声翻訳方法及び翻訳装置
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及***
KR20210088467A (ko) 음성 인터랙션 제어 방법, 장치, 전자기기, 저장매체 및 시스템
CN104731767A (zh) 交流支援装置以及交流支援方法
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
JP2011504624A (ja) 自動同時通訳システム
JP2000207170A (ja) 情報処理装置および情報処理方法
KR20120126649A (ko) 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체
CN111785267A (zh) 一种交互控制方法、装置及计算机可读存储介质
CN109065019B (zh) 一种面向智能机器人的故事数据处理方法及***
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
JP6457706B1 (ja) 翻訳システム、翻訳方法、及び翻訳装置
CN109065018B (zh) 一种面向智能机器人的故事数据处理方法及***
KR102181583B1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
CN111556406B (zh) 音频处理方法、音频处理装置及耳机
CN113160782B (zh) 音频处理的方法、装置、电子设备及可读存储介质
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及***

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210713