JP2022503255A - 音声情報処理方法、装置、プログラム及び記録媒体 - Google Patents

音声情報処理方法、装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2022503255A
JP2022503255A JP2019562645A JP2019562645A JP2022503255A JP 2022503255 A JP2022503255 A JP 2022503255A JP 2019562645 A JP2019562645 A JP 2019562645A JP 2019562645 A JP2019562645 A JP 2019562645A JP 2022503255 A JP2022503255 A JP 2022503255A
Authority
JP
Japan
Prior art keywords
word
target word
phoneme
fuzzy
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019562645A
Other languages
English (en)
Other versions
JP7116088B2 (ja
Inventor
毅 牛
宏宇 王
学芳 呉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Publication of JP2022503255A publication Critical patent/JP2022503255A/ja
Application granted granted Critical
Publication of JP7116088B2 publication Critical patent/JP7116088B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

Figure 2022503255000001
本開示は、音声情報処理方法、装置、プログラム及び記録媒体関する。方法は、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むステップと、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むステップと、対象単語及び対象単語に対応するファジー単語を出力するステップと、を含む。本開示の技術によれば、同音異義語や発音が紛らわしい単語を正確に認識できないという従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
【選択図】図2

Description

本開示は、情報技術分野に関し、特に、音声情報処理方法、装置及び記録媒体に関する。
情報技術の急速な発展に伴い、音声認識(Automatic Speech Recognition、ASR)技術が急速に発展している。音声認識は、コンピュータにより音声をテキストに自動的に変換する総合的な応用技術であり、信号処理、パターン認識、機械学習、数値解析、自然言語処理、高性能計算などの一連の基礎研究の優れた成果を統合した、複数の分野や学科に跨る応用研究であり、言語学習などの分野に広く利用されている。
関連技術における音声認識技術は、通常、統計的パターン認識アルゴリズムにより収集された音声情報を認識する。しかしながら、言語学習などの分野については、英語などの言語に多数の同音異義語や発音が紛らわしいものがあるため、関連技術における音声認識技術によってこれらの単語を正確に認識することは困難である。
関連技術に存在する問題を解決するために、本開示は、音声情報処理方法、装置及び記録媒体を提供する。
本開示の実施例の第1の態様によれば、音声情報処理方法を提供し、この方法は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定するステップであって、テキスト情報が単語を含むステップと、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップであって、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むステップと、
対象単語及び対象単語に対応するファジー単語を出力するステップと、を含む。
代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するステップを含む。
代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、対象単語に対応するファジー単語として選択するステップを含み、
条件は、
対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。
代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するステップを含む。
代替的に、対象単語及び対象単語に対応するファジー単語を出力するステップは、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするステップと、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するステップと、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するステップと、を含む。
本開示の実施例の第2の態様によれば、音声情報処理装置を提供し、装置は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むように構成される第1決定モジュールと、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第2決定モジュールと、
対象単語及び対象単語に対応するファジー単語を出力するように構成される出力モジュールと、を含む。
代替的に、第2決定モジュールは、発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第1選択サブモジュールを含む。
代替的に、第2決定モジュールは、
対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を対象単語に対応するファジー単語として選択するように構成される第2選択サブモジュールを含み、
条件は、
対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。
代替的に、第2決定モジュールは、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するように構成される第3選択サブモジュールを含む。
代替的に、出力モジュールは、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュールと、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するように構成される第1出力サブモジュールと、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するように構成される第2出力サブモジュールと、を含む。
本開示の実施例の第3の態様によれば、音声情報処理装置を提供し、音声情報処理装置は、
プロセッサと
プロセッサで実行可能な命令を記憶するためのメモリと、
を備え、
プロセッサは、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含み、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスとを含み、
対象単語及び対象単語に対応するファジー単語を出力するように構成される。
本開示の実施例の第4の態様によれば、コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体を提供し、コンピュータプログラム命令がプロセッサにより実行される場合、本開示の第1の態様により提供される音声情報処理方法に含まれるステップが実行される。
本発明が提供する技術によれば、下記のような有益な効果を奏することができる。音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、且つ、ユーザが選択できるように、対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
なお、一般的な記載及び後述の詳細な記載は、単なる例示的な記載であり、本発明はこれに対し限定されるものではない。
以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本開示に該当する実施例を例示するとともに、明細書とともに本発明の原理を説明する。
例示的な一実施例に係る実施環境の模式図である。 例示的な一実施例に係る音声情報処理方法のフローチャートである。 例示的な一実施例に係る音声情報処理装置のブロック図である。 他の例示的な実施例に係る音声情報処理装置のブロック図である。 例示的な一実施例に係る音声情報処理方法を実行する装置のブロック図である。 他の例示的な実施例に係る音声情報処理方法を実行する装置のブロック図。
以下、例示的な実施例を詳しく説明し、その例示を図面に示す。図面に関する以下の記載は、特に別の説明がない限り、異なる図面における同一符号は、同じ又は類似する要素を示す。以下の例示的な実施例に記載の実施形態は、本開示と一致する全ての実施形態を代表するものではない。逆に、それらは、添付の特許請求の範囲に記載されているように、本開示の一部の側面に相当する装置及び方法の例に過ぎない。
なお、本開示の明細書、特許請求の範囲及び上記の図面における「第1」や「第2」など用語は、類似する対象を区別するためのものであり、特定の順序又は先後関係を説明するものではない。
本開示の実施形態により提供される音声情報処理方法を説明する前に、まず、本開示の実施形態に係る実装環境について説明する。図1は、本開示の実施例に係る実施環境の模式図である。図1に示すように、本開示の実施例に係る実施環境は、ユーザ端末10とサーバ20とを含む。また、ユーザ端末10は、サーバ20と通信可能に接続される。ユーザ端末10は、その内蔵の音声収集装置(例えばマイクロフォン)により、ユーザが入力した音声情報を収集し、収集された音声情報をサーバ20に送信する。サーバ20は、収集された音声情報を処理して音声情報に対応するテキスト情報と、テキスト情報に含まれる単語に対応するファジー単語を決定し、その後、テキスト情報に含まれる単語及び当該単語に対応するファジー単語をユーザ端末10に送信する。ユーザ端末10は、ユーザが選択できるように、サーバからフィードバックされた単語及びそれに対応するファジー単語を表示することができる。
なお、この実施環境では、様々な有線又は無線技術を用いてユーザ端末10とサーバ20との間の通信接続を確立することができる。例えば、接続方式には、ブルートゥース(登録商標)、Wi-Fi(登録商標)(Wireless-Fidelity、ワイファイ)、2Gネットワーク、3Gネットワーク、4Gネットワークなどが含まれるが、これらに限定されない。ユーザ端末10は、例えば、スマートフォン、タブレット、PDA(Personal Digital Assistant、個人向け携帯型情報端末機器)、スマートウェアラブルデバイスなどであってもよい。サーバ20は、音声情報処理機能を提供可能な任意のデバイスであってもよい。
なお、本開示の実施例により提供される音声情報処理方法は、ユーザ端末10のローカルで実行されてもよい。具体的には、ユーザ端末10は、その内蔵の音声収集装置(例えばマイクロフォン)により音声情報を収集し、収集された音声情報を処理して、音声情報に対応するテキスト情報と、テキスト情報に含まれる単語に対応するファジー単語を決定する。その後、ユーザが選択できるように、その表示装置(例えば表示画面)により、テキスト情報に含まれる単語及び当該単語に対応するファジー単語を出力して表示させることができる。
図1に示す実施環境において、本開示の実施例は、音声情報処理方法を提供する。この方法は、図1に示すユーザ端末10又はサーバ20によって実行される。図2を参照すると、図2は、例示的な一実施例に係る音声情報処理方法のフローチャートを示しており、この方法は、以下のステップを含む。
ステップS201において、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定する。ここで、テキスト情報には、単語が含まれる。
具体的に実施する場合、まず、収集された音声情報に対してノイズ低減、フレーミング処理、プリエンファシス及びウィンドウ処理などの前処理を行う。そして、処理後の音声情報に対して特徴抽出を行い、その後、抽出された特徴を、予め用意した音声認識モデルに入力し、対応するテキスト情報を取得することができる。ここで、この音声認識モデルは、大量の音声情報と。それらに対応するテキストを用いて学習させることで得られる。例示的に、隠れマルコフモデル(Hidden Markov Model、HMM)やニューラルネットワークモデル(Neural Network、NN)であってもよく、本開示の実施例は、これらに限定しない。
なお、収集された音声情報に対して前処理及び特徴抽出を行う具体的な態様は、本技術分野で公知であるため、本開示の実施例において詳細な説明は省略する。
また、本技術分野で公知の他の音声認識技術を用いて収集された音声情報を処理して、音声情報に対応するテキスト情報を決定することもできる。本開示の実施例は、これに限定しない。
ステップS202において、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定する。ここで、発音辞書には、複数の単語と各単語に対応する音素シーケンスが含まれる。
本開示の実施例において、音素は、音声の最小単位であり、音素シーケンスは、複数の音素を統合した順序付きシーケンスである。発音辞書を検索することにより、対象単語に対応する音素シーケンスを決定することができる。例えば、単語が「bad」である場合、対応する音素シーケンスは、/b/、/ash(aとeの中間音に相当する発音記号)/、/d/の3つの音素を含む。具体的に実施する場合、複数の言語の発音辞書を予め用意し、収集された音声に対応する言語を用いて、その言語に対応する発音辞書を選択することができる。例えば、音声に対応する言語が英語である場合、英語の発音辞書を選択する。
具体的に実施する場合、英語などの言語において、同音異義語の区別が難しい場合、区別しにくい音素(例えば/ash(aとeの中間音に相当する発音記号)/及び/e/)を含む単語が紛らわしい場合(例えばbite及びbuy)、最初又は最後の音素が無声子音である単語が他の単語と紛らわしい場合などを考慮すると、ステップS201は、以下の3つの代替的な実施形態のうちの少なくとも1つにより実現してもよい。
実施形態1、同音異義語について
同音異義語に対応する音素シーケンスが同一であるため、具体的に実施する場合、発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択する。例えば、対象単語がtwoである場合、その音声記号は/tu:/であり、対応する音素シーケンスは/t/、/u:/であり、対応する発音辞書から音素シーケンスが同一の単語tooを、対象単語twoのファジー単語として選択する。同様に、対象単語がbeである場合、対応する発音辞書から音素シーケンスが対象単語beの音素シーケンス(/b/、/i:/)と同一である単語beeを、この対象単語beのファジー単語として選択する。
実施形態2、区別しにくい音素を含む単語について
具体的に、対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、対象単語に対応するファジー単語として選択する。この条件は、(1)対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける、この第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、(2)この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。ここで、第1の既定のタイプの音素は、実際の需要に応じてユーザ又はメーカによって設定されてもよい。例えば/ash(aとeの中間音に相当する発音記号)/、/e/、/a:/などの区別しにくい音素を含むことができるが、これらに限定されない。
例えば、対象単語がbedである場合、それに対応する音声記号は/bed/であり、対応する音素シーケンスは、/b/、/e/、/d/であり、第1の既定のタイプの音素/e/を含む。そのため、発音辞書の単語から単語bad(対応する音素シーケンスが/b/、/ash(aとeの中間音に相当する発音記号)/、/d/である)を、この対象単語bedのファジー単語として選択することができる。
実施形態3、対応する最初又は最後の音素が無声子音である単語について
このような場合、音声情報を認識する際に、この単語の無声子音の音素が無視され、認識結果が不正確になるおそれがある。例えば、単語biteが単語buyとして誤って認識され易い。そのため、対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれるこの第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスが、この新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択する。ここで、第2の既定のタイプの音素は、実際の需要に応じてユーザ又はメーカによって設定されてもよく、第2の既定のタイプの音素は、例えば/p/、/t/、/k/、/s/、/f/などの無声子音の音素を含むことができるが、これらに限定されない。
例えば、対象単語がbiteである場合、それに対応する音声記号は/bait/であり、対応する音素シーケンスは/b/、/ai/、/t/であり、その最後の音素は、第2の既定のタイプの音素であり、音素/t/以外の音素を新たな音素シーケンス/b/、/ai/として統合し、発音辞書からこの新たな音素シーケンスと同一の単語buyを、対象単語biteに対応するファジー単語として選択する。
ステップS203において、対象単語及び対象単語に対応するファジー単語を出力する。
代替的な一実施形態において、対象単語及び対象単語に対応する全てのファジー単語を出力することができる。
他の代替的な実施形態において、対象単語が大量のファジー単語に対応する可能性があることを考慮すると、ユーザが選択できるように全てのファジー単語を出力する場合、ユーザ体験に影響を与える可能性がある。そのため、既定の優先度に応じて対象単語に対応するファジー単語を順位付けすることができる。対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力する。対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて、対象単語及び対象単語に対応する全てのファジー単語を出力する。例えば、既定の優先度が高いものから順に、対象単語に対応する全てのファジー単語を降順で順位付けしてもよい。ファジー単語の数が既定の数Nより大きい場合、順位付け結果に応じて、最初からN位までのファジー単語を選別して、対象単語及びこのN個のファジー単語を出力表示する。代替的に、既定の優先度が低いものから順に、対象単語に対応する全てのファジー単語を昇順で順位付けしてもよい。ファジー単語の数が既定の数Nより大きい場合、順位付け結果に応じて、最後からN位までのファジー単語を選別して、対象単語及びこのN個のファジー単語を出力表示する。
ここで、既定の数と既定の優先度は、実際の需要に応じてユーザ又はメーカによって設定されてもよい。既定の数は、例えば10~20の任意の整数であってもよい。既定の優先度は、例えば(1)上記の第1実施形態により決定されたファジー単語(即ち、対象単語の発音と同一のファジー単語)>他の実施形態により決定されたファジー単語、(2)上記の第2実施形態により決定されたファジー単語に関し、音素/e/を含む対象単語について、音素/ash(aとeの中間音に相当する発音記号)/を含むファジー単語>音素/a:/を含むファジー単語、(3)日常生活において使用頻度が高いファジー単語>日常生活において使用頻度が低いファジー単語などとすることができる。
なお、上記の実施例に記載の音声情報処理方法がユーザ端末によって実行される場合、ユーザ端末の処理ユニットは、ユーザがこれらの単語から正しい単語を選択できるように、対象単語及び対象単語に対応するファジー単語を、ユーザ端末の表示装置(例えば表示画面)に出力して表示させることができる。上記の実施例に記載の音声情報処理方法がサーバによって実行される場合、サーバは、対象単語及び対象単語に対応するファジー単語を、サーバと通信可能に接続されたユーザ端末に送信し、ユーザ端末は、ユーザがこれらの単語から正しい単語を選択できるように、対象単語及び当該対象単語に対応するファジー単語を表示する。
上記の音声認識方法によれば、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、ユーザが選択できるように対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという、従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
本開示の実施例は、図1に示すユーザ端末10又はサーバ20に適用可能な情報処理装置をさらに提供する。図3を参照すると、図3は、例示的な一実施例に係る音声情報処理装置のブロック図であり、この装置300は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むように構成される第1決定モジュール301と、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第2決定モジュール302と、
対象単語及び対象単語に対応するファジー単語を出力するように構成される出力モジュール303と、を含む。
代替的に、図4に示すように、第2決定モジュール302は、
発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第1選択サブモジュール321を含む。
代替的に、図4に示すように、第2決定モジュール302は、
対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を対象単語に対応するファジー単語として選択するように構成される第2選択サブモジュール322を含む。
条件は、対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。
代替的に、図4に示すように、第2決定モジュール302は、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第3選択サブモジュール323を含む。
代替的に、図4に示すように、出力モジュール303は、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュール331と、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するように構成される第1出力サブモジュール332と、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するように構成される第2出力サブモジュール333と、を含む。
上記の実施例における装置に関して、各モジュールが実行する処理の具体的な内容については、当該方法に関する実施例において詳細に説明したため、ここで詳細に説明しない。
また、説明を簡潔にするために、簡単な上記の機能モジュールの構成を例にして説明したが、実際の応用では、上記の機能は、必要に応じて異なる機能モジュールによって実現してもよく、つまり、装置の内部構造を異なる機能モジュールに分割して、上記の機能の全部又は一部を実現可能であることを、当業者であれば明確に知ることができる。
上記の音声認識装置によれば、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、ユーザが選択できるように対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという、従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
本開示は、コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体をさらに提供し、コンピュータプログラム命令がプロセッサにより実行される場合、本開示により提供される音声情報処理方法に含まれるステップが実行される。
本開示は、音声情報処理装置をさらに提供し、装置は、プロセッサと、プロセッサで実行可能な命令を記憶するためのメモリと、を備える。ここで、プロセッサは、本開示により提供される音声情報処理方法に含まれるステップを実行するように構成される。
図5は、例示的な一実施例に係る音声情報処理方法を実行する装置500のブロック図である。例えば、装置500は、携帯電話、コンピュータ、デジタルブロードキャスト端末、メッセージ送受信機器、ゲームコンソール、タブレット端末、医療機器、フィットネス機器、個人向け携帯型情報端末機器(PDA)などであってもよい。
図5を参照すると、装置500は、処理ユニット502、メモリ504、電源ユニット506、マルチメディアユニット508、オーディオユニット510、入出力(I/O)インタフェース512、センサーユニット514、及び通信ユニット516を含む群から選ばれる少なくとも1つを備えてもよい。
処理ユニット502は、一般的には、装置500の全体の処理、例えば、表示、電話呼び出し、データ通信、撮影処理及び記録処理に関連する処理を制御する。処理ユニット502は、上述した音声情報処理方法に含まれるステップの一部又は全部を実行できるように、命令を実行する少なくとも1つのプロセッサ520を備えてもよい。また、処理ユニット502は、他のユニットとのインタラクションを実現するように、少なくとも1つのモジュールを備えてもよい。例えば、処理ユニット502は、マルチメディアユニット508とのインタラクションを実現するように、マルチメディアモジュールを備えてもよい。
メモリ504は、装置500の処理をサポートするように、各種のデータを記憶するように構成される。これらのデータは、例えば、装置500において任意のアプリケーション又は方法を実行するための命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ504は、任意の種類の揮発性又は不揮発性メモリ、例えば、SRAM(Static Random Access Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、EPROM(Erasable Programmable Read Only Memory)、PROM(Programmable ROM)、ROM(Read Only Member)、磁気メモリ、フラッシュメモリ、磁気ディスク、若しくは光ディスクにより、又は、これらの組み合わせにより実現することができる。
電源ユニット506は、装置500の各種ユニットに電力を供給するためのものであり、電源管理システム、1以上の電源、及び装置500のために電力を生成、管理及び分配する他のユニットを備えてもよい。
マルチメディアユニット508は、装置500とユーザとの間に出力インタフェースを提供するスクリーンを備えてもよい。一実施例では、スクリーンは、例えば、液晶ディスプレイ(LCD)やタッチパネル(TP)とすることができる。スクリーンとしてタッチパネルを採用する場合、ユーザからの入力信号を受信するタッチスクリーンとなり得る。また、タッチパネルは、タッチやスライド、タッチパネル上の動作を感知するように、少なくとも1つのタッチセンサーを有する。タッチセンサーは、タッチやスライド動作の境界を検出するだけではなく、タッチやスライド操作と関連する持続時間や圧力も検出できる。一実施例では、マルチメディアユニット508は、フロントカメラ及び/又はバックカメラを有してもよい。装置500が、例えば、撮影モードやビデオモードのような操作モードの場合、フロントカメラ及び/又はバックカメラが、外部からマルチメディアデータを受信できる。フロントカメラ及びバックカメラのそれぞれは、固定の光学レンズ系であってもよく、焦点距離及び光学ズーム機能を有するものであってもよい。
オーディオユニット510は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオユニット510は、マイクロフォン(MIC)を備えてもよい。装置500が、例えば、呼び出しモード、記録モード、又は音声認識モードのような操作モードの場合、マイクロフォンは、外部からオーディオ信号を受信するように配置される。また、受信したオーディオ信号は、メモリ504に記憶してもよく、通信ユニット516を介して送信してもよい。一実施例では、オーディオユニット510は、オーディオ信号を出力するためのスピーカをさらに備えてもよい。
I/Oインタフェース512は、処理ユニット502と外部のインタフェースモジュールとの間のインタフェースを提供するためのものである。上記外部のインタフェースモジュールは、キーボードやクリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタンや音量ボタン、スタートボタン、ロックボタンであってもよいが、これらに限らない。
センサーユニット514は、装置500の様々な状態を評価する少なくとも1つのセンサーを備えてもよい。例えば、センサーユニット514は、装置500のオン/オフ状態や、ユニットの相対的な位置を検出することができる。例えば、ユニットは、装置500のディスプレイ及びキーパッドである。センサーユニット514は、装置500又は装置500の1つのユニットの位置の変化、ユーザによる装置500への接触の有無、装置500の向き又は加減速、装置500の温度変化などを検出することができる。センサーユニット514は、物理的な接触がなくても付近の物体を検出するように構成される近接センサーを有してもよい。センサーユニット514は、イメージングアプリケーションに使用される光センサー、例えば、CMOS又はCCD画像センサーを有してもよい。一実施例では、当該センサーユニット514は、加速度センサー、ジャイロスコープセンサー、磁気センサー、圧力センサー又は温度センサーをさらに備えてもよい。
通信ユニット516は、装置500と他の装置の間との無線又は有線通信を実現するように構成される。装置500は、通信標準に基づく無線ネットワーク、例えば、Wi-Fi、2G、3G、4G、5G、又はこれらの組み合わせを用いてアクセスできる。例示的な一実施例では、通信ユニット516は、ブロードキャストチャンネルを介して、外部のブロードキャスト管理システムからブロードキャスト信号又はブロードキャストに関する情報を受信する。例示的な一実施例では、通信ユニット516は、近距離通信を実現するために近距離無線通信(NFC)モジュールをさらに備えてもよい。例えば、NFCモジュールは、RFID(Radio Frequency IDentification)技術、IrDA(Infrared Data Association)技術、超広帯域無線(UWB:Ultra Wide Band)技術、ブルートゥース(登録商標)(BT:Bluetooth)技術、及び他の技術により実現してもよい。
例示的な実施例では、装置500は、上述した方法を実行するために、1以上の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理デバイス(DSPD:Digital Signal Processing Device)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他の電子機器により実現してもよい。
例示的な実施例では、命令が格納された非一時的コンピュータ読み取り可能な記録媒体、例えば、命令が格納されたメモリ504をさらに提供する。この命令は、装置500のプロセッサ520により実行され、上述した声情報処理方法を実現する。例えば、非一時的コンピュータ読み取り可能な記録媒体は、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク及び光データメモリなどであってもよい。
図6は、例示的な一実施例に係る音声情報処理方法を実行する装置600のブロック図である。例えば、装置600は、サーバとして提供されてもよい。図6を参照すると、装置600は、1以上のプロセッサがさらに含まれた処理ユニット622と、処理ユニット622により実行可能な命令、例えばプログラムを記憶するメモリ632を代表とするメモリリソースとを含む。メモリ632に記憶されたアプリケーションプログラムは、それぞれが一組の命令に対応する1以上のモジュールを含んでもよい。また、上記の音声情報処理方法を実行するために、処理ユニット622は命令を実行するように構成される。
装置600は、装置600の電源管理を実行するように配置された電源ユニット626と、装置600をインターネットに接続させるように配置された有線又は無線インターネットインタフェース650と、入出力(I/O)インタフェース658とを備えてもよい。装置600は、メモリ632に記憶されたオペレーティングシステム、例えば、Windows Server(登録商標)、Mac OS X(登録商標)、Unix(登録商標)、 Linux(登録商標)、FreeBSD(登録商標)などに基づいて動作することができる。
当業者は、明細書に対する理解、及び明細書に記載された本開示に対する実施に基づいて、本開示の他の実施形態を容易に相当することができる。本願は、本開示に対する様々な変形、用途、又は適応的な変更を含み、このような変形、用途、又は適応的な変更は、本開示の一般的な原理に従い、本開示では開示していない本技術分野の公知の知識、又は通常の技術手段を含む。明細書及び実施例は、単に例示的なものであって、本開示の範囲と主旨は、以下の特許請求の範囲により示される。
本開示は、上述し、図面で図示した特定の構成に限定されず、その範囲を離脱しないよう、様々な修正や変更を加えてもよい。本開示の範囲は、添付される特許請求の範囲のみにより限定される。
本開示は、情報技術分野に関し、特に、音声情報処理方法、装置、プログラム及び記録媒体に関する。
情報技術の急速な発展に伴い、音声認識(Automatic Speech Recognition、ASR)技術が急速に発展している。音声認識は、コンピュータにより音声をテキストに自動的に変換する総合的な応用技術であり、信号処理、パターン認識、機械学習、数値解析、自然言語処理、高性能計算などの一連の基礎研究の優れた成果を統合した、複数の分野や学科に跨る応用研究であり、言語学習などの分野に広く利用されている。
関連技術における音声認識技術は、通常、統計的パターン認識アルゴリズムにより収集された音声情報を認識する。しかしながら、言語学習などの分野については、英語などの言語に多数の同音異義語や発音が紛らわしいものがあるため、関連技術における音声認識技術によってこれらの単語を正確に認識することは困難である。
関連技術に存在する問題を解決するために、本開示は、音声情報処理方法、装置、プログラム及び記録媒体を提供する。
本開示の実施例の第1の態様によれば、音声情報処理方法を提供し、この方法は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定するステップであって、テキスト情報が単語を含むステップと、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップであって、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むステップと、
対象単語及び対象単語に対応するファジー単語を出力するステップと、を含む。
代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するステップを含む。
代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、対象単語に対応するファジー単語として選択するステップを含み、
条件は、
対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。
代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するステップを含む。
代替的に、対象単語及び対象単語に対応するファジー単語を出力するステップは、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするステップと、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するステップと、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するステップと、を含む。
本開示の実施例の第2の態様によれば、音声情報処理装置を提供し、装置は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むように構成される第1決定モジュールと、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第2決定モジュールと、
対象単語及び対象単語に対応するファジー単語を出力するように構成される出力モジュールと、を含む。
代替的に、第2決定モジュールは、発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第1選択サブモジュールを含む。
代替的に、第2決定モジュールは、
対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を対象単語に対応するファジー単語として選択するように構成される第2選択サブモジュールを含み、
条件は、
対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。
代替的に、第2決定モジュールは、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するように構成される第3選択サブモジュールを含む。
代替的に、出力モジュールは、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュールと、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するように構成される第1出力サブモジュールと、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するように構成される第2出力サブモジュールと、を含む。
本開示の実施例の第3の態様によれば、音声情報処理装置を提供し、音声情報処理装置は、
プロセッサと
プロセッサで実行可能な命令を記憶するためのメモリと、
を備え、
プロセッサは、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含み、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスとを含み、
対象単語及び対象単語に対応するファジー単語を出力するように構成される。
本開示の実施例の第4の態様によれば、プロセッサによって実行されることにより上記方法を実行するためのプログラムが記録された記録媒体が提供される。
本開示の実施例の第5の態様によれば、プロセッサによって実行されることにより、上記方法を実行するプログラムが提供される。
本発明が提供する技術によれば、下記のような有益な効果を奏することができる。音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、且つ、ユーザが選択できるように、対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
なお、一般的な記載及び後述の詳細な記載は、単なる例示的な記載であり、本発明はこれに対し限定されるものではない。
以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本開示に該当する実施例を例示するとともに、明細書とともに本発明の原理を説明する。
例示的な一実施例に係る実施環境の模式図である。 例示的な一実施例に係る音声情報処理方法のフローチャートである。 例示的な一実施例に係る音声情報処理装置のブロック図である。 他の例示的な実施例に係る音声情報処理装置のブロック図である。 例示的な一実施例に係る音声情報処理方法を実行する装置のブロック図である。 他の例示的な実施例に係る音声情報処理方法を実行する装置のブロック図。
以下、例示的な実施例を詳しく説明し、その例示を図面に示す。図面に関する以下の記載は、特に別の説明がない限り、異なる図面における同一符号は、同じ又は類似する要素を示す。以下の例示的な実施例に記載の実施形態は、本開示と一致する全ての実施形態を代表するものではない。逆に、それらは、添付の特許請求の範囲に記載されているように、本開示の一部の側面に相当する装置及び方法の例に過ぎない。
なお、本開示の明細書、特許請求の範囲及び上記の図面における「第1」や「第2」など用語は、類似する対象を区別するためのものであり、特定の順序又は先後関係を説明するものではない。
本開示の実施形態により提供される音声情報処理方法を説明する前に、まず、本開示の実施形態に係る実装環境について説明する。図1は、本開示の実施例に係る実施環境の模式図である。図1に示すように、本開示の実施例に係る実施環境は、ユーザ端末10とサーバ20とを含む。また、ユーザ端末10は、サーバ20と通信可能に接続される。ユーザ端末10は、その内蔵の音声収集装置(例えばマイクロフォン)により、ユーザが入力した音声情報を収集し、収集された音声情報をサーバ20に送信する。サーバ20は、収集された音声情報を処理して音声情報に対応するテキスト情報と、テキスト情報に含まれる単語に対応するファジー単語を決定し、その後、テキスト情報に含まれる単語及び当該単語に対応するファジー単語をユーザ端末10に送信する。ユーザ端末10は、ユーザが選択できるように、サーバからフィードバックされた単語及びそれに対応するファジー単語を表示することができる。
なお、この実施環境では、様々な有線又は無線技術を用いてユーザ端末10とサーバ20との間の通信接続を確立することができる。例えば、接続方式には、ブルートゥース(登録商標)、Wi-Fi(登録商標)(Wireless-Fidelity、ワイファイ)、2Gネットワーク、3Gネットワーク、4Gネットワークなどが含まれるが、これらに限定されない。ユーザ端末10は、例えば、スマートフォン、タブレット、PDA(Personal Digital Assistant、個人向け携帯型情報端末機器)、スマートウェアラブルデバイスなどであってもよい。サーバ20は、音声情報処理機能を提供可能な任意のデバイスであってもよい。
なお、本開示の実施例により提供される音声情報処理方法は、ユーザ端末10のローカルで実行されてもよい。具体的には、ユーザ端末10は、その内蔵の音声収集装置(例えばマイクロフォン)により音声情報を収集し、収集された音声情報を処理して、音声情報に対応するテキスト情報と、テキスト情報に含まれる単語に対応するファジー単語を決定する。その後、ユーザが選択できるように、その表示装置(例えば表示画面)により、テキスト情報に含まれる単語及び当該単語に対応するファジー単語を出力して表示させることができる。
図1に示す実施環境において、本開示の実施例は、音声情報処理方法を提供する。この方法は、図1に示すユーザ端末10又はサーバ20によって実行される。図2を参照すると、図2は、例示的な一実施例に係る音声情報処理方法のフローチャートを示しており、この方法は、以下のステップを含む。
ステップS201において、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定する。ここで、テキスト情報には、単語が含まれる。
具体的に実施する場合、まず、収集された音声情報に対してノイズ低減、フレーミング処理、プリエンファシス及びウィンドウ処理などの前処理を行う。そして、処理後の音声情報に対して特徴抽出を行い、その後、抽出された特徴を、予め用意した音声認識モデルに入力し、対応するテキスト情報を取得することができる。ここで、この音声認識モデルは、大量の音声情報と。それらに対応するテキストを用いて学習させることで得られる。例示的に、隠れマルコフモデル(Hidden Markov Model、HMM)やニューラルネットワークモデル(Neural Network、NN)であってもよく、本開示の実施例は、これらに限定しない。
なお、収集された音声情報に対して前処理及び特徴抽出を行う具体的な態様は、本技術分野で公知であるため、本開示の実施例において詳細な説明は省略する。
また、本技術分野で公知の他の音声認識技術を用いて収集された音声情報を処理して、音声情報に対応するテキスト情報を決定することもできる。本開示の実施例は、これに限定しない。
ステップS202において、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定する。ここで、発音辞書には、複数の単語と各単語に対応する音素シーケンスが含まれる。
本開示の実施例において、音素は、音声の最小単位であり、音素シーケンスは、複数の音素を統合した順序付きシーケンスである。発音辞書を検索することにより、対象単語に対応する音素シーケンスを決定することができる。例えば、単語が「bad」である場合、対応する音素シーケンスは、/b/、/ash(aとeの中間音に相当する発音記号)/、/d/の3つの音素を含む。具体的に実施する場合、複数の言語の発音辞書を予め用意し、収集された音声に対応する言語を用いて、その言語に対応する発音辞書を選択することができる。例えば、音声に対応する言語が英語である場合、英語の発音辞書を選択する。
具体的に実施する場合、英語などの言語において、同音異義語の区別が難しい場合、区別しにくい音素(例えば/ash(aとeの中間音に相当する発音記号)/及び/e/)を含む単語が紛らわしい場合(例えばbite及びbuy)、最初又は最後の音素が無声子音である単語が他の単語と紛らわしい場合などを考慮すると、ステップS201は、以下の3つの代替的な実施形態のうちの少なくとも1つにより実現してもよい。
実施形態1、同音異義語について
同音異義語に対応する音素シーケンスが同一であるため、具体的に実施する場合、発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択する。例えば、対象単語がtwoである場合、その音声記号は/tu:/であり、対応する音素シーケンスは/t/、/u:/であり、対応する発音辞書から音素シーケンスが同一の単語tooを、対象単語twoのファジー単語として選択する。同様に、対象単語がbeである場合、対応する発音辞書から音素シーケンスが対象単語beの音素シーケンス(/b/、/i:/)と同一である単語beeを、この対象単語beのファジー単語として選択する。
実施形態2、区別しにくい音素を含む単語について
具体的に、対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、対象単語に対応するファジー単語として選択する。この条件は、(1)対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける、この第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、(2)この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。ここで、第1の既定のタイプの音素は、実際の需要に応じてユーザ又はメーカによって設定されてもよい。例えば/ash(aとeの中間音に相当する発音記号)/、/e/、/a:/などの区別しにくい音素を含むことができるが、これらに限定されない。
例えば、対象単語がbedである場合、それに対応する音声記号は/bed/であり、対応する音素シーケンスは、/b/、/e/、/d/であり、第1の既定のタイプの音素/e/を含む。そのため、発音辞書の単語から単語bad(対応する音素シーケンスが/b/、/ash(aとeの中間音に相当する発音記号)/、/d/である)を、この対象単語bedのファジー単語として選択することができる。
実施形態3、対応する最初又は最後の音素が無声子音である単語について
このような場合、音声情報を認識する際に、この単語の無声子音の音素が無視され、認識結果が不正確になるおそれがある。例えば、単語biteが単語buyとして誤って認識され易い。そのため、対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれるこの第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスが、この新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択する。ここで、第2の既定のタイプの音素は、実際の需要に応じてユーザ又はメーカによって設定されてもよく、第2の既定のタイプの音素は、例えば/p/、/t/、/k/、/s/、/f/などの無声子音の音素を含むことができるが、これらに限定されない。
例えば、対象単語がbiteである場合、それに対応する音声記号は/bait/であり、対応する音素シーケンスは/b/、/ai/、/t/であり、その最後の音素は、第2の既定のタイプの音素であり、音素/t/以外の音素を新たな音素シーケンス/b/、/ai/として統合し、発音辞書からこの新たな音素シーケンスと同一の単語buyを、対象単語biteに対応するファジー単語として選択する。
ステップS203において、対象単語及び対象単語に対応するファジー単語を出力する。
代替的な一実施形態において、対象単語及び対象単語に対応する全てのファジー単語を出力することができる。
他の代替的な実施形態において、対象単語が大量のファジー単語に対応する可能性があることを考慮すると、ユーザが選択できるように全てのファジー単語を出力する場合、ユーザ体験に影響を与える可能性がある。そのため、既定の優先度に応じて対象単語に対応するファジー単語を順位付けすることができる。対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力する。対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて、対象単語及び対象単語に対応する全てのファジー単語を出力する。例えば、既定の優先度が高いものから順に、対象単語に対応する全てのファジー単語を降順で順位付けしてもよい。ファジー単語の数が既定の数Nより大きい場合、順位付け結果に応じて、最初からN位までのファジー単語を選別して、対象単語及びこのN個のファジー単語を出力表示する。代替的に、既定の優先度が低いものから順に、対象単語に対応する全てのファジー単語を昇順で順位付けしてもよい。ファジー単語の数が既定の数Nより大きい場合、順位付け結果に応じて、最後からN位までのファジー単語を選別して、対象単語及びこのN個のファジー単語を出力表示する。
ここで、既定の数と既定の優先度は、実際の需要に応じてユーザ又はメーカによって設定されてもよい。既定の数は、例えば10~20の任意の整数であってもよい。既定の優先度は、例えば(1)上記の第1実施形態により決定されたファジー単語(即ち、対象単語の発音と同一のファジー単語)>他の実施形態により決定されたファジー単語、(2)上記の第2実施形態により決定されたファジー単語に関し、音素/e/を含む対象単語について、音素/ash(aとeの中間音に相当する発音記号)/を含むファジー単語>音素/a:/を含むファジー単語、(3)日常生活において使用頻度が高いファジー単語>日常生活において使用頻度が低いファジー単語などとすることができる。
なお、上記の実施例に記載の音声情報処理方法がユーザ端末によって実行される場合、ユーザ端末の処理ユニットは、ユーザがこれらの単語から正しい単語を選択できるように、対象単語及び対象単語に対応するファジー単語を、ユーザ端末の表示装置(例えば表示画面)に出力して表示させることができる。上記の実施例に記載の音声情報処理方法がサーバによって実行される場合、サーバは、対象単語及び対象単語に対応するファジー単語を、サーバと通信可能に接続されたユーザ端末に送信し、ユーザ端末は、ユーザがこれらの単語から正しい単語を選択できるように、対象単語及び当該対象単語に対応するファジー単語を表示する。
上記の音声認識方法によれば、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、ユーザが選択できるように対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという、従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
本開示の実施例は、図1に示すユーザ端末10又はサーバ20に適用可能な情報処理装置をさらに提供する。図3を参照すると、図3は、例示的な一実施例に係る音声情報処理装置のブロック図であり、この装置300は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むように構成される第1決定モジュール301と、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第2決定モジュール302と、
対象単語及び対象単語に対応するファジー単語を出力するように構成される出力モジュール303と、を含む。
代替的に、図4に示すように、第2決定モジュール302は、
発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第1選択サブモジュール321を含む。
代替的に、図4に示すように、第2決定モジュール302は、
対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を対象単語に対応するファジー単語として選択するように構成される第2選択サブモジュール322を含む。
条件は、対応する音素シーケンスは、第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第1の既定のタイプの音素の位置は、基準シーケンスにおける第1の既定のタイプの音素の位置と同じであり、この音素シーケンスに含まれる第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、基準シーケンスにおける第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である。
代替的に、図4に示すように、第2決定モジュール302は、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第3選択サブモジュール323を含む。
代替的に、図4に示すように、出力モジュール303は、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュール331と、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するように構成される第1出力サブモジュール332と、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するように構成される第2出力サブモジュール333と、を含む。
上記の実施例における装置に関して、各モジュールが実行する処理の具体的な内容については、当該方法に関する実施例において詳細に説明したため、ここで詳細に説明しない。
また、説明を簡潔にするために、簡単な上記の機能モジュールの構成を例にして説明したが、実際の応用では、上記の機能は、必要に応じて異なる機能モジュールによって実現してもよく、つまり、装置の内部構造を異なる機能モジュールに分割して、上記の機能の全部又は一部を実現可能であることを、当業者であれば明確に知ることができる。
上記の音声認識装置によれば、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、ユーザが選択できるように対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという、従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
本開示は、コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体をさらに提供し、コンピュータプログラム命令がプロセッサにより実行される場合、本開示により提供される音声情報処理方法に含まれるステップが実行される。
本開示は、音声情報処理装置をさらに提供し、装置は、プロセッサと、プロセッサで実行可能な命令を記憶するためのメモリと、を備える。ここで、プロセッサは、本開示により提供される音声情報処理方法に含まれるステップを実行するように構成される。
図5は、例示的な一実施例に係る音声情報処理方法を実行する装置500のブロック図である。例えば、装置500は、携帯電話、コンピュータ、デジタルブロードキャスト端末、メッセージ送受信機器、ゲームコンソール、タブレット端末、医療機器、フィットネス機器、個人向け携帯型情報端末機器(PDA)などであってもよい。
図5を参照すると、装置500は、処理ユニット502、メモリ504、電源ユニット506、マルチメディアユニット508、オーディオユニット510、入出力(I/O)インタフェース512、センサーユニット514、及び通信ユニット516を含む群から選ばれる少なくとも1つを備えてもよい。
処理ユニット502は、一般的には、装置500の全体の処理、例えば、表示、電話呼び出し、データ通信、撮影処理及び記録処理に関連する処理を制御する。処理ユニット502は、上述した音声情報処理方法に含まれるステップの一部又は全部を実行できるように、命令を実行する少なくとも1つのプロセッサ520を備えてもよい。また、処理ユニット502は、他のユニットとのインタラクションを実現するように、少なくとも1つのモジュールを備えてもよい。例えば、処理ユニット502は、マルチメディアユニット508とのインタラクションを実現するように、マルチメディアモジュールを備えてもよい。
メモリ504は、装置500の処理をサポートするように、各種のデータを記憶するように構成される。これらのデータは、例えば、装置500において任意のアプリケーション又は方法を実行するための命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ504は、任意の種類の揮発性又は不揮発性メモリ、例えば、SRAM(Static Random Access Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、EPROM(Erasable Programmable Read Only Memory)、PROM(Programmable ROM)、ROM(Read Only Member)、磁気メモリ、フラッシュメモリ、磁気ディスク、若しくは光ディスクにより、又は、これらの組み合わせにより実現することができる。
電源ユニット506は、装置500の各種ユニットに電力を供給するためのものであり、電源管理システム、1以上の電源、及び装置500のために電力を生成、管理及び分配する他のユニットを備えてもよい。
マルチメディアユニット508は、装置500とユーザとの間に出力インタフェースを提供するスクリーンを備えてもよい。一実施例では、スクリーンは、例えば、液晶ディスプレイ(LCD)やタッチパネル(TP)とすることができる。スクリーンとしてタッチパネルを採用する場合、ユーザからの入力信号を受信するタッチスクリーンとなり得る。また、タッチパネルは、タッチやスライド、タッチパネル上の動作を感知するように、少なくとも1つのタッチセンサーを有する。タッチセンサーは、タッチやスライド動作の境界を検出するだけではなく、タッチやスライド操作と関連する持続時間や圧力も検出できる。一実施例では、マルチメディアユニット508は、フロントカメラ及び/又はバックカメラを有してもよい。装置500が、例えば、撮影モードやビデオモードのような操作モードの場合、フロントカメラ及び/又はバックカメラが、外部からマルチメディアデータを受信できる。フロントカメラ及びバックカメラのそれぞれは、固定の光学レンズ系であってもよく、焦点距離及び光学ズーム機能を有するものであってもよい。
オーディオユニット510は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオユニット510は、マイクロフォン(MIC)を備えてもよい。装置500が、例えば、呼び出しモード、記録モード、又は音声認識モードのような操作モードの場合、マイクロフォンは、外部からオーディオ信号を受信するように配置される。また、受信したオーディオ信号は、メモリ504に記憶してもよく、通信ユニット516を介して送信してもよい。一実施例では、オーディオユニット510は、オーディオ信号を出力するためのスピーカをさらに備えてもよい。
I/Oインタフェース512は、処理ユニット502と外部のインタフェースモジュールとの間のインタフェースを提供するためのものである。上記外部のインタフェースモジュールは、キーボードやクリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタンや音量ボタン、スタートボタン、ロックボタンであってもよいが、これらに限らない。
センサーユニット514は、装置500の様々な状態を評価する少なくとも1つのセンサーを備えてもよい。例えば、センサーユニット514は、装置500のオン/オフ状態や、ユニットの相対的な位置を検出することができる。例えば、ユニットは、装置500のディスプレイ及びキーパッドである。センサーユニット514は、装置500又は装置500の1つのユニットの位置の変化、ユーザによる装置500への接触の有無、装置500の向き又は加減速、装置500の温度変化などを検出することができる。センサーユニット514は、物理的な接触がなくても付近の物体を検出するように構成される近接センサーを有してもよい。センサーユニット514は、イメージングアプリケーションに使用される光センサー、例えば、CMOS又はCCD画像センサーを有してもよい。一実施例では、当該センサーユニット514は、加速度センサー、ジャイロスコープセンサー、磁気センサー、圧力センサー又は温度センサーをさらに備えてもよい。
通信ユニット516は、装置500と他の装置の間との無線又は有線通信を実現するように構成される。装置500は、通信標準に基づく無線ネットワーク、例えば、Wi-Fi、2G、3G、4G、5G、又はこれらの組み合わせを用いてアクセスできる。例示的な一実施例では、通信ユニット516は、ブロードキャストチャンネルを介して、外部のブロードキャスト管理システムからブロードキャスト信号又はブロードキャストに関する情報を受信する。例示的な一実施例では、通信ユニット516は、近距離通信を実現するために近距離無線通信(NFC)モジュールをさらに備えてもよい。例えば、NFCモジュールは、RFID(Radio Frequency IDentification)技術、IrDA(Infrared Data Association)技術、超広帯域無線(UWB:Ultra Wide Band)技術、ブルートゥース(登録商標)(BT:Bluetooth)技術、及び他の技術により実現してもよい。
例示的な実施例では、装置500は、上述した方法を実行するために、1以上の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理デバイス(DSPD:Digital Signal Processing Device)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他の電子機器により実現してもよい。
例示的な実施例では、命令が格納された非一時的コンピュータ読み取り可能な記録媒体、例えば、命令が格納されたメモリ504をさらに提供する。この命令は、装置500のプロセッサ520により実行され、上述した声情報処理方法を実現する。例えば、非一時的コンピュータ読み取り可能な記録媒体は、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク及び光データメモリなどであってもよい。
図6は、例示的な一実施例に係る音声情報処理方法を実行する装置600のブロック図である。例えば、装置600は、サーバとして提供されてもよい。図6を参照すると、装置600は、1以上のプロセッサがさらに含まれた処理ユニット622と、処理ユニット622により実行可能な命令、例えばプログラムを記憶するメモリ632を代表とするメモリリソースとを含む。メモリ632に記憶されたアプリケーションプログラムは、それぞれが一組の命令に対応する1以上のモジュールを含んでもよい。また、上記の音声情報処理方法を実行するために、処理ユニット622は命令を実行するように構成される。
装置600は、装置600の電源管理を実行するように配置された電源ユニット626と、装置600をインターネットに接続させるように配置された有線又は無線インターネットインタフェース650と、入出力(I/O)インタフェース658とを備えてもよい。装置600は、メモリ632に記憶されたオペレーティングシステム、例えば、Windows Server(登録商標)、Mac OS X(登録商標)、Unix(登録商標)、 Linux(登録商標)、FreeBSD(登録商標)などに基づいて動作することができる。
当業者は、明細書に対する理解、及び明細書に記載された本開示に対する実施に基づいて、本開示の他の実施形態を容易に相当することができる。本願は、本開示に対する様々な変形、用途、又は適応的な変更を含み、このような変形、用途、又は適応的な変更は、本開示の一般的な原理に従い、本開示では開示していない本技術分野の公知の知識、又は通常の技術手段を含む。明細書及び実施例は、単に例示的なものであって、本開示の範囲と主旨は、以下の特許請求の範囲により示される。
本開示は、上述し、図面で図示した特定の構成に限定されず、その範囲を離脱しないよう、様々な修正や変更を加えてもよい。本開示の範囲は、添付される特許請求の範囲のみにより限定される。

Claims (12)

  1. 音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定するステップであって、前記テキスト情報が単語を含む、ステップと、
    前記テキスト情報に含まれる単語を対象単語とし、前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップであって、前記発音辞書が複数の単語と各単語に対応する音素シーケンスを含む、ステップと、
    前記対象単語及び前記対象単語に対応するファジー単語を出力するステップと、
    を含むことを特徴とする音声情報処理方法。
  2. 前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップは、
    前記発音辞書の単語から、対応する音素シーケンスが前記対象単語に対応する音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するステップを含む
    ことを特徴とする請求項1に記載の音声情報処理方法。
  3. 前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップは、
    前記対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、前記対象単語に対応する音素シーケンスを基準シーケンスとし、前記発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、前記対象単語に対応するファジー単語として選択するステップを含み、
    前記条件は、
    対応する音素シーケンスは、前記第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける前記第1の既定のタイプの音素の位置は、前記基準シーケンスにおける前記第1の既定のタイプの音素の位置と同じであり、
    この音素シーケンスに含まれる前記第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、前記基準シーケンスにおける前記第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である
    ことを特徴とする請求項1に記載の音声情報処理方法。
  4. 前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップは、
    前記対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる前記第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、前記発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するステップを含む
    ことを特徴とする請求項1に記載の音声情報処理方法。
  5. 前記対象単語及び前記対象単語に対応するファジー単語を出力するステップは、
    既定の優先度に応じて前記対象単語に対応するファジー単語を順位付けするステップと、
    前記対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて前記対象単語に対応する全てのファジー単語から前記既定の数のファジー単語を選別し、前記対象単語及び選別されたファジー単語を出力するステップと、
    前記対象単語に対応するファジー単語の数が前記既定の数以下である場合、前記順位付け結果に応じて前記対象単語及び前記対象単語に対応する全てのファジー単語を出力するステップと、
    を含むことを特徴とする請求項1から請求項4のいずれか1項に記載の音声情報処理方法。
  6. 音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、前記テキスト情報が単語を含むように構成される第1決定モジュールと、
    前記テキスト情報に含まれる単語を対象単語とし、前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定し、前記発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第2決定モジュールと、
    前記対象単語及び前記対象単語に対応するファジー単語を出力するように構成される出力モジュールと、
    を含むことを特徴とする音声情報処理装置。
  7. 前記第2決定モジュールは、
    前記発音辞書の単語から、対応する音素シーケンスが前記対象単語に対応する音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するように構成される第1選択サブモジュールを含む
    ことを特徴とする請求項6に記載の音声情報処理装置。
  8. 前記第2決定モジュールは、
    前記対象単語に対応する音素シーケンスが第1の既定のタイプの音素を含む場合、前記対象単語に対応する音素シーケンスを基準シーケンスとし、前記発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、前記対象単語に対応するファジー単語として選択するように構成される第2選択サブモジュールを含み、
    前記条件は、
    対応する音素シーケンスは、前記第1の既定のタイプの音素を含み、且つ、この音素シーケンスにおける前記第1の既定のタイプの音素の位置は、前記基準シーケンスにおける前記第1の既定のタイプの音素の位置と同じであり、
    この音素シーケンスに含まれる前記第1の既定のタイプの音素以外の音素からなる第1音素シーケンスは、前記基準シーケンスにおける前記第1の既定のタイプの音素以外の音素からなる第2音素シーケンスと同一である
    ことを特徴とする請求項6に記載の音声情報処理装置。
  9. 前記第2決定モジュールは、
    前記対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第2の既定のタイプの音素である場合、この音素シーケンスに含まれる前記第2の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、前記発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するように構成される第3選択サブモジュールを含む
    ことを特徴とする請求項6に記載の音声情報処理装置。
  10. 前記出力モジュールは、
    既定の優先度に応じて前記対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュールと、
    前記対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて前記対象単語に対応する全てのファジー単語から前記既定の数のファジー単語を選別し、前記対象単語及び選別されたファジー単語を出力するように構成される第1出力サブモジュールと、
    前記対象単語に対応するファジー単語の数が前記既定の数以下である場合、前記順位付け結果に応じて前記対象単語及び前記対象単語に対応する全てのファジー単語を出力するように構成される第2出力サブモジュールと、
    を含むことを特徴とする請求項6から請求項9のいずれか1項に記載の音声情報処理装置。
  11. プロセッサと、
    前記プロセッサで実行可能な命令を記憶するためのメモリと、
    を備え、
    前記プロセッサは、
    音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、前記テキスト情報が単語を含み、
    前記テキスト情報に含まれる単語を対象単語とし、前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定し、前記発音辞書が複数の単語と各単語に対応する音素シーケンスとを含み、
    前記対象単語及び前記対象単語に対応するファジー単語を出力するように構成される
    ことを特徴とする音声情報処理装置。
  12. コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、請求項1から請求項5のいずれか1項に記載の音声情報処理方法に含まれるステップが実行されることを特徴とするコンピュータ読み取り可能な記録媒体。
JP2019562645A 2019-09-09 2019-10-15 音声情報処理方法、装置、プログラム及び記録媒体 Active JP7116088B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910848567.7A CN112562675B (zh) 2019-09-09 2019-09-09 语音信息处理方法、装置及存储介质
CN201910848567.7 2019-09-09
PCT/CN2019/111308 WO2021046958A1 (zh) 2019-09-09 2019-10-15 语音信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2022503255A true JP2022503255A (ja) 2022-01-12
JP7116088B2 JP7116088B2 (ja) 2022-08-09

Family

ID=69157636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019562645A Active JP7116088B2 (ja) 2019-09-09 2019-10-15 音声情報処理方法、装置、プログラム及び記録媒体

Country Status (7)

Country Link
US (1) US11270693B2 (ja)
EP (1) EP3790001B1 (ja)
JP (1) JP7116088B2 (ja)
KR (1) KR102334299B1 (ja)
CN (1) CN112562675B (ja)
RU (1) RU2733816C1 (ja)
WO (1) WO2021046958A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489657A (zh) * 2020-12-04 2021-03-12 宁夏新航信息科技有限公司 一种数据分析***与数据分析方法
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质
CN113409767B (zh) * 2021-05-14 2023-04-25 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113689882A (zh) * 2021-08-24 2021-11-23 上海喜马拉雅科技有限公司 发音评测方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146008A (ja) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology 音声認識装置及び方法ならびにプログラム
JP2013125144A (ja) * 2011-12-14 2013-06-24 Nippon Hoso Kyokai <Nhk> 音声認識装置およびそのプログラム
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和***

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363342B2 (en) 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
KR100318762B1 (ko) * 1999-10-01 2002-01-04 윤덕용 외래어 음차표기의 음성적 거리 계산방법
JP2002215184A (ja) * 2001-01-19 2002-07-31 Casio Comput Co Ltd 音声認識装置、及びプログラム
US7062436B1 (en) * 2003-02-11 2006-06-13 Microsoft Corporation Word-specific acoustic models in a speech recognition system
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
CN201054644Y (zh) * 2006-07-25 2008-04-30 陈修志 具有语音识别及翻译功能的移动终端
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
US9135912B1 (en) 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9293129B2 (en) * 2013-03-05 2016-03-22 Microsoft Technology Licensing, Llc Speech recognition assisted evaluation on text-to-speech pronunciation issue detection
US9196246B2 (en) * 2013-06-14 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Determining word sequence constraints for low cognitive speech recognition
CN103677729B (zh) * 2013-12-18 2017-02-08 北京搜狗科技发展有限公司 一种语音输入方法和***
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN105243143B (zh) * 2015-10-14 2018-07-24 湖南大学 基于即时语音内容检测的推荐方法及***
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及***
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及***
US10839159B2 (en) * 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109493846B (zh) * 2018-11-18 2021-06-08 深圳市声希科技有限公司 一种英语口音识别***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146008A (ja) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology 音声認識装置及び方法ならびにプログラム
JP2013125144A (ja) * 2011-12-14 2013-06-24 Nippon Hoso Kyokai <Nhk> 音声認識装置およびそのプログラム
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和***

Also Published As

Publication number Publication date
US11270693B2 (en) 2022-03-08
EP3790001A1 (en) 2021-03-10
KR20210032875A (ko) 2021-03-25
EP3790001B1 (en) 2023-07-12
CN112562675B (zh) 2024-05-24
WO2021046958A1 (zh) 2021-03-18
CN112562675A (zh) 2021-03-26
JP7116088B2 (ja) 2022-08-09
KR102334299B1 (ko) 2021-12-06
RU2733816C1 (ru) 2020-10-07
US20210074273A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
CN107632980B (zh) 语音翻译方法和装置、用于语音翻译的装置
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
KR102081925B1 (ko) 디스플레이 디바이스 및 스피치 검색 방법
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
EP3896598A1 (en) Method deciding whether to reject audio for processing and corresponding device and storage medium
CN111145756B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN107274903B (zh) 文本处理方法和装置、用于文本处理的装置
CN111368541B (zh) 命名实体识别方法及装置
CN107564526B (zh) 处理方法、装置和机器可读介质
EP3767488A1 (en) Method and device for processing untagged data, and storage medium
CN109582768B (zh) 一种文本输入方法和装置
CN108628819B (zh) 处理方法和装置、用于处理的装置
CN110069143B (zh) 一种信息防误纠方法、装置和电子设备
CN114154459A (zh) 语音识别文本处理方法、装置、电子设备及存储介质
CN111640452B (zh) 一种数据处理方法、装置和用于数据处理的装置
WO2021208531A1 (zh) 一种语音处理方法、装置和电子设备
CN105913841B (zh) 语音识别方法、装置及终端
CN112133295A (zh) 语音识别方法、装置及存储介质
CN111667829B (zh) 信息处理方法及装置、存储介质
CN113591495A (zh) 语音翻译方法、装置及存储介质
CN113035189A (zh) 一种文档演示的控制方法、装置和设备
CN113807082B (zh) 一种目标用户确定方法、装置和用于确定目标用户的装置
CN113539233B (zh) 一种语音处理方法、装置和电子设备
US20230196001A1 (en) Sentence conversion techniques
CN112668340B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220728

R150 Certificate of patent or registration of utility model

Ref document number: 7116088

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150