JP2017211430A - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP2017211430A
JP2017211430A JP2016102755A JP2016102755A JP2017211430A JP 2017211430 A JP2017211430 A JP 2017211430A JP 2016102755 A JP2016102755 A JP 2016102755A JP 2016102755 A JP2016102755 A JP 2016102755A JP 2017211430 A JP2017211430 A JP 2017211430A
Authority
JP
Japan
Prior art keywords
information
calibration
proofreading
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016102755A
Other languages
English (en)
Inventor
早紀 横山
Saki Yokoyama
早紀 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2016102755A priority Critical patent/JP2017211430A/ja
Priority to EP17802366.9A priority patent/EP3467820A4/en
Priority to PCT/JP2017/006281 priority patent/WO2017203764A1/ja
Priority to US16/301,058 priority patent/US20190189122A1/en
Publication of JP2017211430A publication Critical patent/JP2017211430A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提供する。
【解決手段】文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置。
【選択図】図1

Description

本開示は、情報処理装置および情報処理方法に関する。
近年、音声によるコマンド入力の技術が発達してきている。音声によるコマンド入力では、例えば音声認識システムにより、ユーザ発話をテキスト認識し、認識したテキストの構文解析を行い、解析結果に従ってコマンドが実行される。このような音声認識システムに関し、例えば下記特許文献1には、音声認識結果をコンテキスト情報を用いて修正する音声認識修正方法が記載されている。コンテキスト情報には、ユーザ入力の履歴や会話履歴が含まれている。
特開2015−018265号公報
しかしながら、音声により文字入力を行っている場合、文字の削除や訂正、入力する文字の種類の切り替え等は物理的な文字入力インターフェースからの操作が必要であったり、削除や訂正等を音声で行うと音声認識結果としてそのまま文字入力されてしまったりする。
そこで、本開示では、音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提案する。
本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置を提案する。
本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、を備える、情報処理装置を提案する。
本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を送信することと、前記校正指令と校正ターゲットに基づく解析結果を受信することと、を含む、情報処理方法を提案する。
本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を受信することと、前記校正指令と校正ターゲットに基づく解析結果を送信することと、を含む、情報処理方法を提案する。
以上説明したように本開示によれば、音声入力による文章校正を実現することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本実施形態による情報処理システムの概要を説明する図である。 本実施形態によるクライアント端末の構成の一例を示すブロック図である。 本実施形態によるサーバの構成の一例を示すブロック図である。 本実施形態による入力する文字の種類の指定を音声で行う場合の具体例を示す図である。 本実施形態による入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。 本実施形態によるユーザ発話と校正情報の分析結果の一例を示す図である。 図6に示すユーザ発話に対する最終出力結果の一例を示す図である。 本実施形態によるユーザ発話とコンテキスト情報を考慮した校正情報の分析結果の一例を示す図である。 図8に示すユーザ発話に対する最終出力結果の一例を示す図である。 本実施形態による情報処理システムの動作処理を示すフローチャートである。 本実施形態による他のシステム構成を示す図である。 本実施形態によるエッジサーバの構成の一例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による情報処理システムの概要
2.構成
2−1.クライアント端末の構成
2−2.サーバの構成
3.動作処理
4.他のシステム構成
5.まとめ
<<1.本開示の一実施形態による情報処理システムの概要>>
まず、本開示の一実施形態による情報処理システムの概要について説明する。図1は、本実施形態による情報処理システムの概要を説明する図である。図1に示すように、本実施形態による情報処理システムは、クライアント端末1とサーバ2を含む。クライアント端末1とサーバ2は、例えばネットワーク3を介して接続され、データの送受信を行う。
本実施形態による情報処理システムは、音声による文字入力を実現する音声認識システムであって、クライアント端末1で収音したユーザ発話の音声認識、テキスト解析を行い、解析結果としてテキストをクライアント端末1に出力する。
クライアント端末1は、例えばスマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末、パーソナルコンピュータ、ゲーム機、音楽プレイヤー等であってもよい。
ここで、既存の音声認識システムでは、文字の種類の切り替え(大文字、小文字、ローマ字、数字、平仮名、片仮名等の切り替え)を音声で行うことが困難であり、物理的な文字入力インターフェースからの操作が必要であった。また、入力した文章の校正を行う際、文章の削除や挿入、訂正等の入力を音声で行うと、音声認識結果としてそのまま文字入力されてしまうため、音声での校正が困難であった。
また、漢字には同音異義語があるため、一度の変換では目的の漢字が出てこなかったり、ユーザが望む漢字が出せないため物理的な文字入力インターフェースへ切り替えたりしなければならなかった。
そこで、本実施形態による情報処理システムは、音声入力による文章校正を実現し、校正の際に物理的な文字入力インターフェースへ切り替えるといった煩雑な操作を不要にする。具体的には、本実施形態による情報処理システムは、ユーザ発話のテキスト解析において校正発話か通常発話かの判断を行い、校正発話だった場合の校正情報を分析する。
以上、本実施形態による情報処理システムの概要について説明した。続いて、本実施形態による情報処理システムに含まれる各装置の構成について図2〜図3を参照して説明する。
<<2.構成>>
<2−1.クライアント端末の構成>
図2は、本実施形態によるクライアント端末1の構成の一例を示すブロック図である。図2に示すように、クライアント端末1(情報処理装置)は、制御部10、音声入力部11、撮像部12、センサ13、通信部14、表示部15、および記憶部16を有する。
制御部10は、演算処理装置および制御装置として機能し、各種プログラムに従ってクライアント端末1内の動作全般を制御する。制御部10は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部10は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
制御部10は、音声入力部11から入力されたユーザ発話の音声を、通信部14からネットワーク3を介してサーバ2へ送信する。送信する音声情報の形態は、収音した音声データ(生データ)であってもよいし、収音した音声データから抽出した特徴量データ(音素列など、ある程度加工したもの)であってもよいし、収音した音声データのテキスト解析結果であってもよい。音声データのテキスト解析結果は、例えばユーザ発話の音声に含まれる校正指令部分と校正ターゲット部分を分析した結果である。かかる分析は、次に説明するローカルテキスト解析部102で行われ得る。なお、本明細書において、「校正指令」とは、校正ターゲットに対してどのような校正をすべきかを示すものであって、例えば削除、置換、追加等の入力された文字列の修正や、入力する文字種類の指定(アルファベット、大文字、小文字、平仮名、片仮名等)、入力する文字の表現指定(漢字、スペル等)が想定される。また、本明細書において、「校正ターゲット」とは、校正指令の対象となるものを示す。
また、制御部10は、ユーザ発話の際に撮像部12で撮像したユーザ動作の撮像画像やセンサ13で検知したセンサ情報(画面へのタッチ情報等)を、コンテキスト情報として、通信部14からネットワーク3を介してサーバ2へ送信する。送信するコンテキスト情報の形態は、取得した撮像画像やセンサ情報(生データ)であってもよいし、取得した撮像画像やセンサ情報から抽出した特徴量データ(ベクター化など、ある程度加工したもの)であってもよいし、取得した撮像画像やセンサ情報の解析結果(認識結果)であってもよい。撮像画像やセンサ情報の解析結果は、例えばユーザの動作や操作を認識した結果である。
制御部10は、図2に示すように、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103としても機能し得る。
ローカル音声認識部101は、音声入力部11から入力されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。本実施形態によるローカル音声認識部101は、後述するサーバ2の音声認識部201のサブセットであって、簡易の音声認識機能を有する。
ローカルテキスト解析部102は、音声認識によりテキスト化された文字列を解析する。具体的には、ローカルテキスト解析部102は、記憶部16に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話(通常発話)であるか校正発話であるかを分析する。ローカルテキスト解析部102は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、ローカルテキスト解析部102は、複数の候補をスコアと共に出力してもよい。さらに、ローカルテキスト解析部102は、ユーザ発話の際に撮像部12で撮像した撮像画像や、その他センサ13により検知したセンサ情報(加速度センサ情報、タッチセンサ情報等)を考慮して分析してもよい。また、本実施形態によるローカルテキスト解析部102は、後述するサーバ2のテキスト解析部202のサブセットであって、簡易の解析機能を有する。具体的には、ローカルテキスト解析部102で用いる校正発話データの量がサーバ2で保有されているデータ量に比べて少ないため、例えば「削除」という校正用語は理解できるが、「消したい」「消して欲しいな」といった言葉は校正用語として理解できない。
ローカル最終出力決定部103は、最終的に出力するものを決定する機能を有する。例えばローカル最終出力決定部103は、音声認識により抽出された特定のキーワード(例えば「校正モード」「切替」など)や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。通常発話と判断した場合、ローカル最終出力決定部103は、音声認識された文字列をそのまま表示部15の画面上に出力する。一方、校正発話と判断した場合、ローカル最終出力決定部103は、ローカルテキスト解析部102により分析された校正ターゲットと校正指令に基づいて、入力された文章の校正処理を行い、校正結果を表示部15の画面上に出力する。なお複数の解析結果がある場合、ローカル最終出力決定部103は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。
なお本実施形態によるローカル最終出力決定部103は、後述するサーバ2の最終出力決定部203のサブセットであって、簡易の決定機能を有するものである。
以上、制御部10の機能構成について説明した。制御部10は、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103といったローカルのサブセットで処理を行うことで処理速度を早くすることができるが、本実施形態はこれに限定されない。例えば制御部10は、サブセットで十分な処理ができなかった場合やエラーが出た場合にはサーバ2にデータを送信して処理要求を行い、サーバ2から処理結果を受信して利用してもよい。または、制御部10は、サーバ2にデータを送信して処理要求を行うと共に、サブセットでも処理を行い、サーバ2からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。
音声入力部11は、ユーザ音声や周辺の環境音を収音し、音声信号を制御部10に出力する。具体的には、音声入力部11は、マイクロホンおよびアンプ等により実現される。また、音声入力部11は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。
撮像部12は、ユーザの顔周辺や動作を撮像し、撮像画像を制御部10に出力する。撮像部12は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系と、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系と、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等とを有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
センサ13は、撮像部12(撮像センサ)以外の各種センサの総称であって、例えば加速度センサ、ジャイロセンサ、表示部15の画面上に設けられているタッチセンサ等が想定される。センサ13は、検知したセンサ情報を制御部10に出力する。
通信部14は、有線/無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部14は、例えば有線LAN(Local Area Network)、無線LAN、Wi−Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離/非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。
表示部15は、例えば液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置等により実現される。表示部15は、制御部10の制御に従って表示画面に情報を表示する。
記憶部16は、制御部10が各種処理を実行するためのプログラム等を記憶する。また、記憶部16は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。
以上、本実施形態によるクライアント端末1の構成について具体的に説明した。なお本実施形態によるクライアント端末1の構成は、図2に示す例に限定されない。例えばクライアント端末1は、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103の全てまたは一部を有さない構成であってもよい。
また、本実施形態ではクライアント端末1とサーバ2を含む情報処理システムとして説明しているが、図2〜図3を参照して説明する各構成をクライアントモジュールおよびサーバモジュールとして有する単体の情報処理装置により実現されてもよい。若しくは、クライアント端末1の構成を、図3を参照して説明するサーバ2の制御部20の各構成(音声認識部201、テキスト解析部202、最終出力決定部203)と同様の機能を有するものとしてもよい。
<2−2.サーバの構成>
図3は、本実施形態によるサーバ2の構成の一例を示すブロック図である。図3に示すように、サーバ2(情報処理装置)は、制御部20、通信部21、および校正発話DB(データベース)22を有する。
制御部20は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ2内の動作全般を制御する。制御部20は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部20は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
制御部20は、クライアント端末1から受信したユーザ発話の音声に基づいて音声認識処理、テキスト解析処理、および最終出力決定処理を行い、処理結果(音声認識結果、テキスト解析結果、または校正情報(例えば校正結果))をクライアント端末1に送信するよう制御する。
制御部20は、図3に示すように、音声認識部201、テキスト解析部202、および最終出力決定部203としても機能し得る。
音声認識部201は、クライアント端末1から送信されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。
テキスト解析部202は、音声認識によりテキスト化された文字列を解析する。具体的には、テキスト解析部202は、校正発話DB22に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話(通常発話)であるか校正発話であるかを分析する。テキスト解析部202は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、テキスト解析部202は、複数の候補をスコアと共に出力してもよい。さらに、テキスト解析部202は、クライアント端末1から送信されたユーザ発話の際のコンテキスト情報(撮像画像やセンサ情報)を考慮して分析してもよい。
なお校正情報の分析は、予め生成された校正発話DB22を利用する方法に限定されず、例えば機械学習を用いて校正情報の分析精度を高めていくことも可能である。
最終出力決定部203は、最終的に出力するものを決定する機能を有する。例えば最終出力決定部203は、音声認識により抽出された特定のキーワード(例えば「校正モード」「切替」など)や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。複数の解析結果がある場合、最終出力決定部203は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。
通常発話と判断した場合、最終出力決定部203は、音声認識された文字列を通信部21からクライアント端末1に送信する。一方、校正発話と判断した場合、最終出力決定部203は、テキスト解析部202により分析され、最終決定した校正指令に基づいて校正ターゲットを処理し、校正結果を校正情報として通信部21からクライアント端末1に送信する。
また、最終出力決定部203は、コンテキスト情報としてクライアント端末1から送信された、撮像部12でユーザの動作を撮像した撮像画像を解析し、事前に登録されている身体の動きを検出して、通常入力モードと文章校正モードの切り替えを行ってもよい。若しくは、最終出力決定部203は、コンテキスト情報としてクライアント端末1から送信された、センサ13で検知したセンサ情報を解析して、事前に登録されている動き(例えば画面を振る、画面にタッチする等)を検出し、通常入力モードと文章校正モードの切り替えを行ってもよい。
また、最終出力決定部203は、ユーザ発話のテキスト解析結果と、撮像画像やセンサ情報とを組み合わせて、校正発話であるか否かを判断することもできる。例えば最終出力決定部203は、ユーザが画面に表示されている文字を示しながら「ここから先を全て削除」と発話した場合、発話内容の解析結果と、画面上の文字を示している動作から、文章校正モードであると判断する。
ここで、本実施形態によるユーザ発話例と各発話の最終出力例について、図4〜図9を参照して具体的に説明する。
(A)文字の種類の指定
図4は、入力する文字の種類の指定を音声で行う場合の具体例を示す図である。例えば図4の1行目に示すように、ユーザ発話が「かたかなのとうきょうたわー」の場合、音声認識部201は、音声認識により「カタカナの東京タワー」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「カタカナの東京タワー」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「カタカナの」を文字の種類『片仮名』の校正指定と分析し、「東京タワー」を校正ターゲットと分析する。これにより、図4の1行目に示すように最終出力結果が片仮名で表現される「トウキョウタワー」となる。
また、図4の2行目に示すように、ユーザ発話が「えむだけおおもじのまいける」の場合、音声認識部201は、音声認識により「エムだけ大文字のマイケル」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「エムだけ大文字のマイケル」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「エムだけ大文字の」を文字の種類の指定『アルファベット大文字』の校正指定と分析し、「マイケル」を校正ターゲットと分析する。これにより、図4の2行目に示すように最終出力結果が「Michael」となる。
(B)音やトランスクリプションの利用
図5は、入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。例えば図5の1行目に示すように、ユーザ発話が「ゆうきゅうきゅうかのゆうにこどものこ」の場合、音声認識部201は、音声認識により「有給休暇の有に子供の子」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「有給休暇の有に子供の子」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「有給休暇の有」を漢字の校正指定と分析し、「有」を校正ターゲットと分析する。また、「子供の子」を漢字の校正指定と分析し、「子」を校正ターゲットと分析する。これにより、図5の1行目に示すように最終出力結果がユーザ希望の漢字で表現される「有子」となる。「ユウコ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
また、図5の2行目に示すように、ユーザ発話が「しらとりのとりはとっとりのとり」の場合、音声認識部201は、音声認識により「白鳥の鳥は鳥取の取」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「白鳥の鳥は鳥取の取」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「白鳥の鳥は鳥取の取」を漢字の校正指定と分析し、「白鳥」を校正ターゲットと分析する。これにより、図5の2行目に示すように最終出力結果がユーザ希望の漢字で表現される「白取」となる。「シラトリ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
(C)校正箇所と動作命令
また、校正ターゲットの範囲や校正内容を音声で命令することも可能である。例えば、以下に示すようなユーザ発話と校正情報の分析結果の一例が挙げられる。
Figure 2017211430
さらに、図6および図7を参照して一例を説明する。図6は、本実施形態によるユーザ発話と校正情報の分析結果の一例を示す図である。図6に示すように、ユーザ発話が「かきあんけんってところからしたをぜんぶけしてけいぞくけんとうっていれて」の場合、音声認識部201は、音声認識により「下記案件って所から下を全部消して継続検討っていれて」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「下記案件って所から下を全部消して継続検討っていれて」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、「校正指定:『継続検討』に修正」、「校正ターゲット:『下記案件』以降」と分析する。
図7は、図6に示すユーザ発話に対する最終出力結果の一例を示す図である。図7に示すように、画面30に表示されている入力された文章中、「下記案件」以降が削除されて「継続検討」に修正された画面31が最終出力結果として出力される。
(D)コンテキスト情報の活用
続いて、コンテキスト情報を考慮した校正処理の一例について説明する。本実施形態では、ユーザ発話の際に取得された撮像画像やセンサ情報を考慮してテキスト解析を行い、校正分析を行うことが可能である。
ここで、図8および図9を参照して表示部15に設けられたタッチセンサにより検知されるセンサ情報を用いた例について説明する。図8は、本実施形態によるユーザ発話とコンテキスト情報を考慮した校正情報の分析結果の一例を示す図である。図8に示すように、ユーザ発話が「ここをごぜんにして」の場合、音声認識部201は、音声認識により「ここを午前にして」といった文字列を出力する。また、ユーザ発話の際に表示部15のタッチセンサにより検知された画面上の位置座標(x,y)を示すセンサ情報が取得される。
この場合、既存の音声認識システムでは、音声認識した文字列そのままに「ここを午前にして」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データとタッチセンサ情報を参照してテキスト解析を行い、「校正指定:『午前』に修正」、「校正ターゲット:座標(x,y)」と分析する。
図8は、図8に示すユーザ発話に対する最終出力結果の一例を示す図である。図8に示すように、画面32に表示されている入力された文章中、ユーザによりタッチされた座標(x,y)に対応する文字「午後」が削除されて「午前」に修正された画面33が最終出力結果として出力される。
上述した例では、タッチセンサにより画面上の座標位置を検知しているが、本実施形態はこれに限定されず、ユーザの視線を的確に捉えることができれば同様に実現できる。すなわち、例えば「ここを午前にして」というユーザ発話の際にユーザが注視している画面上の位置を視線センサ(視線トラッカー)により検知し、コンテキスト情報として考慮する。
また、ユーザの視線により画面上の注目箇所、範囲、領域を特定できれば、画面上に表示された複数候補ある選択肢等から自動的にユーザ希望の候補を絞ることが可能である。
また、本実施形態では、「ここ」「この辺」というように画面上の位置が指定された場合に、座標(x,y)に対応する文字列部分の背景色を変える等してユーザにフィードバックし、注目個所や範囲の確認を行うようにしてもよい。ユーザは、「そこでOK」「違う」等の回答を口頭で行い得る。
(E)キーワードの利用
次に、音声認識したユーザ発話から特定のキーワードが抽出された場合の校正処理の一例について説明する。ユーザ発話が"A, as in Adam. D, as in Denver. T, as in Thomas."の場合、音声認識部201は、音声認識により"A, as in Adam. D, as in Denver. T, as in Thomas."といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに"A, as in Adam. D, as in Denver. T, as in Thomas."と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、"Adam" "Denver" "Thomas"といった、アルファベットのスペルを伝えるために用いられるキーワードが抽出された場合、「校正指定:アルファベット」、「校正ターゲット:"A" "D" "T"」と分析する。これにより、最終出力結果がユーザ希望のスペルで表現される「ADT」となる。
通信部21は、外部装置と接続し、データの送受信を行う。例えば通信部21は、クライアント端末1からユーザ発話の音声情報やコンテキスト情報を受信したり、上述した音声認識処理結果や、テキスト解析処理結果、または最終出力決定処理結果をクライアント端末1に送信したりする。
校正発話DB22は、事前に大量に集められた校正発話データを記憶する記憶部であって、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。校正発話データは、例えば校正発話に用いられるキーワードや文例を含む。
<<3.動作処理>>
続いて、本実施形態による情報処理システムの動作処理について図10を参照して説明する。図10は、本実施形態による情報処理システムの動作処理を示すフローチャートである。下記処理は、クライアント端末1の制御部10およびサーバ2の制御部20の少なくともいずれかで行われ得る。
図10に示すように、まず、ユーザ発話(音声情報)が取得され(ステップS100)、ユーザ発話に対して音声認識が行われる(ステップS103)。
次に、音声認識により出力された文字列に対してテキスト解析が行われる(ステップS106)。具体的には、校正発話データを参照して文字列の校正発話らしさ、および校正発話だった場合における校正情報の分析が行われる。ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。
次いで、テキスト解析結果に基づいて最終的な出力が決定される(ステップS109)。この際も、ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。
次に、最終出力決定により通常発話と判断された場合、音声認識結果の文字列がそのまま出力される(ステップS112)。
一方、最終出力決定により校正発話と判断された場合、文章校正が行われ、校正結果が出力される(ステップS115)。
以上、本実施形態による情報処理システムの動作処理について説明した。
<<4.他のシステム構成>>
本実施形態による情報処理システムの構成は、図1に示す例に限定されず、例えば図11に示すように、処理分散を可能とするエッジサーバ4を含むシステム構成であってもよい。図11は、本実施形態による他のシステム構成を示す図である。図11に示すように、他のシステム構成として、クライアント端末1、サーバ2、およびエッジサーバ4を含むものが考えられる。
本実施形態によるエッジサーバ4の構成例を図12に示す。図12に示すように、エッジサーバ4は、制御部40、通信部41、およびエッジ側校正発話DB42を含む。制御部40は、エッジ側音声認識部401、エッジ側テキスト解析部402、およびエッジ側最終出力決定部403としても機能する。エッジ側音声認識部401は、サーバ2の音声認識部201のサブセット(以下、外部サブセットと称す)であって、エッジ側テキスト解析部402は、テキスト解析部202の外部サブセットであって、エッジ側最終出力決定部403は、最終出力決定部203の外部サブセットである。
エッジサーバ4は、サーバ2に比較して中規模の処理サーバであるが、通信距離的にクライアント端末1の近くに配置され、クライアント端末1よりも高精度かつ、通信遅延を短縮することが可能である。
クライアント端末1は、自身が持つサブセットで十分な処理ができなかった場合やエラーが出た場合にエッジサーバ4にデータを送信して処理要求を行い、エッジサーバ4から処理結果を受信して利用してもよい。または、クライアント端末1は、エッジサーバ4およびサーバ2にデータを送信して処理要求を行うと共に、自身が持つサブセットでも処理を行い、エッジサーバ4およびサーバ2からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。
<<5.まとめ>>
上述したように、本実施形態による情報処理システムによれば、音声入力による文章校正を実現することを可能とする。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上述したクライアント端末1、またはサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、本技術は以下のような構成も取ることができる。
(1)
文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。
(2)
前記音声情報は、収音したユーザ音声データである、前記(1)に記載の情報処理装置。
(3)
前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、前記(1)に記載の情報処理装置。
(4)
前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、前記(1)に記載の情報処理装置。
(5)
前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、前記(5)に記載の情報処理装置。
(7)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、前記(5)に記載の情報処理装置。
(8)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、前記(5)に記載の情報処理装置。
(9)
前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(1)〜(8)のいずれか1項に記載の情報処理装置。
(10)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(9)に記載の情報処理装置。
(11)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(9)または(10)に記載の情報処理装置。
(12)
文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。
(13)
前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(12)に記載の情報処理装置。
(14)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(13)に記載の情報処理装置。
(15)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(13)または(14)に記載の情報処理装置。
(16)
前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、前記(12)〜(15)のいずれか1項に記載の情報処理装置。
(17)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。
(18)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。
1 クライアント端末
10 制御部
101 ローカル音声認識部
102 ローカルテキスト解析部
103 ローカル最終出力決定部
11 音声入力部
12 撮像部
13 センサ
14 通信部
15 表示部
16 記憶部
2 サーバ
20 制御部
201 音声認識部
202 テキスト解析部
203 最終出力決定部
21 通信部
22 校正発話DB
3 ネットワーク
4 エッジサーバ
40 制御部
401 エッジ側音声認識部
402 エッジ側テキスト解析部
403 エッジ側最終出力決定部
41 通信部
42 エッジ側校正発話DB

Claims (18)

  1. 文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
    前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
    を備える、情報処理装置。
  2. 前記音声情報は、収音したユーザ音声データである、請求項1に記載の情報処理装置。
  3. 前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、請求項1に記載の情報処理装置。
  4. 前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、請求項1に記載の情報処理装置。
  5. 前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
    前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、請求項1に記載の情報処理装置。
  6. 前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、請求項5に記載の情報処理装置。
  7. 前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、請求項5に記載の情報処理装置。
  8. 前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、請求項5に記載の情報処理装置。
  9. 前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、請求項1に記載の情報処理装置。
  10. 前記処理結果は、当該処理結果の確信度を示すデータを含む、請求項9に記載の情報処理装置。
  11. 前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、請求項9に記載の情報処理装置。
  12. 文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
    前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
    を備える、情報処理装置。
  13. 前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、請求項12に記載の情報処理装置。
  14. 前記処理結果は、当該処理結果の確信度を示すデータを含む、請求項13に記載の情報処理装置。
  15. 前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、請求項13に記載の情報処理装置。
  16. 前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
    前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、請求項12に記載の情報処理装置。
  17. プロセッサが、
    文章の校正指令と校正ターゲットを含む音声情報を送信することと、
    前記校正指令と校正ターゲットに基づく解析結果を受信することと、
    を含む、情報処理方法。
  18. プロセッサが、
    文章の校正指令と校正ターゲットを含む音声情報を受信することと、
    前記校正指令と校正ターゲットに基づく解析結果を送信することと、
    を含む、情報処理方法。
JP2016102755A 2016-05-23 2016-05-23 情報処理装置および情報処理方法 Pending JP2017211430A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016102755A JP2017211430A (ja) 2016-05-23 2016-05-23 情報処理装置および情報処理方法
EP17802366.9A EP3467820A4 (en) 2016-05-23 2017-02-21 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
PCT/JP2017/006281 WO2017203764A1 (ja) 2016-05-23 2017-02-21 情報処理装置および情報処理方法
US16/301,058 US20190189122A1 (en) 2016-05-23 2017-02-21 Information processing device and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016102755A JP2017211430A (ja) 2016-05-23 2016-05-23 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
JP2017211430A true JP2017211430A (ja) 2017-11-30

Family

ID=60412429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016102755A Pending JP2017211430A (ja) 2016-05-23 2016-05-23 情報処理装置および情報処理方法

Country Status (4)

Country Link
US (1) US20190189122A1 (ja)
EP (1) EP3467820A4 (ja)
JP (1) JP2017211430A (ja)
WO (1) WO2017203764A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022518339A (ja) * 2018-12-06 2022-03-15 ベステル エレクトロニク サナイー ベ ティカレト エー.エス. 音声制御される電子装置のコマンド生成技術

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6991409B2 (ja) * 2019-10-02 2022-01-12 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3797497B2 (ja) * 1996-03-28 2006-07-19 株式会社Yozan ページャへのメッセージ作成方式
JPH11184495A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp 音声認識装置
JP2010197709A (ja) * 2009-02-25 2010-09-09 Nec Corp 音声認識応答方法、音声認識応答システム、及びそのプログラム
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
KR101394253B1 (ko) * 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和***
JP2014149612A (ja) * 2013-01-31 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置およびそのプログラム
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
JP2015175983A (ja) * 2014-03-14 2015-10-05 キヤノン株式会社 音声認識装置、音声認識方法及びプログラム
US9684827B2 (en) * 2014-03-26 2017-06-20 Microsoft Technology Licensing, Llc Eye gaze tracking based upon adaptive homography mapping

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022518339A (ja) * 2018-12-06 2022-03-15 ベステル エレクトロニク サナイー ベ ティカレト エー.エス. 音声制御される電子装置のコマンド生成技術

Also Published As

Publication number Publication date
US20190189122A1 (en) 2019-06-20
WO2017203764A1 (ja) 2017-11-30
EP3467820A1 (en) 2019-04-10
EP3467820A4 (en) 2019-06-26

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US9959129B2 (en) Headless task completion within digital personal assistants
US9858924B2 (en) Voice processing apparatus and voice processing method
US10741172B2 (en) Conference system, conference system control method, and program
US11317018B2 (en) Camera operable using natural language commands
KR20140028540A (ko) 디스플레이 디바이스 및 스피치 검색 방법
US20190019512A1 (en) Information processing device, method of information processing, and program
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
US10720154B2 (en) Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition
JP2017211430A (ja) 情報処理装置および情報処理方法
WO2016088411A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11398221B2 (en) Information processing apparatus, information processing method, and program
US20220013117A1 (en) Information processing apparatus and information processing method
WO2016206646A1 (zh) 使机器装置产生动作的方法及***
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
US20200234187A1 (en) Information processing apparatus, information processing method, and program
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP7468360B2 (ja) 情報処理装置および情報処理方法
US10635802B2 (en) Method and apparatus for accessing Wi-Fi network
US11430429B2 (en) Information processing apparatus and information processing method
US20210200373A1 (en) Microphone on controller with touchpad to take in audio swipe feature data
CN117056822A (zh) 手语识别方法及电子设备