JP7136091B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7136091B2
JP7136091B2 JP2019514382A JP2019514382A JP7136091B2 JP 7136091 B2 JP7136091 B2 JP 7136091B2 JP 2019514382 A JP2019514382 A JP 2019514382A JP 2019514382 A JP2019514382 A JP 2019514382A JP 7136091 B2 JP7136091 B2 JP 7136091B2
Authority
JP
Japan
Prior art keywords
confirmation
cost
task
execution
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019514382A
Other languages
English (en)
Other versions
JPWO2018198812A1 (ja
Inventor
勝吉 金本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018198812A1 publication Critical patent/JPWO2018198812A1/ja
Application granted granted Critical
Publication of JP7136091B2 publication Critical patent/JP7136091B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32496Changing the task performed, e.g. reading and transmitting, receiving and reproducing, copying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、タスク実行前の確認のためのユーザの負担を軽減することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
ユーザの行動を支援するための各種のタスクを音声UIによる操作に応じて実行するエージェント技術が各種提案されている。例えば、ユーザの発話音声を認識し、スケジュールを調整する機能を搭載したエージェントがある。
特開2015-11651号公報
スケジュールを実際に登録する前や、発話音声による入力に応じて電子メールを実際に送信する前などのタスクを実行する前、通常、タスクを実行することについてユーザに対して確認が求められる。そのような確認に対してタスクの実行を指示するような反応をユーザがとったとき、タスクが実行される。
ユーザの意図と異なる内容の処理を誤って実行したとしても問題がないようなものについても、一律に、同じような確認が毎回行われるため、ユーザにとって煩雑である。
本技術はこのような状況に鑑みてなされたものであり、タスク実行前の確認のためのユーザの負担を軽減することができるようにするものである。
本技術の一側面の情報処理装置は、所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて前記ユーザへの確認の度合いを算出する確認度合い算出部と、前記度合いに応じた異なる入力を求めることによって前記確認を行う確認制御部とを備える。
タスクの種別とタスク実行時の引数に基づいて前記第1のコストを算出する第1のコスト算出部をさらに設けることができる。
前記第1のコスト算出部には、さらに前記ユーザの属性に基づいて前記第1のコストを算出させることができる。
前記第1のコスト算出部には、前記所定のタスクと、基準となるコストが予め設定されたタスクと、タスクの種別とタスク実行時の引数との組み合わせの類似度に基づいて前記第1のコストを算出させることができる。
前記第1のコスト算出部には、前記確認に対する他の複数のユーザによる反応の傾向に基づいて、前記第1のコストを算出させることができる。
前記第1のコスト算出部には、金額情報として表される前記第1のコストを算出させることができる。
前記第1のコスト算出部には、現在の状況から、前記所定のタスクを実行した後の状況にまで変化させるのに必要な前記金額情報を算出させることができる。
過去に行われた前記確認に対する前記ユーザの反応に基づいて、前記第2のコストを算出する第2のコスト算出部をさらに設けることができる。
前記確認制御部には、前記所定のタスクを実行することを、前記度合いに応じて異なる方法で前記ユーザに提示させることができる。
タスクの種別毎に、前記第2のコストの上限値を設定する設定部をさらに設けることができる。
前記確認度合い算出部には、前記ユーザの入力の精度に応じて、前記度合いを調整させることができる。
前記確認度合い算出部には、雑音のレベルに応じて前記精度を求めさせることができる。
前記確認度合い算出部には、前記ユーザの疲労度に応じて前記精度を求めさせることができる。
前記確認度合い算出部には、前記ユーザの行動に応じて前記精度を求めさせることができる。
前記確認制御部には、前記第1のコストが前記第2のコストを閾値以上超えている場合、前記所定のタスクの実行を停止させることができる。
前記確認制御部には、前記タスクの実行を停止させたことを、要因とともに前記ユーザに提示させることができる。
本技術の一側面においては、所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて前記ユーザへの確認の度合いが算出され、前記度合いに応じた異なる入力を求めることによって前記確認が行われる。
本技術によれば、タスク実行前の確認のためのユーザの負担を軽減することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係る情報処理装置の使用例を示す図である。 タスクの例を示す図である。 タスク実行までの一連の流れの例を示す図である。 誤実行コストと許容コストの関係を示す図である。 確認度合いとタスク実行確認の方法の対応関係の例を示す図である。 許容コストの調整の例を示す図である。 タスク種別の分類の例を示す図である。 メールの送り先の分類の例を示す図である。 誤実行コストを求める場合の例を示す図である。 情報処理装置のハードウェア構成例を示すブロック図である。 情報処理装置の機能構成例を示すブロック図である。 情報処理装置のタスク実行処理について説明するフローチャートである。 画面表示の例を示す図である。 画面表示の他の例を示す図である。 画面表示のさらに他の例を示す図である。 コンピュータの構成例を示すブロック図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.音声UIにおけるタスク実行について
2.音声UIにおけるタスク実行確認について
3.タスクのコストとユーザの許容度の関係
4.確認度合いに応じた提示方法
5.許容コストの自動調整
6.誤実行コストについて
7.操作環境等のコンテキストによる追加の制御
8.実行の停止
9.情報処理装置の構成例
10.情報処理装置の動作
11.変形例
<<音声UIにおけるタスク実行について>>
図1は、本技術の一実施形態に係る情報処理装置1の使用例を示す図である。
情報処理装置1は、所定のプログラムを実行し、ユーザの行動を支援するための各種の処理を行う、いわゆるエージェント機能を搭載した携帯端末である。
図1の例においては、情報処理装置1がスマートフォンとされているが、タブレット端末や腕時計型のウェアラブルなどの表示デバイスを有する携帯端末、または、表示デバイスを有していない携帯端末であってもよい。情報処理装置1が携帯可能な装置ではなく、設置型の装置であってもよい。
情報処理装置1の操作は、主に音声UI(User Interface)によって行われる。情報処理装置1には、ユーザの発話音声を集音するためのマイク(マイクロホン)や、合成音声を出力することによってユーザに対して各種の情報を提示するためのスピーカが設けられる。
音声で操作できるようにすることにより、ユーザは、料理などの手を使った作業中や、読書中などのほかの物を注視している最中であっても情報処理装置1を容易に操作することができる。一方、画面UIで操作するのと比べて、情報を読み上げてユーザに伝えるための時間やユーザの発話が終わるのを待つための時間などがかかることになる。
情報処理装置1によるタスクの実行は、タスクの種別とタスクの実行時引数に相当する情報をユーザが音声で指定することによって行われる。ここで、情報処理装置1は、図2に示すように、メールを送る、ToDoに追加する、タクシーを配車する、室内の空調を制御する、の各種別のタスクを実行することができるものとする。
図2に示すように、メールを送る場合、実行時引数として、送り先と内容が音声によって指定される。メールを送るタスクを実行するアプリケーション(メーラ)は、予め登録された複数のメールアドレスを管理している。メーラは、所定のメールアドレスを送り先として設定し、音声によって指定された内容を本文に含むメールをメールサーバに送信する。
ToDoに追加する場合、実行時引数として、内容と期日が音声によって指定される。ToDoに追加するタスクを実行するToDoアプリケーションは、ユーザのToDoリストを管理している。ToDoアプリケーションは、ToDoリストの所定の期日の項目として、音声によって指定された内容の項目を追加する。
タクシーを配車する場合、実行時引数として、どこに配車するかと、いつ配車するかが音声によって指定される。タクシーを配車するタスクを実行する配車アプリケーションは、所定のサーバにアクセスし、音声によって指定された日時と配車場所に関する情報を送信することによって、タクシーの配車の依頼を行う。
室内の空調を制御する場合、実行時引数として、いつ制御するかと、何度になるように設定するかが音声によって指定される。室内の空調を制御するタスクを実行する空調管理アプリケーションは、エアーコンディショナーと無線通信を行い、音声によって指定された日時と温度に関する情報を送信することによって、空調を調整する。
このように、情報処理装置1には、各タスクを実行するためのアプリケーションや、有線や無線によるネットワークを介してインターネットに接続するためのハードウェアが用意されている。図2に示すタスクを実行するアプリケーション以外のアプリケーションを情報処理装置1に用意することが可能である。
<<音声UIにおけるタスク実行確認について>>
音声によってタスクの種別と実行時引数が指定され、以上のようなタスクを実行する前、タスク実行確認が行われる。タスク実行確認は、タスクの実行前に、タスクを実行してもよいかどうかをユーザに確認する処理である。タスク実行確認と、タスク実行確認に対する許可/不許可のユーザによる入力も、音声によって行われる。
図3は、タスク実行までの一連の流れの例を示す図である。
図3は、メールを送る場合の例を示している。例えば、吹き出し#1に示すように、ユーザが「パパに今から帰るとメール」と発話した場合、情報処理装置1においては音声認識と言語解析が行われ、タスクの種別が「メールを送る」であり、実行時引数としての送り先が「パパ」、内容が「今から帰る」として特定される。
このとき、情報処理装置1は、吹き出し#2に示すように、「パパにメールを送ります。内容は、今から帰る、です。よろしいですか?よろしければ、送信、と発話してください。」の音声を出力し、タスク実行確認を行う。
タスク実行確認に対して、吹き出し#3に示すようにユーザが「送信」と発話した場合、情報処理装置1においては音声認識と言語解析によって、タスクの実行がユーザにより許可されたことが特定され、下向き矢印の先に示すようにタスクが実行される。情報処理装置1においてはメーラが起動し、「パパ」のアドレス宛てに、「今から帰る」を本文に含めたメールが送信される。
このように、情報処理装置1によりタスクが実際に実行されるのは、基本的に、タスク実行確認を経てからとなる。
人同士の会話中と同様に、音声UIでは、TVや洗濯機などの環境中の雑音、利用者の話し方、マイクと利用者の位置関係といった要因による聞き間違え(誤認識)が発生する場合がある。タスクの実行前に確認が行われるようにすることにより、ユーザの意図と異なるタスクが実行されるのを防ぐことができる。
ところで、タスクによっては、誤認識によってユーザの意図と異なる内容の処理を行ったとしても、ユーザにとって許容できるタスクがある。例えば、メールを送ることについて言えば、メールの送り先が家族であるタスクは、送り先が職場の上司であるタスクより、間違った内容のメールを送ったとしてもユーザにとって許容できるといえる。
情報処理装置1においては、あるタスクについて、ユーザの意図と異なる内容の処理を行った場合のコストと、誤って実行したとしてもユーザが許容するコストが求められる。また、タスク実行確認が、それらのコストの差により表される確認度合いに応じた内容で行われる。
詳細については後述するが、例えば、確認度合いが高いタスクについては、上述したように「送信」の発話によって明示的な許可を求めるといったような、ユーザにとって負担の大きいタスク実行確認が行われる。
反対に、確認度合いが低いタスクについては、ユーザにとって負担の少ない、簡略化したタスク実行確認が行われる。
このように、情報処理装置1によるタスク実行確認は、どのようなタスクであっても一律に同じ方法で行われるのではなく、確認度合いに応じた方法で行われる。また、確認度合いが非常に低いタスクについてはタスク実行確認が省略される。
一律に同じタスク実行確認を行うとした場合、タスクの内容によっては、タスク実行確認に意味がなく、単に煩雑な作業となることがあるが、そのような作業を求めることを防ぐことが可能になる。すなわち、タスク実行前のユーザの負担を軽減させることが可能になる。
<<タスクのコストとユーザの許容度の関係>>
情報処理装置1は、タスク実行確認を行う必要があるかどうかと、タスク実行確認の適切な方法を判断できれば、不要な確認を行わずに済む。この判断は、以下の2つのコストの差に基づいて行われる。
(1)誤って実行してしまった時のコスト
(2)誤って実行してしまったとしてもユーザが許容するコスト
以下、適宜、前者のコストを、誤実行コストという。また、後者のコストを、許容コストという。なお、コストは、負のスコアを意味する。
図4は、誤実行コストと許容コストの関係を示す図である。
図4のAの棒グラフは、メールの送信における、誤実行コストと許容コストの基本的な関係を示す。図4のBの棒グラフは、ToDoの追加における、誤実行コストと許容コストの基本的な関係を示す。各図において、左側に示す棒グラフは誤実行コストを示し、右側に示す棒グラフは許容コストを示す。
メールの送信は、間違って送ってしまうと他人に迷惑をかける可能性があるため、一般的に、誤実行コストが高いタスクであると考えられる。一方、ToDoの追加は、ユーザ自身に関係のある情報が追記されるだけなので、誤実行コストが低いタスクであると考えられる。
図4の例の場合、メールの送信においては、誤実行コストが許容コストを大きく上回っており、それらのコストの差として表される確認度合いは高く、ユーザの負担が一定程度あるような方法でタスク実行確認が行われる。
また、ToDoの追加においては、誤実行コストが許容コストより低く、確認度合いは低い。従って、この場合、タスク実行確認が省略される。誤実行コストが許容コストより低い場合であっても、メールの送信のときよりユーザの負担が軽い方法でタスク実行確認が行われるようにしてもよい。
このように、情報処理装置1においては、誤実行コストと許容コストの差に基づいて確認度合いが求められ、タスク実行確認の方法が決定される。
例えば、誤実行コストと許容コストの初期値は、多くのユーザのアンケート結果により決定され、事前に設定される。それらの初期値を、例えば情報処理装置1に表示された設定画面から変更することができるようにしてもよい。
<<確認度合いに応じた提示方法>>
図5は、タスクの種別がメールの送信である場合の、確認度合いとタスク実行確認の方法の対応関係の例を示す図である。
図5の例においては、それぞれの方法でタスク実行確認を行う場合の、ユーザの注意の引き方も示されている。タスク実行確認を行う場合のユーザへの通知(ユーザの注意を引くこと)についても、確認度合いに応じた方法で行われる。
なお、タスク実行確認を行う場合の注意の引き方は、情報処理装置1のハードウェア構成や、ユーザの状況などに応じて利用可能となる伝達手段によって変わることになる。図5の例においては、情報処理装置1がバイブレーション機能を備えているものとする。
図5の例においては、0乃至4の5段階の確認度合いが設定されている。数字が大きいほど、確認度合いが高いことになる。
確認度合いが「4」である場合、明示的に、「送信」の確認発話をすることがユーザに対して要求される。図3を参照して説明したタスク実行確認の方法は、確認度合いが「4」である場合の方法となる。
例えば、「送信」の確認発話の要求は、送り先と内容に続けて、「よろしければ、送信、と発話してください。」などのシステム発話を出力することによって行われる。システム発話は、情報処理装置1が合成音声を出力することをいう。また、確認発話が要求されていることは、長めのバイブレーションを鳴らすとともに、システム発話の語調を強くすることによってユーザに通知される。
このような方法で行われる要求に応じてユーザが「送信」と発話したとき、メールの送信が行われる。
確認度合いが「4」である場合のタスク実行確認は、タスク実行確認のための長いシステム発話を聞いて、システム発話で指示された通りに「送信」の発話を行う必要があるため、ユーザにとって負担の大きい方法での確認となる。
確認度合いが「3」である場合、「送信」に関するいずれかの確認発話をすることがユーザに対して要求される。「送信」に関する発話には、「送信」と、「OK」、「送って」などの「送信」の類語が含まれる。
例えば、これらの確認発話の要求は、送り先と内容に続けて、「よろしいですか?」などのシステム発話を出力することによって行われる。また、確認発話が要求されていることは、短めのバイブレーションを複数回鳴らすことによってユーザに通知される。
このような方法で行われる要求に応じてユーザが「送信」やその類語を発話したとき、メールの送信が行われる。
確認度合いが「3」である場合のタスク実行確認は、タスク実行確認のためのシステム発話が短く、それに対する確認発話が類語でよいため、確認度合いが「4」である場合と比べてユーザにとって負担が軽い方法での確認となる。
確認度合いが「2」である場合、確認発話はユーザに対して要求されない。ただし、「キャンセル」に関するいずれかの確認発話がユーザにより行われた場合、タスクの実行がキャンセルされる。「キャンセル」に関する発話には、「キャンセル」と、「待って」などの「キャンセル」の類語が含まれる。
例えば、このような方法によるタスク実行確認は、送り先と内容に続けて、「5,4,3,2,1」などのカウントダウンのシステム発話を遅いリズムで出力することによって行われる。また、タスクの実行をキャンセルできることは、カウントダウンと同時に、短めのバイブレーションを2回鳴らすことによってユーザに通知される。
このような方法で行われる要求に応じてユーザが何も発話しないままカウントダウンが終了したとき、メールの送信が行われる。また、ユーザが「キャンセル」やその類語を発話したとき、メールの送信がキャンセルされる。
確認度合いが「2」である場合のタスク実行確認は、タスクを実行させる場合には確認発話を行う必要がないため、確認度合いが「3」である場合と比べてユーザにとって負担が軽い方法での確認となる。
確認度合いが「1」である場合、確認発話はユーザに対して要求されない。ただし、「キャンセル」の確認発話がユーザにより行われた場合、タスクの実行がキャンセルされる。
例えば、このような方法によるタスク実行確認は、送り先と内容に続けて、「5,4,3,2,1」などのカウントダウンのシステム発話を早いリズムで出力することによって行われる。また、タスクの実行をキャンセルできることは、カウントダウンと同時に、短めのバイブレーションを1回鳴らすことによってユーザに通知される。
このような方法で行われる要求に応じてユーザが何も発話しないままカウントダウンが終了したとき、メールの送信が行われる。また、ユーザが「キャンセル」を発話したとき、メールの送信がキャンセルされる。
確認度合いが「1」である場合のタスク実行確認は、カウントダウンのシステム発話が早いリズムで出力され、システム発話を聞く時間が短いため、確認度合いが「2」である場合と比べてユーザにとって負担が軽い方法での確認となる。
確認度合いが「0」である場合、確認発話はユーザに対して要求されない。タスクの実行をキャンセルすることも不可とされる。
例えば、このような方法によるタスク実行確認は、送り先と内容の後に、短く弱めのバイブレーションを1回鳴らすことによってユーザに通知される。短く弱めのバイブレーションが鳴り終わったとき、メールの送信が行われる。
確認発話が求められないため、確認度合いが「0」である場合のタスク実行確認は省略されることになる。
このようなタスク実行確認の方法が、確認度合い毎に予め決められており、情報処理装置1に設定される。メールの送信以外の各タスクについても、タスク実行確認の方法とユーザへの通知方法が確認度合いに応じて設定される。
図5の例においては、確認度合いが5段階とされているが、段階の数は任意である。また、ユーザに対する通知がシステム発話とバイブレーションによって行われるものとされているが、画面表示やLEDの発光などの各種の方法によって行われるようにしてもよい。
ユーザに対する通知を画面表示によって行う場合、文字の大きさ、色、表示速度などの表示方法を変えることで確認度合いを表現し、ユーザに通知するようにしてもよい。システム発話による音声の大きさ、高さ、長さや、バイブレーションの間隔(周波数)、長さ、振動の強さなどで確認度合いを表現する場合、段階的な表現ではなく、連続的な表現が可能となる。
<<許容コストの自動調整>>
同じタスクのタスク実行確認に対して、タスクの実行をユーザが続けて許可する場合、タスクに対する許容コストが、それぞれの時点における設定値より大きい可能性がある。逆に、タスクの実行をユーザが続けてキャンセルする(不許可とする)場合、タスクに対する許容コストが、それぞれの時点における設定値より小さい可能性がある。
あるタスクに対する許容コストは、タスク実行確認に対するユーザの反応に応じて、情報処理装置1により適宜調整される。
図6は、許容コストの調整の例を示す図である。
あるタスクのタスク実行確認に対してユーザが何度もキャンセルする場合、キャンセルする毎に、矢印#11の先に示すように許容コストが低くなる。
誤実行コストはそのままに許容コストが低くなることにより、確認度合いが大きくなる。同じタスクについての次のタスク実行確認は、ユーザの負担がより大きい方法で行われることになる。
一方、あるタスクのタスク実行確認に対してユーザが何度も許可する場合、許可する毎に、矢印#12の先に示すように許容コストが高くなる。
誤実行コストはそのままに許容コストが高くなることにより、確認度合いが小さくなる。同じタスクについての次のタスク実行確認は、ユーザの負担がより軽い方法で行われることになる。
このように、情報処理装置1においては、タスク実行確認に対してユーザが許可する毎に、タスク実行確認の方法が徐々に軽くなるようなシステムが実現される。また、確認度合いが非常に低いタスクについては、最終的にはタスク実行確認が省略される。
これにより、タスクを実行することについての権限を、情報処理装置1に段階的に委譲するようなシステムが実現される。
一律に同じタスク実行確認を行うとした場合、タスクの内容によっては、タスク実行確認に意味がなく、単に煩雑な作業となることがあるが、そのような作業を求めることを防ぐことが可能になる。すなわち、タスク実行前のユーザの負担を軽減させることが可能になる。
なお、特にメールの送信のようにユーザにとって重要なタスクの場合、許容コストを上げすぎると、タスク実行確認が省略され、自動実行されることによって不都合が生じる場合がある。このような不都合を避けるため、タスクの種別毎に、許容コストの上限値を設定することが可能とされる。
例えば、上述したように誤実行コストを許容コストが上回っている場合にタスク実行確認が省略されるとき、誤実行コスト以下の値を許容コストの上限値として設定することにより、タスク実行確認が必ず行われるようにすることが可能になる。
<<誤実行コストについて>>
<算出のための情報>
例えばメールを送ることを考えた場合、同じタスクであっても、家族に間違えてメールを送ってしまうのと、職場の上司に間違えてメールを送ってしまうのとでは、誤実行コストが大きく異なるものと考えられる。
誤実行コストは、タスク種別とタスクの実行時引数との組み合わせに基づいて算出される。
具体的には、それぞれのタスクを、実行時引数を要素とする特徴量(ベクトル)として表したときの空間(ベクトル空間)における距離に基づいて、誤実行コストが算出される。距離の近い特徴量により表されるタスク同士は、類似度の高いタスクとなる。
・タスク種別の分類
それぞれの種別のタスクは、その特徴を一般化した性質によって分類され、ベクトル化される。
図7は、タスク種別の分類の例を示す図である。
図7に示すように、例えば、各タスクは、大分類、中分類、小分類といったように階層化された性質によって分類される。大分類は、ゲーム、購買、配車、コミュニケーション、・・・といったような、性質を表す要素から構成される。中分類、小分類についても同様に、タスクの性質を表す複数の要素から構成される。
ここで、例えばメールの送信とインスタントメッセージの送信というタスクは、下記のように階層的に分類される。各分類のうち、タスクの性質を表す要素には1の値が設定される。
「メールの送信」
大分類=コミュニケーション
中分類=メール
小分類=送信
「インスタントメッセージの送信」
大分類=コミュニケーション
中分類=インスタントメッセージ
小分類=送信
メールの送信とインスタントメッセージの送信は、両方とも「コミュニケーション」という大分類の性質を有しているため、距離が近いタスクといえる。それぞれのタスク間の距離が空間におけるコサイン距離によって表される場合、同じ要素を有しているタスクが近いタスクとなる。
ToDoの追加、タクシーの配車、室内の空調の制御、物を買うなどの他のタスクについても、それぞれ性質に応じて分類され、ベクトル化される。
各ベクトルは0が多いベクトル(疎なベクトル)となるため、スパースコーディングを用い、0以外の要素のindexとその値で表されるようにしてもよい。
複数の性質をタスクが有している場合、1つの分類内で複数の要素に値が設定されることがある。例えば、「コミュニケーション」の性質を有し、かつ、「ゲーム」の性質を有している場合、大分類のそれぞれの要素に0.5の値が設定される。
・実行時引数の分類
それぞれの実行時引数も、その特徴を一般化した性質によって表される。
例えば、実行時引数としてのメールの送り先については、[email protected]のようなメールアドレスをベクトルに直接的に展開しても、同じ送り先を実行時引数とするタスクとしか、タスク間の距離を求めることができない。実行時引数を性質によって分類することによって、異なる送り先を実行時引数とするタスク間の距離を求めることが可能になる。
図8は、メールの送り先の分類の例を示す図である。
図8に示すように、メールの送り先としての、ユーザの妻、子、職場の上司、取引先の担当者は、それぞれ下記のように階層的に分類される。
「妻」
大分類=親族
中分類=同居
小分類=妻
「子」
大分類=親族
中分類=同居
小分類=子
「職場の上司」
大分類=仕事
中分類=社内
小分類1=同じ部署
小分類2=上司
「取引先の担当者」
大分類=仕事
中分類=社外
小分類=担当者
メールの内容などの、図2を参照して説明したような各実行時引数についても、それぞれ性質に応じて分類され、ベクトル化される。
例えばメールの内容(本文)については、本文に含まれる単語をそのまま要素とするのではなく、大規模コーパスを用いて、word2vecなどのアルゴリズムによってベクトル分散表現に変換するなどして、より距離を取りやすい表現に変換するようにしてもよい。
このように、各実行時引数を、性質に応じて階層的に分類し、各要素に所定の値が設定されたベクトルとして表現することにより、空間上での距離を算出することができる。
タスク種別と実行時引数の組み合わせとして表される各タスクは、以上のようなタスク種別の性質に応じた分類結果と、実行時引数の性質に応じた分類結果とを組み合わせたベクトルとして表される。以下、適宜、各タスクを表すベクトルをタスクベクトルという。
<事前に設計した情報からの推定>
代表的なタスクである代表タスクには誤実行コストが予め設定される。代表タスクとして複数のタスクが用意される。代表タスクに設定された誤実行コストは、求めようとする誤実行コストの基準となる情報である。
例えば、誤実行コストを求める対象のタスクに近いk個の代表タスクの誤実行コストの平均(k近傍法)により、対象のタスクの誤実行コストが推定される。k近傍法は、オブジェクトの属性値を、k個の最近傍のオブジェクト群の属性値の平均値から求めるものである。より近いオブジェクトの属性値に大きく重み付けすることもできる。
誤実行コストの計算の具体例について説明する。
誤実行コストが予め設定された代表タスクi(i=1~N)のタスクベクトルTiが、下式(1)により表されるものとする。
Figure 0007136091000001
代表タスクの誤実行コストをCiとする。
誤実行コストを求める対象となるタスクのタスクベクトルUが、下式(2)により表されるものとする。
Figure 0007136091000002
この場合、タスクベクトルTiとUのコサイン類似度siは、下式(3)により表される。
Figure 0007136091000003
コサイン類似度siを元に、代表タスクを近い順にソートする。K≦NとなるK近傍のサンプルより、タスクベクトルUの誤実行コストCUは、下式(4)により推定される。
Figure 0007136091000004
このように、それぞれのタスクの誤実行コストは、代表タスクとの距離から推定される。なお、k近傍法を用いた誤実行コストの算出はあくまで一例であり、他の方法で算出されるようにしてもよい。
代表タスクや代表タスクの誤実行コストが、年齢や性別などの、ユーザの属性毎に用意されるようにしてもよい。ユーザの属性と同じ属性の代表タスクを元に誤実行コストを算出することにより、ユーザの属性にあった誤実行コストの推定が可能になる。
<多ユーザの利用データからの推定>
それぞれのタスクの誤実行コストを代表タスクの誤実行コストを用いて算出するのではなく、多ユーザの利用傾向から推定するようにしてもよい。
例えば、タスク実行確認においてタスクの実行をキャンセルするユーザの数(回数ではなく)が多いタスクは、その数が少ないタスクに対し、誤実行コストが相対的に高いと考えられる。また、多ユーザによって許容コストが低く設定されるタスクは、誤実行コストが相対的に高いと考えられる。
これらの関係に基づいて、タスク種別と実行時引数の組み合わせを入力とし、誤実行コストを出力とするようなモデルを学習によって生成し、モデルを用いて誤実行コストを求めるようにしてもよい。すなわち、この例においては、情報処理装置1と同様のエージェント機能を有する装置を使用している他の多くのユーザにとっての、タスク実行確認に対する反応に基づいて、誤実行コストが算出されることになる。
<金銭的に算出する例>
タスクの中には、誤実行コストを、現在の状態と望む状態との差分より、金銭的なコスト(金額)として明示的に見積もることができるものがある。
例えば、タクシーを配車するというタスクの場合、車の現在の場所と配車しようとする場所との距離や現在の交通事情などから、配車に必要な金額を見積もることができる。この場合、配車に必要な金額が、誤実行コストとして求められる。
また、室内の空調を制御するというタスクによって自宅のエアーコンディショナーを外出先から帰宅前につける場合、現在の室温、希望する室温、帰宅までの時間から、指定の温度に調整するために必要な電気代を見積もることができる。この場合、指定の温度に調整するために必要な電気代が、誤実行コストとして求められる。
図9は、配車に必要な金額を誤実行コストとして求める場合の例を示す図である。
図9の横軸は配車の距離(車の現在の場所と配車しようとする場所との距離)を示し、縦軸は金額を示す。配車の距離と金額は直線L1のように表される。このように、通常、配車の距離が長いほど金額が上がることになる。
配車の距離が距離D(a)として表される場合、誤実行コストは金額C(a)として求められる。
この場合、許容コストが例えばコスト(1)で表されるときには、確認度合いがより高くなり、ユーザにとって負担が大きい方法でタスク実行確認が行われる。また、許容コストが例えばコスト(2)で表されるときには、確認度合いが少し高くなり、ユーザにとって負担が少ない方法でタスク実行確認が行われる。許容コストが例えばコスト(3)で表されるときには、確認度合いが小さくなり、タスク実行確認なしにタスクが実行される。
また、配車の距離が距離D(b)として表される場合、誤実行コストは、距離D(a)の場合より高い金額C(b)として求められる。
この場合、許容コストが例えばコスト(1)で表されるときには、確認度合いが非常に高くなり、配車の距離が距離D(a)のときよりユーザにとって負担が大きい方法でタスク実行確認が行われる。また、許容コストが例えばコスト(2)で表されるときには、確認度合いが高くなり、配車の距離が距離D(a)のときよりユーザにとって負担が大きい方法でタスク実行確認が行われる。許容コストが例えばコスト(3)で表されるときには、確認度合いが少し高くなり、ユーザにとって負担が少ない方法でタスク実行確認が行われる。
このように、現在のユーザの状態とタスクを実行することによって実現しようとする状態との差分から実際にかかる金額を求め、求めた金額を誤実行コストとして扱うようにすることが可能である。ある状態と他の状態との差に応じた金額を求めるのに用いられる情報は情報処理装置1に予め用意される。
<<操作環境等のコンテキストによる追加の制御>>
ユーザが情報処理装置1を利用している環境に、例えばテレビジョン番組の音声や洗濯機の駆動音といった雑音がある場合、音声の誤認識が生じ、ユーザの意図が正しく情報処理装置1に伝わらない場合がある。また、情報処理装置1がスマートフォンのような機器であり、歩きながら使っていると操作を誤る場合がある。それ以外にも、情報処理装置1の連続利用時間が長い場合、疲れによる操作ミスの増加が考えられる。
これらのコンテキストは、情報処理装置1に設けられたセンサによって次のように検出することが可能である。
雑音:マイクロホンアレイを使い、ユーザの音声(人の声)とは異なる定常的な音、定常的な方向を音源方向とする音を雑音として検出する。
行動:加速度センサ、ジャイロセンサ、GNSSによる測位結果などに基づいて、移動速度や振動の特性から、歩いている、走っていることを検出する。
疲労度:睡眠センサの測定結果から特定される睡眠時間、情報処理装置1の利用履歴から特定される連続利用時間に基づいて、疲労度を検出する。
情報処理装置1は、これらの情報に基づいて、指示の内容がユーザの意図通りに情報処理装置1に伝わる精度を定量的に評価する。また、情報処理装置1は、評価値と基準値を比較し、差分に応じて確認度合いを調整する。
例えば、雑音が大きいことから、音声の誤認識が生じる可能性が高く、指示の内容がユーザの意図通りに伝わる精度が低い場合(評価値が基準値より低い場合)、情報処理装置1は、基準値と評価値との差分に応じて、確認度合いを上げるように調整する。
また、雑音が小さいことから、音声の誤認識が生じる可能性が低く、指示の内容がユーザの意図通りに伝わる精度が高い場合(評価値が基準値より高い場合)、情報処理装置1は、基準値と評価値との差分に応じて、確認度合いを下げるように調整する。
すなわち、雑音のレベルが高いほど、音声によるユーザの入力を検出する精度が低くなるものと考えられる。また、ユーザが歩いていたり走っていたりして動いている場合、ユーザの入力が安定せず、ユーザの入力を検出する精度が低くなるものと考えられる。さらに、ユーザの疲労度が高いほど、ユーザの入力が安定せず、ユーザの入力を検出する精度が低くなるものと考えられる。
このようなコンテキストに基づいて確認度合いを調整し、調整後の確認度合いに応じた方法でタスク実行確認が行われるようにすることより、ユーザの意図しないタスクが環境要因で実行されてしまうことを防ぐことが可能になる。
<<実行の停止>>
誤実行コストと許容コストの差が閾値より大きい場合、操作環境が悪かったり、タスクが間違って実行されたときの影響が非常に大きかったりする状況である可能性がある。この場合、情報処理装置1は、タスク実行確認を行わずに、タスクの実行を自動的に停止させる。
このとき、情報処理装置1は、タスクの実行を停止させたことを、誤実行コストが大きいと判断された要因に関する情報とともにユーザに提示する。例えば、「雑音が大きいため、実行しませんでした。再実行するには雑音が小さいところで試してください。」のシステム音声によってフィードバックすることにより、タスクの実行が停止された要因をユーザは確認することができる。
<<情報処理装置1の構成例>>
図10は、情報処理装置1のハードウェア構成例を示すブロック図である。
CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13は、バス14により相互に接続される。
バス14には、マイク15、センサ16、およびスピーカ17が接続される。マイク15はマイクロホンアレイにより構成され、ユーザの発話音声を検出する。センサ16は、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサにより構成される。センサ16は、加速度、角速度、現在位置などの検出結果を表す情報を出力する。スピーカ17は、システム発話による合成音声を出力する。
また、バス14には、ディスプレイ18と入力部19が接続される。ディスプレイ18は、LCDや有機ELディスプレイなどより構成される。ディスプレイ18は各種の画面を表示する。入力部19は、ディスプレイ18に重ねて設けられたタッチパネルや情報処理装置1の筐体に設けられた各種のボタンにより構成される。入力部19は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
バス14には、記憶部20と通信部21も接続される。記憶部20は、ハードディスクや不揮発性のメモリなどより構成される。記憶部20は、CPU11が実行するプログラムの他に、確認度合いの算出に用いられる情報、システム発話用の合成音声のデータなどの各種のデータを記憶する。
通信部21は、ネットワークインタフェースなどより構成される。通信部21は、無線や有線による通信を介して、ユーザが持つ携帯端末、インターネット上のサーバなどの外部の機器と通信を行う。
図11は、情報処理装置1の機能構成例を示すブロック図である。図11に示す機能部のうちの少なくとも一部は、図10のCPU11により所定のプログラムが実行されることによって実現される。
情報処理装置1においては、音声認識部31、言語解析部32、誤実行コスト算出部33、金額算出用現在値取得部34、および記憶部35が実現される。また、情報処理装置1においては、雑音推定部36、行動推定部37、利用ログ管理部38、確認度合い算出部39、確認アプリケーション実行部40、アプリケーション実行制御部41、許容コスト算出部42、および許容コスト設定部43が実現される。
音声認識部31は、マイク15から入力された音声信号に基づいて、ユーザの発話の音声認識を行う。音声認識部31は、ユーザの発話の内容を表す文字列を言語解析部32に出力する。言語解析部32に対する文字列の出力は、ユーザが発話を行う毎に行われる。
言語解析部32は、音声認識部31から供給された文字列の自然言語解析を行い、ユーザが音声UIによって入力したタスクのタスク種別と実行時引数を特定する。言語解析部32は、特定したタスクの情報を誤実行コスト算出部33とアプリケーション実行制御部41に出力する。
また、言語解析部32は、タスク実行確認時に入力された文字列を解析することによってユーザの反応を特定し、ユーザの反応を表す情報を確認アプリケーション実行部40に出力する。
誤実行コスト算出部33は、言語解析部32により特定されたタスクの誤実行コストを算出する。誤実行コストの算出には、適宜、金額算出用現在値取得部34により取得された情報や、記憶部35に記憶されている各種の情報が参照される。
例えば、誤実行コスト算出部33は、言語解析部32により特定されたタスクを、一般コスト記憶部113に記憶されている情報に基づいて分類し、タスクベクトルを算出する。また、誤実行コスト算出部33は、設定値記憶部112に記憶されている代表タスクの情報を読み出し、誤実行コストを求める対象となるタスクと代表タスクとの距離を求め、誤実行コストを算出する。
また、誤実行コスト算出部33は、言語解析部32により特定されたタスクが、誤実行コストを金額により見積もることができるタスクである場合、現在の状態と実現しようとする状態との差に基づいて、誤実行コストに相当する金額を算出する。金額の算出には、適宜、金額算出用情報記憶部111に記憶されている情報が参照される。誤実行コスト算出部33に対しては、現在の状態を表す情報が金額算出用現在値取得部34から供給される。
また、誤実行コスト算出部33は、他の多くのユーザによるタスク実行確認の傾向に基づいて誤実行コストを算出する場合、学習済みコストモデル記憶部114に記憶されているモデルを参照し、言語解析部32により特定されたタスクの誤実行コストを算出する。
誤実行コスト算出部33は、このようにして算出した誤実行コストの情報を確認度合い算出部39に出力する。
金額算出用現在値取得部34は、通信部21を制御して外部の装置と通信を行うなどして、現在の状態に関する各種の情報を取得する。
例えば、金額算出用現在値取得部34は、配車の金額を求めるのに用いられる、タクシーの現在位置の情報を、配車サービスで使われる各タクシーの位置を管理するサーバから取得する。また、金額算出用現在値取得部34は、温度の調整の金額を求めるのに用いられる現在の室温の情報を、エアーコンディショナーから取得する。金額算出用現在値取得部34は、取得した情報を誤実行コスト算出部33に出力する。
記憶部35は、金額算出用情報記憶部111、設定値記憶部112、一般コスト記憶部113、および学習済みコストモデル記憶部114により構成される。記憶部35は例えば記憶部20において実現される。記憶部35の各部に記憶されている情報は誤実行コスト算出部33により適宜参照される。
金額算出用情報記憶部111は、誤実行コストを金額により見積もる場合に用いられる各種の情報を記憶する。例えば、金額算出用情報記憶部111は、配車の金額を求めるのに用いられる、図9を参照して説明したような配車距離と金額に関する情報を記憶する。また、金額算出用情報記憶部111は、温度の調整の金額を求めるのに用いられる、単位時間あたりの電気料金の情報を記憶する。
設定値記憶部112は、代表タスクのタスクベクトルの情報と、代表タスクの誤実行コストの情報を記憶する。
一般コスト記憶部113は、タスクベクトルの生成に用いられる分類に関する情報などの、誤実行コストの算出に用いられる各種の情報を記憶する。
学習済みコストモデル記憶部114は、他の多くのユーザによるタスク実行確認の傾向に基づいて学習を行うことによって生成されたモデルを記憶する。例えば、モデルの学習は、インターネットを介して接続されるサーバにより行われる。サーバから送信されてきた情報が通信部21において受信され、学習済みコストモデル記憶部114に記憶される。
情報処理装置1と同様のエージェント機能を有する他の装置と通信を行うことによって、タスク実行確認の結果に関する情報を情報処理装置1が取得し、情報処理装置1においてモデルの学習が行われるようにしてもよい。
雑音推定部36は、マイク15から入力された音声信号を解析し、音声信号に含まれる雑音成分を推定する。上述したように、例えば、ユーザの音声とは異なる定常的な音、定常的な方向を音源方向とする音などが雑音として検出される。雑音推定部36は、推定した雑音に関する情報を確認度合い算出部39に出力する。
行動推定部37は、センサ16から入力された加速度、角速度などにより表される振動情報を解析し、ユーザが歩いている、走っているなどの、ユーザの行動を推定する。また、行動推定部37は、通信部21を制御することによって、ユーザが装着しているウェアラブルデバイスからユーザの睡眠に関する情報を取得し、睡眠時間を推定する。行動推定部37は、推定したユーザの行動と睡眠時間に関する情報を確認度合い算出部39に出力する。
利用ログ管理部38は、ユーザによる情報処理装置1の利用履歴を管理する。利用ログ管理部38は、情報処理装置1の連続利用時間に基づいてユーザの疲労度を算出し、連続利用時間と疲労度に関する情報を確認度合い算出部39に出力する。
このように、雑音推定部36、行動推定部37、および利用ログ管理部38は、コンテキストを検出する検出部として機能する。この例においては、雑音情報、行動情報、睡眠情報、連続利用時間、疲労度の情報がコンテキスト情報として用いられるものとされているが、ユーザの生体情報、現在の時間帯などの各種の情報がコンテキスト情報に含められるようにしてもよい。
確認度合い算出部39は、誤実行コスト算出部33により算出された誤実行コストと、許容コスト設定部43により設定された許容コストとの差に基づいて確認度合いを算出する。
また、確認度合い算出部39は、コンテキスト情報に基づいて、現在の状況においてユーザの意図通りに指示が伝わる精度を評価する。確認度合い算出部39は、ユーザの入力の精度に応じて確認度合いを調整する。
確認度合い算出部39に対しては、雑音推定部36から出力された雑音に関する情報、行動推定部37から出力されたユーザの行動と睡眠時間に関する情報、および、利用ログ管理部38から出力された連続利用時間と疲労度に関する情報がコンテキスト情報として入力される。
確認度合い算出部39は、算出した確認度合いの情報を確認アプリケーション実行部40に出力する。
確認アプリケーション実行部40は、タスク実行確認を行うためのアプリケーションの実行を制御し、確認度合い算出部39により算出された確認度合いに応じた方法でタスク実行確認を行う。
例えば、確認アプリケーション実行部40は、システム発話の信号をスピーカ17に出力し、システム発話を出力させる。確認アプリケーション実行部40に対しては、タスク種別と実行時引数の情報が言語解析部32から供給される。また、確認アプリケーション実行部40は、適宜、図示せぬ振動発生部を駆動させることによってバイブレーションを鳴らし、タスク実行確認をユーザに通知する。
確認アプリケーション実行部40に対しては、タスク実行確認に対するユーザの反応を表す情報も言語解析部32から供給される。確認アプリケーション実行部40は、ユーザがタスクの実行を許可している場合、タスクの実行を指示する情報をアプリケーション実行制御部41に出力する。また、確認アプリケーション実行部40は、ユーザがタスクの実行のキャンセルを指示している場合、タスクの実行のキャンセルを指示する情報をアプリケーション実行制御部41に出力する。確認アプリケーション実行部40は、タスク実行確認に対するユーザの反応を表す情報を許容コスト算出部42に出力する。
アプリケーション実行制御部41は、それぞれのタスクに関するアプリケーションの実行を制御する。例えば、アプリケーション実行制御部41は、タスクの実行を指示する情報が確認アプリケーション実行部40から供給された場合、言語解析部32により特定された種別のタスクに関するアプリケーションを起動し、実行時引数に応じた内容の処理を行わせる。
許容コスト算出部42は、タスク実行確認に対するユーザの反応に応じて、許容コスト設定部43が管理する各タスクの許容コストを更新する。
上述したように、許容コスト算出部42は、あるタスクのタスク実行確認に対してユーザが許可する場合、それまでの値より高くなるように許容コストを更新させる。また、許容コスト算出部42は、あるタスクのタスク実行確認に対してユーザがキャンセルする場合、それまでの値より低くなるように許容コストを更新させる。更新幅は、一定の幅であってもよいし、実行時引数などに応じて変わるようにしてもよい。
許容コスト設定部43は、各タスクの許容コストを管理し、適宜、許容コスト算出部42による制御に従って許容コストを変更する。許容コスト設定部43は、許容コストの情報を確認度合い算出部39に出力し、設定する。また、許容コスト設定部43は、許容コストの上限値を適宜設定する。
<<情報処理装置1の動作>>
ここで、図12のフローチャートを参照して、以上のような構成を有する情報処理装置1のタスク実行処理について説明する。
図12の処理は、タスクの実行を指示する音声がユーザにより入力されたときに開始される。
ステップS1において、音声認識部31は、マイク15から入力された音声信号に基づいて、ユーザの発話の音声認識を行う。
ステップS2において、言語解析部32は、音声認識により得られた文字列の自然言語解析を行い、ユーザが入力したタスクのタスク種別と実行時引数を特定する。
ステップS3において、誤実行コスト算出部33は、言語解析部32により特定されたタスクの誤実行コストを算出する。
ステップS4において、コンテキストの検出が行われる。すなわち、雑音推定部36は、マイク15から入力された音声信号に基づいて雑音成分を検出する。行動推定部37は、センサ16による検出結果に基づいてユーザの行動を推定するとともにユーザの睡眠時間を推定する。利用ログ管理部38は、ユーザによる情報処理装置1の利用履歴に基づいて、連続利用時間と疲労度を特定する。
ステップS5において、許容コスト設定部43は、確認度合いを算出するタスクに関する許容コストを設定する。
ステップS6において、確認度合い算出部39は、誤実行コスト算出部33により算出された誤実行コストと、許容コスト設定部43により設定された許容コストとの差を確認度合いとして算出する。確認度合い算出部39は、適宜、コンテキスト情報に基づいて確認度合いを調整する。
ステップS7において、確認アプリケーション実行部40は、確認度合い算出部39により算出された確認度合いに基づいて、タスク実行確認が必要か否かを判定する。
タスク実行確認が必要であるとステップS7において判定した場合、ステップS8において、確認アプリケーション実行部40は、確認度合いに応じた方法でタスク実行確認を行う。
ステップS9において、確認アプリケーション実行部40は、言語解析部32から供給された情報に基づいて、タスク実行確認に対するユーザの反応を検出する。検出されたユーザの反応を表す情報は許容コスト算出部42に供給される。
ステップS10において、許容コスト算出部42は、タスク実行確認に対するユーザの反応に応じて、許容コスト設定部43が管理する各タスクの許容コストを更新する。
ステップS11において、確認アプリケーション実行部40は、タスク実行確認に対するユーザの反応に基づいて、タスクの実行が許可されたか否かを判定する。
タスクの実行が許可されたとステップS11において判定された場合、ステップS12において、アプリケーション実行制御部41は、言語解析部32により特定された種別のタスクに関するアプリケーションを起動し、実行時引数に応じた処理を行わせる。
例えば許容コストが誤実行コストを超えていることから、タスク実行確認が必要ではないとステップS7において判定された場合、ステップS8乃至S11はスキップされ、ステップS12においてタスクが実行される。
タスクが実行された場合、または、タスク実行確認に対してタスクの実行のキャンセルがユーザにより指示されたとステップS11において判定された場合、処理は終了される。以上の処理が、タスクの実行を指示する音声がユーザにより入力される毎に繰り返される。
なお、許容コストの上限値を設定する処理、誤実行コストが許容コストを閾値以上超えている場合にタスクの実行を停止させる処理などの上述した各処理も、適宜行われる。
以上の処理により、タスク実行確認に対してユーザがタスクの実行を許可し続けた場合、タスク実行確認によるユーザの負担が徐々に軽くなり、最終的には、タスク実行確認なしにタスクが自動的に実行されることになる。これにより、ユーザは、確認のための手間をかけずにタスクを実行させることができる。
<<変形例>>
<画面UIにおけるタスク実行について>
ユーザによるタスクの実行が音声UIを用いて入力され、音声UIを用いてタスク実行確認が行われる場合について説明したが、以上のような処理は、画面UIを用いる場合にも適用可能である。
この場合、ディスプレイ18に表示された画面に対する操作によってタスクの実行がユーザにより指示される。また、ユーザの指示に応じてタスクを実行する前、タスク実行確認のための画面がディスプレイ18に表示される。
図13は、ディスプレイ18に表示される画面表示の例を示す図である。
図13に示す各画面はWebブラウザの画面である。図13の左端に示す画面D1の中央下方には、所定の処理の実行を指示するときに操作される実行ボタン251が表示されている。画面D1は、所定のタスクを実行する前の画面である。斜線を付して示すように実行ボタン251が操作された場合、ディスプレイ18の表示は画面D2に切り替わる。
画面D2にはダイアログボックス252が表示され、タスクを実行するか否かについての確認が行われる。ダイアログボックス252には、「〇〇〇でよろしいですか?」のメッセージが表示される。画面D2による確認が、上述したタスク実行確認に相当する。「〇〇〇」はタスクの内容に関する情報である。
メッセージの左下には、タスク実行確認が次から行われないようにするときにチェックが入れられるチェックボックス261が表示され、右下にはOKボタン262が表示される。図13の画面D2のチェックボックス261にはチェックが入れられていない。
OKボタン262が押下された場合、タスクが実行され、ディスプレイ18の表示は画面D3の表示に切り替わる。画面D3のダイアログボックス252には、「実行しました!」のメッセージが表示され、タスクが実行されたことがユーザに通知される。
この例の場合、タスクを実行する前、ユーザは、OKボタン262を押下するという操作が必要になる。
許容コストと誤実行コストの差が確認度合いとして算出され、確認度合いが所定の値以上である場合、図13に示すような方法でタスク実行確認が行われる。
図14は、ディスプレイ18に表示される画面表示の他の例を示す図である。
図14の左端に示す画面D1の表示は図13の画面D1の表示と同じである。実行ボタン251が押下された場合、画面D2に示すように、チェックボックス261に予めチェックが入れられた状態のダイアログボックス252が表示される。
この表示は、例えば、確認度合いが図13の場合より低いとき、すなわち、許容コストと誤実行コストの差が小さいときに行われる。ユーザは、チェックボックス261にチェックを入れないでも、OKボタン262を押下するだけで、タスク実行確認が次から行われないようにすることができる。
例えば、チェックボックス261にチェックを入れないでOKボタン262を押下してタスクの実行を許可するような反応をユーザが3回繰り返し行った場合、許容コストが上がり、図14の表示が行われる。
OKボタン262が押下された場合、タスクが実行され、ディスプレイ18の表示は画面D3の表示に切り替わる。
図15は、ディスプレイ18に表示される画面表示のさらに他の例を示す図である。
図15の左端に示す画面D1の表示は図13の画面D1の表示と同じである。実行ボタン251が押下された場合、図13、図14の画面D2に相当する画面が表示されずに、ディスプレイ18に表示は、画面D3の表示に切り替わる。
この表示は、例えば、許容コストが誤実行コストを超えているためにタスク実行確認が不要であると判断されたときに行われる。ユーザは、タスク実行確認を省略して、タスクを実行させることができる。
例えば、チェックボックス261にチェックを入れないでOKボタン262を押下してタスクの実行を許可するような反応をユーザが5回以上繰り返し行った場合、許容コストが上がり、図15の表示が行われる。
このように、タスク実行確認の方法を確認度合いに応じて行うことは、タスクの実行の入力とタスク実行確認を、画面UIによって行う場合にも適用可能である。
<コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、キーボード、マウスなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307が接続される。また、入出力インタフェース305には、ハードディスクや不揮発性のメモリなどよりなる記憶部308、ネットワークインタフェースなどよりなる通信部309、リムーバブルメディア311を駆動するドライブ310が接続される。
以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを入出力インタフェース305及びバス304を介してRAM303にロードして実行することにより、上述した一連の処理が行われる。
CPU301が実行するプログラムは、例えばリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部308にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
図11に示す各部のうちの一部の構成が、インターネット上のサーバにおいて実現されるようにすることが可能である。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
(1)
所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて、前記所定のタスクを実行することについての前記ユーザへの確認の度合いを算出する確認度合い算出部と、
前記度合いに応じた内容で前記確認を行う確認制御部と
を備える情報処理装置。
(2)
タスクの種別とタスク実行時の引数に基づいて前記第1のコストを算出する第1のコスト算出部をさらに備える
前記(1)に記載の情報処理装置。
(3)
前記第1のコスト算出部は、さらに前記ユーザの属性に基づいて前記第1のコストを算出する
前記(2)に記載の情報処理装置。
(4)
前記第1のコスト算出部は、前記所定のタスクと、基準となるコストが予め設定されたタスクとの、タスクの種別とタスク実行時の引数との組み合わせの類似度に基づいて前記第1のコストを算出する
前記(2)または(3)に記載の情報処理装置。
(5)
前記第1のコスト算出部は、前記確認に対する他の複数のユーザによる反応の傾向に基づいて、前記第1のコストを算出する
前記(2)または(3)に記載の情報処理装置。
(6)
前記第1のコスト算出部は、金額情報として表される前記第1のコストを算出する
前記(2)または(3)に記載の情報処理装置。
(7)
前記第1のコスト算出部は、現在の状況から、前記所定のタスクを実行した後の状況にまで変化させるのに必要な前記金額情報を算出する
前記(6)に記載の情報処理装置。
(8)
過去に行われた前記確認に対する前記ユーザの反応に基づいて、前記第2のコストを算出する第2のコスト算出部をさらに備える
前記(2)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記確認制御部は、前記度合いに応じて異なる入力を前記ユーザに求めることによって前記確認を行う
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記確認制御部は、前記所定のタスクを実行することを、前記度合いに応じて異なる方法で前記ユーザに提示する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
タスクの種別毎に、前記第2のコストの上限値を設定する設定部をさらに備える
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記確認度合い算出部は、前記ユーザの入力の精度に応じて、前記度合いを調整する
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記確認度合い算出部は、雑音のレベルに応じて前記精度を求める
前記(12)に記載の情報処理装置。
(14)
前記確認度合い算出部は、前記ユーザの疲労度に応じて前記精度を求める
前記(12)または(13)に記載の情報処理装置。
(15)
前記確認度合い算出部は、前記ユーザの行動に応じて前記精度を求める
前記(12)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記確認制御部は、前記第1のコストが前記第2のコストを閾値以上超えている場合、前記所定のタスクの実行を停止させる
前記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記確認制御部は、前記タスクの実行を停止させたことを、要因とともに前記ユーザに提示する
前記(16)に記載の情報処理装置。
(18)
所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて、前記所定のタスクを実行することについての前記ユーザへの確認の度合いを算出し、
前記度合いに応じた内容で前記確認を行う
ステップを含む情報処理方法。
(19)
所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて、前記所定のタスクを実行することについての前記ユーザへの確認の度合いを算出し、
前記度合いに応じた内容で前記確認を行う
ステップを含む処理をコンピュータに実行させるプログラム。
1 情報処理装置, 31 音声認識部, 32 言語解析部, 33 誤実行コスト算出部, 34 金額算出用現在値取得部, 35 記憶部, 36 雑音推定部, 37 行動推定部, 38 利用ログ管理部, 39 確認度合い算出部, 40 確認アプリケーション実行部, 41 アプリケーション実行制御部, 42 許容コスト算出部, 43 許容コスト設定部

Claims (19)

  1. 所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて前記ユーザへの確認の度合いを算出する確認度合い算出部と、
    前記度合いに応じた異なる入力を求めることによって前記確認を行う確認制御部と
    を備える情報処理装置。
  2. 前記確認は、前記所定のタスクを実行することについての確認である
    請求項1に記載の情報処理装置。
  3. タスクの種別とタスク実行時の引数に基づいて前記第1のコストを算出する第1のコスト算出部をさらに備える
    請求項1または2に記載の情報処理装置。
  4. 前記第1のコスト算出部は、さらに前記ユーザの属性に基づいて前記第1のコストを算出する
    請求項に記載の情報処理装置。
  5. 前記第1のコスト算出部は、前記所定のタスクと、基準となるコストが予め設定されたタスクとの、タスクの種別とタスク実行時の引数との組み合わせの類似度に基づいて前記第1のコストを算出する
    請求項に記載の情報処理装置。
  6. 前記第1のコスト算出部は、前記確認に対する他の複数のユーザによる反応の傾向に基づいて、前記第1のコストを算出する
    請求項に記載の情報処理装置。
  7. 前記第1のコスト算出部は、金額情報として表される前記第1のコストを算出する
    請求項に記載の情報処理装置。
  8. 前記第1のコスト算出部は、現在の状況から、前記所定のタスクを実行した後の状況にまで変化させるのに必要な前記金額情報を算出する
    請求項に記載の情報処理装置。
  9. 過去に行われた前記確認に対する前記ユーザの反応に基づいて、前記第2のコストを算出する第2のコスト算出部をさらに備える
    請求項3乃至8のいずれかに記載の情報処理装置。
  10. 前記確認制御部は、前記所定のタスクを実行することを、前記度合いに応じて異なる方法で前記ユーザに提示する
    請求項1乃至9のいずれかに記載の情報処理装置。
  11. タスクの種別毎に、前記第2のコストの上限値を設定する設定部をさらに備える
    請求項1乃至10のいずれかに記載の情報処理装置。
  12. 前記確認度合い算出部は、前記ユーザの入力の精度に応じて、前記度合いを調整する
    請求項1乃至11のいずれかに記載の情報処理装置。
  13. 前記確認度合い算出部は、雑音のレベルに応じて前記精度を求める
    請求項12に記載の情報処理装置。
  14. 前記確認度合い算出部は、前記ユーザの疲労度に応じて前記精度を求める
    請求項12または13に記載の情報処理装置。
  15. 前記確認度合い算出部は、前記ユーザの行動に応じて前記精度を求める
    請求項12乃至14のいずれかに記載の情報処理装置。
  16. 前記確認制御部は、前記第1のコストが前記第2のコストを閾値以上超えている場合、前記所定のタスクの実行を停止させる
    請求項1乃至15のいずれかに記載の情報処理装置。
  17. 前記確認制御部は、前記タスクの実行を停止させたことを、要因とともに前記ユーザに提示する
    請求項16に記載の情報処理装置。
  18. 所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて前記ユーザへの確認の度合いを算出し、
    前記度合いに応じた異なる入力を求めることによって前記確認を行う
    ステップを含む情報処理方法。
  19. 所定のタスクを実行することが誤りであった場合の第1のコストと、前記所定のタスクを誤って実行したことに対してユーザが許容する第2のコストとの関係に基づいて前記ユーザへの確認の度合いを算出し、
    前記度合いに応じた異なる入力を求めることによって前記確認を行う
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2019514382A 2017-04-27 2018-04-13 情報処理装置、情報処理方法、およびプログラム Active JP7136091B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017088347 2017-04-27
JP2017088347 2017-04-27
PCT/JP2018/015469 WO2018198812A1 (ja) 2017-04-27 2018-04-13 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2018198812A1 JPWO2018198812A1 (ja) 2020-03-05
JP7136091B2 true JP7136091B2 (ja) 2022-09-13

Family

ID=63919835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019514382A Active JP7136091B2 (ja) 2017-04-27 2018-04-13 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US11405522B2 (ja)
EP (1) EP3617872A4 (ja)
JP (1) JP7136091B2 (ja)
WO (1) WO2018198812A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
WO2018198812A1 (ja) * 2017-04-27 2018-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11804215B1 (en) * 2022-04-29 2023-10-31 Apple Inc. Sonic responses
JP7462995B1 (ja) 2023-10-26 2024-04-08 Starley株式会社 情報処理システム、情報処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148724A (ja) 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
JP2006139481A (ja) 2004-11-11 2006-06-01 Oki Electric Ind Co Ltd 自動取引装置
WO2017026239A1 (ja) 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5247580A (en) * 1989-12-29 1993-09-21 Pioneer Electronic Corporation Voice-operated remote control system
US6347315B1 (en) * 1997-12-12 2002-02-12 Canon Kabushiki Kaisha Method and apparatus for selecting and utilizing one of computers or databases
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
JP2005149481A (ja) 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
JP2005149480A (ja) 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US7437297B2 (en) * 2005-01-27 2008-10-14 International Business Machines Corporation Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
US20120253805A1 (en) * 2005-04-21 2012-10-04 Anthony Rajakumar Systems, methods, and media for determining fraud risk from audio signals
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
CN1905445B (zh) * 2005-07-27 2012-02-15 国际商业机器公司 使用可移动的语音标识卡的语音认证***及语音认证方法
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US7747446B2 (en) * 2006-12-12 2010-06-29 Nuance Communications, Inc. Voice recognition interactive system with a confirmation capability
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
JP6420769B2 (ja) * 2013-01-04 2018-11-07 コピン コーポレーション 二分岐音声認識
JP6065768B2 (ja) 2013-07-02 2017-01-25 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102357321B1 (ko) * 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
US9754093B2 (en) * 2014-08-28 2017-09-05 Ncr Corporation Methods and a system for automated authentication confidence
US10572810B2 (en) * 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10446137B2 (en) * 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10552781B2 (en) * 2016-10-24 2020-02-04 Accenture Global Solutions Limited Task transformation responsive to confidentiality assessments
WO2018198812A1 (ja) * 2017-04-27 2018-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10171662B1 (en) * 2017-09-22 2019-01-01 International Business Machines Corporation Intervention in conversation between virtual agent and user
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker
US11334877B2 (en) * 2019-02-11 2022-05-17 Bank Of America Corporation Security tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005148724A (ja) 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置
JP2006139481A (ja) 2004-11-11 2006-06-01 Oki Electric Ind Co Ltd 自動取引装置
WO2017026239A1 (ja) 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法

Also Published As

Publication number Publication date
EP3617872A4 (en) 2020-04-29
JPWO2018198812A1 (ja) 2020-03-05
EP3617872A1 (en) 2020-03-04
US11405522B2 (en) 2022-08-02
US20210127031A1 (en) 2021-04-29
WO2018198812A1 (ja) 2018-11-01

Similar Documents

Publication Publication Date Title
JP7136091B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102426704B1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
US11004451B2 (en) System for processing sound data and method of controlling system
KR102374910B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
KR102426717B1 (ko) 발화 인식 모델을 선택하는 시스템 및 전자 장치
KR102347208B1 (ko) 외부 장치를 이용한 태스크 수행 방법 및 이를 지원하는 전자 장치, 서버 및 저장 매체
US11048293B2 (en) Electronic device and system for deciding duration of receiving voice input based on context information
US11120792B2 (en) System for processing user utterance and controlling method thereof
US10911910B2 (en) Electronic device and method of executing function of electronic device
KR102361458B1 (ko) 사용자 발화 응답 방법 및 이를 지원하는 전자 장치
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
KR20190139489A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
KR102511517B1 (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR102421745B1 (ko) Tts 모델을 생성하는 시스템 및 전자 장치
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
KR102519635B1 (ko) 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
US11127400B2 (en) Electronic device and method of executing function of electronic device
KR102507249B1 (ko) 성능 모드 제어 방법 및 이를 지원하는 전자 장치
KR20240089626A (ko) 음성 발언 완료를 위한 연속 컨텐츠의 선택적 생성 및/또는 선택적 렌더링
KR20200092763A (ko) 사용자 음성을 처리하는 전자장치 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220815

R151 Written notification of patent or utility model registration

Ref document number: 7136091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151