JP7036015B2 - 対話制御装置および方法 - Google Patents

対話制御装置および方法 Download PDF

Info

Publication number
JP7036015B2
JP7036015B2 JP2018534342A JP2018534342A JP7036015B2 JP 7036015 B2 JP7036015 B2 JP 7036015B2 JP 2018534342 A JP2018534342 A JP 2018534342A JP 2018534342 A JP2018534342 A JP 2018534342A JP 7036015 B2 JP7036015 B2 JP 7036015B2
Authority
JP
Japan
Prior art keywords
utterance
comprehension
behavior
understanding
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018534342A
Other languages
English (en)
Other versions
JPWO2018034169A1 (ja
Inventor
広 岩瀬
真里 斎藤
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018034169A1 publication Critical patent/JPWO2018034169A1/ja
Application granted granted Critical
Publication of JP7036015B2 publication Critical patent/JP7036015B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本技術は対話制御装置および方法に関し、特に、より適切な対話制御を行うことができるようにした対話制御装置および方法に関する。
従来、ユーザとの音声対話を制御する技術が知られている。
例えばそのような技術として、ユーザに対して音声発話を要求するとともに、ユーザにより発話されたキーワードに基づいてユーザの理解度を判定し、その判定結果に応じて対話を進めていくものがある(例えば、特許文献1参照)。
また、例えばユーザとの対話をするにあたり、ユーザの相槌行為を検出したり、ユーザに相槌を要求したりする技術も提案されている(例えば、特許文献2参照)。
特開2005-234331号公報 特開平9-218770号公報
ところが、上述した技術ではユーザとの音声対話を適切に制御することは困難であった。
例えばキーワードに基づいてユーザの理解度を判定する技術では、ユーザの理解度に応じて音声入力を促すメッセージが出力される。しかし、ユーザへの伝達項目のリストが長かったり、伝達内容が長文であったりする場合など、システムが音声により提示する、ユーザに対して伝えたい情報の量が多い場合には、最適な粒度で、つまり最適なタイミングでユーザの理解度を測ることができない。
TTS(Text To Speech)での合成音声は速度や抑揚が一定であり、情報量が多く音声発話する文章が長くなると、ユーザが発話内容を理解し、集中して聞いているにも関わらず遅い速度で発話が行われたり、頻繁に音声入力を促されたりするなど、ユーザの状況に合わない対話制御が行われてしまうことがある。このような場合、ユーザが発話内容を理解しにくいだけでなく、発話内容も記憶しにくくなってしまう。
また、上述した技術では、音声対話中に、すなわち発話音声の文の途中で相槌や頷きなど、ユーザに対して負荷の低い理解行動自体を誘発することができない。
そのため、例えば文よりもさらに細かい文節や意味の区切りで理解行動を要求する頻度をユーザの集中度や理解度に応じて制御するなど、最適な粒度でユーザに負荷の低い理解行動を要求することができなかった。
本技術は、このような状況に鑑みてなされたものであり、より適切な対話制御を行うことができるようにするものである。
本技術の一側面の対話制御装置は、1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話を行わせ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話を制御し、前記発話テキストに基づく発話を途中で停止させた場合、前記発話テキストを含む通知情報の出力を制御する対話進行制御部を備える。
前記対話進行制御部には、前記ユーザによる前記理解行動が肯定的な行動であった場合、前記発話テキストのまだ発話がされていない次の文言を発話させるようにすることができる。
前記対話進行制御部には、前記ユーザによる前記理解行動が否定的な行動であった場合、直前に行われた発話を再度行わせるようにすることができる。
前記対話進行制御部には、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど前記理解行動の誘発回数が少なくなるように、前記発話テキストに基づく発話を制御させることができる。
前記対話進行制御部には、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど発話速度が速くなるように、前記発話テキストに基づく発話を制御させることができる。
前記対話進行制御部には、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど発話のトーンが高くなるように、前記発話テキストに基づく発話を制御させることができる。
前記対話進行制御部には、所定時間内に前記ユーザによる前記理解行動が検出されなかった場合、直前に行われた発話を再度行わせるか、または前記理解行動を要求する発話を行わせるようにすることができる。
前記対話進行制御部には、前記発話テキストに基づく文言に非完了文言を付加することで、前記理解行動を誘発する発話を行わせるようにすることができる。
前記対話進行制御部には、発話の語尾に抑揚を付加することで、前記理解行動を誘発する発話を行わせるようにすることができる。
前記対話進行制御部には、前記理解行動要求位置において間をあけることで前記理解行動を誘発する発話を行わせるようにすることができる。
対話制御装置には、前記発話テキストの文章における文として非完結な位置を前記理解行動要求位置として検出する理解行動要求位置検出部をさらに設けることができる。
前記理解行動要求位置検出部には、前記発話テキストの文章の述語節との係り受けに基づく位置を前記理解行動要求位置として検出させることができる。
前記理解行動要求位置検出部には、前記発話テキストの文章における同一の述語節に係る複数の対象格の文節または句のそれぞれの間の位置を前記理解行動要求位置として検出させることができる。
前記理解行動要求位置検出部には、前記発話テキストの文章における述語節に最初に係る文節または句の位置を前記理解行動要求位置として検出させることができる。
前記理解行動要求位置検出部には、前記発話テキストの文章における時間格、場所格、対象格、または原因格である文節または句の位置を前記理解行動要求位置として検出させることができる。
本技術の一側面の対話制御方法は、1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話を行わせ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話を制御し、前記発話テキストに基づく発話を途中で停止させた場合、前記発話テキストを含む通知情報の出力を制御するステップを含む。
本技術の一側面においては、1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話が行われ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話が制御される。また、前記発話テキストに基づく発話を途中で停止させた場合、前記発話テキストを含む通知情報の出力が制御される。
本技術の一側面によれば、より適切な対話制御を行うことができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
音声対話システムの構成例を示す図である。 理解行動要求位置の検出について説明する図である。 音声発話処理を説明するフローチャートである。 理解行動判定処理を説明するフローチャートである。 対話進行制御処理を説明するフローチャートである。 対話シーケンスの例について説明する図である。 理解行動要求位置の検出について説明する図である。 理解行動要求位置の検出について説明する図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈音声対話システムの構成例〉
本技術は、発話テキストを、ユーザに対して理解行動を要求する区間ごとに区切り、その区切りの位置でユーザに理解行動を求めるとともに、ユーザの理解行動と発話テキストとに基づいて次の発話音声を生成することで、適切な対話制御を行うことができるようにするものである。
特に、本技術は以下の2つの技術的な特徴を有している。
まず、第1の特徴として、本技術では音声発話する文章である発話テキストに対する自然言語解析によりユーザの相槌や頷きによる理解行動を求めるポイントが発話文章から抽出される。そして、音声発話時に発話テキストの途中に非完了文言や抑揚(イントネーション)を付加したり、長い間の時間を挿入したりすることによりユーザの理解行動を誘発するようになされる。
ここで、ユーザによる理解行動とは、ユーザが発話内容を理解しているか否かを示す頷きや相槌などの行動をいう。また、ユーザに理解行動を求めるポイント、つまり位置は、例えばユーザに対して伝達する羅列情報の切れ目の位置や、係り受けの分岐位置などとされる。このように、自然言語解析の結果に基づいてユーザに理解行動を求める位置を抽出することで、発話テキストごとに適切な粒度で、ユーザの理解行動を誘発することができる。これにより、適切な対話制御を実現することができる。
なお、以下では、ユーザに対して理解行動を求めるポイント(位置)を、特に理解行動要求位置とも称することとする。
また、第2の特徴として、本技術ではユーザの「相槌」や「頷き」などの理解行動の種別、すなわちユーザの理解行動が肯定的な行動であるか、または否定的な行動であるかの判定と、ユーザの理解行動までのレスポンス時間の測定とが行われる。そして、それらの判定結果と測定結果とに基づいて、ユーザの理解度や音声発話に対する意識の集中度が推定、判定され、その理解度や集中度に応じて、適宜、理解行動誘発を行いながらの発話進行が動的に制御される。
具体的には、例えば以下の制御C1乃至制御C4が行われる。
(制御C1)
発話テキストにおける理解行動要求位置で発話音声を一旦停止させ、ユーザによる肯定的な理解行動(了解)があるまでは発話の間をあけて発話を先に進めないように対話制御が行われる。
(制御C2)
理解行動の誘発後、一定時間が経過してもユーザによる理解行動がない場合には、直前の発話内容を繰り返したり、理解行動を催促する文言を挿入したり、それらの両方を行ったりするように対話制御が行われる。
(制御C3)
ユーザによる理解行動の種別が否定的であった場合、直前の発話内容を繰り返すように対話制御が行われる。
(制御C4)
ユーザの理解行動のレスポンス時間を測定し、そのレスポンス時間が短い場合にはユーザの理解度や集中度が高いと判定して、ユーザへの理解行動の誘発回数を減らし、発話音声の話速やトーンを上げていき、ユーザの理解度や集中度が低いと判定されたときには、誘発回数を増やし、発話音声の話速やトーンを下げていくような対話制御が行われる。
本技術では、以上のような対話制御を行うことで、ユーザの理解度や集中度に応じて適切なタイミングで理解行動を促し、自然な音声対話を実現することができる。
続いて、本技術を適用した具体的な実施の形態について説明する。
図1は、本技術を適用した音声対話システムの一実施の形態の構成例を示す図である。
図1に示す音声対話システムは、サーバ11およびクライアントデバイス12からなり、ユーザとの音声対話を行うシステムである。この例では、サーバ11と、スマートホンなどの端末装置からなるクライアントデバイス12とが有線や無線などにより直接的に、または通信網を介して間接的に接続されている。
サーバ11は対話制御装置として機能し、ユーザからの理解行動というフィードバックと、発話内容を示すテキストデータである発話テキストとから音声発話の音声データを生成し、クライアントデバイス12に出力する。
クライアントデバイス12は、サーバ11から供給された音声データに基づいてユーザに対して発話音声を出力するとともに、適宜、ユーザからのフィードバックを受けて、そのフィードバックをサーバ11に供給する。
サーバ11は、自然言語解析部21、理解行動要求位置検出部22、音声出力対話進行制御部23、音声合成エンジン24、音声認識エンジン25、行動認識エンジン26、および理解行動判定部27を有している。また、クライアントデバイス12は、音声再生デバイス31、音声入力デバイス32、およびセンサ33を有している。
なお、ここでは音声合成エンジン24がサーバ11に設けられる例について説明するが、音声合成エンジン24はクライアントデバイス12に設けられるようにしてもよい。
サーバ11の自然言語解析部21には、音声発話によってユーザに対して提示する情報内容の全文章である発話テキストが入力される。自然言語解析部21は、入力された発話テキストに対して自然言語解析を行って、その解析結果と発話テキストを理解行動要求位置検出部22に供給する。
理解行動要求位置検出部22は、自然言語解析部21から供給された解析結果と発話テキストに基づいて、発話テキストにより示される文章内における、ユーザへの理解行動を要求する理解行動要求位置を検出する。
この理解行動要求位置は、発話テキストに基づく発話時にユーザの理解行動を誘発する発話を行う位置の候補となる位置である。理解行動要求位置検出部22が発話テキストの文章から理解行動要求位置を検出すると、1または複数の理解行動要求位置で区切られた発話テキストが得られたことになる。
理解行動要求位置検出部22は、理解行動要求位置の検出結果と発話テキストを音声出力対話進行制御部23に供給する。
音声出力対話進行制御部23は、理解行動要求位置検出部22から供給された理解行動要求位置の検出結果および発話テキストと、理解行動判定部27から供給されたユーザの理解行動の判定結果とに基づいて、発話テキストに基づく音声発話を制御する。
すなわち、音声出力対話進行制御部23は、発話テキストに基づく発話文言を示すテキストデータを適切なタイミングで音声合成エンジン24に出力することで、ユーザとの対話制御を行う。このとき、音声出力対話進行制御部23は、必要に応じて、発話テキストにより示される発話文言に対して、ユーザの理解行動を誘発するための非完了文言を付加して出力したり、音声合成エンジン24に対して抑揚の付加を指示したり、発話文言の出力タイミングを制御することで発話の間をあけたりする。
なお、以下、発話文言に対して付加される、ユーザの理解行動を誘発するための非完了文言を理解行動誘発文言とも称することとする。
また、ここでは発話テキストにより示される発話文言に対して、適宜、理解行動要求位置において理解行動誘発文言が付加され、ユーザに対して理解行動を誘発する例について説明するが、ユーザ等による設定により、理解行動の誘発機能をオンまたはオフできるようにしてもよい。また、理解行動の誘発機能をオンするか、またはオフするかの設定結果が音声出力対話進行制御部23に記録できるようにしてもよい。
この場合、例えば理解行動の誘発機能がオフに設定されている場合には、音声出力対話進行制御部23は、特に理解行動誘発文言の付加等を行わず、発話テキストをそのまま音声合成エンジン24へと出力する。
音声合成エンジン24は、音声出力対話進行制御部23から供給された発話文言に基づいて、テキスト音声合成(TTS)により発話文言を音声で再生するための音声データを生成し、音声再生デバイス31へと出力する。すなわち、音声合成エンジン24では、発話文言を示すテキストデータが、その発話文言の音声データへと変換される。
音声再生デバイス31は、例えばスピーカなどからなる音声出力部を有しており、音声合成エンジン24から供給された音声データに基づいて発話文言の音声を再生する。
発話文言の音声が再生されると、ユーザはその再生音を聞き、状況に応じて相槌や頷きなどの理解行動を行う。換言すれば、理解行動の誘発に対するフィードバックとして、相槌や頷きなどの理解行動がユーザにより行われる。
音声入力デバイス32は、例えばマイクロホンなどからなり、理解行動としてのユーザの相槌の音声を収音し、その結果得られた音声収音データを音声認識エンジン25に供給する。音声認識エンジン25は、音声入力デバイス32から供給された音声収音データに対して音声認識を行い、その音声認識の結果を理解行動判定部27に供給する。例えば音声認識によって音声収音データに基づく相槌音声がテキスト化され、得られたテキストデータが音声認識の結果として理解行動判定部27に出力される。
センサ33は、例えばユーザの頭部などに取り付けられたジャイロセンサや、ユーザ近傍に配置された、ユーザの頭部の動きを検出するセンサ、ユーザの頭部の画像を撮像するイメージセンサなどからなり、ユーザの理解行動としての頷き、すなわちユーザの頭部の動きを検出し、その検出結果を行動認識エンジン26に供給する。
行動認識エンジン26は、センサ33から供給されたユーザの頷きの検出結果に基づいて行動認識を行うことで、ユーザの頷きの種別を認識(判定)し、その認識結果を理解行動判定部27に供給する。
理解行動判定部27は、音声認識エンジン25からの音声認識結果、および行動認識エンジン26からの頷きの種別の認識結果のうちの少なくとも何れか一方に基づいて、ユーザの理解行動が肯定的な理解行動であるか、または否定的な理解行動であるかを判定し、その判定結果を音声出力対話進行制御部23に供給する。
このようにして得られた理解行動の判定結果は、音声出力対話進行制御部23において、理解行動の誘発を行った発話の次の発話の制御に用いられる。
なお、理解行動判定部27での理解行動の判定処理では、音声認識エンジン25からの音声認識結果、および行動認識エンジン26からの頷きの種別の認識結果のうちの少なくとも何れか一方が用いられるようにすればよい。
例えば音声認識結果に基づいて理解行動の判定が行われる場合、理解行動判定部27では、音声認識結果に基づいて理解行動としてのユーザの相槌音声が肯定的な相槌であるか、または否定的な相槌であるかが判定される。
具体的には、例えば相槌音声として「うん」や「はい」などを示すテキストデータが音声認識の結果として得られた場合、理解行動判定部27は、ユーザの理解行動は肯定的な理解行動である、つまり相槌音声は肯定的な相槌であると判定する。
これに対して、例えば相槌音声として「え」や「なに」、「もう1回」などを示すテキストデータが音声認識の結果として得られた場合、理解行動判定部27は、ユーザの理解行動は否定的な理解行動である、つまり相槌音声は否定的な相槌であると判定する。
なお、音声認識エンジン25において、相槌音声を認識することができなかった場合には、例えば音声区間検出などで、ユーザから何らかの音声発話反応があったときに理解行動判定部27が、ユーザによる理解行動がなされたとし、理解行動の判定結果を出力するようにしてもよい。
そのような場合、例えば設計段階において音声認識エンジン25の性能、すなわち性能信頼度に応じて、相槌音声を認識することができなかったがユーザから何らかの音声発話反応があったときに、ユーザの理解行動を肯定的なものとするか、または否定的なものとするかを定めておけばよい。
例えば音声認識エンジン25の性能信頼度が低い場合には、ユーザから何らかの音声発話反応があったときに、そのユーザの理解行動を否定的なものとすると、音声発話(対話)が先に進まなくなってしまうので、肯定的な理解行動(肯定的な相槌音声)であると判定されるようにすればよい。
これに対して、音声認識エンジン25の性能信頼度が高い場合には、ユーザの再度の相槌を正しく認識できる可能性が高いので、ユーザから何らかの音声発話反応があったときには、その理解行動が否定的な理解行動(否定的な相槌音声)であると判定されるようにすればよい。
また、例えばユーザの頷きの種別の認識結果に基づいて理解行動の判定が行われる場合、理解行動判定部27では、その認識結果に基づいて、理解行動としてのユーザの頷きが、肯定的な頷きであるか、または否定的な頷きであるかが判定される。
例えばセンサ33がユーザの頭部などに取り付けられたジャイロセンサや、ユーザの頭部の動きを検出するセンサである場合、行動認識エンジン26はセンサ33からの出力に基づいて、ユーザが頭部(首)を縦方向に振る動きをしたか、またはユーザが頭部(首)を横方向に振る動きをしたかといった頷きの種別を認識する。
そして、理解行動判定部27は、その頷きの種別の認識結果に基づいて、ユーザが頭部を縦方向に振ったとの認識結果が得られた場合には、ユーザの理解行動は肯定的な理解行動であると判定する。これに対して、理解行動判定部27は、ユーザが頭部を横方向に振ったとの認識結果が得られた場合には、ユーザの理解行動は否定的な理解行動であると判定する。
また、例えばセンサ33がユーザの頭部の画像を撮像するイメージセンサなどからなる場合には、行動認識エンジン26において、センサ33で得られた画像に対して画像認識が行われ、ユーザの縦方向や横方向への頷き、つまり頷きの種別が認識される。
さらに、例えば音声認識エンジン25による音声認識結果と、行動認識エンジン26による頷きの種別の認識結果との両方が得られた場合には、判定エンジン、つまり音声認識エンジン25や行動認識エンジン26の認識の信頼度(認識精度)に応じて認識結果に優先順位をつけて理解行動の判定を行うようにしてもよい。
そのような場合、例えば行動認識エンジン26よりも音声認識エンジン25の信頼度が高いときには、理解行動判定部27は音声認識エンジン25による音声認識結果に基づいて理解行動の判定の処理を行う。また、理解行動判定部27は、音声認識エンジン25において音声認識が正しく行うことができなかった場合には、行動認識エンジン26による頷きの種別の認識結果に基づいて理解行動の判定の処理を行う。
さらに、例えば音声認識の結果として「うーん」などの曖昧な認識結果、すなわち肯定的とも否定的とも判定できる認識結果が得られた場合には、理解行動判定部27がユーザの相槌音声の抑揚やユーザの動き、ユーザの視線方向、ユーザの視線の動きなども用いて理解行動の判定を行うようにしてもよい。この場合、どのような音声認識結果が曖昧な認識結果とされるかは、予め曖昧な認識結果とされる単語を登録するなどして定めておけばよい。
例えば曖昧な音声認識結果が得られた場合、理解行動判定部27は行動認識エンジン26による頷きの種別の認識結果に基づいて、ユーザの理解行動を判定する。
また、例えば音声対話システムにおいて「うーん」などの曖昧な相槌音声について、その相槌音声を発しているときのユーザの頷きや視線方向、視線の動きなどのユーザの動き、またはユーザの音声の抑揚をフィードバック付き学習し、その学習結果を示す辞書を生成するようにしてもよい。
そのような場合、フィードバック付き学習時にはユーザは相槌音声を発するとともに、その相槌音声が肯定的なものであるか、または否定的なものであるかの入力を行う。そして、音声対話システムでは、その入力結果と、音声認識により得られた相槌音声の認識結果と、検出されたユーザの頷き等の動きまたは音声の抑揚とから辞書が生成される。
理解行動判定部27は、実際の音声の発話時に曖昧な相槌音声であるとの音声認識結果が得られたときには、音声入力デバイス32で収音された音声収音データから得られた音声の抑揚や、センサ33等で得られたユーザの動きなどと、予め記録している辞書とに基づいてユーザの理解行動を判定する。
なお、以上においては、ユーザの理解行動を検出するための構成として、クライアントデバイス12に音声入力デバイス32およびセンサ33が設けられている例について説明したが、その他、どのような方法によりユーザの理解行動が検出されるようにしてもよい。
例えばクライアントデバイス12に特定のボタンやタッチパネルを設け、ユーザがそのボタンを押下したり、タッチパネルをタッチしたりするようにしてもよい。すなわち、ユーザによるボタンやタッチパネル等に対する操作が理解行動として行われ、ユーザの音声対話システムに対するフィードバックが行われるようにしてもよい。
また、クライアントデバイス12に視線検出センサを設け、その視線検出センサの出力に基づいて、ユーザの理解行動の判定が行われてもよい。そのような場合、例えばユーザが対象機器などの特定の方向に視線を向けたことが検出されたときに、ユーザの理解行動が肯定的な理解行動であると判定される。
さらに、クライアントデバイス12においては、音声入力デバイス32やセンサ33は、音声再生デバイス31と一体的に設けられているようにしてもよいし、音声再生デバイス31が設けられた装置とは別に設けられていてもよい。
具体的には、例えば音声再生デバイス31がスマートホンに設けられており、音声入力デバイス32やセンサ33がそのスマートホンに接続されているようにしてもよい。そのような場合には、例えばスマートホンが音声入力デバイス32やセンサ33から、音声収音データやユーザの動きの検出結果を取得して、音声認識エンジン25や行動認識エンジン26に送信するようにしてもよい。
〈自然言語解析と理解行動要求位置について〉
続いて、理解行動要求位置検出部22による理解行動要求位置の検出方法の具体的な例について説明する。
例えば発話テキストとして、図2の矢印A11に示すように「今日のお出かけは、財布と携帯電話と鍵と弁当と時計を持って行ってください。夕方から雨が降るかもしれないので傘を持って行ってください。」というテキストデータが自然言語解析部21に入力されたとする。
このような場合に、自然言語解析部21において発話テキストに対する自然言語解析として例えば形態素解析が行われると、矢印A12に示す解析結果が得られる。形態素解析では、入力された発話テキストの文章が文節単位に区切られ、各文節の言語的な格の情報と、各文節の係り受けの構造を示す情報とが解析結果として得られる。
矢印A12に示す部分では各四角形が1つの文節を表しており、その四角形内には発話テキストの文節に区切られた文言、つまり文節を構成する文言が記されている。また、各文節を表す四角形同士を結ぶ線分は、文節同士の係り受けを表している。
すなわち、文節を表す四角形から延びる線分の終点は、その文節の係り先の文節となっている。したがって、例えば図中、一番上側の文節「今日の」は、文節「お出かけは」に係っていることが分かる。
また、矢印A12に示す部分では、各文節を表す四角形の図中、右側には、それらの文節の言語的な格が記されている。例えば図中、一番上側の文節「今日の」の言語的な格は連体修飾節であることが記されている。
このように自然言語解析部21では、自然言語解析の結果として、矢印A12に示すように文節の言語的な格の情報と、各文節の係り受けの構造を示す情報とが得られる。
理解行動要求位置検出部22は、自然言語解析部21から供給されたそれらの情報に基づいて、ユーザに対して理解行動を要求する位置、つまり、理解行動を誘発するための理解行動誘発文言を挿入(付加)する理解行動要求位置を検出する処理を行う。
具体的には、理解行動要求位置検出部22は、1つの文の中で同一の述語節の文節に係る複数の対象格の文節が存在するかを検出する。
例えば矢印A12に示した発話テキストの1文目の例では、複数の文節「財布と」、「携帯電話と」、「鍵と」、「弁当と」、および「時計を」がそれぞれ対象格となっており、それらの文節が、述語節である同一の文節「持って行ってください。」に係っている。
この例では、発話テキストの1文目は、お出かけの際にユーザが持っていくべきもの(アイテム)、つまりお出かけの際の持ち物リストを示す文章となっており、その持ち物リストにより示される持ち物(アイテム)の文節が同一の述語節の文節に係っている。すなわち、持ち物が羅列されている文章となっている。
このように、1つの文の中で同一の述語節の文節に係る複数の対象格の文節は、この例で示したお出かけ時の持ち物リストのようなユーザに対して提示される複数の羅列情報であることを意味している。換言すれば、同一の述語節の文節に複数の対象格の文節が係る文の構造は、ユーザに対して複数の羅列情報を提示していることを意味している。
そこで、このような同一の述語節の文節に係る複数の対象格の文節、すなわち羅列情報が検出された場合、理解行動要求位置検出部22は、それらの同一の述語節の文節に係る各対象格の文節の間の位置、つまり各羅列情報の文節の間の位置を理解行動要求位置とする。
これは、各羅列情報の文節の間の位置は文として完結していない非完結な位置であり、まだ続きがあることをユーザに連想させるため、これらの文節の間の位置では理解行動が誘発されやすく、かつ各アイテム(持ち物)に対する了解をユーザから得ることができるので、理解行動を求める位置として有効であるからである。
図2の例では、発話テキストの1文目の矢印W11乃至矢印W14に示される位置が理解行動要求位置検出部22により検出された理解行動要求位置となっている。具体的には、例えば矢印W11により示される理解行動要求位置は、文節「財布と」の直後の位置となっている。
また、理解行動要求位置検出部22は、発話テキストに複数の文が含まれる場合は、文と文の区切りの位置を理解行動要求位置とは判定しない。すなわち、2つ目以降の文では、その文の直前にある文の終了位置は、理解行動要求位置とはされず、文が続けて発話される。これは、文と文の間は、文として完結した位置であるから理解行動を誘発することが困難であるからである。例えば、文として完結している箇所でユーザの理解行動を求めた場合、ユーザは音声対話システムによる発話が終了したと受け取ってしまうことがある。
さらに、理解行動要求位置検出部22は、発話テキストに複数の文が含まれる場合、2つ目以降の文において、文の述語節の文節に対する最初の係り受けが発生する文節を検出し、その文節の直後の位置を理解行動要求位置とする。
これは、文の述語節に対する最初の係り受けが発生する文節の位置は、前述した例と同様に文として非完結の状態であり、さらに2つ目以降の文でも音声対話システムによる発話に対するユーザの集中度が持続しているかを確認するのに有効な位置(タイミング)となるからである。
図2の例では、2つ目の文において述語節である文節「持って行ってください。」に係る最初の文節「降るかもしれないので」の直後の位置、すなわち矢印W15に示す位置が理解行動要求位置とされている。ここでは、矢印W15に示すように連用修飾節の直後の位置が理解行動要求位置とされるので、文として完結しない位置でユーザに対して理解行動が要求されることになる。
なお、2つ目以降の文においても、羅列情報が検出された場合、つまり同一の述語節の文節に係る複数の対象格の文節が検出された場合、それらの対象格の文節の間の位置が理解行動要求位置とされるようにしてもよい。
以上の例では、理解行動要求位置検出部22は、発話テキストの文章内の述語節の文節に係る文節位置に基づいて、理解行動要求位置を検出(決定)している。すなわち、述語節との係り受けに基づく位置が理解行動要求位置として検出される。
〈音声発話処理および理解行動判定処理の説明〉
次に、図1に示した音声対話システムの動作について説明する。
例えば音声対話システムに発話テキストが供されると、音声対話システムは、音声発話を行ってユーザとの対話を行う音声発話処理と、音声対話システムの音声発話に対するユーザからのフィードバックに基づいて理解行動を判定する理解行動判定処理を行う。これらの音声発話処理と理解行動判定処理は同時に行われる。
まず、図3のフローチャートを参照して、音声対話システムによる音声発話処理について説明する。
ステップS11において、自然言語解析部21は、供給された発話テキストに対して自然言語解析を行い、その解析結果と発話テキストを理解行動要求位置検出部22に供給する。例えばステップS11では、図2を参照して説明したように形態素解析が行われる。
ステップS12において、理解行動要求位置検出部22は、自然言語解析部21から供給された解析結果と発話テキストに基づいて理解行動要求位置を検出し、その検出結果と発話テキストを音声出力対話進行制御部23に供給する。
例えばステップS12では、図2を参照して説明したように羅列情報である対象格の文節の間の位置や、2つ目以降の文における述語節に対する最初の係り受けが発生する文節の直後の位置などが理解行動要求位置として検出される。
ステップS13において、音声出力対話進行制御部23は、理解行動要求位置検出部22から供給された理解行動要求位置の検出結果および発話テキストと、理解行動判定部27から供給されたユーザの理解行動の判定結果とに基づいて、次に発話させる発話文言のテキストデータを音声合成エンジン24に出力する。このとき、音声出力対話進行制御部23は、音声合成エンジン24に対して、必要に応じて理解行動誘発文言部分での抑揚の付加も指示する。また、音声出力対話進行制御部23は、適宜、発話文言のテキストデータの出力タイミングを制御することで発話の間をあける。
ここで、ステップS13において用いられる理解行動の判定結果は、図4を参照して後述する理解行動判定処理により得られたものとされる。
音声出力対話進行制御部23は、理解行動要求位置ごとに次に発話させる発話文言を決定し、決定した発話文言のテキストデータを出力することで、ユーザとの音声対話の進行を制御する。また、音声出力対話進行制御部23は、理解行動誘発文言が付加された発話文言のテキストデータを出力したときには、次の発話文言のテキストデータの出力までに、予め定めた長さの時間である間を設けて理解行動の誘発を行う。
なお、より詳細には、次に発話させる発話文言を決定するにあたっては、理解行動の判定結果だけでなく、ユーザの理解度および集中度を示す理解・集中度も用いられる。この理解・集中度は、ユーザが音声対話システムによる音声発話に対して、どれだけ意識を集中させ、発話内容を理解できているかを示すパラメータである。
ステップS14において、音声合成エンジン24は、音声出力対話進行制御部23から供給された発話文言のテキストデータに基づいて、テキスト音声合成により発話文言を音声で再生するための音声データを生成し、音声再生デバイス31へと出力する。
ステップS15において、音声再生デバイス31は、音声合成エンジン24から供給された音声データに基づいて発話文言の音声を再生する。
ユーザは、このようにして発話された音声に対して、適宜、理解行動によりフィードバックを行い、音声対話システムとの音声対話を行う。このときユーザにより行われた理解行動、つまりフィードバックに対して、図4を参照して後述する理解行動判定処理が行われる。
ステップS16において、音声出力対話進行制御部23は、ユーザとの音声対話を終了するか否かを判定する。例えば入力された発話テキストの内容が全て発話された場合、音声対話を終了すると判定される。
ステップS16において、音声対話を終了しないと判定された場合、まだ発話していない内容が残っているので、処理はステップS13に戻り、上述した処理が繰り返し行われる。すなわち、次の文言の発話が行われる。
これに対して、ステップS16において音声対話を終了すると判定された場合、音声発話処理は終了する。
以上のようにして音声対話システムは、発話テキストに対する自然言語解析の結果に基づいて理解行動要求位置を検出し、その検出結果と理解行動の判定結果とに基づいて次の文言を発話する。このようにすることで、適切なタイミングでユーザに対して相槌や頷きなどの負荷の低い理解行動を誘発し、対話を進めることができる。すなわち、より適切な対話制御を行うことができる。
続いて、図4のフローチャートを参照して、図3を参照して説明した音声発話処理と同時に行われる、音声対話システムによる理解行動判定処理について説明する。
図3のステップS15で音声対話システムにより理解行動を誘発する音声発話が行われると、ユーザはその音声発話に対して理解行動を行う。例えばユーザは理解行動として、相槌を打ったり頷いたりするという否定的または肯定的な行動を行う。
すると、ステップS41において、音声入力デバイス32は、理解行動としてのユーザの相槌の音声を収音し、その結果得られた音声収音データを音声認識エンジン25に供給する。
ステップS42において、音声認識エンジン25は、音声入力デバイス32から供給された音声収音データに対して音声認識を行い、その音声認識の結果を理解行動判定部27に供給する。
また、ステップS43において、センサ33は、ユーザの頭部の動き、つまり頷きをユーザの理解行動として検出し、その検出結果を行動認識エンジン26に供給する。
ステップS44において、行動認識エンジン26は、センサ33から供給されたユーザの理解行動の検出結果に基づいて行動認識を行うことで、ユーザの頷きの種別を認識(判定)し、その認識結果を理解行動判定部27に供給する。
なお、より詳細には、ステップS41およびステップS42の処理と、ステップS43およびステップS44の処理とは並行して行われる。また、ステップS41およびステップS42の処理と、ステップS43およびステップS44の処理とのうちの何れか一方のみが行われるようにしてもよい。
ステップS45において、理解行動判定部27は、音声認識エンジン25からの音声認識結果、および行動認識エンジン26からの頷きの種別の認識結果のうちの少なくとも何れか一方に基づいて理解行動判定を行い、その判定結果を音声出力対話進行制御部23に供給する。
理解行動判定では、ユーザの理解行動が肯定的な理解行動であるか、または否定的な理解行動であるかが判定され、その判定結果が次に行われる図3のステップS13の処理で用いられる。換言すれば、理解行動判定によって、ユーザによる肯定的または否定的な理解行動が検出されることになる。
例えば理解行動判定では、音声認識エンジン25での音声認識の結果として、ユーザの相槌音声「うん」や「はい」などが検出された場合、ユーザの理解行動は肯定的な理解行動であると判定され、肯定的な理解行動である旨の判定結果が出力される。
また、例えば行動認識エンジン26での頷きの種別の認識結果として、ユーザが頭部を縦方向に振ったとの認識結果が得られた場合には、ユーザの理解行動は肯定的な理解行動であると判定され、肯定的な理解行動である旨の判定結果が出力される。
なお、上述したように音声認識エンジン25からの音声認識結果、および行動認識エンジン26からの頷きの種別の認識結果の何れか一方のみが用いられて理解行動判定が行われてもよいし、それらの両方が用いられて理解行動判定が行われてもよい。
ステップS46において、理解行動判定部27は、理解行動判定を終了するか否かを判定する。例えば図3を参照して説明した音声発話処理において、音声対話を終了するとされた場合、理解行動判定を終了すると判定される。
ステップS46において理解行動判定を終了しないと判定された場合、処理はステップS41に戻り、上述した処理が繰り返し行われる。すなわち、ユーザによる次の理解行動について理解行動判定が行われる。
これに対して、ステップS46において理解行動判定を終了すると判定された場合、理解行動判定処理は終了する。
以上のようにして音声対話システムは、ユーザとの音声対話が開始されると、その対話時におけるユーザの理解行動に対して、肯定的な理解行動であるか、または否定的な理解行動であるかの理解行動判定を行う。このようにして理解行動判定を行うことで、その判定結果を用いて、より適切な対話制御を行うことができるようになる。
〈対話進行制御処理の説明〉
続いて、図3を参照して説明した音声発話処理のステップS13において、音声出力対話進行制御部23が理解行動要求位置ごとに、次に発話させる発話文言を決定して音声発話、つまり音声対話の進行を制御する処理である対話進行制御処理の具体例について説明する。すなわち、以下、図5のフローチャートを参照して、音声出力対話進行制御部23により行われる対話進行制御処理について説明する。
この対話進行制御処理は、図3のステップS13において、発話テキストの文章における理解行動要求位置ごとに行われる。すなわち、発話テキストの文章の理解行動要求位置の直前の文節を音声発話するタイミングで対話進行制御処理が行われる。
以下では、特に発話テキストの文章における理解行動要求位置の直前の文節の文言、つまりこれから発話される文言を特に処理対象文言とも称することとする。
ステップS71において、音声出力対話進行制御部23は、保持している理解・集中度が予め定められた所定の閾値th1以上であるか否かを判定する。
ここで、理解・集中度は、ユーザが音声対話システムによる音声発話に対して、どれだけ意識を集中させ、発話内容を理解できているかを示すパラメータであり、例えば音声対話開始時には、予め定められた初期値とされる。このとき、理解・集中度の初期値は、例えば閾値th1未満の値となるように定められる。
理解・集中度の値は、例えば理解行動要求位置で文言を発した直後のタイミングなど、ユーザとの音声対話を行っていく過程で累積的に更新されていき、更新された理解・集中度の値は次の理解行動要求位置等で使用される。
さらに、ここでは理解・集中度の値が大きいほどユーザが意識を集中させ、高い理解度で対話を行っているものとする。すなわち、理解・集中度の値が大きいほど、音声対話に対するユーザの集中度および理解度が高いものとする。
ステップS71において理解・集中度が閾値th1以上であると判定された場合、つまりユーザの集中度および理解度が十分に高い状態であると判定された場合、処理はステップS72へと進む。
ステップS72において、音声出力対話進行制御部23は発話時における発話速度の設定を行う。
例えばステップS72が行われる状態では、ユーザが十分集中および理解している状態であるので、ある程度速い速度で処理対象文言が発話されるように発話速度が定められる。具体的には、例えば発話速度が現在の理解・集中度の値に対して定められた速度となるように発話速度が決定される。この場合、理解・集中度の値が大きいほど、発話速度が速くなるようになされる。また、例えば発話速度がこれまでの値から所定値だけ上がるように発話速度が決定されるようにしてもよい。
ステップS73において、音声出力対話進行制御部23は、処理対象文言のテキストデータを音声合成エンジン24に出力し、理解行動の誘発をせずに、ステップS72で定められた発話速度で処理対象文言が発話されるように処理対象文言の音声を発話させる。
この場合、音声合成エンジン24は、音声出力対話進行制御部23の制御に従って、供給された処理対象文言が指定された発話速度で再生される音声データを生成し、音声再生デバイス31に供給する。このとき、理解行動の誘発は行われないので、処理対象文言には、理解行動誘発文言は付加されない。また、音声再生デバイス31は音声合成エンジン24からの音声データに基づいて、処理対象文言の音声を再生する。このようにして処理対象文言の音声データを生成し、再生する処理は、図3のステップS14およびステップS15の処理に対応する。
このような場合、処理対象文言に理解行動誘発文言が付加されない状態で、かつ比較的速い速度で処理対象文言の音声が発話される。このように、ユーザの集中度や理解度が高い状態では、理解行動要求位置であっても特に理解行動の誘発をせずに、比較的速い速度で音声発話を行うことで、ユーザの集中度や理解度、つまりユーザの状況に応じた適切な音声対話を実現することができる。
なお、ここでは理解・集中度が閾値th1以上であるか否か、つまり理解・集中度に応じて発話速度が変更(決定)される場合について説明するが、発話速度だけでなく発話音声のトーンも変更(決定)されるようにしてもよい。この場合、例えば理解・集中度の値が大きく、ユーザの集中度および理解度が高いほど、発話音声のトーンが高くなるように、処理対象文言のトーンが決定されるようにすることができる。
ステップS74において、音声出力対話進行制御部23は、保持している理解・集中度の値を予め定められた微小値だけ下げた後、処理対象文言を発話テキストにおける、発話が終了した文言の次の文言、つまり次の文節の文言として対話進行制御処理は終了する。
ステップS74において、理解・集中度が微小値だけ下げられる(減少させる)のは、その後の対話において、理解行動誘発が1度も行われなくなってしまうことを防止するためである。このようにユーザの集中度や理解度が十分に高い場合でも、適宜、理解行動が誘発されるように理解・集中度の更新を行うことで、ユーザの集中を維持させ、より適切な対話制御を実現することができる。
また、ステップS71において、理解・集中度が閾値th1以上でないと判定された場合、すなわちユーザの集中度や理解度が十分に高いとはいえない場合、処理はステップS75へと進む。
ステップS75において、音声出力対話進行制御部23は、処理対象文言に対して理解行動誘発文言を付加するとともに、その理解行動誘発文言の部分、つまり理解行動誘発文言が付加された文言(発話)の語尾の抑揚が上がるように抑揚の付加を行う。
例えば理解行動誘発文言として「ね」や「ですね」などが付加されて、その語尾の抑揚が上げられる。具体的には、例えば処理対象文言が「財布と」である場合、理解行動誘発文言として「ね」が付加されて発話文言が「財布とね」とされるとともに、その語尾部分の「とね」の抑揚が上がるようになされる。
ステップS76において、音声出力対話進行制御部23は、発話時における発話速度の設定を行う。
ステップS76ではステップS72と同様にして発話速度の設定が行われるが、例えばステップS76の処理が行われる場合には、ユーザの集中度や理解度が十分に高いとはいえない状態であるので、処理対象文言が比較的遅い速度で発話されるように、発話速度が下げられる。すなわち、例えば発話速度が現時点での理解・集中度に対して定められた値となるように変更される。その他、例えば現時点での発話速度の値が予め定められた所定値だけ下げられるようにしてもよい。
また、ステップS76においても、発話速度だけでなく発話のトーンも変更されるようにしてもよい。そのような場合、例えばユーザの集中度や理解度が低い時には、発話音声のトーンが低くなるように発話時のトーンが定められる。すなわち、理解・集中度に基づいて発話時のトーンの高さが定められる。
ステップS77において、音声出力対話進行制御部23は、理解行動誘発文言が付加された処理対象文言のテキストデータを音声合成エンジン24に出力し、理解行動の誘発が行われるように、理解行動誘発文言が付加された処理対象文言の音声を発話させる。すなわち、音声出力対話進行制御部23は、理解行動要求位置においてユーザの理解行動を誘発する発話を行わせる。
この場合、音声出力対話進行制御部23は、音声合成エンジン24に対して理解行動誘発文言の付加された処理対象文言がステップS76で定めた発話速度で発話されるように指示するとともに、語尾への抑揚の付加も指示する。また、音声出力対話進行制御部23は発話に間があけられるようにし、理解行動誘発文言と、発話の語尾の抑揚と、発話の間によって、ユーザの理解行動が誘発されるようにする。
音声合成エンジン24は、音声出力対話進行制御部23の制御に従って、供給された文言、つまり処理対象文言と理解行動誘発文言を、指定された発話速度および抑揚で再生するための音声データを生成し、音声再生デバイス31に供給する。また、音声再生デバイス31は音声合成エンジン24からの音声データに基づいて、処理対象文言とそれに付加された理解行動誘発文言の音声を再生する。このようにして処理対象文言等の音声データを生成し、再生する処理は図3のステップS14およびステップS15の処理に対応する。
音声の再生により、処理対象文言に理解行動誘発文言が付加され、語尾の抑揚が上がるように、かつ比較的遅い速度で処理対象文言の音声が発話される。このように、ユーザの集中度や理解度が十分でない状態では、ユーザに対して適宜、理解行動の誘発を行い、比較的遅い速度で音声発話を行うことで、ユーザの集中度や理解度に合わせた適切な音声対話を実現することができる。
また、音声発話が行われると、ユーザによる理解行動の待ち状態となる。すなわち、音声出力対話進行制御部23による発話制御によって、ユーザの理解行動誘発のために間があけられる。
この場合、音声出力対話進行制御部23は、音声合成エンジン24に音声発話の文言を出力したタイミング、つまり音声発話を指示したタイミングでレスポンス時間の計測を開始する。
ここで、レスポンス時間とは、音声発話を指示してから、その音声発話に対してユーザが何らかの理解行動を行うまでの時間、すなわちユーザの応答時間である。
処理対象文言と理解行動誘発文言が発話された後の理解行動の待ち状態では、音声対話システムによる発話の文は完結していない状態であることと、理解行動誘発文言と語尾に付加された抑揚と発話の間とから、ユーザによる理解行動が誘発されることになる。ユーザは、発話された音声に対して、相槌や頷きなどの理解行動を行って、自身の理解の状態をフィードバックする。
なお、ステップS77での音声発話時には、クライアントデバイス12においてLED(Light Emitting Diode)の点灯や他の視覚的な提示が可能である場合には、LEDの点灯やアイコン等の提示などにより、音声対話システムが停止状態でないことをユーザに提示するようにしてもよい。また、停止状態でないことのユーザへの提示は、その他、例えば定期的な効果音の再生などにより行われてもよい。さらに、ユーザに対して理解行動が要求されている旨を視覚的または聴覚的に提示(通知)するようにしてもよい。
以上のようにしてユーザの理解行動の待ち状態となると、ステップS78において、音声出力対話進行制御部23は、レスポンス時間の計測を開始してから規定時間内に、ユーザによる理解行動があったか否かを判定する。すなわち、規定時間内にユーザの理解行動が検出されたかが判定される。
例えばステップS78では、レスポンス時間の計測を開始してから規定時間内に、理解行動判定部27から理解行動の判定結果が供給された場合に、規定時間内に理解行動があったと判定される。
なお、ここでの規定時間は予め定められた固定の時間とされてもよいし、理解・集中度などに応じて動的に定められる時間とされるようにしてもよい。例えば理解・集中度により規定時間が定められるときには、理解・集中度が高いほど規定時間を短くするなどとすることで、ユーザの集中度および理解度に応じた適切な時間を定めることができる。
ステップS78において、規定時間内に理解行動がなかったと判定された場合、音声発話がなされた後、しばらくしてもユーザは理解行動をしなかったので、ステップS79において、音声出力対話進行制御部23は保持している理解・集中度の値を下げる。
ステップS79では、例えばステップS74の処理で理解・集中度が下げられるよりも、より大きく理解・集中度の値が下がるように、理解・集中度が更新される。これは、ユーザが理解行動をしなかったということは、ユーザが音声発話を聞いていなかったり、発話内容を十分に理解していなかったりしている状況であるからである。
ステップS80において、音声出力対話進行制御部23は、ステップS79での更新後の理解・集中度が予め定められた所定の閾値th2以上であるか否かを判定する。
ここで、閾値th2の値は、例えば上述した閾値th1の値よりも小さい、予め定められた値とされる。
ステップS80において、理解・集中度が閾値th2以上でないと判定された場合、ステップS81において、音声出力対話進行制御部23は、ユーザは音声対話システムによる音声発話を全く聞いていないものとして、ユーザとの音声対話を終了(停止)させ、対話進行制御処理は終了する。この場合、その後の図3の音声発話処理のステップS16では音声対話を終了すると判定されることになる。
なお、ステップS81で音声対話を終了させる場合、音声出力対話進行制御部23は、発話テキストを未発話状態であるとして、その発話テキスト等を記録しておき、しばらく時間が経過してから、再度、発話テキストの内容の音声発話を行うようにしてもよい。この場合、音声発話が行われるタイミングは、例えば一定時間が経過した後、再度、センサ33等によりユーザの存在が認識されたときや、他の発話テキストの音声発話の終了時など、ユーザの理解・集中度が高い状態のときなどとすることができる。
未発話状態の発話テキストの音声発話を行う際には、発話テキストの文章の最初から音声発話を行うようにすればよい。
また、ステップS81で音声対話を終了させる場合、すなわち音声対話を途中で停止させた場合、音声出力対話進行制御部23は、例えば音声対話を終了させた旨のメッセージと、発話テキストとが含まれる通知情報を生成し、通知情報の出力を制御してもよい。これにより、音声対話以外の方法でユーザに対して発話テキストの内容を通知することができる。
そのような場合、例えば音声出力対話進行制御部23は、通知情報をサーバ11に設けられた図示せぬ通信部によりクライアントデバイス12としてのスマートホン等の端末装置に送信し、通知情報により示される発話テキストの内容等をクライアントデバイス12に表示させる。例えば通知情報の送信方法、つまり通知方法は、電子メールや、クライアントデバイス12にインストールされたアプリケーションプログラムの通知機能など、どのような方法であってもよい。
これにより、例えばノーティフィケーション機能を利用して、クライアントデバイス12のステータスバーに通知情報を受信した旨等を表示させたり、通知情報をクライアントデバイス12の表示画面にポップアップ表示させたりすることができる。その結果、ユーザに発話テキストの内容を通知することができる。
また、発話テキストの内容を含む通知情報を送信するのではなく、発話テキストの内容の確認を促すメッセージのみが含まれる通知情報を送信するようにしてもよい。
一方、ステップS80において、理解・集中度が閾値th2以上であると判定された場合、ユーザは集中度および理解度は低いが、まだ音声発話を聞いているとし、処理はステップS82へと進む。
ステップS82において、音声出力対話進行制御部23は、ユーザに対して理解行動要求を行う音声を発話させる。
すなわち、音声出力対話進行制御部23は、例えば「いいですか?」など、ユーザに対して理解行動を直接的に促す(要求する)旨の文言である理解行動要求文言のテキストデータを音声合成エンジン24に出力し、音声発話を指示する。
すると、音声合成エンジン24は、音声出力対話進行制御部23の指示に従って、供給された理解行動要求文言のテキストデータから、その理解行動要求文言の音声データを生成し、音声再生デバイス31に供給する。また、音声再生デバイス31は音声合成エンジン24からの音声データに基づいて、理解行動要求文言の音声を再生する。これにより、ユーザに対して理解行動を要求する発話が行われる。このようにして理解行動要求文言の音声を再生することで、ユーザに理解行動を促すことができる。
なお、理解行動要求文言は「いいですか?」に限らず、他のどのような文言であってもよい。例えばユーザの理解・集中度が著しく低い場合には、理解行動要求文言として「聞いてる?」などの文言を発話するようにしてもよい。
また、ステップS82において、理解行動要求文言を発話させるのではなく、現在の処理対象文言と、その処理対象文言に付加された理解行動誘発文言とが再度、発話されるようにしてもよい。すなわち、ステップS77の処理での理解行動を誘発する音声発話を再度行うことで、直前の発話が繰り返されるようにしてもよい。
さらに、ステップS82において、理解行動要求文言を発話させるとともに、現在の処理対象文言とその処理対象文言に付加された理解行動誘発文言とを再度、発話させるようにしてもよい。その他、ステップS78で規定時間内に理解行動がなかったと判定された場合に、直前に行った処理対象文言と理解行動誘発文言の発話が繰り返し行われるようにしてもよい。
ステップS82において理解行動要求文言の発話が行われると、その後、処理はステップS78に戻り、上述した処理が繰り返し行われる。
また、ステップS78において規定時間内に理解行動があったと判定された場合、つまり、規定時間内に理解行動判定部27から音声出力対話進行制御部23に理解行動の判定結果が供給された場合、音声出力対話進行制御部23はレスポンス時間の計測を停止し、処理はステップS83へと進む。
このようにしてレスポンス時間の計測を停止させることで、処理対象文言の音声発話が指示されてから、理解行動の判定結果が供給されるまでの時間であるレスポンス時間が得られる。このレスポンス時間は、音声発話が行われてから、ユーザがその音声発話に対する理解行動を行うまでの応答時間を示しているということができる。
また、規定時間内に理解行動があったと判定された場合、つまり規定時間内にユーザの理解行動が検出された場合、音声出力対話進行制御部23は、そのユーザの理解行動の検出結果と発話テキストに基づいて、次の発話を制御する。
すなわち、ステップS83において、音声出力対話進行制御部23は、理解行動判定部27から供給された理解行動の判定結果が肯定的な理解行動を示すものであるか否かを判定する。
ステップS83において、肯定的な理解行動を示すものでない、つまり否定的な理解行動を示すものであると判定された場合、ユーザは発話内容を理解しておらず理解度が低いので、ステップS84において、音声出力対話進行制御部23は保持している理解・集中度の値を下げる。
ステップS84では、例えばステップS79の処理で理解・集中度が下げられるときと同じだけ、またはステップS79の処理で理解・集中度が下げられるときよりも小さい値だけ、理解・集中度の値が下がるように理解・集中度が更新される。なお、ステップS84においても、ステップS74の処理で理解・集中度が下げられるよりも、より大きく理解・集中度の値が下がるように、理解・集中度が更新される。
ステップS84で理解・集中度が更新されると、その後、処理はステップS76へと戻り、上述した処理が繰り返し行われる。
この場合、音声発話時の発話速度が再度設定されて、より遅い発話速度で直前の発話内容が繰り返し発話されることになる。すなわち、ユーザが否定的な理解行動を行った場合、音声出力対話進行制御部23は、直前に行われた発話を再度行わせる。
ステップS84の処理が行われたときには、ユーザの理解度および集中度が低下しているので、より遅い発話速度で直前の発話を繰り返すことで、ユーザが発話内容を理解しやすくすることができる。しかも、この場合、ユーザが発話内容を理解するまで対話が次に進まないので、ユーザが途中で理解を諦めたり、発話内容を理解できなくなったりしてしまうようなこともない。
このようにユーザの集中度および理解度が低い場合には、理解・集中度の値が下がるように更新が行われるので、理解行動の誘発回数が増加していくとともに音声発話の発話速度やトーンも徐々に下がっていくことになる。
これに対して、ステップS83において肯定的な理解行動を示すものであると判定された場合、ステップS85において、音声出力対話進行制御部23は、得られたレスポンス時間に基づいて理解・集中度を更新する。
具体的には、例えば音声出力対話進行制御部23は、レスポンス時間が短いほど理解・集中度の値が大きくなるように、理解・集中度の更新を行う。
これにより、ユーザによる肯定的な理解行動のレスポンス時間が短く、ユーザの集中度や理解度が高いときには累積的に理解・集中度が上がるため、音声発話の文章が進むにつれて次第に発話速度が速くなり、理解行動の誘発回数も減少することになる。また、理解・集中度に応じて発話のトーンも変更する場合には、音声発話の文章が進むにつれて次第に発話のトーンが高くなっていくことになる。
このように、レスポンス時間が短いほど理解行動の誘発回数がより少なくなるとともに、発話速度が速くなり、発話のトーンが高くなるように発話を制御することで、ユーザの集中度および理解度に合わせた、より適切な対話制御を実現することができる。
ステップS85において理解・集中度が更新されると対話進行制御処理は終了する。そして、その後、適宜、それ以降の文節の文言の発話が行われ、次の理解行動要求位置の直前の文節が新たな処理対象文言とされて、次の対話進行制御処理が行われる。
すなわち、ユーザが肯定的な理解行動を行ったときには、音声出力対話進行制御部23は、発話テキストのまだ発話がされていない次の文言を発話させることで、発話文言が次の文言へと進むことになる。
以上のようにして音声出力対話進行制御部23は、理解・集中度およびユーザの理解行動に応じて、適宜、発話速度を設定したり、理解行動を誘発したり、理解行動を要求したりしながら発話テキストに示される発話内容での音声対話を進めていく。このようにすることで、ユーザの集中度および理解度に応じて、より適切な対話制御を行うことができる。
なお、ここでは理解行動要求位置において、適宜、ユーザの理解行動を誘発し、ユーザの理解行動に応じて対話を進める例について説明した。
しかし、これに限らず、例えば理解行動要求位置以外のタイミング(時間)においても音声出力対話進行制御部23がユーザによる理解行動を常時監視しておき、その理解行動の判定結果に応じて理解・集中度の値を更新するようにしてもよい。
そのような場合、肯定的な理解行動があったときには、理解・集中度の値を上げるように更新が行われ、その後において理解行動の誘発が必要以上に多く行われることが抑制される。逆に、否定的な理解行動があったときには、理解・集中度の値を下げるように更新が行われ、理解行動の誘発の機会が増やされてユーザが発話内容を理解しやすくされる。
また、以上のような対話進行制御処理により、例えば図6に示すような対話が行われることになる。この例は、音声対話システムにより買い物リストを提示する音声発話が行われる対話シーケンス例となっている。
対話シーケンスの開始時には、理解・集中度がある程度低い状態から対話制御が開始される。矢印Q11に示すように、まず音声対話システムにより処理対象文言に理解行動誘発文言「ね」が付加され、語尾の抑揚が上げられた文言「今日の買い物はニンジンとね」が、低速の発話速度で発話される。ここでは、理解行動誘発文言「ね」を付加することで、発話文言は続きがあることを示す言い方となっている。なお、図中、上向きの矢印は抑揚が上げられていることを表している。
文言「今日の買い物はニンジンとね」が発話されると理解行動の待ち状態となり、最初は長めの間が設けられ、相槌(理解行動)が促される。
これに対して、ユーザが矢印Q12に示すように発話「うん」を行うと、音声対話システムは、その発話「うん」に基づいて肯定的な相槌を検出して、ユーザが肯定的な理解行動を行ったと判定し、次の音声発話を開始する。
すなわち、音声対話システムは、矢印Q13に示すように処理対象文言に理解行動誘発文言が付加された文言「玉ねぎ3個とね」を発話する。このとき、語尾の抑揚が上げられて矢印Q11における場合と同様に低速の発話速度での発話が行われる。
この発話に対してユーザが規定時間以上、理解行動を行わなかったので理解・集中度が下げられ、音声対話システムは、矢印Q14に示すように理解行動要求文言「いいですか?」を低速の発話速度で発話する。
ここでは、文言「玉ねぎ3個とね」の発話後、ユーザの理解行動がなかったことから、ユーザの対話への意識、つまり集中度が下がったものとされて理解・集中度が下げられ、理解行動要求文言「いいですか?」の発話が行われている。
すると、ユーザにより矢印Q15に示すように否定的な相槌の発話「え?」が行われたので、音声対話システムでは、この発話、つまり理解行動の判定が行われ、否定的な理解行動であるとの判定結果が得られる。
このように否定的な理解行動がなされるとさらに理解・集中度が下げられ、音声対話システムは、矢印Q16に示すように直前の処理対象文言とそれに付加された理解行動誘発文言である文言「玉ねぎ3個とね」を再度、発話する。このとき、語尾の抑揚が上げられるように発話が行われる。すなわち、矢印Q13に示した発話と同様の発話が繰り返される。このような状態では、ユーザの理解・集中度が低いので低速の発話速度で発話が行われる。
矢印Q16に示す文言「玉ねぎ3個とね」の発話後、矢印Q17に示すように規定時間内にユーザが理解行動としての発話「うん」を行うと、音声対話システムでは、この理解行動は肯定的な理解行動であるとの判定がなされる。
そして、矢印Q18に示すように、音声対話システムによって、次の処理対象文言に理解行動誘発文言が付加された文言「じゃがいもとね」が低速の発話速度で、語尾の抑揚が上げられて発話される。
これに対して、矢印Q19に示すように規定時間内にユーザが理解行動としての発話「うん」を行うと、音声対話システムは、矢印Q20に示すように次の処理対象文言に理解行動誘発文言が付加された文言「牛肉300gとね」を低速の発話速度で、語尾の抑揚を上げて発話する。
次に、これに対してユーザにより矢印Q21に示すようにこれまでよりも短いレスポンス時間で、肯定的な理解行動を示す相槌の文言「うん」が発話された。
すると、音声対話システムでは、ユーザの理解・集中度が上げられて、矢印Q22に示すように、次の処理対象文言に理解行動誘発文言が付加された文言「塩とね」が中速の発話速度で、語尾の抑揚が上げられて発話される。つまり、ユーザの理解・集中度が高まったことに伴い、これまでよりも速い発話速度で発話が行われる。
そして、これに対してユーザにより矢印Q23に示すように、矢印Q21に示した場合よりもさらに短いレスポンス時間で、肯定的な理解行動を示す相槌の文言「うん」が発話された。
その結果、音声対話システムでは、ユーザの理解・集中度がさらに上げられて、矢印Q24に示すように、次の処理対象文言に理解行動誘発文言が付加された文言「胡椒とね」が中速の発話速度で、語尾の抑揚が上げられて発話される。
さらに、これに対してユーザにより矢印Q25に示すように、矢印Q23に示した場合よりもさらに短いレスポンス時間で、肯定的な理解行動を示す相槌の文言「うん」が発話された。そうすると、音声対話システムでは、ユーザの理解・集中度がさらに上げられて、矢印Q26に示すように、次の処理対象文言「醤油とビールです。」が高速の発話速度で発話され、対話シーケンスが終了する。
この場合、矢印Q25に示した理解行動によって理解・集中度が十分高い値となったので、文言「醤油と」と、その次の文言「ビールです。」との間には理解行動誘発文言が付加されず、つまり理解行動の誘発が行われずに発話が行われている。また、ここでは理解・集中度が十分高い値となったので、発話速度も最も速い発話速度となっている。
このように、図6に示した例では、矢印Q16に示した発話以降において、理解行動の誘発に対するユーザのレスポンス時間が短くなっていき、それに伴ってユーザの理解・集中度が徐々に大きくなっている様子が示されている。
この例では、理解・集中度が大きくなるのに伴って音声対話システムによる音声発話の発話速度も速くなっていくとともに、理解行動の誘発回数も減少している。このようにユーザの集中度および理解度に応じて理解行動を誘発したり、発話速度を変化させたりすることで、適切な対話制御を実現することができる。
以上のように、本技術を適用した音声対話システムによれば、より適切な対話制御を行うことができる。
特にテキスト音声合成が苦手とする長い文章や羅列情報を含む文章の音声発話において、ユーザの集中度および理解度に応じた発話速度で音声発話が行われるため、音声対話システムがユーザに対して確実に伝達したい発話内容について、ユーザの理解や記憶のしやすさを向上させることができる。
また、一般的なテキスト音声合成の音声発話性能により、すなわち抑揚と発話速度が一定であることにより理解しにくい文章の内容を、本技術を適用した音声対話システムでは理解行動を利用したインタラクションにより補うことができる。すなわち、理解行動の判定結果やレスポンス時間に応じて発話速度を変化させたり、抑揚を変化させたりすることで、ユーザが発話内容を理解しやすいように、また発話内容を記憶しやすいように対話を行うことができる。
さらに、ユーザの集中度および理解度が高い場合、つまりユーザが集中して対話音声を聞いている場合には、発話速度が上げられるだけでなく、理解行動誘発回数が減らされてユーザの理解行動への負荷が下がるので、ユーザはより短い時間かつ少ない負荷で対話を行うことができる。
〈理解行動要求位置の他の検出例1〉
なお、以上においては、例えば図2を参照して説明したように、発話テキストの文章内の述語節の文節に係る文節位置に基づいて、理解行動要求位置を検出する例について説明した。しかし、理解行動を誘発したいアイテム等の文言が含まれる文節位置を検出することができれば、どのような方法により理解行動要求位置を検出するようにしてもよい。
例えば理解行動要求位置の他の検出方法の例として、いつ(When)、どこで(Where)、誰が(Who)、何を(What)、なぜ(Why)、どのように(How)という6つの要素、すなわち文節の格としていわゆる5W1Hを示す時間格、場所格、対象格、原因格が検出されたときに、それらの格の文節の直後の位置を理解行動要求位置と判定してもよい。
このような場合においても、文として非完結な状態の位置が理解行動要求位置とされることに加えて、5W1Hの各情報粒度でユーザの理解を確認することができる。この例は、5W1Hの各情報粒度で理解確認を行いたいときに特に有効である。
具体的には、例えば発話テキストとして、「今日の予定として、打ち合わせのため10時に品川駅で山田さんと待ち合わせがあります。」が入力されたとする。
そのような場合、理解行動要求位置検出部22では、原因格である文節「打ち合わせのため」の直後と、時間格である文節「10時に」の直後と、場所格である文節「品川駅で」の直後と、対象格である文節「山田さんと」の直後のそれぞれの位置が、理解行動要求位置として検出されることになる。
以上のように発話テキストの文章内の時間格や、場所格、対象格、原因格の文節の位置に基づいて、理解行動要求位置を検出するようにすることもできる。
また、理解行動要求位置の他の検出方法の例として、予め単語の重要度が登録された単語辞書を用いるようにしてもよい。そのような場合、単語と、単語の重要度とが対応付けられた単語辞書が予め理解行動要求位置検出部22に記録されている。
理解行動要求位置検出部22は、単語辞書を参照して、発話テキストの文章に含まれる各単語の重要度を特定し、重要度が高い単語を含む文節の直後の位置を、理解行動要求位置として検出する。このとき、例えば重要度が所定の閾値以上である単語を含む文節の直後が全て理解行動要求位置とされるようにしてもよいし、発話テキストの文章に含まれる単語の中から、重要度が高い順に所定個数の単語を選択し、選択したそれらの単語が含まれる文節の直後が理解行動要求位置とされるようにしてもよい。
〈理解行動要求位置の他の検出例2〉
さらに、以上においては発話テキストが日本語の文章である場合について説明したが、これに限らず、発話テキストが英語など、日本語以外の他の言語である場合においても本技術は適用可能である。すなわち、以上において説明した例と同様に理解行動要求位置を検出することができる。
例えば発話テキストが英語の文章である場合について考える。
英語では、文頭に主語+述語(動詞)が現れるが、その述語(動詞)の後から述語に係る目的語(対象格)が複数あった場合にそれらの目的語が羅列情報であるとされる。そして、日本語と同様に非完結の状態である羅列情報の間の位置、つまり「,」(カンマ)の直後の位置や「and」の直後の位置が理解行動要求位置とされ、その理解行動要求位置で、適宜、相槌や頷きなどの理解行動が誘発される。
また、2つ目以降の文では主語+述語(動詞)の直後の位置が理解行動要求位置とされる。この場合においても文章が非完結な状態で、適宜、相槌や頷きなどの理解行動が誘発されることになる。
具体例として、例えば図7の矢印A41に示すように英語の文章「Please buy carrots, onions, potatoes, beef, and salt. Please don’t forget to post the letter.」というテキストデータが自然言語解析部21に入力されたとする。
このような場合に、自然言語解析部21において発話テキストに対する自然言語解析が行われると、矢印A42に示す解析結果が得られる。
矢印A42に示す部分では、図2における場合と同様に、各四角形が文の区切られた1つの区間、つまり句を表しており、その四角形内には発話テキストの句に区切られた文言が記されている。また、各句を表す四角形同士を結ぶ線分は、句同士の係り受けを表している。これらの係り受けの表記方法は図2における場合と同様である。
さらに、矢印A42に示す部分では、各句を表す四角形の図中、右側には、それらの句の言語的な格と品詞が記されている。例えば図中、一番上側の句「Please buy」の言語的な格は述語節で品詞は動詞であることが記されている。
このような場合、理解行動要求位置検出部22は、自然言語解析の結果から同一の述語節(動詞)に係る複数の対象格(目的格)を検出し、検出された複数の対象格の句の間の位置を理解行動要求位置とする。
但し、最も後ろに位置する対象格の句については、その句に含まれる「and」の直後の位置、すなわち単語「and」と、その直後の対象語との間の位置が理解行動要求位置とされる。
この例では、発話テキストの1文目は、ユーザが買ってくるべきもの(アイテム)、つまり買い物リストを示す文章となっており、買うべき物(アイテム)を含む対象格の句が同一の述語節の句に係っている。すなわち、買うべきものが羅列されている文章となっている。
図7に示す例では、発話テキストの1文目の矢印W41乃至矢印W44に示される位置が理解行動要求位置検出部22により検出された理解行動要求位置となっている。具体的には、例えば矢印W41により示される理解行動要求位置は、句「carrots,」と「onions,」の間の位置となっている。また、例えば矢印W44により示される理解行動要求位置は、句「and salt.」における単語「and」と、対象語「salt」との間の位置となっている。
また、理解行動要求位置検出部22は、発話テキストに複数の文が含まれる場合は、文と文の区切りの位置を理解行動要求位置とは判定しない。
さらに、理解行動要求位置検出部22は、発話テキストに複数の文が含まれる場合、2つ目以降の文において、文の最初の述語節を検出し、その最初の述語節の句の直後の位置を理解行動要求位置とする。
この例では、2つ目の文における矢印W45に示される位置が理解行動要求位置とされている。ここでは、矢印W45に示される位置は、述語節の句に係る最初の句の直前の位置となっている。
音声出力対話進行制御部23は、以上のようにして検出された理解行動要求位置に基づいて、例えば図5を参照して説明した対話進行制御処理と同様の処理を行うことで、対話制御を行う。
このとき、音声出力対話進行制御部23は、例えば理解行動の誘発を行う理解行動要求位置の直前の句が対象格(目的語)であり、その句の次の句に単語「and」が含まれていないときには、理解行動要求位置の直前の句の最後の単語(目的語)の次に単語「and」を付加して音声発話を行わせる。また、この場合、付加した単語「and」の直前に「,」(カンマ)があるときには、その「,」が削除される。このように発話文言の句に付加される単語「and」は、理解行動誘発文言として機能する。
さらに、音声発話時には、理解行動の誘発を行う理解行動要求位置においては、ある程度の間が設けられて、つまりある程度長い時間があけられて音声の発話が行われる。
したがって、矢印W41乃至矢印W45のそれぞれの理解行動要求位置において理解行動の誘発が行われる場合には、例えば矢印A43に示すように音声発話が行われる。
すなわち、まず最初の文言「Please buy carrots and」が発話されて理解行動の誘発が行われ、続いて文言「onions and」が発話されて理解行動の誘発が行われる。ここで、理解行動の誘発は例えば発話の間をあけたり、単語「and」を付加したり、発話の語尾に抑揚を付加したりすることにより行われる。
さらに文言「potatoes and」が発話されて理解行動の誘発が行われてから、文言「beef and」が発話されて理解行動の誘発が行われ、文言「salt. Please don’t forget」が発話されて理解行動の誘発が行われる。そして、最後に文言「to post the letter.」が発話されて音声対話が終了する。
以上のように発話テキストが日本語以外の言語の文章であるときでも、発話テキストの文章内の述語節に係る句(文節)の位置に基づいて、理解行動要求位置を検出することが可能である。
〈理解行動要求位置の他の検出例3〉
さらに、発話テキストが英語の文章である場合、いわゆる5W1Hで前置詞により場所や時間、原因を表すときには、その前置詞の直後の位置が理解行動要求位置とされて、その理解行動要求位置で、適宜、相槌や頷きなどの理解行動が誘発されるようにしてもよい。この場合においても文章が非完結な状態で、適宜、相槌や頷きなどの理解行動が誘発されることになる。
具体的には、例えば図8の矢印A71に示すように英語の文章「You have an appointment for the meeting at 3pm at Shinagawa office.」というテキストデータが自然言語解析部21に入力されたとする。
このような場合に、自然言語解析部21において発話テキストに対する自然言語解析が行われると、矢印A72に示す解析結果が得られる。
矢印A72に示す部分では、図2における場合と同様に、各四角形が文の区切られた1つの区間、つまり句を表しており、その四角形内には発話テキストの句に区切られた文言が記されている。また、各句を表す四角形同士を結ぶ線分は、句同士の係り受けを表している。これらの係り受けの表記方法は図2における場合と同様である。
さらに、矢印A72に示す部分では、各句を表す四角形の図中、右側には、それらの句の言語的な格が記されている。また、必要に応じて格とともに品詞も記されている。例えば図中、一番上側の句「You」の言語的な格は主格であることが記されている。
このような場合、理解行動要求位置検出部22は、自然言語解析の結果から原因格、時間格、および場所格の句を検出し、検出された句内(句中)の前置詞の直後の位置を理解行動要求位置とする。
したがって、図8に示す例では、発話テキストの原因格の句の中の前置詞「for」の直後の位置、すなわち矢印W71により示される位置と、時間格の句の中の前置詞「at」の直後の位置、すなわち矢印W72により示される位置と、場所格の句の中の前置詞「at」の直後の位置、すなわち矢印W73により示される位置とが理解行動要求位置検出部22により検出される。そして、それらの矢印W71乃至矢印W73のそれぞれにより示される位置が理解行動要求位置とされている。
音声出力対話進行制御部23は、以上のようにして検出された理解行動要求位置に基づいて、例えば図5を参照して説明した対話進行制御処理と同様の処理を行うことで、対話制御を行う。このとき、理解行動の誘発を行う理解行動要求位置においては、ある程度の間が設けられて音声の発話が行われる。
したがって、矢印W71乃至矢印W73のそれぞれの理解行動要求位置において理解行動の誘発が行われる場合には、例えば矢印A73に示すように音声発話が行われる。
すなわち、まず最初の文言「You have an appointment for」が発話されて理解行動の誘発が行われ、続いて文言「the meeting at」が発話されて理解行動の誘発が行われる。ここで、理解行動の誘発は、例えば発話の間をあけたり、発話の語尾に抑揚を付加したりすることにより行われる。
さらに文言「3pm at」が発話されて理解行動の誘発が行われてから、最後に文言「Shinagawa office.」が発話されて音声対話が終了する。
以上のように発話テキストが日本語以外の言語の文章であるときでも、発話テキストの文章内の時間格や、場所格、対象格、原因格の句(文節)の位置に基づいて、理解行動要求位置を検出することが可能である。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話を行わせ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話を制御する対話進行制御部を備える
対話制御装置。
(2)
前記対話進行制御部は、前記ユーザによる前記理解行動が肯定的な行動であった場合、前記発話テキストのまだ発話がされていない次の文言を発話させる
(1)に記載の対話制御装置。
(3)
前記対話進行制御部は、前記ユーザによる前記理解行動が否定的な行動であった場合、直前に行われた発話を再度行わせる
(1)または(2)に記載の対話制御装置。
(4)
前記対話進行制御部は、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど前記理解行動の誘発回数が少なくなるように、前記発話テキストに基づく発話を制御する
(1)乃至(3)の何れか一項に記載の対話制御装置。
(5)
前記対話進行制御部は、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど発話速度が速くなるように、前記発話テキストに基づく発話を制御する
(1)乃至(4)の何れか一項に記載の対話制御装置。
(6)
前記対話進行制御部は、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど発話のトーンが高くなるように、前記発話テキストに基づく発話を制御する
(1)乃至(5)の何れか一項に記載の対話制御装置。
(7)
前記対話進行制御部は、所定時間内に前記ユーザによる前記理解行動が検出されなかった場合、直前に行われた発話を再度行わせるか、または前記理解行動を要求する発話を行わせる
(1)乃至(6)の何れか一項に記載の対話制御装置。
(8)
前記対話進行制御部は、前記発話テキストに基づく発話を途中で停止させた場合、前記発話テキストを含む通知情報の出力を制御する
(1)乃至(7)の何れか一項に記載の対話制御装置。
(9)
前記対話進行制御部は、前記発話テキストに基づく文言に非完了文言を付加することで、前記理解行動を誘発する発話を行わせる
(1)乃至(8)の何れか一項に記載の対話制御装置。
(10)
前記対話進行制御部は、発話の語尾に抑揚を付加することで、前記理解行動を誘発する発話を行わせる
(9)に記載の対話制御装置。
(11)
前記対話進行制御部は、前記理解行動要求位置において間をあけることで前記理解行動を誘発する発話を行わせる
(1)乃至(10)の何れか一項に記載の対話制御装置。
(12)
前記発話テキストの文章における文として非完結な位置を前記理解行動要求位置として検出する理解行動要求位置検出部をさらに備える
(1)乃至(11)の何れか一項に記載の対話制御装置。
(13)
前記理解行動要求位置検出部は、前記発話テキストの文章の述語節との係り受けに基づく位置を前記理解行動要求位置として検出する
(12)に記載の対話制御装置。
(14)
前記理解行動要求位置検出部は、前記発話テキストの文章における同一の述語節に係る複数の対象格の文節または句のそれぞれの間の位置を前記理解行動要求位置として検出する
(13)に記載の対話制御装置。
(15)
前記理解行動要求位置検出部は、前記発話テキストの文章における述語節に最初に係る文節または句の位置を前記理解行動要求位置として検出する
(13)に記載の対話制御装置。
(16)
前記理解行動要求位置検出部は、前記発話テキストの文章における時間格、場所格、対象格、または原因格である文節または句の位置を前記理解行動要求位置として検出する
(12)に記載の対話制御装置。
(17)
1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話を行わせ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話を制御する
ステップを含む対話制御方法。
11 サーバ, 12 クライアントデバイス, 21 自然言語解析部, 22 理解行動要求位置検出部, 23 音声出力対話進行制御部, 24 音声合成エンジン, 27 理解行動判定部

Claims (16)

  1. 1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話を行わせ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話を制御し、前記発話テキストに基づく発話を途中で停止させた場合、前記発話テキストを含む通知情報の出力を制御する対話進行制御部を備える
    対話制御装置。
  2. 前記対話進行制御部は、前記ユーザによる前記理解行動が肯定的な行動であった場合、前記発話テキストのまだ発話がされていない次の文言を発話させる
    請求項1に記載の対話制御装置。
  3. 前記対話進行制御部は、前記ユーザによる前記理解行動が否定的な行動であった場合、直前に行われた発話を再度行わせる
    請求項1または請求項2に記載の対話制御装置。
  4. 前記対話進行制御部は、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど前記理解行動の誘発回数が少なくなるように、前記発話テキストに基づく発話を制御する
    請求項1乃至請求項3の何れか一項に記載の対話制御装置。
  5. 前記対話進行制御部は、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど発話速度が速くなるように、前記発話テキストに基づく発話を制御する
    請求項1乃至請求項4の何れか一項に記載の対話制御装置。
  6. 前記対話進行制御部は、前記ユーザによる肯定的な前記理解行動のレスポンス時間が短いほど発話のトーンが高くなるように、前記発話テキストに基づく発話を制御する
    請求項1乃至請求項5の何れか一項に記載の対話制御装置。
  7. 前記対話進行制御部は、所定時間内に前記ユーザによる前記理解行動が検出されなかった場合、直前に行われた発話を再度行わせるか、または前記理解行動を要求する発話を行わせる
    請求項1乃至請求項6の何れか一項に記載の対話制御装置。
  8. 前記対話進行制御部は、前記発話テキストに基づく文言に非完了文言を付加することで、前記理解行動を誘発する発話を行わせる
    請求項1乃至請求項7の何れか一項に記載の対話制御装置。
  9. 前記対話進行制御部は、発話の語尾に抑揚を付加することで、前記理解行動を誘発する発話を行わせる
    請求項8に記載の対話制御装置。
  10. 前記対話進行制御部は、前記理解行動要求位置において間をあけることで前記理解行動を誘発する発話を行わせる
    請求項1乃至請求項9の何れか一項に記載の対話制御装置。
  11. 前記発話テキストの文章における文として非完結な位置を前記理解行動要求位置として検出する理解行動要求位置検出部をさらに備える
    請求項1乃至請求項10の何れか一項に記載の対話制御装置。
  12. 前記理解行動要求位置検出部は、前記発話テキストの文章の述語節との係り受けに基づく位置を前記理解行動要求位置として検出する
    請求項11に記載の対話制御装置。
  13. 前記理解行動要求位置検出部は、前記発話テキストの文章における同一の述語節に係る複数の対象格の文節または句のそれぞれの間の位置を前記理解行動要求位置として検出する
    請求項12に記載の対話制御装置。
  14. 前記理解行動要求位置検出部は、前記発話テキストの文章における述語節に最初に係る文節または句の位置を前記理解行動要求位置として検出する
    請求項12に記載の対話制御装置。
  15. 前記理解行動要求位置検出部は、前記発話テキストの文章における時間格、場所格、対象格、または原因格である文節または句の位置を前記理解行動要求位置として検出する
    請求項11に記載の対話制御装置。
  16. 1または複数の理解行動要求位置で区切られた発話テキストに基づいて、前記理解行動要求位置においてユーザの理解行動を誘発する発話を行わせ、前記理解行動の検出結果と前記発話テキストとに基づいて、次の発話を制御し、前記発話テキストに基づく発話を途中で停止させた場合、前記発話テキストを含む通知情報の出力を制御する
    ステップを含む対話制御方法。
JP2018534342A 2016-08-17 2017-08-03 対話制御装置および方法 Active JP7036015B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016159864 2016-08-17
JP2016159864 2016-08-17
PCT/JP2017/028292 WO2018034169A1 (ja) 2016-08-17 2017-08-03 対話制御装置および方法

Publications (2)

Publication Number Publication Date
JPWO2018034169A1 JPWO2018034169A1 (ja) 2019-06-13
JP7036015B2 true JP7036015B2 (ja) 2022-03-15

Family

ID=61197234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018534342A Active JP7036015B2 (ja) 2016-08-17 2017-08-03 対話制御装置および方法

Country Status (5)

Country Link
US (1) US11183170B2 (ja)
EP (1) EP3503091A4 (ja)
JP (1) JP7036015B2 (ja)
CN (1) CN109564757A (ja)
WO (1) WO2018034169A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
JP7294775B2 (ja) * 2018-05-24 2023-06-20 トヨタ自動車株式会社 情報処理装置、プログラム、及び制御方法
EP3788620B1 (en) * 2018-12-28 2023-09-06 Google LLC Supplementing voice inputs to an automated assistant according to selected suggestions
CN110136464B (zh) * 2019-04-18 2021-05-11 深圳市宏电技术股份有限公司 一种辅助驾驶的方法、装置及设备
US11551665B2 (en) * 2019-09-12 2023-01-10 Oracle International Corporation Dynamic contextual dialog session extension

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202076A (ja) 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
US20070255566A1 (en) 2004-07-06 2007-11-01 Voxify, Inc. Multi-slot dialog systems and methods
WO2008001549A1 (fr) 2006-06-26 2008-01-03 Murata Kikai Kabushiki Kaisha Dispositif audio interactif, procédé audio interactif, et programme correspondant
JP2010008854A (ja) 2008-06-30 2010-01-14 Toshiba Corp 音声認識装置及びその方法
JP2010157081A (ja) 2008-12-26 2010-07-15 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60247697A (ja) * 1984-05-24 1985-12-07 株式会社東芝 音声対話装置
JPH06342297A (ja) * 1993-06-02 1994-12-13 Sony Corp 音声合成装置
JPH09218770A (ja) * 1996-02-14 1997-08-19 Toshiba Corp 対話処理装置および対話処理方法
JPH1083196A (ja) * 1996-09-06 1998-03-31 Ricoh Co Ltd 音声合成装置および方法、情報記憶媒体
JP3682562B2 (ja) * 1996-10-09 2005-08-10 日本電信電話株式会社 出力制御可能型言語生成方法及び装置
JPH10116117A (ja) 1996-10-14 1998-05-06 Toshiba Eng Co Ltd 無人搬送車並びに無人搬送車の停止制御方法
CN1234109C (zh) * 2001-08-22 2005-12-28 国际商业机器公司 语调生成方法、语音合成装置、语音合成方法及语音服务器
JP4760149B2 (ja) 2005-06-10 2011-08-31 日本電気株式会社 再成形可能かつ2段階に優れた形状回復能を持つ形状記憶性樹脂および該樹脂の架橋物からなる成形体
US20100327419A1 (en) * 2009-06-26 2010-12-30 Sriram Muthukumar Stacked-chip packages in package-on-package apparatus, methods of assembling same, and systems containing same
JP2013247697A (ja) 2012-05-23 2013-12-09 Jtekt Corp ロータ及びこれを備えた回転電機
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
US10238333B2 (en) * 2016-08-12 2019-03-26 International Business Machines Corporation Daily cognitive monitoring of early signs of hearing loss
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202076A (ja) 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
US20070255566A1 (en) 2004-07-06 2007-11-01 Voxify, Inc. Multi-slot dialog systems and methods
WO2008001549A1 (fr) 2006-06-26 2008-01-03 Murata Kikai Kabushiki Kaisha Dispositif audio interactif, procédé audio interactif, et programme correspondant
JP2010008854A (ja) 2008-06-30 2010-01-14 Toshiba Corp 音声認識装置及びその方法
JP2010157081A (ja) 2008-12-26 2010-07-15 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Also Published As

Publication number Publication date
CN109564757A (zh) 2019-04-02
US20200184950A1 (en) 2020-06-11
JPWO2018034169A1 (ja) 2019-06-13
US11183170B2 (en) 2021-11-23
EP3503091A1 (en) 2019-06-26
EP3503091A4 (en) 2019-08-07
WO2018034169A1 (ja) 2018-02-22

Similar Documents

Publication Publication Date Title
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JP7036015B2 (ja) 対話制御装置および方法
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US20230031521A1 (en) Automated assistants that accommodate multiple age groups and/or vocabulary levels
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US20170263248A1 (en) Dictation that allows editing
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US11790891B2 (en) Wake word selection assistance architectures and methods
JPWO2019087811A1 (ja) 情報処理装置、及び情報処理方法
JP4729902B2 (ja) 音声対話システム
US11195522B1 (en) False invocation rejection for speech processing systems
US11579841B1 (en) Task resumption in a natural understanding system
US11810556B2 (en) Interactive content output
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
US20230360633A1 (en) Speech processing techniques
US11924150B2 (en) System(s) and method(s) for enabling a representative associated with an entity to modify a trained voice bot associated with the entity

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200625

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R151 Written notification of patent or utility model registration

Ref document number: 7036015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151