JP7113047B2

JP7113047B2 - 人工知能基盤の自動応答方法およびシステム

Info

Publication number: JP7113047B2
Application number: JP2020124156A
Authority: JP
Inventors: ギョンテト; サンウイ; ヘジキム; ヒョンフンチョン; ソンファンチョン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-07-24
Filing date: 2020-07-21
Publication date: 2022-08-04
Anticipated expiration: 2040-07-21
Also published as: KR102170088B1; JP2021022928A

Description

以下の説明は、人工知能（ＡＩ）を基盤とした自動応答システム（ＡＲＳ）に関する。

情報通信技術の発達によって情報化社会が進展しており、社会、文化、および経済などのようなあらゆる分野においてインターネットが重要かつ必須な媒体となりつつある。

各種企業に問い合わせ、予約、配達などを要請するためには、ユーザが企業に直接電話をかけたり、代行企業を通じて要請事項を伝達したりするオフライン方式がある。

オフライン方式よりも改善された方法としては、インターネット技術の発達に基づいてウェブサイトから関連企業の顧客センターに接続する方式や、スマートフォンなどのようなモバイル技術の発達に基づいてＡＲＳ方式を利用する方法、顧客センターのアプリ（Ａｐｐ、Ａｐｐｌｉｃａｔｉｏｎ）をインストールして実行させることで、必要な事項を処理できるようになった。

例えば、特許文献１（公開日２０１９年３月２９日）には、人工知能に基づき、顧客に画面上で顧客センター接続サービスを提供する技術が開示されている。

韓国公開特許第１０－２０１９－００３３１３８号公報

ユーザ発話に対する中間結果（ｍｉｄｒｅｓｕｌｔｓ）から発話の意味を把握して返答を予め準備しておくことにより、返答を迅速に提供することができる方法およびシステムを提供する。

返答が送出される途中にユーザ発話による音声信号が受信される場合、返答の送出を中断することができる方法およびシステムを提供する。

ユーザ発話の速度に合わせて応答速度を異にして提供することができる方法およびシステムを提供する。

リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することができる方法およびシステムを提供する。

コンピュータシステムが実行する人工知能基盤の自動応答方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記人工知能基盤の自動応答方法は、前記少なくとも１つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記少なくとも１つのプロセッサにより、前記発話音声の中間結果（ｍｉｄｒｅｓｕｌｔｓ）を利用して意図（ｉｎｔｅｎｔ）を分析した後に返答を生成する段階、および前記少なくとも１つのプロセッサにより、前記発話音声に対して前記返答を送出する段階を含む、人工知能基盤の自動応答方法を提供する。

一側面によると、前記生成する段階は、自動応答サービスの会話ログからサンプル文章を抽出する段階、および前記サンプル文章から語尾を除いた文章を学習データとして利用する会話学習により、前記中間結果から前記意図を分析する段階を含んでよい。

他の側面によると、前記生成する段階は、前記中間結果として取得した音節単位で前記意図を分析する段階を含んでよい。

また他の側面によると、前記生成する段階は、前記中間結果を利用した意図分析結果に対するコンフィデンス（ｃｏｎｆｉｄｅｎｃｅ）に基づいて前記返答の生成時点を決定する段階を含んでよい。

また他の側面によると、前記生成する段階は、前記中間結果を利用した意図分析結果に対するコンフィデンスが、語尾を除いた文章を利用した会話学習によって決定された閾値に達する時点に、前記返答を予め生成する段階を含んでよい。

さらに他の側面によると、前記送出する段階は、前記発話音声からエンドポイント（ｅｎｄｐｏｉｎｔ）が感知されれば、前記返答を音声信号で送出してよい。

コンピュータシステムが実行する人工知能基盤の自動応答方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記人工知能基盤の自動応答方法は、前記少なくとも１つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記少なくとも１つのプロセッサにより、前記発話音声に対して返答を送出する段階、および前記少なくとも１つのプロセッサにより、前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する段階を含む、人工知能基盤の自動応答方法を提供する。

一側面によると、前記中断する段階は、前記ユーザの発話音声が受信されれば、前記返答の送出を即刻にまたはフェードアウト（ｆａｄｅ－ｏｕｔ）を適用した後に中断してよい。

他の側面によると、前記中断する段階は、非言語的（ｎｏｎ－ｖｅｒｂａｌ）表現を分類して学習する段階、および前記返答が送出される途中に受信された発話音声が前記学習された非言語的表現に該当する場合には前記返答の送出を維持し、前記学習された非言語的表現に該当しない場合には前記返答の送出を中断する段階を含んでよい。

また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも１つのプロセッサにより、前記発話音声の認識結果として返答に必要な情報が足りない場合、前記情報を誘導するための問い返しの質問を提供する段階をさらに含んでよい。

また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも１つのプロセッサにより、前記発話音声の認識結果によって複数の意図が認識された場合、意図の認識順にしたがって各意図に対する返答を順に提供する段階をさらに含んでよい。

また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも１つのプロセッサにより、前記ユーザの発話速度を認識する段階、および前記少なくとも１つのプロセッサにより、前記ユーザの発話速度によって前記返答の発話速度を決定する段階をさらに含んでよい。

さらに他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも１つのプロセッサにより、前記ユーザの発話言語を認識する段階、および前記少なくとも１つのプロセッサにより、自動応答サービスのための言語モデルを前記ユーザの発話言語に対応する言語モデルに切り換える段階をさらに含んでよい。

前記人工知能基盤の自動応答方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体を提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、前記発話音声の中間結果を利用して意図を分析した後に返答を生成する過程、および前記発話音声に対して前記返答を送出する過程を処理する、コンピュータシステムを提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、前記発話音声に対して返答を送出する過程、および前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する過程を処理する、コンピュータシステムを提供する。

本発明の実施形態によると、ユーザ発話に対する中間結果から発話の意味を把握し、発話が終わる前に返答を予め準備しておくことにより、返答を迅速に提供することができる。

本発明の実施形態によると、返答が送出される途中にユーザ発話による音声信号が受信される場合に返答の送出を中断することにより、実際に人間と通話するような形態を実現することができる。

本発明の実施形態によると、ユーザ発話の速度に合わせて応答速度を異にして提供することにより、ユーザの発話速度に適合するインタラクションによって適したサービスを提供することができる。

本発明の実施形態によると、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することにより、言語に制限されずにサービスへのアクセス性と利便性を高めることができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、ＡＩ自動応答システムを説明するための例示図である。本発明の一実施形態における、ＡＩ自動応答システムが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、ＡＩ自動応答方法の例を示したフローチャートである。本発明の一実施形態における、学習文章の例を説明するための図である。本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。本発明の一実施形態における、返答の送出を中断する過程の一例を説明するための図である。本発明の一実施形態における、返答の送出を中断する過程の他の例を説明するための図である。本発明の一実施形態における、返答の送出を中断しない例外状況を説明するための図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。

本発明の実施形態は、人工知能（ＡＩ）を基盤とした自動応答システム（ＡＲＳ）に関する。

本明細書で具体的に開示される事項を含む実施形態は、人工知能を基盤として実際に人間と会話するような形態で実現された自動応答システムを提供することができ、これによってユーザとのより自然な通話を実現しながら、問い合わせ、予約、配達注文などを迅速かつ便利に処理することができる。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、ＡＩスピーカ、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、ＶＲ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ）デバイス、ＡＲ（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）デバイスなどがある。一例として、図１では、電子機器１１０としてＡＩスピーカを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータシステムのうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０は、それぞれ、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して、命令、コード、ファイル、コンテンツ、サービスなどを提供する、１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に第１サービスを提供するシステムであってよく、サーバ１６０も、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に第２サービスを提供するシステムであってよい。より具体的な例として、サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス（一例として、自動応答サービスなど）を第１サービスとして複数の電子機器１１０、１２０、１３０、１４０に提供してよい。他の例として、サーバ１６０は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器１１０、１２０、１３０、１４０に配布するサービスを第２サービスとして提供してよい。

図２は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図２では、電子機器に対する例として電子機器１１０の内部構成およびサーバ１５０の内部構成について説明する。また、他の電子機器１２０、１３０、１４０やサーバ１６０も、上述した電子機器１１０またはサーバ１５０と同一または類似の内部構成を有してよい。

電子機器１１０およびサーバ１５０は、メモリ２１１、２２１、プロセッサ２１２、２２２、通信モジュール２１３、２２３、および入力／出力インタフェース２１４、２２４を含んでよい。メモリ２１１、２２１は、非一時的なコンピュータ読み取り可能な記録媒体であってよく、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような非一時的な大容量記録装置を含んでよい。ここで、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスクドライブのような非一時的な大容量記録装置は、メモリ２１１、２２１とは区分される別の非一時的な記録装置として電子機器１１０やサーバ１５０に含まれてもよい。また、メモリ２１１、２２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、電子機器１１０においてインストールされて実行されるブラウザや、特定のサービスの提供のために電子機器１１０にインストールされたアプリケーションなどのためのコード）が記録されてよい。このようなソフトウェア構成要素は、メモリ２１１、２２１とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール２１３、２２３を通じてメモリ２１１、２２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム（一例として、上述したサーバ１６０）がネットワーク１７０を介して提供するファイルによってインストールされるコンピュータプログラム（一例として、上述したアプリケーション）に基づいてメモリ２１１、２２１にロードされてよい。

プロセッサ２１２、２２２は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１１、２２１または通信モジュール２１３、２２３によって、プロセッサ２１２、２２２に提供されてよい。例えば、プロセッサ２１２、２２２は、メモリ２１１、２２１のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール２１３、２２３は、ネットワーク１７０を介して電子機器１１０とサーバ１５０とが互いに通信するための機能を提供してもよいし、電子機器１１０および／またはサーバ１５０が他の電子機器（一例として、電子機器１２０）または他のサーバ（一例として、サーバ１６０）と通信するための機能を提供してもよい。一例として、電子機器１１０のプロセッサ２１２がメモリ２１１のような記録装置に記録されたプログラムコードにしたがって生成した要求が、通信モジュール２１３の制御にしたがってネットワーク１７０を介してサーバ１５０に伝達されてよい。これとは逆に、サーバ１５０のプロセッサ２２２の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール２２３とネットワーク１７０を経て電子機器１１０の通信モジュール２１３を通じて電子機器１１０に受信されてよい。例えば、通信モジュール２１３を通じて受信されたサーバ１５０の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ２１２やメモリ２１１に伝達されてよく、コンテンツやファイルなどは、電子機器１１０がさらに含むことのできる記録媒体（上述した非一時的な記録装置）に記録されてよい。

入力／出力インタフェース２１４は、入力／出力装置２１５とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力／出力インタフェース２１４は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２１５は、電子機器１１０と１つの装置で構成されてもよい。また、サーバ１５０の入力／出力インタフェース２２４は、サーバ１５０に接続するかサーバ１５０が含むことのできる入力または出力のための装置（図示せず）とのインタフェースのための手段であってよい。より具体的な例として、電子機器１１０のプロセッサ２１２がメモリ２１１にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ１５０や電子機器１２０が提供するデータを利用して構成されるサービス画面やコンテンツが、入力／出力インタフェース２１４を通じてディスプレイに表示されてよい。

また、他の実施形態において、電子機器１１０およびサーバ１５０は、図２の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器１１０は、上述した入力／出力装置２１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器１１０がＡＩスピーカである場合、一般的にＡＩスピーカが含んでいる各種センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素が、電子機器１１０にさらに含まれるように実現されてよい。

自動応答システムは、ユーザとの会話に基づいてレストラン、宿泊施設、航空券、映画、公演、病院（診療）、旅行などに関する各種情報を伝達する自動応答サービスプラットフォームを提供するものである。

以下では、一例として、レストランの店員に代わってユーザと自然に通話をしながら、レストランへの問い合わせ、予約、配達注文などを処理することについて説明するが、これは一例に過ぎず、これに限定されてはならず、自動応答システムの使用が可能な企業や分野のすべてに適用可能である。

図３は、本発明の一実施形態における、ＡＩ自動応答システムを説明するための例示図である。

例えば、本発明の実施形態に係るＡＩ自動応答システム３００は、図１と図２を参照しながら説明したサーバ１５０上に実現されてよい。

図３を参照すると、ＡＩ自動応答システム３００は、複数の企業３１～３３に対する問い合わせ、予約、配達注文などを処理するための自動応答サービスを提供するものであってよい。

ＡＩ自動応答システム３００は、電話機能（ｃａｌｌ）やチャットボット（ｃｈａｔｂｏｔ）による通話によってユーザ３０１との人工知能会話を提供してよく、ユーザ３０１との会話に基づき、ユーザ３０１が望む情報を提供したり、ユーザ３０１の要求を企業３１～３３に伝達したりしてよい。

ＡＩ自動応答システム３００は、企業３１～３３と関連する自動応答サービスを提供するために、各企業３１～３３別の企業情報が含まれたデータベースシステム（図示せず）と１つのシステムで実現されてもよいし、あるいは連動可能な別のシステムで実現されてもよい。ＡＩ自動応答システム３００は、企業情報に基づき、ユーザ３０１が望む情報を提供したり、ユーザ３０１の要求を処理したりしてよい。

例えば、ＡＩ自動応答システム３００は、ユーザ３０１との会話に基づいて動作するインタフェースが含まれた電子機器１１０から、ユーザ３０１の発話による音声入力「企業Ａに注文可能ですか？」を受信したとする。これにより、ＡＩ自動応答システム３００は、電子機器１１０から受信されたユーザ３０１の音声入力「企業Ａに注文可能ですか？」を認識および分析した後、企業情報に基づいて返答「現在、注文可能です。メニューをお伝えください。」を生成し、生成された返答を音声信号によって電子機器１１０に送出してよい。ＡＩ自動応答システム３００は、ユーザ３０１との会話に基づき、ユーザ３０１の要求、例えば、選択されたメニューや数量などをまとめた後、まとめた情報を該当の企業（３１～３３のうちの１つ）に伝達してよい。

以下では、人工知能基盤の自動応答方法およびシステムの具体的な実施形態について説明する。

図４は、本発明の一実施形態における、ＡＩ自動応答システムが含むことのできる構成要素の例を示した図である。

本実施形態に係るサーバ１５０は、企業と関連する自動応答サービスを提供するプラットフォームの役割を担う。特に、サーバ１５０は、人工知能を基盤として実際に人間と会話するような形態で実現されたＡＩ自動応答システム３００を含んでよい。

ＡＩ自動応答システム３００は、図４に示すように、ゲートウェイ４０１、音声認識機４１０、ダイアログマネージャ４２０、返答生成器４３０、音声合成器４４０、感知部４５０、および翻訳機４６０を含んでよい。

ゲートウェイ４０１は、電子機器１１０にインストールされたアプリケーションの電話機能やチャットボットによって電子機器１１０のユーザの音声入力を受信する役割をする受信端（ＲＸ）と、ＡＲＳ応答によって電子機器１１０に返答音声を送出する役割をする送信端（ＴＸ）とを含んでよい。また、ゲートウェイ４０１には、返答音声の送出を制御するためのソケットコントローラ（ｓｏｃｋｅｔｃｏｎｔｒｏｌｌｅｒ）が含まれてよい。

音声認識機４１０、ダイアログマネージャ４２０、返答生成器４３０、音声合成器４４０、感知部４５０、および翻訳機４６０は、サーバ１５０のプロセッサ２２２の構成要素として含まれてよい。実施形態によって、プロセッサ２２２の構成要素は、選択的にプロセッサ２２２に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２２の構成要素は、プロセッサ２２２の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２２およびプロセッサ２２２の構成要素は、以下で説明されるＡＩ自動応答方法の実行のために、制御命令による演算を直接処理してもよいし、またはサーバ１５０を制御してもよい。例えば、プロセッサ２２２およびプロセッサ２２２の構成要素は、メモリ２２１が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２２の構成要素は、サーバ１５０に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２２によって実行される、プロセッサ２２２の互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、サーバ１５０が電子機器１１０から受信された音声入力を認識するように上述した命令にしたがってサーバ１５０を制御するプロセッサ２２２の機能的表現として、音声認識機４１０が利用されてよい。

プロセッサ２２２は、サーバ１５０の制御と関連する命令がロードされたメモリ２２１から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明するＡＩ自動応答方法をプロセッサ２２２が実行するように制御するための命令を含んでよい。

以下のＡＩ自動応答方法は、図に示した順に発生しなくてもよく、段階の一部が省略されたり追加の過程がさらに含まれたりしてもよい。

図５は、本発明の一実施形態における、ＡＩ自動応答方法の一例を示したフローチャートである。

段階５１０で、プロセッサ２２２は、語尾を除いた文章と該当の文章に対する返答を含んだ学習データセットを利用して会話学習を実行してよい。ＡＩ自動応答システム３００とユーザとの会話のためには、語尾を除いた文章を学習データ水準にラベリングした後、ラベリングされた学習データをディープラーニングや機械学習によって学習して会話学習モデルを構築してよい。このとき、学習文章それぞれに対し、確率の高い返答も学習データセットとしてともに構成して会話学習に利用してよい。

図６は、本発明の一実施形態における、学習文章の例を説明するための図である。

例えば、図６を参照すれば、自動応答サービスで登場する会話ログからサンプル文章６０１を抽出してよく、抽出されたサンプル文章から語尾を除いた文章を学習文章６０２として活用してよい。例えば、サンプル文章「今週の土曜日、レストランの予約は可能ですか？」から語尾「ですか？」を除いた残りの文章「今週の土曜日、レストランの予約は可能？」を学習文章として利用してよい。語尾を除いた残りの文章を学習させることにより、会話の途中である言葉が終わる前に、どのような返答をすべきかを示す正解セットが予め分かるように学習することができる。文章を終わらせる語末語尾を意味する終結語尾だけでなく、接続節に入っている接続語尾、埋め込み節に入っている転成語尾などの非終結語尾、あるいは核心キーワード以外の残りの構成要素を除いた文章を学習文章として活用することも可能である。

言い換えれば、ＡＩ自動応答システム３００は、語尾を除いた文章を学習させて事前に構築された会話学習モデルを含むものである。

再び図５において、段階５２０で、音声認識機４１０は、電子機器１１０のユーザと通話が繋がれば、ゲートウェイ４０１を介して電子機器１１０からユーザの発話音声をリアルタイムストリームで受信してよく、このとき、音声認識機４１０は、受信された発話音声をＳＴＴ（ｓｐｅｅｃｈｔｏｔｅｘｔ）によってテキストにリアルタイムで変換してダイアログマネージャ４２０に伝達してよい。

段階５３０で、ダイアログマネージャ４２０は、音声認識機４１０から伝達されたテキストに対し、自然語理解（ＮＬＵ）技術と会話学習に基づいてユーザ意図（ｉｎｔｅｎｔ）を分析してよい。特に、ダイアログマネージャ４２０は、テキストの音節単位でユーザの意図を把握してよい。つまり、ダイアログマネージャ４２０は、ユーザの言葉が終わってから最終結果（ｆｉｎａｌｒｅｓｕｌｔｓ）として取得する文章単位ではなく、リアルタイムテキスト変換によって中間結果として取得する音節単位に区切ってユーザ意図を把握してよい。ダイアログマネージャ４２０は、言葉が終わる前の中間結果の段階で、ユーザ発話の意味を予め把握してよい。

段階５４０で、返答生成器４３０は、意図分析結果に基づいて返答を予め生成してよい。特に、返答生成器４３０は、中間結果を利用した意図分析結果に対するコンフィデンス（ｃｏｎｆｉｄｅｎｃｅ）に基づいて返答生成時点を決定してよい。一例として、返答生成器４３０は、言葉が終わる前の中間結果の段階で、意図分析結果のコンフィデンスが事前に定められた閾値以上となるときに、該当の時点にユーザ意図に対応する返答を予め生成してよい。返答生成時点を決定するためのコンフィデンスは、語尾を除いた文章を利用した会話学習によって決定されてよく、例えば、中間結果に対するコンフィデンスが最終結果と比べて誤差範囲内にある数値を見つけ出す過程を繰り返した後、繰り返しの過程によって得られた値の統計値に基づいて返答生成時点を決定するためのコンフィデンス閾値を決定してよい。

図７および図８は、本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。

図７を参照すると、ユーザの発話音声「両親を連れて行く予定なのですが、年配の方におすすめのメニューはありますか？」に対して言葉が終わる前の中間結果に基づいてユーザ意図を分析する場合、「両親」、「年配」、「メニュー」まで把握したときに返答を生成することのできる閾値のコンフィデンスが出現してよい。ユーザの言葉が終わる前、つまり、ユーザが語尾「ありますか？」を発する時間に、予め返答を生成しておくことが可能となる。

他の例として、図８を参照すると、予約のための自動応答サービスの場合、ユーザの発話音声「今週の土曜日、３人で予約お願いします。」に対し、中間結果に基づいてユーザ意図を分析するようになるが、このとき、意図分析結果により、予約と関連して事前に定められた必要な情報（情報スロット）がすべて満たされれば、返答を生成することのできるコンフィデンスに達したと判断し、ユーザの言葉が終わる前、つまり、ユーザが語尾「お願いします。」を発する時間に、予め返答を生成しておくことが可能となる。

再び図５において、段階５５０で、音声合成器４４０は、段階５４０で生成された返答を音声信号として合成した後、ユーザの言葉が終われば、ゲートウェイ４０１を介して電子機器１１０に送出してよい。一例として、音声合成器４４０は、ユーザの発話音声からエンドポイント（ｅｎｄｐｏｉｎｔ）が感知される場合にユーザの言葉が終わったと判断してよく、このとき、発話音声が感知されない状態が事前に定められた一定時間以上に維持される場合、エンドポイントとして認識してよい。音声合成器４４０は、ユーザの言葉が終わる前に中間結果によって生成された返答を予め音声信号として合成しておき、ユーザの言葉が終われば、返答音声を電子機器１１０に送出してよい。

したがって、ＡＩ自動応答システム３００は、ユーザの言葉が終わる前に中間結果からユーザ意図を把握し、ユーザが語尾を発する時間に返答を予め生成および合成した後、ユーザの言葉が終われば、予め準備しておいた返答を提供することにより、応答をより迅速に提供することができる。

図９は、本発明の一実施形態における、ＡＩ自動応答方法の他の例を示したフローチャートである。以下のＡＩ自動応答方法は、上述した段階５５０に含まれてよい。

段階９０１で、ダイアログマネージャ４２０は、音声合成器４４０から電子機器１１０に返答音声が送出されている間に、ユーザの発話音声が受信されるかを持続的にチェックしてよい。

段階９０２で、音声合成器４４０は、返答音声が送出されている途中にユーザの発話音声が受信されれば、返答音声の送出を中断してよい。

ＡＩ自動応答システム３００は、基本的に、ゲートウェイ４０１として受信端（ＲＸ）と送信端（ＴＸ）とが共存する構造を含んでよく、このとき、ゲートウェイ４０１には、ユーザの発話音声の受信と返答音声の送出を制御するためのソケットコントローラが含まれてよい。ＡＩ自動応答システム３００は、送信端（ＴＸ）から返答音声を送出している途中に受信端（ＲＸ）にユーザの発話音声による音声信号が入力されれば、送信端（ＴＸ）から送出する音声信号を中断してよい。

一例として、音声合成器４４０は、ユーザの発話音声が入力されれば、送出中であった返答音声を直ぐに中断してよい。他の例として、音声合成器４４０は、ユーザの発話音声が入力されれば、送出中であった返答音声に対して定められた長さのフェードアウト（ｆａｄｅ－ｏｕｔ）を適用した後、返答音声を中断してよい。

返答音声の送出途中に受信されるすべての発話音声に対して返答音声を中断するのではなく、非言語的（ｎｏｎ－ｖｅｒｂａｌ）フィルタを利用して選択的に返答音声を中断してよい。

図１０は、本発明の一実施形態における、返答の送出を中断する過程の他の例を説明するための図である。

図１０を参照すると、段階１００１で、感知部４５０は、無視しなければならない音声として非言語的表現をフィルタリングするために、返答音声の送出途中に受信された発話音声が非言語的形態の表現であるかを判断してよい。感知部４５０は、返答送出途中に返答送出を中断しなくてもよいコンティニュ語（ｃｏｎｔｉｎｕｅｒ）として非言語的表現を判断してよく、さらに、非言語的表現をユーザの意図を把握しなくてもよいものとして判断してよい。

図１１は、本発明の一実施形態における、返答送出を中断しない例外状況を説明するための図である。

例えば、図１１を参照すれば、［はい、ええ、はいはい、・・・］のような同意や首肯の表現、あるいは［うん、ああ、あ、・・・］のような各種感嘆詞などを非言語的表現として分類し、このような非言語的表現を学習してよい。この他にも、非言語的表現の一例として感情表現が含まれた音声を学習してよく、このとき、声の波形や言葉の終端の特徴を分析して疑問符と終止符を区分することによって感情の高まりまで把握してよい。感知部４５０は、非言語的表現の学習結果に基づき、返答音声の送出途中に受信された発話音声が非言語的表現に該当するかを判断してよい。

再び図１０において、段階１００２で、音声合成器４４０は、受信された発話音声が非言語的表現に該当する場合には、無視しなければならない音声であると判断して返答音声の送出をそのまま維持し、非言語的表現に該当しない発話音声が受信される場合には、無視してはならない意味のある音声と判断して返答音声の送出を中断してよい。

したがって、ＡＩ自動応答システム３００は、返答が送出されている途中にユーザ発話による音声信号が受信される場合、返答の送出を中断することにより、実際に人間と通話するような形態を実現することができる。

ダイアログマネージャ４２０は、自動応答サービスで人間と行うような自然な会話をサポートするために、失敗区間に対する適切な対応を提供してよい。一例として、ダイアログマネージャ４２０は、音声認識のための結果情報量が足りない場合、例えば、認識された意図（インテント）が足りないか、サービスと関連するスロットの情報が足りない場合、該当の情報に関する発話を誘導するための問い返しの質問を提供してよい。

他の例として、ダイアログマネージャ４２０は、音声認識のための結果情報量が多すぎる場合、例えば、２つ以上の意図が一度に認識される場合、意図を明確にするために、返答に先立ち、ユーザに該当の意図を確認するための質問を提供してよい。例えば、ユーザ発話「年配の方におすすめのメニューがあれば、今週の土曜日にレストランを予約したいです」から「おすすめメニュー」の意図と「予約」の意図とが同時に把握された場合、「先ずはおすすめメニューをご案内してから、ご予約を承ってもよいですか？」のように、ユーザコンファームのための質問を提供してよい。

また、質問が異なる意図を含む場合、例えば「子供用の椅子はありますか？」のようなユーザ発話から、椅子があるかに対して答えるだけでなく、子供連れの予約であるかについて追加で質問してよい。

また他の例として、ダイアログマネージャ４２０は、音声認識のための結果情報量が多すぎる場合、例えば、２つ以上の意図が一度に認識される場合、返答を意図別に順に提供してよい。例えば、それぞれの意図に、意図認識順にしたがってナンバリング（１つ目、２つ目など）を適用して順に返答を提供してよい。ユーザ発話「年配の方におすすめのメニューがあれば、今週の土曜日にレストランを予約したいです」に対し、「１つ目、ご年配のお客さまのおすすめメニューとして韓定食コースをご用意しております。２つ目、今週の土曜日の何時にご予約をご希望ですか？」のように、返答を意図別に順に提供してよい。

ユーザ発話「予約したいのですが、駐車場はありますか？」のようなユーザ発話の場合、駐車場があれば予約をするという意味として捉えることもできるし、駐車場がなければ車は利用しないが、予約はしたいという意味として捉えることもできる。本発明では、このような多様なユーザの意図を考慮しながら返答を提供することができる。

また他の例として、ダイアログマネージャ４２０は、単位時間内、あるいは連続的に定められた回数以上にまったく同じであるか類似する返答が繰り返される場合、失敗区間に対する対応として情報量によって処理してよい。さらに他の例として、ダイアログマネージャ４２０は、以前の会話文脈を反映したマルチターン会話手法に基づいて返答を提供してよい。この他にも、システム発話の定義問題、自然語理解（ＮＬＵ）エラーなどに対して適切な対応を提供することにより、いかなる状況でも実際に人間と通話するような自然な会話形態を実現することができる。

また、ダイアログマネージャ４２０は、音声認識機４１０によってユーザの発話速度を認識してよく、ユーザの発話速度に合わせて応答速度を異にして適用してよい。一例として、ダイアログマネージャ４２０は、ユーザの発話速度に比例して返答音声の発話速度を決定してよく、例えば、速く質問するユーザであれば質問速度に合わせて速く応答してよい。

したがって、ＡＩ自動応答システム３００は、ユーザ発話速度に合わせて応答速度を異にして提供することにより、ユーザ発話速度に合ったインタラクションによって適したサービスを提供することができる。

さらに、ダイアログマネージャ４２０は、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して自動応答サービスを提供してよい。ダイアログマネージャ４２０は、少なくとも１つの言語モデルを含む翻訳機４６０を含むか、連動可能な形態で構成されてよく、ユーザの発話言語と対応する言語モデルに切り換えてリアルタイム翻訳による自動応答サービスを提供してよい。一例として、翻訳機４６０は、韓国語モデル、英語モデル、日本語モデルが維持されてよく、感知部４５０は、言語を設定するためのウェイクアップワード（ｗａｋｅｕｐｗｏｒｄ）としてユーザの発話音声のうちから先頭部分の言語を感知してよい。このとき、ダイアログマネージャ４２０は、ウェイクアップワードに基づいてユーザの発話言語を認識してよく、ユーザの発話言語に該当する言語モデルに分岐して自動応答サービスを提供してよい。例えば、ダイアログマネージャ４２０は、ユーザ発話の最初の一言として
（外１）

が認識されれば韓国語モデルとして、「ｈｅｌｌｏ（もしもしに該当する英語）」が認識されれば英語モデルとして、「もしもし」が認識されれば日本語モデルとして、翻訳機４６０の言語モデルを分岐して自動応答サービスを提供してよい。言い換えれば、ダイアログマネージャ４２０は、外国人と電話が繋がった場合でも、最初の発話の言語を感知し、該当の言語モデルを利用してレストランへの問い合わせや予約、配達注文などのための自動応答サービスを提供することができる。

したがって、ＡＩ自動応答システム３００は、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することにより、言語に制限されずに、サービスへのアクセス性と利便性を高めることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

３００：ＡＩ自動応答システム
４０１：ゲートウェイ
４１０：音声認識器
４２０：ダイアログマネージャ
４３０：返答生成器
４４０：音声合成器
４５０：感知部
４６０：翻訳機

Claims

コンピュータシステムが実行する人工知能基盤の自動応答方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記人工知能基盤の自動応答方法は、
前記少なくとも１つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、
前記少なくとも１つのプロセッサにより、前記発話音声の中間結果を利用して意図を分析した後に返答を予め生成する段階、および
前記少なくとも１つのプロセッサにより、前記ユーザの発話終了後に前記発話音声に対して前記予め生成された返答を送出する段階
を含む、
人工知能基盤の自動応答方法。
前記生成する段階は、
自動応答サービスの会話ログからサンプル文章を抽出する段階、および
前記サンプル文章から語尾を除いた文章を学習データとして利用する会話学習により、前記中間結果から前記意図を分析する段階
を含む、
請求項１に記載の人工知能基盤の自動応答方法。
前記生成する段階は、
前記中間結果として取得した音節単位で前記意図を分析する段階を含む、
請求項１に記載の人工知能基盤の自動応答方法。
前記生成する段階は、
前記中間結果を利用した意図分析結果に対するコンフィデンスに基づいて前記返答の生成時点を決定する段階を含む、
請求項１に記載の人工知能基盤の自動応答方法。
前記生成する段階は、
前記中間結果を利用した意図分析結果に対するコンフィデンスが、閾値に達する時点を前記返答の生成時点として決定する段階、および
前記発話音声が終了する前に、前記決定された生成時点に前記返答を予め生成する段階を含み、
前記閾値は、語尾を除いた文章を利用した会話学習によって決定されるものであり、前記中間結果に対するコンフィデンスが最終結果と比べて誤差範囲内にある数値を見つけ出す過程を繰り返した後、繰り返しの過程によって得られた値の統計値として決定される、
請求項１に記載の人工知能基盤の自動応答方法。
前記送出する段階は、
前記発話音声からエンドポイントが感知されれば、前記返答を音声信号で送出することを特徴とする、
請求項１に記載の人工知能基盤の自動応答方法。
コンピュータシステムが実行する人工知能基盤の自動応答方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記人工知能基盤の自動応答方法は、
前記少なくとも１つのプロセッサにより、ユーザの通話が繋がることにより前記ユーザの発話音声を受信する段階、
前記少なくとも１つのプロセッサにより、前記発話音声の中間結果を利用して意図を分析した後に返答を予め生成する段階、
前記少なくとも１つのプロセッサにより、前記ユーザの発話終了後に前記発話音声に対して予め生成された返答を送出する段階、および
前記少なくとも１つのプロセッサにより、前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する段階
を含む、
人工知能基盤の自動応答方法。
前記中断する段階は、
前記ユーザの発話音声が受信されれば、前記返答の送出を、即時にまたはフェードアウトを適用した後に中断することを特徴とする、
請求項７に記載の人工知能基盤の自動応答方法。
前記中断する段階は、
非言語的表現を分類して学習する段階、および
前記返答が送出される途中に受信された発話音声が前記学習された非言語的表現に該当する場合には前記返答の送出を維持し、前記学習された非言語的表現に該当しない場合には前記返答の送出を中断する段階を含む、
請求項７に記載の人工知能基盤の自動応答方法。
前記人工知能基盤の自動応答方法は、
前記少なくとも１つのプロセッサにより、前記発話音声の認識結果として返答に必要な情報が足りない場合、前記情報を誘導するための問い返しの質問を提供する段階をさらに含む、
請求項１または７に記載の人工知能基盤の自動応答方法。
前記人工知能基盤の自動応答方法は、
前記少なくとも１つのプロセッサにより、前記発話音声の認識結果によって複数の意図が認識された場合、意図認識順にしたがって各意図に対する返答を順に提供する段階をさらに含む、
請求項１または７に記載の人工知能基盤の自動応答方法。
前記人工知能基盤の自動応答方法は、
前記少なくとも１つのプロセッサにより、前記ユーザの発話速度を認識する段階、および
前記少なくとも１つのプロセッサにより、前記ユーザの発話速度によって前記返答の発話速度を決定する段階
をさらに含む、
請求項１または７に記載の人工知能基盤の自動応答方法。
前記人工知能基盤の自動応答方法は、
前記少なくとも１つのプロセッサにより、前記ユーザの発話言語を認識する段階、および
前記少なくとも１つのプロセッサにより、自動応答サービスのための言語モデルを前記ユーザの発話言語に対応する言語モデルに切り換える段階
をさらに含む、
請求項１または７に記載の人工知能基盤の自動応答方法。
請求項１～９のうちのいずれか一項に記載の人工知能基盤の自動応答方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記少なくとも１つのプロセッサは、
ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、
前記発話音声の中間結果を利用して意図を分析した後に返答を予め生成する過程、および
前記ユーザの発話終了後に前記発話音声に対して前記予め生成された返答を送出する過程
を処理する、
コンピュータシステム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記少なくとも１つのプロセッサは、
ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、
前記発話音声の中間結果を利用して意図を分析した後に返答を予め生成する段階、
前記ユーザの発話終了後に前記発話音声に対して前記予め生成された返答を送出する過程、および
前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する過程
を処理する、
コンピュータシステム。