JP2021022928A - 人工知能基盤の自動応答方法およびシステム - Google Patents

人工知能基盤の自動応答方法およびシステム Download PDF

Info

Publication number
JP2021022928A
JP2021022928A JP2020124156A JP2020124156A JP2021022928A JP 2021022928 A JP2021022928 A JP 2021022928A JP 2020124156 A JP2020124156 A JP 2020124156A JP 2020124156 A JP2020124156 A JP 2020124156A JP 2021022928 A JP2021022928 A JP 2021022928A
Authority
JP
Japan
Prior art keywords
user
artificial intelligence
automatic response
processor
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020124156A
Other languages
English (en)
Other versions
JP7113047B2 (ja
Inventor
ギョンテ ト
Gyeong-Tae Do
ギョンテ ト
サンウ イ
Sang Woo Lee
サンウ イ
ヘジ キム
Hyeji Kim
ヘジ キム
ヒョンフン チョン
Hyunhoon Jung
ヒョンフン チョン
ソンファン チョン
Sunghwan Jung
ソンファン チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2021022928A publication Critical patent/JP2021022928A/ja
Application granted granted Critical
Publication of JP7113047B2 publication Critical patent/JP7113047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 人工知能基盤の自動応答方法およびシステムを提供する。【解決手段】 人工知能基盤の自動応答方法は、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記発話音声の中間結果(mid results)を利用して意図(intent)を分析した後に返答を生成する段階、および前記発話音声に対して前記返答を送出する段階を含む。【選択図】 図5

Description

以下の説明は、人工知能(AI)を基盤とした自動応答システム(ARS)に関する。
情報通信技術の発達によって情報化社会が進展しており、社会、文化、および経済などのようなあらゆる分野においてインターネットが重要かつ必須な媒体となりつつある。
各種企業に問い合わせ、予約、配達などを要請するためには、ユーザが企業に直接電話をかけたり、代行企業を通じて要請事項を伝達したりするオフライン方式がある。
オフライン方式よりも改善された方法としては、インターネット技術の発達に基づいてウェブサイトから関連企業の顧客センターに接続する方式や、スマートフォンなどのようなモバイル技術の発達に基づいてARS方式を利用する方法、顧客センターのアプリ(App、Application)をインストールして実行させることで、必要な事項を処理できるようになった。
例えば、特許文献1(公開日2019年3月29日)には、人工知能に基づき、顧客に画面上で顧客センター接続サービスを提供する技術が開示されている。
韓国公開特許第10−2019−0033138号公報
ユーザ発話に対する中間結果(mid results)から発話の意味を把握して返答を予め準備しておくことにより、返答を迅速に提供することができる方法およびシステムを提供する。
返答が送出される途中にユーザ発話による音声信号が受信される場合、返答の送出を中断することができる方法およびシステムを提供する。
ユーザ発話の速度に合わせて応答速度を異にして提供することができる方法およびシステムを提供する。
リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することができる方法およびシステムを提供する。
コンピュータシステムが実行する人工知能基盤の自動応答方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記少なくとも1つのプロセッサにより、前記発話音声の中間結果(mid results)を利用して意図(intent)を分析した後に返答を生成する段階、および前記少なくとも1つのプロセッサにより、前記発話音声に対して前記返答を送出する段階を含む、人工知能基盤の自動応答方法を提供する。
一側面によると、前記生成する段階は、自動応答サービスの会話ログからサンプル文章を抽出する段階、および前記サンプル文章から語尾を除いた文章を学習データとして利用する会話学習により、前記中間結果から前記意図を分析する段階を含んでよい。
他の側面によると、前記生成する段階は、前記中間結果として取得した音節単位で前記意図を分析する段階を含んでよい。
また他の側面によると、前記生成する段階は、前記中間結果を利用した意図分析結果に対するコンフィデンス(confidence)に基づいて前記返答の生成時点を決定する段階を含んでよい。
また他の側面によると、前記生成する段階は、前記中間結果を利用した意図分析結果に対するコンフィデンスが、語尾を除いた文章を利用した会話学習によって決定された閾値に達する時点に、前記返答を予め生成する段階を含んでよい。
さらに他の側面によると、前記送出する段階は、前記発話音声からエンドポイント(end point)が感知されれば、前記返答を音声信号で送出してよい。
コンピュータシステムが実行する人工知能基盤の自動応答方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、前記少なくとも1つのプロセッサにより、前記発話音声に対して返答を送出する段階、および前記少なくとも1つのプロセッサにより、前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する段階を含む、人工知能基盤の自動応答方法を提供する。
一側面によると、前記中断する段階は、前記ユーザの発話音声が受信されれば、前記返答の送出を即刻にまたはフェードアウト(fade−out)を適用した後に中断してよい。
他の側面によると、前記中断する段階は、非言語的(non−verbal)表現を分類して学習する段階、および前記返答が送出される途中に受信された発話音声が前記学習された非言語的表現に該当する場合には前記返答の送出を維持し、前記学習された非言語的表現に該当しない場合には前記返答の送出を中断する段階を含んでよい。
また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記発話音声の認識結果として返答に必要な情報が足りない場合、前記情報を誘導するための問い返しの質問を提供する段階をさらに含んでよい。
また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記発話音声の認識結果によって複数の意図が認識された場合、意図の認識順にしたがって各意図に対する返答を順に提供する段階をさらに含んでよい。
また他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記ユーザの発話速度を認識する段階、および前記少なくとも1つのプロセッサにより、前記ユーザの発話速度によって前記返答の発話速度を決定する段階をさらに含んでよい。
さらに他の側面によると、前記人工知能基盤の自動応答方法は、前記少なくとも1つのプロセッサにより、前記ユーザの発話言語を認識する段階、および前記少なくとも1つのプロセッサにより、自動応答サービスのための言語モデルを前記ユーザの発話言語に対応する言語モデルに切り換える段階をさらに含んでよい。
前記人工知能基盤の自動応答方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体を提供する。
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、前記発話音声の中間結果を利用して意図を分析した後に返答を生成する過程、および前記発話音声に対して前記返答を送出する過程を処理する、コンピュータシステムを提供する。
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、前記発話音声に対して返答を送出する過程、および前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する過程を処理する、コンピュータシステムを提供する。
本発明の実施形態によると、ユーザ発話に対する中間結果から発話の意味を把握し、発話が終わる前に返答を予め準備しておくことにより、返答を迅速に提供することができる。
本発明の実施形態によると、返答が送出される途中にユーザ発話による音声信号が受信される場合に返答の送出を中断することにより、実際に人間と通話するような形態を実現することができる。
本発明の実施形態によると、ユーザ発話の速度に合わせて応答速度を異にして提供することにより、ユーザの発話速度に適合するインタラクションによって適したサービスを提供することができる。
本発明の実施形態によると、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することにより、言語に制限されずにサービスへのアクセス性と利便性を高めることができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、AI自動応答システムを説明するための例示図である。 本発明の一実施形態における、AI自動応答システムが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、AI自動応答方法の例を示したフローチャートである。 本発明の一実施形態における、学習文章の例を説明するための図である。 本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。 本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。 本発明の一実施形態における、返答の送出を中断する過程の一例を説明するための図である。 本発明の一実施形態における、返答の送出を中断する過程の他の例を説明するための図である。 本発明の一実施形態における、返答の送出を中断しない例外状況を説明するための図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態は、人工知能(AI)を基盤とした自動応答システム(ARS)に関する。
本明細書で具体的に開示される事項を含む実施形態は、人工知能を基盤として実際に人間と会話するような形態で実現された自動応答システムを提供することができ、これによってユーザとのより自然な通話を実現しながら、問い合わせ、予約、配達注文などを迅速かつ便利に処理することができる。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。
複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、AIスピーカ、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどがある。一例として、図1では、電子機器110としてAIスピーカを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160は、それぞれ、複数の電子機器110、120、130、140とネットワーク170を介して通信して、命令、コード、ファイル、コンテンツ、サービスなどを提供する、1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第1サービスを提供するシステムであってよく、サーバ160も、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第2サービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、自動応答サービスなど)を第1サービスとして複数の電子機器110、120、130、140に提供してよい。他の例として、サーバ160は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器110、120、130、140に配布するサービスを第2サービスとして提供してよい。
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、電子機器に対する例として電子機器110の内部構成およびサーバ150の内部構成について説明する。また、他の電子機器120、130、140やサーバ160も、上述した電子機器110またはサーバ150と同一または類似の内部構成を有してよい。
電子機器110およびサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、非一時的なコンピュータ読み取り可能な記録媒体であってよく、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような非一時的な大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような非一時的な大容量記録装置は、メモリ211、221とは区分される別の非一時的な記録装置として電子機器110やサーバ150に含まれてもよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器110においてインストールされて実行されるブラウザや、特定のサービスの提供のために電子機器110にインストールされたアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール213、223は、ネットワーク170を介して電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、電子機器110および/またはサーバ150が他の電子機器(一例として、電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、電子機器110のプロセッサ212がメモリ211のような記録装置に記録されたプログラムコードにしたがって生成した要求が、通信モジュール213の制御にしたがってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て電子機器110の通信モジュール213を通じて電子機器110に受信されてよい。例えば、通信モジュール213を通じて受信されたサーバ150の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、電子機器110がさらに含むことのできる記録媒体(上述した非一時的な記録装置)に記録されてよい。
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、電子機器110と1つの装置で構成されてもよい。また、サーバ150の入力/出力インタフェース224は、サーバ150に接続するかサーバ150が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。より具体的な例として、電子機器110のプロセッサ212がメモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。
また、他の実施形態において、電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器110がAIスピーカである場合、一般的にAIスピーカが含んでいる各種センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器110にさらに含まれるように実現されてよい。
自動応答システムは、ユーザとの会話に基づいてレストラン、宿泊施設、航空券、映画、公演、病院(診療)、旅行などに関する各種情報を伝達する自動応答サービスプラットフォームを提供するものである。
以下では、一例として、レストランの店員に代わってユーザと自然に通話をしながら、レストランへの問い合わせ、予約、配達注文などを処理することについて説明するが、これは一例に過ぎず、これに限定されてはならず、自動応答システムの使用が可能な企業や分野のすべてに適用可能である。
図3は、本発明の一実施形態における、AI自動応答システムを説明するための例示図である。
例えば、本発明の実施形態に係るAI自動応答システム300は、図1と図2を参照しながら説明したサーバ150上に実現されてよい。
図3を参照すると、AI自動応答システム300は、複数の企業31〜33に対する問い合わせ、予約、配達注文などを処理するための自動応答サービスを提供するものであってよい。
AI自動応答システム300は、電話機能(call)やチャットボット(chatbot)による通話によってユーザ301との人工知能会話を提供してよく、ユーザ301との会話に基づき、ユーザ301が望む情報を提供したり、ユーザ301の要求を企業31〜33に伝達したりしてよい。
AI自動応答システム300は、企業31〜33と関連する自動応答サービスを提供するために、各企業31〜33別の企業情報が含まれたデータベースシステム(図示せず)と1つのシステムで実現されてもよいし、あるいは連動可能な別のシステムで実現されてもよい。AI自動応答システム300は、企業情報に基づき、ユーザ301が望む情報を提供したり、ユーザ301の要求を処理したりしてよい。
例えば、AI自動応答システム300は、ユーザ301との会話に基づいて動作するインタフェースが含まれた電子機器110から、ユーザ301の発話による音声入力「企業Aに注文可能ですか?」を受信したとする。これにより、AI自動応答システム300は、電子機器110から受信されたユーザ301の音声入力「企業Aに注文可能ですか?」を認識および分析した後、企業情報に基づいて返答「現在、注文可能です。メニューをお伝えください。」を生成し、生成された返答を音声信号によって電子機器110に送出してよい。AI自動応答システム300は、ユーザ301との会話に基づき、ユーザ301の要求、例えば、選択されたメニューや数量などをまとめた後、まとめた情報を該当の企業(31〜33のうちの1つ)に伝達してよい。
以下では、人工知能基盤の自動応答方法およびシステムの具体的な実施形態について説明する。
図4は、本発明の一実施形態における、AI自動応答システムが含むことのできる構成要素の例を示した図である。
本実施形態に係るサーバ150は、企業と関連する自動応答サービスを提供するプラットフォームの役割を担う。特に、サーバ150は、人工知能を基盤として実際に人間と会話するような形態で実現されたAI自動応答システム300を含んでよい。
AI自動応答システム300は、図4に示すように、ゲートウェイ401、音声認識機410、ダイアログマネージャ420、返答生成器430、音声合成器440、感知部450、および翻訳機460を含んでよい。
ゲートウェイ401は、電子機器110にインストールされたアプリケーションの電話機能やチャットボットによって電子機器110のユーザの音声入力を受信する役割をする受信端(RX)と、ARS応答によって電子機器110に返答音声を送出する役割をする送信端(TX)とを含んでよい。また、ゲートウェイ401には、返答音声の送出を制御するためのソケットコントローラ(socket controller)が含まれてよい。
音声認識機410、ダイアログマネージャ420、返答生成器430、音声合成器440、感知部450、および翻訳機460は、サーバ150のプロセッサ222の構成要素として含まれてよい。実施形態によって、プロセッサ222の構成要素は、選択的にプロセッサ222に含まれても除外されてもよい。また、実施形態によって、プロセッサ222の構成要素は、プロセッサ222の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ222およびプロセッサ222の構成要素は、以下で説明されるAI自動応答方法の実行のために、制御命令による演算を直接処理してもよいし、またはサーバ150を制御してもよい。例えば、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ222の構成要素は、サーバ150に記録されたプログラムコードが提供する命令にしたがってプロセッサ222によって実行される、プロセッサ222の互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150が電子機器110から受信された音声入力を認識するように上述した命令にしたがってサーバ150を制御するプロセッサ222の機能的表現として、音声認識機410が利用されてよい。
プロセッサ222は、サーバ150の制御と関連する命令がロードされたメモリ221から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明するAI自動応答方法をプロセッサ222が実行するように制御するための命令を含んでよい。
以下のAI自動応答方法は、図に示した順に発生しなくてもよく、段階の一部が省略されたり追加の過程がさらに含まれたりしてもよい。
図5は、本発明の一実施形態における、AI自動応答方法の一例を示したフローチャートである。
段階510で、プロセッサ222は、語尾を除いた文章と該当の文章に対する返答を含んだ学習データセットを利用して会話学習を実行してよい。AI自動応答システム300とユーザとの会話のためには、語尾を除いた文章を学習データ水準にラベリングした後、ラベリングされた学習データをディープラーニングや機械学習によって学習して会話学習モデルを構築してよい。このとき、学習文章それぞれに対し、確率の高い返答も学習データセットとしてともに構成して会話学習に利用してよい。
図6は、本発明の一実施形態における、学習文章の例を説明するための図である。
例えば、図6を参照すれば、自動応答サービスで登場する会話ログからサンプル文章601を抽出してよく、抽出されたサンプル文章から語尾を除いた文章を学習文章602として活用してよい。例えば、サンプル文章「今週の土曜日、レストランの予約は可能ですか?」から語尾「ですか?」を除いた残りの文章「今週の土曜日、レストランの予約は可能?」を学習文章として利用してよい。語尾を除いた残りの文章を学習させることにより、会話の途中である言葉が終わる前に、どのような返答をすべきかを示す正解セットが予め分かるように学習することができる。文章を終わらせる語末語尾を意味する終結語尾だけでなく、接続節に入っている接続語尾、埋め込み節に入っている転成語尾などの非終結語尾、あるいは核心キーワード以外の残りの構成要素を除いた文章を学習文章として活用することも可能である。
言い換えれば、AI自動応答システム300は、語尾を除いた文章を学習させて事前に構築された会話学習モデルを含むものである。
再び図5において、段階520で、音声認識機410は、電子機器110のユーザと通話が繋がれば、ゲートウェイ401を介して電子機器110からユーザの発話音声をリアルタイムストリームで受信してよく、このとき、音声認識機410は、受信された発話音声をSTT(speech to text)によってテキストにリアルタイムで変換してダイアログマネージャ420に伝達してよい。
段階530で、ダイアログマネージャ420は、音声認識機410から伝達されたテキストに対し、自然語理解(NLU)技術と会話学習に基づいてユーザ意図(intent)を分析してよい。特に、ダイアログマネージャ420は、テキストの音節単位でユーザの意図を把握してよい。つまり、ダイアログマネージャ420は、ユーザの言葉が終わってから最終結果(final results)として取得する文章単位ではなく、リアルタイムテキスト変換によって中間結果として取得する音節単位に区切ってユーザ意図を把握してよい。ダイアログマネージャ420は、言葉が終わる前の中間結果の段階で、ユーザ発話の意味を予め把握してよい。
段階540で、返答生成器430は、意図分析結果に基づいて返答を予め生成してよい。特に、返答生成器430は、中間結果を利用した意図分析結果に対するコンフィデンス(confidence)に基づいて返答生成時点を決定してよい。一例として、返答生成器430は、言葉が終わる前の中間結果の段階で、意図分析結果のコンフィデンスが事前に定められた閾値以上となるときに、該当の時点にユーザ意図に対応する返答を予め生成してよい。返答生成時点を決定するためのコンフィデンスは、語尾を除いた文章を利用した会話学習によって決定されてよく、例えば、中間結果に対するコンフィデンスが最終結果と比べて誤差範囲内にある数値を見つけ出す過程を繰り返した後、繰り返しの過程によって得られた値の統計値に基づいて返答生成時点を決定するためのコンフィデンス閾値を決定してよい。
図7および図8は、本発明の一実施形態における、ユーザの発話音声に対する中間結果を利用してユーザの意図を分析する過程を説明するための例示図である。
図7を参照すると、ユーザの発話音声「両親を連れて行く予定なのですが、年配の方におすすめのメニューはありますか?」に対して言葉が終わる前の中間結果に基づいてユーザ意図を分析する場合、「両親」、「年配」、「メニュー」まで把握したときに返答を生成することのできる閾値のコンフィデンスが出現してよい。ユーザの言葉が終わる前、つまり、ユーザが語尾「ありますか?」を発する時間に、予め返答を生成しておくことが可能となる。
他の例として、図8を参照すると、予約のための自動応答サービスの場合、ユーザの発話音声「今週の土曜日、3人で予約お願いします。」に対し、中間結果に基づいてユーザ意図を分析するようになるが、このとき、意図分析結果により、予約と関連して事前に定められた必要な情報(情報スロット)がすべて満たされれば、返答を生成することのできるコンフィデンスに達したと判断し、ユーザの言葉が終わる前、つまり、ユーザが語尾「お願いします。」を発する時間に、予め返答を生成しておくことが可能となる。
再び図5において、段階550で、音声合成器440は、段階540で生成された返答を音声信号として合成した後、ユーザの言葉が終われば、ゲートウェイ401を介して電子機器110に送出してよい。一例として、音声合成器440は、ユーザの発話音声からエンドポイント(end point)が感知される場合にユーザの言葉が終わったと判断してよく、このとき、発話音声が感知されない状態が事前に定められた一定時間以上に維持される場合、エンドポイントとして認識してよい。音声合成器440は、ユーザの言葉が終わる前に中間結果によって生成された返答を予め音声信号として合成しておき、ユーザの言葉が終われば、返答音声を電子機器110に送出してよい。
したがって、AI自動応答システム300は、ユーザの言葉が終わる前に中間結果からユーザ意図を把握し、ユーザが語尾を発する時間に返答を予め生成および合成した後、ユーザの言葉が終われば、予め準備しておいた返答を提供することにより、応答をより迅速に提供することができる。
図9は、本発明の一実施形態における、AI自動応答方法の他の例を示したフローチャートである。以下のAI自動応答方法は、上述した段階550に含まれてよい。
段階901で、ダイアログマネージャ420は、音声合成器440から電子機器110に返答音声が送出されている間に、ユーザの発話音声が受信されるかを持続的にチェックしてよい。
段階902で、音声合成器440は、返答音声が送出されている途中にユーザの発話音声が受信されれば、返答音声の送出を中断してよい。
AI自動応答システム300は、基本的に、ゲートウェイ401として受信端(RX)と送信端(TX)とが共存する構造を含んでよく、このとき、ゲートウェイ401には、ユーザの発話音声の受信と返答音声の送出を制御するためのソケットコントローラが含まれてよい。AI自動応答システム300は、送信端(TX)から返答音声を送出している途中に受信端(RX)にユーザの発話音声による音声信号が入力されれば、送信端(TX)から送出する音声信号を中断してよい。
一例として、音声合成器440は、ユーザの発話音声が入力されれば、送出中であった返答音声を直ぐに中断してよい。他の例として、音声合成器440は、ユーザの発話音声が入力されれば、送出中であった返答音声に対して定められた長さのフェードアウト(fade−out)を適用した後、返答音声を中断してよい。
返答音声の送出途中に受信されるすべての発話音声に対して返答音声を中断するのではなく、非言語的(non−verbal)フィルタを利用して選択的に返答音声を中断してよい。
図10は、本発明の一実施形態における、返答の送出を中断する過程の他の例を説明するための図である。
図10を参照すると、段階1001で、感知部450は、無視しなければならない音声として非言語的表現をフィルタリングするために、返答音声の送出途中に受信された発話音声が非言語的形態の表現であるかを判断してよい。感知部450は、返答送出途中に返答送出を中断しなくてもよいコンティニュ語(continuer)として非言語的表現を判断してよく、さらに、非言語的表現をユーザの意図を把握しなくてもよいものとして判断してよい。
図11は、本発明の一実施形態における、返答送出を中断しない例外状況を説明するための図である。
例えば、図11を参照すれば、[はい、ええ、はいはい、・・・]のような同意や首肯の表現、あるいは[うん、ああ、あ、・・・]のような各種感嘆詞などを非言語的表現として分類し、このような非言語的表現を学習してよい。この他にも、非言語的表現の一例として感情表現が含まれた音声を学習してよく、このとき、声の波形や言葉の終端の特徴を分析して疑問符と終止符を区分することによって感情の高まりまで把握してよい。感知部450は、非言語的表現の学習結果に基づき、返答音声の送出途中に受信された発話音声が非言語的表現に該当するかを判断してよい。
再び図10において、段階1002で、音声合成器440は、受信された発話音声が非言語的表現に該当する場合には、無視しなければならない音声であると判断して返答音声の送出をそのまま維持し、非言語的表現に該当しない発話音声が受信される場合には、無視してはならない意味のある音声と判断して返答音声の送出を中断してよい。
したがって、AI自動応答システム300は、返答が送出されている途中にユーザ発話による音声信号が受信される場合、返答の送出を中断することにより、実際に人間と通話するような形態を実現することができる。
ダイアログマネージャ420は、自動応答サービスで人間と行うような自然な会話をサポートするために、失敗区間に対する適切な対応を提供してよい。一例として、ダイアログマネージャ420は、音声認識のための結果情報量が足りない場合、例えば、認識された意図(インテント)が足りないか、サービスと関連するスロットの情報が足りない場合、該当の情報に関する発話を誘導するための問い返しの質問を提供してよい。
他の例として、ダイアログマネージャ420は、音声認識のための結果情報量が多すぎる場合、例えば、2つ以上の意図が一度に認識される場合、意図を明確にするために、返答に先立ち、ユーザに該当の意図を確認するための質問を提供してよい。例えば、ユーザ発話「年配の方におすすめのメニューがあれば、今週の土曜日にレストランを予約したいです」から「おすすめメニュー」の意図と「予約」の意図とが同時に把握された場合、「先ずはおすすめメニューをご案内してから、ご予約を承ってもよいですか?」のように、ユーザコンファームのための質問を提供してよい。
また、質問が異なる意図を含む場合、例えば「子供用の椅子はありますか?」のようなユーザ発話から、椅子があるかに対して答えるだけでなく、子供連れの予約であるかについて追加で質問してよい。
また他の例として、ダイアログマネージャ420は、音声認識のための結果情報量が多すぎる場合、例えば、2つ以上の意図が一度に認識される場合、返答を意図別に順に提供してよい。例えば、それぞれの意図に、意図認識順にしたがってナンバリング(1つ目、2つ目など)を適用して順に返答を提供してよい。ユーザ発話「年配の方におすすめのメニューがあれば、今週の土曜日にレストランを予約したいです」に対し、「1つ目、ご年配のお客さまのおすすめメニューとして韓定食コースをご用意しております。2つ目、今週の土曜日の何時にご予約をご希望ですか?」のように、返答を意図別に順に提供してよい。
ユーザ発話「予約したいのですが、駐車場はありますか?」のようなユーザ発話の場合、駐車場があれば予約をするという意味として捉えることもできるし、駐車場がなければ車は利用しないが、予約はしたいという意味として捉えることもできる。本発明では、このような多様なユーザの意図を考慮しながら返答を提供することができる。
また他の例として、ダイアログマネージャ420は、単位時間内、あるいは連続的に定められた回数以上にまったく同じであるか類似する返答が繰り返される場合、失敗区間に対する対応として情報量によって処理してよい。さらに他の例として、ダイアログマネージャ420は、以前の会話文脈を反映したマルチターン会話手法に基づいて返答を提供してよい。この他にも、システム発話の定義問題、自然語理解(NLU)エラーなどに対して適切な対応を提供することにより、いかなる状況でも実際に人間と通話するような自然な会話形態を実現することができる。
また、ダイアログマネージャ420は、音声認識機410によってユーザの発話速度を認識してよく、ユーザの発話速度に合わせて応答速度を異にして適用してよい。一例として、ダイアログマネージャ420は、ユーザの発話速度に比例して返答音声の発話速度を決定してよく、例えば、速く質問するユーザであれば質問速度に合わせて速く応答してよい。
したがって、AI自動応答システム300は、ユーザ発話速度に合わせて応答速度を異にして提供することにより、ユーザ発話速度に合ったインタラクションによって適したサービスを提供することができる。
さらに、ダイアログマネージャ420は、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して自動応答サービスを提供してよい。ダイアログマネージャ420は、少なくとも1つの言語モデルを含む翻訳機460を含むか、連動可能な形態で構成されてよく、ユーザの発話言語と対応する言語モデルに切り換えてリアルタイム翻訳による自動応答サービスを提供してよい。一例として、翻訳機460は、韓国語モデル、英語モデル、日本語モデルが維持されてよく、感知部450は、言語を設定するためのウェイクアップワード(wakeup word)としてユーザの発話音声のうちから先頭部分の言語を感知してよい。このとき、ダイアログマネージャ420は、ウェイクアップワードに基づいてユーザの発話言語を認識してよく、ユーザの発話言語に該当する言語モデルに分岐して自動応答サービスを提供してよい。例えば、ダイアログマネージャ420は、ユーザ発話の最初の一言として
(外1)

が認識されれば韓国語モデルとして、「hello(もしもしに該当する英語)」が認識されれば英語モデルとして、「もしもし」が認識されれば日本語モデルとして、翻訳機460の言語モデルを分岐して自動応答サービスを提供してよい。言い換えれば、ダイアログマネージャ420は、外国人と電話が繋がった場合でも、最初の発話の言語を感知し、該当の言語モデルを利用してレストランへの問い合わせや予約、配達注文などのための自動応答サービスを提供することができる。
したがって、AI自動応答システム300は、リアルタイム翻訳を利用してユーザが発話している言語に翻訳して返答を提供することにより、言語に制限されずに、サービスへのアクセス性と利便性を高めることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
300:AI自動応答システム
401:ゲートウェイ
410:音声認識器
420:ダイアログマネージャ
430:返答生成器
440:音声合成器
450:感知部
460:翻訳機

Claims (16)

  1. コンピュータシステムが実行する人工知能基盤の自動応答方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記人工知能基盤の自動応答方法は、
    前記少なくとも1つのプロセッサにより、ユーザと通話が繋がることにより前記ユーザの発話音声を受信する段階、
    前記少なくとも1つのプロセッサにより、前記発話音声の中間結果を利用して意図を分析した後に返答を生成する段階、および
    前記少なくとも1つのプロセッサにより、前記発話音声に対して前記返答を送出する段階
    を含む、
    人工知能基盤の自動応答方法。
  2. 前記生成する段階は、
    自動応答サービスの会話ログからサンプル文章を抽出する段階、および
    前記サンプル文章から語尾を除いた文章を学習データとして利用する会話学習により、前記中間結果から前記意図を分析する段階
    を含む、
    請求項1に記載の人工知能基盤の自動応答方法。
  3. 前記生成する段階は、
    前記中間結果として取得した音節単位で前記意図を分析する段階を含む、
    請求項1に記載の人工知能基盤の自動応答方法。
  4. 前記生成する段階は、
    前記中間結果を利用した意図分析結果に対するコンフィデンスに基づいて前記返答の生成時点を決定する段階を含む、
    請求項1に記載の人工知能基盤の自動応答方法。
  5. 前記生成する段階は、
    前記中間結果を利用した意図分析結果に対するコンフィデンスが、語尾を除いた文章を利用した会話学習によって決定された閾値に達する時点に、前記返答を予め生成する段階を含む、
    請求項1に記載の人工知能基盤の自動応答方法。
  6. 前記送出する段階は、
    前記発話音声からエンドポイントが感知されれば、前記返答を音声信号で送出することを特徴とする、
    請求項1に記載の人工知能基盤の自動応答方法。
  7. コンピュータシステムが実行する人工知能基盤の自動応答方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記人工知能基盤の自動応答方法は、
    前記少なくとも1つのプロセッサにより、ユーザの通話が繋がることにより前記ユーザの発話音声を受信する段階、
    前記少なくとも1つのプロセッサにより、前記発話音声に対して返答を送出する段階、および
    前記少なくとも1つのプロセッサにより、前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する段階
    を含む、
    人工知能基盤の自動応答方法。
  8. 前記中断する段階は、
    前記ユーザの発話音声が受信されれば、前記返答の送出を、即時にまたはフェードアウトを適用した後に中断することを特徴とする、
    請求項7に記載の人工知能基盤の自動応答方法。
  9. 前記中断する段階は、
    非言語的表現を分類して学習する段階、および
    前記返答が送出される途中に受信された発話音声が前記学習された非言語的表現に該当する場合には前記返答の送出を維持し、前記学習された非言語的表現に該当しない場合には前記返答の送出を中断する段階を含む、
    請求項7に記載の人工知能基盤の自動応答方法。
  10. 前記人工知能基盤の自動応答方法は、
    前記少なくとも1つのプロセッサにより、前記発話音声の認識結果として返答に必要な情報が足りない場合、前記情報を誘導するための問い返しの質問を提供する段階をさらに含む、
    請求項1または7に記載の人工知能基盤の自動応答方法。
  11. 前記人工知能基盤の自動応答方法は、
    前記少なくとも1つのプロセッサにより、前記発話音声の認識結果によって複数の意図が認識された場合、意図認識順にしたがって各意図に対する返答を順に提供する段階をさらに含む、
    請求項1または7に記載の人工知能基盤の自動応答方法。
  12. 前記人工知能基盤の自動応答方法は、
    前記少なくとも1つのプロセッサにより、前記ユーザの発話速度を認識する段階、および
    前記少なくとも1つのプロセッサにより、前記ユーザの発話速度によって前記返答の発話速度を決定する段階
    をさらに含む、
    請求項1または7に記載の人工知能基盤の自動応答方法。
  13. 前記人工知能基盤の自動応答方法は、
    前記少なくとも1つのプロセッサにより、前記ユーザの発話言語を認識する段階、および
    前記少なくとも1つのプロセッサにより、自動応答サービスのための言語モデルを前記ユーザの発話言語に対応する言語モデルに切り換える段階
    をさらに含む、
    請求項1または7に記載の人工知能基盤の自動応答方法。
  14. 請求項1〜9のうちのいずれか一項に記載の人工知能基盤の自動応答方法をコンピュータに実行させるためのプログラムが記録されている、非一時なコンピュータ読み取り可能な記録媒体。
  15. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記少なくとも1つのプロセッサは、
    ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、
    前記発話音声の中間結果を利用して意図を分析した後に返答を生成する過程、および
    前記発話音声に対して前記返答を送出する過程
    を処理する、
    コンピュータシステム。
  16. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記少なくとも1つのプロセッサは、
    ユーザと通話が繋がることにより前記ユーザの発話音声を受信する過程、
    前記発話音声に対して返答を送出する過程、および
    前記返答が送出される途中に前記ユーザの発話音声が受信されれば、前記返答の送出を中断する過程
    を処理する、
    コンピュータシステム。
JP2020124156A 2019-07-24 2020-07-21 人工知能基盤の自動応答方法およびシステム Active JP7113047B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0089399 2019-07-24
KR1020190089399A KR102170088B1 (ko) 2019-07-24 2019-07-24 인공지능 기반 자동 응답 방법 및 시스템

Publications (2)

Publication Number Publication Date
JP2021022928A true JP2021022928A (ja) 2021-02-18
JP7113047B2 JP7113047B2 (ja) 2022-08-04

Family

ID=73006448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020124156A Active JP7113047B2 (ja) 2019-07-24 2020-07-21 人工知能基盤の自動応答方法およびシステム

Country Status (2)

Country Link
JP (1) JP7113047B2 (ja)
KR (1) KR102170088B1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571038A (zh) * 2021-07-14 2021-10-29 北京小米移动软件有限公司 语音对话方法、装置、电子设备及存储介质
CN113643696A (zh) * 2021-08-10 2021-11-12 阿波罗智联(北京)科技有限公司 语音处理方法、装置、设备、存储介质及程序
WO2023097745A1 (zh) * 2021-12-03 2023-06-08 山东远联信息科技有限公司 一种基于深度学习的智能交互方法、***及终端
WO2024101615A1 (ko) * 2022-11-08 2024-05-16 한국전자기술연구원 턴프리 대화 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640944B1 (ko) * 2022-04-05 2024-02-23 에스케이텔레콤 주식회사 자동 통화 서비스 제공 방법 및 장치
KR102490519B1 (ko) * 2022-07-21 2023-01-19 주식회사 라피치 발신자의 텍스트데이터에 대응하여 암호화를 하는 개인정보 보호 기능을 가지는 자동응답 시스템 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323993A (ja) * 1992-03-16 1993-12-07 Toshiba Corp 音声対話システム
JP2006293830A (ja) * 2005-04-13 2006-10-26 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2018017936A (ja) * 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
JP2018151631A (ja) * 2017-03-10 2018-09-27 サウンドハウンド,インコーポレイテッド ドメイン曖昧性除去を含む音声対応システム
JP2018160798A (ja) * 2017-03-23 2018-10-11 沖電気工業株式会社 通信装置、通信方法、および、通信プログラム
WO2019098038A1 (ja) * 2017-11-15 2019-05-23 ソニー株式会社 情報処理装置、及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101627402B1 (ko) * 2014-03-26 2016-06-03 포항공과대학교 산학협력단 자연어를 점진적으로 분석하는 장치와 이를 이용한 적응적인 응답 장치 및 방법
KR20190004495A (ko) * 2017-07-04 2019-01-14 삼성에스디에스 주식회사 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템
KR20190008663A (ko) * 2017-07-17 2019-01-25 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 시스템
KR102428782B1 (ko) * 2017-12-29 2022-08-03 엘지전자 주식회사 세탁기 및 세탁기의 동작방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323993A (ja) * 1992-03-16 1993-12-07 Toshiba Corp 音声対話システム
JP2006293830A (ja) * 2005-04-13 2006-10-26 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2018017936A (ja) * 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
JP2018151631A (ja) * 2017-03-10 2018-09-27 サウンドハウンド,インコーポレイテッド ドメイン曖昧性除去を含む音声対応システム
JP2018160798A (ja) * 2017-03-23 2018-10-11 沖電気工業株式会社 通信装置、通信方法、および、通信プログラム
WO2019098038A1 (ja) * 2017-11-15 2019-05-23 ソニー株式会社 情報処理装置、及び情報処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571038A (zh) * 2021-07-14 2021-10-29 北京小米移动软件有限公司 语音对话方法、装置、电子设备及存储介质
CN113643696A (zh) * 2021-08-10 2021-11-12 阿波罗智联(北京)科技有限公司 语音处理方法、装置、设备、存储介质及程序
WO2023097745A1 (zh) * 2021-12-03 2023-06-08 山东远联信息科技有限公司 一种基于深度学习的智能交互方法、***及终端
WO2024101615A1 (ko) * 2022-11-08 2024-05-16 한국전자기술연구원 턴프리 대화 방법 및 장치

Also Published As

Publication number Publication date
JP7113047B2 (ja) 2022-08-04
KR102170088B1 (ko) 2020-10-26

Similar Documents

Publication Publication Date Title
JP6678764B1 (ja) 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進
CN111033492B (zh) 为自动化助手提供命令束建议
JP6960006B2 (ja) 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
US9805718B2 (en) Clarifying natural language input using targeted questions
JP2021022928A (ja) 人工知能基盤の自動応答方法およびシステム
AU2021286360A1 (en) Systems and methods for integrating third party services with a digital assistant
US11151332B2 (en) Dialog based speech recognition
JP2021533397A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
US10956480B2 (en) System and method for generating dialogue graphs
CN109388691A (zh) 用于生成对话代理的方法和***
JP2008514983A (ja) デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
CN111916088A (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
CN112837683B (zh) 语音服务方法及装置
Inupakutika et al. Integration of NLP and Speech-to-text Applications with Chatbots
González-Docasal et al. Towards a natural human-robot interaction in an industrial environment
JP4881903B2 (ja) 自然言語対話エージェントのためのスクリプト作成支援方法及びプログラム
Manojkumar et al. AI-based virtual assistant using python: a systematic review
CN114860910A (zh) 智能对话方法及***
Gupta et al. Desktop Voice Assistant
CN111556096B (zh) 信息推送方法、装置、介质及电子设备
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
CN116724306A (zh) 用于自然语言处理器的多特征平衡
McTear Rule-Based Dialogue Systems: Architecture, Methods, and Tools
JP2004021028A (ja) 音声対話装置及び音声対話プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200721

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R150 Certificate of patent or registration of utility model

Ref document number: 7113047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350