JP2023509868A - 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム - Google Patents

能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム Download PDF

Info

Publication number
JP2023509868A
JP2023509868A JP2022538904A JP2022538904A JP2023509868A JP 2023509868 A JP2023509868 A JP 2023509868A JP 2022538904 A JP2022538904 A JP 2022538904A JP 2022538904 A JP2022538904 A JP 2022538904A JP 2023509868 A JP2023509868 A JP 2023509868A
Authority
JP
Japan
Prior art keywords
dialogue
server
voice
active
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022538904A
Other languages
English (en)
Other versions
JP7353497B2 (ja
Inventor
▲ウェイ▼斯 石
洪博 宋
成亜 朱
帥 樊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2023509868A publication Critical patent/JP2023509868A/ja
Application granted granted Critical
Publication of JP7353497B2 publication Critical patent/JP7353497B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】本発明は能動的に対話の開始を提起するためのサーバ側処理方法を提供する。【解決手段】受信した音声クライアントからの接続確立要求に応答して、音声クライアントとの通信接続を確立するステップと、通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するステップと、を含む。本発明はさらに、能動的に対話の開始を提起するためのサーバおよびシステムを提供する。本発明は、音声インタラクションに対する知能的な決定を実現し、サーバ側の決定に基づいて能動的に対話の開始を提起し、インタラクション体験を向上させ、知能的なインタラクションを実現することができる。【選択図】図1

Description

本発明は、音声インタラクション(VOICE INTERACTION)の技術分野に関し、特に、能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステムに関する。
近年、人工知能による音声技術の発展に伴い、音声インタラクションに基づくさまざまなスマートデバイスもますます広く応用されている。しかし、現在の音声インタラクションプロセスのほとんどはその開始がユーザによって能動的に提起され、デバイスはユーザの音声命令に基づいて受動的に応答する。実際に、多くの場合、デバイスから能動的に対話の開始が提起されるほうは、人間同士のコミュニケーションの実際のシーンにより一致しており、音声インタラクションプロセスがより自然になる。これは、音声インタラクションデバイスが高知能の特徴を真に示す鍵でもある。この目標を実現するために、現在、一般的に以下の2つの方法を採用して、能動的に対話の開始を提起する音声インタラクションプロセスを実現している。
案1、クラウド側は前回の要求に応答する時、能動的に対話の開始を提起する必要がある対話話術をユーザ端末側に返し、ユーザ端末側は適切なタイミングで能動的な対話の話術を再生することを判断する。
案2、ユーザ端末側の判断により、能動的な対話が必要な場合、1つの要求をクラウド側に送信し、それに対して、クラウド側は能動的な対話の話術を返す。
しかし、上記の案ではいずれもユーザ端末側とサーバ側が切り離されているため、サーバ側には、受動的な側としてインタラクションを行う場合の制限がある。例えば、上記の2つの案には、以下のような欠陥がある。
案1の時効性が低い。即ち、一回の要求で2つの対話話術を取得する必要がある。ユーザ端末側が2番目の話術を再生するとき、ユーザのシーンがすでに変わっている可能性がある。このとき、すでに保存されている2番目の話術を再生するのは適切ではなく、ユーザはデバイスが知能的ではないと感じる。
案2の能動対話シーンは制限されている。即ち、ユーザ端末にセマンティックと対話の情報がないため、ユーザ端末側でできる条件判断は非常に限られている。
上記の問題を解決するために、発明者は、サーバ側自体の利点を利用して対話決定を行い、サーバの対話決定状況に基づいて能動的に対話の開始を提起する案を想到した。
本発明の第1の態様によれば、
能動的に対話の開始を提起するためのサーバ側処理方法であって、
受信した音声クライアントからの接続確立要求に応答して、音声クライアントとの通信接続を確立するステップと、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するステップと、
を含むことを特徴とする。
本発明の第2の態様によれば、
能動的に対話の開始を提起するためのサーバであって、
受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュールと、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュールと、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するための対話決定モジュールと、
を備えることを特徴とする。
本発明の第3の態様によれば、
能動的に対話の開始を提起する音声インタラクションシステムであって、
音声クライアントと音声サーバ側とを含み、
音声クライアントは、音声サーバとの接続要求を送信し、通信接続を確立した後に、確立した通信接続を介して、収集されたオーディオ情報をリアルタイムに音声サーバに出力し、音声サーバから送信された対話内容を受信したときに再生するために用いられ、
音声サーバは、前記能動的な対話の開始を提起するためのサーバである ことを特徴とする。
本発明の第4の態様によれば、
少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記能動的に対話の開始を提起するためのサーバ側処理方法のステップが実行できるように、少なくとも1つのプロセッサによって命令を実行させることを特徴とする。
本発明の第5の態様によれば、
コンピュータプログラムが記憶されている記憶媒体であって、
前記プログラムがプロセッサによって実行されると、前記能動的に対話の開始を提起するためのサーバ側処理方法のステップが実現できる、ことを特徴とする。
本発明の実施例の技術案は、サーバの対話決定に基づいて能動的な音声対話の開始を提起することができる。サーバは、完全な対話情報を有し且つセマンティック判断能力を有するため、サーバの機能を拡張することで、サーバは音声クライアントの状態をリアルタイムで取得し、音声クライアントの当該リアルタイム状態に基づいて対話決定を行うことができ、さらに、音声インタラクションにおける他のモジュールに含まれる情報と合わせて、より知能的な決定をすることができる。そして、音声クライアントは、サーバと通信接続を確立して維持し、通信接続に基づいて情報ストリームを送信するだけでよく、複雑な論理処理を行う必要がなく、ユーザ端末の負担が軽減されると同時に、ユーザ端末情報の時効性も保証される。また、サーバは、音声クライアントとの特定の通信接続を確立することにより、安定した情報ストリームを取得し、音声クライアントの状態に対する規則的な更新が保証される。
本願の実施例の技術案をより明確に説明するために、以下、実施例の説明において使用される図面について簡単に紹介する。明らかに、以下の説明における図面は、本願のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。
本発明の一実施形態であって、能動的に対話の開始を提起するためのサーバ側処理方法を示すフローチャートである。 本発明の一実施形態であって、サーバ側において対話決定処理を行って能動的に対話の開始を提起する処理方法を示すフローチャートである。 本発明の一実施形態であって、能動的に対話の開始を提起するためのサーバの構成を模式的に示す概略図である。 本発明の一実施形態であって、能動的に対話の開始を提起する音声インタラクションシステムの構成を模式的に示す概略図である。 本発明の一実施形態に係る電子機器の構造概略図である。 本発明の一実施形態における音声クライアントの構成を模式的に示す概略図である。 本発明の一実施形態であって、サーバ側において対話決定処理を行う方法を示すフローチャートである。
本発明の実施例の目的、技術案および利点をより明確にさせるために、以下では、本発明の実施例における図面と併せて、本発明の実施例における技術案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。
本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び/又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
本発明の実施例に係る能動的に対話の開始を提起する技術案は、例えば、携帯電話、腕時計、イヤホン、パソコンなどの知能音声インタラクション機能を有する任意のスマートデバイスに適用することができ、音声インタラクション中に、シーンに応じてユーザとの対話を能動的に開始提起することができる。しかし、本発明の適用範囲はこれに限定されるべきではない。本発明の実施例によって提供される技術案は、音声クライアントとサーバのそれぞれの利点を合わせて、音声クライアントがリアルタイムに取得してアップロードした情報ストリームを利用して、サーバが自身のセマンティックと対話情報に対する全体的な判断に基づいて、知能的に対話決定を行い、そしてシーンに応じて能動的に対話を開始提起して、ユーザのインタラクション体験を向上させ、音声インタラクションデバイスをより知能化させることができる。
以下、図面と併せて本発明をさらに詳しく説明する。
図1は、本発明の実施例に係る能動的に対話の開始を提起するためのサーバ側処理方法を概略的に示す図である。本発明の実施例の方法の実行主体は、例えば、音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されたクラウド側サーバなどの、音声インタラクション機能に音声識別処理やセマンティック解析処理や対話管理機能を提供する任意のサーバ端末であってもよく、または、例えば音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されているクラウド側サーバと双方向通信可能な第2のクラウド側サーバなどの、音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されたサーバ端末と双方向通信可能な第2のサーバ端末であってもよいが、もちろん、図3に示す能動的な対話の開始を提起するためのサーバであってもよい。
本発明の実施例に係る音声クライアントは、例えば携帯電話、腕時計、イヤホン、パソコン、車載端末などの、音声インタラクション機能を有する任意のスマートデバイスであってもよい。実行主体が図3に示す能動的な対話の開始を提起するためのサーバである場合を例にとると、図1に示すように、当該方法は以下のステップを含む。
ステップS101:受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立する。本発明の実施例では、サーバが取得する音声クライアント状態の時効性を確保するために、対応する音声クライアントと通信接続を確立し、当該通信接続に基づいて音声クライアントの状態更新をリアルタイムで取得する。すなわち、本発明の実施例では、音声クライアントの接続要求に基づいて、音声クライアントとサーバとの間に、音声クライアントのリアルタイム状態を取得するための専用の接続チャネルを確立する。具体的な実現において、本発明の実施例の技術案は、音声クライアントによって能動的に接続要求を開始するように構成され、サーバは、音声クライアントからの接続要求を受信した後、それと通信接続を確立するように構成される。これにより、音声クライアントの要求に基づいて各音声クライアントを明確に識別することができるだけでなく、音声クライアントは、本発明の実施例の能動的に対話を開始提起してインタラクションするサービスを拡張するかどうかを能動的に決定することができる。
好ましくは、本発明の実施例における通信接続は、二重通信のパーシステントコネクション(persistent connection)であり、二重通信のパーシステントコネクションを確立することにより、伝送情報の安定性を確保することができるだけでなく、通信接続を確立した後、音声クライアントとサーバ側は完全に平等であり、互いに能動的に要求することができる。これにより、サーバは、音声クライアントの要求を待つことなく、必要に応じていつでも音声クライアントにメッセージを能動的にプッシュすることができ、これにより、サーバは確実に能動的に対話の開始を提起することができる。例示的に、WebSocketプロトコルまたはTCP Socketカスタムプロトコルを利用して、二重通信のパーシステントコネクションを確立することができる。
ステップS102:通信接続を介して、音声クライアントから送信された情報ストリームを受信する。サーバと音声クライアントとの間で通信接続を確立した後、当該通信接続を介して音声クライアントの状態情報を取得する。具体的に、音声クライアントは、収集された情報を、通信接続を介して情報ストリームの形態でリアルタイムに送信する。ここで、情報ストリームに含まれる情報は、音声クライアントがラジオなどの収音装置を介して記録したオーディオストリームであってもよく、または、地理的位置や連絡先ホットワードなどの、音声クライアントがリアルタイムで収集したデバイス情報であってもよく、または、オーディオストリームとデバイス情報を同時に含むことができる。情報伝送の秩序性と時効性を確保するために、オーディオストリームを伝送する際に固定周波数で送信することが好ましい。
ステップS103:情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力する。対話決定処理とは、能動的に対話の開始を提起する必要があるかどうかを確定するための処理であり、情報ストリーム決定フレームワークに基づいて実現される。情報ストリーム決定フレームワークは、予め配置されて記憶された能動対話シーンのトリガ条件とトリガ条件に関連する対話内容として具現化できる。
本発明の実施例における能動対話シーンとは、サーバが能動的に対話の開始を提起する必要があるシーンを意味する。トリガ条件とは、能動対話シーンを発生させる所定の条件を意味する。トリガ条件に関連する対話内容とは、能動対話シーンが発生したときに音声クライアントで能動的に再生する必要がある対話内容を意味する。図7に示すように、外部から入力された配置情報を受信することにより、能動対話シーンのトリガ条件とトリガ条件に関連する対話内容とを生成して記憶することができ、これにより、ステップS701における能動対話シーンのトリガ条件の配置とトリガ条件に関連する対話内容記憶を実現することができる。このように、情報ストリームを受信した後、図7に示すように、ステップS702において、取得した情報ストリームと予め配置された能動対話シーンのトリガ条件に基づいて、能動対話シーンであるか否かを判断し、判断結果に基づいて、能動的に対話の開始を提起する必要があるか否かを判断することができる。
本発明の実施例は、トリガ条件が満たされたときに能動対話シーンであると判断し、能動対話シーンであると確定されたときに、現在のトリガ条件に関連付けて記憶された対話内容を取得して音声クライアントに出力し、音声クライアントで対話内容の再生を行うことにより、サーバによる能動的な対話インタラクションの開始を実現するように構成されている。
ここで、能動対話シーンとそのトリガ条件、およびトリガ条件に関連する対話内容は、ユーザの実際のニーズに応じて定義および配置することができる。
以下では、能動対話シーンが問い合わせ待ち状態、沈黙破り状態、及び能動的に割り込む状態であることを例として、本発明の実施例の方法をより詳細に説明する。
好ましい実施例として、本発明の例では、音声クライアントがサーバに送信する情報ストリームには、音声クライアントがピックアップしたオーディオ情報(すなわち、記録されたオーディオストリーム)が含まれ、サーバに配置された能動対話シーンのトリガ条件には、少なくとも以下の2つの状況が含まれる。
第1のトリガ条件は、識別内容が含まれること、且つ、識別内容が無効なセマンティックであることである。
第2のトリガ条件は、識別内容が含まれないこと、且つ、対応するコンテキスト状態を有することである。
各能動対話シーンのトリガ条件は互いに干渉しないが、同じ能動対話シーンのトリガ条件は完全に満たされる必要がある。すなわち、どの能動対話シーンのトリガ条件が満たされていても、そのトリガ条件が十分に満たされていれば、サーバに1ラウンドの能動的な対話を開始させることができる。上記の例において、識別内容とは、音声クライアントから送信されたオーディオ情報に対するサーバの識別結果の内容を意味する。すなわち、識別結果に識別内容が含まれているかどうか、および識別結果における識別内容のセマンティックが有効であるかどうかである。コンテキスト状態とは、ユーザの意図または現在の文脈を示すために用いられる、対話管理においてサーバが確定したインタラクションフローを意味する。例示的に、対話管理のインタラクションフローに従って、配置された対応するコンテキスト状態には、問い合わせ待ち状態と沈黙破り状態とが含まれる。
上記能動対話シーンの構成条件を例に、以下に、図2に示す決定処理フローチャートとともに、当該ステップの具体的な決定処理プロセスを詳細に説明する。図2に示すように、本発明の実施例の、対話決定処理を行い且つ能動対話シーンであると確定されたときに能動的に対話の開始を提起する音声インタラクションの実施プロセスには、以下のステップが含まれる。
ステップS201:取得したオーディオ情報を識別し、識別結果を取得する。サーバにおいてオーディオ情報を識別して識別結果を得るには、音声インタラクションサーバの既存の音声識別機能とモジュールを利用して実現することができる、例えば、音声インタラクションサービスを提供する既存のクラウド側サーバに音声識別モジュールを配置することにより実現され、ここでは説明を省略する。
ステップS202:識別結果に識別内容が含まれているか否かを判断する。識別内容が含まれている場合にはステップS203を実行し、識別内容が含まれていない場合にはステップS204を実行する。音声認識を実行した後、識別結果に内容があるかどうかを判断する。音声識別を実行するとオーディオ情報がテキスト情報に変換されるため、識別結果に識別内容が含まれているかどうかを判断することは、変換後のテキスト情報にテキスト文字列が含まれているかどうかを判断することで実現できる。
ステップS203:識別内容をセマンティック解析し、セマンティック解析結果が無効なセマンティックである場合、能動対話シーンであると確定する。識別内容に対するセマンティック解析は、セマンティックインタラクションサーバの既存のセマンティック解析機能及びモジュールを利用して実現することができ、セマンティック識別とセマンティック解析は、既存の音声インタラクションシステムにおいて従来技術であり、当該機能をそのまま利用すればよく、例えば、既存の音声インタラクションサービスを提供するクラウド側サーバに配置されている音声解析モジュールで実現するため、ここでは具体的な識別及び解析プロセスについては詳述しない。ここで、有効なセマンティックとは、セマンティック解析エンジンに存在する特定の実行または応答動作に対応するセマンティックであり、セマンティック解析エンジンに存在しない場合、即ちマッチングする項目が見つからない場合には、無効なセマンティックであると見なす。具体的な応用では、音声インタラクションプロセスにおいて、ユーザが連続的に発話し、識別内容がますます長くなり、内容が無意味又は敏感な内容がない場合(すなわち、マッチングする実行や応答動作に対応できない場合)、能動的な割り込みを行うことが知能的なインタラクションにより合致する。従って、このシーンに対応する状況を能動的に割り込む能動的に対話をするシーンとすることができ、より知能的なインタラクションを実現し、ユーザのインタラクション体験を向上させることができる。例示的に、このトリガ条件に対して、ユーザが効果的な対話を実行するようにガイドするために、配置された対話内容は「...を話してください」などの割り込み命令やリマインダ命令にすることができる。
ステップS204:音声インタラクションシーンのコンテキスト状態を取得して判断し、取得した音声インタラクションシーンのコンテキスト状態がトリガ条件における対応するコンテキスト状態である場合、ステップS205を実行する。識別内容を含まないオーディオを取得した場合、例えば、以下の2つのシーンのように、能動的な対話の開始を提起する必要があるシーンである可能性もある。
問い合わせ待ち状態シーン。即ち、ユーザは前のラウンドのインタラクションで待つ意図を表明し、指定された時間だけマシンを待機した後に、能動的に問い合わせを開始する必要がある。
沈黙破り状態シーン。即ち、対話中に、お互いに何も言わない気まずい状況がたまに発生する。この時、マシンが能動的に質問をし、ユーザを誘導する必要がある。
この時、知能的に対話の開始を提起するには、マシンがコンテキスト状態に基づいて文脈を判断できる必要がある。そのため、上記のコンテキスト状態を、識別内容がない場合に対話の開始を提起する必要があるトリガ条件として記憶することができる。この処理プロセスはサーバで行われ、サーバは音声インタラクションプロセス全体のコンテキスト状態であるインタラクションフローを記録しているため、インタラクションフローを取得して判断することができ、インタラクションフローに基づいて能動対話シーンに合致するコンテキスト状態であるかどうかを判断することができる。例えば、インタラクションフローに問い合わせ待ち状態実行フローがあると判断された場合、または1つの音声インタラクションプロセスが行われていると判断されてユーザが突然沈黙した場合、能動対話シーンであると確定し、ステップS205を実行する。
ステップS205:能動対話シーンであると確定し、既知の意図に従って能動的な対話を開始する。サーバはコンテキスト状態であるインタラクションフローを知っているため、インタラクションフローの状況に基づいて既知の意図を判断し、そして既知の意図に基づいて実行される動作または再生される内容を確定するなど、既知の意図に基づいて能動的に対話の開始を提起することができる。既知の意図は一般的に複数ラウンドのプロセスに現れるため、既知の意図を判断することは、複数ラウンドの対話の結果に基づいて判断することができる。例えば、カーナビゲーションのシーンでは、前の複数ラウンドの対話ではすでに目的地とナビゲーションルートを確定している。この場合、既知の意図を既知のナビゲーション意図として確定し、既知のナビゲーション意図に基づいて、能動的に対話する内容を推奨目的地週辺駐車場などであると確定することができる。例示的に、既知の意図に基づいて、問い合わせ待ち状態に対応する対話内容は、指定された事項または内容を問い合わせることであってもよく、沈黙破り状態に対応する対話内容は、その前のインタラクションフロー状態に基づいて問い合わせることであってもよい。
ステップS206:適合する対話内容を取得して、音声クライアントに出力する。
ステップS207:音声クライアントは、当該対話内容を再生する。
上記の方法プロセスに基づいて、ユーザ端末がリアルタイム伝送するオーディオストリームに基づいて、サーバが対話シーンに従って能動対話シーンを判断し、適切なタイミングで能動的に対話を開始し、ユーザ端末が対話内容の再生を行うことを実現することができる。当該技術案は、ユーザ端末がその状態情報をリアルタイムに伝送することを実現できるだけでなく、サーバを利用して音声インタラクション中の他の情報(コンテキスト状態など)と合わせて決定することができるため、時効性とマシンの知能性が保証され、ユーザのインタラクション体験を大幅に向上させることができる。
ユーザ端末が伝送する情報ストリームにデバイス情報も含まれる実施例において、サーバは、リアルタイムのデバイス情報に基づいて能動的に対話する決定を行うこともできる。例えば、サーバは、対話決定処理を行う際に、デバイス情報に基づいて推薦内容を確定し、推薦内容を対話内容として音声クライアントに出力することができる。例えば、サーバは、リアルタイムの地理位置情報に基づいて、週辺の店舗や食べ物を推薦するための対話インタラクションなどを音声クライアントに能動的に開始することもできる。
図3は、本発明の一実施形態の能動的な対話の開始を提起するためのサーバを模式的に示しており、図3に示すように、当該サーバには、
受信した音声クライアントの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュール30と、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュール31と、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するための対話決定モジュール32と、
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶するための配置モジュール33と、
が配置されている。
ここで、対話決定モジュール32は、
情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、対話開始提起ユニットを呼び出すために用いられる条件判断ユニット32Aと、
現在のトリガ条件に関連付けて記憶された対話内容を取得して音声クライアントに出力するための対話開始提起ユニット32Bと、
を含んで実現される。
図4は、図3に示すサーバを用いて実現される、能動的に対話の開始を提起することができる音声インタラクションシステムを概略的に示している。図4に示すように、当該システムには、音声クライアント1と、音声サーバ3とが含まれており、ここで、音声サーバは、図3に示すような能動的な対話の開始を実現するためのサーバである。
好ましい実施例として、情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、トリガ条件には、以下の二種類の能動対話シーンのトリガ条件が含まれることができる。
第1のトリガ条件は、オーディオ情報に識別内容が含まれること、且つ、識別内容が無効なセマンティックであることである。
第2のトリガ条件は、オーディオ情報に識別内容が含まれないこと、且つ、問い合わせ待ち状態と沈黙破り状態とを含む対応するコンテキスト状態を有することである。
具体的な実現プロセスにおいて、音声クライアント1は音声サーバ3との接続要求を送信し、音声サーバ3の通信モジュール30はこの要求を受信し、音声クライアント1との通信接続を確立する。通信接続が確立された後、音声クライアント1は、確立した通信接続を介して、収集されたオーディオ情報(例示的に、ラジオを介して記録されたオーディオ)をリアルタイム(固定周波数でもよい)で音声サーバ3に送信する。音声サーバ3の情報受信モジュール31は、この情報ストリームを受信し、オーディオ情報を対話決定モジュール32に出力する。対話決定モジュール32は、オーディオ情報と配置モジュール33により配置されたトリガ条件に基づいて、能動的に対話の開始を提起するか否かを判断し、能動的に対話の開始を提起する必要があると判断された場合、マッチングする対話内容を取得して音声クライアント1に出力する。音声クライアント1は、音声サーバ3から送信された対話内容を受信したときに再生し、能動的な対話の開始を実現する。
図6は、一実施形態の音声クライアントを概略的に示している。図6に示すように、音声クライアントは、通信接続を確立するためにサーバに接続要求を送信するための接続要求モジュール10と、通信接続を介して受信した対話内容を再生するための音声再生モジュール11と、情報ストリームを取得し、確立した通信接続を介してサーバに送信するための情報取得モジュール12とを含むことができる。例示的に、接続要求モジュール10は、WebSocketプロトコルまたはTCP Socketカスタムプロトコルに基づいて接続要求を行い、サーバとの間の二重通信パーシステントコネクションを確立することができる。音声再生モジュール11は、ホーンやスピーカなどで実現されてもよい。情報取得モジュール12は、オーディオ情報をピックアップするための録音装置、リアルタイムの地理位置情報を取得するための測位モジュールなどを含むことができる。
サーバ、音声サーバ3、音声クライアントに関する各モジュールとユニットの具体的な実現プロセスは、前述の方法部分の説明を参照することができ、ここでは説明を繰り返さない。
具体的な実現では、音声クライアントを上記の方法で上記のサーバまたは音声サーバに接続することにより、上記の音声インタラクションシステムを構築し、サーバの処理に基づいて能動的な対話の開始を提起し、対話の開始を提起する主動権をサーバに渡すことができる。上記の技術案により、音声クライアントの軽量を確保できるとともに、サーバがリアルタイムで連続的な音声クライアントの状態を取得することを保証することができて、システムの拡張性とメンテナンス性がより良く、任意の需要のあるユーザ端末に対するサービス機能の拡張が容易になる。本発明の実施例の技術案はさらに、サーバの他の音声インタラクション機能を利用して全体的に把握し、識別やセマンティックや対話シーンに基づく知能的な決定を実現し、能動的に対話する応用シーンを広げ、音声インタラクションの体験を大幅に向上させ、知能的なインタラクション効果を保証することができる。
いくつかの実施例において、本発明の実施例はさらに、実行命令を含む1つまたは複数のプログラムを記憶する不揮発性コンピュータ読み取り可能な記憶媒体を提供する。実行命令は、本発明の上記の能動的な対話の開始を実現するためのサーバ側処理方法を実行するために、電子機器(コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない)によって読み取られて実行することができる。
いくつかの実施例において、本発明の実施例はさらに、不揮発性コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記の能動的な対話の開始を実現するためのサーバ側処理方法を実行させる。
いくつかの実施例において、本発明の実施例はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、上記の能動的な対話の開始を実現するためのサーバ側処理方法が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器を提供する。
いくつかの実施例において、本発明の実施例はさらに、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、上記の能動的な対話の開始を実現するためのサーバ側処理方法を実現できる。
上記の本発明の実施例の能動的な対話の開始を実現するためのサーバは、本発明の実施例の能動的な対話の開始を実現するためのサーバ側処理方法を実行するために用いられることができ、それに応じて、上記本発明の実施例の能動的な対話の開始を実現するためのサーバ側処理方法によって達成される技術的効果を達成することができ、ここでは説明を省略する。本発明の実施例において、ハードウェアプロセッサ(hardware processor)によって関連する機能モジュールを実現することができる。
図5は、本発明の他の実施例によって提供される、能動的な対話の開始を提起するためのサーバ側処理方法を実行する電子機器のハードウェア構造概略図である。図5に示すように、当該機器には、
1つまたは複数のプロセッサ510およびメモリ520が含まれ、図5では1つのプロセッサ510を例に取る。
能動的な対話の開始を提起するためのサーバ側処理方法を実行する機器は、入力装置530と出力装置540とをさらに含むことができる。
プロセッサ510、メモリ520、入力装置530と出力装置540はバスまたは他の 方法で接続することができ、図5ではバスによる接続を例に取る。
メモリ520は不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラムおよびモジュールを記憶するために用いられることができる。例えば、本発明の実施例における能動的な対話の開始を実現するためのサーバ側処理方法に対応するプログラム命令/モジュールを記憶することができる。プロセッサ510は、メモリ520に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの各種機能応用およびデータ処理を実行し、即ち、上記方法実施例の能動的な対話の開始を実現するためのサーバ側処理方法を実現する。
メモリ520は、プログラム記憶領域とデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、能動的な対話の開始を実現するためのサーバの使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ520は、高速ランダムアクセスメモリを含むことができ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置のような不揮発性メモリをさらに含むことができる。いくつかの実施例において、メモリ520は、プロセッサ510から離れて設置されたメモリを選択的に含み得、これらのリモートメモリは、ネットワークを介して能動的な対話の開始を実現するためのサーバに接続することができる。上記ネットワークには、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。
入力装置530は、入力された数値や文字情報を受信し、能動的な対話の開始を実現するためのサーバのユーザ設定および機能制御に関連する信号を生成することができる。出力装置540は、ディスプレイなどの表示装置を含むことができる。
上記の1つまたは複数のモジュールはメモリ520に記憶され、1つまたは複数のプロセッサ510によって実行されると、上記任意の方法実施例における能動的な対話の開始を実現するサーバ側処理方法を実行する。
上記の製品は、本発明の実施例で提供される方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を有する。本実施例において詳細に説明されていない技術の詳細は、本発明の実施例で提供される方法を参照することができる。
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iPhone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)サーバ:コンピューティングサービスを提供するデバイスである。サーバの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバ及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。
(5)データ交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピューターデバイス(パーソナルコンピューター、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims (12)

  1. 受信した音声クライアントの接続要求に応答して、音声クライアントとの通信接続を確立するステップと、
    前記通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、
    前記情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するステップと、
    を含むことを特徴とする、能動的に対話の開始を提起するためのサーバ側処理方法。
  2. 情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するステップにおいては、
    能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶し、
    前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、現在のトリガ条件に関連付けて記憶された対話内容を取得して前記音声クライアントに出力する、
    ことを特徴とする請求項1に記載のサーバ側処理方法。
  3. 前記情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、
    前記トリガ条件には、識別内容を含むこと、且つ、識別内容が無効なセマンティックであることが含まれ、
    前記情報ストリーム及び配置された能動対話シーンのトリガ条件に基づいて、能動対話シーンであるか否かを判断するステップにおいては、
    前記オーディオ情報を識別して、識別結果を取得し、
    識別結果に識別内容が含まれているか否かを判断し、識別内容が含まれている場合には、識別内容をセマンティック解析し、セマンティック解析結果が無効なセマンティックである場合、能動対話シーンであると確定する、
    ことを特徴とする請求項2に記載のサーバ側処理方法。
  4. 前記トリガ条件には、識別内容を含まないこと、且つ、対応するコンテキスト状態を有することが含まれ、
    前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断するステップにおいては、さらに、
    識別結果に識別内容が含まれているか否かを判断し、識別内容が含まれていない場合には、音声インタラクションシーンのコンテキスト状態を取得して判断し、取得した音声インタラクションシーンのコンテキスト状態がトリガ条件における対応するコンテキスト状態である場合、能動対話シーンであると確定する、
    ことを特徴とする請求項3に記載のサーバ側処理方法。
  5. トリガ条件に含まれる前記対応するコンテキスト状態には、問い合わせ待ち状態と沈黙破り状態とが含まれる、
    ことを特徴とする請求項4に記載のサーバ側処理方法。
  6. 前記通信接続は、二重通信のパーシステントコネクションである、
    ことを特徴とする請求項1~5のいずれか1項に記載のサーバ側処理方法。
  7. 能動的に対話の開始を提起するためのサーバであって、
    受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュールと、
    前記通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュールと、
    前記情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するための対話決定モジュールと、
    が配置されていることを特徴とするサーバ。
  8. 能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶するための配置モジュールとがさらに配置されており、
    前記対話決定モジュールには、
    前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、対話開始提起ユニットを呼び出すために用いられる条件判断ユニットと、
    現在のトリガ条件に関連付けて記憶された対話内容を取得して前記音声クライアントに出力するための対話開始提起ユニットと、
    が含まれることを特徴とする請求項7に記載のサーバ。
  9. 前記情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、
    前記トリガ条件としては、
    オーディオ情報に識別内容を含むこと、且つ、識別内容が無効なセマンティックであることが含まれ、または、
    オーディオ情報に識別内容を含まないこと、且つ、対応するコンテキスト状態を有することが含まれ、または、
    前記対応するコンテキスト状態に問い合わせ待ち状態と沈黙破り状態とを含むことが含まれる、
    ことを特徴とする請求項8に記載のサーバ。
  10. 音声クライアントと音声サーバとを備え、能動的に対話の開始が提起できる音声インタラクションシステムであって、
    前記音声クライアントは、前記音声サーバとの接続要求を送信し、通信接続を確立した後に、確立した通信接続を介して、収集されたオーディオ情報をリアルタイムに前記音声サーバに出力し、前記音声サーバから送信された対話内容を受信したときに再生するために用いられ、
    前記音声サーバは、請求項7~9のいずれか1項に記載の、能動的に対話の開始を提起するためのサーバである、
    ことを特徴とする音声インタラクションシステム。
  11. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    請求項1~6のいずれか1項に記載のサーバ側処理方法のステップが実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させることを特徴とする電子機器。
  12. コンピュータプログラムが記憶された記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1~6のいずれか1項に記載のサーバ側処理方法のステップが実現できる、ことを特徴とする記憶媒体。
JP2022538904A 2019-12-26 2020-11-20 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム Active JP7353497B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911364247.0 2019-12-26
CN201911364247.0A CN111107156A (zh) 2019-12-26 2019-12-26 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互***
PCT/CN2020/130325 WO2021129262A1 (zh) 2019-12-26 2020-11-20 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互***

Publications (2)

Publication Number Publication Date
JP2023509868A true JP2023509868A (ja) 2023-03-10
JP7353497B2 JP7353497B2 (ja) 2023-09-29

Family

ID=70425334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022538904A Active JP7353497B2 (ja) 2019-12-26 2020-11-20 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム

Country Status (5)

Country Link
US (1) US20230037913A1 (ja)
EP (1) EP4084434A4 (ja)
JP (1) JP7353497B2 (ja)
CN (1) CN111107156A (ja)
WO (1) WO2021129262A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107156A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互***
CN111600952B (zh) * 2020-05-15 2021-09-07 华人运通(上海)云计算科技有限公司 场景推送方法、执行方法、装置、终端、服务器和***
CN111951795B (zh) * 2020-08-10 2024-04-09 中移(杭州)信息技术有限公司 语音交互方法、服务器、电子设备和存储介质
CN112968926B (zh) * 2021-01-27 2022-10-18 浙江吉利控股集团有限公司 一种智能交互处理方法、装置和存储介质
CN114070876B (zh) * 2021-11-16 2024-05-07 广东小狼星物联有限公司 一种车辆定位管理方法
CN114095465A (zh) * 2021-11-17 2022-02-25 北京同城必应科技有限公司 一种在分布式环境下高效的im消息时序性保障机制实现方法
CN114268695B (zh) * 2021-12-22 2024-07-12 驰必准科技(苏州)有限公司 自动对话流程的处理方法、设备及存储介质
CN115292543B (zh) * 2022-10-10 2022-12-30 深圳市人马互动科技有限公司 基于语音互动小说的数据处理方法及相关产品
CN116466829B (zh) * 2023-06-20 2023-10-20 深圳市人马互动科技有限公司 响应信息确定方法、服务器及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234443A (ja) * 2007-03-22 2008-10-02 Matsushita Electric Ind Co Ltd 情報処理装置
JP2015068866A (ja) * 2013-09-27 2015-04-13 クラリオン株式会社 車両用装置、サーバ、及び、情報処理方法
JP2016206469A (ja) * 2015-04-24 2016-12-08 マツダ株式会社 車両用音声対話システム
JP2017067849A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
CN105975511A (zh) * 2016-04-27 2016-09-28 乐视控股(北京)有限公司 智能对话的方法及装置
CN106020488A (zh) * 2016-06-03 2016-10-12 北京光年无限科技有限公司 一种面向对话***的人机交互方法及装置
US10860628B2 (en) * 2017-02-16 2020-12-08 Google Llc Streaming real-time dialog management
CN108446286B (zh) * 2017-02-16 2023-04-25 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109036388A (zh) * 2018-07-25 2018-12-18 李智彤 一种基于对话设备的智能语音交互方法
KR102047385B1 (ko) * 2018-09-21 2019-11-21 삼성생명보험주식회사 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
CN109543010A (zh) * 2018-10-22 2019-03-29 拓科(武汉)智能技术股份有限公司 融合数据库查询的人机对话方法及***
CN109658928B (zh) * 2018-12-06 2020-06-23 山东大学 一种家庭服务机器人云端多模态对话方法、装置及***
CN110265009B (zh) * 2019-05-27 2020-08-14 北京蓦然认知科技有限公司 一种基于用户身份的主动对话发起方法和装置
CN110211573A (zh) * 2019-05-28 2019-09-06 重庆邮电大学 一种基于神经网络模型的任务驱动型对话决策方法
CN110209792B (zh) * 2019-06-13 2021-07-06 思必驰科技股份有限公司 对话彩蛋生成方法及***
CN110442701B (zh) * 2019-08-15 2022-08-05 思必驰科技股份有限公司 语音对话处理方法及装置
CN111107156A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234443A (ja) * 2007-03-22 2008-10-02 Matsushita Electric Ind Co Ltd 情報処理装置
JP2015068866A (ja) * 2013-09-27 2015-04-13 クラリオン株式会社 車両用装置、サーバ、及び、情報処理方法
JP2016206469A (ja) * 2015-04-24 2016-12-08 マツダ株式会社 車両用音声対話システム
JP2017067849A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話方法

Also Published As

Publication number Publication date
EP4084434A4 (en) 2023-06-21
CN111107156A (zh) 2020-05-05
EP4084434A1 (en) 2022-11-02
US20230037913A1 (en) 2023-02-09
JP7353497B2 (ja) 2023-09-29
WO2021129262A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
JP2023509868A (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
US10115396B2 (en) Content streaming system
US10055190B2 (en) Attribute-based audio channel arbitration
US10701451B2 (en) Program interaction system, method, client, and backend server
JP2020525903A (ja) 音声アシスタントシステムのための発話による特権の管理
CN107360458B (zh) 播放控制方法、装置、存储介质及终端
US11247134B2 (en) Message push method and apparatus, device, and storage medium
WO2018157721A1 (zh) 信息获取方法、提供方法、装置及***、存储介质
CN108877804B (zh) 语音服务方法、***、电子设备及存储介质
KR20180091707A (ko) 패킷화된 오디오 신호의 변조
JP7311707B2 (ja) ヒューマンマシン対話処理方法
JP6906584B2 (ja) デバイスをウェイクアップするための方法及び装置
US20170171585A1 (en) Method and Electronic Device for Recording Live Streaming Media
CN111816190A (zh) 用于上位机与下位机的语音交互方法和装置
CN113741762A (zh) 一种多媒体播放方法、装置、电子设备和存储介质
CN110418181B (zh) 对智能电视的业务处理方法、装置、智能设备及存储介质
WO2023246275A1 (zh) 语音消息的播放方法、装置、终端及存储介质
CN115150501A (zh) 一种语音交互方法及电子设备
JP2022547418A (ja) 全二重による音声対話の方法
CN107395493B (zh) 一种基于意图Intent分享消息的方法及装置
CN112786031B (zh) 人机对话方法及***
CN113938714A (zh) 播放控制方法、装置、电子设备和存储介质
US20230368785A1 (en) Processing voice input in integrated environment
KR101836220B1 (ko) 미디어 공유 장치 및 그 방법
CN117615169A (zh) 一种音频媒体分发方法、装置、***及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230919

R150 Certificate of patent or registration of utility model

Ref document number: 7353497

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150