JP2019536122A

JP2019536122A - 情報インタラクションのための方法および装置

Info

Publication number: JP2019536122A
Application number: JP2019504024A
Authority: JP
Inventors: ティエン，シアオリー; ファン，カオリン; クー，シアオコアン; ミー，シュエ; スン，コー; ティン，シンチョー; スン，ルイイン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2017-09-19
Filing date: 2018-06-26
Publication date: 2019-12-12
Anticipated expiration: 2038-06-26
Also published as: JP6783375B2; EP3480704A4; US20190163699A1; WO2019056821A1; EP3480704A1; CN107590252A

Abstract

本願の実施形態は、情報インタラクションのための方法および装置を開示する。本方法の一具体的な実施形態は、テキスト情報および画像を含む処理対象情報を取得するステップと、前記処理対象情報のテキスト情報の特徴語を抽出し、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索するステップであって、前記特徴語は前記画像に対する検索要求を特徴付け、前記記述情報は前記画像に対するテキスト記述を特徴付ける、ステップと、前記記述情報から前記処理対象情報の応答情報を構築するステップとを含む。本実施形態は、記述情報から応答情報を構築することで、処理対象となる情報との間の情報インタラクションが達成され、情報インタラクションの効率が向上される。【選択図】図２

Description

本願は、２０１７年９月１９日に提出した、出願番号が２０１７１０８４７０８４．６で、出願人が百度オンラインネットワーク技術（北京）有限公司（ＢａｉｄｕＯｎｌｉｎｅＮｅｔｗｏｒｋＴｅｃｈｎｏｌｏｇｙ（Ｂｅｉｊｉｎｇ）Ｃｏ．，Ｌｔｄ.）で、発明名称が「情報インタラクションのための方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用することにより本願に組み込む。

本願は、データ処理の技術分野、具体的には情報インタラクションの技術分野に関し、特に情報インタラクションのための方法および装置に関する。

画像認識技術は、現在、急速に発展している技術の一つであり、画像認識技術の重要な方向の１つは、画像の内容を理解し認識することにより、ユーザの認知ニーズを満たすものである。従来の画像認識は、通常に、同一または類似の画像を見つけるために、認識対象となる画像を画像検索エンジンに取り込むことであり、すなわち逆画像検索である。

人々の毎日の作業では、画像ごとに逆画像検索を行う必要がなく、逆画像検索を行うか否かを実際のニーズに応じて判断する必要がある。多くの場合、ユーザがテキストおよび画像で情報を伝達するとき、テキストと画像との間の対応関係を直接確立していない可能性があり（例えば、テキストおよび画像が含まれているが、画像をテキストで説明していないなど）、テキストおよび画像を見たユーザは、対応する情報フィードバックを行うことができない可能性もあり（例えば、ユーザが画像内の内容を知っていないなど）、これらにより、情報伝達の誤りや不正確につながりやすく、情報インタラクションの効率が高くない。

本願の実施形態の目的は、上記の背景技術で言及された技術問題を解決するための、情報インタラクションのための方法および装置を提供することにある。

第１の態様において、本願の実施形態は、情報インタラクションのための方法を提供し、当該方法は、テキスト情報および画像を含む処理対象情報を取得するステップと、上記処理対象情報のテキスト情報の特徴語を抽出し、上記特徴語に基づいて上記処理対象情報の画像の記述情報を検索するステップであって、上記特徴語は上記画像に対する検索要求を特徴付け、上記記述情報は上記画像に対するテキスト記述を特徴付ける、ステップと、上記記述情報から上記処理対象情報の応答情報を構築するステップとを含む。

いくつかの実施形態では、上記処理対象情報のテキスト情報の特徴語を抽出するステップは、テキスト情報に対して意味認識を行って、上記テキスト情報に対応する意味情報を取得することと、上記意味情報から特徴語を抽出することと、を含む。

いくつかの実施形態では、上記特徴語に基づいて上記処理対象情報の画像の記述情報を検索するステップは、画像検索モデルに画像を取り込んで、上記画像に対応する照合対象画像集合を取得することであって、上記照合対象画像集合は、少なくとも１枚の照合対象画像を含み、上記画像検索モデルは、画像と照合対象画像との間の第１の対応関係を特徴付ける、ことと、照合対象画像を意味タグモデルに取り込んで、照合対象画像集合に対応する意味タグ集合を取得することであって、上記意味タグモデルは、照合対象画像と意味タグとの第２の対応関係を特徴付け、意味タグは照合対象画像をテキストで説明するものである、ことと、上記意味タグ集合から認識対象意味タグを選択し、認識対象意味タグにおける上記画像に対応する名詞の解釈情報を記述情報とすることと、を含む。

いくつかの実施形態では、上記意味タグ集合から認識対象意味タグを選択するステップは、上記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとすることを含む。

いくつかの実施形態では、上記方法は、上記記述情報を補正するステップをさらに含み、上記記述情報を補正するステップは、上記応答情報の正確さを評価するための、上記応答情報に対応するフィードバック情報を受信することと、上記フィードバック情報に対して意味認識を行って正確率情報を得ることと、上記正確率情報が所定の閾値よりも低い場合には、上記意味タグ集合における認識対象意味タグ以外の意味タグから第２の認識対象タグを選択することと、第２の認識対象タグにおける上記画像に対応する名詞の解釈情報を第２の記述情報とすることと、第２の記述情報から上記処理対象情報の応答情報を構築することと、を含む。

第２の態様において、本願の実施形態は、情報インタラクションのための装置を提供し、当該装置は、テキスト情報および画像を含む処理対象情報を取得するための処理対象情報取得ユニットと、上記処理対象情報のテキスト情報の特徴語を抽出し、上記特徴語に基づいて上記処理対象情報の画像の記述情報を検索するための記述情報取得ユニットであって、上記特徴語は上記画像に対する検索要求を特徴付けるために用いられ、上記記述情報は上記画像に対するテキスト記述を特徴付けるために用いられる、記述情報取得ユニットと、上記記述情報から上記処理対象情報の応答情報を構築するための応答情報構築ユニットと、を含む。

いくつかの実施形態では、上記記述情報取得ユニットは、テキスト情報に対して意味認識を行って、上記テキスト情報に対応する意味情報を取得するための意味認識サブユニットと、上記意味情報から特徴語を抽出するための特徴語抽出サブユニットと、を備える。

いくつかの実施形態では、上記記述情報取得ユニットは、画像を画像検索モデルに取り込んで、上記画像に対応する照合対象画像集合を取得するための照合対象画像取得サブユニットであって、上記照合対象画像集合は、少なくとも１枚の照合対象画像を含み、上記画像検索モデルは、画像と照合対象画像との間の第１の対応関係を特徴付ける、照合対象画像取得サブユニットと、照合対象画像を意味タグモデルに取り込んで、照合対象画像集合に対応する意味タグ集合を取得するための意味タグ取得サブユニットであって、上記意味タグモデルは、照合対象画像と意味タグとの第２の対応関係を特徴付けるために用いられ、意味タグは照合対象画像をテキストで説明するために用いられる、意味タグ取得サブユニットと、上記意味タグ集合から認識対象意味タグを選択し、認識対象意味タグにおける上記画像に対応する名詞の解釈情報を記述情報とするための記述情報取得サブユニットと、を備える。

いくつかの実施形態では、上記記述情報取得サブユニットは、上記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとする。

いくつかの実施形態では、上記装置は、上記記述情報を補正するための補正ユニットをさらに備え、上記補正ユニットは、上記応答情報の正確さを評価するための、上記応答情報に対応するフィードバック情報を受信するためのフィードバック情報受信サブユニットと、上記フィードバック情報に対して意味認識を行って正確率情報を得るための正確率情報取得サブユニットと、上記正確率情報が所定の閾値よりも低い場合には、上記意味タグ集合における認識対象意味タグ以外の意味タグから第２の認識対象タグを選択するための第２の認識対象タグ取得サブユニットと、第２の認識対象タグにおける上記画像に対応する名詞の解釈情報を第２の記述情報とするための第２の記述情報取得サブユニットと、第２の記述情報から上記処理対象情報の応答情報を構築するための第２の応答情報構築サブユニットと、を備える。

第３の態様では、本願の実施形態は、１つ以上のプロセッサと、１つ以上のプログラムを記憶するためのメモリとを備えるサーバであって、上記１つ以上のプログラムが上記１つ以上のプロセッサによって実行されるときに、上記１つ以上のプロセッサに上記第１の態様に係る情報インタラクションのための方法を実行させるサーバを提供する。

第４の態様では、本願の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該プログラムがプロセッサによって実行されるときに、上記第１の態様に係る情報インタラクションのための方法を実行することを特徴とするコンピュータ可読記憶媒体を提供する。

本願の実施形態により提供された情報インタラクションのための方法および装置は、処理対象情報のテキスト情報の特徴語を抽出し、処理対象情報の画像の記述情報を取得し、処理対象情報におけるテキスト情報と画像との対応関係を確立し、その後、記述情報から応答情報を構築することにより、処理対象情報との間の情報インタラクションが実現され、情報インタラクションの効率が向上される。

以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。

図１は、本願を適用可能な例示的なシステムアーキテクチャ図である。図２は、本願に係る情報インタラクションのための方法の一実施例のフローチャートである。図３は、本願に係る情報インタラクションのための方法の応用シーンの模式図である。図４は、本願に係る情報インタラクションのための装置の一実施例の構造の模式図である。図５は、本願の実施例を実現するのに適するサーバのコンピュータシステムの構造の模式図である。

以下、図面と実施例を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。

なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。

図１は、本願に係る情報インタラクションのための方法または情報インタラクションのための装置の実施例が適用可能な例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３およびサーバ１０５の間で通信リンクの媒体を提供するために使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、処理対象となるメッセージを送信したり、応答情報を受信したりすることなどのために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と情報のインタラクションをすることができる。端末装置１０１、１０２、１０３には、ウェブブラウザアプリケーション、インスタントコミュニケーションツール、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。

端末装置１０１、１０２、１０３は、ディスプレイを有するとともに情報編集をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、およびデスクトップコンピュータなどを含むが、これらに限定されない。

サーバ１０５は、例えば、端末装置１０１、１０２、１０３の処理対象情報を処理するサーバのような、様々なサービスを提供するサーバであってもよい。サーバは、端末装置１０１、１０２、１０３の処理対象情報を取得し、処理対象情報のテキスト情報から特徴語を抽出し、その特徴語に基づいて処理対象情報の画像の記述情報を検索し、最後に、記述情報から処理対象情報に対応する応答情報を構築し、情報インタラクションを達成することができる。

なお、本願の実施例に係る情報インタラクションのための方法は、端末装置１０１、１０２、１０３によって別々に実行されてもよいし、端末装置１０１、１０２、１０３およびサーバ１０５で共同して実行されてもよい。それに応じて、情報インタラクションのための装置は、端末装置１０１、１０２、１０３に配置されてもよいし、サーバ１０５に配置されてもよい。

なお、図１における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎない。必要に応じて、任意の数の端末装置、ネットワークおよびサーバを有してもよい。

図２は、本願に係る情報インタラクションのための方法の一実施例のフローチャート２００を示す。該情報インタラクションのための方法は、次のステップを含む。

ステップ２０１において、処理対象情報を取得する。

本実施例では、情報インタラクションのための方法が実行される電子機器（例えば、図１に示す端末装置１０１、１０２、１０３またはサーバ１０５）は、有線接続方式または無線接続方式により、テキスト情報および画像を含む処理対象情報を取得することができる。注意すべきは、前記無線接続方式は、３Ｇ／４Ｇ接続、ＷｉＦｉ接続、ブルートゥース（商標登録）接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ（商標登録）接続、ＵＷＢ（ｕｌｔｒａｗｉｄｅｂａｎｄ，超広帯域）接続、およびその他の従来のまたは将来開発される無線接続方式を含むことができるが、これらに限定されない。

ユーザは、端末装置１０１、１０２、１０３における特定の情報処理アプリケーションにおいて、テキストおよび画像に関連する操作を行うことができる。例えば、ユーザは、情報処理アプリケーションにおいてテキスト情報および画像を入力した。画像は、様々なオブジェクト（例えば、特定の植物の画像、動物の画像など）を含んでもよく、テキスト情報は、「さっき、屋外で撮影されたものです。見たことがありません。誰かが知っていますか」ということであってもよい。そして、端末装置１０１、１０２、１０３またはサーバ１０５は、これらのテキスト情報および画像を含む情報を処理対象情報とすることができる。

ステップ２０２において、前記処理対象情報のテキスト情報の特徴語を抽出し、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索する。

処理対象情報を取得した後、先ず、処理対象情報に含まれているテキスト情報から特徴語を抽出する必要がある。前記特徴語は、前記画像に対する検索要求を特徴付けるために用いられ、例えば、特徴語は、「誰かが知っていますか」、「何ですか」などであってもよい。

特徴語が抽出されたことは、ユーザが画像の情報を知る意図を有することを意味する。その後、画像の記述情報を複数の方式で検索することができ、前記記述情報は、前記画像に対するテキスト記述を特徴付けるために使用される。記述情報は、「ＸＸＸ（植物名）、学名ＸＸ、ユリ科ユリ属、多年生草本植物、原産国が中国…」であってもよい。

本実施例の複数のオプションとなる実施形態において、前記処理対象情報のテキスト情報に含まれている特徴語を抽出することは、以下のステップを含んでもよい。

第一ステップにおいて、テキスト情報に対して意味認識を行って、前記テキスト情報に対応する意味情報を取得する。

また、前記テキスト情報「さっき、屋外で撮影されたものです。見たことがありません。誰かが知っていますか」を例として、当該テキスト情報に対して意味認識を行い、得られる対応する意味情報は「画像に含まれているものが何ですか」ということであってもよい。

第二ステップにおいて、前記意味情報から特徴語を抽出する。

前記意味情報は「画像に含まれるものが何ですか」ということであり、対応する特徴語は「画像」、「何ですか」であってもよい。

なお、処理対象情報のテキスト情報は、特徴語を直接含んでいてもよい。例えば、テキスト情報は、「画像の中にある植物が何であるのか誰が知っていますか」ということであってもよく、「画像」、「何ですか」、「植物」が特徴語であってもよい。

本実施例の複数のオプションとなる実施形態において、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索することは、以下のステップを含んでもよい。

第一ステップにおいて、画像を画像検索モデルに取り込んで、前記画像に対応する照合対象画像集合を取得する。

画像検索モデルは、入力された画像の画像特徴を抽出し、ローカルの画像データベースまたはネットワーキングなどの方式で同一または類似の画像特徴を含む画像を見つけ出して、照合対象画像とする。前記照合対象画像集合は、少なくとも１枚の照合対象画像を含んでもよく、前記画像検索モデルは、画像と照合対象画像との間の第１の対応関係を特徴付けるために用いられる。第１の対応関係は、取り込まれた画像と照合対象画像との間の同一性関係または類似性関係を指してもよい。

第二ステップにおいて、照合対象画像を意味タグモデルに取り込んで、照合対象画像集合に対応する意味タグ集合を取得する。

照合対象画像は、従来のローカル又はネットワーク上で見つけ出された、取り込まれた画像と同一または類似の画像である。照合対象画像が得られた後、照合対象画像を意味タグモデルに取り込んで、照合対象画像に対応する意味タグを取得する。ここで、前記意味タグモデルは、照合対象画像と意味タグとの第２の対応関係を特徴付けるために用いられ、意味タグは照合対象画像をテキストで説明するために用いられる。例えば、ある照合対象画像に対応する意味タグは、「これはユリです」ということであってもよい。

第三ステップにおいて、前記意味タグ集合から認識対象意味タグを選択し、認識対象意味タグにおける前記画像に対応する名詞の解釈情報を記述情報とする。

画像検索モデルに一枚の画像が取り込まれた場合に少なくとも一枚の照合対象画像を得ることができ、各照合対象画像はいずれも一つの意味タグを有するが、取り込まれた画像には一つの意味タグのみが必要である。従って、取り込まれた画像と最も合致する意味タグを意味タグ集合から選択して、当該意味タグを認識対象意味タグとして使用されることができる。その後、当該認識対象意味タグにおける、取り込まれた画像に対応する名詞の解釈情報を記述情報として使用されてもよい。例えば、認識対象意味タグが「これはユリです」ということである場合、「ユリ」は、取り込まれた画像に対応する名詞である。「ユリ」の解釈情報は、ローカルまたはネットワーク上で検索することによって得られ、当該解釈情報は、取り込まれた画像の記述情報として使用されてもよい。

本実施例の複数のオプションとなる実施形態において、前記意味タグ集合から認識対象意味タグを選択するステップは、前記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとすることを含んでもよい。

画像検索モデルに一枚の画像が取り込まれた場合に少なくとも一枚の照合対象画像を得ることができ、各照合対象画像がいずれも一つの意味タグを有する。照合対象画像は、互いに異なってもよいが、得られる意味タグは同じであってもよい。例えば、照合対象画像は、同じ植物を異なる角度から撮影してなるものであってもよく、対応する複数の意味タグが同一であってもよい。同一の意味タグの数が多いほど、取り込まれた画像が多くの撮影角度で特定の被写体と同じであることを示している。従って、前記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとすることができる。

ステップ２０３において、前記記述情報から前記処理対象情報の応答情報を構築する。

記述情報を取得した後、その記述情報から応答情報を構築することができる。例えば、前記記述情報は、「ＸＸＸ（植物名）、学名ＸＸ、ユリ科ユリ属、多年生草本植物、原産国が中国…」ということであってもよい。応答情報は、「図中はＸＸＸ（植物名）です。詳細については、ｈｔｔｐｓ：／／ｘｘｘ．ｘｘｘ．ｃｏｍ／ｉｔｅｍ／％Ｅ７％９９％Ｂ％８８／７８８６？ｆｒ＝ａｌａｄｄｉｎ＆ｆｒｏｍｉｄ＝７７８０＆ｆｒｏｍｔｉｔｌｅ＝％Ｅ７％９９％ＢＥ％Ｅ５％９０％８８％Ｅ８％８Ａ％Ｂ１を参照してください」ということであってもよい。その後、応答情報を端末装置１０１、１０２、１０３に送信して、端末装置１０１、１０２、１０３における処理対象情報との情報インタラクションを達成することができる。

本実施例の複数のオプションとなる実施形態において、前記方法は、前記記述情報を補正するステップをさらに含み、前記記述情報を補正するステップは、次のステップを含んでいてもよい。

第一ステップにおいて、前記応答情報の正確さを評価するための、前記応答情報に対応するフィードバック情報を受信する。

応答情報が端末装置１０１、１０２、１０３に返された後、他のユーザは、応答情報が精確または正確であるか否かを判定することができる。例えば、「はい、ＸＸＸです。私たちの家でもあります」、「いいえ、ＸＸＸであるべきです」、「ＹＹＹでしょう。ＸＸＸに似ていません」などの判定が可能である。これらのユーザの判定は、応答情報に関するフィードバック情報と考えることができる。

第二ステップにおいて、前記フィードバック情報に対して意味認識を行って正確率情報を得る。

異なるフィードバック情報で示される正確率は異なってもよい。例えば、「はい、ＸＸＸです。私たちの家でもあります」に関する意味認識結果は、「応答情報が正確」である可能性がある。「いいえ、ＸＸＸであるべきです」に関する意味認識結果は、「応答情報がエラー」である可能性がある。「ＹＹＹでしょう。ＸＸＸに似ていません」に関する意味認識結果は、「応答情報が不確定」である可能性がある。これらに対応して、前記「はい、ＸＸＸです。私たちの家でもあります」の正確率を１００％にし、「いいえ、ＸＸＸであるべきです」の正確率を０％にし、「ＹＹＹでしょう。ＸＸＸに似ていません」の正確率を５０％にすることができる。所定期間にわたりすべての正確率をカウントすることによって、応答情報の正確率情報を得ることができる。例えば、正確率が１００％であることが８つ、正確率が０％であることが１つ、正確率が５０％であることが１つである場合、正確率情報は（８＊１００％＋１＊０％＋１＊５０％）／１０＝８５％であってもよい。

第三ステップにおいて、前記正確率情報が所定の閾値よりも低い場合には、前記意味タグ集合における認識対象意味タグ以外の意味タグから第２の認識対象タグを選択する。

正確率情報は、応答情報の正確さを反映することができ、正確率情報が所定の閾値よりも高い場合に、応答情報が正確であるとみなされることができる。例えば、１０つのフィードバック情報のうち８つは、応答情報が正確であるとみなされる場合、応答情報が１００％正確であると直接みなされることができる。正確率情報がある所定の閾値（例えば、６９％）より低い場合、応答情報が不正確であるとみなされることができる。このとき、意味タグ集合における、応答情報に対応する認識対象意味タグ以外の意味タグの中から、他の意味タグを第２の認識対象タグとして選択してもよい。

第四ステップにおいて、第２の認識対象タグにおける名詞の解釈情報を第２の記述情報とする。

上記プロセスと同様に、第２の認識対象タグにおける名詞の解釈情報を第２の記述情報として用いることができる。

第五ステップにおいて、第２の記述情報から前記処理対象情報の応答情報を構築する。

応答情報を第２の記述情報から再構築することができ、その後、応答情報を端末装置１０１、１０２、１０３に送信する。

注意すべきは、第２の記述情報によって得られた応答情報に対応するフィードバック情報の正確率情報が依然として所定の閾値よりも低い場合には、対応する正確率情報が所定の閾値を超えるまで、引き続き他の認識対象タグを選択して応答情報を取得することができる。

応答情報が正確であると判断された後、処理対象情報における画像と応答情報との対応関係を確立して、データベースに記憶し、その後で画像および応答情報の検索を行うことができる。

図３に示すように、図３は、本実施例に係る情報インタラクションのための方法の応用シーンの模式図である。図３の応用シーンでは、ユーザは、端末装置１０２を介して植物フォーラムで「さっき、近くで見たものです。美しいですね。何かが分かりません。誰かが知っていますか？」というメッセージを送信し、対応する画像を追加した。サーバ１０５は、ユーザが送信した内容を取得して、処理対象情報とする。次に、サーバ１０５は、テキスト情報から特徴語である「何ですか」を抽出する。その後、サーバ１０５は、その画像に対応する記述情報を取得し、記述情報から応答情報を構築して端末装置１０２に送信する。

本願の前記実施例により提供された方法によって、処理対象情報のテキスト情報の特徴語を抽出し、処理対象情報の画像の記述情報を取得して、処理対象情報におけるテキスト情報と画像との対応関係が確立され、その後、記述情報から応答情報を構築する。これにより、処理対象情報との間の情報インタラクションが実現されることができる。

さらに、図４を参照すると、上記図に示された方法の実施態様として、本願は、情報インタラクションのための装置の一実施例を提供し、この装置の実施例は、図２に示された方法の実施例に対応し、当該装置は、具体的に様々な電子機器に適用することができる。

図４に示すように、本実施例の情報インタラクションのための装置４００は、処理対象情報取得ユニット４０１と、記述情報取得ユニット４０２と、応答情報構築ユニット４０３とを含んでもよい。処理対象情報取得ユニット４０１は、テキスト情報および画像を含む処理対象情報を取得するために用いられる。記述情報取得ユニット４０２は、前記処理対象情報のテキスト情報の特徴語を抽出し、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索するために用いられる。ここで、前記特徴語は、前記画像に対する検索要求を特徴付けるために用いられ、前記記述情報は前記画像に対するテキスト記述を特徴付けるために用いられる。応答情報構築ユニット４０３は、前記記述情報から前記処理対象情報の応答情報を構築するために用いられる。

本実施例の複数のオプションとなる実施形態において、前記記述情報取得ユニット４０２は、意味認識サブユニット（図示せず）および特徴語抽出サブユニット（図示せず）を含んでもよい。意味認識サブユニットは、テキスト情報に対して意味認識を行って前記テキスト情報に対応する意味情報を取得するために用いられる。特徴語抽出サブユニットは、前記意味情報から特徴語を抽出するために用いられる。

本実施例の複数のオプションとなる実施形態において、前記記述情報取得ユニット４０２は、照合対象画像取得サブユニット（図示せず）、意味タグ取得サブユニット（図示せず）および記述情報取得サブユニット（図示せず）を含んでもよい。照合対象画像取得サブユニットは、画像を画像検索モデルに取り込んで、前記画像に対応する照合対象画像集合を取得するために用いられ、前記照合対象画像集合は、少なくとも１枚の照合対象画像を含み、前記画像検索モデルは、画像と照合対象画像との間の第１の対応関係を特徴付けるために用いられる。意味タグ取得サブユニットは、照合対象画像を意味タグモデルに取り込んで、照合対象画像集合に対応する意味タグ集合を取得するために用いられ、前記意味タグモデルは照合対象画像と意味タグとの第２の対応関係を特徴付けるために用いられ、意味タグは照合対象画像をテキストで説明するために用いられる。記述情報取得サブユニットは、前記意味タグ集合から認識対象意味タグを選択し、認識対象意味タグにおける前記画像に対応する名詞の解釈情報を記述情報として使用するために用いられる。

本実施例の複数のオプションとなる実施形態において、前記記述情報取得サブユニットは、前記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとしてもよい。

本実施例の複数のオプションとなる実施形態において、前記情報インタラクションのための装置４００は、前記記述情報を補正するための補正ユニット（図示せず）をさらに含んでもよい。前記補正ユニットは、フィードバック情報受信サブユニット、正確率情報取得サブユニット、第２の認識対象タグ取得サブユニット、第２の記述情報取得サブユニット、および第２の応答情報構築サブユニットを含んでいてもよい。ここで、フィードバック情報受信サブユニットは、前記応答情報に対応するフィードバック情報を受信するために用いられ、前記フィードバック情報は前記応答情報の正確さを評価するために用いられる。正確率情報取得サブユニットは、前記フィードバック情報に対して意味認識を行って正確率情報を得るために用いられる。第２の認識対象タグ取得サブユニットは、前記正確率情報が所定の閾値よりも低い場合に、前記意味タグ集合における認識対象意味タグ以外の意味タグから第２の認識対象タグを選択するために用いられる。第２の記述情報取得サブユニットは、第２の認識対象タグにおける前記画像に対応する名詞の解釈情報を第２の記述情報とするために用いられる。第２の応答情報構築サブユニットは、第２の記述情報から前記処理対象情報の応答情報を構築するために用いられる。

本実施例は、１つ以上のプロセッサと、１つ以上のプログラムを記憶するためのメモリとを備えるサーバであって、前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるときに、前記１つ以上のプロセッサに前記情報インタラクションのための方法を実行させるサーバをさらに提供する。

本実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該プログラムがプロセッサによって実行されるときに、前記情報インタラクションのための方法を実行するコンピュータ可読記憶媒体をさらに提供する。

以下、本願の実施例を実現するためのサーバに適用されるコンピュータシステム５００を示す構造模式図である図５を参照する。図５に示すサーバは、一例に過ぎず、本願の実施例の機能および使用範囲を限定するものではない。

図５に示すように、コンピュータシステム５００は、読み出し専用メモリ（ＲＯＭ）５０２に記憶されているプログラムまたは記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムによって様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ）５０１を備える。ＲＡＭ５０３には、システム５００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ５０１、ＲＯＭ５０２およびＲＡＭ５０３は、バス５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に接続されている。

キーボード、マウスなどを含む入力部５０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、およびスピーカなどを含む出力部５０７、ハードディスクなどを含む記憶部５０８、並びにＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部５０９は、Ｉ／Ｏインターフェース５０５に接続されている。通信部５０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ５１０は、必要に応じてＩ／Ｏインターフェース５０５に接続される。リムーバブルメディア５１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ５１０に取り付けられ、したがって、ドライブ５１０から読み出されたコンピュータプログラムが必要に応じて記憶部５０８にインストールされる。

特に、本願の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータプログラム製品を含み、該コンピュータプログラム製品は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含み、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部５０９を介してネットワークからダウンロードされてインストールされてもよく、および／またはリムーバブルメディア５１１からインストールされてもよい。該コンピュータプログラムが中央処理装置（ＣＰＵ）５０１によって実行されるとき、本願の方法で限定された上記の機能が実行される。

注意すべきは、本願の前記コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれら両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、またはデバイス、またはこれらの任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本以上の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを含むかまたは記憶する任意の有形の媒体であってもよい。本願では、コンピュータ可読信号媒体は、ベースバンド内で、またはキャリアの一部として伝搬される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでいてもよい。このような伝搬されたデータ信号は、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。該コンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、有線、光ケーブル、ＲＦ媒体など、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体で送信することができる。

図面におけるフローチャートおよびブロック図は、本願の各実施例に係るシステム、方法およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャートまたはブロック図における各枠は、１つのモジュール、プログラムセグメント、またはコードの一部を代表してもよく、該モジュール、プログラムセグメント、またはコードの一部は、規定された論理機能を達成するための１つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、枠に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された２つの枠は、実際には関連する機能に応じて、ほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および／またはフローチャートにおける各枠と、ブロック図および／またはフローチャートにおける枠の組み合わせは、規定された機能または操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、または、専用ハードウェアとコンピュータの命令との組み合わせで実行されてもよい。

本願の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「プロセッサは、処理対象情報取得ユニットと、記述情報取得ユニットと、応答情報構築ユニットとを備える」というように記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、応答情報構築ユニットは、「応答情報を構築するためのユニット」として記載されてもよい。

一方、本願は、コンピュータ可読媒体をさらに提供し、該コンピュータ可読媒体は、上記実施例に記載された装置に含まれるものであってもよく、独立に存在して該装置に組み立てられていないものであってもよい。前記コンピュータ可読媒体は、１つ以上のプログラムが記憶され、前記１つ以上のプログラムが該装置によって実行されるとき、当該装置は、テキスト情報および画像を含む処理対象情報を取得し、前記処理対象情報のテキスト情報の特徴語を抽出し、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索し、ここで、前記特徴語が前記画像に対する検索要求を特徴付けるために用いられ、前記記述情報が前記画像に対するテキスト記述を特徴付けるために用いられ、前記記述情報から前記処理対象情報の応答情報を構築するようになっている。

以上の記載は、本願の好ましい実施例、および使用された技術的原理の説明に過ぎない。本願に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されることではなく、上記の本願の趣旨を逸脱しない範囲で、上記の技術的特徴または同等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本願に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案が挙げられる。

いくつかの実施形態では、上記記述情報取得サブユニットは、上記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとするためのユニットを備える。

本実施例の複数のオプションとなる実施形態において、前記記述情報取得サブユニットは、前記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとするためのユニットを備えてもよい。

Claims

情報インタラクションのための方法であって、
テキスト情報および画像を含む処理対象情報を取得するステップと、
前記処理対象情報のテキスト情報の特徴語を抽出し、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索するステップであって、前記特徴語は前記画像に対する検索要求を特徴付け、前記記述情報は前記画像に対するテキスト記述を特徴付ける、ステップと、
前記記述情報から前記処理対象情報の応答情報を構築するステップとを含むことを特徴とする情報インタラクションのための方法。
前記処理対象情報のテキスト情報の特徴語を抽出するステップは、
テキスト情報に対して意味認識を行って、前記テキスト情報に対応する意味情報を取得することと、
前記意味情報から特徴語を抽出することと、を含むことを特徴とする請求項１に記載の方法。
前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索するステップは、
画像検索モデルに画像を取り込んで、前記画像に対応する照合対象画像集合を取得することであって、前記照合対象画像集合は、少なくとも１枚の照合対象画像を含み、前記画像検索モデルは、画像と照合対象画像との間の第１の対応関係を特徴付ける、ことと、
照合対象画像を意味タグモデルに取り込んで、照合対象画像集合に対応する意味タグ集合を取得することであって、前記意味タグモデルは、照合対象画像と意味タグとの第２の対応関係を特徴付け、意味タグは照合対象画像をテキストで説明するものである、ことと、
前記意味タグ集合から認識対象意味タグを選択し、認識対象意味タグにおける前記画像に対応する名詞の解釈情報を記述情報とすることと、を含むことを特徴とする請求項１に記載の方法。
前記意味タグ集合から認識対象意味タグを選択するステップは、
前記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとすることを含むことを特徴とする請求項３に記載の方法。
前記方法は、前記記述情報を補正するステップをさらに含み、前記記述情報を補正するステップは、
前記応答情報の正確さを評価するための、前記応答情報に対応するフィードバック情報を受信することと、
前記フィードバック情報に対して意味認識を行って正確率情報を得ることと、
前記正確率情報が所定の閾値よりも低い場合には、前記意味タグ集合における認識対象意味タグ以外の意味タグから第２の認識対象タグを選択することと、
第２の認識対象タグにおける前記画像に対応する名詞の解釈情報を第２の記述情報とすることと、
第２の記述情報から前記処理対象情報の応答情報を構築することと、を含むことを特徴とする請求項４に記載の方法。
情報インタラクションのための装置であって、
テキスト情報および画像を含む処理対象情報を取得するための処理対象情報取得ユニットと、
前記処理対象情報のテキスト情報の特徴語を抽出し、前記特徴語に基づいて前記処理対象情報の画像の記述情報を検索するための記述情報取得ユニットであって、前記特徴語は前記画像に対する検索要求を特徴付けるために用いられ、前記記述情報は前記画像に対するテキスト記述を特徴付けるために用いられる、記述情報取得ユニットと、
前記記述情報から前記処理対象情報の応答情報を構築するための応答情報構築ユニットと、を含むことを特徴とする情報インタラクションのための装置。
前記記述情報取得ユニットは、
テキスト情報に対して意味認識を行って、前記テキスト情報に対応する意味情報を取得するための意味認識サブユニットと、
前記意味情報から特徴語を抽出するための特徴語抽出サブユニットと、を備えることを特徴とする請求項６に記載の装置。
前記記述情報取得ユニットは、
画像を画像検索モデルに取り込んで、前記画像に対応する照合対象画像集合を取得するための照合対象画像取得サブユニットであって、前記照合対象画像集合は、少なくとも１枚の照合対象画像を含み、前記画像検索モデルは、画像と照合対象画像との間の第１の対応関係を特徴付ける、照合対象画像取得サブユニットと、
照合対象画像を意味タグモデルに取り込んで、照合対象画像集合に対応する意味タグ集合を取得するための意味タグ取得サブユニットであって、前記意味タグモデルは、照合対象画像と意味タグとの第２の対応関係を特徴付けるために用いられ、意味タグは照合対象画像をテキストで説明するために用いられる、意味タグ取得サブユニットと、
前記意味タグ集合から認識対象意味タグを選択し、認識対象意味タグにおける前記画像に対応する名詞の解釈情報を記述情報とするための記述情報取得サブユニットと、を備えることを特徴とする請求項６に記載の装置。
前記記述情報取得サブユニットは、
前記意味タグ集合における同一の意味タグの数をカウントし、最大数を有する意味タグを認識対象意味タグとすることを特徴とする請求項８に記載の装置。
前記装置は、前記記述情報を補正するための補正ユニットをさらに備え、前記補正ユニットは、
前記応答情報の正確さを評価するための、前記応答情報に対応するフィードバック情報を受信するためのフィードバック情報受信サブユニットと、
前記フィードバック情報に対して意味認識を行って正確率情報を得るための正確率情報取得サブユニットと、
前記正確率情報が所定の閾値よりも低い場合には、前記意味タグ集合における認識対象意味タグ以外の意味タグから第２の認識対象タグを選択するための第２の認識対象タグ取得サブユニットと、
第２の認識対象タグにおける前記画像に対応する名詞の解釈情報を第２の記述情報とするための第２の記述情報取得サブユニットと、
第２の記述情報から前記処理対象情報の応答情報を構築するための第２の応答情報構築サブユニットと、を備えることを特徴とする請求項９に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムを記憶するためのメモリとを備えるサーバであって、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるときに、前記１つ以上のプロセッサに請求項１〜５のいずれか１項に記載の方法を実行させるサーバ。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該プログラムがプロセッサによって実行されるときに、請求項１〜５のいずれか１項に記載の方法を実行することを特徴とするコンピュータ可読記憶媒体。