JP2020507165A - データ可視化のための情報処理方法及び装置 - Google Patents

データ可視化のための情報処理方法及び装置 Download PDF

Info

Publication number
JP2020507165A
JP2020507165A JP2019542091A JP2019542091A JP2020507165A JP 2020507165 A JP2020507165 A JP 2020507165A JP 2019542091 A JP2019542091 A JP 2019542091A JP 2019542091 A JP2019542091 A JP 2019542091A JP 2020507165 A JP2020507165 A JP 2020507165A
Authority
JP
Japan
Prior art keywords
input information
information
recognition result
processing method
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019542091A
Other languages
English (en)
Other versions
JP6887508B2 (ja
Inventor
海燕 徐
海燕 徐
寧奕 周
寧奕 周
穎華 朱
穎華 朱
天宇 許
天宇 許
Original Assignee
ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド, ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド filed Critical ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
Publication of JP2020507165A publication Critical patent/JP2020507165A/ja
Application granted granted Critical
Publication of JP6887508B2 publication Critical patent/JP6887508B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明は、受信した入力情報に対して認識可能性分析を行い、認識可能な入力情報を所定の表現形態を有するメディア情報に変換することと、メディア情報に対する確認情報に応じて入力情報が正しく認識されたか否かを確定し、入力情報が正しく認識された場合、入力情報の認識結果に基づいてキーワードセットを確定することと、キーワードセットに基づいて認識結果と対応するインタラクション命令を確定してインタラクション命令を実行することと、を含み、確認情報は、メディア情報が入力情報を正しく表現したか否かを指示するものであるデータ可視化のための情報処理方法を開示する。本発明の方法を実施することによって、データ可視化の場面におけるユーザーとデータ表示との間のインタラクティブ性を向上し、従来のデータ可視化のインタラクション方式の単調さを改善することができる。

Description

本出願は、2017年11月21日に提出した出願番号が第201711166559.1号の中国特許出願の優先権を主張し、当該出願の全体が参照により本明細書に組み込まれる。
本発明は、コンピュータのデータ処理分野に属し、特に、データ可視化のための情報処理方法及び装置に関する。
データ可視化は、データの視覚的表現形態についての研究であり、文字ごと又は行ごとに文字を閲読する等の情報取得方式よりも、人々が視覚的観点からデータを理解することに寄与する。従来のデータ位置決めのインタラクション方式として、主にマウスクリック又はタッチパネルの画面クリックによってインタラクションを行っており、学習コストが比較的に高く、遠距離のデータ可視化表示の操作にも役立たず、便利さや速さが足りない。
そこで、データ可視化の場面に適用可能な迅速なインタラクション方法及び装置が必要とされている。
本発明は、上記の問題に鑑みてなされたものであり、データ表示時のヒューマンコンピュータインタラクションの効率を上げると共に、大画面等の特定の場面での可視化表示における視覚表示効果を効果的に向上することができる自然言語処理及び情報位置決め表示のインタラクション方式を提供する。
本発明の一態様では、データ可視化のための情報処理方法を提供する。当該方法は、受信した入力情報に対して認識可能性分析を行うことと、前記入力情報が正しく認識されたか否かを確定し、前記入力情報が正しく認識された場合に前記入力情報の認識結果に基づいて前記認識結果と対応するインタラクション命令を確定し、さらに前記インタラクション命令を実行することと、を含む。
一実施例では、前記入力情報が正しく認識されたか否かを確定することは、正しく認識されることが可能な前記入力情報を所定の表現形態を有するメディア情報に変換し、前記メディア情報の確認情報に基づいて前記入力情報が正しく認識されたか否かを確定することを含み、前記確認情報は、前記メディア情報が前記入力情報を正しく表現したか否かを指示するためのものである。
また、一実施例では、前記入力情報の認識結果に基づいて前記認識結果と対応するインタラクション命令を確定することは、データベースから前記認識結果とマッチするものを検索し、前記データベースに前記認識結果と対応するデータフィールドが存在する場合、前記認識結果に基づいて前記認識結果と対応するインタラクション命令を直接確定することを含む。
また、一実施例では、前記入力情報の認識結果に基づいて前記認識結果と対応するインタラクション命令を確定することは、データベースから前記認識結果とマッチするものを検索し、前記データベースに前記認識結果と対応するデータフィールドが存在しない場合、前記認識結果に基づいてキーワードセットを確定し、前記キーワードセットに基づいて前記認識結果と対応するインタラクション命令を確定することを含み。
また、一実施形態では、前記方法は、前記入力情報を受信する場合、前記入力情報の受信が成功したか否かを判断し、前記入力情報の受信が成功しなかった場合に受信失敗を指示する第1フィードバック情報を生成することを更に含む。
また、一実施形態では、前記受信された入力情報に対して認識可能性分析を行うことは、前記入力情報を認識するための認識モデルに基づいて前記入力情報を分析して、前記入力情報の認識可能性を確定し、前記入力情報が認識されることができない場合に前記入力情報が認識不可能であると指示する第2フィードバック情報を生成することを含む。
また、一実施形態では、前記入力情報が正しく認識されなかった場合、前記入力情報の認識エラーを指示する第3フィードバック情報を生成する。
また、一実施形態では、前記入力情報の認識結果に基づいてキーワードセットを確定することは、前記入力情報をセマンティックテキストとして認識し、前記セマンティックテキストから前記キーワードセットを抽出することを含む。なお、前記キーワードセットは、少なくとも一つのフィールドを含む。
また、一実施形態では、前記キーワードセットに基づいて前記認識結果と対応するインタラクション命令を確定することは、前記キーワードセットに基づいてデータベースにおけるデータフィールドと比較することと、前記キーワードセットにおけるフィールドが前記データベースにおけるデータフィールドとマッチした場合、マッチング結果に基づいて前記インタラクション命令を確定することと、前記キーワードセットにおけるフィールドが前記データベースにおけるデータフィールドとマッチしない場合、第4フィードバック情報を生成することと、を含む。なお、前記第4フィードバック情報は、前記キーワードセットにおけるフィールドが前記データベースにおけるデータフィールドとマッチできないことを指示するものである。
また、一実施例では、前記入力情報は、音声、タッチ又は身体動作のうちの少なくとも一つを含む。
また、一実施例では、前記方法は、前記入力情報を受信する場合、前記入力情報の受信が成功したか否かを判断することを更に含み、ここで、前記入力情報は音声を含む。なお、前記入力情報の受信が成功したか否かを判断することは、第1閾値に基づいて前記音声の受信が成功したか否かを判断することを含む。
さらに、実施例では、第1閾値は、音声長さ閾値、音声強さ閾値、音声周波数領域閾値のいずれか一つ又は複数の組み合わせを含む。
また、一実施形態では、前記メディア情報は、ビデオ、オーディオ、ピクチャ又は文字のうちの少なくとも一つを含む。
本発明の他の態様では、コンピュータ読取可能な記憶媒体を提供し、当該記憶媒体はそれに記憶されているコンピュータ読取可能なプログラム命令を有する。前記コンピュータ読取可能なプログラム命令が実行されるときに、上述のデータ可視化のための情報処理方法のステップを実現する。
また、本発明の他の態様では、プロセッサと、命令を記憶するメモリとを備え、前記命令の実行時に、前記プロセッサにより前記した可視化のための情報処理方法のステップが実行されるデータ可視化のための情報処理装置を更に提供する。
本発明の技術案を実施することによって、データ可視化の場面におけるユーザーとデータ表示との間のインタラクティブ性を向上して、従来のデータ可視化のインタラクション方式の単調さを改善することができる。
添付の図面は実施例を示して説明するためのものである。これらの図面は基本原理を説明するためのものであるため、基本原理に対する理解に必要な側面しか示していない。これらの図面は縮尺通りではない。各図面において、同一の符号は同等な特徴を表している。
本発明の実施例によるデータ可視化のための情報処理方法を示す図である。 本発明の実施例による音声認識に基づくデータ可視化の情報処理方法を示す図である。
以下の好ましい実施例の具体的説明では、本発明の一部を構成する添付図面を参照する。添付図面は、例示することで本発明の特定の実施例を示す。例としての実施例は本発明の全ての実施例ではない。本発明の主旨を逸脱しない限り、他の実施例を利用することができ、構造的又は論理的な修正も可能であることは理解されたい。したがって、以下の具体的な説明は限定的なものではなく、本発明の保護範囲は添付する特許請求の範囲によって限定される。
関連分野の当業者の周知している技術、方法及び装置に対しては詳しく検討しないが、必要な場合、前記技術、方法及び装置は明細書の一部として考慮されるべきである。説明の便宜上、図面における各ユニット間の連線は、少なくとも連線の両端のユニットが互いに通信していることを示しており、連線されていないユニット同士が通信できないと限定してはいない。
以下、本発明のデータ可視化の場面に基づいて自然言語処理及び情報位置決め表示を行うインタラクション方式について、図面を参照しながらより詳しく説明する。
図1は、本発明の実施例によるデータ可視化のための情報処理方法を示している。当該方法は次のようなステップを含む。
ステップS101:入力情報に対して認識可能性分析を行う。
このステップでは、入力情報の認識可能性に対して分析を行い、さらに認識モデルが認識可能な入力情報を認識するようにする。理解されたいことは、ユーザーの入力情報は、音声、タッチ又は身体動作等の指示性を有する情報であってもよいが、これらに限定されない。例えば、ユーザーにより音声が入力されるときには、音声認識モデルによって音声に対して認識を行う。同様に、ユーザーによりジェスチャが入力されるときには、ジェスチャ認識モデルによってジェスチャに対して認識を行う。このステップを実行することによって、認識モデルは当該入力情報の認識結果を取得することができる。
ステップS102:認識された入力情報をメディア情報に変換して、確認情報を生成する。
このステップでは、前ステップで取得した入力情報又は入力情報の認識結果を所定の表現形態のメディア情報に変換する。当該ステップを実行することによって、当該入力情報が正しく認識されたか否かをユーザーに確認させ、したがって対応する確認情報を生成することができる。理解されたいことは、ここで、メディア情報はユーザーが見ることができる画像や文字、又はユーザーが聞くことができる音声等を含むことができる。メディア情報は、入力情報と異なる形式を有してもよい。このようにして、ユーザーは様々な方式によって当該認識結果を得ることができる。
ステップS103:メディア情報が入力情報を正しく表現したか否かを確認情報に基づいて確定する。
このステップでは、ユーザーはメディア情報によって入力情報が正しく認識されたか否かを判断することができる。入力情報が正しく認識されなかった場合、フィードバック情報を生成して(ステップS106)、現在の入力情報が正しく認識されなかったため、再入力することができるとユーザーに提示する。
入力情報が正しく認識された場合、ステップS104を実行する。即ち、認識された入力情報に基づいてキーワードセットを確定し、さらにデータベース中でマッチするものを検索する。
上述の内容からわかるように、入力情報は、音声、身体動作、タッチ等の指示性を有する情報に限らない。したがって、認識システムが入力情報を認識した後、認識結果に基づいて入力情報に対応するキーワードセットを確定することができる。本実施例において、認識結果は当該入力情報と対応するセマンティックテキストである。キーワードセットは、当該セマンティックテキストから抽出され、且つ、当該入力情報の意図を反映できる少なくとも一つのフィールドを含むことができる。
キーワードセットを確定した後、キーワードセットに含まれているフィールドに基づいてそれと対応するデータフィールドが存在するか否かをデータベース中で検索する。データベースにキーワードセットと対応するデータフィールドが存在する場合、キーワードとデータベースにおけるデータフィールドとの間のマッチングを実現して、当該キーワードの対応するインタラクション命令を確定できる。勿論、キーワードセットに対する抽出によって、当該入力情報が表そうとする意図が確定できる。
ステップS105:マッチング結果に基づいて、インタラクション命令を確定し、さらに、対応する操作を実行する。
前のステップからわかるように、キーワードがデータベースにおけるデータフィールドとマッチした場合、当該キーワードに対応するインタラクション命令が確定されることができる。当該インタラクション命令が確定されると、システムは当該インタラクション命令を実行して、ユーザーの入力情報に対応する操作を生成する。
図1における情報処理方法を実行することによって、ユーザーにより様々な形式で入力される情報に対する応答をデータ可視化の場面において実現することができる。これによって、操作を簡素化し、表示をより好ましく行うことに寄与する。
本実施例をより詳しく説明するために、以下、図2を参照しながら、入力情報が音声情報であることを例として説明する。当業者であれば理解できるように、図2に係る方法では音声情報を例とするが、図2に係る方法は他の形式の入力情報にも同様に適用されることができ、例えば身体動作、タッチ等を含むが、これらに限らない。
図2は、本発明の実施例による音声認識に基づくデータ可視化の情報処理方法である。当該方法は次のようなステップを含む。
ステップS201:音声入力情報を受信する。
このステップでは、端末機器によってユーザーの発した命令を受信する。ここで、端末機器は既に表示内容とマッチングした携帯電話、マイクロフォン等であってもよい。端末機器が当該音声入力情報に対してさらなる処理(例えば、認識)を行う能力を有する音声受信機器である場合、当該端末機器はセッティングによって当該音声入力情報を処理することができる。当該端末機器がマイクロフォンなどの音声受信機器である場合、当該端末機器は受信した音声入力情報を所定の処理機器に伝送する。
ステップS202:第1閾値に基づいて音声入力情報の受信が成功したか否かを判断する。
このステップでは、第1閾値に基づいて、端末機器が当該音声入力情報の受信に成功したか否かを判断する。端末機器は、環境的影響又は端末機器自体の動作状態の影響を受けて、音声入力情報を受信できない、又は一部しか受信できない可能性がある。例えば、端末機器側に音声長さ閾値を設定することによって、受信した音声入力情報の長さが当該音声長閾値よりも小さい場合に当該音声入力情報が無効情報であると判断することができる。同様に、音声強さ閾値を設定してもよい。受信した音声入力情報の強さが当該音声強度閾値よりも小さい場合に当該音声入力情報が無効情報であると判断することができる。理解されたいことは、実際の必要に応じて、例えば、音声周波数領域閾値などの相応しい閾値を設定して判断を行ってもよい。本実施例では全ての実現可能な形態を列挙する必要がない。このステップを実行することによって、音声入力情報の受信について判断することができる。以上からわかるように、第1閾値は、音声長さ閾値、音声強さ閾値又は音声周波数領域閾値を含むがこれらに限らず、上述種類の閾値の組み合わせ等であってもよい。
ステップS202の判断結果が「NO」である場合、即ち音声入力情報の受信が成功しなかった場合、ステップS204を実行して、ユーザーへ第1フィードバック情報を送信する。理解されたいことは、ここで、第1フィードバック情報はユーザーによる感知可能な任意の形の情報であってもよい。
また、ステップS202の判断結果が「YES」である場合、即ち音声入力情報の受信が成功した場合、ステップS203を実行して、システムモデルによって当該音声入力情報を認識する。本実施例におけるシステムモデルは、例えば、隠れマルコフモデルなどの既存のいずれか1種類の音声認識モデルを採用することができる。同様に、当該システムモデルは、人工ニューラルネットワークによって訓練されて得られたものであってもよい。
ステップS205:当該音声入力情報を認識することができるか否かを判断する。
このステップでは、受信した当該音声入力情報の認識可能性について判断を行う。一部の不規則的、不明瞭又は音声認識モデルの認識能力を超えた他の音声については、これらの音声を成功に受信したとしても、音声認識を実現することができない。よって、このステップを実行することによって、音声入力情報の認識可能性について判断することができる。
ステップS205の判断結果が「NO」である場合、即ち音声入力情報の認識ができない場合、ステップS207を実行して、ユーザーへ第2フィードバック情報を送信する。理解されたいことは、ここで、第2フィードバック情報はユーザーによる感知可能な任意の形の情報であってもよい。
また、ステップS205の判断結果が「YES」である場合、即ち当該音声入力情報の認識に成功することが可能の場合、ステップS206を実行し、当該音声入力情報をメディア情報に変換する。理解されたいことは、ここで、メディア情報はユーザーが見ることができる画像や文字、又は、ユーザーが聞くことができる音声等を含んでもよい。このようにして、ユーザーは様々な方式によって当該認識結果を知ることができる。
ステップS208:当該音声入力情報の認識結果が正しいか否かを判断する。
このステップでは、当該音声入力情報の認識結果について判断を行う。本実施例において、当該音声入力情報がメディア情報に変換されるため、ユーザーの確認情報に応じて認識結果が正しいか否かを判断することができる。なお、認識結果は、当該入力情報と対応するセマンティックテキストである。
理解されたいことは、他の実施例において、ユーザーによるさらなる確認が必要なく、システムは自動的に認識情報の正確性を判断することを選択することができる。このようにして、ステップS206は選択的に、実行されなくてもよい。
ステップS208の判断結果が「NO」である場合、即ち当該音声入力情報に対応する認識結果が間違っている場合、ステップS207を実行して、ユーザーへ第3フィードバック情報を送信する。理解されたいことは、ここで、第3フィードバック情報はユーザーによる感知可能な任意の形の情報であってもよい。
また、ステップS208の判断結果が「YES」である場合、即ち当該音声入力情報に対応する認識結果が正しい場合、ステップS210又はS214を実行する。本実施例をより明確に説明するために、以下では「私は本当に北京に行きたい(我非常想去北京)」という認識結果を例として説明する。
先ず、ステップS210〜S213について説明する。
当該音声入力情報に対応する認識結果が正しい場合、当該認識結果を分析(例えば、分割)し、その後に当該認識結果と関連するキーワードを確定することができる。例えば、特定のフィールド又はセマンティックアルゴリズムに基づいて認識結果からキーワードを抽出する。「私は本当に北京に行きたい(我非常想去北京)」との認識結果に対して抽出した結果、「私(我)」、「行きたい(想去)」、「北京」というキーワードを抽出することができる。上述のキーワードを特定した後、データベース(例えば、コーパス)からマッチするものを検索する。
ステップS211:キーワードがデータベースにおけるフィールドとマッチング可能か否かを判断する。
このステップでは、キーワードとデータベースにおけるデータフィールドとのマッチング状況を判断する。
ステップS211の判断結果が「NO」である場合、即ち対象キーワードとマッチするデータフィールドがデータベースに存在しない場合、ステップS212を実行して、ユーザーへ第4フィードバック情報を送信する。理解されたいことは、ここで、第4フィードバック情報はユーザーによる感知可能な任意の形の情報であってもよい。
また、ステップS211の判断結果が「YES」である場合、即ち対象キーワードとマッチするデータフィールドがデータベースに存在する場合、ステップS213を実行する。即ち、マッチング結果に応じて対応する操作を生成する。言い換えれば、キーワードである「私(我)」、「行きたい(想去)」、「北京」に基づいて対応する操作をトリガーする。データ可視化の場面において、北京行きのルート、又は北京行きのフライト、列車番号等の選択肢としての交通機関の利用可能状況を対象ユーザーに提供することができる。
また、システムに既定の受信可能フィールドが直接設定されている場合、ユーザーはデータ可視化の現場で表示と説明を行うときに、予め設定された機器受信可能なフィールドを直接話すことができる。表示の過程中、端末機器は命令を受信した後、バックグラウンドデータと直接比較して、表示端末に必要なデータを迅速に表示することができる。つまり、端末機器又は処理機器側に「私は本当に北京に行きたい(我非常想去北京)」という音声と対応するデータフィールドが既に記憶されていると、当該音声についてさらにキーワードを抽出する必要がなく、当該データフィールドと対応する操作を直接実行することができる(ステップS214)。
上記方法により、データ可視化の場面において、音声認識及び自然言語処理に基づいて、ユーザーとデータ表示との間のインタラクティブ性を向上し、従来のデータ可視化のインタラクション方式の単調さを改善することができる。ユーザーは自然言語の伝送のみを行うことで操作完了になり、よって、データ可視化のインタラクション操作の複雑さが軽減され、表示効率が向上される。当該方法は、特に、大画面データ表示の場面での使用に適している。
上述の実施例は音声入力情報を実施例として採用したが、当業者であれば、身体動作、タッチ等の指示性を有する情報が同様に上述の方法に適用されることを理解できるであろう。例えば、端末機器におけるビデオコンポーネントがユーザーの両手の合掌動作を捕捉すると、対応する動作認識モデルによって当該動作を認識する。例えば、訓練することによって、その両手の合掌動作を「シャットダウン」機能に関連付けることで、動作認識モデルが当該動作を正しく認識した後に、「シャットダウン」機能をトリガーする。
図1及び図2における情報処理方法の流れは、プロセッサにより実行されるプログラムを含む機械読取可能な命令を更に示す。当該プログラムは有形のコンピュータ読取可能な媒体に記憶されたソフトウェアで具現化されることができる。また、当該有形のコンピュータ読取可能な媒体は、CD−ROM、フロッピーディスク、ハードディスク、デジタル多用途ディスク(DVD)、ブルーレイディスク、又はその他の形のメモリである。代わりに、図1及び図2における例示的な方法におけるステップの一部又は全部は、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルロジックデバイス(EPLD)、ディスクリートロジック、ハードウェア、ファームウェア等のいずれか組み合わせによって実現されることができる。また、図1及び図2に示すフローチャートは当該データ処理方法を説明したが、当該処理方法におけるステップを修正、削除又は併合することができる。
上記のように、コード化命令(コンピュータ読取可能な命令)を利用して、図1及び図2の例示的な過程を実現することができる。当該コード化命令は、ハードディスク、フラッシュメモリ、リードオンリーメモリ(ROM)、光ディスク(CD)、デジタル多用途ディスク(DVD)、キャッシュ、ランダムアクセスメモリ(RAM)、及び/又はいずれか他の記憶媒体のような有形のコンピュータ可読媒体に記憶される。この記憶媒体において情報は任意の時間(例えば、長期、永久的、短期の場合、一時的バッファリング、及び/又は情報のキャッシング)に亘って記憶されることができる。ここで利用したように、その有形のコンピュータ読み取り可能媒体という用語は、任意タイプのコンピュータ読取可能な記憶した情報を含むと明確に定義される。追加的又は取替的に、コード化命令(コンピュータ読取可能な命令)を利用して図1及び図2の例示的な過程を実現でき、当該コード化命令は、ハードディスク、フラッシュメモリ、リードオンリーメモリ、光ディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ、及び/又はいずれか他の記憶媒体のような非一時的コンピュータ読取可能な媒体に記憶される。当該記憶媒体情報は、任意の時間(例えば、長期、永久的、短期の場合、一時的バッファリング、及び/又は情報のキャッシング)に亘って記憶されることができる。理解できることは、当該コンピュータ読取可能な命令は、ユーザー使用上の利便性のために、Webサーバやクラウドプラットホームに記憶されてもよい。
また、操作は特定の順序で描かれているが、これは、所望の結果を得るために、この種類の操作が示された特定の順序又は連続的な順序に従って完成されるか、又は図面に示されるすべての操作を行うことを要求していると理解してはならない。ある一部の状況においては、マルチタスクや並列処理が有効である。同様に、上述の検討に幾つかの特定の実施詳細が含まれているが、それらはいずれの発明又は特許請求の範囲を限定するものであると解釈してはならず、特定の発明における特定の実施例に対する説明であると解釈すべきである。この明細書において別々の実施例の文脈で説明された幾つかの特徴は、単一の実施例に組み合わせて実施することもできる。逆に、単一の実施例の文脈で説明された様々な特徴も、複数の実施例又はいずれか適切なサブコンビネーションに分けて実施されることができる。
したがって、特定の例を参照しながら本発明を説明したが、これらの特定の例は例示的なものに過ぎず、本発明を限定するためのものではない。当業者にとって、本発明の主旨及び保護範囲から逸脱しない限り、開示された実施例を変更、追加又は削除することができることは自明である。

Claims (16)

  1. データ可視化のための情報処理方法であって、
    受信した入力情報に対して認識可能性分析を行うステップと、
    前記入力情報が正しく認識されたか否かを確定し、前記入力情報が正しく認識された場合に前記入力情報の認識結果に基づいて前記認識結果と対応するインタラクション命令を確定し、さらに前記インタラクション命令を実行するステップと、を含む
    ことを特徴とするデータ可視化のための情報処理方法。
  2. 前記入力情報が正しく認識されたか否かを確定する前記ステップは、
    認識可能な前記入力情報を所定の表現形態を有するメディア情報に変換し、前記メディア情報の確認情報に基づいて前記入力情報が正しく認識されたか否かを確定するステップを含み、
    前記確認情報は、前記メディア情報が前記入力情報を正しく表現したか否かを指示するためのものである
    ことを特徴とする請求項1に記載のデータ可視化のための情報処理方法。
  3. 前記入力情報の認識結果に基づいて前記認識結果と対応するインタラクション命令を確定する前記ステップは、
    データベースから前記認識結果とマッチするものを検索するステップと、
    前記データベースに前記認識結果と対応するデータフィールドが存在する場合、前記認識結果に基づいて前記認識結果と対応するインタラクション命令を直接確定するステップを含む
    ことを特徴とする請求項1に記載のデータ可視化のための情報処理方法。
  4. 前記入力情報の認識結果に基づいて前記認識結果と対応するインタラクション命令を確定する前記ステップは、
    データベースから前記認識結果とマッチするものを検索し、前記データベースに前記認識結果と対応するデータフィールドが存在しない場合、前記認識結果に基づいてキーワードセットを確定するステップと、
    前記キーワードセットに基づいて前記認識結果と対応するインタラクション命令を確定するステップを含む
    ことを特徴とする請求項3に記載のデータ可視化のための情報処理方法。
  5. 前記入力情報を受信する場合、前記入力情報の受信が成功したか否かを判断し、前記入力情報の受信が成功しなかった場合、受信失敗を指示する第1フィードバック情報を生成するステップを更に含む
    ことを特徴とする請求項1に記載のデータ可視化のための情報処理方法。
  6. 前記受信した入力情報に対して認識可能性分析を行う前記ステップは、
    前記入力情報を認識するための認識モデルに基づいて前記入力情報を分析して、前記入力情報の認識可能性を確定するステップと、
    前記入力情報が認識されることができなかった場合、前記入力情報が認識不可能であると指示する第2フィードバック情報を生成するステップと、を含む
    ことを特徴とする請求項1に記載のデータ可視化のための情報処理方法。
  7. 前記入力情報が正しく認識されなかった場合、前記入力情報の認識エラーを指示する第3フィードバック情報を生成する
    ことを特徴とする請求項2に記載のデータ可視化のための情報処理方法。
  8. 前記入力情報の認識結果に基づいてキーワードセットを確定するステップは、
    前記入力情報をセマンティックテキストとして認識し、前記セマンティックテキストから前記キーワードセットを抽出するステップを含み、
    前記キーワードセットは、少なくとも一つのフィールドを含む
    ことを特徴とする請求項4に記載のデータ可視化のための情報処理方法。
  9. 前記キーワードセットに基づいて前記認識結果と対応するインタラクション命令を確定する前記ステップは、
    前記キーワードセットに基づいてデータベースにおけるデータフィールドと比較するステップと、
    前記キーワードセットにおけるフィールドが前記データベースにおけるデータフィールドとマッチした場合、マッチング結果に基づいて前記インタラクション命令を確定するステップと、を含む
    ことを特徴とする請求項4に記載のデータ可視化のための情報処理方法。
  10. 前記キーワードセットに基づいて前記認識結果と対応するインタラクション命令を確定する前記ステップは、
    前記キーワードセットにおけるフィールドが前記データベースにおけるデータフィールドとマッチしない場合、第4フィードバック情報を生成するステップを更に含み、
    前記第4フィードバック情報は、前記キーワードセットにおけるフィールドが前記データベースにおけるデータフィールドとマッチできないことを指示するものである
    ことを特徴とする請求項9に記載のデータ可視化のための情報処理方法。
  11. 前記入力情報は、音声、タッチ又は身体動作のうちの少なくとも一つを含む
    ことを特徴とする請求項1乃至10のいずれか1項に記載のデータ可視化のための情報処理方法。
  12. 前記入力情報を受信する場合、前記入力情報の受信が成功したか否かを判断するステップを更に含み、
    前記入力情報は音声を含み、
    前記入力情報の受信が成功したか否かを判断するステップは、
    第1閾値に基づいて前記音声の受信が成功したか否かを判断するステップを含む
    ことを特徴とする請求項11に記載のデータ可視化のための情報処理方法。
  13. 前記第1閾値は、音声長さ閾値、音声強さ閾値、音声周波数領域閾値のいずれか一つ又は複数の組み合わせを含む
    ことを特徴とする請求項12に記載のデータ可視化のための情報処理方法。
  14. 前記メディア情報は、ビデオ、オーディオ、ピクチャ又は文字のうちの少なくとも一つを含む
    ことを特徴とする請求項2に記載のデータ可視化のための情報処理方法。
  15. データ可視化のための情報処理装置であって、
    プロセッサと、
    命令を記憶するためのメモリと、を備え、
    前記命令が実行されると、前記プロセッサにより請求項1乃至14のいずれか1項に記載のデータ可視化のための情報処理方法のステップが実行される
    ことを特徴とするデータ可視化のための情報処理装置。
  16. コンピュータ読取可能なプログラム命令を記憶しているコンピュータ読取可能な記憶媒体であって、
    前記コンピュータの読取可能なプログラム命令が実行されると、請求項1乃至14のいずれか1項に記載のデータ可視化のための情報処理方法のステップを実現する
    ことを特徴とするコンピュータ読取可能な記憶媒体。
JP2019542091A 2017-11-21 2018-11-20 データ可視化のための情報処理方法及び装置 Active JP6887508B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711166559.1 2017-11-21
CN201711166559.1A CN108108391A (zh) 2017-11-21 2017-11-21 用于数据可视化的信息的处理方法以及装置
PCT/CN2018/116415 WO2019101067A1 (zh) 2017-11-21 2018-11-20 用于数据可视化的信息的处理方法以及装置

Publications (2)

Publication Number Publication Date
JP2020507165A true JP2020507165A (ja) 2020-03-05
JP6887508B2 JP6887508B2 (ja) 2021-06-16

Family

ID=62207647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019542091A Active JP6887508B2 (ja) 2017-11-21 2018-11-20 データ可視化のための情報処理方法及び装置

Country Status (5)

Country Link
US (1) US20190213998A1 (ja)
JP (1) JP6887508B2 (ja)
KR (1) KR20190107063A (ja)
CN (1) CN108108391A (ja)
WO (1) WO2019101067A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108391A (zh) * 2017-11-21 2018-06-01 众安信息技术服务有限公司 用于数据可视化的信息的处理方法以及装置
CN109241464A (zh) * 2018-07-19 2019-01-18 上海小蚁科技有限公司 用于数据大屏的数据展示方法及装置、存储介质、终端
CN111510671A (zh) * 2020-03-13 2020-08-07 海信集团有限公司 一种监控视频调取显示的方法及智能终端
CN111610949A (zh) * 2020-05-28 2020-09-01 广州市玄武无线科技股份有限公司 数据大屏的展示方法及装置、电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000019307A1 (fr) * 1998-09-25 2000-04-06 Hitachi, Ltd. Procede et dispositif d'interaction de traitement
JP2002073322A (ja) * 2000-08-29 2002-03-12 Sharp Corp オンデマンド・インタフェース装置とそのウィンドウ表示装置
US20090157405A1 (en) * 2007-12-13 2009-06-18 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US20140207452A1 (en) * 2013-01-24 2014-07-24 Microsoft Corporation Visual feedback for speech recognition system
WO2017130486A1 (ja) * 2016-01-28 2017-08-03 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN107300970A (zh) * 2017-06-05 2017-10-27 百度在线网络技术(北京)有限公司 虚拟现实交互方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065640B (zh) * 2012-12-27 2017-03-01 上海华勤通讯技术有限公司 语音信息可视化的实现方法
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析***
CN106980689B (zh) * 2017-03-31 2020-07-14 江苏赛睿信息科技股份有限公司 一种通过语音交互实现数据可视化的方法
CN107199971B (zh) * 2017-05-03 2020-03-13 深圳车盒子科技有限公司 车载语音交互方法、终端及计算机可读存储介质
CN107193948B (zh) * 2017-05-22 2018-04-20 邢加和 人机对话数据分析方法及装置
CN108108391A (zh) * 2017-11-21 2018-06-01 众安信息技术服务有限公司 用于数据可视化的信息的处理方法以及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000019307A1 (fr) * 1998-09-25 2000-04-06 Hitachi, Ltd. Procede et dispositif d'interaction de traitement
JP2002073322A (ja) * 2000-08-29 2002-03-12 Sharp Corp オンデマンド・インタフェース装置とそのウィンドウ表示装置
US20090157405A1 (en) * 2007-12-13 2009-06-18 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US20140207452A1 (en) * 2013-01-24 2014-07-24 Microsoft Corporation Visual feedback for speech recognition system
WO2017130486A1 (ja) * 2016-01-28 2017-08-03 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN107300970A (zh) * 2017-06-05 2017-10-27 百度在线网络技术(北京)有限公司 虚拟现实交互方法和装置

Also Published As

Publication number Publication date
US20190213998A1 (en) 2019-07-11
JP6887508B2 (ja) 2021-06-16
WO2019101067A1 (zh) 2019-05-31
CN108108391A (zh) 2018-06-01
KR20190107063A (ko) 2019-09-18

Similar Documents

Publication Publication Date Title
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
US10152965B2 (en) Learning personalized entity pronunciations
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
JP6484236B2 (ja) オンライン音声翻訳方法及び装置
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP6887508B2 (ja) データ可視化のための情報処理方法及び装置
US20160078020A1 (en) Speech translation apparatus and method
US20160306783A1 (en) Method and apparatus for phonetically annotating text
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
JP2016536652A (ja) モバイル機器におけるリアルタイム音声評価システム及び方法
CN113225612B (zh) 字幕生成方法、装置、计算机可读存储介质及电子设备
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
KR102345625B1 (ko) 자막 생성 방법 및 이를 수행하는 장치
WO2012004955A1 (ja) テキスト補正方法及び認識方法
US10540968B2 (en) Information processing device and method of information processing
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
JP5396530B2 (ja) 音声認識装置および音声認識方法
CN106980640B (zh) 针对照片的交互方法、设备和计算机可读存储介质
JP2012003090A (ja) 音声認識装置および音声認識方法
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
JP6401488B2 (ja) 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210518

R150 Certificate of patent or registration of utility model

Ref document number: 6887508

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250