JP6605022B2 - 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス - Google Patents

経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス Download PDF

Info

Publication number
JP6605022B2
JP6605022B2 JP2017512333A JP2017512333A JP6605022B2 JP 6605022 B2 JP6605022 B2 JP 6605022B2 JP 2017512333 A JP2017512333 A JP 2017512333A JP 2017512333 A JP2017512333 A JP 2017512333A JP 6605022 B2 JP6605022 B2 JP 6605022B2
Authority
JP
Japan
Prior art keywords
data source
data
procedure
weighted
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017512333A
Other languages
English (en)
Other versions
JP2017527913A (ja
Inventor
スクリフィニャーノ、アンソニー、ジェー.
サンバーニッチ、イェーム
デービス、ロビン、フライ
マシューズ、ウォーウィック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun and Bradstreet Corp
Original Assignee
Dun and Bradstreet Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun and Bradstreet Corp filed Critical Dun and Bradstreet Corp
Publication of JP2017527913A publication Critical patent/JP2017527913A/ja
Application granted granted Critical
Publication of JP6605022B2 publication Critical patent/JP6605022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

(関連出願)
本出願は、2014年9月3日に出願された米国特許仮出願第62/045,398号の優先権を主張しており、この米国特許仮出願の内容は、ここでの言及によって本明細書に援用される。
本開示は、キュレーションが不充分又は体系化が不充分であり、体系化されておらず、或いは不完全な体系化のソース、とりわけソーシャルメディアソースからのデータについて、記述的及び文脈的な属性を生成するために、本明細書においてケイパビリティとも称される新規であり、経験的であり、すなわち科学的且つ再現可能である属性判断及び弁別のプロセスを採用するシステムに関する。次いで、属性は、既存の再帰的−完結相なプロセス及び様態を越える方法を用いて、データの最も適切な処置又は処理について、特徴を明らかにし、精査し、弁別し、且つ決定を最終的に行うために使用される。本開示が取り組む固有の問題は、取り込み及びキュレーションのプロセスを体系化するための充分な概念体系又は標準形が存在しないときのスケールにおいてデータを一貫して精査し、裁定し、且つ取り込むことが、現時点において不可能であることである。
本明細書に記載されるケイパビリティは、オンラインソースから直接ダウンロードされるファイルから取得されるデータの処理、又は何らかの目的で取り込まれ、処理され、且つ使用されるデータを提供する、エンドユーザ、システム、アプリケーション、又は任意の方法によって開始される照合への応答に利用可能である。この場合、「何らかの目的での処理及び使用」は、データを利用し、ケイパビリティからの恩恵にあずかり、すなわち推論を導き出し、パターンの観察を促進し、より良好、より迅速、より効率的、又はシステム又は機能の文脈においてデータの価値を高める方向のやり方で機能する任意のダウンストリームのシステム又は機能であってよい。
このケイパビリティは、コンテクストレベル、ソースファイルレベル、又はコンテンツレベルにおいて運用することができ、且つプロセスそのものの以前の反復収集された経験によって通知され得る。「コンテクストレベル」属性は、データソースの取得及び取り込みの周囲の状況のレベルにおいて運用する。「ソースファイルレベル」属性は、典型的には、それだけに限らないが、ソースによって供給され、或いはソースから取得されたままのデータのファイルのレベルにおいて運用する。「コンテンツレベル」属性は、基本データレベルにおいて働き、且つ典型的には、それだけに限らないが、個々のデータ要素及び/又はそれらの間の関係の分析にもとづく。
「コンテクストレベル」属性の例は、特定のソースからのデータがもたらされる頻度、及びそのソースにおけるデータの「保存期限」、すなわち典型的にはどれくらい長くデータが「現在の」データであると考えられるかを表すためのメタデータの生成であると考えられる。「ソースファイルレベル」属性の例は、例えば生成日など、ファイルそのものからのメタデータを調べることであると考えられる。「コンテンツレベル」属性の例は、例えば簡体字中国語など、データを表すために用いられた記述システムの検出であると考えられる。
業界の推定では、新しいデータの生成のうちの80%超が体系化されていないことを示している。ますます、体系化されておらず或いは大まかにしか理解されていないフォーマットとなるデータから充分な価値を引き出し、或いは反対に、データの現存するキュレーション済みのコーパスへと追加され、若しくは意思決定のビジネス機能などの特定の使用の事例へと供給された場合に、不正確、ミスリード、又は有害であると最終的に判明するデータの増加を回避するために、そのデータを、重要であるが必ずしもあらかじめ定められておらず、且つ/又は既知の次元に沿って測定される基準に照らして、事前に選別できることが重要である。事前の選別の利点は、特定の試験に合格せず、或いは充分に高いクオリティレベルを記録しないデータが拒絶され、有害な影響の恐れが軽減されることにある。さらなる利点は、リソースの制約又は他の考慮事項ゆえに新たなデータのすべての利用可能なソースを取り込むことが許されない場合に、キュレーションの努力を補助し、場合によっては指揮することであると考えられる。用語「クオリティ」が、ここでは特定の目的のための任意の合致尺度を意味して使用され、必ずしも特定の固有の値を意味しないことに、注意すべきである。
体系化されていないデータについて明確化及び弁別の機能を実行するために、
a)エンティティ抽出−テキストから名詞、動詞、及び修飾語などの関心の対象の個々の構成要素を導出する
b)感情分析−コンテンツの意図された語調及び感情へと属性を与える
c)語義明確化−テキストをより計算可能な構成体へと還元する(例えば、トークン化)
d)言語変換−自然言語処理(NLP)による書き換え、翻訳、及び解釈を含む
を含む種々の技術が現れてきている。
上述のリスク及び軽減の必要性は、データそのものが、決まった体系化をなされていない主要部分、或いは「フリーテキスト」な構成要素を常に有し、限られたサイズであり、「クラウド起源」であり、すなわち検証されない参加者の無制限の集団に由来し、1つ以上の「混合特性」を含む可能性が高いソーシャルメディアデータである場合に、特に当てはまる。
これらの混合特性のいくつかの例は、下記の通りである。
a)皮肉:通り一遍の解釈からもたらされる意味とは反対の隠された意味を伝達するようなやり方で並べられた単語又は述語
・例:XYZ Oil Co.は、あなたが自然破壊を好むならばビジネス相手として優れた企業だ。
b)新語:新たに作られ、且つ何らかの共有の意味を有するように集合的に理解される単語又は語句
・例:−ハッシュタグ
c)文法変化又は不適切な表現のテキスト:意図的又は意図的でないが誤りであり、曖昧又は確定しない解釈につながる単語の使用
・例:FBIは爆発物でテロリストを追っている。
d)句読点:曖昧又は矛盾する解釈につながる非標準的又は一貫性のないやり方での句読点の使用或いは句読点の欠如
・例:「新芽及び葉を食す(Eats shoots and leaves)」対「食べて、シュートして、去る(Eats, shoots, and leaves)」
e)多言語データ:外国語からの単語及び語句の挿入(公式、非公式、及び口語体の外来語、外来表現、及び翻訳借用語句を含む)
・例:彼は、彼の意図を完全に理解することを難しくする言葉では言い表せない何かを有していた。
f)スペリング:一貫性を欠き、誤っており、或いは確定しない解釈につながる創作され、誤っており、或いは借用されたスペリング
・例:そこにいるの?(RU There?)
g)難読化/暗号化:推論又は解釈を混乱させるデータの意図的な変換
h)コンテクスト:データそのものにおいてもたらされるコンテクストの不足ゆえに、外的連続性又は外部に保持されるテキストへの依存が大きくなること
・例:「彼のスライスは最高だった!」[ケーキ? ピザ? テニスのショット?]
i)マルチメディア:テキスト及び他のメディア形式が1つのメッセージ又はデータにおいて組み合わせられ、全体として理解しなければ曖昧又は理解し得ない意味を生み出している
・例:「我々がXYZ Beverage Co.の新たな味と考えるものはこれだ」と書き添えられたピクチャ
この項において説明される手法は、追求され得た手法であるが、必ずしもこれまでに想像又は追求されていた手法ではない。したがって、この項において説明される手法は、本出願の特許請求の範囲に対する先行技術ではないかもしれず、且つこの項に含まれることによって先行技術であるとは認められない。
既存のシステムは、上述の機能(エンティティ抽出、感情分析、語義明確化、言語変換、など)の実行、したがってデータの評価及び試験を試みることができるが、特定のソースからのデータによる先験的な経験がないと、どんな試験及び測定基準を採用するかを知ることが極めて困難である。したがって、弁別及び意思決定の充分に効果的且つ再現可能なレベルを生み出すために、体系化されていないデータ、ソーシャルメディア、及び他の同様のデータを取り込もうとするシステムは、システムを事前の経験にもとづいて設定変更することができる再帰的なやり方で、そのようにすることができる。そのようなシステムは、将来の結果に影響を与える事後のクオリティフィードバックを使用して、「フィードバック・トゥ・ホスト(feedback to host)」としても知られる閉ループのシナリオも実行することができる。しかしながら、これらのシステムは、実行が常に手作業であり、たとえ「機械学習」が採用される場合でも、それは最も基本的な経験のレベルに限られ、すなわち詳細なデータそのものの頻度及び語義の分析にもとづくだけであるため、スケーラビリティ及び自動化における限界に直面する。また、上述した言語の混同特性の影響に起因する限界も存在する。
(a)データソースからデータを受け取ることと、(b)ルールに従ってデータソースの属性を判断し、それによって属性を得ることと、(c)データにおける混同特性を特定するためにデータを分析することと、(d)属性のクオリティ尺度を算出し、それによって重み付けされた属性を得ることと、(e)混同特性のクオリティ尺度を算出し、それによって重み付けされた混同特性を得ることと、(f)処理を生成するために、重み付けされた属性及び重み付けされた混同特性を分析することと、(g)処理に従ってデータをフィルタ処理し、それによって抽出されたデータを得ること、及び(h)抽出されたデータをダウンストリームプロセスへと渡すことと、を含む方法が提供される。また、本方法を実行するシステム、及び本方法を実行するようにプロセッサを制御するための命令を含んでいる記憶装置も、提供される。
本明細書に記載の技術は、先行技術では対処されないケイパビリティを含む。具体的には、本明細書に記載の技術は、属性の新たな次元を使用する方法論を提供し、順にデータの取得の意思決定の新たな自動化された実行を可能にすることで、先行技術にもとづく手法を用いたときに可能であるよりもより高速、よりスケーラブル、より柔軟、且つより一貫性のあるシステムの構築を可能にする。
経験属性によるデータソースの取り込み、属性判断、処理戦略の生成、及びエクスポートのためのシステムのブロック図を示している。
図1のシステムによって実行される方法の機能ブロック図である。
ソース属性レベル及びそれらの階層関係の図式的表示である。
図2に示した方法の一部であるプロセスの機能ブロック図である。
2つ以上の図に共通の構成要素又は特徴は、各々の図において同じ参照番号で示されている。
取り込みに先立ってデータソースを分析及び選定しようとする既存のプロセスを改善するニーズが存在する。このニーズを満たすために、(a)複数のレベルにおいて、ソースから取得するデータに属性を与えることと、(b)ソースから、もしあればいくつかの次元にわたって与えられた属性を測定する基準に基づき、データの限定的なサブセットを抽出するための処理ルールを生成し、それによって適切なデータを抽出すること、(c)選定されたデータを取り込むこと、及び(d)フィードバックを入手し、且つフィードバックにもとづいてシステムに変更をもたらすことと、を含む方法を実行するシステムが提供される。
このように、本明細書は、ソースデータに属性を与え、とりわけ属性にもとづいて決定を行い、データを取り込み、取り込みについてシステムの経験(この経験は、システムによって記録され、且つプロセスそのものの新たな属性として保存されると考えられる)にもとづくフィードバックを入手するための自動化されたシステム及び方法を開示する。本方法は、人間の介在を必要とすることなく実行されることによって、一貫性及びスケーラビリティを可能にするとともに、人間が適切なデータ管理に影響を及ぼすために洞察又は追加のリサーチが必要とされる状況に集中することを可能にする。用語「スケーラビリティ」は、この手法が特定の技術又は技術的解決策に限られないことを意味する。
以下のいくつかの段落に、本明細書において使用されているいくつかの用語の定義が存在する。
属性:動詞として使用されるとき、この用語は、現存のデータへのメタデータ(すなわち、記述データ)又は他のデータ(例えば、経験的データ)の算出及び関連付けを意味する。このやり方で生成されたデータが、「属性」である。
コーパス:データファイルなどの事物について、生成日などのその事物についてのデータを除く実質的な部分。コーパスは、そのようでないことが文脈から明らかでない限り、事物の全体を指す。
キュレーション:事物、すなわち本開示におけるデータの分類、変換、保存、及び管理。
取り込み:データの取得及び保存。取り込みのプロセスは、通常は、対象のフォーマット又は分類法への変換又はリファクタリングを含む。
経験属性:科学的な方法にもとづいて属性を与えること。本開示の場合には、アルゴリズム及び数学のプロセス。
方法論:
1.
a.コスト及び許される使用を含むデータの利用可能性;
b.コンテンツの豊富さ、経験的結論を形成ために充分な例を観察するためのケイパビリティ;
c.検討にすでに含まれる事前のソースとの重なり合いの程度;及び
d.データソースにおける既知のバイアス
などの因子を考慮して確立されるべき同意された基準にもとづいていくつかのデータソースを選択。
2.
a.存在;
b.決定的な属性;及び
c.推論された領域における観察の程度
を測定するための自動又は手動/ハイブリッドA/B/Cテストを構築。
3.テストを実行し、且つ
a.単純記述統計学;及び
b.基本視覚化
を含む結果を評価。
4.評価者の楽観主義/悲観主義などのバイアスの尺度。
5.各々の仮説がどの程度観察されたか、及び仮説の基準を呈さない領域の残りの部分に対する全体的な評価への影響について、結論を形成。
結果の評価:
a.選択されたサンプルに対する各々の仮説の影響を判断。
b.関連性を立証できると仮定し、仮説の次元に従って種々のソースを査定するためのスコア付けシステムを開発。
a.他の言語の包含;
b.話し手グループの均質性の影響;
c.話し手グループ内の共有メタファ(環境又は共有体験のいずれかによって導入される);
d.或る言語から他の言語への借用語;及び
e.話し手の多様性(例えば、ネイティブスピーカ対非ネイティブスピーカ、デジタルネイティブ対デジタルイミグラント)
など、観察の期間において現れるさらなる混同態様が存在し得る。
ソーシャルメディアの検討は、体系化されていないデータへのより広い調査の一部である。活動全体は、ビジネス及びビジネスの文脈における人々に関連するデータの発見、キュレーション、及び合成におけるケイパビリティの進行中の開発の一部である。
本開示の主たる焦点は、全リスク及び/又は全機会の全体的な理解に貢献するケイパビリティにある。隣接するニーズは、法の順守、独立及び倫理、並びに不正行為の検出に関する。
図1は、経験属性によるデータソースの取り込み、属性判断、処理戦略の生成、及びエクスポートのためのシステム100のブロック図を示している。システム100は、ネットワーク135へと接続されたコンピュータ105を含む。
ネットワーク135は、データ通信ネットワークである。ネットワーク135は、プライベートネットワーク又はパブリックネットワークであってよく、(a)例えば或る部屋をカバーするパーソナル・エリア・ネットワーク、(b)例えば或る建物をカバーするローカル・エリア・ネットワーク、(c)例えば或るキャンパスをカバーするキャンパス・エリア・ネットワーク、(d)例えば或る都市をカバーするメトロポリタン・エリア・ネットワーク、(e)例えば都市、地方、又は国家の境界をまたいでつながる領域をカバーするワイド・エリア・ネットワーク、又は(f)インターネット、のいずれか又はすべてを含むことができる。通信は、ネットワーク135を介して電子信号及び光信号によって行われる。
コンピュータ105は、プロセッサ110、及びプロセッサ110に接続されたメモリ115を含む。コンピュータ105が、本明細書においてはスタンドアロンのデバイスとして表されているが、そのように限定されるわけではなく、むしろ分散処理システムにおいて図示されていない他のデバイスへと接続されてよい。
プロセッサ110は、命令に応答し且つ命令を実行する論理回路で構成される電子デバイスである。
メモリ115は、コンピュータプログラムがエンコードされた有形のコンピュータにとって読み取り可能な記憶媒体である。この点に関し、メモリ115は、プロセッサ110の動作を制御するためにプロセッサ110によって読み取り可能及び実行可能なデータ及び命令、すなわちプログラムコードを記憶する。メモリ115を、ランダムアクセスメモリ(RAM)、ハードドライブ、読み出し専用メモリ(ROM)、又はこれらの組み合わせにて実現することができる。メモリ115の構成要素の1つは、プログラムモジュール120である。
プログラムモジュール120は、本明細書に記載のプロセスを実行するようにプロセッサ110を制御するための命令を含む。本明細書において、動作がコンピュータ105或いは方法又はプロセス若しくはその下位プロセスによって実行されると説明されるが、それらの動作は、実際にはプロセッサ110によって実行される。
用語「モジュール」は、本明細書において、スタンドアロンの構成要素又は複数の下位の構成要素からなる統合された構成のいずれかとして具現化され得る機能的動作を指して使用される。したがって、プログラムモジュール120は、単一のモジュールとして、或いは互いに協調して動作する複数のモジュールとして実現され得る。さらに、プログラムモジュール120は、本明細書において、メモリ115にインストールされ、したがってソフトウェアにて実現されるものとして説明されるが、ハードウェア(例えば、電子回路)、ファームウェア、ソフトウェア、又はこれらの組み合わせのいずれかにて実現することが可能である。
プログラムモジュール120は、すでにメモリ115へとロードされているものとして示されているが、メモリ115へと後にロードされるように記憶装置140上に位置するように構成されてもよい。記憶装置140は、プログラムモジュール120を記憶する有形のコンピュータにとって読み取り可能な記憶媒体である。記憶装置140の例として、コンパクトディスク、磁気テープ、読み出し専用メモリ、光記憶媒体、ハードドライブ又は複数の並列なハードドライブで構成されるメモリユニット、並びにユニバーサル・シリアル・バス(USB)フラッシュドライブが挙げられる。あるいは、記憶装置140は、ランダムアクセスメモリ、或いは図示されていない遠隔のストレージシステムに位置し、且つネットワーク135を介してコンピュータ105へと接続される他の種類の電子記憶デバイスであってよい。
システム100は、本明細書においてまとめてデータソース150と称され、且つネットワーク135へと通信可能に接続されるデータソース150A及びデータソース150Bを更に含む。実際には、データソース150は、任意の数のデータソース、すなわち1つ以上のデータソースを含むことができる。データソース150は、体系化されていないデータを含み、ソーシャルメディアを含むことができる。
システム100は、ユーザ101によって操作され、且つネットワーク135を介してコンピュータ105へと接続されるユーザデバイス130を更に含む。ユーザデバイス130として、ユーザ101が情報及びコマンドの選択をプロセッサ110へと伝えることを可能にするためのキーボード又は音声認識サブシステムなどの入力デバイスが挙げられる。ユーザデバイス130は、表示装置又はプリンタ或いは音声合成装置などの出力デバイスを更に含む。マウス、トラックボール、又はタッチ感応式画面などのカーソル制御部が、さらなる情報及びコマンドの選択をプロセッサ110へと伝えるために表示装置上でカーソルを操作することをユーザ101にとって可能にする。
プロセッサ110は、プログラムモジュール120の実行の結果122をユーザデバイス130へと出力する。あるいは、プロセッサ110は、出力を例えばデータベース又はメモリなどの記憶装置125へともたらすことができ、或いはネットワーク135を介して図示されていない遠隔のデバイスへともたらすことができる。
システム100を適用することができるワークフローは、例えばデータソース150などの体系化されていないデータソースの受け取り、発見、及びキュレーションに関する。この受け取り、発見、及びキュレーションは、これらに限られるわけではないが、ソーシャルメディアにおける集合的感情についての意見の形成、為されたクレームに関するマーケティング姿勢の変化の理解、なりすまし犯罪又は他の不正行為の発見につながるニュアンスの検出、来たるべき出来事又は行動の前兆となる社会的信号の影響、又は新たな体系化されていないデータの既存のプロセスへの取り込みの増分値の単純な評価、などの多数の使用の事例に役立つ使用の一部であってよい。
図2は、システム100によって実行され、より具体的にはプログラムモジュール120に従うプロセッサ110によって実行される方法200の機能ブロック図である。方法200は、データを受け取り、データソース及びそれらのデータに複数のレベル(すなわち、上述のコンテクストレベル、ソースレベル、及びコンテンツレベル)において属性を与え、且つデータソース及びデータの処理、データ、例えばその特定のサブセットの、1つ以上のダウンストリームのシステムへの伝送、処理についてのフィードバックをもたらすための機能の開始、及びさらなるデータソースの発見及び取り込みを開始するための機能に関する決定を行う全プロセスである。方法200は、1つ以上のソース150からのデータにアクセスしてこれを処理するが、説明を簡単にするため、以下では、方法200の実行を、ただ1つのデータソース、すなわちデータソース150Aの例を使用して説明する。方法200は、プロセス205で始まる。
プロセス205は、上述のように、データソース150Aにアクセスし、データソース150Aを分析し、且つデータソース150Aに複数のレベル、すなわち「コンテクスト」、「ソースファイル」、及び「コンテンツ」の各レベルにおいて属性を与え、且つ処理212を得るためにデータソース150Aに含まれるデータの最も適切な処理を決定する。
図3は、ソース属性レベル及びそれらの階層関係の図式的表示である。
あらゆるソース属性レベル、特にはコンテンツレベルにおいて、属性は、上述の次元、すなわちエンティティ抽出、感情分析、語義明確化、及び言語変換において動作する明確化及び識別機能を含むことができる。さらに、これらの明確化及び識別機能を使用して、プロセス205は、とりわけ上述の混同特性、すなわち皮肉、新語、などによって引き起こされる属性への課題を解決しようと試みる。
図4は、プロセス205の機能ブロック図である。プロセス205は、プロセス405で始まる。
プロセス405は、データソース150Aからデータを受け取り、且つ属性ロジック410に記憶されたルール及び参照情報を使用してデータソース150Aに属性を与え、それによって属性テーブル403を生成する。ルール及び参照情報は、例えば、データがテキストであるか、或いはマルチメディアであるかを判断するためにデータをスキャンするアルゴリズムのセットである。例えば、プロセス405は、データソース150Aを分析し、且つそれが例えば購入されたデータソースなど、第三者のデータソースであり、且つその生成日が2015年1月1日であると判断する。
表1が、属性テーブル403を典型的に表しており、且ついくつかの典型的な属性及びその値を含んでいる。
Figure 0006605022
「ファイルタイプ」は、ソースレベル属性であり、且つファイルのデータタイプを明らかにするためにデータファイルのメタデータ及びコンテンツのスキャンするプロセスの結果としてなされた判定である。他の値は、「画像」、「ビデオ」、「バイナリ」、「未知」、などであり得る。
「区切り」は、データが個々に分けられた列にて収容されているかどうかを判断するためのファイルのスキャンにおいてなされる結論を表す「あり/なし」のフラグである。
この例における「ソース」は、ファイルの供給者を表し、この場合には、データファイルの「作成者」メタデータ(又は、「プロパティ」)から読み取られる。
「生成日」も、ファイルのメタデータから読み出すことが可能である。
「ウェブディスカバリID」は、発見されない属性の例として提示され、機能210(後述)によって開始されるディスカバリプロセスによってファイルへと挿入される明示的なマーカである。
「エンコーディング」も、ファイルのメタデータから読み取られ、且つファイルが作成されたやり方の描写を指す。他の値として、「ASCII」、「BIG5」、「SHIFT−JIS」、「EBCDIC」、などを挙げることができる。
「検出されたスクリプト」は、どんなユニコード範囲がファイルに存在するかを理解するために、メタデータから導出されるのではなく、データそのもののコーパスをスキャンすることによって導出される属性を示すための例として提示される。「C0制御及び基本ラテン」という値は、実際に、標準のラテンデータセットである。
表1に示した属性の種類及び値は、あくまでも例であり、且つ必ずしもシステム100が特定のファイル又はデータに添える属性の種類又は値を表すものではない。システム100を、有用であると考えられる任意のメタデータを生成するように構成することができる。
プロセス415は、
a)エンティティ抽出
b)語義明確化
c)感情分析
d)言語抽出
e)基本メタデータ
(ただし、これらに限られるわけではない)を含み、多数の次元にわたって属性を生成するために、データソース150Aのコーパスを分析する。
また、プロセス415は、データソース150Aにおける「混同特性」の存在及び普及に属性を与え、且つ測定することで、混同特性Q1、Q2、Q3、・・・、Qnを列挙する混同特性テーブル420を生成する。混同特性のいくつかの例は、上述されている。
表2が、混同特性テーブル420の例であり、且つその測定基準及び値のいくつかの例を含んでいる。
Figure 0006605022
表2の例において、値のスケール及び範囲は独立している。一部は、数値であってよく、一部は、利用可能なスコアを生み出すために非算術的な手段を必要とする符号であってよい。
本明細書において列挙及び記述される混同特性の尺度が、完全に独立であり、且つシステムが新たな混同特性を特定して追加するケイパビリティを有する点で、分類が閉鎖的な分類ではないことに、注意すべきである。例えば、上記の表2において、「多言語データ」についてのエントリは、この混同特性の尺度及び影響がシステムの典型的な実施例において未だ特定されていないがゆえに、存在していない。
「新語の広がり」は、データソース150Aのインスタンスをスキャンし、且つどれくらい多くの新語、すなわち新規且つ/又は一般的でない単語が、データソース150Aのコーパスに存在するかを評価するスコアを生成することによって算出されるスコアを表す。この例において、「AX2」は、充分に理解される新語が大量に存在することを表すことができ、「ZA9」は、新語が少ないが、極めて普通でなく、或いは理解できない新語がそのセットに多く存在することを表すことができる。
「文法的変動」は、文法様式の一貫性の尺度である。この測定基準の確立に用いられるアルゴリズムは、CYK法(Cocke−Younger−Kasami algorithm)などの業界標準の手法、又はオーダーメードのアルゴリズム及び尺度、或いはいくつかの尺度を組み合わせるアルゴリズムであってよい。これらの下位尺度は、それ自身が混同特性テーブル420に測定基準として記憶され、その後に混同特性テーブル420の他のエントリを生成するために組み合わせられてよい。
「句読点スコア」は、句読点の存在の尺度である。この例では、検出された句読点が少し又はわずかであり、したがってこの測定基準の値はゼロである。
「感情」は、テキストにおける「話者」が、主題についてポジティブな感情(すなわち、承認、推奨、賛同、など)を伝えているか、ネガティブな感情(すなわち、非難又は不同意)を伝えているか、或いは中立の感情(ポジティブでもネガティブでもなく、或いはおそらくは不確定)を伝えているかを示す。負の数は、ネガティブな感情(非難)を示し、ゼロは、中立の感情を示し、且つ正の数は、ポジティブな感情(支持)を示す。ここでの感情についての例示の値は、−0.5であり、何かが「中程度のネガティブな感情」として表されている可能性を示している。
「スペリングのくせ」は、認識された新語ではないミススペリングの多さの尺度である。ここでの「低」という値は、ミススペリングの割合が低いことを示している。ここで、「ミススペリング」が単に既知の用語集からの逸脱を示すために使用されており、「高」スコアが、紛れもない印刷又はスペリングのミスよりもむしろ、例えば認識されていない適切な名詞が多く存在することを示している可能性があることに、注意すべきである。
「難読化スコア」は、意味を隠すために意図的な企てがなされたように見受けられる程度の尺度であり、テキストの暗号化が、これの単純な例であると考えられる。ここでの値はゼロであり、難読化が検出されていないことを示している。
「メディア均質性」は、データが単一種類のデータ(例えば、テキスト)であるように見受けられるか、或いは混合メディア(例えば、画像又はハイパーリンクが埋め込まれたテキスト)のように見受けられるかを示している。この例では、スコアが1.0であり、ファイルが一種類のメディアだけであることを示している。この情報を、例示のデータファイルが体系化されたコラム状テキストで全面的に構成されていると結論付けるために、プロセス435(後述)によって、プロセス405によって導き出され且つ表1に示される属性と組み合わせることができる。
「フラグメント変動」は、ファイルの個々のユニットのサイズの全体としての一貫性を表す0〜1のスコアである。表2において、0.01というスコアは、フラグメントが極めて一様であることを示している。この例は、極めて体系化されたデータファイルであり、したがって、これは、フラグメントがファイルにおいてラインを表すために、期待値である。例えば140文字の短いメッセージの送信及び読み取りをユーザにとって可能にするオンライン・ソーシャル・ネットワーキング・サービスからのメッセージでいっぱいのファイルは、フラグメントがさまざまであるが、128文字程度である傾向にあるため、中程度のスコアを有するかもしれない。より長い投稿を可能にするソーシャル・ネットワーキング・サービスからのデータについては、フラグメントがこの種のデータ内にあり得る、大きな変動性があるという、極めて高いスコアを有することを想定し得る。
表2に示した測定基準及び値は、あくまでも例であり、必ずしもシステム100が特定のファイル又はデータに結び付ける値を表すものではない。
上述のように、プロセス415は、各々の測定基準について多数の尺度を考慮することができる。例えば、「文法的変動」の測定基準の値を測定するために、いくつかのアルゴリズムを採用することができる。例えば、1つ以上の尺度が、実際に混同特性テーブル420における他の測定基準であってよく、その他のものが、属性テーブル403における値であってよく、或いは属性テーブル403における値を使用して導出されてよい。
下記の表3が、感情のアルゴリズム尺度の3つの例を示している。これらの尺度を、表2における上述の感情スコア全体と組み合わせることができる。
Figure 0006605022
プロセス405及び415の完了後に、プロセス205は、プロセス425へと進む。
プロセス425は、属性テーブル403及び混同特性テーブル420を受け取り、且つ属性テーブル403及び混同特性テーブル420に挙げられた属性へのクオリティ尺度を算出することで、クオリティテーブル432を生成する発見的/決定論的重み付けプロセスである。クオリティテーブル432におけるクオリティ尺度は、重み付けリソース430を参照して生成され、且つ多数の次元にわたるデータソース150Aを評価するスコア、係数、又は重みであってよい。
表4が、クオリティテーブル432の例を示している。表4において、「重み」は、クオリティ尺度であり、且つ重み付けリソース430から得られる。プロセス425が、重みを測定基準へと割り当てる。
Figure 0006605022
表4は、簡単な例である。実際のクオリティ測定は、因子のかなり複雑な組み合わせを考慮することができる。
表4Aが、組み合わせられた因子の使用の例を示している。
Figure 0006605022
表4Aの例において、ソースの測定基準は、既知のデータソース及びそれらのデータソースにそれぞれ割り当てられた重みを列挙する図示されていない別のテーブルにおいて参照されている。この場合にはソース「S1」として認識され且つプロセス425によって割り当てられるこのソースの重みは、10である。しかしながら、プロセス425は、より複雑な特徴の重みを算出することができる。「ソース>古さ」の重み(「ソース」ファミリーの重みに属することを示すために字下げされている)は、ソースS1について働き、且つソースS1におけるデータの古さ(すなわち、どれくらい前にファイルが生成されたか、又は存在するのであれば明示的に指定された日付)にもとづく特定の係数(すなわち、25)を適用して76という重みをもたらす別の重みが存在することを示している。
プロセス425の完了後に、プロセス205は、プロセス435へと進む。
プロセス435は、クオリティテーブル432、混同特性テーブル420、及び属性テーブル403を受け取り、且つデータソース150Aの適切な処理を裁定して処理212を生成するためにルール440を使用する精査/裁定のプロセスである。ルール440は、行列、参照テーブル、スコアカード、非決定性有限状態オートマトン、決定木、或いはこれらの決定ロジック又は他の決定ロジックの任意の組み合わせの形態をとることができる。
処理212は、以下の指示又は勧告、
a)データソース150Aに類似したファイルを全体として取り込むルールを設定する
b)データソース150Aからのファイルを分割し、且つ特定の基準を満たす部分だけを取り込む
c)データソース150Aからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける
d)データソース150Aからのファイルを常に拒絶するルールを設定する
e)データソース150Aからのファイルを仮に取り込むが、追加的な確証を待って保持し、且つ機能210による対象を定めたウェブディスカバリを開始させる
を含むことができる。
表4に示したテーブル432の例は、値及び重みを有する二次元の参照テーブルであるが、これがあくまでも例示にすぎないことにも、注意すべきである。プロセス435は、ルール440を介して、処理212を達成するためにテーブル主導の参照及び非決定性有限状態オートマトンなどの他のプロセスを利用することができる。
再び図2を参照すると、プロセス205の完了後に、方法200は、プロセス215へと進む。
プロセス215は、データソース150A及び処理212の形式でデータを受け取り、且つ抽出データ217を得るために受け取ったデータを細分化及びフィルタ処理するプロセスを実行する。この点に関し、プロセス215は、
a)データソース150Aを選定し、
b)データソース150Aのコンテンツを意味のあるサブセットへと分割し、且つ
c)データソース150Aからのデータをデータの消費者であるダウンストリームプロセス220へと取り込む
ために、プロセス205によって生成されたデータ、すなわち処理212を使用する。
プロセス220が、抽出データ217を受け取り、且つ抽出データ217を図示されていないダウンストリームプロセスへと伝える。
さらに、方法200は、プロセス205を改善するために、経験的、例えば統計にもとづく、且つクオリティ、例えばユーザの受け入れ、のフィードバックを生成し、且つそのフィードバックをプロセス205へと返す機能225を実行する。機能225は、処理212、クオリティテーブル432、混同特性テーブル420、及び属性テーブル403によって知らされる(すなわち、これらから入力を得る)。機能225は、プロセス215による処理212の処理によってトリガされる。
さらに、方法200は、非同期且つ潜在的に継続的なプロセスとして機能210を実行する。機能210は、プロセス205において生成されたデータ、すなわち処理212、クオリティテーブル432、混同特性テーブル420、及び属性テーブル403を使用し、例えば自動化されたウェブディスカバリによって、新規及び既存のデータソース150を検索する。このデータは、自動化されたデータソースディスカバリプロセスを開始させ、誘導し、或いは限定するための、機能210への入力となる。この知能は、例えば「ギャップ識別」(これまでに取り込まれたコーパスにおけるデータが、特には不完全、低クオリティ、又は「老化」ゆえに価値が低くなると観測された領域を識別する)又は「類似物生成」(データソースの同様又は類似のクラスの識別並びにクラスの有効性、一貫性、又は正確さにもとづいてデータソースのクラスを標的とする)の形態をとることができる。
機能210は、外部のデータディスカバリルーチン、アプリケーション、及び機能を設定及び実行する。機能210は、方法200によってすでに受け取られたデータの増加に役立つように、これらのデータディスカバリプロセスへと入力をもたらす。そのような入力の例は、所望のデータを得ることができるウェブサイトのユニフォーム・リソース・ロケータ(URL)、並びにデータソース150Aのコンテンツにもとづく検索語のリストである。
システム100は、新たなデータソース、とりわけ体系化されていないデータの自動的、設定可能、繰り返し可能、且つ適応的な利用を可能にする。システム100は、実行時間において完全に自動化されているため、スケーラブルであり、したがってデータの取得の管理において極めて向上した効率、速度、及び一貫性を可能にする。
方法200の実行の例を説明するために、下記の表5に示されるソースファイルEX1から出発する。
Figure 0006605022
表6は、ソースファイルEX1についての属性テーブル403を示している。
Figure 0006605022
表7は、ソースファイルEX1についての混同特性テーブル420を示している。
Figure 0006605022
データフラグメント「Gonna try the new Coke flavor.NOT.」への混同特性テーブル420の作成において、プロセス415が、表8に示されるラインに沿ったコンテンツの意味解析を含む分析を実行する。
Figure 0006605022
表8に提示される分析は、プロセス415によって実行されたアルゴリズム及び統計分析の脱平易英語(plain English)構築である。この分析は、単語「Gonna」及び「NOT」がそれらの使用のやり方において新語であるが、実際にはそれら自身は新しい単語ではないため、新語の広がりを追加するために使用されたと考えられる。また、これは、新語の広がりについてのスコアが単なる単純な数字ではない理由を示している。新語は、新しい単語及び古い単語の新しい使用の両方に関係する。句読点スコアも、例における句読点の使用によって影響され、すなわち句点及び大文字が一貫的に使用されている。皮肉/誠実範囲は、ここでは極めて関連があり、且つ以前の表明の打ち消し及び皮肉の暗示の両方のための「NOT」の使用によって大きく影響される。このデータは、全体として極めて低い誠実さを有するが、全体構成は、それが否定の意図を明確に伝えることを意図している点で「誠実」である。
表8に提示される分析が、本例のために生成された「略記」であることに、注意すべきである。プロセス415は、語句を切り分け、意味解析を実行し、且つ混同特性を補うために、複数の高度な機能を使用する。また、プロセス415が、ファイル又はデータソースの全体にわたって分析を実行し、且つ結果を記録することに、注意すべきである。
表9は、プロセス435及びルール440の実行の単純化した表現を可能にするために、最も右側の列に示される、ソースファイルEX1についての結果「パーセンテージスコア」を用いてクオリティテーブル432の結果を示している。実際には、算出プロセス及びアルゴリズムは、設定可能であり、且つ通常は表9の例よりもはるかに複雑である。
Figure 0006605022
表10が、処理212の平易英語の解釈を示している。
Figure 0006605022
表10において、項目6は、機能210がこのデータ(又は、将来のこのソースからのデータ)によってトリガされることがないことを示しており、且つ項目7が、機能225が方法100においてソースファイルEX1の処理時に生成されたデータによって開始されることを示していることに、注意すべきである。
本明細書に記載の技術は、あくまでも例であり、本開示についていかなる特定の限定も意味すると解釈されてはならない。当業者であれば種々の代案、組み合わせ、及び変更を考え出すことができることを、理解すべきである。例えば、本明細書に記載のプロセスに関係する工程は、特に指定又は工程そのものによって決定されない限り、任意の順序で実行可能である。本開示は、添付の特許請求の範囲の技術的範囲に含まれるすべての代案、変更、及び変化を包含するように意図される。
用語「・・・を備える」又は「・・・を備えている」は、そこで述べられている特徴、完全体、工程、又は構成要素が存在することを指定しているが、1つ以上の他の特徴、完全体、工程、又は構成要素、或いはそれらのグループの存在を排除してはいないと、解釈されるべきである。用語「a」及び「an」は、不定冠詞であり、したがって、それを複数有する実施形態を排除するものではない。

Claims (19)

  1. 第1のデータソースからデータを受け取る受取手順と、
    ルールに従って前記第1のデータソースの属性をコンテクストレベル、ソースファイルレベル、コンテンツレベルで判断し、それによって前記第1のデータソースの属性を得る属性取得手順と、
    前記データの意味を混同させる前記データの特性を特定するために前記データを分析し、それによって前記第1のデータソースの混同特性を得る混同特性取得手順と、
    前記第1のデータソースの前記属性のクオリティ尺度を算出し、それによって前記第1のデータソースの重み付けされた属性を得る属性重み付け手順と、
    前記第1のデータソースの混同特性のクオリティ尺度を算出し、それによって前記第1のデータソースの重み付けされた混同特性を得る混同特性重み付け手順と、
    処理指示を含んだ処理を生成するために、前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性を分析する処理生成手順と、
    前記処理指示に従って前記データを処理し、それによって抽出されたデータを得る抽出手順と、
    前記抽出されたデータをダウンストリームプロセスへと伝送する伝送手順と、
    前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性を用いて、自動化されたデータソースディスカバリプロセスのシードとして前記第1のデータソースを使用するか否かを判定し、使用すると判定した場合には、前記第1のデータソースの内容に基づく検索語を用い、自動化されたデータソースディスカバリプロセスを実行し、第2のデータソースを発見する、発見手順と
    をコンピュータが実行する方法。
  2. 前記処理にもとづいてフィードバックを生成するフィードバック生成手順と、
    前記フィードバックにもとづいて、前記受取手順、前記属性取得手順、前記混同特性取得手順、前記属性重み付け手順、前記混同特性重み付け手順及び前記処理生成手順の少なくともいずれかを改善する改善手順と、
    を更にコンピュータが実行する、請求項1に記載の方法。
  3. 前記発見手順において、前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性をさらに用いて、前記第2のデータソースを発見する、請求項1又は2に記載の方法。
  4. 前記混同特性取得手順において、前記分析は、エンティティ抽出、語義明確化、感情分析、言語抽出、言語変換、及び基本メタデータの少なくともいずれかを含む、請求項1から3のいずれかに記載の方法。
  5. 前記混同特性は、皮肉、新語、文法変化、不適切な表現のテキスト、句読点、多言語データ、スペリング、難読化、暗号化、コンテクスト、及びメディアの組み合わせの少なくともいずれかを含む、請求項1から4のいずれかに記載の方法。
  6. 前記処理は、(a)前記第1のデータソースに類似したファイルを全体として取り込むルールを設定する、(b)前記第1のデータソースからのファイルを分割し、特定の基準を満たす部分だけを取り込む、(c)前記第1のデータソースからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける、(d)前記第1のデータソースからのファイルを常に拒絶するルールを設定する、及び(e)前記第1のデータソースからのファイルを仮に取り込むが、さらなる確証を待って保持する、の少なくともいずれかを含む、請求項1から5のいずれかに記載の方法。
  7. プロセッサと、
    前記プロセッサによる読み取りが可能である命令を含むメモリと
    を備えており、
    前記命令は、
    第1のデータソースからデータを受け取る受取手順と、
    ルールに従って前記第1のデータソースの属性をコンテクストレベル、ソースファイルレベル、コンテンツレベルで判断し、それによって前記第1のデータソースの属性を得る属性取得手順と、
    前記データの意味を混同させる前記データの特性を特定するために前記データを分析し、それによって前記第1のデータソースの混同特性を得る混同特性取得手順と、
    前記第1のデータソースの前記属性のクオリティ尺度を算出し、それによって前記第1のデータソースの重み付けされた属性を得る属性重み付け手順と、
    前記第1のデータソースの混同特性のクオリティ尺度を算出し、それによって前記第1のデータソースの重み付けされた混同特性を得る混同特性重み付け手順と、
    処理指示を含んだ処理を生成するために、前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性を分析する処理生成手順と、
    前記処理指示に従って前記データを処理し、それによって抽出されたデータを得る抽出手順と、
    前記抽出されたデータをダウンストリームプロセスへと伝送する伝送手順と、
    前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性を用いて、自動化されたデータソースディスカバリプロセスのシードとして前記第1のデータソースを使用するか否かを判定し、使用すると判定した場合には、前記第1のデータソースの内容に基づく検索語を用い、自動化されたデータソースディスカバリプロセスを実行し、第2のデータソースを発見する、発見手順と
    を含む方法を前記プロセッサに実行させる、システム。
  8. 前記命令は、
    前記処理にもとづいてフィードバックを生成するフィードバック生成手順と、
    前記フィードバックにもとづいて、前記受取手順、前記属性取得手順、前記混同特性取得手順、前記属性重み付け手順、前記混同特性重み付け手順及び前記処理生成手順の少なくともいずれかを改善する改善手順と、
    を前記プロセッサに更に実行させる、請求項7に記載のシステム。
  9. 前記発見手順において、前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性をさらに用いて、前記第2のデータソースを発見する、請求項7又は8に記載のシステム。
  10. 前記混同特性取得手順において、前記分析は、エンティティ抽出、語義明確化、感情分析、言語抽出、言語変換、及び基本メタデータの少なくともいずれかを含む、請求項7から9のいずれかに記載のシステム。
  11. 前記混同特性は、皮肉、新語、文法変化、不適切な表現のテキスト、句読点、多言語データ、スペリング、難読化、暗号化、コンテクスト、及びメディアの組み合わせの少なくともいずれかを含む、請求項7から10のいずれかに記載のシステム。
  12. 前記処理は、(a)前記第1のデータソースに類似したファイルを全体として取り込むルールを設定する、(b)前記第1のデータソースからのファイルを分割し、且つ特定の基準を満たす部分だけを取り込む、(c)前記第1のデータソースからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける、(d)前記第1のデータソースからのファイルを常に拒絶するルールを設定する、及び(e)前記第1のデータソースからのファイルを仮に取り込むが、さらなる確証を待って保持する、の少なくともいずれかを含む、請求項7から11のいずれかに記載のシステム。
  13. 第1のデータソースからデータを受け取る受取手順と、
    ルールに従って前記第1のデータソースの属性をコンテクストレベル、ソースファイルレベル、コンテンツレベルで判断し、それによって前記第1のデータソースの属性を得る属性取得手順と、
    前記データの意味を混同させる前記データの特性を特定するために前記データを分析し、それによって前記第1のデータソースの混同特性を得る混同特性取得手順と、
    前記第1のデータソースの前記属性のクオリティ尺度を算出し、それによって前記第1のデータソースの重み付けされた属性を得る属性重み付け手順と、
    前記第1のデータソースの混同特性のクオリティ尺度を算出し、それによって前記第1のデータソースの重み付けされた混同特性を得る混同特性重み付け手順と、
    処理指示を含んだ処理を生成するために、前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性を分析する処理生成手順と、
    前記処理指示に従って前記データを処理し、それによって抽出されたデータを得る抽出手順と、
    前記抽出されたデータをダウンストリームプロセスへと伝送する伝送手順と、
    前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性を用いて、自動化されたデータソースディスカバリプロセスのシードとして前記第1のデータソースを使用するか否かを判定し、使用すると判定した場合には、前記第1のデータソースの内容に基づく検索語を用い、自動化されたデータソースディスカバリプロセスを実行し、第2のデータソースを発見する、発見手順と
    をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶装置。
  14. 前記処理にもとづいてフィードバックを生成するフィードバック生成手順と、
    前記フィードバックにもとづいて、前記受取手順、前記属性取得手順、前記混同特性取得手順、前記属性重み付け手順、前記混同特性重み付け手順及び前記処理生成手順の少なくともいずれかを改善する改善手順と、
    を前記コンピュータに更に実行させるためのプログラムを記録した、請求項13に記載の記憶装置。
  15. 前記発見手順において、前記第1のデータソースの前記重み付けされた属性及び前記第1のデータソースの前記重み付けされた混同特性をさらに用いて、前記第2のデータソースを発見する、
    請求項13又は14に記載の記憶装置。
  16. 前記混同特性取得手順において、前記分析は、エンティティ抽出、語義明確化、感情分析、言語抽出、言語変換、及び基本メタデータの少なくともいずれかを含む、請求項13から15のいずれかに記載の記憶装置。
  17. 前記混同特性は、皮肉、新語、文法変化、不適切な表現のテキスト、句読点、多言語データ、スペリング、難読化、暗号化、コンテクスト、及びメディアの組み合わせの少なくともいずれかを含む、請求項13から16のいずれかに記載の記憶装置。
  18. 前記処理は、(a)前記第1のデータソースに類似したファイルを全体として取り込むルールを設定する、(b)前記第1のデータソースからのファイルを分割し、且つ特定の基準を満たす部分だけを取り込む、(c)前記第1のデータソースからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける、(d)前記第1のデータソースからのファイルを常に拒絶するルールを設定する、及び(e)前記第1のデータソースからのファイルを仮に取り込むが、さらなる確証を待って保持する、の少なくともいずれかを含む、請求項13から17のいずれかに記載の記憶装置。
  19. 請求項1から6のいずれかに記載の方法に含まれる各手順をコンピュータに実行させるプログラム。
JP2017512333A 2014-09-03 2015-09-03 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス Active JP6605022B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462045398P 2014-09-03 2014-09-03
US62/045,398 2014-09-03
PCT/US2015/048322 WO2016036940A1 (en) 2014-09-03 2015-09-03 System and process for analyzing, qualifying and ingesting sources of unstructured data via empirical attribution

Publications (2)

Publication Number Publication Date
JP2017527913A JP2017527913A (ja) 2017-09-21
JP6605022B2 true JP6605022B2 (ja) 2019-11-13

Family

ID=55402706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017512333A Active JP6605022B2 (ja) 2014-09-03 2015-09-03 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス

Country Status (11)

Country Link
US (1) US10621182B2 (ja)
EP (1) EP3189478A4 (ja)
JP (1) JP6605022B2 (ja)
KR (1) KR101991086B1 (ja)
CN (1) CN107077640B (ja)
AU (1) AU2015311934B2 (ja)
CA (1) CA2959651C (ja)
PH (1) PH12017500366A1 (ja)
RU (1) RU2674331C2 (ja)
SG (2) SG10201901913XA (ja)
WO (1) WO2016036940A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318591B2 (en) * 2015-06-02 2019-06-11 International Business Machines Corporation Ingesting documents using multiple ingestion pipelines
US11093318B2 (en) 2017-06-23 2021-08-17 International Business Machines Corporation Data integration process refinement and rejected data correction
US20190385241A1 (en) * 2018-06-18 2019-12-19 Adp, Llc Bill payment mechanism for payroll deduction
US11163737B2 (en) * 2018-11-21 2021-11-02 Google Llc Storage and structured search of historical security data
US20200175028A1 (en) * 2018-12-04 2020-06-04 Owned Outcomes Inc. System and method for ingesting data
US12008320B2 (en) 2020-11-06 2024-06-11 The Dun And Bradstreet Corporation System and method for email signature extraction from unstructured text
CN113901094B (zh) * 2021-09-29 2022-08-23 北京百度网讯科技有限公司 一种数据处理方法、装置、设备及存储介质
US20240144275A1 (en) * 2022-10-28 2024-05-02 Hint, Inc. Real-time fraud detection using machine learning

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2951307B1 (ja) * 1998-03-10 1999-09-20 株式会社ガーラ 電子掲示板システム
US7055095B1 (en) * 2000-04-14 2006-05-30 Picsel Research Limited Systems and methods for digital document processing
WO2002005061A2 (en) 2000-07-06 2002-01-17 David Paul Felsher Information record infrastructure, system and method
US7778849B1 (en) 2000-11-06 2010-08-17 Golden Hour Data Systems, Inc. Data accuracy filter for integrated emergency medical transportation database system
US7464097B2 (en) * 2002-08-16 2008-12-09 Sap Ag Managing data integrity using a filter condition
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
CA2556023A1 (en) 2004-02-20 2005-09-09 Dow Jones Reuters Business Interactive, Llc Intelligent search and retrieval system and method
JP2008506165A (ja) * 2004-06-18 2008-02-28 リール・トゥー・リミテッド データ集合の目録作成および探索のための方法およびシステム
US7392229B2 (en) * 2005-02-12 2008-06-24 Curtis L. Harris General purpose set theoretic processor
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US20080005194A1 (en) * 2006-05-05 2008-01-03 Lockheed Martin Corporation System and method for immutably cataloging and storing electronic assets in a large scale computer system
US20080208820A1 (en) * 2007-02-28 2008-08-28 Psydex Corporation Systems and methods for performing semantic analysis of information over time and space
RU2480822C2 (ru) 2007-08-31 2013-04-27 Майкрософт Корпорейшн Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка
CN100587693C (zh) * 2007-10-30 2010-02-03 金蝶软件(中国)有限公司 从多个数据源获取数据的方法及***
JP4922240B2 (ja) 2008-06-04 2012-04-25 ヤフー株式会社 Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム
US20100179930A1 (en) * 2009-01-13 2010-07-15 Eric Teller Method and System for Developing Predictions from Disparate Data Sources Using Intelligent Processing
US8370275B2 (en) * 2009-06-30 2013-02-05 International Business Machines Corporation Detecting factual inconsistencies between a document and a fact-base
US10387564B2 (en) 2010-11-12 2019-08-20 International Business Machines Corporation Automatically assessing document quality for domain-specific documentation
US9002755B2 (en) * 2013-02-05 2015-04-07 scenarioDNA System and method for culture mapping
CN103544255B (zh) * 2013-10-15 2017-01-11 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
US9483768B2 (en) * 2014-08-11 2016-11-01 24/7 Customer, Inc. Methods and apparatuses for modeling customer interaction experiences

Also Published As

Publication number Publication date
CN107077640A (zh) 2017-08-18
RU2674331C2 (ru) 2018-12-06
CN107077640B (zh) 2021-07-06
AU2015311934B2 (en) 2020-09-24
RU2017110788A3 (ja) 2018-10-03
CA2959651A1 (en) 2016-03-10
AU2015311934A1 (en) 2017-04-06
JP2017527913A (ja) 2017-09-21
EP3189478A1 (en) 2017-07-12
PH12017500366A1 (en) 2017-07-17
SG11201701613YA (en) 2017-03-30
KR101991086B1 (ko) 2019-06-20
CA2959651C (en) 2021-04-20
US10621182B2 (en) 2020-04-14
WO2016036940A1 (en) 2016-03-10
EP3189478A4 (en) 2018-03-07
KR20170046772A (ko) 2017-05-02
BR112017004341A2 (pt) 2017-12-05
RU2017110788A (ru) 2018-10-03
SG10201901913XA (en) 2019-04-29
US20160063001A1 (en) 2016-03-03

Similar Documents

Publication Publication Date Title
JP6605022B2 (ja) 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
Mostafa Clustering halal food consumers: A Twitter sentiment analysis
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
Aisopos et al. Content vs. context for sentiment analysis: a comparative analysis over microblogs
Derczynski et al. Pheme: Veracity in Digital Social Networks.
Chen et al. Emoji-powered sentiment and emotion detection from software developers’ communication data
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
JP6776310B2 (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
Rezvan et al. Analyzing and learning the language for different types of harassment
US9244910B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Syaifudin et al. Twitter data mining for sentiment analysis on peoples feedback against government public policy
US20230205796A1 (en) Method and system for document retrieval and exploration augmented by knowledge graphs
Tassone et al. Utilizing deep learning and graph mining to identify drug use on Twitter data
Nirmala et al. Twitter data analysis for unemployment crisis
Reyero Lobo et al. Semantic Web technologies and bias in artificial intelligence: A systematic literature review
Theophilo et al. Explainable artificial intelligence for authorship attribution on social media
US10223756B2 (en) Electronic message redacting
Rawat et al. Detection of fake news using machine learning
Pan et al. Improving authorship attribution in twitter through topic-based sampling
Saha et al. Application of Factor Graph Model in Stress Detection Using Social Network Messages
Samory et al. Content attribution ignoring content
Wong et al. Language independent models for COVID-19 fake news detection: Black box versus white box models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170517

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170328

A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20170426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191015

R150 Certificate of patent or registration of utility model

Ref document number: 6605022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250