JP6605022B2

JP6605022B2 - 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス

Info

Publication number: JP6605022B2
Application number: JP2017512333A
Authority: JP
Inventors: スクリフィニャーノ、アンソニー、ジェー．; サンバーニッチ、イェーム; デービス、ロビン、フライ; マシューズ、ウォーウィック
Original assignee: Dun and Bradstreet Corp
Current assignee: Dun and Bradstreet Corp
Priority date: 2014-09-03
Filing date: 2015-09-03
Publication date: 2019-11-13
Anticipated expiration: 2035-09-03
Also published as: CN107077640A; RU2674331C2; CN107077640B; AU2015311934B2; RU2017110788A3; CA2959651A1; AU2015311934A1; JP2017527913A; EP3189478A1; PH12017500366A1; SG11201701613YA; KR101991086B1; CA2959651C; US10621182B2; WO2016036940A1; EP3189478A4; KR20170046772A; BR112017004341A2; RU2017110788A; SG10201901913XA

Description

（関連出願）
本出願は、２０１４年９月３日に出願された米国特許仮出願第６２／０４５，３９８号の優先権を主張しており、この米国特許仮出願の内容は、ここでの言及によって本明細書に援用される。

本開示は、キュレーションが不充分又は体系化が不充分であり、体系化されておらず、或いは不完全な体系化のソース、とりわけソーシャルメディアソースからのデータについて、記述的及び文脈的な属性を生成するために、本明細書においてケイパビリティとも称される新規であり、経験的であり、すなわち科学的且つ再現可能である属性判断及び弁別のプロセスを採用するシステムに関する。次いで、属性は、既存の再帰的−完結相なプロセス及び様態を越える方法を用いて、データの最も適切な処置又は処理について、特徴を明らかにし、精査し、弁別し、且つ決定を最終的に行うために使用される。本開示が取り組む固有の問題は、取り込み及びキュレーションのプロセスを体系化するための充分な概念体系又は標準形が存在しないときのスケールにおいてデータを一貫して精査し、裁定し、且つ取り込むことが、現時点において不可能であることである。

本明細書に記載されるケイパビリティは、オンラインソースから直接ダウンロードされるファイルから取得されるデータの処理、又は何らかの目的で取り込まれ、処理され、且つ使用されるデータを提供する、エンドユーザ、システム、アプリケーション、又は任意の方法によって開始される照合への応答に利用可能である。この場合、「何らかの目的での処理及び使用」は、データを利用し、ケイパビリティからの恩恵にあずかり、すなわち推論を導き出し、パターンの観察を促進し、より良好、より迅速、より効率的、又はシステム又は機能の文脈においてデータの価値を高める方向のやり方で機能する任意のダウンストリームのシステム又は機能であってよい。

このケイパビリティは、コンテクストレベル、ソースファイルレベル、又はコンテンツレベルにおいて運用することができ、且つプロセスそのものの以前の反復収集された経験によって通知され得る。「コンテクストレベル」属性は、データソースの取得及び取り込みの周囲の状況のレベルにおいて運用する。「ソースファイルレベル」属性は、典型的には、それだけに限らないが、ソースによって供給され、或いはソースから取得されたままのデータのファイルのレベルにおいて運用する。「コンテンツレベル」属性は、基本データレベルにおいて働き、且つ典型的には、それだけに限らないが、個々のデータ要素及び／又はそれらの間の関係の分析にもとづく。

「コンテクストレベル」属性の例は、特定のソースからのデータがもたらされる頻度、及びそのソースにおけるデータの「保存期限」、すなわち典型的にはどれくらい長くデータが「現在の」データであると考えられるかを表すためのメタデータの生成であると考えられる。「ソースファイルレベル」属性の例は、例えば生成日など、ファイルそのものからのメタデータを調べることであると考えられる。「コンテンツレベル」属性の例は、例えば簡体字中国語など、データを表すために用いられた記述システムの検出であると考えられる。

業界の推定では、新しいデータの生成のうちの８０％超が体系化されていないことを示している。ますます、体系化されておらず或いは大まかにしか理解されていないフォーマットとなるデータから充分な価値を引き出し、或いは反対に、データの現存するキュレーション済みのコーパスへと追加され、若しくは意思決定のビジネス機能などの特定の使用の事例へと供給された場合に、不正確、ミスリード、又は有害であると最終的に判明するデータの増加を回避するために、そのデータを、重要であるが必ずしもあらかじめ定められておらず、且つ／又は既知の次元に沿って測定される基準に照らして、事前に選別できることが重要である。事前の選別の利点は、特定の試験に合格せず、或いは充分に高いクオリティレベルを記録しないデータが拒絶され、有害な影響の恐れが軽減されることにある。さらなる利点は、リソースの制約又は他の考慮事項ゆえに新たなデータのすべての利用可能なソースを取り込むことが許されない場合に、キュレーションの努力を補助し、場合によっては指揮することであると考えられる。用語「クオリティ」が、ここでは特定の目的のための任意の合致尺度を意味して使用され、必ずしも特定の固有の値を意味しないことに、注意すべきである。

体系化されていないデータについて明確化及び弁別の機能を実行するために、
ａ）エンティティ抽出−テキストから名詞、動詞、及び修飾語などの関心の対象の個々の構成要素を導出する
ｂ）感情分析−コンテンツの意図された語調及び感情へと属性を与える
ｃ）語義明確化−テキストをより計算可能な構成体へと還元する（例えば、トークン化）
ｄ）言語変換−自然言語処理（ＮＬＰ）による書き換え、翻訳、及び解釈を含む
を含む種々の技術が現れてきている。

上述のリスク及び軽減の必要性は、データそのものが、決まった体系化をなされていない主要部分、或いは「フリーテキスト」な構成要素を常に有し、限られたサイズであり、「クラウド起源」であり、すなわち検証されない参加者の無制限の集団に由来し、１つ以上の「混合特性」を含む可能性が高いソーシャルメディアデータである場合に、特に当てはまる。

これらの混合特性のいくつかの例は、下記の通りである。
ａ）皮肉：通り一遍の解釈からもたらされる意味とは反対の隠された意味を伝達するようなやり方で並べられた単語又は述語
・例：ＸＹＺＯｉｌＣｏ．は、あなたが自然破壊を好むならばビジネス相手として優れた企業だ。
ｂ）新語：新たに作られ、且つ何らかの共有の意味を有するように集合的に理解される単語又は語句
・例：−ハッシュタグ
ｃ）文法変化又は不適切な表現のテキスト：意図的又は意図的でないが誤りであり、曖昧又は確定しない解釈につながる単語の使用
・例：ＦＢＩは爆発物でテロリストを追っている。
ｄ）句読点：曖昧又は矛盾する解釈につながる非標準的又は一貫性のないやり方での句読点の使用或いは句読点の欠如
・例：「新芽及び葉を食す（Ｅａｔｓｓｈｏｏｔｓａｎｄｌｅａｖｅｓ）」対「食べて、シュートして、去る（Ｅａｔｓ，ｓｈｏｏｔｓ，ａｎｄｌｅａｖｅｓ）」
ｅ）多言語データ：外国語からの単語及び語句の挿入（公式、非公式、及び口語体の外来語、外来表現、及び翻訳借用語句を含む）
・例：彼は、彼の意図を完全に理解することを難しくする言葉では言い表せない何かを有していた。
ｆ）スペリング：一貫性を欠き、誤っており、或いは確定しない解釈につながる創作され、誤っており、或いは借用されたスペリング
・例：そこにいるの？（ＲＵＴｈｅｒｅ？）
ｇ）難読化／暗号化：推論又は解釈を混乱させるデータの意図的な変換
ｈ）コンテクスト：データそのものにおいてもたらされるコンテクストの不足ゆえに、外的連続性又は外部に保持されるテキストへの依存が大きくなること
・例：「彼のスライスは最高だった！」［ケーキ？ピザ？テニスのショット？］
ｉ）マルチメディア：テキスト及び他のメディア形式が１つのメッセージ又はデータにおいて組み合わせられ、全体として理解しなければ曖昧又は理解し得ない意味を生み出している
・例：「我々がＸＹＺＢｅｖｅｒａｇｅＣｏ．の新たな味と考えるものはこれだ」と書き添えられたピクチャ

この項において説明される手法は、追求され得た手法であるが、必ずしもこれまでに想像又は追求されていた手法ではない。したがって、この項において説明される手法は、本出願の特許請求の範囲に対する先行技術ではないかもしれず、且つこの項に含まれることによって先行技術であるとは認められない。

既存のシステムは、上述の機能（エンティティ抽出、感情分析、語義明確化、言語変換、など）の実行、したがってデータの評価及び試験を試みることができるが、特定のソースからのデータによる先験的な経験がないと、どんな試験及び測定基準を採用するかを知ることが極めて困難である。したがって、弁別及び意思決定の充分に効果的且つ再現可能なレベルを生み出すために、体系化されていないデータ、ソーシャルメディア、及び他の同様のデータを取り込もうとするシステムは、システムを事前の経験にもとづいて設定変更することができる再帰的なやり方で、そのようにすることができる。そのようなシステムは、将来の結果に影響を与える事後のクオリティフィードバックを使用して、「フィードバック・トゥ・ホスト（ｆｅｅｄｂａｃｋｔｏｈｏｓｔ）」としても知られる閉ループのシナリオも実行することができる。しかしながら、これらのシステムは、実行が常に手作業であり、たとえ「機械学習」が採用される場合でも、それは最も基本的な経験のレベルに限られ、すなわち詳細なデータそのものの頻度及び語義の分析にもとづくだけであるため、スケーラビリティ及び自動化における限界に直面する。また、上述した言語の混同特性の影響に起因する限界も存在する。

（ａ）データソースからデータを受け取ることと、（ｂ）ルールに従ってデータソースの属性を判断し、それによって属性を得ることと、（ｃ）データにおける混同特性を特定するためにデータを分析することと、（ｄ）属性のクオリティ尺度を算出し、それによって重み付けされた属性を得ることと、（ｅ）混同特性のクオリティ尺度を算出し、それによって重み付けされた混同特性を得ることと、（ｆ）処理を生成するために、重み付けされた属性及び重み付けされた混同特性を分析することと、（ｇ）処理に従ってデータをフィルタ処理し、それによって抽出されたデータを得ること、及び（ｈ）抽出されたデータをダウンストリームプロセスへと渡すことと、を含む方法が提供される。また、本方法を実行するシステム、及び本方法を実行するようにプロセッサを制御するための命令を含んでいる記憶装置も、提供される。

本明細書に記載の技術は、先行技術では対処されないケイパビリティを含む。具体的には、本明細書に記載の技術は、属性の新たな次元を使用する方法論を提供し、順にデータの取得の意思決定の新たな自動化された実行を可能にすることで、先行技術にもとづく手法を用いたときに可能であるよりもより高速、よりスケーラブル、より柔軟、且つより一貫性のあるシステムの構築を可能にする。

経験属性によるデータソースの取り込み、属性判断、処理戦略の生成、及びエクスポートのためのシステムのブロック図を示している。

図１のシステムによって実行される方法の機能ブロック図である。

ソース属性レベル及びそれらの階層関係の図式的表示である。

図２に示した方法の一部であるプロセスの機能ブロック図である。

２つ以上の図に共通の構成要素又は特徴は、各々の図において同じ参照番号で示されている。

取り込みに先立ってデータソースを分析及び選定しようとする既存のプロセスを改善するニーズが存在する。このニーズを満たすために、（ａ）複数のレベルにおいて、ソースから取得するデータに属性を与えることと、（ｂ）ソースから、もしあればいくつかの次元にわたって与えられた属性を測定する基準に基づき、データの限定的なサブセットを抽出するための処理ルールを生成し、それによって適切なデータを抽出すること、（ｃ）選定されたデータを取り込むこと、及び（ｄ）フィードバックを入手し、且つフィードバックにもとづいてシステムに変更をもたらすことと、を含む方法を実行するシステムが提供される。

このように、本明細書は、ソースデータに属性を与え、とりわけ属性にもとづいて決定を行い、データを取り込み、取り込みについてシステムの経験（この経験は、システムによって記録され、且つプロセスそのものの新たな属性として保存されると考えられる）にもとづくフィードバックを入手するための自動化されたシステム及び方法を開示する。本方法は、人間の介在を必要とすることなく実行されることによって、一貫性及びスケーラビリティを可能にするとともに、人間が適切なデータ管理に影響を及ぼすために洞察又は追加のリサーチが必要とされる状況に集中することを可能にする。用語「スケーラビリティ」は、この手法が特定の技術又は技術的解決策に限られないことを意味する。

以下のいくつかの段落に、本明細書において使用されているいくつかの用語の定義が存在する。

属性：動詞として使用されるとき、この用語は、現存のデータへのメタデータ（すなわち、記述データ）又は他のデータ（例えば、経験的データ）の算出及び関連付けを意味する。このやり方で生成されたデータが、「属性」である。

コーパス：データファイルなどの事物について、生成日などのその事物についてのデータを除く実質的な部分。コーパスは、そのようでないことが文脈から明らかでない限り、事物の全体を指す。

キュレーション：事物、すなわち本開示におけるデータの分類、変換、保存、及び管理。

取り込み：データの取得及び保存。取り込みのプロセスは、通常は、対象のフォーマット又は分類法への変換又はリファクタリングを含む。

経験属性：科学的な方法にもとづいて属性を与えること。本開示の場合には、アルゴリズム及び数学のプロセス。

方法論：
１．
ａ．コスト及び許される使用を含むデータの利用可能性；
ｂ．コンテンツの豊富さ、経験的結論を形成ために充分な例を観察するためのケイパビリティ；
ｃ．検討にすでに含まれる事前のソースとの重なり合いの程度；及び
ｄ．データソースにおける既知のバイアス
などの因子を考慮して確立されるべき同意された基準にもとづいていくつかのデータソースを選択。
２．
ａ．存在；
ｂ．決定的な属性；及び
ｃ．推論された領域における観察の程度
を測定するための自動又は手動／ハイブリッドＡ／Ｂ／Ｃテストを構築。
３．テストを実行し、且つ
ａ．単純記述統計学；及び
ｂ．基本視覚化
を含む結果を評価。
４．評価者の楽観主義／悲観主義などのバイアスの尺度。
５．各々の仮説がどの程度観察されたか、及び仮説の基準を呈さない領域の残りの部分に対する全体的な評価への影響について、結論を形成。

結果の評価：
ａ．選択されたサンプルに対する各々の仮説の影響を判断。
ｂ．関連性を立証できると仮定し、仮説の次元に従って種々のソースを査定するためのスコア付けシステムを開発。

ａ．他の言語の包含；
ｂ．話し手グループの均質性の影響；
ｃ．話し手グループ内の共有メタファ（環境又は共有体験のいずれかによって導入される）；
ｄ．或る言語から他の言語への借用語；及び
ｅ．話し手の多様性（例えば、ネイティブスピーカ対非ネイティブスピーカ、デジタルネイティブ対デジタルイミグラント）
など、観察の期間において現れるさらなる混同態様が存在し得る。

ソーシャルメディアの検討は、体系化されていないデータへのより広い調査の一部である。活動全体は、ビジネス及びビジネスの文脈における人々に関連するデータの発見、キュレーション、及び合成におけるケイパビリティの進行中の開発の一部である。

本開示の主たる焦点は、全リスク及び／又は全機会の全体的な理解に貢献するケイパビリティにある。隣接するニーズは、法の順守、独立及び倫理、並びに不正行為の検出に関する。

図１は、経験属性によるデータソースの取り込み、属性判断、処理戦略の生成、及びエクスポートのためのシステム１００のブロック図を示している。システム１００は、ネットワーク１３５へと接続されたコンピュータ１０５を含む。

ネットワーク１３５は、データ通信ネットワークである。ネットワーク１３５は、プライベートネットワーク又はパブリックネットワークであってよく、（ａ）例えば或る部屋をカバーするパーソナル・エリア・ネットワーク、（ｂ）例えば或る建物をカバーするローカル・エリア・ネットワーク、（ｃ）例えば或るキャンパスをカバーするキャンパス・エリア・ネットワーク、（ｄ）例えば或る都市をカバーするメトロポリタン・エリア・ネットワーク、（ｅ）例えば都市、地方、又は国家の境界をまたいでつながる領域をカバーするワイド・エリア・ネットワーク、又は（ｆ）インターネット、のいずれか又はすべてを含むことができる。通信は、ネットワーク１３５を介して電子信号及び光信号によって行われる。

コンピュータ１０５は、プロセッサ１１０、及びプロセッサ１１０に接続されたメモリ１１５を含む。コンピュータ１０５が、本明細書においてはスタンドアロンのデバイスとして表されているが、そのように限定されるわけではなく、むしろ分散処理システムにおいて図示されていない他のデバイスへと接続されてよい。

プロセッサ１１０は、命令に応答し且つ命令を実行する論理回路で構成される電子デバイスである。

メモリ１１５は、コンピュータプログラムがエンコードされた有形のコンピュータにとって読み取り可能な記憶媒体である。この点に関し、メモリ１１５は、プロセッサ１１０の動作を制御するためにプロセッサ１１０によって読み取り可能及び実行可能なデータ及び命令、すなわちプログラムコードを記憶する。メモリ１１５を、ランダムアクセスメモリ（ＲＡＭ）、ハードドライブ、読み出し専用メモリ（ＲＯＭ）、又はこれらの組み合わせにて実現することができる。メモリ１１５の構成要素の１つは、プログラムモジュール１２０である。

プログラムモジュール１２０は、本明細書に記載のプロセスを実行するようにプロセッサ１１０を制御するための命令を含む。本明細書において、動作がコンピュータ１０５或いは方法又はプロセス若しくはその下位プロセスによって実行されると説明されるが、それらの動作は、実際にはプロセッサ１１０によって実行される。

用語「モジュール」は、本明細書において、スタンドアロンの構成要素又は複数の下位の構成要素からなる統合された構成のいずれかとして具現化され得る機能的動作を指して使用される。したがって、プログラムモジュール１２０は、単一のモジュールとして、或いは互いに協調して動作する複数のモジュールとして実現され得る。さらに、プログラムモジュール１２０は、本明細書において、メモリ１１５にインストールされ、したがってソフトウェアにて実現されるものとして説明されるが、ハードウェア（例えば、電子回路）、ファームウェア、ソフトウェア、又はこれらの組み合わせのいずれかにて実現することが可能である。

プログラムモジュール１２０は、すでにメモリ１１５へとロードされているものとして示されているが、メモリ１１５へと後にロードされるように記憶装置１４０上に位置するように構成されてもよい。記憶装置１４０は、プログラムモジュール１２０を記憶する有形のコンピュータにとって読み取り可能な記憶媒体である。記憶装置１４０の例として、コンパクトディスク、磁気テープ、読み出し専用メモリ、光記憶媒体、ハードドライブ又は複数の並列なハードドライブで構成されるメモリユニット、並びにユニバーサル・シリアル・バス（ＵＳＢ）フラッシュドライブが挙げられる。あるいは、記憶装置１４０は、ランダムアクセスメモリ、或いは図示されていない遠隔のストレージシステムに位置し、且つネットワーク１３５を介してコンピュータ１０５へと接続される他の種類の電子記憶デバイスであってよい。

システム１００は、本明細書においてまとめてデータソース１５０と称され、且つネットワーク１３５へと通信可能に接続されるデータソース１５０Ａ及びデータソース１５０Ｂを更に含む。実際には、データソース１５０は、任意の数のデータソース、すなわち１つ以上のデータソースを含むことができる。データソース１５０は、体系化されていないデータを含み、ソーシャルメディアを含むことができる。

システム１００は、ユーザ１０１によって操作され、且つネットワーク１３５を介してコンピュータ１０５へと接続されるユーザデバイス１３０を更に含む。ユーザデバイス１３０として、ユーザ１０１が情報及びコマンドの選択をプロセッサ１１０へと伝えることを可能にするためのキーボード又は音声認識サブシステムなどの入力デバイスが挙げられる。ユーザデバイス１３０は、表示装置又はプリンタ或いは音声合成装置などの出力デバイスを更に含む。マウス、トラックボール、又はタッチ感応式画面などのカーソル制御部が、さらなる情報及びコマンドの選択をプロセッサ１１０へと伝えるために表示装置上でカーソルを操作することをユーザ１０１にとって可能にする。

プロセッサ１１０は、プログラムモジュール１２０の実行の結果１２２をユーザデバイス１３０へと出力する。あるいは、プロセッサ１１０は、出力を例えばデータベース又はメモリなどの記憶装置１２５へともたらすことができ、或いはネットワーク１３５を介して図示されていない遠隔のデバイスへともたらすことができる。

システム１００を適用することができるワークフローは、例えばデータソース１５０などの体系化されていないデータソースの受け取り、発見、及びキュレーションに関する。この受け取り、発見、及びキュレーションは、これらに限られるわけではないが、ソーシャルメディアにおける集合的感情についての意見の形成、為されたクレームに関するマーケティング姿勢の変化の理解、なりすまし犯罪又は他の不正行為の発見につながるニュアンスの検出、来たるべき出来事又は行動の前兆となる社会的信号の影響、又は新たな体系化されていないデータの既存のプロセスへの取り込みの増分値の単純な評価、などの多数の使用の事例に役立つ使用の一部であってよい。

図２は、システム１００によって実行され、より具体的にはプログラムモジュール１２０に従うプロセッサ１１０によって実行される方法２００の機能ブロック図である。方法２００は、データを受け取り、データソース及びそれらのデータに複数のレベル（すなわち、上述のコンテクストレベル、ソースレベル、及びコンテンツレベル）において属性を与え、且つデータソース及びデータの処理、データ、例えばその特定のサブセットの、１つ以上のダウンストリームのシステムへの伝送、処理についてのフィードバックをもたらすための機能の開始、及びさらなるデータソースの発見及び取り込みを開始するための機能に関する決定を行う全プロセスである。方法２００は、１つ以上のソース１５０からのデータにアクセスしてこれを処理するが、説明を簡単にするため、以下では、方法２００の実行を、ただ１つのデータソース、すなわちデータソース１５０Ａの例を使用して説明する。方法２００は、プロセス２０５で始まる。

プロセス２０５は、上述のように、データソース１５０Ａにアクセスし、データソース１５０Ａを分析し、且つデータソース１５０Ａに複数のレベル、すなわち「コンテクスト」、「ソースファイル」、及び「コンテンツ」の各レベルにおいて属性を与え、且つ処理２１２を得るためにデータソース１５０Ａに含まれるデータの最も適切な処理を決定する。

図３は、ソース属性レベル及びそれらの階層関係の図式的表示である。

あらゆるソース属性レベル、特にはコンテンツレベルにおいて、属性は、上述の次元、すなわちエンティティ抽出、感情分析、語義明確化、及び言語変換において動作する明確化及び識別機能を含むことができる。さらに、これらの明確化及び識別機能を使用して、プロセス２０５は、とりわけ上述の混同特性、すなわち皮肉、新語、などによって引き起こされる属性への課題を解決しようと試みる。

図４は、プロセス２０５の機能ブロック図である。プロセス２０５は、プロセス４０５で始まる。

プロセス４０５は、データソース１５０Ａからデータを受け取り、且つ属性ロジック４１０に記憶されたルール及び参照情報を使用してデータソース１５０Ａに属性を与え、それによって属性テーブル４０３を生成する。ルール及び参照情報は、例えば、データがテキストであるか、或いはマルチメディアであるかを判断するためにデータをスキャンするアルゴリズムのセットである。例えば、プロセス４０５は、データソース１５０Ａを分析し、且つそれが例えば購入されたデータソースなど、第三者のデータソースであり、且つその生成日が２０１５年１月１日であると判断する。

表１が、属性テーブル４０３を典型的に表しており、且ついくつかの典型的な属性及びその値を含んでいる。

「ファイルタイプ」は、ソースレベル属性であり、且つファイルのデータタイプを明らかにするためにデータファイルのメタデータ及びコンテンツのスキャンするプロセスの結果としてなされた判定である。他の値は、「画像」、「ビデオ」、「バイナリ」、「未知」、などであり得る。

「区切り」は、データが個々に分けられた列にて収容されているかどうかを判断するためのファイルのスキャンにおいてなされる結論を表す「あり／なし」のフラグである。

この例における「ソース」は、ファイルの供給者を表し、この場合には、データファイルの「作成者」メタデータ（又は、「プロパティ」）から読み取られる。

「生成日」も、ファイルのメタデータから読み出すことが可能である。

「ウェブディスカバリＩＤ」は、発見されない属性の例として提示され、機能２１０（後述）によって開始されるディスカバリプロセスによってファイルへと挿入される明示的なマーカである。

「エンコーディング」も、ファイルのメタデータから読み取られ、且つファイルが作成されたやり方の描写を指す。他の値として、「ＡＳＣＩＩ」、「ＢＩＧ５」、「ＳＨＩＦＴ−ＪＩＳ」、「ＥＢＣＤＩＣ」、などを挙げることができる。

「検出されたスクリプト」は、どんなユニコード範囲がファイルに存在するかを理解するために、メタデータから導出されるのではなく、データそのもののコーパスをスキャンすることによって導出される属性を示すための例として提示される。「Ｃ０制御及び基本ラテン」という値は、実際に、標準のラテンデータセットである。

表１に示した属性の種類及び値は、あくまでも例であり、且つ必ずしもシステム１００が特定のファイル又はデータに添える属性の種類又は値を表すものではない。システム１００を、有用であると考えられる任意のメタデータを生成するように構成することができる。

プロセス４１５は、
ａ）エンティティ抽出
ｂ）語義明確化
ｃ）感情分析
ｄ）言語抽出
ｅ）基本メタデータ
（ただし、これらに限られるわけではない）を含み、多数の次元にわたって属性を生成するために、データソース１５０Ａのコーパスを分析する。

また、プロセス４１５は、データソース１５０Ａにおける「混同特性」の存在及び普及に属性を与え、且つ測定することで、混同特性Ｑ１、Ｑ２、Ｑ３、・・・、Ｑｎを列挙する混同特性テーブル４２０を生成する。混同特性のいくつかの例は、上述されている。

表２が、混同特性テーブル４２０の例であり、且つその測定基準及び値のいくつかの例を含んでいる。

表２の例において、値のスケール及び範囲は独立している。一部は、数値であってよく、一部は、利用可能なスコアを生み出すために非算術的な手段を必要とする符号であってよい。

本明細書において列挙及び記述される混同特性の尺度が、完全に独立であり、且つシステムが新たな混同特性を特定して追加するケイパビリティを有する点で、分類が閉鎖的な分類ではないことに、注意すべきである。例えば、上記の表２において、「多言語データ」についてのエントリは、この混同特性の尺度及び影響がシステムの典型的な実施例において未だ特定されていないがゆえに、存在していない。

「新語の広がり」は、データソース１５０Ａのインスタンスをスキャンし、且つどれくらい多くの新語、すなわち新規且つ／又は一般的でない単語が、データソース１５０Ａのコーパスに存在するかを評価するスコアを生成することによって算出されるスコアを表す。この例において、「ＡＸ２」は、充分に理解される新語が大量に存在することを表すことができ、「ＺＡ９」は、新語が少ないが、極めて普通でなく、或いは理解できない新語がそのセットに多く存在することを表すことができる。

「文法的変動」は、文法様式の一貫性の尺度である。この測定基準の確立に用いられるアルゴリズムは、ＣＹＫ法（Ｃｏｃｋｅ−Ｙｏｕｎｇｅｒ−Ｋａｓａｍｉａｌｇｏｒｉｔｈｍ）などの業界標準の手法、又はオーダーメードのアルゴリズム及び尺度、或いはいくつかの尺度を組み合わせるアルゴリズムであってよい。これらの下位尺度は、それ自身が混同特性テーブル４２０に測定基準として記憶され、その後に混同特性テーブル４２０の他のエントリを生成するために組み合わせられてよい。

「句読点スコア」は、句読点の存在の尺度である。この例では、検出された句読点が少し又はわずかであり、したがってこの測定基準の値はゼロである。

「感情」は、テキストにおける「話者」が、主題についてポジティブな感情（すなわち、承認、推奨、賛同、など）を伝えているか、ネガティブな感情（すなわち、非難又は不同意）を伝えているか、或いは中立の感情（ポジティブでもネガティブでもなく、或いはおそらくは不確定）を伝えているかを示す。負の数は、ネガティブな感情（非難）を示し、ゼロは、中立の感情を示し、且つ正の数は、ポジティブな感情（支持）を示す。ここでの感情についての例示の値は、−０．５であり、何かが「中程度のネガティブな感情」として表されている可能性を示している。

「スペリングのくせ」は、認識された新語ではないミススペリングの多さの尺度である。ここでの「低」という値は、ミススペリングの割合が低いことを示している。ここで、「ミススペリング」が単に既知の用語集からの逸脱を示すために使用されており、「高」スコアが、紛れもない印刷又はスペリングのミスよりもむしろ、例えば認識されていない適切な名詞が多く存在することを示している可能性があることに、注意すべきである。

「難読化スコア」は、意味を隠すために意図的な企てがなされたように見受けられる程度の尺度であり、テキストの暗号化が、これの単純な例であると考えられる。ここでの値はゼロであり、難読化が検出されていないことを示している。

「メディア均質性」は、データが単一種類のデータ（例えば、テキスト）であるように見受けられるか、或いは混合メディア（例えば、画像又はハイパーリンクが埋め込まれたテキスト）のように見受けられるかを示している。この例では、スコアが１．０であり、ファイルが一種類のメディアだけであることを示している。この情報を、例示のデータファイルが体系化されたコラム状テキストで全面的に構成されていると結論付けるために、プロセス４３５（後述）によって、プロセス４０５によって導き出され且つ表１に示される属性と組み合わせることができる。

「フラグメント変動」は、ファイルの個々のユニットのサイズの全体としての一貫性を表す０〜１のスコアである。表２において、０．０１というスコアは、フラグメントが極めて一様であることを示している。この例は、極めて体系化されたデータファイルであり、したがって、これは、フラグメントがファイルにおいてラインを表すために、期待値である。例えば１４０文字の短いメッセージの送信及び読み取りをユーザにとって可能にするオンライン・ソーシャル・ネットワーキング・サービスからのメッセージでいっぱいのファイルは、フラグメントがさまざまであるが、１２８文字程度である傾向にあるため、中程度のスコアを有するかもしれない。より長い投稿を可能にするソーシャル・ネットワーキング・サービスからのデータについては、フラグメントがこの種のデータ内にあり得る、大きな変動性があるという、極めて高いスコアを有することを想定し得る。

表２に示した測定基準及び値は、あくまでも例であり、必ずしもシステム１００が特定のファイル又はデータに結び付ける値を表すものではない。

上述のように、プロセス４１５は、各々の測定基準について多数の尺度を考慮することができる。例えば、「文法的変動」の測定基準の値を測定するために、いくつかのアルゴリズムを採用することができる。例えば、１つ以上の尺度が、実際に混同特性テーブル４２０における他の測定基準であってよく、その他のものが、属性テーブル４０３における値であってよく、或いは属性テーブル４０３における値を使用して導出されてよい。

下記の表３が、感情のアルゴリズム尺度の３つの例を示している。これらの尺度を、表２における上述の感情スコア全体と組み合わせることができる。

プロセス４０５及び４１５の完了後に、プロセス２０５は、プロセス４２５へと進む。

プロセス４２５は、属性テーブル４０３及び混同特性テーブル４２０を受け取り、且つ属性テーブル４０３及び混同特性テーブル４２０に挙げられた属性へのクオリティ尺度を算出することで、クオリティテーブル４３２を生成する発見的／決定論的重み付けプロセスである。クオリティテーブル４３２におけるクオリティ尺度は、重み付けリソース４３０を参照して生成され、且つ多数の次元にわたるデータソース１５０Ａを評価するスコア、係数、又は重みであってよい。

表４が、クオリティテーブル４３２の例を示している。表４において、「重み」は、クオリティ尺度であり、且つ重み付けリソース４３０から得られる。プロセス４２５が、重みを測定基準へと割り当てる。

表４は、簡単な例である。実際のクオリティ測定は、因子のかなり複雑な組み合わせを考慮することができる。

表４Ａが、組み合わせられた因子の使用の例を示している。

表４Ａの例において、ソースの測定基準は、既知のデータソース及びそれらのデータソースにそれぞれ割り当てられた重みを列挙する図示されていない別のテーブルにおいて参照されている。この場合にはソース「Ｓ１」として認識され且つプロセス４２５によって割り当てられるこのソースの重みは、１０である。しかしながら、プロセス４２５は、より複雑な特徴の重みを算出することができる。「ソース＞古さ」の重み（「ソース」ファミリーの重みに属することを示すために字下げされている）は、ソースＳ１について働き、且つソースＳ１におけるデータの古さ（すなわち、どれくらい前にファイルが生成されたか、又は存在するのであれば明示的に指定された日付）にもとづく特定の係数（すなわち、２５）を適用して７６という重みをもたらす別の重みが存在することを示している。

プロセス４２５の完了後に、プロセス２０５は、プロセス４３５へと進む。

プロセス４３５は、クオリティテーブル４３２、混同特性テーブル４２０、及び属性テーブル４０３を受け取り、且つデータソース１５０Ａの適切な処理を裁定して処理２１２を生成するためにルール４４０を使用する精査／裁定のプロセスである。ルール４４０は、行列、参照テーブル、スコアカード、非決定性有限状態オートマトン、決定木、或いはこれらの決定ロジック又は他の決定ロジックの任意の組み合わせの形態をとることができる。

処理２１２は、以下の指示又は勧告、
ａ）データソース１５０Ａに類似したファイルを全体として取り込むルールを設定する
ｂ）データソース１５０Ａからのファイルを分割し、且つ特定の基準を満たす部分だけを取り込む
ｃ）データソース１５０Ａからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける
ｄ）データソース１５０Ａからのファイルを常に拒絶するルールを設定する
ｅ）データソース１５０Ａからのファイルを仮に取り込むが、追加的な確証を待って保持し、且つ機能２１０による対象を定めたウェブディスカバリを開始させる
を含むことができる。

表４に示したテーブル４３２の例は、値及び重みを有する二次元の参照テーブルであるが、これがあくまでも例示にすぎないことにも、注意すべきである。プロセス４３５は、ルール４４０を介して、処理２１２を達成するためにテーブル主導の参照及び非決定性有限状態オートマトンなどの他のプロセスを利用することができる。

再び図２を参照すると、プロセス２０５の完了後に、方法２００は、プロセス２１５へと進む。

プロセス２１５は、データソース１５０Ａ及び処理２１２の形式でデータを受け取り、且つ抽出データ２１７を得るために受け取ったデータを細分化及びフィルタ処理するプロセスを実行する。この点に関し、プロセス２１５は、
ａ）データソース１５０Ａを選定し、
ｂ）データソース１５０Ａのコンテンツを意味のあるサブセットへと分割し、且つ
ｃ）データソース１５０Ａからのデータをデータの消費者であるダウンストリームプロセス２２０へと取り込む
ために、プロセス２０５によって生成されたデータ、すなわち処理２１２を使用する。

プロセス２２０が、抽出データ２１７を受け取り、且つ抽出データ２１７を図示されていないダウンストリームプロセスへと伝える。

さらに、方法２００は、プロセス２０５を改善するために、経験的、例えば統計にもとづく、且つクオリティ、例えばユーザの受け入れ、のフィードバックを生成し、且つそのフィードバックをプロセス２０５へと返す機能２２５を実行する。機能２２５は、処理２１２、クオリティテーブル４３２、混同特性テーブル４２０、及び属性テーブル４０３によって知らされる（すなわち、これらから入力を得る）。機能２２５は、プロセス２１５による処理２１２の処理によってトリガされる。

さらに、方法２００は、非同期且つ潜在的に継続的なプロセスとして機能２１０を実行する。機能２１０は、プロセス２０５において生成されたデータ、すなわち処理２１２、クオリティテーブル４３２、混同特性テーブル４２０、及び属性テーブル４０３を使用し、例えば自動化されたウェブディスカバリによって、新規及び既存のデータソース１５０を検索する。このデータは、自動化されたデータソースディスカバリプロセスを開始させ、誘導し、或いは限定するための、機能２１０への入力となる。この知能は、例えば「ギャップ識別」（これまでに取り込まれたコーパスにおけるデータが、特には不完全、低クオリティ、又は「老化」ゆえに価値が低くなると観測された領域を識別する）又は「類似物生成」（データソースの同様又は類似のクラスの識別並びにクラスの有効性、一貫性、又は正確さにもとづいてデータソースのクラスを標的とする）の形態をとることができる。

機能２１０は、外部のデータディスカバリルーチン、アプリケーション、及び機能を設定及び実行する。機能２１０は、方法２００によってすでに受け取られたデータの増加に役立つように、これらのデータディスカバリプロセスへと入力をもたらす。そのような入力の例は、所望のデータを得ることができるウェブサイトのユニフォーム・リソース・ロケータ（ＵＲＬ）、並びにデータソース１５０Ａのコンテンツにもとづく検索語のリストである。

システム１００は、新たなデータソース、とりわけ体系化されていないデータの自動的、設定可能、繰り返し可能、且つ適応的な利用を可能にする。システム１００は、実行時間において完全に自動化されているため、スケーラブルであり、したがってデータの取得の管理において極めて向上した効率、速度、及び一貫性を可能にする。

方法２００の実行の例を説明するために、下記の表５に示されるソースファイルＥＸ１から出発する。

表６は、ソースファイルＥＸ１についての属性テーブル４０３を示している。

表７は、ソースファイルＥＸ１についての混同特性テーブル４２０を示している。

データフラグメント「ＧｏｎｎａｔｒｙｔｈｅｎｅｗＣｏｋｅｆｌａｖｏｒ．ＮＯＴ．」への混同特性テーブル４２０の作成において、プロセス４１５が、表８に示されるラインに沿ったコンテンツの意味解析を含む分析を実行する。

表８に提示される分析は、プロセス４１５によって実行されたアルゴリズム及び統計分析の脱平易英語（ｐｌａｉｎＥｎｇｌｉｓｈ）構築である。この分析は、単語「Ｇｏｎｎａ」及び「ＮＯＴ」がそれらの使用のやり方において新語であるが、実際にはそれら自身は新しい単語ではないため、新語の広がりを追加するために使用されたと考えられる。また、これは、新語の広がりについてのスコアが単なる単純な数字ではない理由を示している。新語は、新しい単語及び古い単語の新しい使用の両方に関係する。句読点スコアも、例における句読点の使用によって影響され、すなわち句点及び大文字が一貫的に使用されている。皮肉／誠実範囲は、ここでは極めて関連があり、且つ以前の表明の打ち消し及び皮肉の暗示の両方のための「ＮＯＴ」の使用によって大きく影響される。このデータは、全体として極めて低い誠実さを有するが、全体構成は、それが否定の意図を明確に伝えることを意図している点で「誠実」である。

表８に提示される分析が、本例のために生成された「略記」であることに、注意すべきである。プロセス４１５は、語句を切り分け、意味解析を実行し、且つ混同特性を補うために、複数の高度な機能を使用する。また、プロセス４１５が、ファイル又はデータソースの全体にわたって分析を実行し、且つ結果を記録することに、注意すべきである。

表９は、プロセス４３５及びルール４４０の実行の単純化した表現を可能にするために、最も右側の列に示される、ソースファイルＥＸ１についての結果「パーセンテージスコア」を用いてクオリティテーブル４３２の結果を示している。実際には、算出プロセス及びアルゴリズムは、設定可能であり、且つ通常は表９の例よりもはるかに複雑である。

表１０が、処理２１２の平易英語の解釈を示している。

表１０において、項目６は、機能２１０がこのデータ（又は、将来のこのソースからのデータ）によってトリガされることがないことを示しており、且つ項目７が、機能２２５が方法１００においてソースファイルＥＸ１の処理時に生成されたデータによって開始されることを示していることに、注意すべきである。

本明細書に記載の技術は、あくまでも例であり、本開示についていかなる特定の限定も意味すると解釈されてはならない。当業者であれば種々の代案、組み合わせ、及び変更を考え出すことができることを、理解すべきである。例えば、本明細書に記載のプロセスに関係する工程は、特に指定又は工程そのものによって決定されない限り、任意の順序で実行可能である。本開示は、添付の特許請求の範囲の技術的範囲に含まれるすべての代案、変更、及び変化を包含するように意図される。

用語「・・・を備える」又は「・・・を備えている」は、そこで述べられている特徴、完全体、工程、又は構成要素が存在することを指定しているが、１つ以上の他の特徴、完全体、工程、又は構成要素、或いはそれらのグループの存在を排除してはいないと、解釈されるべきである。用語「ａ」及び「ａｎ」は、不定冠詞であり、したがって、それを複数有する実施形態を排除するものではない。

Claims

第１のデータソースからデータを受け取る受取手順と、
ルールに従って前記第１のデータソースの属性をコンテクストレベル、ソースファイルレベル、コンテンツレベルで判断し、それによって前記第１のデータソースの属性を得る属性取得手順と、
前記データの意味を混同させる前記データの特性を特定するために前記データを分析し、それによって前記第１のデータソースの混同特性を得る混同特性取得手順と、
前記第１のデータソースの前記属性のクオリティ尺度を算出し、それによって前記第１のデータソースの重み付けされた属性を得る属性重み付け手順と、
前記第１のデータソースの混同特性のクオリティ尺度を算出し、それによって前記第１のデータソースの重み付けされた混同特性を得る混同特性重み付け手順と、
処理指示を含んだ処理を生成するために、前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性を分析する処理生成手順と、
前記処理指示に従って前記データを処理し、それによって抽出されたデータを得る抽出手順と、
前記抽出されたデータをダウンストリームプロセスへと伝送する伝送手順と、
前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性を用いて、自動化されたデータソースディスカバリプロセスのシードとして前記第１のデータソースを使用するか否かを判定し、使用すると判定した場合には、前記第１のデータソースの内容に基づく検索語を用いて、自動化されたデータソースディスカバリプロセスを実行し、第２のデータソースを発見する、発見手順と、
をコンピュータが実行する方法。
前記処理にもとづいてフィードバックを生成するフィードバック生成手順と、
前記フィードバックにもとづいて、前記受取手順、前記属性取得手順、前記混同特性取得手順、前記属性重み付け手順、前記混同特性重み付け手順及び前記処理生成手順の少なくともいずれかを改善する改善手順と、
を更にコンピュータが実行する、請求項１に記載の方法。
前記発見手順において、前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性をさらに用いて、前記第２のデータソースを発見する、請求項１又は２に記載の方法。
前記混同特性取得手順において、前記分析は、エンティティ抽出、語義明確化、感情分析、言語抽出、言語変換、及び基本メタデータの少なくともいずれかを含む、請求項１から３のいずれかに記載の方法。
前記混同特性は、皮肉、新語、文法変化、不適切な表現のテキスト、句読点、多言語データ、スペリング、難読化、暗号化、コンテクスト、及びメディアの組み合わせの少なくともいずれかを含む、請求項１から４のいずれかに記載の方法。
前記処理は、（ａ）前記第１のデータソースに類似したファイルを全体として取り込むルールを設定する、（ｂ）前記第１のデータソースからのファイルを分割し、特定の基準を満たす部分だけを取り込む、（ｃ）前記第１のデータソースからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける、（ｄ）前記第１のデータソースからのファイルを常に拒絶するルールを設定する、及び（ｅ）前記第１のデータソースからのファイルを仮に取り込むが、さらなる確証を待って保持する、の少なくともいずれかを含む、請求項１から５のいずれかに記載の方法。
プロセッサと、
前記プロセッサによる読み取りが可能である命令を含むメモリと
を備えており、
前記命令は、
第１のデータソースからデータを受け取る受取手順と、
ルールに従って前記第１のデータソースの属性をコンテクストレベル、ソースファイルレベル、コンテンツレベルで判断し、それによって前記第１のデータソースの属性を得る属性取得手順と、
前記データの意味を混同させる前記データの特性を特定するために前記データを分析し、それによって前記第１のデータソースの混同特性を得る混同特性取得手順と、
前記第１のデータソースの前記属性のクオリティ尺度を算出し、それによって前記第１のデータソースの重み付けされた属性を得る属性重み付け手順と、
前記第１のデータソースの混同特性のクオリティ尺度を算出し、それによって前記第１のデータソースの重み付けされた混同特性を得る混同特性重み付け手順と、
処理指示を含んだ処理を生成するために、前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性を分析する処理生成手順と、
前記処理指示に従って前記データを処理し、それによって抽出されたデータを得る抽出手順と、
前記抽出されたデータをダウンストリームプロセスへと伝送する伝送手順と、
前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性を用いて、自動化されたデータソースディスカバリプロセスのシードとして前記第１のデータソースを使用するか否かを判定し、使用すると判定した場合には、前記第１のデータソースの内容に基づく検索語を用いて、自動化されたデータソースディスカバリプロセスを実行し、第２のデータソースを発見する、発見手順と、
を含む方法を前記プロセッサに実行させる、システム。
前記命令は、
前記処理にもとづいてフィードバックを生成するフィードバック生成手順と、
前記フィードバックにもとづいて、前記受取手順、前記属性取得手順、前記混同特性取得手順、前記属性重み付け手順、前記混同特性重み付け手順及び前記処理生成手順の少なくともいずれかを改善する改善手順と、
を前記プロセッサに更に実行させる、請求項７に記載のシステム。
前記発見手順において、前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性をさらに用いて、前記第２のデータソースを発見する、請求項７又は８に記載のシステム。
前記混同特性取得手順において、前記分析は、エンティティ抽出、語義明確化、感情分析、言語抽出、言語変換、及び基本メタデータの少なくともいずれかを含む、請求項７から９のいずれかに記載のシステム。
前記混同特性は、皮肉、新語、文法変化、不適切な表現のテキスト、句読点、多言語データ、スペリング、難読化、暗号化、コンテクスト、及びメディアの組み合わせの少なくともいずれかを含む、請求項７から１０のいずれかに記載のシステム。
前記処理は、（ａ）前記第１のデータソースに類似したファイルを全体として取り込むルールを設定する、（ｂ）前記第１のデータソースからのファイルを分割し、且つ特定の基準を満たす部分だけを取り込む、（ｃ）前記第１のデータソースからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける、（ｄ）前記第１のデータソースからのファイルを常に拒絶するルールを設定する、及び（ｅ）前記第１のデータソースからのファイルを仮に取り込むが、さらなる確証を待って保持する、の少なくともいずれかを含む、請求項７から１１のいずれかに記載のシステム。
第１のデータソースからデータを受け取る受取手順と、
ルールに従って前記第１のデータソースの属性をコンテクストレベル、ソースファイルレベル、コンテンツレベルで判断し、それによって前記第１のデータソースの属性を得る属性取得手順と、
前記データの意味を混同させる前記データの特性を特定するために前記データを分析し、それによって前記第１のデータソースの混同特性を得る混同特性取得手順と、
前記第１のデータソースの前記属性のクオリティ尺度を算出し、それによって前記第１のデータソースの重み付けされた属性を得る属性重み付け手順と、
前記第１のデータソースの混同特性のクオリティ尺度を算出し、それによって前記第１のデータソースの重み付けされた混同特性を得る混同特性重み付け手順と、
処理指示を含んだ処理を生成するために、前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性を分析する処理生成手順と、
前記処理指示に従って前記データを処理し、それによって抽出されたデータを得る抽出手順と、
前記抽出されたデータをダウンストリームプロセスへと伝送する伝送手順と、
前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性を用いて、自動化されたデータソースディスカバリプロセスのシードとして前記第１のデータソースを使用するか否かを判定し、使用すると判定した場合には、前記第１のデータソースの内容に基づく検索語を用いて、自動化されたデータソースディスカバリプロセスを実行し、第２のデータソースを発見する、発見手順と、
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記憶装置。
前記処理にもとづいてフィードバックを生成するフィードバック生成手順と、
前記フィードバックにもとづいて、前記受取手順、前記属性取得手順、前記混同特性取得手順、前記属性重み付け手順、前記混同特性重み付け手順及び前記処理生成手順の少なくともいずれかを改善する改善手順と、
を前記コンピュータに更に実行させるためのプログラムを記録した、請求項１３に記載の記憶装置。
前記発見手順において、前記第１のデータソースの前記重み付けされた属性及び前記第１のデータソースの前記重み付けされた混同特性をさらに用いて、前記第２のデータソースを発見する、
請求項１３又は１４に記載の記憶装置。
前記混同特性取得手順において、前記分析は、エンティティ抽出、語義明確化、感情分析、言語抽出、言語変換、及び基本メタデータの少なくともいずれかを含む、請求項１３から１５のいずれかに記載の記憶装置。
前記混同特性は、皮肉、新語、文法変化、不適切な表現のテキスト、句読点、多言語データ、スペリング、難読化、暗号化、コンテクスト、及びメディアの組み合わせの少なくともいずれかを含む、請求項１３から１６のいずれかに記載の記憶装置。
前記処理は、（ａ）前記第１のデータソースに類似したファイルを全体として取り込むルールを設定する、（ｂ）前記第１のデータソースからのファイルを分割し、且つ特定の基準を満たす部分だけを取り込む、（ｃ）前記第１のデータソースからのファイル全体を取り込むが、ソースごとのクオリティレベルインジケータでデータにフラグを付ける、（ｄ）前記第１のデータソースからのファイルを常に拒絶するルールを設定する、及び（ｅ）前記第１のデータソースからのファイルを仮に取り込むが、さらなる確証を待って保持する、の少なくともいずれかを含む、請求項１３から１７のいずれかに記載の記憶装置。
請求項１から６のいずれかに記載の方法に含まれる各手順をコンピュータに実行させるプログラム。