JP5928091B2 - タググループ分類方法、装置及びデータマッシュアップ方法、装置 - Google Patents

タググループ分類方法、装置及びデータマッシュアップ方法、装置 Download PDF

Info

Publication number
JP5928091B2
JP5928091B2 JP2012079208A JP2012079208A JP5928091B2 JP 5928091 B2 JP5928091 B2 JP 5928091B2 JP 2012079208 A JP2012079208 A JP 2012079208A JP 2012079208 A JP2012079208 A JP 2012079208A JP 5928091 B2 JP5928091 B2 JP 5928091B2
Authority
JP
Japan
Prior art keywords
tag
group
class
feature vector
tag group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012079208A
Other languages
English (en)
Other versions
JP2012226740A (ja
Inventor
ジャン・ジュン
ジョォン・チャオリアン
ワン・ジュロォン
憲二 大木
憲二 大木
昌弘 田中
昌弘 田中
照宣 粂
照宣 粂
昭彦 松尾
昭彦 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2012226740A publication Critical patent/JP2012226740A/ja
Application granted granted Critical
Publication of JP5928091B2 publication Critical patent/JP5928091B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ処理に関し、より具体的に、タググループの分類方法及び装置、並びにデータマッシュアップ方法及び装置に関する。
現在、データを記述するための各種のデータフォーマット仕様、例えば、XML(eXtensible Markup Language:拡張可能なマーク付け言語)、JSON(JavaScript(登録商標) Object Notation:JavaScriptオブジェクトの表記)、或はCSV(Comma Separated Values:カンマ区切り値)等が存在している。各種のデータフォーマット仕様のそれぞれにおいては、データ内容の意味を記述するためのタグがそれぞれ定義されている。例えば、リスト型のデータ、例えば若干のニュースを含むニュースリストに対して、ニュース内容を記述するための一つのグループのタグ、即ち、title(タイトル)、pubdate(発表時間)、author(作者)等を定義することができる。また、例えば、若干のスケジュールを含むスケジュール表に対して、スケジュール内容を記述するための一つのグループのタグ、即ち、starttime(スタートタイム)、endtime(エンドタイム)、attendees(参加者)及びlocation(場所)などを定義することができる。従って、当該タグを利用して、データ内容を便利に発表したり、アクセスしたりすることができる。
しかしながら、意味が同一または類似するデータ内容について、異なるデータフォーマット仕様が異なるタグを採用して記述を行う可能性がある。例えば、データ内容「データ作成者」について、異なるデータフォーマット仕様において、「author(作者)」、「writer(筆者))または「creator(創作者)」などの異なるタグを採用する可能性がある。従って、異なるタグで同一または類似する意味を記述したデータ内容を認識するとともに、統一的なタグで前記同一または類似するデータ内容を記述することによって、同一または類似する意味を有するデータ内容のマッシュアップを完成させるという希望が存在する。
従来の技術において、複数のデータ内容そのものを直接に比較することによって、複数のデータ内容同士が同一または類似するか否かを判断する。データ内容そのもののデータ量が大きいため、直接に複数のデータ内容そのものを比較すると、演算量が大きくなり、判断の正確さも悪くなることがよくある。
なお、従来の技術において、二つのタグ同士が同一または類似するか否かを比較することによって、二つのタグで記述されたデータ内容が同一または類似するか否かを判断する技術もある。しかし、実際の応用には、各種の異なるデータフォーマット仕様が存在しており、その採用されたタグもそれぞれ異なる。タグとタグの比較を行うだけであれば、各種タグの多種の特徴を総合に考慮することが難しくなり、判断の正確さが悪くなってしまう。
そして、上記のように、例えば、若干のニュースを含むニュースリストに対して、一つのニュースの内容を記述するための一つのグループのタグ(以下は、「タググループ」と称す)、即ち、title(タイトル)、pubdate(発表時間)、author(作者)等を定義することができる。これにより、一般的には、一つのデータ内容が当該データ内容を記述するための、若干のタグを含むタググループにより定義されたものであることが分かった。従って、複数のデータ内容の間に同一または類似する意味を有するか否かを判断するには、複数のデータ内容を記述するための複数のタググループが同一または類似するか否かを総合的に判断する必要がある。タグとタグとを比較するだけであれば、若干のタグを含むタググループにより記述されたデータ内容が同一または類似する意味を有するか否かを判断し難い。
出願人が、上記の課題に鑑みて、複数のタググループが同一又は類似するか否かを比較することによって、同一または類似する意味を有するデータ内容を認識すべきであることを考えた。本発明の基本的な思想は、複数のタググループが同一または類似するか否かを比較するために、まず同一または類似するタググループを、同一のクラスに区分し、その後に新たに発見されたタググループを、区分されたタググループのクラスと比較することにある。同一のクラスにおけるすべてのタググループが同一または類似しているので、タググループのクラスは各種のタググループの多種の特徴を総合的に考慮した。したがって、タググループとタグループのクラスとを比較することにより、より正確的にタググループの間の同一または類似を判断することができる。
本発明の目的は、タググループの分類方法及び装置、並びにデータマッシュアップ方法及び装置を提供することにある。
本発明の一実施例によれば、コンピュータが、少なくとも一つのタグと、前記少なくとも一つのタグにより定義された相応するデータとを含むタググループに対して分類を行う方法が提供される。前記コンピュータが、同義のタグが属する同義タグセット群と、1つのデータリストのデータを定義するタグが属するタググループ群とから、あるグループに属するタグが、いずれの同義タグにいくつ現れるかを示す要素群を生成し、前記要素群から、各タググループに対応する特徴ベクトルを生成し、前記タググループを、各タググループの特徴ベクトルの類似度に応じてクラスに分類する。
本発明の少なくとも一つの実施例によれば、タググループの特徴ベクトルと、タググループのクラスのコア特徴ベクトルとの間の類似度を比較することにより、より正確に、より効率にタググループ間の同一または類似を判断でき、より正確に、より効率に同一又は類似するデータをマッシュアップすることができる。
本発明の一実施例による、タググループに対して分類を行う方法を示すフローチャートである。 本発明の一実施例による、タググループに対して分類を行う方法の分類ステップの具体的な手順を示すフローチャートである。 本発明の一実施例による、タググループに対して分類を行う装置を示すブロック図である。 本発明の一実施例による、タググループに基づいてデータをマッシュアップする方法を示すフローチャートである。 本発明の一実施例による、タググループに基づいてデータをマッシュアップする装置を示すブロック図である。 本発明の一実施例を実現するコンピュータの例示的な構造を示すブロック図である。
本願に使用された用語は、特定の実施例を説明するためのものに過ぎず、本発明を限定する意図がない。本願に使用された単数形の「一」と「当該」とは、文脈において別途に明記する場合以外、複数形も含むことを意図する。また、「含む」という単語は、本明細書に使用される際に、示された特徴、全体、ステップ、操作、ユニット及び/又はコンポーネントの存在を意味するが、一つ又は複数の他の特徴、全体、ステップ、操作、ユニット及び/又はコンポーネント、及び/又はそれらの組合せの存在又は付加を排除するわけではない。
以下、図面を参照しながら本発明の実施例を説明する。ここで注意すべきなのは、明瞭にするために、図面及び説明において、本発明と無関係の、当業者の既知している部品及び処理の表記及び説明が省略されたことである。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図における各ブロックの組み合わせは、コンピュータプログラムの命令によって実現可能である。これらのプログラムの命令は、汎用コンピュータ、専用コンピュータまたはその他のプログラミング可能なデータ処理装置のプロセッサに提供されることができる。これにより、コンピュータまたはその他のプログラミング可能なデータ処理装置により実行されたこれらの命令に、フローチャート及び/またはブロック図におけるブロックで規定された機能/操作を実現する装置を生成させる機械を提供している。
これらのコンピュータプログラムの命令を、コンピュータまたはその他のプログラミング可能なデータ処理装置を特定の形態で作動するように制御できるコンピュータ読取可能な媒体に記憶してもよい。このように、コンピュータ読取可能な媒体に記憶された命令により、フローチャート及び/またはブロック図におけるブロックで規定された機能/操作を実現する命令手段(instruction means)を含む製品が提供された。
コンピュータプログラムの命令をコンピュータまたはその他のプログラミング可能なデータ処理装置上にロードし、コンピュータまたはその他のプログラミング可能なデータ処理装置で一連の操作ステップを実行させてコンピュータによる実現過程を生成する。これにより、コンピュータまたはその他のプログラミング可能なデータ処理装置で実行された命令は、フローチャート及び/またはブロック図におけるブロックで規定された機能/操作を実現する過程を提供している。
図面中のフローチャート及びブロック図は、本発明の各種の実施例に従うシステム、方法及びコンピュータプログラム製品による実現可能なシステムアーキテクチャー、機能及び操作を示している。この点について、フローチャート及びブロック図における各ブロックは、一つのモジュール、ブログラムセグメントまたはコードの一部を表すことができる。前記モジュール、ブログラムセグメントまたはコードの一部は、所定のロジック機能を実現するための一つまたは複数の実行可能な命令を含む。また、幾つかの置き換えとしての実現においては、ブロックにおいて標記された機能も、図面において標記された順番と異なって発生しても良い。例えば、二つのつながって示されているブロックは、実際に、基本的に並行して実行されても良く、逆の順で実行されることもあり、係わる機能によって決まられる。また、ブロック図及び/またはフローチャートにおける各ブロックと、ブロック図及び/またはフローチャートにおけるブロックの組み合わせとは、所定の機能または操作を実行するための専用の、ハードウェアによるシステムによって実現されても良く、或は、専用ハードウェアとコンピュータの命令との組み合わせによって実現されても良い。
以下、図1を参照しながら本発明の一実施例による、タググループに対して分類を行う方法を説明する。図1は、本発明の一実施例による、タググループに対して分類を行う方法を示すフローチャートである。なお、当該方法は、図3に示す装置において行われる。
図1に示されたように、当該方法は、ステップ100からスタートする。次に、ステップ102において、図3に示す装置の同義タグセット特定ユニット300が、複数の同義タグセットのうち、タググループにおける各タグの所属する同義タグセットを特定する。
同義タグセット(S)は、同一または類似した意味(即ち同義)を有する一つのグループのタグにより構成されたセットである。例として、以下のような若干の同義タグセットが存在しても良い。
S1:author(作者)、creator(創作者)、writer(筆者)
S2:pubdate(公開時間)、publishdate(発表時間)
S3:URL(統一資源位置指定子)、link(リンク)
S4:summary(要約)、description(概述)
S5:event(イベント)、title(タイトル)、what(何)
S6:starttime(スタートタイム)、when(何時)
S7:where(何処)、location(場所)
・・・
Sn:who(誰)、attendees(参加者)
ただし、nは、1以上の整数である。
上記の同義タグセットは、例示に過ぎず、必要に応じて他の同義タグセットが存在してもよい。実際の応用の経験に基づいてどれらのタグが同一または類似した意味を示すかを事前に特定することができる。また、使用の過程において、絶えずに、新たに発見された同一または類似した意味を有するタグを、前記同義タグセットに追加して、動的に前記同義タグセットを更新することもできる。例えば、同義辞書の形式で前記同義タグセットを提供しても良い。当業者は、例えば、データベースのような他の方式で前記同義タグセットを提供してもよいことが理解することができる。
タググループ(T)は、一つのデータリストにおける相応するデータをそれぞれ定義するための一つのグループのタグにより構成されたセットである。例として、以下のような若干のタググループが存在してもよい。
T1:title(タイトル)、author(作者)、pubdate(公開時間)、summary(要約)
T2:title(タイトル)、publishdate(発表時間)、creator(創作者)、description(概述)、URL(統一資源位置指定子)
T3:title(タイトル)、link(リンク)、writer(筆者)、description(概述)
T4:title(タイトル)、link(リンク)、writer(筆者)、description(概述)
T5:event(イベント)、starttime(スタートタイム)、endtime(エンドタイム)、location(場所)、attendees(参加者)
T6:title(タイトル)、starttime(スタートタイム)、duration(期間)、where(何処)、attendees(参加者)
・・・
Tp:what(何)、where(何処)、who(誰)、when(何時)
ただし、pは、1以上の整数である。
上記のタググループは例示に過ぎず、実際の応用において他のタググループが存在してもよい。例えば、異なるデータフォーマット仕様(例えば、XML、JSONまたはCSV等)は、異なるタググループを定義しても良く、或は、データの発表者は必要に応じて異なるタググループをカスタマイズしても良い。
一つの新たなタググループ対して、前記の同義タグセットに基づいて新たなタググループにおける各タグの所属する同義タグセットを特定することができる。例えば、前記タググループT1に対して、タググループT1における各タグの順番に従って、タググループT1におけるタグ「title(タイトル)」が同義タグセットS5(即ち、タググループT1のうち同義タグセットS5に属するタグの数は1である)に属し、タググループT1におけるタグ「author(作者)」が同義タグセットS1(即ち、タググループT1のうち同義タグセットS1に属するタグの数は1である)に属し、タググループT1におけるタグ「公開時間」が同義タグセットS2(即ち、タググループT1のうち同義タグセットS2に属するタグの数は1である)に属し、及びタググループT1におけるタグ「summary(要約)」が同義タグセットS4(即ち、タググループT1のうち同義タグセットS4に属するタグの数は1である)に属することを順に特定することができる。また、前記のタググループT1に対して、前記同義タグセットS1から同義タグセットSnまでの順番に従って、タググループT1のうち同義タグセットS1に属するタグの数は1、タググループT1のうち同義タグセットS2に属するタグの数は1、タググループT1のうち同義タグセットS3に属するタグの数は0、タググループT1のうち同義タグセットS4に属するタグの数は1、タググループT1のうち同義タグセットS5に属するタグの数は1、タググループT1のうち同義タグセットS6に属するタグの数は0、及び、タググループT1のうち同義タグセットS7から同義タグセットSnまでの集合に属するタグの数はそれぞれ0であることを順に特定することができる。同じ方法により、前記タググループT2からタググループTpまでの各タググループにおける各タグのそれぞれが、前記同義タグセットS1から同義タグセットSnまでのうちのどのタグセットに属するかをそれぞれ特定することができる。
次に、当該方法は、ステップ104に進む。ステップ104において、図3に示す装置の特徴ベクトル生成ユニット302が、タググループに対応する特徴ベクトルを生成する。生成された特徴ベクトルのうち、各要素が複数の同義タグセットにおける異なる同義タグセットにそれぞれ対応し、各要素の値はタググループのうち、要素に対応する同義タグセットに属するタグの数である。
前記ステップ102で特定された結果により、タググループと対応する特徴ベクトルを生成することができる。例えば、タググループT1に対して、タググループT1における各タグの順による特定結果に応じて、タググループT1に対応する特徴ベクトルA:(S5:1,S1:1,S2:1,S4:1)を生成することができる。各要素のうち、コロンの前の部分は当該要素の対応する同義タグセットを示し、コロンの後の部分はタググループ1のうち当該要素に対応する同義タグセットに属するタグの数を示す。例えば、特徴ベクトルAの一番目の要素「S5:1」について、「S5」は当該一番目の要素が同義タグセットS5に対応することを示し、「1」はタググループT1のうち同義タグセットS5に属するタグの数は1であることを示す。また、タググループT1に対して、前記同義タグセットS1から同義タグセットSnまでの順による特定結果に応じて、タググループT1に対応する特徴ベクトルA’:(S1:1,S2:1,S3:0,S4:1,S5:1,S6:0,S7:0,…,Sn:0)を生成することができる。なお、各要素の各部分の意味が前記特徴ベクトルAにおけるものと同じであるため、ここではその説明を省略する。同様な方法に従って、前記タググループT1からタググループTpまでのタググループのうちのそれぞれに対応する特徴ベクトルをそれぞれ生成することができる。
次に、当該方法は、ステップ106に進む。ステップ106において、図3に示す装置の類似度算出ユニット304が、特徴ベクトルと、少なくとも一つのクラスのうちの各クラスのコア特徴ベクトルとの間の類似度を算出する。なお、クラスのコア特徴ベクトルの各要素の値は、既にクラスに分類された各タググループの対応する特徴ベクトルにおける相応する要素の値の和である。
クラスは、互いに同一または類似した一つのグループのタググループにより構成されたセットである。すなわち、同一のクラスに属する各タグクループは、同一または類似している。例えば、タググループの間の余弦距離により、タググループが同一または類似するか否かを判断することが出来る。以下、タググループ間の余弦距離を算出する過程を説明する。
上記ステップ104により、タググループT1に対応する特徴ベクトルAを生成し、且つタググループT2に対応する特徴ベクトルBを生成したことを仮定する。なお、特徴ベクトルAは(S1:fa1, S2:fa2, ・・・, Sn:fan)で示され、(fa1, fa2,・・・, fan)の略書きで記載可能であり、特徴ベクトルBは(S1:fb1, S2:fb2, ・・・, Sn:fbn)で示され、(fb1, fb2,・・・, fbn)の略書きで記載可能である。なお、Snは、特徴ベクトルAまたは特徴ベクトルBにおけるn番目の要素の対応する同義タグセットSnを示し、fanはタググループT1のうち特徴ベクトルAにおけるn番目の要素に対応する同義タグセットSnに属するタグの数を示し、fbnはタググループT2のうち特徴ベクトルBにおけるn番目の要素に対応する同義タグセットSnのタグの数を示す。以下の式(1)により、タググループT1に対応する特徴ベクトルAと、タググループT2に対応する特徴ベクトルBとの間の余弦類似度を算出することができる。即ち、
類似度(A,B)=(Σfak×fbk)/sqrt[(Σfak×fak) ×(Σfbk×fbk)] 式(1)
ただし、1≦k≦n、nは1以上の整数である。
一つのグループのタググループにより構成されたクラスに対して、例えばクラスにおける各タググループの対応する各特徴ベクトルのうちの相応する要素を累計して、クラスの対応するコア特徴ベクトルを取得することができる。例えば、クラスCには、既にクラスCに分類されたタググループT1からタググループTm(mは、1以上の整数である)までのタググループを有し、かつ、タググループT1からタググループTmまでのタググループの対応する特徴ベクトルは、それぞれ特徴ベクトルA1から特徴ベクトルAmまでであることを仮定すると、クラスCの対応するコア特徴ベクトルACは、以下の式(2)より示される。
AC =(Σfaj1,Σfaj2,・・・,Σfajn) 式(2)
ただし、1≦j≦m,mは1以上の整数である。
式(2)によりクラスCの対応するコア特徴ベクトルACを算出した後に、前記の式(1)を利用して新たなタググループTNEの対応する特徴ベクトルANEと、クラスCの対応するコア特徴ベクトルACとの間の類似度を算出することができる。複数のクラスが存在すれば、新たなタググループTNEの対応する特徴ベクトルANEと、複数のクラスのそれぞれの対応するコア特徴ベクトルとの間の類似度をそれぞれ算出する。
次に、当該方法は、ステップ108に進む。ステップ108において、図3に示す装置のタググループ分類ユニット306が、算出された類似度に基づいて、タググループを、少なくとも一つのクラスのうち近似するクラスに分類する。
前記式(1)により算出されたタググループの対応する特徴ベクトルと、クラスの対応するコア特徴ベクトルとの間の余弦類似度の値の大きさは、タググループとクラスとの類似度を示し、且つ余弦類似度の値が大きいほど、タググループとクラスとが類似する。従って、算出された類似度により、タググループとクラスとが類似するか否かを判断し、タググループを近似する(即ち、類似する)クラスに分類することができる。
最後、当該方法は、ステップ110に進む。ステップ110において、当該方法が終了する。
以上のように、本発明の実施例による、タググループ対して分類を行う方法の全体の流れを説明した。以下、図2を参照しながら、前記のタググループに対して分類を行う方法の分類ステップの具体的な流れを説明する。図2は、本発明の一実施例による、タググループ対して分類を行う方法の分類ステップの具体的な流れを示すフローチャートである。
図2に示されたように、前記ステップ106により、タググループの対応する特徴ベクトルと、複数のクラスのそれぞれの対応するコア特徴ベクトルとの間の類似度をそれぞれ算出した後に、当該方法は、ステップ200に進む。ステップ200において、算出されたタググループの特徴ベクタルと、少なくとも一つのクラスのうちの各コア特徴ベクトルとの間の類似度を、所定の閾値と比較する。当該所定の閾値は、必要に応じて予め設定しても良く、実際の応用の過程中に必要に応じて調整しても良い。閾値の大きさを調整することによって、タググループに対して分類を行う精度を制御することができる。
ここで、タググループにより構成された、それぞれC1、C2及びC3で示される3つのクラスが存在すると仮定する。クラスC1、C2及びC3の対応するコア特徴ベクトルはそれぞれA1、A2及びA3である。新たなタググループTNEが発見されると、当該新たなタググループTNEの対応する特徴ベクトルをANEとして特定する。特徴ベクトルANEと、コア特徴ベクトルA1、A2及びA3との類似度をそれぞれ算出する。例えば、余弦の類似度を採用する場合は、算出された類似度の値はそれぞれ0.92、0.85及び0.79となる。前記類似度の値を算出した後に、前記類似度の値、即ち0.92、0.85及び0.79を、所定の閾値とそれぞれ比較する。
次に、当該方法は、ステップ202に進む。ステップ202において、算出されたタググループと、少なくとも一つのクラスのうちの各クラスとの類似度が所定の閾値を超えるか否かを判断する。ステップ202での判断結果は「NO」、即ち、タググループがすべてのクラスのいずれにも類似しなければ、ステップ206に進む。ステップ206において、タググループを新たなクラスに分類することにより、当該新たなクラスに当該タググループを含ませる。
上記の例において、所定の閾値を0.93とする。算出された前記3つの類似度の値0.92、0.85及び0.79の何れも所定の閾値、即ち0.93を越えていないため、新たなタググループTNEと、現在のクラスC1、C2及びC3の何れも類似していない。このときに、新たなクラスC4を生成し、且つ新たなタググループTNEを新たなクラスC4に分類することによって、新たなC4に新たなタググループTNEを含ませることができる。
ステップ202での判断結果は「YES」であれば、ステップ204に進む。ステップ204において、所定の閾値より大きい類似度の対応するクラスが複数であるか否かを判断し、即ち、タググループと複数のクラスとの間の類似度は何れも所定の閾値より大きいか否かを判断する。ステップ204の判断結果が「NO」であれば、タググループとある一つのクラスとの間の類似度が所定の閾値より大きい、即ち、所定の閾値より大きい類似度の個数は1であることを意味し、ステップ210に進む。ステップ210において、タググループを算出された唯一の、所定の閾値を超えた類似度の対応するそのクラスに分類する。
前記の例において、所定の閾値0.90とする。算出された前記3つの類似度の値0.92、0.85及び0.79のうち、類似度の値0.92のみが所定の閾値0.90を超えたため、新たなタググループTNEを、前記類似度の値0.92の対応するクラスC1に分類する。
ステップ204の判断結果は「YES」であれば、タググループと複数のクラスとの間の類似度が所定の閾値より大きい、即ち、所定の閾値より大きい類似度の個数が複数であることを意味し、ステップ208に進む。ステップ208において、所定の閾値より大きい複数の類似度のうち最大の類似度を選択し、タググループを、選択された最大の類似度の対応するそのクラスに分類する。
前記の例において、所定の閾値を0.80とする。算出された前記3つの類似度の値0.92、0.85及び0.79のうち、類似度の値0.92と0.85の両方も所定の閾値0.80を超えたため、所定の閾値0.80を超えた類似度の値0.92と0.85のうち、最大の類似度の値、即ち類似度の値0.92を選択する。その後、新たなタググループTNEを、前記最大の類似度の値0.92が対応するクラスC1に分類する。
ステップ206、208及び210の後に、ステップ212に進み。ステップ212において、当該方法は終了する。
前記の説明において、余弦類似度を利用してタググループとタググループとの間の類似度、及びタググループと、タググループからなるクラスとの間の類似度を算出した。しかしながら、タググループとタググループとの間の類似度、または、タググループと、タググループからなるクラスとの間の類似度を算出可能であれば、その他の類似度の算出方法を採用しても良いことが、当業者にとって理解すべきである。
前記の説明において、クラスに含まれたタググループの数は動的に増加したものである。前記のタググループに対して分類を行う方法により、タググループがあるクラスに分類された後に、当該クラスに含まれたタググループの数は1増加することになる。好ましくは、新たなタググループをあるクラスに分類した後に、当該新たなタググループ及びその前に当該クラスに既に含まれたすべてのタググループに基づいて、前記式(2)を利用して当該クラスの対応するコア特徴ベクトルを新たに算出し、新たに算出されたコア特徴ベクトルを当該クラスの対応する新たなコア特徴ベクトルとする。その後、別のタググループに対して分類を行うときに、当該別のタググループと当該クラスの新たなコア特徴ベクトルとの類似度を比較する。従って、本実施例の方法によれば、各種のタググループの多種の特徴を総合的に考慮することで、より正確に、より効率にタググループ間の同一又は類似を判断することができる。
以下、図3を参照しながら、本発明の一実施例による、タググループに対して分類を行う装置を説明する。図3は、本発明の一実施例による、タググループに対して分類を行う装置を示すブロック図である。
図3に示されたように、タググループに対して分類を行う装置312は、主に、同義タグセット特定ユニット300と、特徴ベクトル生成ユニット302と、類似度算出ユニット304と、タググループ分類ユニット306とを含む。同義タグセット特定ユニット300は、同義タグセットデータベース308に記憶された複数の同義タグセットに基づいて、入力されたタググループにおける各タグの所属する同義タグセットを特定する。特徴ベクトル生成ユニット302は、入力されたタググループに対応する特徴ベクトルを生成する。生成された特徴ベクトルにおいて、各要素はそれぞれ複数の同義タグセットにおける異なる同義タグセットに対応し、各要素の値はタググループのうち要素に対応する同義タグセットに属するタグの数である。類似度算出ユニット304は、特徴ベクトルとクラスセットデータベース310に記憶された少なくとも一つのクラスのうちの各クラスのコア特徴ベクトルとの間の類似度を算出する。ここで、クラスのコア特徴ベクトルの各要素の値は、既にクラスに分類された各タググループの対応するベクトルにおける相応する要素の値の和である。タググループ分類ユニット306は、算出された類似度に基づいて、入力されたタググループを、クラスセットデータベース310に記憶された少なくとも一つのクラスのうちの近似するクラスに分類する。
タググループ分類ユニット306は、クラス特定ユニット3062を含む。クラス特定ユニット3062は、算出されたタググループと少なくとも一つのクラスのうちの各クラスとの間の類似度が所定の閾値を超えているか否かに基づいて、少なくとも一つのクラスのうちの各クラスが前記近似するクラスであるか否かを特定する。少なくとも一つのクラスのうち前記近似するクラスが存在しなければ、クラス特定ユニット3062が、前記タググループを新たなクラスに分類する。近似するクラスが複数あれば、クラス特定ユニット3062は、タググループを、算出された最大類似度の対応するクラスに分類する。
同義タグセット辞書のような他の方式で前記の複数の同義タグセットを提供しても良く、または、他の方式で前記クラスを提供しても良いことは、当業者にとって理解すべきである。同義タグセットデータベース308とクラスセットデータベース310とは記憶ユニット314に記憶される。記憶ユニット314は、例えば、磁気ディスク、フラッシュメモリ、モバイルメモリなどである。記憶ユニット314は、前記のタググループに対して分類を行う装置312に備えられても良く、或は、前記のタググループに対して分類を行う装置312の外部に位置され、かつ有線または無線の手段で前記のタググループに対して分類を行う装置312に付加されても良い。
余弦類似度を利用して、タググループとタググループとの間の類似度、及びタググループとタググループからなるクラスとの間の類似度を算出することができる。しかしながら、タググループとタググループとの間の類似度、またはタググループとタググループからなるクラスとの間の類似度を算出可能であれば、他の類似度算出方法を採用しても良いことは、当業者にとって理解すべきである。
前記のタググループに対して分類を行う装置312は、実際に、前記のタググループに対して分類を行う方法に対応する装置である。したがって、ここでは、その詳細な説明を省略する。
以下、図4を参照しながらタググループに基づいてデータをマッシュアップする方法を説明する。図4は、タググループに基づいてデータをマッシュアップする方法を示すフローチャートである。なお、当該方法は、図5に示す装置において行われる。
図4に示されたように、当該方法は、ステップ400からスタートする。次に、当該方法は、ステップ402に進む。ステップ402において、図5に示す装置の分類ユニット503が、前記のタググループに対して分類を行う方法を使用して、タググループを少なくとも一つのクラスに分類する。したがって、前記のタググループに対して分類を行う方法を使用することで、異なるデータフォーマット仕様に適うタググループ、またはユーザによりカスタマイズされた異なるタググループなどを、それらの間の類似度に従って、動的に異なるクラスに区分し、かつ各クラスにおけるタググループが互いに類似している。
次に、当該方法はステップ404に進む。ステップ404において、図5に示す装置の置換ユニット505が、同一のクラスにおける各タググループの各タグのそれぞれを、その属する同義タグセットにおいて指定されたタグで置換する。前記ステップ402でタググループが異なるクラスに区分された後に、同一のクラスにおける各タググループの各タグのそれぞれを統一的なタグで置換することができる。これにより、同一のクラスにおいて類似している各タグを同一のタググループに統一し、取得された同一のタググループを使用して、その前に各類似しているタググループで記述したデータを新たに記述することができ、類似する内容・意味を有するデータのマッシュアップが実現される。
各種の方法で前記の同一のクラスにおける各タググループの各タグの置換操作を行うことができる。例えば、同一のクラスにおける各タググループの各タグを、その所属する同義タグセットにおいて指定されたタグで置換ことができる。前記の指定されたタグは、例えば、同一のクラスにおける各タググループの各タグの所属する同義タグセットにおける一番目のタグまたは最後のタグであってもよい。或は、例えば、同一のクラスにおけるすべてのタググループに対して、同一のクラスにおける各タググループの各タグの所属する同義タグセットにおける各同義タグの使用頻度を統計し、使用頻度の最も高い同義タグを前記指定されたタグとしても良い。置換後の指定されたタグが相応するデータを統一的に定義できることを確保できれば、他の方式で前記同一のクラスにおける各タググループの各タグの置換操作を行っても良いことは、当業者にとって理解すべきである。
次に、当該方法は、ステップ404に進む。ステップ404において、当該方法が終了する。
図5を参照しながら、タググループに基づいてデータをマッシュアップする装置を説明する。図5は、タググループに基づいてデータをマッシュアップする装置を示すブロック図である。
図5に示されたように、タググループに基づいてデータをマッシュアップする装置501は、主に、分類ユニット503と、置換ユニット505とを含む。分類ユニット503は、前記タググループに対して分類を行う装置を使用して、入力されたデータにおけるタググループを、少なくとも一つのクラスに分類する。置換ユニット505は、同一のクラスにおける各タググループの各タグを、それぞれその所属する同義タグセットにおいて指定されたタグで置換する。これにより、同一のクラスにおける類似する各タグを同一のタググループに統一し、且つ取得された同一のタググループを使用して入力されたデータを新たに記述することができ、類似する内容意味を有するデータのマッシュアップが実現される。
前記のタググループに基づいてデータをマッシュアップする装置501は、実際に、前記のタググループに基づいてデータをマッシュアップする方法に対応する装置である。従って、ここではその詳細な説明を省略する。
図6は、本発明の装置及び方法を実現するコンピュータの例示的な構造を示すブロック図である。
図6において、中央処理ユニット(CPU)601は、リードオンリメモリ(ROM)602に記憶されたプログラムまたは記憶部608からランダムアクセスメモリ(RAM)603にロードしたプログラムに基づいて、各種の処理を実行する。RAM603において、必要に応じて、CPU601が各種の処理等を実行するときに必要なデータも記憶される。
CPU601、ROM602及びRAM603はバス604を介して互いに接続する。入力/出力インタフェース605もバス604に接続される。
キーボード、マウス等を含む入力部606と、ブラウン管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイとスピーカ等を含む出力部607と、ハードディスク等を含む記憶部608と、LANカード、モデム等のようなネットワークインターフェースカードを含む通信部609とは、入力/出力インタフェース605に接続されている。通信部609はネットワーク、例えばインターネットを経由して通信処理を実行する。
必要に応じて、入力/出力インタフェース605にはドライブ610も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のような取り外し可能な媒体611は、必要に応じてドライブ610に取り付けられており、その中から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
ソフトウェアにより前記ステップ及び処理が実現される場合には、ネットワーク例えばインターネット、または記憶媒体例えば取り外し可能な媒体611から、ソフトウェアを構成するプログラムをインストールする。
このような記憶媒体は、図6に示されたような、プログラムが記憶されており、方法と別に配布されることでユーザにプログラムを提供する取り外し可能な媒体611に限定されないことが、当業者にとって理解すべきである。取り外し可能な媒体611の例として、磁気ディスク、光ディスク(コンパクトディスクリードオンリメモリ(CD−ROM)やディジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)含む)及び半導体メモリを含む。または、記憶媒体は、ROM602、記憶部608に含まれるハードディスクなどであっても良い。その中にプログラムが記憶されており、ユーザに配布される。
以上、本発明の好ましい実施例を説明したが、本発明はこの実施例に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)コンピュータが、少なくとも一つのタグと、前記少なくとも一つのタグにより定義された相応するデータとを含むタググループに対して分類を行う方法であって、前記コンピュータが、同義のタグが属する同義タグセット群と、1つのデータリストのデータを定義するタグが属するタググループ群とから、あるグループに属するタグが、いずれの同義タグにいくつ現れるかを示す要素群を生成し、前記要素群から、各タググループに対応する特徴ベクトルを生成し、前記タググループを、各タググループの特徴ベクトルの類似度に応じてクラスに分類することを特徴とする分類を行う方法。
(付記2)前記コンピュータが、各クラスについて、クラスに分類されたタググループの特徴ベクタルの要素の値の和となるコア特徴ベクトルを算出し、分類されるべきタググループの特徴ベクトルと、分類先となる各クラスのコア特徴ベクトルとの類似度を求め、何れのコア特徴ベクトルとも類似しないと判断すると、新たなクラスを作成して該分類されるべきタググループを該作成した新たなクラスに分類することを特徴とする付記1に記載の分類を行う方法。
(付記3)少なくとも一つのタグと、前記少なくとも一つのタグにより定義された相応するデータとを含むタググループに対して分類を行う装置であって、同義のタグが属する同義タグセット群と、1つのデータリストのデータを定義するタグが属するタググループ群とから、あるグループに属するタグが、いずれの同義タグにいくつ現れるかを示す要素群を生成する第一のユニットと、前記要素群から、各タググループに対応する特徴ベクトルを生成する第二のユニットと、前記タググループを、各タググループの特徴ベクトルの類似度に応じてクラスに分類する第三のユニットと、を含む、ことを特徴とする分類を行う装置。
(付記4)各クラスについて、クラスに分類されたタググループの特徴ベクタルの要素の値の和となるコア特徴ベクトルを算出する第四のユニットと、分類されるべきタググループの特徴ベクトルと、分類先となる各クラスのコア特徴ベクトルとの類似度を求め、何れのコア特徴ベクトルとも類似しないと判断すると、新たなクラスを作成して該分類されるべきタググループを該作成した新たなクラスに分類する第五のユニットと、を含む、ことを特徴とする付記3に記載の分類を行う装置。
(付記5)コンピュータが、タググループに基づいてデータをマッシュアップする方法であって、前記コンピュータが、付記1又は2に記載の分類を行う方法で、タググループを少なくとも一つのクラスに分類し、同一のクラスにおける各タググループの各タグのそれぞれを、その所属する同義タグセットにおいて指定されたタグで置換することを特徴とするデータをマッシュアップする方法。
(付記6)タググループに基づいてデータをマッシュアップする装置であって、付記3又は4に記載の分類を行う装置で、タググループを少なくとも一つのクラスに分類する分類ユニットと、同一のクラスにおける各タググループの各タグのそれぞれを、その所属する同義タグセットにおいて指定されたタグで置換する置換ユニットと、を含む、ことを特徴とするデータをマッシュアップする装置。
(付記7)少なくとも一つのタグと、前記少なくとも一つのタグにより定義された相応するデータとを含むタググループに対して分類を行うプログラムであって、コンピュータに、同義のタグが属する同義タグセット群と、1つのデータリストのデータを定義するタグが属するタググループ群とから、あるグループに属するタグが、いずれの同義タグにいくつ現れるかを示す要素群を生成し、前記要素群から、各タググループに対応する特徴ベクトルを生成し、前記タググループを、各タググループの特徴ベクトルの類似度に応じてクラスに分類することを実行させるためのプログラム。
(付記8)付記7に記載のプログラムを記憶しているコンピュータ読み出し可能な記憶媒体。

Claims (8)

  1. コンピュータが、少なくとも一つのタグと、前記少なくとも一つのタグにより定義された相応するデータとを含むタググループに対して分類を行う方法であって、
    前記コンピュータが、
    同義のタグが属する同義タグセット群と、1つのデータリストのデータを定義するタグが属するタググループ群とから、あるグループに属するタグが、いずれの同義タグにいくつ現れるかを示す要素群を生成し、
    前記要素群から、各タググループに対応する特徴ベクトルを生成し、
    前記タググループを、各タググループの特徴ベクトルの類似度に応じてクラスに分類し、
    ここで、生成された前記特徴ベクトルのうち、各要素が前記同義タグセット群における異なる同義タグセットにそれぞれ対応し、各要素の値は対応するタググループのうちの、該要素に対応する同義タグセットに属するタグの数である、ことを特徴とする分類を行う方法。
  2. 前記コンピュータが、
    各クラスについて、クラスに分類されたタググループの特徴ベクトルの要素の値の和となるコア特徴ベクトルを算出し、
    分類されるべきタググループの特徴ベクトルと、分類先となる各クラスのコア特徴ベクトルとの類似度を求め、何れのコア特徴ベクトルとも類似しないと判断すると、新たなクラスを作成して該分類されるべきタググループを該作成した新たなクラスに分類する、
    ことを特徴とする請求項1に記載の分類を行う方法。
  3. 少なくとも一つのタグと、前記少なくとも一つのタグにより定義された相応するデータとを含むタググループに対して分類を行う装置であって、
    同義のタグが属する同義タグセット群と、1つのデータリストのデータを定義するタグが属するタググループ群とから、あるグループに属するタグが、いずれの同義タグにいくつ現れるかを示す要素群を生成する第一のユニットと、
    前記要素群から、各タググループに対応する特徴ベクトルを生成する第二のユニットと、
    前記タググループを、各タググループの特徴ベクトルの類似度に応じてクラスに分類する第三のユニットと、
    を含み、
    ここで、生成された前記特徴ベクトルのうち、各要素が前記同義タグセット群における異なる同義タグセットにそれぞれ対応し、各要素の値は対応するタググループのうちの、該要素に対応する同義タグセットに属するタグの数である、ことを特徴とする分類を行う装置。
  4. 各クラスについて、クラスに分類されたタググループの特徴ベクトルの要素の値の和となるコア特徴ベクトルを算出する第四のユニットと、
    分類されるべきタググループの特徴ベクトルと、分類先となる各クラスのコア特徴ベクトルとの類似度を求め、何れのコア特徴ベクトルとも類似しないと判断すると、新たなクラスを作成して該分類されるべきタググループを該作成した新たなクラスに分類する第五のユニットと、
    を含む、ことを特徴とする請求項3に記載の分類を行う装置。
  5. コンピュータが、タググループに基づいてデータをマッシュアップする方法であって、
    前記コンピュータが、
    請求項1又は2に記載の分類を行う方法で、タググループを少なくとも一つのクラスに分類し、
    同一のクラスにおける各タググループの各タグのそれぞれを、その所属する同義タグセットにおいて指定されたタグで置換する、
    ことを特徴とするデータをマッシュアップする方法。
  6. タググループに基づいてデータをマッシュアップする装置であって、
    請求項3又は4に記載の分類を行う装置で、タググループを少なくとも一つのクラスに分類する分類ユニットと、
    同一のクラスにおける各タググループの各タグのそれぞれを、その所属する同義タグセットにおいて指定されたタグで置換する置換ユニットと、
    を含む、ことを特徴とするデータをマッシュアップする装置。
  7. コンピュータに、請求項1又は2に記載の分類を行う方法を実行させるためのプログラム。
  8. 請求項7に記載のプログラムを記憶しているコンピュータ読み出し可能な記憶媒体。
JP2012079208A 2011-04-19 2012-03-30 タググループ分類方法、装置及びデータマッシュアップ方法、装置 Expired - Fee Related JP5928091B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110101514.2A CN102750289B (zh) 2011-04-19 2011-04-19 基于标签组对数据进行混合的方法和设备
CN201110101514.2 2011-04-19

Publications (2)

Publication Number Publication Date
JP2012226740A JP2012226740A (ja) 2012-11-15
JP5928091B2 true JP5928091B2 (ja) 2016-06-01

Family

ID=47030481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012079208A Expired - Fee Related JP5928091B2 (ja) 2011-04-19 2012-03-30 タググループ分類方法、装置及びデータマッシュアップ方法、装置

Country Status (2)

Country Link
JP (1) JP5928091B2 (ja)
CN (1) CN102750289B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016033335A1 (en) * 2014-08-27 2016-03-03 Sgk Media generation system and methods of performing the same
CN106202090B (zh) * 2015-05-04 2020-02-07 阿里巴巴集团控股有限公司 一种信息处理、搜索方法及装置、服务器
JP6366852B2 (ja) * 2016-02-29 2018-08-01 三菱電機株式会社 機器分類装置
CN107229615A (zh) * 2017-07-01 2017-10-03 王亚迪 一种网络个体或群体价值观自动辨别方法
US11663184B2 (en) 2017-07-07 2023-05-30 Nec Corporation Information processing method of grouping data, information processing system for grouping data, and non-transitory computer readable storage medium
CN110309294B (zh) * 2018-03-01 2022-03-15 阿里巴巴(中国)有限公司 内容集合的标签确定方法及装置
CN111143346B (zh) * 2018-11-02 2023-08-25 北京字节跳动网络技术有限公司 标签组的差异性确定方法、装置、电子设备及可读介质
CN110245265B (zh) * 2019-06-24 2021-11-02 北京奇艺世纪科技有限公司 一种对象分类方法、装置、存储介质及计算机设备
CN112434722B (zh) * 2020-10-23 2024-03-19 浙江智慧视频安防创新中心有限公司 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质
CN113010737B (zh) * 2021-03-25 2024-04-30 腾讯科技(深圳)有限公司 一种视频标签的分类方法、装置及存储介质
CN114529772B (zh) * 2022-04-19 2022-07-15 广东唯仁医疗科技有限公司 Oct三维图像分类方法、***、计算机装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
JP2008084192A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
CN100535904C (zh) * 2007-08-11 2009-09-02 腾讯科技(深圳)有限公司 检索在线广告资源的方法和装置
JP4745419B2 (ja) * 2009-05-15 2011-08-10 株式会社東芝 文書分類装置およびプログラム
CN101984437B (zh) * 2010-11-23 2012-08-08 亿览在线网络技术(北京)有限公司 音乐资源个性化推荐方法及***

Also Published As

Publication number Publication date
CN102750289B (zh) 2015-08-05
JP2012226740A (ja) 2012-11-15
CN102750289A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
JP5928091B2 (ja) タググループ分類方法、装置及びデータマッシュアップ方法、装置
Crainic et al. Scenario grouping in a progressive hedging-based meta-heuristic for stochastic network design
CN110192210A (zh) 构建和处理用于动态结构化机器学习模型的计算图
US8307366B2 (en) Post-processing phase in a distributed processing system using assignment information
WO2018025706A1 (ja) テーブル意味推定システム、方法およびプログラム
US11605002B2 (en) Program, information processing method, and information processing apparatus
US9141596B2 (en) System and method for processing markup language templates from partial input data
CN110515944B (zh) 基于分布式数据库的数据存储方法、存储介质和电子设备
US10162879B2 (en) Label filters for large scale multi-label classification
US20200379807A1 (en) Method, device, and computer program product for managing jobs in processing system
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
WO2023093375A1 (zh) 一种计算资源获取方法、装置、电子设备和存储介质
JP2015162109A (ja) タスク割り当てサーバ、タスク割り当て方法およびプログラム
WO2018025707A1 (ja) テーブル意味推定システム、方法およびプログラム
US20230032208A1 (en) Augmenting data sets for machine learning models
CN113516185A (zh) 模型训练的方法、装置、电子设备及存储介质
CN106383738B (zh) 任务处理方法和分布式计算框架
US20200050657A1 (en) Ontology creation assistance device
CN114091686B (zh) 数据处理方法、装置、电子设备和存储介质
Hosseinian et al. Algorithms for the generalized independent set problem based on a quadratic optimization approach
CN111178925B (zh) 用户画像的属性预测方法、装置、服务器和计算机可读介质
CN111859917A (zh) 主题模型构建方法、设备及计算机可读存储介质
JP7375096B2 (ja) 分散表現生成システム、分散表現生成方法及び分散表現生成プログラム
Kliegr et al. EasyMiner-Short History of Research and Current Development.
JP5942998B2 (ja) 線形制約条件生成装置及び方法、半正定値最適化問題求解装置、計量学習装置、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160411

R150 Certificate of patent or registration of utility model

Ref document number: 5928091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees