JP7070665B2 - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7070665B2
JP7070665B2 JP2020508875A JP2020508875A JP7070665B2 JP 7070665 B2 JP7070665 B2 JP 7070665B2 JP 2020508875 A JP2020508875 A JP 2020508875A JP 2020508875 A JP2020508875 A JP 2020508875A JP 7070665 B2 JP7070665 B2 JP 7070665B2
Authority
JP
Japan
Prior art keywords
account
content data
content
similar
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020508875A
Other languages
English (en)
Other versions
JPWO2019187107A1 (ja
Inventor
真宏 谷
一郁 児島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019187107A1 publication Critical patent/JPWO2019187107A1/ja
Application granted granted Critical
Publication of JP7070665B2 publication Critical patent/JP7070665B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明はユーザアカウントに関する。
Social Networking Service(SNS)などのように、ユーザがユーザアカウントを利用して種々の行動を行える環境を提供するサービスがある。例えば、ユーザアカウントに紐付けて、写真、動画、又はテキストメッセージのアップロードが行える。
ここで、同一の人物が複数のアカウントを所有することがある。この点に関し、非特許文献1は、複数のユーザアカウントそれぞれのユーザ名の類似度に基づいて、それらのユーザアカウントが同一人物によって所有されているか否かを判定する技術を開示している。
Y. Li, Y. Peng、W. Ji, Z. Zhang、及び Q. Xu、「User Identification Based on Display Names Across Online Social Networks」、IEEE Access、vol. 5、pp. 17342-17353、2017年8月25日
一般に、ユーザアカウントに登録するユーザ名は、ユーザの本名と関係のない任意の名前にすることができる。そのため、複数のユーザアカウントを作る人物は、それらのユーザアカウントに登録するユーザ名を互いに類似しないものにすることが可能である。そして、非特許文献1の技術では、このように互いに類似しないユーザ名が登録された複数のユーザアカウントについて、これらが同一の人物によって所有されているものであることを特定することは難しい。
本願発明は上記の課題に鑑みてなされたものであり、対比するユーザアカウントのユーザ名が互いに類似しない場合であっても、それらのユーザアカウントが同一人物によって所有されているか否かを精度よく検出できる技術を提供することである。
本発明の情報処理装置は、1)第1注目アカウントに関連付けられている第1関連アカウントによって公開されたコンテンツデータである第1コンテンツデータと、第2注目アカウントに関連付けられている第2関連アカウントによって公開されたコンテンツデータである第2コンテンツデータと、をそれぞれ取得し、第1コンテンツデータと第2コンテンツデータとが類似しているか否かを判定する判定部と、2)第1コンテンツデータと第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行部と、を有する。
本発明の制御方法は、コンピュータによって実行させる。当該制御方法は、1)第1の注目アカウントに関連付けられている第1の関連アカウントによって公開されたコンテンツデータである第1コンテンツデータと、第2の注目アカウントに関連付けられている第2の関連アカウントによって公開されたコンテンツデータである第2コンテンツデータと、をそれぞれ取得し、第1のコンテンツデータと第2のコンテンツデータとが類似しているか否かを判定する判定ステップと、2)第1のコンテンツデータと第2のコンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行ステップと、を有する。
本発明のプログラムは、コンピュータに、本発明の制御方法が有する各ステップを実行させる。
本発明によれば、対比するユーザアカウントのユーザ名が互いに類似しない場合であっても、それらのユーザアカウントが同一人物によって所有されているか否かを精度よく検出できる技術が提供される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本実施形態の情報処理装置が行う処理を概念的に示す図である。 実施形態1の情報処理装置の機能構成を例示する図である。 情報処理装置を実現するための計算機を例示する図である。 実施形態1の情報処理装置によって実行される処理の流れを例示するフローチャートである。 関連アカウントについて生成されるヒストグラムを例示する図である。 トピックのヒストグラムを例示する図である。 キーワードの出現頻度のヒストグラムを例示する図である。 話者の出現頻度のヒストグラムを例示する図である。 ディスプレイ装置に表示される通知を例示する図である。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
[実施形態1]
<概要>
図1は、本実施形態の情報処理装置2000が行う処理を概念的に示す図である。情報処理装置2000は、互いに異なるユーザアカウントの所有者が、互いに同一の人物であるか否かを推定する。ユーザアカウントには、例えば、ユーザ自身に関する情報であるユーザ情報と、アカウントに関連付けて登録された画像データやテキストデータなどの情報(以下、コンテンツ)が関連付けられている。ユーザ情報は、例えば氏名、住所、電話番号、又はメールアドレスなどである。
一般に、Social Networking Service(SNS)などにおいてユーザアカウントを作成する際、ユーザは、前述した種々のユーザ情報を入力する。その際、入力するユーザ情報の内容の正しさを証明することは要求されないケースが多く、このような場合には、ユーザ情報の内容を偽ることもできる。そのため、同一の人物が、ユーザ情報の内容が互いに異なる複数のアカウントを作成することができてしまう。すなわち、同一人物が複数のアカウントを所有できてしまう。このように「実際の所有者は互いに同一人物であるにもかかわらず、互いに異なるユーザ情報が登録されている」という性質を持つ複数のユーザアカウントについては、そのユーザアカウントのユーザ情報やコンテンツのみからでは、それらのユーザアカウントが互いに同一の人物に所有されているという事実を把握することが難しい。
また、SNS などのサービスは複数存在するため、同一人物が、複数のサービスにおいて、それぞれ異なるアカウント名でユーザアカウントを作成するケースもある。この場合、たとえユーザが偽りなくユーザ情報を登録していたとしても、ユーザ情報が非公開となっていれば、これら複数のユーザアカウントが互いに同一の人物によって所有されているという事実を把握することが難しい。
そこで本実施形態の情報処理装置2000は、ユーザアカウントに関連付けられている他のユーザアカウントに関連づけられているコンテンツを利用して、同一の人物に所有されている互いに異なるユーザアカウントを推定する。以下、同一人物に所有されているものかどうかの判定対象とするアカウントを注目アカウントと表記し、注目アカウントに関連付けられている他のアカウントを関連アカウントと呼ぶ。例えば SNS では、ユーザアカウント同士を友人として関連付ける機能が提供されていることが多い。そこで例えば、注目アカウントの友人として関連付けられているアカウントを関連アカウントして利用する。なお、どのアカウントを注目アカウントとして扱うかについては後述する。
図1の例では、情報処理装置2000は、注目アカウント10-1と注目アカウント10-2という2つの注目アカウントについて、これらが同一人物によって所有されるアカウントであるか否かを判定する。注目アカウント10-1には、関連アカウント20が複数存在する。ここで、注目アカウント10-1に関連づけられている関連アカウント20を、関連アカウント20-1と表記する。図1では、図を簡潔にするため、複数の関連アカウント20-1のうちの1つのみに符号を付している。関連アカウント20-1に関連づけられているコンテンツを、コンテンツ30-1と表記する。例えばコンテンツ30-1は、関連アカウント20-1に関連づけてアップロードされた画像データなどである。同様に、注目アカウント10-2の関連アカウントを関連アカウント20-2と表記し、関連アカウント20-2に関連づけられているコンテンツをコンテンツ30-2と表記する。以下、「関連アカウント20に関連づけられているコンテンツ30」を、単に「関連アカウント20のコンテンツ30」とも表記する。
情報処理装置2000は、関連アカウント20-1のコンテンツ30-1と、関連アカウント20-2のコンテンツ30-2とが類似しているか否かを判定する。これらが類似している場合、注目アカウント10-1と注目アカウント10-2が同一人物のものであると推定できる。そこで情報処理装置2000は、これらが類似している場合、注目アカウント10-1と注目アカウント10-2に関して所定の処理を行う。例えば情報処理装置2000は、所定の処理として、注目アカウント10-1と注目アカウント10-2とが同一の人物のものである旨を示す通知を出力する。
<作用効果>
本実施形態の情報処理装置2000によれば、注目アカウント10-1に関連づけられている関連アカウント20-1のコンテンツ30-1と、注目アカウント10-2に関連づけられている関連アカウント20-2のコンテンツ30-2との類似度合いを判定する。ここで、これらの類似度が高い場合、注目アカウント10-1と注目アカウント10-2とが同一人物によって所有されていると推定できる。以下、その理由を説明する。
注目アカウント10-1に関連づけられている関連アカウント20-1は、例えば注目アカウント10-1の所有者の友人など、注目アカウント10-1の所有者と何らかのつながりを持っている人物であると考えられる。そのため、関連アカウント20-1の所有者が関連アカウント20-1に関連づけてアップロード等するコンテンツ30-1の中には、注目アカウント10-1に関係する何らかの情報を含むものが存在する蓋然性が高い。言い換えれば、関連アカウント20-1によって公開される情報には、注目アカウント10-1に関係する何らかの情報が漏れ出ている蓋然性が高い。例えば、関連アカウント20-1がアップロードする写真や動画に、注目アカウント10-1の所有者、注目アカウント10-1の所有者の所有物(車両など)、注目アカウント10-1が訪れた場所を表すランドマークなどが含まれている蓋然性が高い。また、関連アカウント20-1がアップロードするテキストデータや音声データにも、注目アカウント10-1に関係する何らかの情報が含まれている蓋然性が高い。
同様に、関連アカウント20-2の所有者が関連アカウント20-2に関連づけてアップロード等するコンテンツ30-2の中には、注目アカウント10-2に関係する何らかの情報を含むものが存在する蓋然性が高い。このことから、関連アカウント20-1のコンテンツ30-1と、関連アカウント20-2のコンテンツ30-2とが類似していることは、コンテンツ30-1に含まれている注目アカウント10-1に関係する情報と、コンテンツ30-2に含まれている注目アカウント10-2に関係する情報とが類似していることを表している蓋然性が高いといえる。
そこで情報処理装置2000は、コンテンツ30-1とコンテンツ30-2とが類似している場合に、注目アカウント10-1の所有者と注目アカウント10-2の所有者が同一の人物である蓋然性が高いと推定する。こうすることで、注目アカウント10-1のユーザ情報と注目アカウント10-2のユーザ情報とを比較するだけではこれらのアカウントが同一の人物によって所有されているものであるかどうかが分からない場合でも、注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されるアカウントであるか否かを推定することができる。
なお、図1を参照した上述の説明は、情報処理装置2000の理解を容易にするための例示であり、情報処理装置2000の機能を限定するものではない。以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。
<情報処理装置2000の機能構成の例>
図2は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、判定部2020及び処理実行部2040を有する。判定部2020は、注目アカウント10-1に関連付けられている関連アカウント20-1のコンテンツ30-1と、注目アカウント10-2に関連付けられている関連アカウント20-2のコンテンツ30-2とが類似しているか否かを判定する。処理実行部2040は、コンテンツ30-1とコンテンツ30-2とが類似している場合に、注目アカウント10-1と注目アカウント10-2に関する所定の処理を行う。
<情報処理装置2000のハードウエア構成>
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図3は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)やサーバマシンなどである。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
ストレージデバイス1080は、情報処理装置2000の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
<処理の流れ>
図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。判定部2020は、注目アカウント10-1に関連付けられている各関連アカウント20-1のコンテンツ30-1を取得する(S102)。判定部2020は、注目アカウント10-2に関連づけられている各関連アカウント20-2のコンテンツ30-2を取得する(S104)。判定部2020は、コンテンツ30-1とコンテンツ30-2が類似しているか否かを判定する(S106)。これらが類似している場合(S106:YES)、処理実行部2040は所定の処理を実行する(S108)。一方、これらが類似していない場合(S106:NO)、図4の処理は終了する。
<ユーザアカウントについて>
前述したように、注目アカウント10や関連アカウント20は、例えば SNS などのサービスでユーザが作成するユーザアカウントである。一般に、このようなユーザアカウントは、氏名などのユーザ情報を登録することで作成され、継続して使用される。
しかしながら、情報処理装置2000が扱うユーザアカウントは、このようにユーザ情報を登録することで生成されるものに限定されない。例えば、Web ページ上の掲示板などでは、ユーザがコンテンツの投稿(テキストデータのアップロードなど)を行う際、その投稿に対して識別子が割り当てられる。情報処理装置2000は、この識別子をユーザアカウントとして扱ってもよい。この場合、例えば或るユーザが掲示板サイトにコンテンツを投稿し、その投稿に対して他のユーザがコメントをした場合、前者と後者のいずれか一方を注目アカウント10として扱い、他方の関連アカウント20として扱うことができる。
<注目アカウント10について>
情報処理装置2000は、2つの注目アカウント10-1と注目アカウント10-2について、これらのアカウントが同一の人物のものであるか否かを推定する。ここで、注目アカウント10-1と注目アカウント10-2は、互いに同一のサービス(例えば SNS)を利用するためのユーザアカウントであってもよいし、互いに異なるサービスを利用するためのユーザアカウントであってもよい。
ここで、複数のユーザアカウントのうち、どのユーザアカウントを注目アカウント10として扱うかを決める方法には、種々の方法がある。以下、その方法のバリエーションを例示する。
<<注目アカウント10を決める方法1>>
例えば情報処理装置2000は、注目アカウント10として扱うユーザアカウントの指定を、情報処理装置2000のユーザから受け付ける。ユーザによって指定されるユーザアカウントは、2つであってもよいし、3つ以上であってもよい。3つ以上のユーザアカウントが指定された場合、例えば情報処理装置2000は、指定されたユーザアカウントについて作成可能な任意の2つのユーザアカウントの組み合わせ(n-2 combination)それぞれについて、その組み合わせに含まれる2つのユーザカウントを注目アカウント10として扱った処理を行う。すなわち、A、B、及びCというユーザアカウントを指定されたら、AとBを注目アカウント10とした処理、AとCを注目アカウント10とした処理、BとCを注目アカウント10とした処理をそれぞれ実行する。
<<注目アカウント10を決める方法2>>
例えば情報処理装置2000は、注目アカウント10として扱うユーザアカウントを1つ指定する入力を、ユーザから受け付ける。情報処理装置2000は、ユーザによって指定されたユーザアカウントを注目アカウント10-1として扱う。さらに情報処理装置2000は、注目アカウント10-1のユーザ情報と類似するユーザ情報を持つ他のユーザアカウントを、注目アカウント10-2として扱う。ここでいうユーザ情報間の類似は、例えば、種々の情報の一部(ユーザIDの一部、名前の一部、生年月日の一部、又はメールアドレスの一部など)が共通していることである。注目アカウント10-1のユーザ情報と類似するユーザ情報を持つ他のユーザアカウントが複数存在する場合、情報処理装置2000は、それら複数のユーザアカウントそれぞれを注目アカウント10-2として扱う。
<<注目アカウント10を決める方法3>>
情報処理装置2000は、ユーザアカウントを監視する監視システムと連携して動作し、この監視システムからユーザアカウントの指定を受け付けてもよい。例えばこの監視システムは、ユーザアカウントの利用態様(アップロードされるコンテンツの内容やアップロードの頻度など)を監視し、その利用態様が常識、サービスの利用規約、又は法律などに反しているユーザアカウントを特定する(すなわち、要注意のユーザアカウントを特定する)。監視システムは、特定したユーザアカウントを情報処理装置2000に通知する。情報処理装置2000は、監視システムから通知された複数のユーザアカウントについて作成可能な任意の2つのユーザアカウントの組み合わせそれぞれについて、その組み合わせに含まれる2つのユーザカウントを注目アカウント10として扱った処理を行う。なお、監視システムがユーザアカウントを1つずつ通知する場合、情報処理装置2000は、例えば所定期間の間に受けた複数の通知によって示される複数のユーザアカウントについて、上述した処理を行う。
<関連アカウント20について>
前述したように、関連アカウント20は、注目アカウント10に関連付けられている他のアカウントであり、例えば SNS において注目アカウント10と友人関係にあるアカウントである。注目アカウント10に複数の関連アカウント20が関連づけられている場合、判定部2020は、その全ての関連アカウント20についてコンテンツ30を取得してもよいし、その一部の関連アカウント20についてコンテンツ30を取得してもよい。一部の関連アカウント20についてコンテンツ30を取得する場合、判定部2020は、例えば複数の関連アカウント20から所定数の関連アカウント20を任意に(例えばランダムに)選択する。
<コンテンツ30の取得:S102、S104>
判定部2020は、関連アカウント20-1に関連づけられているコンテンツ30-1と、関連アカウント20-2に関連づけられているコンテンツ30-2を取得する(S102、S104)。例えば判定部2020は、各関連アカウント20について、その関連アカウント20のコンテンツ30が公開されている Web ページへ順次アクセスすることで、これらの Web ページから各コンテンツ30を自動的に収集する。
また、SNS などのサービスでは、ユーザアカウントに関連づけられているコンテンツを取得するための API(Application Programming Interface) が提供されていることがある。そこで判定部2020は、関連アカウント20が利用しているサービスで提供されている API を利用して、関連アカウント20のコンテンツ30を取得してもよい。
なお、判定部2020は、関連アカウント20に関連づけられているコンテンツ30の全てを取得してもよいし、所定の種類のコンテンツ30のみを取得してもよい。例えば、類似判定の対象を画像データのみとする場合、判定部2020は、関連アカウント20に関連づけられている画像データをコンテンツ30として取得する。
<コンテンツデータの比較:S106>
判定部2020は、関連アカウント20-1のコンテンツデータと関連アカウント20-2のコンテンツデータとを比較し、これらの類似度合いが高い場合に、注目アカウント10-1と注目アカウント10-2が同一人物によって所有されていると推定する。この処理は、1)どの種類のコンテンツデータを比較対象とするか、及び2)どのような比較を行うかという点について、様々なバリエーションを採用しうる。以下、この2点に着目して、コンテンツデータの比較について説明する。
<<画像データの比較>>
比較対象とするコンテンツデータの種類として、画像データが考えられる。例えば、SNS では、ユーザアカウントを利用して、人、建物、又は風景などの写真の画像データがアップロードされる。判定部2020は、このようにユーザカウントを利用してアップロードされた画像データを、そのユーザアカウントに関連づけられたコンテンツとして扱う。また、ユーザは、画像データが含まれる Web ページを参照する(リンクする)投稿を行ったり、他のユーザによってアップロードされた画像データを参照する投稿を行ったりすることもある。判定部2020は、このようにユーザが参照した画像データも、そのユーザのアカウントに関連付けられたコンテンツデータとして扱ってよい。なお、画像データには、動画データを構成する動画フレームも含まれる。画像データを利用することには、関連アカウント20-1で使用されている言語と関連アカウント20-2で使用されている言語が異なる場合であっても、コンテンツ30-1とコンテンツ30-2の類似を判定しやすいといった利点がある。以下、画像データに関する具体的な比較方法について、いくつか例示する。
<<<画像データに関する比較の方法1>>>
判定部2020は、関連アカウント20-1に関連付けられた画像データから検出されるオブジェクトと、関連アカウント20-2に関連付けられた画像データから検出されるオブジェクトの類似度に着目する。例えば、判定部2020は、関連アカウント20-1に関連付けられた画像データから検出されるオブジェクトと、関連アカウント20-2に関連付けられた画像データから検出されるオブジェクトとの間で類似度を算出する。そして判定部2020は、類似度が所定値以上であるオブジェクトの組み(すなわち、互いに同一であると推定されるオブジェクトの組み)の数が所定数以上である場合に、関連アカウント20-1のコンテンツデータと関連アカウント20-2のコンテンツデータの類似度が高いと判定する。一方、類似度が所定値以上であるオブジェクトの組みの数が所定数未満である場合、判定部2020は、関連アカウント20-1のコンテンツデータと関連アカウント20-2のコンテンツデータの類似度が高くないと判定する。上記所定数は、判定部2020からアクセス可能な記憶装置に予め記憶させておく。
ここで、画像データ32から検出するオブジェクトは、任意の種類のオブジェクトであってもよいし、特定の種類のオブジェクトであってもよい。後者の場合、例えば画像データ32に含まれるオブジェクトのうち、人物のみを検出対象とする。
なお、画像データからオブジェクトを検出する技術や、検出されたオブジェクトの類似度合いを判定する技術には、既存の技術を利用することができる。
<<<画像データに関する比較の方法2>>>
判定部2020は、関連アカウント20-1と関連アカウント20-2のそれぞれについて、関連付けられた画像データにおけるオブジェクトの出現頻度の分布を表すヒストグラムを生成し、ヒストグラム間の類似度合いを判定する。図5は、関連アカウント20について生成されるヒストグラムを例示する図である。図5では、関連アカウント20に複数の画像データ32が対応づけられている。ヒストグラム40は、画像データ32から検出されるオブジェクトの出現頻度の分布である。以下、関連アカウント20-1に関連づけられている画像データ32を画像データ32-1と表記し、画像データ32-1について生成されるヒストグラム40をヒストグラム40-1と表記する。同様に、関連アカウント20-2に関連づけられている画像データ32を画像データ32-2と表記し、画像データ32-2について生成されるヒストグラム40をヒストグラム40-2と表記する。
判定部2020は、ヒストグラム40-1とヒストグラム40-2の類似度合いを判定する。例えば判定部2020は、ヒストグラム40-1とヒストグラム40-2の類似度を算出し、算出した類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、ヒストグラム40-1とヒストグラム40-2との類似度が所定値未満である場合、判定部2020は、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。ここで、2つのヒストグラムの類似度を算出する技術には、既存の技術を利用することができる。また、上記所定値は、判定部2020からアクセス可能な記憶装置に記憶させておく。
ヒストグラム40-1とヒストグラム40-2は、例えば以下のように生成される。まず判定部2020は、各画像データ32-1を対象としてオブジェクト認識処理を行うことで、それぞれに含まれるオブジェクトを認識する。さらに判定部2020は、各オブジェクトの出現数をカウントすることで、オブジェクトの出現頻度の分布を表すヒストグラム40-1を生成する。
ここで、判定部2020は、画像データ32-1から検出される各オブジェクトに識別子を割り当てている。この際、例えば判定部2020は、互いに同じオブジェクトには同一の識別子を割り当てることにより、各オブジェクトを識別可能にすることで、オブジェクトの出現数をカウントできるようにする。そのためには、画像データ32から検出される各オブジェクトが同一であるか否かを判断すること(オブジェクトの同定)が必要である。すなわち、判定部2020は、画像データ32から検出したオブジェクトに識別子を割り当てる際、そのオブジェクトが既に検出されている他のオブジェクトと同じものであれば、当該既に検出されているオブジェクトに割り当てた識別子と同じものを割り当てる。一方、そのオブジェクトが既に検出されているいずれのオブジェクトとも異なる場合、どのオブジェクトにも割り当てていない新規の識別子を割り当てる。
判定部2020は、画像データ32-2についても同様の処理を行うことにより、ヒストグラム40-2を生成する。この際、画像データ32-2から検出されたオブジェクトについては、他の画像データ32-2から検出されたオブジェクトとの同定だけでなく、画像データ32-1から検出されたオブジェクトとの同定も行う。すなわち、画像データ32-2から検出されたオブジェクトと同じオブジェクトが画像データ32-1から既に検出されている場合、判定部2020は、当該既に検出されているオブジェクトに割り当てた識別子を、画像データ32-2から検出されたオブジェクトにも割り当てる。オブジェクトの同定には、既存の種々の技術を利用することができる。
ここで、ヒストグラム40-1とヒストグラム40-2の比較は、ヒストグラム40-1とヒストグラム40-2の一部のみを用いて行われてもよい。例えば判定部2020は、ヒストグラム40-1において出現頻度が上位N位(Nは2以上の自然数)までのオブジェクトの出現頻度と、ヒストグラム40-2において出現頻度が上位N位までのオブジェクトの出現頻度とを比較することにより、ヒストグラム40-1とヒストグラム40-2の類似度を算出する。
<<<画像データに関する比較の方法3>>>
画像データに関する比較は、画像データから検出したオブジェクトについての比較ではなく、画像データのトピックについての比較で実現してもよい。ここで、或るデータにおけるトピックとは、そのデータによって表現されている主たる物事や事象を意味する。例えば、仕事、食事、スポーツ、旅行、ゲーム、又は政治といったトピックが考えられる。判定部2020は、関連アカウント20に関連付けられた各画像データ32をトピックで分類する。ここで、画像データをトピックで分類する技術には、既存の技術を利用することができる。
例えば判定部2020は、画像データ32-1と画像データ32-2のそれぞれについて、トピックの出現頻度のヒストグラムを生成する。図6は、トピックのヒストグラムを例示する図である。判定部2020は、画像データ32-1から生成されたトピックのヒストグラムと、画像データ32-2から生成されたトピックのヒストグラムとの類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、画像データ32-1から生成されたトピックのヒストグラムと、画像データ32-2から生成されたトピックのヒストグラムとの類似度が所定値未満である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。
<<テキストデータに関する比較>>
判定部2020は、前述した画像データ32に関する比較と同様の比較を、関連アカウント20に関連付けられたテキストデータについて行ってもよい。例えば SNS において、ユーザの考えたことやユーザの近況などといった情報を表すテキストデータが、ユーザアカウントに関連付けてアップロードされる。判定部2020は、例えばこのようにユーザによってアップロードされたテキストデータを、コンテンツ30として扱う。
その他にも例えば、ユーザは、Web ページを参照する投稿、他のユーザがアップロードしたテキストデータを参照する投稿、他のユーザのコンテンツに対するコメントの投稿などを行ったりすることもある。判定部2020は、このようにユーザが参照した Web ページに含まれるテキストデータや他のユーザがアップロードしたテキストデータ、及び他のユーザのコンテンツに対するコメントを表すテキストデータも、ユーザのアカウントに関連付けられたコンテンツデータとして扱ってよい。以下、テキストデータに関する具体的な比較方法について、いくつか例示する。
<<<テキストデータに関する比較の方法1>>>
例えば判定部2020は、関連アカウント20-1に関連付けられたテキストデータと、関連アカウント20-2に関連付けられたテキストデータとから、キーワードの抽出を行う。例えば判定部2020は、双方のテキストデータで共通に現れるキーワードの数が所定数以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高いと判定する。一方、判定部2020は、双方のテキストデータで共通に現れるキーワードの数が所定数未満である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高くないと判定する。
ここで、テキストデータから抽出するキーワードは、任意の単語であってもよいし、特定の単語であってもよい。後者の場合、例えばキーワードとして採用する単語のリストを予め用意しておき、そのリストに含まれる単語のみをキーワードとして抽出するようにする。なお、テキストデータからキーワードを抽出する技術には、既存の技術を利用することができる。
<<<テキストデータに関する比較の方法2>>>
例えば判定部2020は、関連アカウント20に関連付けられた画像データから検出されるオブジェクトの出現頻度のヒストグラムに関する比較と同様の比較を、関連アカウント20に関連付けられたテキストデータから抽出されるキーワードについて行ってもよい。具体的には、判定部2020は、関連アカウント20-1と関連アカウント20-2のそれぞれについて、関連付けられたテキストデータにおけるキーワードの出現頻度の分布を表すヒストグラムを生成し、ヒストグラム間の類似度合いを判定する。
図7は、キーワードの出現頻度のヒストグラムを例示する図である。図7では、関連アカウント20に関連づけられているテキストデータ34について、ヒストグラム50が生成されている。以下、関連アカウント20-1に関連づけられているテキストデータ34をテキストデータ34-1と表記し、テキストデータ34-1から生成されるヒストグラム50をヒストグラム50-1と表記する。同様に、関連アカウント20-2に関連づけられているテキストデータ34をテキストデータ34-2と表記し、テキストデータ34-2から生成されるヒストグラム50をヒストグラム50-2と表記する。
例えば判定部2020は、ヒストグラム50-1とヒストグラム50-2の類似度を算出し、その類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、ヒストグラム50-1とヒストグラム50-2との類似度が所定値未満である場合、判定部2020は、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。上記所定値は、判定部2020からアクセス可能な記憶装置に予め記憶させておく。
ここで、ヒストグラム50-1とヒストグラム50-2の比較は、ヒストグラム40-1とヒストグラム40-2の比較と同様に、ヒストグラムの一部のみ(例えば上N位まで)を用いて行われてもよい。
<<<テキストデータに関する比較の方法3>>>
判定部2020は、テキストデータ34から抽出されるトピックの出現頻度についての比較により、コンテンツ30-1とコンテンツ30-2の類似度合いを判定してもよい。テキストデータ34から抽出されるトピックの出現頻度について比較する方法は、前述した、画像データから抽出されるトピックの出現頻度について比較すると同様である。なお、テキストデータからトピックを抽出する技術には、既存の技術を利用することができる。
<<音声データに関する比較>>
判定部2020は、関連アカウント20に関連づけられている音声データを、コンテンツ30として扱ってもよい。ここでいう音声データは、音声単体で生成されたデータだけでなく、動画データに含まれる音声のデータも含まれる。以下、音声データに関する比較の方法について例示する。
<<<音声データに関する比較の方法1>>>
判定部2020は、関連アカウント20-1に関連付けられた音声データと、関連アカウント20-2に関連付けられた音声データのそれぞれから、キーワードを抽出する。そして、これら音声データから抽出されたキーワードを、前述したテキストデータから抽出されたキーワードと同様に扱うことで、コンテンツ30-1とコンテンツ30-2の類似度合いを判定する。すなわち、共通するキーワードの数や、キーワードの出現頻度を表すヒストグラムの比較により、コンテンツ30-1とコンテンツ30-2の類似度合いを判定する。
<<<音声データに関する比較の方法2>>>
判定部2020は、関連アカウント20-1に関連づけられた音声データから抽出されるトピックの出現頻度と、関連アカウント20-2に関連づけられた音声データから抽出されるトピックの出現頻度とを比較することで、コンテンツ30-1とコンテンツ30-2の類似度合いを判定する。トピックの出現頻度について比較する方法は、前述した、画像データから抽出されるトピックの出現頻度について比較すると同様である。なお、音声データからトピックを抽出する技術には、既存の技術を利用することができる。
<<<音声データに関する比較の方法3>>>
判定部2020は、関連アカウント20-1に関連付けられた音声データと、関連アカウント20-2に関連付けられた音声データのそれぞれに対し、話者の抽出を行う。音声データについて話者の抽出を行う手法には、例えば、声紋識別などの既存の技術を利用することができる。例えば、音声データから、声紋を表すサウンドスペクトログラムデータを生成し、このサウンドスペクトログラムデータを識別情報として利用することで、話者を識別するといった手法がある。
例えば判定部2020は、関連アカウント20-1と関連アカウント20-2のそれぞれについて、関連づけられた音声データにから抽出される話者の出現頻度のヒストグラムを生成する。図8は、話者の出現頻度のヒストグラムを例示する図である。図8では、関連アカウント20に関連づけられている音声データ36について、話者の出現頻度のヒストグラム60が生成されている。以下、関連アカウント20-1に関連づけられている音声データ36を音声データ36-1と表記し、音声データ36-1から生成されるヒストグラム60をヒストグラム60-1と表記する。同様に、関連アカウント20-2に関連づけられている音声データ36を音声データ36-2と表記し、音声データ36-2から生成されるヒストグラム60をヒストグラム60-2と表記する。
例えば判定部2020は、ヒストグラム60-1とヒストグラム60-2の類似度を算出し、その類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、ヒストグラム60-1とヒストグラム60-2との類似度が所定値未満である場合、判定部2020は、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。上記所定値は、判定部2020からアクセス可能な記憶装置に予め記憶させておく。
ここで、ヒストグラム60-1とヒストグラム60-2の比較は、ヒストグラム40やヒストグラム50の比較と同様に、ヒストグラムの一部のみ(例えば上N位まで)を用いて行われてもよい。
音声データ36から抽出される話者に基づく比較は、ヒストグラムの比較に限定されない。例えば判定部2020は、「テキストデータに関する比較の方法1」で説明した方法と同様の比較方法を用いてもよい。すなわち、判定部2020は、関連アカウント20-1に関連付けられた音声データ36と、関連アカウント20-2に関連づけられた音声データ36で共通に現れる話者の数が所定数以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高いと判定する。一方、判定部2020は、双方の音声データ36で共通に現れる話者の数が所定数未満である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高くないと判定する。
<所定の処理>
前述したように、関連アカウント20-1に関連付けられたコンテンツ30-1と、関連アカウント20-2に関連付けられたコンテンツ30-2の類似度が高いと判定された場合、注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されている蓋然性が高い。そこで処理実行部2040は、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定された場合、注目アカウント10-1と注目アカウント10-2について、所定の処理を行う。以下、処理実行部2040が行う処理のバリエーションを例示する。
<<所定の処理1>>
例えば処理実行部2040は、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定された場合、注目アカウント10-1及び注目アカウント10-2が同一の人物によって所有されている蓋然性が高いことを表す情報を出力する。この情報が出力されることにより、この情報を取得した情報処理装置2000のユーザは、同一人物によって所有されている蓋然性が高い注目アカウント10の組みを容易に把握することができる。
上記情報の出力方法は様々である。例えば処理実行部2040は、注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されている蓋然性が高いことを表す通知を、情報処理装置2000に接続されているディスプレイ装置に表示させる。図9は、ディスプレイ装置に表示される通知を例示する図である。その他にも例えば、処理実行部2040は、上記通知を、情報処理装置2000と通信可能に接続されている他のコンピュータに送信したり、情報処理装置2000と通信可能に接続されている記憶装置に記憶させたりしてもよい。
また、情報処理装置2000が、注目アカウント10-1と注目アカウント10-2の複数の組み合わせについて、判定部2020による判定を行うとする。この場合、同一人物に所有されている蓋然性が高い注目アカウント10の組み合わせが、複数見つかることがある。そこで処理実行部2040は、同一の人物によって所有されている蓋然性が高い注目アカウント10の組み合わせを1つ以上示すリストを生成し、そのリストを前述した種々の方法で出力してもよい。このようなリストを出力することにより、情報処理装置2000のユーザが、同一人物によって所有されている蓋然性が高い注目アカウント10の複数の組みを容易に把握することができる。
<<所定の処理2>>
その他にも例えば、処理実行部2040は、コンテンツ30-1とコンテンツ30-2の類似度合いが高いと判定された場合、コンテンツ30-1及びコンテンツ30-2に関する情報を出力する。以下、この情報を類似コンテンツ情報と呼ぶ。類似コンテンツ情報を出力することにより、情報処理装置2000のユーザは、同一人物によって所有されている蓋然性が高いと推定される注目アカウント10-1と注目アカウント10-2について、その推定の根拠となる情報を取得することができる。以下に、類似コンテンツ情報のバリエーションを例示する。
<<<バリエーション1:オブジェクトの画像>>>
判定部2020が、画像データ32から抽出したオブジェクトの比較を行うとする。この場合、例えば処理実行部2040は、画像データ32について生成されるオブジェクトの出現頻度を表すヒストグラム40(図5参照)を類似コンテンツ情報に含める。ここで、ヒストグラム40と共に、ヒストグラム40が示す各オブジェクトの画像を類似コンテンツ情報に含めてもよい。その他にも例えば、処理実行部2040は、画像データ32-1から抽出されたオブジェクトと、画像データ32-2から抽出されたオブジェクトのうち、互いに類似していると判定されたオブジェクトの画像の組み合わせを、類似コンテンツ情報に含める。なお、類似コンテンツ情報にオブジェクトの画像を含める場合、そのオブジェクトが含まれている画像データ32全体を類似コンテンツ情報に含めてもよい。
さらに処理実行部2040は、類似コンテンツ情報に含めるオブジェクトの画像について解析処理を行い、その結果を類似コンテンツ情報に含めてもよい。例えば処理実行部2040は、類似コンテンツ情報に含めるオブジェクト画像の中に人物の画像がある場合、その画像の人物の属性(年齢、身長、体型、及び性別)を推定してその結果を類似コンテンツ情報に含めたり、その画像の人物の附帯物(眼鏡、服装、荷物など)についての特徴を算出してその特徴に関する情報を類似コンテンツ情報に含めたりしてもよい。その他にも例えば、人物の画像の中からその人物の特徴を表す部位(顔、ほくろ、入れ墨、爪、又は指紋など)の画像を抽出して、その部位の画像を類似コンテンツ情報に含めてもよい。
その他にも例えば、類似コンテンツ情報に含めるオブジェクト画像の中に車両(車、バイク、自転車など)の画像がある場合、処理実行部2040は、その車両のメーカ、車種、ナンバープレートの番号などを割り出して、割り出した情報を類似コンテンツ情報に含める。
その他にも例えば、類似コンテンツ情報に含めるオブジェクト画像の中に、撮影場所(画像データ32が生成された場所)の特定に利用できるランドマーク(建物、標識、山、川、海など)の画像がある場合、処理実行部2040は、そのランドマークの名称を類似コンテンツ情報に含める。また、処理実行部2040は、そのランドマークの所在地を特定し、その所在地を表す情報(住所や GPS(Global Positioning System)座標)を類似コンテンツ情報に含めてもよい。なお、ランドマークの所在地は、例えば地図情報などを利用することで特定することができる。
<<<バリエーション2:キーワード>>>
判定部2020が、テキストデータや音声データから抽出したキーワードの比較を行うとする。この場合、例えば処理実行部2040は、キーワードについて生成されたヒストグラム(図7参照)を類似コンテンツ情報に含める。この際、ヒストグラムが示す各キーワードを類似コンテンツ情報に含めてもよい。その他にも例えば、処理実行部2040は、コンテンツ30-1から抽出されたキーワードと、コンテンツ30-2から抽出されたキーワードのうち、互いに一致すると判定されたキーワードを、類似コンテンツ情報に含める。
なお、キーワードがテキストデータから抽出された場合、処理実行部2040は、互いに一致すると判定されたキーワードだけでなく、そのキーワードが含まれていたセンテンスやテキストデータ全体を類似コンテンツ情報に含めてもよい。また、キーワードが音声データから抽出された場合、処理実行部2040は、互いに一致すると判定されたキーワードだけでなく、そのキーワードが含まれていた発言の音声データやキーワードが抽出された音声データ全体を類似コンテンツ情報に含めてもよい。
<<<バリエーション3:話者>>>
判定部2020が、音声データから話者の抽出を行うとする。この場合、例えば判定部2020は、話者の出現頻度を表すヒストグラム60(図8参照)を類似コンテンツ情報に含める。この際、ヒストグラムによって示される各話者のサウンドスペクトログラムデータを類似コンテンツ情報に含めてもよい。その他にも例えば、音声データ36-1から抽出された話者と、音声データ36-2から抽出された話者のうち、互いに一致すると判定された話者のサウンドスペクトログラムデータを類似コンテンツ情報に含める。
<<<バリエーション4:トピック>>>
判定部2020が、コンテンツ30から抽出したトピックの比較を行うとする。この場合、例えば処理実行部2040は、コンテンツ30から抽出されたトピックの出現頻度を表すヒストグラム(図6参照)を類似コンテンツ情報に含める。その他にも例えば、処理実行部2040は、コンテンツ30-1から抽出されたトピックと、コンテンツ30-2から抽出されたトピックのうち、互いに一致すると判定されたトピックを表す情報(トピックの名称など)を、類似コンテンツ情報に含める。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
例えば情報処理装置2000は、コンテンツ30-1とコンテンツ30-2が類似している場合に、「注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されている」と推定する代わりに、「注目アカウント10-1の所有者と注目アカウント10-2の所有者が互いに同一のグループに属している」と推定してもよい。この場合、処理実行部2040は、「注目アカウント10-1及び注目アカウント10-2が同一の人物によって所有されている蓋然性が高いことを表す情報」の代わりに、「注目アカウント10-1の所有者がと注目アカウント10-2の所有者が同一のグループの属している蓋然性が高いことを表す情報」を出力する。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1.
第1注目アカウントに関連付けられている第1関連アカウントと第2注目アカウントに関連付けられている第2関連アカウントについて、前記第1関連アカウントに関連づけられている第1コンテンツデータと前記第2関連アカウントに関連付けられている第2コンテンツデータとが類似しているか否かを判定する判定部と、
前記第1コンテンツデータと前記第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行部と、を有する情報処理装置。
2.
前記判定部は、前記第1関連アカウントに関連付けられている画像データに含まれるオブジェクトの出現頻度の分布と、前記第2関連アカウントに関連づけられている画像データに含まれるオブジェクトの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、1.に記載の情報処理装置。
3.
前記判定部は、前記第1関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布と、前記第2関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、1.に記載の情報処理装置。
4.
前記判定部は、前記第1関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布と、前記第2関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、1.に記載の情報処理装置。
5.
前記判定部は、前記第1関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布と、前記第2関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、1.に記載の情報処理装置。
6.
前記処理実行部は、前記所定の処理として、前記第1注目アカウントと前記第2注目アカウントが同一人物によって所有されている蓋然性が高い旨を示す情報、又は前記第1注目アカウントの所有者と前記第2注目アカウントの所有者とが同一のグループに属している蓋然性が高い旨を示す情報を出力する、1.乃至5.いずれか一つに記載の情報処理装置。
7.
前記処理実行部は、前記所定の処理として、前記判定部によって生成された前記分布を出力する、2.乃至5.いずれか一つに記載の情報処理装置。
8.
前記処理実行部は、前記所定の処理として、前記第1コンテンツデータと前記第2コンテンツデータのうち、互いに一致又は類似するコンテンツデータを出力する、1.乃至7.いずれか一つに記載の情報処理装置。
9.
前記処理実行部は、画像データに含まれる人物の特徴的な部位を表す画像領域を抽出して出力する、8.に記載の情報処理装置。
10.
前記処理実行部は、画像データに含まれる車両の種類、メーカ、及びナンバープレートのナンバーのうち、少なくとも1つを示す情報を出力する、8.に記載の情報処理装置。
11.
前記処理実行部は、画像データに含まれるランドマークの名称又は所在地を出力する、8.に記載の情報処理装置。
12.
コンピュータによって実行させる制御方法であって、
第1注目アカウントに関連付けられている第1関連アカウントと第2注目アカウントに関連付けられている第2関連アカウントについて、前記第1関連アカウントに関連づけられている第1コンテンツデータと前記第2関連アカウントに関連付けられている第2コンテンツデータとが類似しているか否かを判定する判定ステップと、
前記第1コンテンツデータと前記第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行ステップと、を有する制御方法。
13.
前記判定ステップにおいて、前記第1関連アカウントに関連付けられている画像データに含まれるオブジェクトの出現頻度の分布と、前記第2関連アカウントに関連づけられている画像データに含まれるオブジェクトの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、12.に記載の制御方法。
14.
前記判定ステップにおいて、前記第1関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布と、前記第2関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、12.に記載の制御方法。
15.
前記判定ステップにおいて、前記第1関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布と、前記第2関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、12.に記載の制御方法。
16.
前記判定ステップにおいて、前記第1関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布と、前記第2関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、12.に記載の制御方法。
17.
前記処理実行ステップにおいて、前記所定の処理として、前記第1注目アカウントと前記第2注目アカウントが同一人物によって所有されている蓋然性が高い旨を示す情報、又は前記第1注目アカウントの所有者と前記第2注目アカウントの所有者とが同一のグループに属している蓋然性が高い旨を示す情報を出力する、12.乃至16.いずれか一つに記載の制御方法。
18.
前記処理実行ステップにおいて、前記所定の処理として、前記判定ステップによって生成された前記分布を出力する、13.乃至16.いずれか一つに記載の制御方法。
19.
前記処理実行ステップにおいて、前記所定の処理として、前記第1コンテンツデータと前記第2コンテンツデータのうち、互いに一致又は類似するコンテンツデータを出力する、12.乃至18.いずれか一つに記載の制御方法。
20.
前記処理実行ステップにおいて、画像データに含まれる人物の特徴的な部位を表す画像領域を抽出して出力する、19.に記載の制御方法。
21.
前記処理実行ステップにおいて、画像データに含まれる車両の種類、メーカ、及びナンバープレートのナンバーのうち、少なくとも1つを示す情報を出力する、19.に記載の制御方法。
22.
前記処理実行ステップにおいて、画像データに含まれるランドマークの名称又は所在地を出力する、19.に記載の制御方法。
23.
12.乃至22.いずれか一つに記載の制御方法の各ステップをコンピュータに実行させるプログラム。

Claims (13)

  1. 第1注目アカウントに関連付けられている第1関連アカウントによって公開されたコンテンツデータである第1コンテンツデータと、第2注目アカウントに関連付けられている第2関連アカウントによって公開されたコンテンツデータである第2コンテンツデータと、をそれぞれ取得し、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する判定部と、
    前記第1コンテンツデータと前記第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行部と、を有する情報処理装置。
  2. 前記判定部は、前記第1関連アカウントに関連付けられている画像データに含まれるオブジェクトの出現頻度の分布と、前記第2関連アカウントに関連づけられている画像データに含まれるオブジェクトの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  3. 前記判定部は、前記第1関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布と、前記第2関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  4. 前記判定部は、前記第1関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布と、前記第2関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  5. 前記判定部は、前記第1関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布と、前記第2関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  6. 前記処理実行部は、前記所定の処理として、前記第1注目アカウントと前記第2注目アカウントが同一人物によって所有されている蓋然性が高い旨を示す情報、又は前記第1注目アカウントの所有者と前記第2注目アカウントの所有者とが同一のグループに属している蓋然性が高い旨を示す情報を出力する、請求項1乃至5いずれか一項に記載の情報処理装置。
  7. 前記処理実行部は、前記所定の処理として、前記判定部によって生成された前記分布を出力する、請求項2乃至5いずれか一項に記載の情報処理装置。
  8. 前記処理実行部は、前記所定の処理として、前記第1コンテンツデータと前記第2コンテンツデータのうち、互いに一致又は類似するコンテンツデータを出力する、請求項1乃至7いずれか一項に記載の情報処理装置。
  9. 前記処理実行部は、画像データに含まれる人物の特徴的な部位を表す画像領域を抽出して出力する、請求項8に記載の情報処理装置。
  10. 前記処理実行部は、画像データに含まれる車両の種類、メーカ、及びナンバープレートのナンバーのうち、少なくとも1つを示す情報を出力する、請求項8に記載の情報処理装置。
  11. 前記処理実行部は、画像データに含まれるランドマークの名称又は所在地を出力する、請求項8に記載の情報処理装置。
  12. コンピュータによって実行させる制御方法であって、
    第1注目アカウントに関連付けられている第1関連アカウントによって公開されたコンテンツデータである第1コンテンツデータと、第2注目アカウントに関連付けられている第2関連アカウントによって公開されたコンテンツデータである第2コンテンツデータと、をそれぞれ取得し、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する判定ステップと、
    前記第1コンテンツデータと前記第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行ステップと、を有する制御方法。
  13. 請求項12に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
JP2020508875A 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム Active JP7070665B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/013880 WO2019187107A1 (ja) 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2019187107A1 JPWO2019187107A1 (ja) 2021-02-25
JP7070665B2 true JP7070665B2 (ja) 2022-05-18

Family

ID=68059653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020508875A Active JP7070665B2 (ja) 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (4) US20210019553A1 (ja)
JP (1) JP7070665B2 (ja)
WO (1) WO2019187107A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112018007484T5 (de) * 2018-04-16 2021-02-25 Mitsubishi Electric Corporation Hindernis-Detektionsvorrichtung, automatische Bremsvorrichtung unter Verwendung einer Hindernis-Detektionsvorrichtung, Hindernis-Detektionsverfahren und automatisches Bremsverfahren unter Verwendung eines Hindernis-Detektionsverfahrens
JP7110293B2 (ja) * 2020-09-28 2022-08-01 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169901A (ja) 2008-01-21 2009-07-30 Nec Corp 情報処理装置、情報処理方法、コンピュータプログラム及び記録媒体
JP2015519645A (ja) 2012-04-26 2015-07-09 グーグル・インク ソーシャルネットワークのグループの創設
US9208171B1 (en) 2013-09-05 2015-12-08 Google Inc. Geographically locating and posing images in a large-scale image repository and processing framework
US20160093123A1 (en) 2014-09-25 2016-03-31 Volkswagen Ag Diagnostic procedures and method of collecting vehicles
JP2017112448A (ja) 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
JP2017142796A (ja) 2016-02-12 2017-08-17 富士通株式会社 情報の特定及び抽出

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201863B2 (en) * 2009-12-24 2015-12-01 Woodwire, Inc. Sentiment analysis from social media content
US20110320560A1 (en) * 2010-06-29 2011-12-29 Microsoft Corporation Content authoring and propagation at various fidelities
JP5758831B2 (ja) * 2012-03-30 2015-08-05 楽天株式会社 情報提供装置、情報提供方法、情報提供プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
US20150120583A1 (en) * 2013-10-25 2015-04-30 The Mitre Corporation Process and mechanism for identifying large scale misuse of social media networks
KR20160120604A (ko) * 2015-04-08 2016-10-18 김근제 발광 수단 또는 색 정보를 이용한 코드 제공 장치 및 코드 식별 시스템
JP2018037076A (ja) * 2016-08-25 2018-03-08 株式会社ピープルコミュニケーションズ Snsポータルシステム
US20180129929A1 (en) * 2016-11-09 2018-05-10 Fuji Xerox Co., Ltd. Method and system for inferring user visit behavior of a user based on social media content posted online
US10866633B2 (en) * 2017-02-28 2020-12-15 Microsoft Technology Licensing, Llc Signing with your eyes
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169901A (ja) 2008-01-21 2009-07-30 Nec Corp 情報処理装置、情報処理方法、コンピュータプログラム及び記録媒体
JP2015519645A (ja) 2012-04-26 2015-07-09 グーグル・インク ソーシャルネットワークのグループの創設
US9208171B1 (en) 2013-09-05 2015-12-08 Google Inc. Geographically locating and posing images in a large-scale image repository and processing framework
US20160093123A1 (en) 2014-09-25 2016-03-31 Volkswagen Ag Diagnostic procedures and method of collecting vehicles
JP2017112448A (ja) 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
JP2017142796A (ja) 2016-02-12 2017-08-17 富士通株式会社 情報の特定及び抽出

Also Published As

Publication number Publication date
WO2019187107A1 (ja) 2019-10-03
US20230410222A1 (en) 2023-12-21
US20230410221A1 (en) 2023-12-21
US20210019553A1 (en) 2021-01-21
US20230410220A1 (en) 2023-12-21
JPWO2019187107A1 (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
JP6986527B2 (ja) ビデオを処理する方法及び装置
US9477685B1 (en) Finding untagged images of a social network member
KR102043938B1 (ko) 이미지 기반의 captcha 과제
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
WO2017045443A1 (zh) 一种图像检索方法及***
CN110826006B (zh) 基于隐私数据保护的异常采集行为识别方法和装置
US20230410222A1 (en) Information processing apparatus, control method, and program
CN106874253A (zh) 识别敏感信息的方法及装置
CN111241883B (zh) 防止远程被测人员作弊的方法和装置
CN111160783B (zh) 数字资产价值的评价方法、***及电子设备
CN111401700A (zh) 一种数据分析方法、装置、计算机***及可读存储介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN111242083A (zh) 基于人工智能的文本处理方法、装置、设备、介质
CN110705494A (zh) 人流量监测方法、装置、电子设备及计算机可读存储介质
US9317887B2 (en) Similarity calculating method and apparatus
WO2018068664A1 (zh) 网络信息识别方法和装置
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN111552865A (zh) 用户兴趣画像方法及相关设备
CN107656959A (zh) 一种留言方法、装置及留言设备
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN112041847A (zh) 提供具有隐私标签的图像
KR20160044858A (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
CN115037790B (zh) 异常注册识别方法、装置、设备及存储介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及***
CN110069691A (zh) 用于处理点击行为数据的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200911

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220418

R151 Written notification of patent or utility model registration

Ref document number: 7070665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151