WO2020045526A1 - 情報分析装置及びプログラム - Google Patents

情報分析装置及びプログラム Download PDF

Info

Publication number
WO2020045526A1
WO2020045526A1 PCT/JP2019/033780 JP2019033780W WO2020045526A1 WO 2020045526 A1 WO2020045526 A1 WO 2020045526A1 JP 2019033780 W JP2019033780 W JP 2019033780W WO 2020045526 A1 WO2020045526 A1 WO 2020045526A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
subscriber
analysis target
accounts
similarity
Prior art date
Application number
PCT/JP2019/033780
Other languages
English (en)
French (fr)
Inventor
山崎 俊彦
軼威 張
Original Assignee
国立大学法人 東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 東京大学 filed Critical 国立大学法人 東京大学
Publication of WO2020045526A1 publication Critical patent/WO2020045526A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism

Definitions

  • the present invention relates to an information analysis device and a program.
  • social network services In recent years, so-called social network services (SNS) have been widely used for advertising of organizations such as companies.
  • SNS social network services
  • information provision from a company to a user is performed by subscribing (following) information transmitted by an organization such as a company.
  • the subscribing user is called a "follower”.
  • each organization does not use one account (information source) for each social network service, but rather uses the brand (such as brand name when product concept is branded as well as company name) , A service mark brand, etc.), and a different account may be set up to provide information about the corresponding brand from each account.
  • brand such as brand name when product concept is branded as well as company name
  • a service mark brand etc.
  • Patent Literature 1 discloses an example in which information for specifying a follower is acquired and used as a destination of a guide in order to use follower information for marketing.
  • similarity between organizations or brands is information important in management, but such analysis has conventionally not depended on sales information. Therefore, if there is no specific sales information, information cannot be obtained, and the similarity between organizations or brands can be evaluated only in limited situations.
  • the present invention has been made in view of the above-described circumstances, and has similarity between accounts of social network services, such as between organizations or between brands, between organizations and brands, between users and brands, between users, and the like.
  • An object of the present invention is to provide an information analysis device and a program capable of evaluating the similarity between a plurality of accounts to be analyzed on an information transmission site and evaluating the similarity between organizations and brands in a wide range of situations.
  • the present invention that solves the above-mentioned problems of the conventional example is an information analysis device, which obtains information of each subscriber for a plurality of accounts to be analyzed at a predetermined information transmission site, Means for collecting subscriber relationship information related to the subscriber, and the similarity between the pair of accounts to be analyzed included in the plurality of accounts to be analyzed is converted into the subscriber relationship information of the subscriber of each account to be analyzed. And a means for outputting the determined similarity between the pair of accounts to be analyzed.
  • the present invention it is possible to evaluate the similarity of a plurality of accounts to be analyzed on an information transmission site, and to evaluate the similarity between organizations and brands in a wide range of situations.
  • FIG. 4 is an explanatory diagram illustrating an example of a relationship between subscriber-related information held by the information analysis device according to the embodiment of the present invention and values characterizing the subscriber-related information. It is a flowchart figure showing the example of the learning process of the information analysis apparatus which concerns on embodiment of this invention. It is a flowchart figure showing the example of the estimation process of the information analyzer concerning embodiment of this invention.
  • the information analyzer 1 includes a control unit 11, a storage unit 12, an operation unit 13, a display unit 14, and a communication unit 15, as illustrated in FIG. Have been.
  • the control unit 11 is a program control device such as a CPU, and executes a program stored in the storage unit 12.
  • the control unit 11 obtains information of each subscriber for a plurality of accounts to be analyzed at a predetermined information transmission site, and, for each subscriber, obtains subscriber-related information related to the subscriber. collect.
  • the control unit 11 also determines the similarity between the pair of analysis target accounts included in the plurality of analysis target accounts based on the subscriber relationship information of the subscriber of each analysis target account. Output the similarity between accounts to be analyzed. The detailed operation of the control unit 11 will be described later.
  • the storage unit 12 is a memory device, a disk device, or the like, and holds a program executed by the control unit 11.
  • the program may be provided by being stored in a computer-readable and non-transitory recording medium such as a DVD, and may be stored in the storage unit 12.
  • the storage unit 12 also operates as a work memory of the control unit 11.
  • the operation unit 13 is a mouse, a keyboard, or the like, accepts a user's instruction operation, and outputs information representing the content of the instruction operation to the control unit 11.
  • the display unit 14 is a display or the like, and displays information according to an instruction output from the control unit 11.
  • the communication unit 15 is a network interface or the like, and sends information to a server or the like connected via a network in accordance with an instruction output from the control unit 11.
  • the communication unit 15 receives information from a server or the like connected via a network and outputs the information to the control unit 11.
  • the control unit 11 is functionally configured to include a learning processing unit 21 and an estimation processing unit 22 as illustrated in FIG.
  • the learning processing unit 21 includes an information acquisition unit 31, a subscriber relationship information collection unit 32, a relationship information learning unit 33, and a relationship information integration unit 34.
  • the estimation processing unit 22 includes a determination processing unit 41 and an output unit 42.
  • the information acquisition unit 31 of the learning processing unit 21 receives designation of an information transmission site to be analyzed from a user, and obtains information of each subscriber regarding a plurality of analysis target accounts in the designated information transmission site. get.
  • the designation of the information transmission site may be the URL (Uniform ⁇ Resource ⁇ Locator) of the information transmission site.
  • the account to be analyzed may be all accounts (registrants) registered in the information transmission site, or an account specified by the user in advance may be the account to be analyzed.
  • the information acquiring unit 31 is an account of a subscriber who has subscribed to a post made in the name of the account to be analyzed (hereinafter, a post made in the name of the account is referred to as a post of the account) as the information of the subscriber. (For example, information unique to the account such as the user name of the account).
  • the subscriber-related information collecting unit 32 collects, as post-subscriber-related information, predetermined information included in a post of each subscriber's account acquired by the information acquiring unit 31 for each analysis target account.
  • the subscriber-related information collected here may be, for example, text information included in a post of an account, a portion of the text information that matches a predetermined pattern, or information of an image included in the post.
  • the poster (user of the account) itself extracts a word (tag) included in the post as a word characterizing the content of the post. .
  • the subscriber-related information collection unit 32 may extract the tag portion from the posts of the account of each subscriber and collect the tag portion as the subscriber-related information (there may be a plurality).
  • the related information learning unit 33 receives the list of the subscriber related information collected for each post from the subscriber related information collecting unit 32. Then, the related information learning unit 33 calculates the feature amount of the subscriber related information using the generated list of the subscriber related information for each post.
  • the relation information learning unit 33 calculates the feature amount of the subscription relation information using tag2vec (https://arxiv.org/abs/1612.04061) used for analyzing video data with tag information. I do.
  • the relationship information learning unit 33 generates a vocabulary list based on the acquired subscriber relationship information. This vocabulary list is a list of subscriber-related information included in all acquired posts without duplication. Hereinafter, the information included in the vocabulary list is referred to as vocabulary information.
  • the relation information learning unit 33 sequentially retrieves the subscriber relation information included in the post for each post, a vector vi of vocabulary information corresponding to the retrieved subscriber relation information (referred to as attention relation information), and the post.
  • attention relation information a vector vi of vocabulary information corresponding to the retrieved subscriber relation information
  • the post Of the vocabulary information corresponding to the subscriber-related information other than the attention-related information included in the vocabulary information vector vj, and obtains the softmax value and the subscription included in the post of the account subscribed to the post of the analysis target account.
  • One hot vector of subscriber relationship information (a vector in which the j-th component is "1" and the other components are "0" when the vocabulary information corresponding to the subscriber relationship information is at the j-th position in the vocabulary list.
  • Update to the to machine learning this method of machine learning is equivalent to skip grams (skip-gram) model).
  • the ⁇ relationship information learning unit 33 obtains a vector expression for each of the vocabulary information included in the vocabulary list by machine learning such as tag2vec. At this time, according to the skipgram model, a state is set in which machine learning is performed such that a plurality of vocabulary information vectors v that are likely to be included in the same post are close to each other.
  • the related information integration unit 34 classifies each vocabulary information included in the vocabulary list of the subscriber related information into concepts (for example, synonyms) that are similar to each other.
  • the relation information integration unit 34 performs a clustering process on the vectors vi of the vocabulary information obtained by the machine learning of the relation information learning unit 33, and classifies the vectors into groups of similar vectors.
  • a clustering method here, a widely known method such as a kmeans method or a hierarchical clustering method can be adopted.
  • a method of calculating a distance between vectors when performing clustering for example, information of a pair of vectors vi, The distance between vj and cosine similarity Dcos (Similarity indicates a larger value, the more similar, and a smaller value (closer to 0) indicates a more similar. Therefore, the distance is adapted to the clustering process by using an inverse number or the like. ).
  • means the magnitude of the vector v.
  • the distance may be calculated by another method such as the Euclidean distance.
  • the vocabulary information included in the vocabulary list is classified into clusters for each vocabulary information having a similar relationship to each other.
  • the relation information integration unit 34 stores, in the storage unit 12, the vocabulary information included in the vocabulary list in association with information (cluster identification information) for specifying a cluster to which the vocabulary information belongs by the clustering process (FIG. 3).
  • the relationship information integration unit 34 may use vector information representing each cluster obtained by the clustering process (the center or the center of gravity such as the arithmetic mean vector of the subscriber relationship information vectors belonging to each cluster, or the closest to the center of gravity or the like). May be a vector of subscriber-related information at a distance, hereinafter referred to as a representative vector), and information unique to each of the representative vectors (information representing the representative vector) may be used as information for specifying a cluster. The information is stored in the storage unit 12 in association with the representative vector information.
  • the relation information integration unit 34 stores the vocabulary information in the storage unit 12 in association with information indicating a representative vector of a cluster to which the vocabulary information belongs.
  • the determination processing unit 41 of the estimation processing unit 22 determines the similarity between a pair of analysis target accounts (all combinations of a pair of analysis target accounts) included in the plurality of analysis target accounts specified by the user. The determination is made based on the subscriber relationship information of the subscriber of each analysis target account of the pair of analysis target accounts.
  • the determination processing unit 41 acquires, for each specified analysis target account, the subscriber relationship information of the subscriber. Then, for each of the acquired subscriber-related information, the determination processing unit 41 determines, as information for specifying a cluster to which the vocabulary information corresponding to the subscriber-related information belongs (a cluster obtained by the relation information integrating unit 34), a representative vector of the cluster. Is extracted and enumerated.
  • the list of vocabulary information included in the subscriber-related information (a list allowing duplication) generated by the determination processing unit 41 is hereinafter referred to as a subscriber-related vocabulary list.
  • the determination processing unit 41 determines the distance information of the vector information Vaci, Vacj (i ⁇ j) obtained as described above for each of the pair of analysis target accounts (for each classification of the subscriber-related information related to each analysis target account). (Information on the distance between the histograms of the information representing the representative vectors of the above).
  • the information on the distance to be obtained here may be a distance using cosine similarity (similarity defined by equation (1)) or a Euclidean distance.
  • the distance information may be any other information as long as it can define the similarity between the vector information.
  • the information on the distance obtained here corresponds to the similarity between the categories of the subscriber-related information in the present invention.
  • the output unit 42 displays on the display unit 14 and the like information indicating each of the pair of analysis target accounts used in the calculation of the distance information by the determination processing unit 41 and information on the distance between the pair of analysis target accounts. I do.
  • the output unit 42 outputs information indicating each of the pair of analysis target accounts related to each distance information and the distance information.
  • This embodiment has the above configuration, and operates as follows. In the following example, it is assumed that accounts of brands A, B, and C registered in a predetermined information transmission site in advance are accounts to be analyzed.
  • followers are respectively followers of account A: ⁇ , ⁇ Account B followers: ⁇ , ⁇ Account C followers: ⁇ , ⁇ It is assumed that
  • each of the followers ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , and ⁇ is an information transmission site (even if the above-mentioned predetermined information transmission site is known to be an account posted by the same person as the follower, other information is transmitted). (It may be a transmission site.) It is assumed that text data with the following tags is posted. Here, a character string indicating that the subsequent character string is a tag, such as “#”, is excluded from the tag.
  • Tags included in the first post of ⁇ (hereinafter abbreviated as ⁇ 1 etc.): “pink”, “love”, “cosmetic”, “l4l (like for like)” ⁇ 2: “cosmetic”, “fashion”, “l4l (like for like)” ... ⁇ 1: “summer”, “white”, “style” ⁇ 2: “pink”, “lovely”, “cute” ... ⁇ 1: “son”, “mama”, “school” ⁇ 2: “mother”, “family” ... ⁇ 1: “daughter”, “son”, “kindergarten” ⁇ 2: “children”, “sibling”, “family” ... ⁇ 1: “work”, “coffee”, “f4f (follow for follow)” ⁇ 2: “fashionable”, “black”, “simple”, “f4f (follow for follow)” ... ⁇ 1: “trend”, “mode”, “white”, “fff (follow for follow)” ⁇ 2: “mode”, “fff (follow for follow)”
  • the information analyzer 1 first executes a learning process as illustrated in FIG.
  • the information analysis device 1 acquires, for each analysis target account (a candidate account that can be a candidate), information representing the account of the subscriber (S1).
  • information representing the account of the subscriber is acquired, such as ⁇ , ⁇ for account A, ⁇ , ⁇ for account B, and so on.
  • the information analyzer 1 collects information included in the posts of each account of the subscriber acquired by the information acquiring unit 31 for each analysis target account as subscriber-related information for each post (S2). Then, the information analysis device 1 generates a vocabulary list by using the acquired subscriber-related information as a list without duplication (S3).
  • the information analyzer 1 initializes each of the information (vocabulary information) included in the generated vocabulary list by, for example, randomly determining a vector amount (feature amount) of a predetermined dimension, and commonly initializes each post. Machine learning is performed while updating the vectors between the included vocabulary information so as to be close to each other (S4).
  • such a machine learning method can use a method widely known as a skipgram model or the like.
  • the vector v of a plurality of vocabulary information that is likely to be included in one post is machine-learned to be close to each other.
  • the information analysis device 1 performs a clustering process on the vocabulary information vector v (S5).
  • the words “love” and “lovely” included in ⁇ and ⁇ posts are likely to be included in the same post as the word “pink” (in this example). Therefore, the vectors v_love and v_lovely corresponding to the words (vocabulary information) of “love” and “lovely” are machine-learned as vectors close to each other.
  • the words “love” and “lovely” belong to one common cluster, and the words “work” and “son” belong to different clusters.
  • the information analysis device 1 obtains, from the clustering result obtained as described above, vector information of each vocabulary information, information representing a subscriber for each account to be analyzed, information representing vocabulary information included in posts of each subscriber, and the like. A process of determining the similarity of a pair of analysis target accounts included in the plurality of specified analysis target accounts is executed (FIG. 5).
  • the information analysis device 1 accepts the specification of the analysis target account (S11), and repeats the following processing for each pair of the specified analysis target accounts.
  • the information analysis device 1 determines the similarity between the brand A and the brand B when the brands A, B, and C are specified as the analysis target accounts when there is information learned as in the above-described example. Is obtained as follows.
  • the information analysis device 1 compares the vocabulary information included in the posts of the followers ⁇ and ⁇ of the account A and the vocabulary information included in the posts of the followers ⁇ and ⁇ of the account B with the accounts A and B, respectively. (S12).
  • Subscriber relationship information for account A “pink”, “love”, “cosmetic”, “l4l (like for like)”, “cosmetic”, “fashion”, “l4l (like for like)”, “summer”, “White”, “style”, “pink”, “lovely”, “cute” ...
  • Subscriber-related information for Account B “son”, “mama”, “school”, “mother”, “family”, “daughter”, “son”, “kindergarten”, “children”, “sibling”, “family””... It will be obtained as follows. Here, the acquisition is performed with the duplication permitted, but the duplication may be eliminated.
  • the information analysis device 1 replaces the vocabulary information included in each of the acquired subscriber-related information with information for specifying a cluster to which the vocabulary information belongs (information representing a representative vector of each cluster) (S13). For example, a cluster in which “pink”, “love”, “lovely”... Is specified by a number “1”, and a cluster in which “son”, “mama”, “school”, “kindergarten”.
  • the information analysis apparatus 1 generates a histogram by counting the number of appearances of information representing a representative vector included in the cluster information list obtained for each analysis target account, generates a histogram, and sets the histogram as a vector Vack characterizing the analysis target account ( S14).
  • Account B: Vacb (Cb (Vrep_1), Cb (Vrep_2) )
  • Cp (V) represents the number (count number) of the representative vectors V of the cluster obtained for the account P.
  • Ca (Vrep_1) is the number of vocabulary information belonging to cluster number “1” in the vocabulary information included in the subscriber relation information for account A (the cluster information list includes the representative of cluster number “1”). The number of times the vector appeared).
  • the i-th component of the vector characterizing each analysis target account represents the count number of the representative vector of the i-th cluster in common.
  • the information analysis device 1 obtains information on the distance between the vectors Vaca and Vacb obtained here (S15), and outputs it as a similarity between the pair of analysis target accounts, brand A and brand B (S16). The information analysis device 1 repeatedly performs the above-described processing for each pair of a plurality of brands designated as an analysis target account.
  • the information on the distance between these vectors Vaca, Vacb, etc. corresponds to the distance between the sum of the representative vectors for each category of the vocabulary information included in the subscriber relation information related to each analysis target account.
  • the information on the distance between the vectors Vaca, Vacb, etc. may use cosine similarity, Euclidean distance, or other distance information, but the smaller the distance (the more similar each other), the smaller the value. May be adjusted and output. For example, in the case of the cosine similarity, the reciprocal thereof may be used.
  • the subscriber-related information is assumed to be character string information posted on the information transmission site, but the present embodiment is not limited to the case where these are character strings.
  • the subscriber-related information may be image data such as a photograph posted on the information transmission site. That is, the subscriber-related information of the present embodiment is characterized in that the feature amount is a value in which the distance corresponding to the similarity between the subscriber-related information is determined (the vector amount learned by the skipgram in the above examples). Etc.).
  • the feature amount is, for example, a vector amount (a multi-layered neural network is used when a multi-layered neural network is used) which is a basis for a classification determination of an image classifier machine-learned with a predetermined set of image data , The output of the layer immediately before the final layer) can be used.
  • the control unit 11 when the control unit 11 operates as the determination processing unit 41 of the estimation processing unit 22, for each specified analysis target account, the control unit 11 acquires the subscriber-related information of the subscriber, and acquires the acquired subscription.
  • the information Vcx of the representative vector of the cluster to which the vocabulary information belongs is extracted for each vocabulary information included in the subscriber relationship information
  • the information on the appearance frequency of the vocabulary information itself included in the subscriber relationship information is obtained. Further, it may be used.
  • the control unit 11 causes the appearance frequency tf for each post and the reciprocal (or the reciprocal of the logarithm) of the number df of the posts in which the vocabulary information included in the subscriber-related information appears. Is used to determine the value of tf-idf.
  • the control unit 11 may relatively frequently use vocabulary information that is frequently used regardless of posting, and may exclude vocabulary information that does not represent a feature.
  • the control unit 11 extracts information Vcx of a representative vector of a cluster to which each vocabulary information belongs for vocabulary information remaining after the exclusion, and generates a histogram of information representing each representative vector. The generated histogram may be used as the feature amount of the analysis target account.
  • the evaluation is performed based on the similarity of a plurality of accounts to be analyzed on the information transmission site, even if sales information is not obtained, the similarity between organizations or brands, or The similarity between multiple accounts, such as the similarity between an organization and a user (person), can be determined whether the multiple accounts are of the same type (for example, brand only, organization only, etc.) Even if the information includes a certain kind (for example, a brand and a user, an organization and a user), it can be evaluated numerically.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得し、購読者ごとに、購読者に関係する購読者関係情報を収集する。そして複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定する情報分析装置である。

Description

情報分析装置及びプログラム
 本発明は、情報分析装置及びプログラムに関する。
 近年では、企業等の組織の広告宣伝のために、いわゆるソーシャルネットワークサービス(SNS)が広く用いられている。ソーシャルネットワークサービス等では、企業側からユーザへの情報提供は、企業等の組織が発信した情報を、ユーザが購読する(フォローする)ことで行われる。このとき、購読する側のユーザは「フォロワー(follower)」と呼ばれる。
 また、各組織は、各ソーシャルネットワークサービスにおいて一つずつのアカウント(情報発信元)を用いるのではなく、組織が有するブランド(企業名だけでなく、商品のコンセプトをブランド化している場合のブランドや、サービスマークのブランドなどを含む)ごとに異なるアカウントを設定して、それぞれのアカウントから対応するブランドに関する情報を提供する例もある。
 特許文献1には、フォロワーの情報をマーケティングに利用するため、フォロワーを特定する情報を取得して、案内の送信先として用いる例が開示されている。
特表2013-511778号公報
 複数の組織や複数のブランドの間で、それぞれの組織やブランドのファンがどれだけ重複しているかを知ることは、ブランド等の戦略を立案する上で重要な情報となる。例えば、ブランドAと、ブランドBとのファン層が互いに重複していないならば(つまり、ブランドA,Bが互いに類似しないブランドであるならば)、ブランドAを取り扱う店舗のある地域に、ブランドBを扱う店舗を出店しても、ブランドAの店舗と競合することはないと考えられる。
 このように、組織間、あるいはブランド間の類似性(例えばそれぞれのファン層の類似性)は、経営上重要な情報であるにも関わらず、従来、このような分析は売り上げ情報に依存せざるを得ず、そうなると具体的な売り上げ情報が存在しない場合には情報が得られないこととなって、限られた場面でしか組織間、あるいはブランド間の類似性を評価することができなかった。
 本発明は上記実情に鑑みて為されたもので、組織間、あるいはブランド間、組織とブランドの間、ユーザとブランドの間、ユーザ間…など、ソーシャルネットワークサービスのアカウント間の類似性等を、情報発信サイトにおける複数の分析対象アカウントの類似性により評価し、広い場面で組織やブランド等の間の類似性を評価できる情報分析装置、及びプログラムを提供することを、その目的の一つとする。
 上記従来例の問題点を解決する本発明は、情報分析装置であって、所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、前記購読者ごとに、購読者に関係する購読者関係情報を収集する手段と、前記複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定する判定手段と、前記判定した一対の分析対象アカウント間の類似性を出力する手段とを含むこととしたものである。
 本発明によると、情報発信サイトにおける複数の分析対象アカウントの類似性により評価でき、広い場面で組織やブランドなどの間の類似性を評価できる。
本発明の実施の形態に係る情報分析装置の構成例を表すブロック図である。 本発明の実施の形態に係る情報分析装置の例を表す機能ブロック図である。 本発明の実施の形態に係る情報分析装置が保持する購読者関係情報と、それを特徴づける値との関係の例を表す説明図である。 本発明の実施の形態に係る情報分析装置の学習処理の例を表すフローチャート図である。 本発明の実施の形態に係る情報分析装置の推定処理の例を表すフローチャート図である。
 本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報分析装置1は、図1に例示するように、制御部11と、記憶部12と、操作部13と、表示部14と、通信部15とを含んで構成されている。
 制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムを実行する。本実施の形態では、この制御部11は、所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得し、購読者ごとに、購読者に関係する購読者関係情報を収集する。またこの制御部11は、複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定し、当該判定した一対の分析対象アカウント間の類似性を出力する。この制御部11の詳しい動作については後に述べる。
 記憶部12は、メモリデバイスやディスクデバイス等であり、制御部11によって実行されるプログラムを保持する。本実施の形態ではこのプログラムは、コンピュータ可読かつ非一時的な、DVD等の記録媒体に格納されて提供され、この記憶部12に格納されたものであってもよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。
 操作部13は、マウスやキーボード等であり、利用者の指示操作を受け入れて、当該指示操作の内容を表す情報を、制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11が出力する指示に従って情報を表示する。
 通信部15は、ネットワークインタフェース等であり、制御部11が出力する指示に従い、ネットワークを介して接続されるサーバ等に対して情報を送出する。また、この通信部15は、ネットワークを介して接続されるサーバ等から情報を受信して制御部11に出力する。
 次に、制御部11の処理について説明する。本実施の形態の制御部11は、機能的には図2に例示するように、学習処理部21と、推定処理部22とを含んで構成されている。また学習処理部21は、情報取得部31と、購読者関係情報収集部32と、関係情報学習部33と、関係情報統合部34とを含んで構成される。推定処理部22は、判定処理部41と、出力部42とを含む。
 学習処理部21の情報取得部31は、分析の対象とする情報発信サイトの指定を利用者から受けて、当該指定された情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する。ここで情報発信サイトの指定は、当該情報発信サイトのURL(Uniform Resource Locator)等でよい。
 また分析対象アカウントは当該情報発信サイトに登録されているすべてのアカウント(登録者)でもよいし、予め利用者が指定したアカウントを分析対象アカウントとしてもよい。
 情報取得部31は、購読者の情報として、分析対象アカウントの名義で行われた投稿(以下、アカウントの名義で行われた投稿を、当該アカウントの投稿という)を購読している購読者のアカウントを表す情報(例えば当該アカウントのユーザ名など、アカウントに固有の情報)を取得する。
 購読者関係情報収集部32は、分析対象アカウントごとに情報取得部31が取得した購読者の各アカウントの投稿に含まれる所定の情報を、投稿ごとに、購読者関係情報として収集する。ここで収集する購読者関係情報は例えばアカウントの投稿に含まれる文字情報、あるいは当該文字情報のうち予め定めたパターンに合致する部分、または当該投稿に含まれる画像の情報であってもよい。本実施の形態の以下の説明では、各アカウントの投稿のうち、投稿者(当該アカウントのユーザ)自身が当該投稿の内容を特徴づける語として投稿に含めた単語(タグ)を抽出するものとする。
 具体的にツイッター(登録商標)や、インスタグラム(登録商標)等のSNSサービスでは、「#」記号に続いて入力される文字列(次の「#」または改行等までの文字列)はタグとして扱われるので、購読者関係情報収集部32は、各購読者のアカウントの投稿のうち、当該タグ部分を抽出して購読者関係情報(複数あってよい)として収集してもよい。
 関係情報学習部33は、投稿ごとに収集された購読者関係情報のリストを購読者関係情報収集部32から受け入れる。そして、関係情報学習部33は、生成された投稿ごとの購読者関係情報のリストを用いて、購読者関係情報の特徴量を演算する。
 具体的な例として、この関係情報学習部33は、タグ情報つきの動画データの分析に用いられるtag2vec(https://arxiv.org/abs/1612.04061)などを用いて購読関係情報の特徴量を演算する。一例では、この関係情報学習部33は、取得された購読者関係情報に基づいて語彙リストを生成する。この語彙リストは、取得したすべての投稿に含まれる購読者関係情報を、重複を省いてリストとしたものである。以下、この語彙リストに含まれる情報を、語彙情報と呼ぶ。
 そして関係情報学習部33は、tag2vecに対応する処理として次の処理を行う。すなわち関係情報学習部33は、この語彙リストに含まれる語彙情報とのそれぞれについて、予め定めたn次元のベクトル(例えばn=300となどする)を初期化する。初期化の方法はベクトルの各成分の値をランダムな値とすることで行えばよいが、各ベクトルはそれぞれ大きさが「1」(単位ベクトル)となるように規格化しておく。関係情報学習部33は、語彙リストのj番目(j=1,2…)にある語彙情報に対応するベクトルをj列目に配した行列Mを記憶部12に格納する。
 関係情報学習部33は、投稿ごとに、当該投稿に含まれる購読者関係情報を順次取り出し、当該取り出した購読者関係情報(注目関係情報と呼ぶ)に対応する語彙情報のベクトルviと、当該投稿に含まれる、注目関係情報以外の購読者関係情報に対応する語彙情報のベクトルvjとの内積uiを求め、そのsoftmaxの値と、当該分析対象アカウントの投稿を購読するアカウントの投稿に含まれる購読者関係情報のワン・ホット・ベクトル(購読者関係情報に対応する語彙情報が語彙リストのj番目の位置にある場合にj番目の成分を「1」、その他の成分を「0」としたベクトル)との間の差により、注目関係情報に対応する語彙情報のベクトルviと、当該投稿に含まれる、注目関係情報以外の購読者関係情報に対応する語彙情報のベクトルvjとを更新して機械学習する(この機械学習の方法はスキップグラム(skip-gram)モデルに相当する)。
 関係情報学習部33は、このような、tag2vecなどの機械学習により、語彙リストに含まれる語彙情報のそれぞれについてのベクトル表現を得る。このとき、スキップグラムモデルに従い、同じ投稿に含まれやすい複数の語彙情報のベクトルvが互いに近接するように機械学習された状態とする。
 関係情報統合部34は、購読者関係情報の語彙リストに含まれる各語彙情報を、互いに類似する概念(例えば類語)ごとに分類する。一例としてこの関係情報統合部34は、関係情報学習部33の機械学習により得られた、語彙情報のベクトルviを、クラスタリング処理して互いに類似するベクトルごとのグループに分類する。
 ここでのクラスタリングの方法は、kmeans法、階層的クラスタリング法など、広く知られた方法を採用でき、またクラスタリングを行う際のベクトル間の距離の演算方法としては、例えば一対のベクトルの情報vi,vjの距離をコサイン類似度Dcos
Figure JPOXMLDOC01-appb-M000001
を用いて定める(類似度は値が大きいほどより類似することを表し、距離は値が小さい(0に近い)ほどより類似することを表すため、逆数を用いるなどしてクラスタリングの処理に適応させる)こととすればよい。ここで|v|は、ベクトルvの大きさを意味する。また、この距離の演算方法は、ユークリッド距離など、他の方法で求めてもよい。
 この関係情報統合部34の動作により、互いに類似する関係にある語彙情報ごとのクラスタに、語彙リストに含まれる語彙情報が分類される。関係情報統合部34は、語彙リストに含まれる語彙情報ごとに、クラスタリング処理により当該語彙情報が属することとなったクラスタを特定する情報(クラスタ特定情報)を関連付けて記憶部12に格納する(図3)。
 例えば関係情報統合部34は、クラスタリング処理によって得られた各クラスタを代表するベクトル情報(各クラスタに属する購読者関係情報のベクトルの算術平均ベクトルなど中心ないし重心でもよいし、当該重心等に最も近い距離にある購読者関係情報のベクトルであってもよい。以下代表ベクトルと呼ぶ)を得て、各代表ベクトルのそれぞれに固有な情報(代表ベクトルを表す情報)を、クラスタを特定する情報として、代表ベクトルの情報に関連付けて記憶部12に格納しておく。
 そして関係情報統合部34は、語彙情報ごとに、当該語彙情報が属するクラスタの代表ベクトルを表す情報を関連付けて記憶部12に格納する。
 推定処理部22の判定処理部41は、利用者により指定された複数の分析対象アカウントに含まれる、一対の分析対象アカウント(一対の分析対象アカウントの組み合わせのすべてとしてよい)間の類似性を、当該一対の分析対象アカウントのそれぞれの分析対象アカウントの購読者の購読者関係情報に基づいて判定する。
 具体的には、判定処理部41は、指定された分析対象アカウントごとに、その購読者の購読者関係情報を取得する。そして判定処理部41は、取得した購読者関係情報ごとに、購読者関係情報に対応する語彙情報が属するクラスタ(関係情報統合部34により得られたクラスタ)を特定する情報として、クラスタの代表ベクトルを表す情報Vcxを取り出して列挙する。
 ここで判定処理部41が生成した、購読者関係情報に含まれる語彙情報のリスト(重複を許したリスト)を、以下、購読者関係語彙リストと呼ぶ。
 そして判定処理部41は、購読者関係語彙リストに含まれる語彙ごとに、当該語彙に対応する代表ベクトルを表す情報を取得して列挙し、クラスタ情報リストを生成する。判定処理部41は、このクラスタ情報リストに含まれる、代表ベクトルを表す情報の出現頻度を表すヒストグラムを生成し、分析対象アカウントを特徴づけるベクトルVack(分析対象アカウントの特徴量)とする。判定処理部41は、指定された(N個の)分析対象アカウントk(k=1,2,…N)ごとに、この処理を行って、対応するベクトルVack(k=1,2,…N)を求める。
 判定処理部41は、一対の分析対象アカウントのそれぞれについて上述のように求められたベクトルの情報Vaci,Vacj(i≠j)の距離の情報(各分析対象アカウントに係る購読者関係情報の分類ごとの代表ベクトルを表す情報のヒストグラム間の距離の情報)を求める。ここで求める距離の情報は、コサイン類似度((1)式で規定される類似度)を用いた距離であってもよいし、ユークリッド距離であってもよい。またこの距離の情報は、これら以外であっても、ベクトルの情報間の類似度を定義できるものであれば、どのようなものであってもよい。ここで求められる距離の情報が、本発明における購読者関係情報の分類間の類似性に相当する。
 出力部42は、判定処理部41が距離の情報の演算に用いた一対の分析対象アカウントのそれぞれを表す情報と、当該一対の分析対象アカウント間の距離の情報とを表示部14等に表示出力する。複数の対について距離の情報が求められた場合は、出力部42は、各距離の情報に係る一対の分析対象アカウントのそれぞれを表す情報と、当該距離の情報とを出力する。
[動作]
 本実施の形態は以上の構成を備えており、次のように動作する。以下の例では、予め、所定の情報発信サイトにおいて登録された、ブランドA,B,Cのアカウントを分析対象アカウントとするものとする。
 また、各ブランドA,B,Cのアカウント(以下、アカウントA,B,Cとして示す)について、それぞれフォロワー(購読者)が
アカウントAのフォロワー:α,β
アカウントBのフォロワー:γ,ε
アカウントCのフォロワー:κ,μ
となっているものとする。
 さらにフォロワーα,β,γ,ε,κ,μのそれぞれが情報発信サイト(上記所定の情報発信サイトであっても、フォロワーと同一人物が投稿するアカウントであると知られていれば他の情報発信サイトであってもよい)において次のようなタグを付したテキストデータを投稿しているものとする。なお、ここではタグから「#」など、続く文字列がタグであることを表す文字列は除外している。
αの第1の投稿に含まれるタグ(以下これをα1などと略して記す):「pink」,「love」,「cosmetic」,「l4l(like for like)」
α2:「cosmetic」,「fashion」,「l4l(like for like)」
 …
β1:「summer」,「white」,「style」
β2:「pink」,「lovely」,「cute」
 …
γ1:「son」,「mama」,「school」
γ2:「mother」,「family」
 …
ε1:「daughter」,「son」,「kindergarten」
ε2:「children」,「sibling」,「family」
 …
κ1:「work」,「coffee」,「f4f(follow for follow)」
κ2:「fashionable」,「black」,「simple」,「f4f(follow for follow)」
 …
μ1:「trend」,「mode」,「white」,「fff(follow for follow)」
μ2:「mode」,「fff(follow for follow)」
 …
 情報分析装置1は、図4に例示するように、まず学習処理を実行する。この学習処理では、情報分析装置1は、分析対象アカウント(となり得る候補のアカウント)ごとに、その購読者のアカウントを表す情報を取得する(S1)。ここでは、上述のように、アカウントAについてα,β、アカウントBについてγ,ε…というように、購読者のアカウントを表す情報を取得する。
 情報分析装置1は、分析対象アカウントごとに情報取得部31が取得した購読者の各アカウントの投稿に含まれる情報を、投稿ごとに購読者関係情報として収集する(S2)。そして情報分析装置1は、取得された購読者関係情報を、重複を省いてリストとし、語彙リストを生成する(S3)。
 情報分析装置1は、生成した語彙リストに含まれる情報(語彙情報)のそれぞれについて、予め定めた次元のベクトル量(特徴量)をランダムに決定するなどして初期化し、投稿ごとに共通して含まれる語彙情報間のベクトルが互いに近接するように更新しつつ機械学習を行う(S4)。
 このような機械学習方法は、既に述べたように、スキップグラムモデル等として広く知られた方法を用いることができる。これにより、一つ投稿に含まれやすい複数の語彙情報のベクトルvが、互いに近接するように機械学習された状態となる。
 さらに情報分析装置1は、この語彙情報のベクトルvを、クラスタリング処理する(S5)。上記の例において、例えば、αやβの投稿に含まれる「love」や「lovely」という語は、いずれも「pink」の語と同じ投稿に(ここでの例では)含まれやすいこととなっているので、これら「love」や「lovely」の語(語彙情報)に対応するベクトルv_love,v_lovelyは、互いに近接したベクトルとして機械学習される。
 一方、「work」と「son」とは、それぞれの語と同じ投稿に含まれる語のうちに共通した語が(ここでの例では)ないため、これら「work」や「son」の語(語彙情報)に対応するベクトルv_work,v_son間の距離は、ベクトルv_love,v_lovely間の距離に比べて離れたものとなるよう機械学習される。
 従って、クラスタリング処理では、例えば、「love」や「lovely」の語は一つの共通したクラスタに属する語となり、「work」や「son」の語は互いに異なるクラスタに属する語となる。
 情報分析装置1は、こうして得たクラスタリングの結果、及び、各語彙情報のベクトルの情報、分析対象アカウントごとの購読者を表す情報、各購読者の投稿に含まれる語彙情報を表す情報等から、指定された複数の分析対象アカウントに含まれる一対の分析対象アカウントの類似性を判定する処理を実行する(図5)。
 具体的に情報分析装置1は、分析対象アカウントの指定を受け入れ(S11)、指定された分析対象アカウントの一対の組み合わせごとに次の処理を繰り返す。情報分析装置1は、上述の例のように学習された情報がある場合に分析対象アカウントとしてブランドA,B,Cが指定された場合、例えばまず、ブランドAとブランドBとの間の類似性を次のようにして求める。
 すなわち、情報分析装置1は、アカウントAのフォロワーα,βの投稿に含まれる語彙情報と、アカウントBのフォロワー:γ,εとのそれぞれの投稿に含まれる語彙情報とを、それぞれアカウントA,Bの購読者関係情報として列挙する(S12)。
 上述の例では、
アカウントAの購読者関係情報:「pink」,「love」,「cosmetic」,「l4l(like for like)」,「cosmetic」,「fashion」,「l4l(like for like)」,「summer」,「white」,「style」,「pink」,「lovely」,「cute」…
アカウントBの購読者関係情報:「son」,「mama」,「school」,「mother」,「family」,「daughter」,「son」,「kindergarten」,「children」,「sibling」,「family」…
というように取得されることになる。なおここでは重複を許して取得しているが、重複は排除することとしてもよい。
 情報分析装置1は、取得した各購読者関係情報についてそれぞれに含まれる語彙情報を、当該語彙情報が属するクラスタを特定する情報(各クラスタの代表ベクトルを表す情報)で置き換える(S13)。例えば「pink」,「love」,「lovely」…が番号「1」で特定されるクラスタ、「son」,「mama」,「school」,「kindergarten」…が番号「2」で特定されるクラスタ…というように分類されているとすると、上述の、類似性を求める一対の分析対象アカウントごとに取得した各購読者関係情報に含まれる語彙情報について、
アカウントA:「1」(「pink」が属するクラスタの代表ベクトルを表す情報、以下同様),「1」,「3」,「4」,「3」,「5」,「4」,「6」,「6」,「5」,「1」,「1」,「1」…
アカウントB:「2」,「2」,「2」,「2」,「7」,「2」,「2」,「2」,「7」,「7」,「7」…
などといった代表ベクトルを表す情報のリスト(クラスタ情報リスト)が得られることとなる。
 情報分析装置1は、分析対象アカウントごとに得られたクラスタ情報リストに含まれる代表ベクトルを表す情報の出現数をそれぞれカウントしてヒストグラムを生成して、分析対象アカウントを特徴づけるベクトルVackとする(S14)。
 上述の例では(i番目のクラスタの代表ベクトルをVrep_iとすると)、分析対象アカウントを特徴づけるベクトルVackは、
アカウントA:Vaca=(Ca(Vrep_1),Ca(Vrep_2)…)
アカウントB:Vacb=(Cb(Vrep_1),Cb(Vrep_2)…)
といったように演算される。ここで、Cp(V)は、アカウントPについて得られたクラスタの代表ベクトルVの数(カウント数)を表す。つまり、Ca(Vrep_1)は、アカウントAについての購読者関係情報に含まれる語彙情報のうち、クラスタ番号「1」に属している語彙情報の数(クラスタ情報リストに、クラスタ番号「1」の代表ベクトルが現れた数)を表す。また、各分析対象アカウントを特徴づけるベクトルの第i番目の成分は、いずれも共通の、i番目のクラスタの代表ベクトルのカウント数を表すものとする。
 情報分析装置1は、ここで求められたベクトルVaca,Vacbの距離の情報を求めて(S15)、一対の分析対象アカウントである、ブランドAとブランドBとの類似性として出力する(S16)。
情報分析装置1は、分析対象アカウントとして指定された複数のブランドの一対の組み合わせごとに上記の処理を繰り返して行う。
 すなわち、ブランドA,B,Cが指定されたときには、ブランドA,B間、ブランドA,C間、ブランドB,C間のそれぞれについて上述の処理を繰り返して行い、それぞれ
ブランドA,B間:ベクトルVaca,Vacbの距離の情報、
ブランドA,C間:ベクトルVaca,Vaccの距離の情報、
ブランドB,C間:ベクトルVacb,Vaccの距離の情報
をそれぞれのブランド間の類似性を表す情報として出力する。
 これらベクトルVaca,Vacb等の間の距離の情報は、各分析対象アカウントに係る購読者関係情報に含まれる語彙情報の、分類ごとの代表ベクトルの総和間の距離に相当するものであり、ここでのベクトルVaca,Vacb等の間の距離の情報は、コサイン類似度を用いるものでも、ユークリッド距離でもその他の距離の情報でも構わないが、距離が短いほど(互いに類似するほど)小さい値となるように調整して出力してもよい。例えばコサイン類似度の場合は、その逆数などとしてもよい。
[画像を購読者関係情報として用いる場合]
 ここまでの説明において、購読者関係情報は、情報発信サイトにおいて投稿された文字列の情報であるものとしたが、本実施の形態は、これらが文字列である場合に限られない。
 例えば、購読者関係情報は、情報発信サイトにおいて投稿された写真等の画像データであってもよい。すなわち、本実施の形態の購読者関係情報は、その特徴量が、購読者関係情報間の類似性に対応する距離が定められた値(ここまでの例における、スキップグラムで学習されたベクトル量など)として表現できればよい。
 購読者関係情報が画像データである場合、特徴量は、例えば予め定められた画像データのセットで機械学習された画像分類器の分類判定の基礎となるベクトル量(多層のニューラルネットが用いられる場合、最終層の一つ手前の層の出力でよい)を用いることができる。
[出現頻度を用いる場合]
 さらに、上述の例では、制御部11が推定処理部22の判定処理部41として動作する際に、指定された分析対象アカウントごとに、その購読者の購読者関係情報を取得し、取得した購読者関係情報に含まれる語彙情報ごとに、語彙情報が属するクラスタの代表ベクトルの情報Vcxを取り出していたが、本実施の形態では、購読者関係情報に含まれる語彙情報自体の出現頻度の情報をさらに用いてもよい。
 一例として、投稿ごとの購読者関係情報について、制御部11は投稿ごとの出現頻度tfと、購読者関係情報に含まれる語彙情報が出現する投稿の数dfの逆数(またはその対数の逆数)idfとを用いて、tf-idfの値を求める。
 そして制御部11は、このtf-idfの値によって、投稿によらず頻出する語彙情報については比較的一般的に使われ、特徴を表さない語彙情報であるものとして除外してもよい。この場合、制御部11は、分析対象アカウントごとに、当該除外した後に残っている語彙情報について、各語彙情報が属するクラスタの代表ベクトルの情報Vcxを取り出して、各代表ベクトルを表す情報のヒストグラムを生成し、当該ヒストグラムを、分析対象アカウントの特徴量としてもよい。
[実施の形態の効果]
 本実施の形態によれば、情報発信サイトにおける複数の分析対象アカウントの類似性により評価するので、売り上げの情報が得られない場合などであっても組織間、やブランド間の類似性、あるいは、組織とユーザ(人)との間の類似性など、複数のアカウントの間の類似性を、当該複数のアカウントが同質もの(例えばブランドのみ、組織のみ、など)からなっていても、また、異質なものを含む(例えばブランドとユーザ、組織とユーザなど)場合であっても、数値的に評価できる。
 1 情報分析装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部、21 学習処理部、22 推定処理部、31 情報取得部、32 購読者関係情報収集部、33 関係情報学習部、34 関係情報統合部、41 判定処理部、42 出力部。
 

Claims (5)

  1.  所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、
     前記購読者ごとに、購読者に関係する購読者関係情報を収集する手段と、
     前記複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定する判定手段と、
     前記判定した一対の分析対象アカウント間の類似性を出力する手段と、
    を含む情報分析装置。
  2.  請求項1に記載の情報分析装置であって、
     前記判定手段は、分析対象アカウントの購読者ごとの前記購読者関係情報に含まれる語彙情報の出現頻度の情報を得て、当該得られた出現頻度の情報を用いて、一対の分析対象アカウント間の類似性を判定する情報分析装置。
  3.  請求項1に記載の情報分析装置であって、
     前記購読者関係情報に含まれる語彙情報を、互いに類似する語彙情報ごとのグループに分類する分類手段をさらに備え、
     前記判定手段は、前記複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に含まれる語彙情報の分類間の類似性に基づいて判定する情報分析装置。
  4.  請求項1から3のいずれか一項に記載の情報分析装置であって、
     前記購読者関係情報に含まれる語彙情報を表す特徴量を、当該語彙情報間の類似性に対応する距離が定められた値として表現するよう機械学習する手段をさらに備え、
     前記判定手段は、複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に含まれる語彙情報に対応する前記特徴量に基づいて判定する情報分析装置。
  5.  コンピュータを、
     所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、
     前記購読者ごとに、購読者に関係する購読者関係情報を収集する手段と、
     前記複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定する判定手段と、
     前記判定した一対の分析対象アカウント間の類似性を出力する手段と、
    として機能させるプログラム。

     
PCT/JP2019/033780 2018-08-29 2019-08-28 情報分析装置及びプログラム WO2020045526A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018160577A JP7266838B2 (ja) 2018-08-29 2018-08-29 情報分析装置及びプログラム
JP2018-160577 2018-08-29

Publications (1)

Publication Number Publication Date
WO2020045526A1 true WO2020045526A1 (ja) 2020-03-05

Family

ID=69643590

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/033780 WO2020045526A1 (ja) 2018-08-29 2019-08-28 情報分析装置及びプログラム

Country Status (2)

Country Link
JP (1) JP7266838B2 (ja)
WO (1) WO2020045526A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035683A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 用户交互信息处理模型生成方法和用户交互信息处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138500A (ja) * 2014-01-24 2015-07-30 株式会社Nttドコモ 情報提示システムおよび情報提示方法
US20180129940A1 (en) * 2016-11-08 2018-05-10 Facebook, Inc. Systems and methods for similar account determination
JP2018124966A (ja) * 2017-02-01 2018-08-09 富士通株式会社 ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138500A (ja) * 2014-01-24 2015-07-30 株式会社Nttドコモ 情報提示システムおよび情報提示方法
US20180129940A1 (en) * 2016-11-08 2018-05-10 Facebook, Inc. Systems and methods for similar account determination
JP2018124966A (ja) * 2017-02-01 2018-08-09 富士通株式会社 ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OCHIAI, KEIICHI ET AL.: "POI Official Account Classification Method Using Twitter Posts and Profile Information", PROCEEDINGS OF INFORMATION PROCESSING SOCIETY OF JAPAN (TRANSACTION) DATABASE (TOD). COLLABORATIVE EDITION OF IEICE DATA ENGINEERING TECHNICAL GROUP, vol. 9, no. 2, 16 March 2017 (2017-03-16), pages 11 - 22, XP055697269 *
WADA, NAGISA ET AL.: "Detection of spam tweet caused by account takeover of Twitter", THE 5TH FORUM ON DATA ENGINEERING AND INFORMATION.THE 11TH ANNUAL CONFERENCE OF THE DATABASE SOCIETY OF JAPAN, 5 June 2013 (2013-06-05), pages 1 - 6 *
YAMASHITA, AKIHIRO ET AL.: "Study of SNS privacy protection and risk management", JOURNAL DIGITAL PRACTICES, vol. 6, no. 2, 7 November 2016 (2016-11-07), pages 150 - 158 *

Also Published As

Publication number Publication date
JP7266838B2 (ja) 2023-05-01
JP2020035148A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
US20220019853A1 (en) Systems, methods, and storage media for training a machine learning model
Spiesman et al. Assessing the potential for deep learning and computer vision to identify bumble bee species from images
Tian et al. Query-dependent aesthetic model with deep learning for photo quality assessment
US10635952B2 (en) Cognitive analysis and classification of apparel images
Lovato et al. Faved! biometrics: Tell me which image you like and I'll tell you who you are
US12019707B2 (en) Systems, methods, and storage media for training a model for image evaluation
WO2022134794A1 (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
Mo et al. Image feature learning for cold start problem in display advertising
Zhong et al. Predicting pinterest: Automating a distributed human computation
Grechikhin et al. User modeling on mobile device based on facial clustering and object detection in photos and videos
WO2020007989A1 (en) Method for co-clustering senders and receivers based on text or image data files
Dellagiacoma et al. Emotion based classification of natural images
Guntuku et al. Who likes what and, why?’insights into modeling users’ personality based on image ‘likes
US20240248944A1 (en) Systems and methods for implementing session cookies for content selection
Talavera et al. Sentiment recognition in egocentric photostreams
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
WO2020045526A1 (ja) 情報分析装置及びプログラム
Cucurull et al. Deep inference of personality traits by integrating image and word use in social networks
CN115829657A (zh) 一种应用于数据统计的数据采集方法、装置及存储介质
CN110162535A (zh) 用于执行个性化的搜索方法、装置、设备以及存储介质
CN110020120A (zh) 内容投放***中的特征词处理方法、装置及存储介质
Berg et al. Do you see what I see? Measuring the semantic differences in image‐recognition services' outputs
Stacchio et al. Applying deep learning approaches to mixed quantitative-qualitative analyses

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19853766

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19853766

Country of ref document: EP

Kind code of ref document: A1