TWI705411B - 社交業務特徵用戶的識別方法和裝置 - Google Patents
社交業務特徵用戶的識別方法和裝置 Download PDFInfo
- Publication number
- TWI705411B TWI705411B TW105118395A TW105118395A TWI705411B TW I705411 B TWI705411 B TW I705411B TW 105118395 A TW105118395 A TW 105118395A TW 105118395 A TW105118395 A TW 105118395A TW I705411 B TWI705411 B TW I705411B
- Authority
- TW
- Taiwan
- Prior art keywords
- social
- data
- business
- user
- feature
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000006243 chemical reaction Methods 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 8
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申請實施例提供了一種社交業務特徵用戶的識別方法和裝置,該方法包括:獲取候選用戶的用戶資料,在部分候選用戶中,根據所述第一社交屬性資料採擷社交業務特徵用戶;採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,所述鄰近用戶為除所述社交業務特徵用戶之外的候選用戶。本申請實施例增加了具有關聯性的資料量,提高了分類器的精確度,進而提高了識別的精確度,可以識別在第一時間段內潛在的社交業務特徵用戶。
Description
本申請關於電腦的技術領域,特別是關於一種社交業務特徵用戶的識別方法和一種社交業務特徵用戶的識別裝置。
網路的迅速發展將人們帶入了資訊社會和網路經濟時代,對企業的發展和個人生活都產生了深刻的影響。
為了提高服務的精確度,很多網站都對用戶進行識別,針對群體的特性對群體中用戶進行服務。
例如,對體育愛好群體的用戶提供最新的體育新聞,對動漫愛好群體的用戶提供最新的動漫資訊等等。
目前,用戶的識別一般是通過用戶行為之間的相似性進行聚類,行為相似的用戶聚集在同一個群體中。
一方面,這些識別用戶的方法僅僅應用了某一種類型的行為資料進行聚類,數量較少,行為片面。
另一方面,這些識別用戶的方法僅僅集中在當前的時間內,而用戶的行為是隨著時間而發生變化的。
綜上,這些識別用戶的方法識別精確度較低,無法識
別潛在的部分用戶。
鑒於上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種社交業務特徵用戶的識別方法和相應的一種社交業務特徵用戶的識別裝置。
為了解決上述問題,本申請實施例公開了一種社交業務特徵用戶的識別方法,包括:獲取候選用戶的用戶資料,所述用戶資料包括在第一時間段內關聯的第一社交屬性資料和第一業務對象屬性資料、在第二時間段內關聯的第二社交屬性資料和第二業務對象屬性資料,所述第二時間段在所述第一時間段之前的一段時間;在部分候選用戶中,根據所述第一社交屬性資料採擷社交業務特徵用戶;採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,所述鄰近用戶為除所述社交業務特徵用戶之外的候選用戶。
可選地,所述在部分候選用戶中,根據所述第一社交屬性資料採擷社交業務特徵用戶的步驟包括:
從所述候選用戶的第一社交屬性資料中提取與業務處理相關的社交業務消息;採用所述社交業務消息識別社交業務特徵用戶。
可選地,所述採用所述社交業務消息識別社交業務特徵用戶的步驟包括:按照圖計算採用所述社交業務消息識別社交業務特徵用戶。
可選地,所述採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器的步驟包括:從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料;從所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料中,提取與所述第一社交業務特徵資料和所述第一業務對象特徵資料同類型的第二社交業務特徵資料和第二業務對象特徵資料;採用所述第二社交業務特徵資料和所述第二業務對象特徵資料訓練分類器。
可選地,所述採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器的步驟還包括:對所述社交業務特徵用戶的第二社交業務特徵資料和第二業務對象特徵資料進行特徵轉換;
其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
可選地,所述採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器的步驟還包括:計算鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料之間的相似度;當所述相似度大於預設的相似度臨界值時,將所述鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料進行合併。
可選地,所述從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料的步驟包括:從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中提取與業務處理相關的第一社交業務候選資料和第一業務對象候選資料;在所述第一社交候選資料和所述第一業務候選資料中,按照重要性進行排序;查找所述候選用戶所屬行業的選擇規則;在排序後的第一社交業務候選資料和第一業務對象候選資料中,選取滿足所述選擇規則的第一社交業務特徵資料和第一業務對象特徵資料。
可選地,所述將鄰近用戶的第一社交屬性資料和第一
業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果的步驟包括:將鄰近用戶的第一社交業務特徵資料和第一業務對象特徵資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果。
可選地,所述將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果的步驟還包括:對鄰近候選用戶的第一社交業務特徵資料和第一業務對象特徵資料進行特徵轉換;其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
本申請實施還公開了一種社交業務特徵用戶的識別裝置,包括:用戶資料獲取模組,用於獲取候選用戶的用戶資料,所述用戶資料包括在第一時間段內關聯的第一社交屬性資料和第一業務對象屬性資料、在第二時間段內關聯的第二社交屬性資料和第二業務對象屬性資料,所述第二時間段在所述第一時間段之前的一段時間;社交業務特徵用戶挖掘模組,用於在部分候選用戶
中,根據所述第一社交屬性資料採擷社交業務特徵用戶;分類器訓練模組,用於採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;社交業務特徵用戶識別模組,用於將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,所述鄰近用戶為除所述社交業務特徵用戶之外的候選用戶。
可選地,所述社交業務特徵用戶挖掘模組包括:社交業務消息提取子模組,用於從所述候選用戶的第一社交屬性資料中提取與業務處理相關的社交業務消息;用戶識別子模組,用於採用所述社交業務消息識別社交業務特徵用戶。
可選地,所述用戶識別子模組包括:圖計算單元,用於按照圖計算採用所述社交業務消息識別社交業務特徵用戶。
可選地,所述分類器訓練模組包括:特徵資料選取子模組,用於從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料;特徵資料提取子模組,用於從所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料中,提取與所述第一社交業務特徵資料和所述第一業務對象特徵資料同類型的第二社交業務特徵資料和第二業務對象特徵資
料;資料訓練子模組,用於採用所述第二社交業務特徵資料和所述第二業務對象特徵資料訓練分類器。
可選地,所述分類器訓練模組還包括:第一特徵轉換子模組,用於對所述社交業務特徵用戶的第二社交業務特徵資料和第二業務對象特徵資料進行特徵轉換;其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
可選地,所述分類器訓練模組還包括:相似度計運算元模組,用於計算鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料之間的相似度;資料合併子模組,用於在所述相似度大於預設的相似度臨界值時,將所述鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料進行合併。
可選地,所述特徵資料選取子模組包括:候選資料提取單元,用於從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中提取與業務處理相關的第一社交業務候選資料和第一業務對象候選資料;排序單元,用於在所述第一社交候選資料和所述第一業務候選資料中,按照重要性進行排序;
選擇規則查找單元,用於查找所述候選用戶所屬行業的選擇規則;資料選取單元,用於在排序後的第一社交業務候選資料和第一業務對象候選資料中,選取滿足所述選擇規則的第一社交業務特徵資料和第一業務對象特徵資料。
可選地,所述社交業務特徵用戶識別模組包括:資料登錄子模組,用於將鄰近用戶的第一社交業務特徵資料和第一業務對象特徵資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果。
可選地,所述社交業務特徵用戶識別模組還包括:第二特徵轉換子模組,用於對鄰近候選用戶的第一社交業務特徵資料和第一業務對象特徵資料進行特徵轉換;其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
本申請實施例包括以下優點:本申請實施例應用社交業務特徵用戶在第二時間段的第二社交屬性資料和第二業務對象屬性資料訓練分類器,將鄰近用戶在第一時間段的第一社交屬性資料和第一業務對象屬性資料登錄分類器中,預測鄰近用戶在一段時間之後是否為社交業務特徵用戶的結果,通過關聯的社交屬性資料與業務對象屬性資料進行識別,增加了具有關聯性的資料量,提高了分類器的精確度,進而提高了識別的精確
度,此外,透過第二時間段內的資料訓練分類器,使得分類器可以識別在第一時間段內潛在的社交業務特徵用戶。
201‧‧‧用戶資料獲取模組
202‧‧‧社交業務特徵用戶挖掘模組
203‧‧‧分類器訓練模組
204‧‧‧社交業務特徵用戶識別模組
圖1是本申請的一種社交業務特徵用戶的識別方法實施例的步驟流程圖;圖2是本申請的一種社交業務特徵用戶的識別裝置實施例的結構方塊圖。
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
參照圖1,示出了本申請的一種社交業務特徵用戶的識別方法實施例的步驟流程圖,具體可以包括如下步驟:步驟101,獲取候選用戶的用戶資料;在具體實現中,本申請實施例可以應用於雲端計算平台,即伺服器集群,如分散式系統,其儲存了大量用戶的業務對象,此外,該雲端計算平台可以與社交網路(如微博、論壇、博客等等)互通,即相同的用戶具有業務對象及社交網路。
在本申請實施例中,候選用戶是相對於識別社交業務特徵用戶而言的,其本質也為用戶,以用戶標識進行在雲端計算平台上表徵,即能夠代表一個唯一確定的候選用戶
的資訊,用戶ID(Identity,身份標識號)、cookie、Mac(Media Access Control,媒體存取控制)位址等等。
在本申請實施例中,雲端計算平台可以透過網站日誌記錄用戶資料,儲存在資料庫中。
其中,該用戶資料可以包括社交屬性資料,即在社交網路中產生的資料,以微博為例,社交屬性資料包括個人資料、粉絲資料、狀態資料、轉發資料、點讚資料等等。
除此之外,該用戶資料還可以包括業務對象屬性資料,即在業務對象進行業務處理時產生的資料。
需要說明的是,在不同的領域中可以具有不同的業務對象,即實現該領域特性的資料。
例如,在通訊領域中,業務對象可以為通訊資料;在新聞媒體領域中,業務對象可以為新聞資料;在搜索領域中,業務對象可以為網頁;在電子商務(Electronic Commerce,EC)領域中,業務對象可以為店鋪資料,等等。
在不同的領域中,雖然業務對象承載領域特性而有所不同,但其本質都是資料,例如,文本資料、圖像資料、音訊資料、視頻資料等等,相對地,對業務對象的處理,本質都是對資料的處理。
為使本領域技術人員更好地理解本申請實施例,在本申請實施例中,將店鋪資料作為業務對象的一種示例進行說明。
在此示例中,業務處理為行銷,即業務對象屬性資料
包括店鋪的基礎資料(如店鋪星級、店鋪開店時長以及店鋪成交情況等等)、買家特徵資料(如買家年齡、性別等等)、商品特徵資料(如商品圖片品質、商品價格、商品評論等等)、行為資料(如收藏、瀏覽、加購、下單等等)等等。
由於網站一般不斷記錄用戶資料,其時間跨度比較長,通常以分庫分表的形式儲存。
在本申請實施例中,選取其中兩個時間段的用戶資料,分別為第一時間段和第二時間段,第二時間段在第一時間段之前的一段時間。
例如,若第一時間段為2015年9月,第二時間段則可以為2014年9月至2015年8月,則從第二時間段的起始時間至第一時間段的起始時間,兩者之間相隔一年的時間。
相對於用戶資料,即用戶資料可以包括在第一時間段內關聯的第一社交屬性資料和第一業務對象屬性資料、在第二時間段內關聯的第二社交屬性資料和第二業務對象屬性資料。
其中,第一業務對象屬性資料和第二業務對象屬性資料為在業務對象進行業務處理時產生的資料。
步驟102,在部分候選用戶中,根據所述第一社交屬性資料採擷表徵業務處理的社交業務特徵用戶;在本申請實施例中,可以預先從全部候選用戶中選取部分候選用戶,可以是人工選擇的,可以是透過預設的條
件過濾的,本申請實施例對此不加以限制。
從該部分候選用戶中,可以挖掘出表徵業務處理的社交業務特徵用戶,即善於通過社交輔助業務處理的用戶,作為分類器的訓練樣本。
在電子商務領域中,業務處理為行銷,則社交業務特徵用戶可以稱之為社交行銷達人,即善於透過社交輔助行銷的用戶。
在本申請的一個實施例中,步驟102可以包括如下子步驟:子步驟S11,從所述候選用戶的第一社交屬性資料中提取與業務處理相關的社交業務消息;在具體實現中,可以結合社交網路的描述過濾候選用戶的資料,一般的社交業務特徵用戶(如社交行銷達人)多為知名認證用戶,如明星、設計師或者論壇版主等,會具有較為明顯的社交特徵。
通過文本挖掘挑選出與業務處理(如行銷)相關的社交業務消息,如微博消息、朋友圈消息、論壇的帖、博客的博文等消息中,關於業務處理的消息,如發佈新商品的消息、新商品的試玩消息等等。
子步驟S12,採用所述社交業務消息識別社交業務特徵用戶。
在具體實現中,可以按照圖計算採用所述社交業務消息識別社交業務特徵用戶,通過圖計算,如PageRank,發現社交網路中的“意見領袖”,即與一般用戶有較多業
務互動的用戶,並對這些用戶進行排序,選取排序最高的前N個候選用戶,從而識別出是否為社交業務特徵用戶。
此外,除了圖計算之外,還可以採用其他方式識別社交業務特徵用戶,本申請實施例對此不加以限制。
當然,為了更加精確識別出社交業務特徵用戶,可以請專門的技術人員進行人工審核,以提高分類器的精確度。
步驟103,採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;在具體實現中,可以定義從第二時間段的起始時間開始,一段時間t後,在第一時間段,某個用戶成為社交業務特徵用戶(如社交行銷達人)。
以社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料作為正樣本,以非社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料作為負樣本,透過機器學習的方法訓練分類器。
在本申請的一個實施例中,步驟103可以包括如下子步驟:子步驟S21,從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料;在本申請實施例中,從大量的第一社交屬性資料和第一業務對象屬性資料中,篩選出最能夠代表達人的第一社交業務特徵資料和第一業務對象特徵資料。
在具體實現中,利用業務邏輯,從候選用戶的第一社交屬性資料和第一業務對象屬性資料中提取與業務處理相關的第一社交業務候選資料和第一業務對象候選資料,做成資料池。
以電子商務為例,賣家需要與買家進行互動,所以需要不斷推出新品,而買家會收藏這些店鋪確保不錯過新的商品,此外,這些店鋪習慣備多少貨賣多少商品,動銷率會很高,因此,達人會具有更高的動銷率、上新商品數、收藏數等特徵,可以從大量的資料中篩選出與動銷率、上新商品數、買家收藏數等等與達人有關的特徵。
可以透過機器學習中特徵選擇的方法,如ROC或者相關係數等,在第一社交候選資料和第一業務候選資料中,按照重要性進行排序;由於不同行業有不同的特性,如女裝行業圈女裝行業的達人與男裝行業圈男裝行業的達人的特性不同,所以重要性也不會,因此,可以相同查找候選用戶所屬行業的選擇規則;在排序後的第一社交業務候選資料和第一業務對象候選資料中,選取滿足選擇規則的第一社交業務特徵資料和第一業務對象特徵資料。
其中,特徵的重要性有一個量化的資料,因此,可以劃定臨界值,使用重要性大於0.7且小於0.9等選擇規則篩選特徵。
子步驟S22,從所述社交業務特徵用戶的第二社交屬
性資料和第二業務對象屬性資料中,提取與所述第一社交業務特徵資料和所述第一業務對象特徵資料同類型的第二社交業務特徵資料和第二業務對象特徵資料;由於以第二時間段的第二社交屬性資料和第二業務對象屬性資料中作為訓練樣本,因此,可以提取與篩選後的特徵相同類型的第二社交業務特徵資料和第二業務對象特徵資料。
子步驟S23,計算鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料之間的相似度;子步驟S24,當所述相似度大於預設的相似度臨界值時,將所述鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料進行合併;在經過專門的技術人員人工審核是否為社交業務特徵用戶等情景下,社交業務特徵用戶的數量可能較少,如100個,因此,可以擴充社交業務特徵用戶的樣本數,以便為識別做準備。
擴充社交業務特徵用戶的過程中,可以採用相似過濾的方法,將第一業務對象特徵資料進行歸一化處理後,兩兩計算鄰近用戶與社交業務特徵用戶的第一業務對象特徵資料的相似度,設定相似度臨界值去除不相似的第一業務對象特徵資料,合併第一業務對象特徵資料後,結果即為擴充後的第一業務對象特徵資料。
利用cosine公式(夾角餘弦),1001和1002兩個賣家的相似度為(0.33*0.66+0.25*0.75)/(SQRT(0.33^2+0.25^2)*SQRT(0.66^2+0.75^2))。
在獲取第二社交業務特徵資料和第二業務對象特徵資料之後,可以以清單的形式輸出,包括是否為社交業務特徵用戶、特徵名稱、值以及相對應的時間。
樣本號:1,特徵1:XXX,特徵2:XXX,……,特徵n:XXX,是否達人:1,時間:YYYY-MM-DD
樣本號:2,特徵1:XXX,特徵2:XXX,……,特徵n:XXX,是否達人:0,時間:YYYY-MM-DD
樣本號:3,特徵1:XXX,特徵2:XXX,……,特徵n:XXX,是否達人:1,時間:YYYY-MM-DD
子步驟S25,對所述社交業務特徵用戶和所述非社交業務特徵用戶的第二社交業務特徵資料和第二業務對象特徵資料進行特徵轉換;
由於篩選出的特徵為到第一時間段為止的時間序列中的特徵,因此,可以進行特徵轉換,製作成特徵寬表,特徵轉換可以包括以下的一種或多種:
均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
例如,對於上述示例,轉換的特徵可以如下:樣本號:1,特徵1均值:10,特徵1方差:2,特徵1斜率:0.5,特徵1波峰數:3,特徵1波谷數:5,特徵2均值:8,特徵1方差:1,特徵2斜率:0.9,特徵1波峰數:2,特徵1波谷數:7,……,是否t時間後為達人:1
樣本號:1,特徵1均值:5,特徵1方差:5,特徵1斜率:1.2,特徵1波峰數:10,特徵1波谷數:8,特徵2均值:2,特徵1方差:4,特徵2斜率:0.2,特徵1波峰數:5,特徵1波谷數:3,……,是否t時間後為達人:1
所有的特徵可以進行統一變換,只不過均值、方差、斜率、波峰個數、波谷個數可以選取7天,30天,90天等不同時間段。
子步驟S26,採用所述第二社交業務特徵資料和所述第二業務對象特徵資料訓練分類器。
應用本申請實施例,可以預先設置訓練器,用於學習各個維度的資料(即第二社交屬性資料和第二業務對象屬性資料)的邏輯關係,如支援向量機(Support Vector
Machine,SVM)、決策樹(Decision Tree)、隨機森林(Random Forest)等等,本申請實施例對此不加以限制。
其中,支援向量機是通過一個非線性映射p,把樣本空間映射到一個高維乃至無窮維的特徵空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉化為在特徵空間中的線性可分的問題。
隨機森林,是用隨機的方式建立一個森林,森林裡面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之後,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬於哪一類(對於分類演算法),然後看看哪一類被選擇最多,就預測這個樣本為那一類。
決策樹是在已知各種情況發生機率的基礎上,透過構成決策樹來求取淨現值的期望值大於等於零的機率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用機率分析的一種圖解法。
當然,為了進一步提高分類器的精確度,可以同時採用多種訓練器訓練分類器,選擇在離線環境下表現最好的分類器。
步驟104,將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,
其中,鄰近用戶為除社交業務特徵用戶之外的候選用戶。
在具體實現中,可以對鄰近候選用戶的第一社交業務特徵資料和第一業務對象特徵資料進行特徵轉換;其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
將鄰近用戶的第一社交業務特徵資料和第一業務對象特徵資料登錄分類器中,輸出鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,即預測鄰近用戶是否在第一時間段之後,經過一段時間,稱為社交業務特徵用戶。
以電子商務為例,若以社交行銷達人在2015年9月(第一時間段)之前一年的資料訓練分類器,則可以用該分類器識別鄰近用戶在2016年9月是否成為社交行銷達人,若是,則該鄰近用戶可以稱之為潛力社交行銷達人。
社交行銷以其強大的成交爆發以及粉絲效應在電商平台中迅速成為一個快速增長且新穎的營運模式,具有互聯網的快時尚且重社交的特徵。
與傳統的低價行銷模式不同,社交行銷能夠帶來優質的流量以及極高的轉化率,即使產品售價較高,依然能夠在新品上架時即時售罄。
目前有大量潛力社交行銷達人由於社交力量較為薄弱,無法自己單獨進行社交營運,因此,在識別潛力社交
行銷達人之後,可以幫助這些潛力社交行銷達人在社交網路中定期組織活動,打造專業代營運機制,降低營運成本以加速銷售量的提高。
本申請實施例應用社交業務特徵用戶在第二時間段的第二社交屬性資料和第二業務對象屬性資料訓練分類器,將鄰近用戶在第一時間段的第一社交屬性資料和第一業務對象屬性資料登錄分類器中,預測鄰近用戶在一段時間之後是否為社交業務特徵用戶的結果,通過關聯的社交屬性資料與業務對象屬性資料進行識別,增加了具有關聯性的資料量,提高了分類器的精確度,進而提高了識別的精確度,此外,通過第二時間段內的資料訓練分類器,使得分類器可以識別在第一時間段內潛在的社交業務特徵用戶。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請實施例並不受所描述的動作順序的限制,因為依據本申請實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本申請實施例所必須的。
參照圖2,示出了本申請的一種社交業務特徵用戶的識別裝置實施例的結構方塊圖,具體可以包括如下模組:用戶資料獲取模組201,用於獲取候選用戶的用戶資料,所述用戶資料包括在第一時間段內關聯的第一社交屬性資料和第一業務對象屬性資料、在第二時間段內關聯的
第二社交屬性資料和第二業務對象屬性資料,所述第二時間段在所述第一時間段之前的一段時間;社交業務特徵用戶挖掘模組202,用於在部分候選用戶中,根據所述第一社交屬性資料採擷社交業務特徵用戶;分類器訓練模組203,用於採用所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;社交業務特徵用戶識別模組204,用於將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,所述鄰近用戶為除所述社交業務特徵用戶之外的候選用戶。
在本申請的一個實施例中,所述社交業務特徵用戶挖掘模組202可以包括如下子模組:社交業務消息提取子模組,用於從所述候選用戶的第一社交屬性資料中提取與業務處理相關的社交業務消息;用戶識別子模組,用於採用所述社交業務消息識別社交業務特徵用戶。
在本申請的一個實施例中,所述用戶識別子模組可以包括如下單元:圖計算單元,用於按照圖計算採用所述社交業務消息識別社交業務特徵用戶。
在本申請的一個實施例中,所述分類器訓練模組203
可以包括如下子模組:特徵資料選取子模組,用於從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料;特徵資料提取子模組,用於從所述社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料中,提取與所述第一社交業務特徵資料和所述第一業務對象特徵資料同類型的第二社交業務特徵資料和第二業務對象特徵資料;資料訓練子模組,用於採用所述第二社交業務特徵資料和所述第二業務對象特徵資料訓練分類器。
在本申請的一個實施例中,所述分類器訓練模組203還可以包括如下子模組:第一特徵轉換子模組,用於對所述社交業務特徵用戶的第二社交業務特徵資料和第二業務對象特徵資料進行特徵轉換;其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
在本申請的一個實施例中,所述分類器訓練模組203還可以包括如下子模組:相似度計運算元模組,用於計算鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料之間的相似度;
資料合併子模組,用於在所述相似度大於預設的相似度臨界值時,將所述鄰近用戶的第一業務對象特徵資料、與所述社交業務特徵用戶的第一業務對象特徵資料進行合併。
在本申請的一個實施例中,所述特徵資料選取子模組可以包括如下單元:候選資料提取單元,用於從所述候選用戶的第一社交屬性資料和第一業務對象屬性資料中提取與業務處理相關的第一社交業務候選資料和第一業務對象候選資料;排序單元,用於在所述第一社交候選資料和所述第一業務候選資料中,按照重要性進行排序;選擇規則查找單元,用於查找所述候選用戶所屬行業的選擇規則;資料選取單元,用於在排序後的第一社交業務候選資料和第一業務對象候選資料中,選取滿足所述選擇規則的第一社交業務特徵資料和第一業務對象特徵資料。
在本申請的一個實施例中,所述社交業務特徵用戶識別模組204可以包括如下子模組:資料登錄子模組,用於將鄰近用戶的第一社交業務特徵資料和第一業務對象特徵資料登錄所述分類器中,輸出所述鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果。
在本申請的一個實施例中,所述社交業務特徵用戶識別模組204還可以包括如下子模組:
第二特徵轉換子模組,用於對鄰近候選用戶的第一社交業務特徵資料和第一業務對象特徵資料進行特徵轉換;其中,所述特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本申請實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本申請實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久
性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括非持續性的電腦可讀媒體(transitory media),如調製的資料信號和載波。
本申請實施例是參照根據本申請實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程
式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本申請實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本申請實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句
“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本申請所提供的一種社交業務特徵用戶的識別方法和一種社交業務特徵用戶的識別裝置,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
Claims (18)
- 一種社交業務特徵用戶的識別方法,其特徵在於,包括:獲取候選用戶的用戶資料,該用戶資料包括在第一時間段內關聯的第一社交屬性資料和第一業務對象屬性資料、在第二時間段內關聯的第二社交屬性資料和第二業務對象屬性資料,該第二時間段在該第一時間段之前的一段時間;在部分候選用戶中,根據該第一社交屬性資料採擷社交業務特徵用戶;採用該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄該分類器中,輸出該鄰近用戶在所述第一時間段之後的一段時間是否為社交業務特徵用戶的結果,該鄰近用戶為除該社交業務特徵用戶之外的候選用戶,其中,該第一業務對象屬性資料和該第二業務對象屬性資料為在業務對象進行業務處理時產生的資料。
- 根據申請專利範圍第1項所述的方法,其中,所述在部分候選用戶中,根據該第一社交屬性資料採擷社交業務特徵用戶的步驟包括:從該候選用戶的第一社交屬性資料中提取與業務處理相關的社交業務消息;採用該社交業務消息識別社交業務特徵用戶。
- 根據申請專利範圍第2項所述的方法,其中該採用該社交業務消息識別社交業務特徵用戶的步驟包括:按照圖計算採用該社交業務消息識別社交業務特徵用戶。
- 根據申請專利範圍第1項所述的方法,其中,該採用該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器的步驟包括:從該候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料;從該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料中,提取與該第一社交業務特徵資料和該第一業務對象特徵資料同類型的第二社交業務特徵資料和第二業務對象特徵資料;採用該第二社交業務特徵資料和該第二業務對象特徵資料訓練分類器。
- 根據申請專利範圍第4項所述的方法,其中,該採用該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器的步驟還包括:對該社交業務特徵用戶的第二社交業務特徵資料和第二業務對象特徵資料進行特徵轉換;其中,該特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
- 根據申請專利範圍第4項所述的方法,其中,該採用該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器的步驟還包括:計算鄰近用戶的第一業務對象特徵資料、與該社交業務特徵用戶的第一業務對象特徵資料之間的相似度;當該相似度大於預設的相似度臨界值時,將該鄰近用戶的第一業務對象特徵資料、與該社交業務特徵用戶的第一業務對象特徵資料進行合併。
- 根據申請專利範圍第4或5或6項所述的方法,其中,所述從該候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料的步驟包括:從該候選用戶的第一社交屬性資料和第一業務對象屬性資料中提取與業務處理相關的第一社交業務候選資料和第一業務對象候選資料;在該第一社交候選資料和該第一業務候選資料中,按照重要性進行排序;查找該候選用戶所屬行業的選擇規則;在排序後的第一社交業務候選資料和第一業務對象候選資料中,選取滿足該選擇規則的第一社交業務特徵資料和第一業務對象特徵資料。
- 根據申請專利範圍第4或5或6項所述的方法,其中,所述將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄該分類器中,輸出該鄰近用戶在該第一時 間段之後的一段時間是否為社交業務特徵用戶的結果的步驟包括:將鄰近用戶的第一社交業務特徵資料和第一業務對象特徵資料登錄該分類器中,輸出該鄰近用戶在該第一時間段之後的一段時間是否為社交業務特徵用戶的結果。
- 根據申請專利範圍第8項所述的方法,其中,所述將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄該分類器中,輸出該鄰近用戶在該第一時間段之後的一段時間是否為社交業務特徵用戶的結果的步驟還包括:對鄰近候選用戶的第一社交業務特徵資料和第一業務對象特徵資料進行特徵轉換;其中,該特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
- 一種社交業務特徵用戶的識別裝置,其特徵在於,包括:用戶資料獲取模組,用於獲取候選用戶的用戶資料,該用戶資料包括在第一時間段內關聯的第一社交屬性資料和第一業務對象屬性資料、在第二時間段內關聯的第二社交屬性資料和第二業務對象屬性資料,該第二時間段在該第一時間段之前的一段時間;社交業務特徵用戶挖掘模組,用於在部分候選用戶中,根據該第一社交屬性資料採擷社交業務特徵用戶; 分類器訓練模組,用於採用該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料訓練分類器;社交業務特徵用戶識別模組,用於將鄰近用戶的第一社交屬性資料和第一業務對象屬性資料登錄該分類器中,輸出所述鄰近用戶在該第一時間段之後的一段時間是否為社交業務特徵用戶的結果,該鄰近用戶為除該社交業務特徵用戶之外的候選用戶,其中,該第一業務對象屬性資料和該第二業務對象屬性資料為在業務對象進行業務處理時產生的資料。
- 根據申請專利範圍第10項所述的裝置,其中,所述社交業務特徵用戶挖掘模組包括:社交業務消息提取子模組,用於從該候選用戶的第一社交屬性資料中提取與業務處理相關的社交業務消息;用戶識別子模組,用於採用該社交業務消息識別社交業務特徵用戶。
- 根據申請專利範圍第11項所述的裝置,其中,所述用戶識別子模組包括:圖計算單元,用於按照圖計算採用該社交業務消息識別社交業務特徵用戶。
- 根據申請專利範圍第10項所述的裝置,其中,所述分類器訓練模組包括:特徵資料選取子模組,用於從該候選用戶的第一社交屬性資料和第一業務對象屬性資料中,選取表徵業務處理的第一社交業務特徵資料和第一業務對象特徵資料; 特徵資料提取子模組,用於從該社交業務特徵用戶的第二社交屬性資料和第二業務對象屬性資料中,提取與該第一社交業務特徵資料和該第一業務對象特徵資料同類型的第二社交業務特徵資料和第二業務對象特徵資料;資料訓練子模組,用於採用該第二社交業務特徵資料和該第二業務對象特徵資料訓練分類器。
- 根據申請專利範圍第13項所述的裝置,其中,該分類器訓練模組還包括:第一特徵轉換子模組,用於對該社交業務特徵用戶的第二社交業務特徵資料和第二業務對象特徵資料進行特徵轉換;其中,該特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
- 根據申請專利範圍第13項所述的裝置,其中,該分類器訓練模組還包括:相似度計運算元模組,用於計算鄰近用戶的第一業務對象特徵資料、與該社交業務特徵用戶的第一業務對象特徵資料之間的相似度;資料合併子模組,用於在該相似度大於預設的相似度臨界值時,將該鄰近用戶的第一業務對象特徵資料、與該社交業務特徵用戶的第一業務對象特徵資料進行合併。
- 根據申請專利範圍第13或14或15項所述的裝置,其中,該特徵資料選取子模組包括: 候選資料提取單元,用於從該候選用戶的第一社交屬性資料和第一業務對象屬性資料中提取與業務處理相關的第一社交業務候選資料和第一業務對象候選資料;排序單元,用於在該第一社交候選資料和該第一業務候選資料中,按照重要性進行排序;選擇規則查找單元,用於查找該候選用戶所屬行業的選擇規則;資料選取單元,用於在排序後的第一社交業務候選資料和第一業務對象候選資料中,選取滿足該選擇規則的第一社交業務特徵資料和第一業務對象特徵資料。
- 根據申請專利範圍第13或14或15項所述的裝置,其中,該社交業務特徵用戶識別模組包括:資料登錄子模組,用於將鄰近用戶的第一社交業務特徵資料和第一業務對象特徵資料登錄該分類器中,輸出該鄰近用戶在該第一時間段之後的一段時間是否為社交業務特徵用戶的結果。
- 根據申請專利範圍第17項所述的裝置,其中,該社交業務特徵用戶識別模組還包括:第二特徵轉換子模組,用於對鄰近候選用戶的第一社交業務特徵資料和第一業務對象特徵資料進行特徵轉換;其中,該特徵轉換包括以下的一種或多種:均值轉換、方差轉換、斜率轉換、波峰波谷個數轉換。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510784634.5 | 2015-11-16 | ||
CN201510784634.5A CN106708871B (zh) | 2015-11-16 | 2015-11-16 | 一种社交业务特征用户的识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201719569A TW201719569A (zh) | 2017-06-01 |
TWI705411B true TWI705411B (zh) | 2020-09-21 |
Family
ID=58690175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105118395A TWI705411B (zh) | 2015-11-16 | 2016-06-13 | 社交業務特徵用戶的識別方法和裝置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170140301A1 (zh) |
JP (1) | JP2018537768A (zh) |
CN (1) | CN106708871B (zh) |
TW (1) | TWI705411B (zh) |
WO (1) | WO2017087548A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729469A (zh) * | 2017-10-12 | 2018-02-23 | 北京小度信息科技有限公司 | 用户挖掘方法、装置、电子设备及计算机可读存储介质 |
CN107909516A (zh) * | 2017-12-06 | 2018-04-13 | 链家网(北京)科技有限公司 | 一种问题房源识别方法和*** |
CN110232393B (zh) * | 2018-03-05 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 数据的处理方法、装置、存储介质和电子装置 |
CN108932658B (zh) * | 2018-07-13 | 2021-07-06 | 京东数字科技控股有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN110598993B (zh) * | 2019-08-19 | 2023-04-18 | 深圳市鹏海运电子数据交换有限公司 | 数据加工方法及装置 |
CN111008872B (zh) * | 2019-12-16 | 2022-06-14 | 华中科技大学 | 一种适用于以太坊的用户画像构建方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201005666A (en) * | 2008-02-27 | 2010-02-01 | Yahoo Inc | Event communication platform for mobile device users |
CN102629904A (zh) * | 2012-02-24 | 2012-08-08 | 安徽博约信息科技有限责任公司 | 一种网络水军的探测与判定方法 |
CN104102819A (zh) * | 2014-06-27 | 2014-10-15 | 北京奇艺世纪科技有限公司 | 一种用户自然属性的确定方法和装置 |
US20150006241A1 (en) * | 2013-06-27 | 2015-01-01 | Hewlett-Packard Development Company, L.P. | Analyzing participants of a social network |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6853998B2 (en) * | 2001-02-07 | 2005-02-08 | International Business Machines Corporation | Customer self service subsystem for classifying user contexts |
US20090049127A1 (en) * | 2007-08-16 | 2009-02-19 | Yun-Fang Juan | System and method for invitation targeting in a web-based social network |
US7873584B2 (en) * | 2005-12-22 | 2011-01-18 | Oren Asher | Method and system for classifying users of a computer network |
US8566256B2 (en) * | 2008-04-01 | 2013-10-22 | Certona Corporation | Universal system and method for representing and predicting human behavior |
US20110231296A1 (en) * | 2010-03-16 | 2011-09-22 | UberMedia, Inc. | Systems and methods for interacting with messages, authors, and followers |
CN102117325A (zh) * | 2011-02-24 | 2011-07-06 | 清华大学 | 动态社会网络用户行为的预测方法 |
US20150142689A1 (en) * | 2011-09-16 | 2015-05-21 | Movband, Llc Dba Movable | Activity monitor |
US20130097246A1 (en) * | 2011-10-12 | 2013-04-18 | Cult, Inc. | Multilocal implicit social networking |
US9135211B2 (en) * | 2011-12-20 | 2015-09-15 | Bitly, Inc. | Systems and methods for trending and relevance of phrases for a user |
US9619811B2 (en) * | 2011-12-20 | 2017-04-11 | Bitly, Inc. | Systems and methods for influence of a user on content shared via 7 encoded uniform resource locator (URL) link |
US10032180B1 (en) * | 2012-10-04 | 2018-07-24 | Groupon, Inc. | Method, apparatus, and computer program product for forecasting demand using real time demand |
US9183282B2 (en) * | 2013-03-15 | 2015-11-10 | Facebook, Inc. | Methods and systems for inferring user attributes in a social networking system |
US20140358630A1 (en) * | 2013-05-31 | 2014-12-04 | Thomson Licensing | Apparatus and process for conducting social media analytics |
US9152694B1 (en) * | 2013-06-17 | 2015-10-06 | Appthority, Inc. | Automated classification of applications for mobile devices |
US10210458B2 (en) * | 2013-11-19 | 2019-02-19 | Facebook, Inc. | Selecting users to receive a recommendation to establish connection to an object in a social networking system |
US10102480B2 (en) * | 2014-06-30 | 2018-10-16 | Amazon Technologies, Inc. | Machine learning service |
US10528999B2 (en) * | 2014-08-18 | 2020-01-07 | Yp Llc | Systems and methods for facilitating discovery and management of business information |
US9747556B2 (en) * | 2014-08-20 | 2017-08-29 | Vertafore, Inc. | Automated customized web portal template generation systems and methods |
WO2016046744A1 (en) * | 2014-09-26 | 2016-03-31 | Thomson Reuters Global Resources | Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts |
US9971972B2 (en) * | 2014-12-30 | 2018-05-15 | Oath Inc. | Predicting the next application that you are going to use on aviate |
US9805427B2 (en) * | 2015-01-29 | 2017-10-31 | Salesforce.Com, Inc. | Systems and methods of data mining to customize software trial demonstrations |
US20170034108A1 (en) * | 2015-07-30 | 2017-02-02 | Facebook, Inc. | Determining event recommendability in online social networks |
US10554611B2 (en) * | 2015-08-10 | 2020-02-04 | Google Llc | Privacy aligned and personalized social media content sharing recommendations |
-
2015
- 2015-11-16 CN CN201510784634.5A patent/CN106708871B/zh active Active
-
2016
- 2016-06-13 TW TW105118395A patent/TWI705411B/zh active
- 2016-11-16 US US15/353,601 patent/US20170140301A1/en not_active Abandoned
- 2016-11-16 JP JP2018524318A patent/JP2018537768A/ja active Pending
- 2016-11-16 WO PCT/US2016/062321 patent/WO2017087548A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201005666A (en) * | 2008-02-27 | 2010-02-01 | Yahoo Inc | Event communication platform for mobile device users |
TWI393064B (zh) * | 2008-02-27 | 2013-04-11 | Yahoo Inc | 行動裝置使用者之事件通訊平台之裝置、方法、系統以及處理器可讀媒體 |
CN102629904A (zh) * | 2012-02-24 | 2012-08-08 | 安徽博约信息科技有限责任公司 | 一种网络水军的探测与判定方法 |
US20150006241A1 (en) * | 2013-06-27 | 2015-01-01 | Hewlett-Packard Development Company, L.P. | Analyzing participants of a social network |
CN104102819A (zh) * | 2014-06-27 | 2014-10-15 | 北京奇艺世纪科技有限公司 | 一种用户自然属性的确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106708871A (zh) | 2017-05-24 |
JP2018537768A (ja) | 2018-12-20 |
TW201719569A (zh) | 2017-06-01 |
US20170140301A1 (en) | 2017-05-18 |
WO2017087548A1 (en) | 2017-05-26 |
CN106708871B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI705411B (zh) | 社交業務特徵用戶的識別方法和裝置 | |
CN107424043B (zh) | 一种产品推荐方法及装置,电子设备 | |
CN105247507B (zh) | 用于确定品牌的影响力得分的方法、***和存储介质 | |
WO2018014759A1 (zh) | 一种聚类数据表的展现方法、装置和*** | |
US10360623B2 (en) | Visually generated consumer product presentation | |
KR101419504B1 (ko) | 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법 | |
US20230214895A1 (en) | Methods and systems for product discovery in user generated content | |
CN108959323B (zh) | 视频分类方法和装置 | |
US20200226168A1 (en) | Methods and systems for optimizing display of user content | |
JP6767342B2 (ja) | 検索装置、検索方法および検索プログラム | |
WO2019072098A1 (zh) | 一种识别核心产品词的方法和*** | |
TWI645348B (zh) | 商品相關網路文章之自動圖文摘要方法及系統 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
US10474670B1 (en) | Category predictions with browse node probabilities | |
US20230030560A1 (en) | Methods and systems for tagged image generation | |
CN116739626A (zh) | 商品数据挖掘处理方法、装置、电子设备及可读介质 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
JP6664580B2 (ja) | 算出装置、算出方法および算出プログラム | |
Filipiak et al. | Quantitative analysis of art market using ontologies, named entity recognition and machine learning: A case study | |
CN114398562A (zh) | 一种店铺数据管理方法、装置、设备及存储介质 | |
US20200226167A1 (en) | Methods and systems for dynamic content provisioning | |
CN112949963A (zh) | 员工服务质量的评估方法、装置、存储介质和智能设备 | |
Widjaja et al. | Text Mining Application With K-Means Clustering to Identify Sentiments and Popular Topics: A Case Study of The Three Largest Online Marketplaces in Indonesia | |
Rodavia et al. | AutoRec: A recommender system based on social media stream | |
Wang | Precision marketing strategy based on the “user portrait” model,” |