TW201329890A - 店鋪訪問資料處理方法及系統 - Google Patents

店鋪訪問資料處理方法及系統 Download PDF

Info

Publication number
TW201329890A
TW201329890A TW101121761A TW101121761A TW201329890A TW 201329890 A TW201329890 A TW 201329890A TW 101121761 A TW101121761 A TW 101121761A TW 101121761 A TW101121761 A TW 101121761A TW 201329890 A TW201329890 A TW 201329890A
Authority
TW
Taiwan
Prior art keywords
store
user
access data
identifier
data
Prior art date
Application number
TW101121761A
Other languages
English (en)
Inventor
Pan-Feng Yuan
Cong Ma
Xu-Liang Shi
Zhen-Jie Zhu
Mao-Sen Zhang
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201329890A publication Critical patent/TW201329890A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申請案提供了一種店鋪訪問資料處理方法,包括:獲取新的訪問資料,從中解析出用戶標識、店鋪標識以及訪問時間;判斷用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟;及判斷用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定新的訪問資料對應的用戶為該店鋪的再次訪問用戶。本申請案還提供一種實現前述方法的店鋪訪問資料處理系統。本申請案的店鋪訪問資料處理方法及系統,對訪問資料的處理精確度高,且佔用系統資源較少。

Description

店鋪訪問資料處理方法及系統
本申請案關於電腦資料處理技術領域,特別是關於一種店鋪訪問資料處理方法及系統。
網上購物逐漸成為新的購物消費趨勢,在購物網站上開設網上店鋪的人越來越多,透過網上店鋪進行購物的用戶也越來越多。以一個店鋪為例,每天都可能會有來自各地的用戶訪問該店鋪,為了幫助店鋪更好的提供服務,一般的購物網站會提供店鋪相關統計資料,例如,統計某一商品的銷售量、用戶訪問量、重復訪問網站的用戶數量等等。透過對這些資料的統計,開設店鋪的賣家能夠及時基於這些資料進行分析,調整經營商品的種類及數量、或者調整服務。例如,對於重新訪問網站的用戶,如果某一用戶在一定時間內重復訪問同一家店鋪,即此用戶為該店鋪的再次訪問用戶(如回頭客),因此,可以認為該用戶應該是對店鋪中的商品感興趣。賣家則可以根據其店鋪中的所有再次訪問用戶資料進行分析,調整經營商品種類、服務質量等等。
目前,購物網站常見的再次訪問用戶計算方法為:設定一個劃分再次訪問用戶的時間段(例如,六天),獲取在這個時間段之內所有訪問過該購物網站中的用戶的歷史訪問資料,例如用戶標識、其訪問的店鋪標識等等。當有 新的用戶訪問資料產生時,獲取該新的訪問資料中的用戶標識和其訪問的店鋪標識,並與歷史訪問資料中的用戶標識和店鋪標識進行匹配,如果用戶標識和店鋪標識均能匹配,則確定該用戶為該店鋪的再次訪問用戶,反之,則該用戶不是該店鋪的再次訪問用戶。前述方法中,每當新來一條用戶訪問資料,則需要跟歷史訪問資料進行匹配,因為歷史訪問資料是動態變化的,每次匹配的資料源中的資料混亂,這就可能會出現匹配耗時長、工作量大的問題、因此會佔用過多的系統資源、增加系統的負擔。特別是當歷史訪問資料在短時間內動態變化數量較大時,此種方法還會影響匹配的精准性,從而使判斷結果不準確。
本申請案所要解決的技術問題是提供一種店鋪訪問資料處理方法及系統,以解決訪問資料處理精確度不高,過多佔用系統資源的問題。
為了解決上述問題,本申請案揭示了一種店鋪訪問資料處理方法,包括以下步驟:獲取新的訪問資料,從該新的訪問資料中解析出用戶標識、店鋪標識以及訪問時間;判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟;其中,該靜態歷史訪問資料採用靜態資料結構 儲存;判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶;其中,該動態歷史訪問資料採用動態資料結構儲存。
進一步地,該判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識與靜態歷史訪問資料中的店鋪標識進行匹配,若能匹配上,則將用戶標識與靜態歷史訪問資料中的用戶標識進行匹配;反之,則判定為不能匹配。
進一步地,該判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識與動態歷史訪問資料中的店鋪標識進行匹配,若能匹配上,則將用戶標識與動態歷史訪問資料中的用戶標識進行匹配;反之,則判定為不能匹配。
進一步地,該靜態歷史資料包括儲存店鋪資訊的序列陣列和儲存單個店鋪的用戶資訊的序列陣列,判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識代入儲存店鋪資訊的序列陣列中進行匹配,若能匹配上,則將用戶標識代入該店鋪對應的儲存用戶資訊的序列陣列中進行匹配,反之,則判定為不能匹配。
進一步地,該動態歷史訪問資料包括儲存店鋪資訊的紅黑樹和儲存單個店鋪的用戶資訊的紅黑樹,該判斷該用 戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識代入儲存店鋪資訊的紅黑樹中進行匹配,若能匹配上,則將用戶標識代入該店鋪對應的儲存用戶資訊的紅黑樹中進行匹配;反之,則判定為不能匹配。
進一步地,在確定該新的訪問資料對應的用戶是否為該店鋪的再次訪問用戶之後還包括:若新的訪問資料對應的用戶為該店鋪的再次訪問用戶,則將本次訪問時間覆蓋該用戶上次訪問該店鋪的時間;反之,則將本次訪問記錄添加到動態歷史訪問資料中,該本次訪問記錄包括店鋪標識對應的店鋪資訊、用戶標識對應的用戶資訊及訪問時間。
進一步地,該方法還包括:對動態歷史訪問資料和靜態歷史訪問資料進行合併處理,該合併處理包括將部分或全部動態歷史訪問資料採用靜態資料結構儲存,轉化為靜態歷史訪問資料,並與原始的靜態歷史訪問資料合併。
進一步地,該合併處理在到達預定時間節點時,和/或在動態歷史訪問資料儲存量達到閾值時進行。
進一步地,若該靜態歷史資料包括儲存店鋪資訊的序列陣列和儲存單個店鋪的用戶資訊的序列陣列,該動態歷史訪問資料包括儲存店鋪資訊的紅黑樹和儲存單個店鋪的用戶資訊的紅黑樹,該合併處理包括: 從儲存店鋪資訊的序列陣列和紅黑樹中選取一個店 鋪;將當前店鋪對應的儲存用戶資訊的序列陣列的大小擴充為其原有cookie數和當前店鋪對應的儲存用戶資訊的紅黑樹中的cookie數之和;將當前店鋪對應的儲存用戶資訊的紅黑樹中的部分或全部cookies按序寫入到當前店鋪對應的儲存用戶資訊的序列陣列的擴充部分;將當前店鋪對應的儲存用戶資訊的序列陣列中原有的cookies和新寫入的cookies按照cookie的hash雜湊值進行合併排序,形成新的序列陣列。
為了解決上述問題,本申請案還揭示了一種店鋪訪問資料處理系統,包括:解析模組,用於獲取新的訪問資料,從該新的訪問資料中解析出用戶標識、店鋪標識以及訪問時間;靜態資料判斷模組,判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟,該靜態歷史訪問資料採用靜態資料結構儲存;動態資料判斷模組,用於判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,該動態歷史訪問資料採用動態資料結構儲存。
進一步地,該靜態資料判斷模組包括:序列陣列匹配單元,用於將店鋪標識和用戶標識代入序列陣列中進行匹配搜尋。
進一步地,該動態資料判斷模組包括:紅黑樹匹配單元,用於將店鋪標識和用戶標識代入紅黑樹中進行匹配搜尋。
進一步地,該系統還包括:處理模組,若新的訪問資料對應的用戶為該店鋪的再次訪問用戶,則將本次訪問時間覆蓋該用戶上次訪問該店鋪的時間;反之,則將本次訪問記錄添加到動態歷史訪問資料中,該本次訪問記錄包括店鋪標識對應的店鋪資訊、用戶標識對應的用戶資訊及訪問時間。
進一步地,該系統還包括:合併模組,將部分或全部動態歷史訪問資料採用靜態資料結構儲存,轉化為靜態歷史資料,並與原始的靜態歷史訪問資料合併。
與現有技術相比,本申請案包括以下優點:
本申請案的店鋪訪問資料處理方法及系統透過將歷史訪問資料分成不同的資料結構儲存,較早的歷史訪問資料採用靜態資料結構儲存,較新的歷史訪問資料採用動態資料結構儲存,其中,靜態歷史訪問資料為相對穩定的資料,幫助實現快速搜尋、同時降低對系統資源的佔用,動態資料結構儲存為即時變化的資料,可以實現資料快速的儲存和更新,二者結合能夠提高訪問資料處理的時間、減少 對系統資源的佔用,同時可以提高資料處理的精准度,保證資料處理結果的準確性。
較佳地,在設定的時間節點或者動態資料結構儲存量達到閾值時,對歷史訪問資料進行合併處理,即將動態歷史訪問資料採用靜態資料結構儲存,對資料源進行優化,減少動態儲存結構的資料對空間的佔用,實現歷史訪問資料的即時更新,從而保證店鋪資料處理的效率以及減少對系統資源的佔用。
另外,對於靜態歷史訪問資料採用序列陣列,動態歷史訪問資料採用紅黑樹的結構,其中所有店鋪資訊分為序列陣列和紅黑樹結構,同時將單個店鋪對應的用戶資訊也分為序列陣列和紅黑樹結構,在進行搜尋判斷時可以實現分步判斷,即首選匹配店鋪,再匹配用戶,從而可以提高搜尋效率,實現資料的快速處理。
當然,實施本申請案的任一產品不一定需要同時達到以上所述的所有優點。
為使本申請案的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請案作進一步詳細的說明。
參照圖1,其示出實現本申請案的店鋪訪問資料處理的系統架構圖。本申請案的店鋪訪問資料處理系統可以置於網頁伺服器中,也可以單獨置於一個伺服器中,當用戶 透過用戶端瀏覽器對網頁進行訪問後,網頁伺服器會記錄下訪問資料,店鋪訪問資料處理系統可以透過資訊交互即時獲取該條訪問資料,並從中獲取用戶標識、店鋪標識和訪問時間等資訊,並與歷史訪問資料進行匹配搜尋。下面對本申請案的店鋪訪問資料處理方法及系統進行詳細的說明。
參照圖2,其示出本申請案的一種店鋪訪問資料處理方法實施例一,包括以下步驟:
步驟101,獲取新的訪問資料,從該新的訪問資料中解析出用戶標識、店鋪標識以及訪問時間。
當用戶透過用戶端瀏覽器訪問購物網站時,網站伺服器會對用戶端瀏覽器的訪問請求進行回應,同時會記錄並儲存訪問資料,例如用戶cookie標識、店鋪ID、請求的URL、訪問時間、用戶端瀏覽器版本號等等。店鋪訪問資料處理系統則可以從網站伺服器預定的位置讀取這些訪問資料。店鋪訪問資料處理系統即時監聽網站伺服器的訪問狀態,當有新的訪問資料產生時,則讀取這些新的訪問資料,並從中解析出用戶標識、店鋪標識以及訪問時間。
具體的,網頁伺服器為了收集用戶透過用戶端瀏覽器的訪問資料,一般會在網頁代碼中加上日誌收集腳本(如JavaScript)。當用戶第一次瀏覽網頁時,網頁伺服器為了辨別用戶身份或進行session跟蹤,可以為用戶生成cookie,並發送給用戶端瀏覽器,瀏覽器會將cookie的key/value保存到用戶本地某個目錄下的文字檔案內(通 常經過加密),下次請求同一網站時就發送該cookie給網頁伺服器。當網站伺服器為用戶的用戶端瀏覽器生成cookie之後,日誌收集腳本就可以按指定格式,收集用戶端瀏覽器用戶訪問時的相關日誌資料(用戶cookie標識、用戶昵稱、訪問的店鋪ID標識、訪問時間、訪問頁面等),並透過HTTP請求將收集到的日誌資料,發送到網頁伺服器。店鋪訪問資料處理系統則可以從網頁伺服器中讀取到這些訪問資料,並基於資料儲存格式進行解析,從而獲取到用戶標識、店鋪標識以及本次訪問時間。其中,用戶標識和店鋪標識為唯一識別某一用戶和店鋪的標識,可以根據需要來選取,例如,用戶cookie標識可以認為是用戶標識,店鋪ID標識可以認為是店鋪標識。
步驟102,判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟;其中,該靜態歷史訪問資料採用靜態資料結構儲存。
歷史訪問資料可以預先載入到系統記憶體中,同時,可以按照預定規則進行載入,例如,判斷是否為再次訪問用戶的條件之一為:只比較最近七天的資料,那麽載入時則只載入最近七天的資料。另外,還可以在載入之後對歷史訪問資料進行初始化操作,例如,去掉不在此時間範圍內的歷史訪問資料等等,從而保證判斷結果的準確性。其中,歷史訪問資料分成兩部分,一部分採用靜態資料結構 儲存,即靜態歷史訪問資料,另一部分採用動態資料結構儲存,即動態歷史訪問資料。例如,以七天為一個時間段,那麽包括當天在內的七天內的資料為歷史訪問資料。其中,可以將前面六天的歷史訪問資料採用靜態資料結構儲存,當天產生的歷史訪問資料(即當天在新的訪問資料之前的訪問資料)採用動態資料結構儲存。當然,也可以將前面五天的歷史訪問資料採用靜態資料結構儲存,當天與前一天產生的歷史訪問資料採用動態資料結構儲存。具體的劃分可以根據實際情況確定,本申請案對此並不限制。可以理解的是,靜態資料結構儲存的資料,例如序列陣列,具有檢索效率較高、節省儲存空間的優點,動態資料結構的資料,例如,紅黑樹結構,具有快速儲存和便於搜尋的優點。因此,為了實現快速的判斷和減少佔用儲存空間,同時實現新資料的快速儲存和搜尋,可以盡可能的將大部分的、較早的資料採用靜態資料結構儲存,小部分的、較新的資料採用動態資料結構儲存。
在判斷時,可以直接將用戶標識與店鋪標識與靜態歷史訪問資料中的各條記錄中的用戶標識與店鋪標識一一進行匹配。可以理解的是,還可以採用如下方式進行判斷:將新的訪問資料中解析出的店鋪標識與靜態歷史訪問資料中記錄的所有店鋪標識進行匹配,若能匹配上,則在該店鋪標識對應的店鋪所有來訪的用戶資訊中搜尋是否存在該用戶標識,若不能匹配上,則無需再匹配用戶標識與靜態歷史訪問資料,直接進行步驟103。
當然,也可以先匹配用戶標識,再在用戶標識對應的用戶所有訪問的店鋪中搜尋是否存在該店鋪標識。可以理解,因為本申請案計算的是店鋪訪問資料,為了減少查詢量,最好先匹配店鋪標識,再匹配用戶標識。此種將用戶標識與店鋪標識分開匹配的方式,只有其中之一匹配上再確認後者是否匹配,無需逐一比對,從而可以縮小匹配搜尋的範圍、減少查詢的次數,節省查詢判斷工作量,提高搜尋效率。
步驟103,判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶;其中,該動態歷史訪問資料採用動態資料結構儲存。
若靜態歷史訪問資料中沒有對應的記錄時,則可以在動態歷史訪問資料中進行搜尋。在搜尋判斷的過程中,可以採用與前述靜態歷史訪問資料中搜尋判斷的方式相同,即可以逐一匹配,也可以先選擇其中一項,匹配之後,再用另一項去匹配,本申請案對此並不限制。
較佳地,在確定用戶是否為店鋪再次訪問用戶後,還可以包括根據判斷結果進行資料記錄,該記錄包括以下步驟:若該用戶為該店鋪的再次訪問用戶,將本次訪問時間覆蓋該用戶上次訪問店鋪的時間;若該用戶不是該店鋪的再次訪問用戶,則將本次訪問記錄添加到動態歷史訪問資料中,該本次訪問記錄包括店鋪標識對應的店鋪資訊、用 戶標識對應的用戶資訊及訪問時間。
較佳地,前述的根據判斷結果進行資料記錄還可以在每一次判斷過程中即時添加。參照圖3,其示出本申請案實施例二的即時添加資料記錄的過程,具體包括以下步驟:步驟301,在靜態歷史訪問資料中查詢是否存在該店鋪標識,若是,則進行步驟304;反之,則進行步驟302;步驟302,在動態歷史訪問資料中查詢是否存在該店鋪標識,若是,則進行步驟304,反之,則進行步驟303;步驟303,在動態歷史訪問資料中添加該店鋪標識對應的店鋪資訊,並進行步驟304;步驟304,在靜態歷史訪問資料中查詢該店鋪標識對應店鋪的所有用戶記錄中是否存在該用戶標識,若是,則進行步驟307,反之,則進行步驟305;步驟305,在動態歷史訪問資料中查詢該店鋪標識對應店鋪的所有用戶記錄中是否存在該用戶標識,若是,則進行步驟307,反之,則進行步驟306;步驟306,在動態歷史訪問資料中添加該用戶標識對應的用戶資訊到該店鋪對應的用戶資訊中,並設置該用戶為該店鋪的新用戶;步驟307,將該歷史訪問資料中對應的訪問時間修改為本次訪問時間,並設置該用戶為該店鋪的再次訪問用 戶。
其中,若是在靜態歷史訪問資料中匹配到,則在靜態歷史訪問資料中修改訪問時間,若是在動態歷史訪問資料中匹配到,則在動態歷史訪問資料中修改。
可以理解,對於前述步驟302,若在動態歷史訪問資料中存在該店鋪標識,也可以直接跳轉到步驟305。因為根據歷史訪問資料儲存的規則,若在靜態歷史訪問資料中不存在店鋪標識,那麽可以理解為該店鋪標識所對應的店鋪在這些靜態歷史訪問資料所包含的時間段內並沒有用戶訪問記錄,自然也不會有對應的用戶標識存在。當然,因為動態歷史訪問資料還可以根據預訂的規則被即時的改用靜態資料結構儲存,那麽就可能出現在判斷過程中即時的資料變化(例如,原本在動態歷史資料中查詢到店鋪標識,但是在後續判斷時,該動態歷史資料已經轉換為靜態歷史資料)。因此,為了保證判斷結果的準確性,本申請案最好採用前述各步驟所描述的過程,即,若在靜態歷史訪問資料中不存在該店鋪標識,而在動態歷史訪問資料中存在該店鋪標識,先在靜態歷史訪問資料中查詢該店鋪標識所對應店鋪的用戶記錄中是否存在用戶標識。
較佳地,本申請案的店鋪訪問資料處理方法在實施例一和/或實施例二的基礎上還包括:對動態歷史訪問資料和靜態歷史訪問資料進行合併處理。
合併處理包括在預定的確定歷史訪問資料節點時和/ 或者在動態歷史訪問資料儲存量達到預定的閾值時,對同一店鋪的動態歷史訪問資料進行轉化,採用靜態資料結構進行儲存得到新轉化的靜態歷史訪問資料,然後將該新轉化的靜態歷史訪問資料與原始的靜態歷史訪問資料合併,形成該店鋪的新的靜態歷史訪問資料。具體的轉化過程可以根據靜態歷史資料和動態歷史資料的資料結構來確定。
例如,在進行再次訪問用戶計算時,七天為一個時間段,即只考慮七天內的歷史訪問資料。其中,系統預定的規則為:前面六天的歷史訪問資料採用靜態資料結構儲存,第七天的訪問資料採用動態資料結構儲存。那麽,當第七天結束,第八天開始時,例如,以第八天的淩晨00:00:00為節點,根據預定的規則,對於第八天來說,第二天至第七天的歷史訪問資料應該採用靜態資料結構儲存,因此,此時需要將第七天的動態歷史訪問資料採用靜態資料結構儲存,然後與第二天至第六天的靜態歷史訪問資料合併。另外,第一天的歷史訪問資料相對於第八天來說已經超過預定的七天時間段,此時需要將第一天的歷史訪問資料忽略,例如,釋放掉,或者刪除等等。
另外,為了減少對儲存空間的佔用以及應用伺服器開銷,一般來說,會設定動態儲存資料的閾值。仍以前述描述為例進行說明,雖然預定的規則為第七天的訪問資料採用動態資料結構儲存,但是如果某一店鋪的第七天的訪問資料很大,在還未到達下一個節點之前,已經達到預定的動態儲存資料的閾值,為了不過多佔用系統資源,此時可 以即時的將第七天已經產生的全部或者部分動態歷史訪問資料與前面六天的靜態歷史訪問資料合併,即將動態歷史訪問資料採用靜態資料結構儲存,從而保證後續的訪問資料能夠採用動態資料結構儲存。
下面結合具體的實例對前述描述的店鋪訪問資料處理方法進行詳細的說明。
購物網站下的所有歷史訪問資料分成靜態歷史訪問資料(前面六天)和動態歷史訪問資料(當天),分別採用序列陣列和紅黑樹兩種結構來儲存。所有店鋪資訊分別組成序列陣列units和紅黑樹new_units,每一個店鋪的用戶資訊又組成一個序列陣列cookies和紅黑樹new_cookies。即,序列陣列units中儲存前面六天被訪問過的店鋪資訊,紅黑樹new_units中儲存當天被訪問過的店鋪資訊。每一個店鋪對應的序列陣列cookies中儲存該店鋪前面六天來訪的用戶資訊,紅黑樹new_cookies中儲存該店鋪當天來訪的用戶資訊。其中,店鋪資訊包括店鋪shop_id、cookie列表、新加入的待合併的cookie列表、最近的合併時間等等。用戶資訊包括:該用戶cookie的hash值、訪問時間、再次訪問用戶計算的內部狀態標誌(記錄是否為當天新用戶以及停留天數)等等。
其中,判斷提出新的訪問的用戶是否為某一店鋪的再次訪問用戶的具體過程如下:S101,當有新的訪問資料產生時,首先獲取其中的用戶標識(cookie的hash值)、訪問時間和店鋪標識( shop_id),然後將店鋪標識代入有序數據units進行匹配,若能匹配,則進行步驟S104,若不能匹配,則進行步驟S102:S102,將店鋪標識代入紅黑樹new_units進行匹配,若能匹配,則進行步驟S104,若不能匹配,則進行步驟S103;S103,將店鋪標識對應的店鋪資訊作為一個新的單元添加到紅黑樹new_units,進行步驟S104;S104,將用戶標識代入序列陣列cookies進行匹配,若能匹配,則進行步驟S107,若不能匹配,則進行步驟S105;S105,將用戶標識代入紅黑樹new_cookies進行匹配,若能匹配,則進行步驟S107,若不能匹配,則進行步驟S106;S106,將用戶標識對應的用戶資訊作為一個新的單元添加到該店鋪對應的紅黑樹new_cookies,並同時添加該用戶為該店鋪新用戶的標識;S107,將用戶資訊中的訪問時間修改為本次訪問時間,並添加該用戶為該店鋪再次訪問用戶的標識。
可以理解,對於在序列陣列中進行匹配可以採用二分法進行處理,對於在紅黑樹中進行匹配則可以採用遍曆樹的方法進行處理。
另外,當一個時間段到達預訂的時間節點,例如按照天數來定的時間段,到達兩天交替的時間點時,需要對動 態和靜態歷史訪問資料進行合併。具體合併過程如下:從儲存店鋪資訊的序列陣列units和紅黑樹new_units中逐一選取店鋪,並獲取當前店鋪的資料結構shop_node,擴充shop_node->cookies(即序列陣列cookies)的大小為已加入的cookie數和新加入的cookie數之和;透過遍曆shop_node->new_cookies(即紅黑樹new_cookies),將新加入的cookies按序追加寫入到shop_node->cookies新擴充的儲存單元;將shop_node->cookies中前後兩個有序部分的cookies,按照cookie的hash雜湊值進行合併排序,合併後形成一個新的序列陣列;釋放掉shop_node->new_cookies中已經加入shop_node->cookies的部分所佔用的紅黑樹儲存單元;將shop_node->length設置為shop_node->length+shop_node->new_cookies_length,將shop_node->new_cookies_length設置為0。
另外,還可以設定動態資料儲存量的閾值,即當紅黑樹new_units或紅黑樹new_cookies的規模達到門限,則將其中的資料合併到序列陣列units或序列陣列cookies中,具體的合併過程同前所述。
本實例中將每一店鋪的訪問資料分為序列陣列和紅黑樹結構,同時將購物網站下所有店鋪的訪問資料也分為序列陣列和紅黑樹結構,在進行搜尋判斷時可以實現分步判斷,即首選匹配店鋪,再匹配用戶,從而可以提高搜尋效 率,實現資料的快速處理。另外,根據預定規則,在到達時間節點或者儲存量閾值時對資料進行合併處理,將動態歷史訪問資料改用靜態資料結構儲存,實現歷史訪問資料的動態更新,同時可以使新的訪問資料能夠採用動態資料結構儲存,從而保證店鋪資料處理的效率以及減少對系統資源的佔用。
參照圖4,其示出本申請案的店鋪訪問資料處理系統實施例一,包括解析模組10、靜態資料判斷模組20和動態資料判斷模組30。
解析模組10,用於獲取新的訪問資料,從該新的訪問資料中解析出用戶標識、店鋪標識以及訪問時間。
靜態資料判斷模組20,判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟,該靜態歷史訪問資料採用靜態資料結構儲存。較佳地,靜態資料結構為序列陣列,則靜態資料判斷模組還包括序列陣列匹配單元,用於將店鋪標識和用戶標識代入序列陣列中進行匹配搜尋,具體的匹配搜尋可以採用二分法進行。
動態資料判斷模組30,用於判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,該動態歷史訪問資料採用動態資料結構儲存。較佳地,動態資料結構為紅黑樹,則動態資料判斷 模組還包括紅黑樹匹配單元,用於將店鋪標識和用戶標識代入紅黑樹中進行匹配搜尋,具體的匹配搜尋可以採用遍曆樹的方法進行。
較佳地,該系統還包括處理模組,若新的訪問資料對應的用戶為該店鋪的再次訪問用戶,則將本次訪問時間股改該用戶上次訪問該店鋪的時間;反之,則將本次訪問記錄添加到動態歷史訪問資料中,該本次訪問記錄包括店鋪標識對應的店鋪資訊、用戶標識對應的用戶資訊及訪問時間。
較佳地,該系統還包括合併模組,用於對動態歷史訪問資料和靜態歷史訪問資料進行合併處理,將部分或全部動態歷史訪問資料採用靜態資料結構儲存,轉化為靜態歷史訪問資料,然後與原始的靜態歷史訪問資料合併。其中,合併模組還包括觸發單元,用於觸發合併模組進行合併處理。其中,觸發單元可以預先設定觸發條件,例如時間點或者儲存量閾值等等,當監測到觸發條件成立,例如到達預訂時間點,或者儲存量達到閾值時,則觸發合併模組進行合併處理操作。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上對本申請案所提供的店鋪訪問資料處理方法及系 統進行了詳細介紹,本文中應用了具體個例對本申請案的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請案的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請案的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請案的限制。
10‧‧‧解析模組
20‧‧‧靜態資料判斷模組
30‧‧‧動態資料判斷模組
圖1是本申請案的店鋪訪問資料處理實現的系統架構圖;圖2是本申請案的店鋪訪問資料處理方法實施例一的流程圖;圖3是本申請案的店鋪訪問資料處理方法實施例二的流程圖;圖4是本申請案的店鋪訪問資料處理系統實施例一的結構示意圖。

Claims (14)

  1. 一種店鋪訪問資料處理方法,其特徵在於,該方法包括以下步驟:獲取新的訪問資料,從該新的訪問資料中解析出用戶標識、店鋪標識以及訪問時間;判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟,其中,該靜態歷史訪問資料採用靜態資料結構儲存;以及判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,其中,該動態歷史訪問資料採用動態資料結構儲存。
  2. 如申請專利範圍第1項所述的店鋪訪問資料處理方法,其中,該判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識與靜態歷史訪問資料中的店鋪標識進行匹配,若能匹配上,則將用戶標識與靜態歷史訪問資料中的用戶標識進行匹配;反之,則判定為不能匹配。
  3. 如申請專利範圍第1項所述的店鋪訪問資料處理方法,其中,該判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識與動態歷史訪問資料中的店鋪標識進行匹 配,若能匹配上,則將用戶標識與動態歷史訪問資料中的用戶標識進行匹配;反之,則判定為不能匹配。
  4. 如申請專利範圍第1項所述的店鋪訪問資料處理方法,其中,該靜態歷史資料包括儲存店鋪資訊的序列陣列和儲存單個店鋪的用戶資訊的序列陣列,判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識代入儲存店鋪資訊的序列陣列中進行匹配,若能匹配上,則將用戶標識代入該店鋪對應的儲存用戶資訊的序列陣列中進行匹配,反之,則判定為不能匹配。
  5. 如申請專利範圍第1項所述的店鋪訪問資料處理方法,其中,該動態歷史訪問資料包括儲存店鋪資訊的紅黑樹和儲存單個店鋪的用戶資訊的紅黑樹,該判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配包括:將店鋪標識代入儲存店鋪資訊的紅黑樹中進行匹配,若能匹配上,則將用戶標識代入該店鋪對應的儲存用戶資訊的紅黑樹中進行匹配;反之,則判定為不能匹配。
  6. 如申請專利範圍第1項所述的店鋪訪問資料處理方法,其中,在確定該新的訪問資料對應的用戶是否為該店鋪的再次訪問用戶之後還包括:若新的訪問資料對應的用戶為該店鋪的再次訪問用戶,則將本次訪問時間覆蓋該用戶上次訪問該店鋪的時間;反之,則將本次訪問記錄添加到動態歷史訪問資料中,該 本次訪問記錄包括店鋪標識對應的店鋪資訊、用戶標識對應的用戶資訊及訪問時間。
  7. 如申請專利範圍第1至6項中任一項所述的店鋪訪問資料處理方法,其中,該方法還包括:對動態歷史訪問資料和靜態歷史訪問資料進行合併處理,該合併處理包括將部分或全部動態歷史訪問資料採用靜態資料結構儲存,轉化為靜態歷史訪問資料,並與原始的靜態歷史訪問資料合併。
  8. 如申請專利範圍第7項所述的店鋪訪問資料處理方法,其中,該合併處理在到達預定時間節點時,和/或在動態歷史訪問資料儲存量達到閾值時進行。
  9. 如申請專利範圍第8項所述的店鋪訪問資料處理方法,其中,若該靜態歷史資料包括儲存店鋪資訊的序列陣列和儲存單個店鋪的用戶資訊的序列陣列,該動態歷史訪問資料包括儲存店鋪資訊的紅黑樹和儲存單個店鋪的用戶資訊的紅黑樹,該合併處理包括:從儲存店鋪資訊的序列陣列和紅黑樹中選取一個店鋪;將當前店鋪對應的儲存用戶資訊的序列陣列的大小擴充為其原有cookie數和當前店鋪對應的儲存用戶資訊的紅黑樹中的cookie數之和;將當前店鋪對應的儲存用戶資訊的紅黑樹中的部分或全部cookies按序寫入到當前店鋪對應的儲存用戶資訊的序列陣列的擴充部分; 將當前店鋪對應的儲存用戶資訊的序列陣列中原有的cookies和新寫入的cookies按照cookie的hash雜湊值進行合併排序,形成新的序列陣列。
  10. 一種店鋪訪問資料處理系統,其特徵在於,該系統包括:解析模組,用於獲取新的訪問資料,從該新的訪問資料中解析出用戶標識、店鋪標識以及訪問時間;靜態資料判斷模組,判斷該用戶標識與店鋪標識是否與靜態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,反之,進行下一步驟,該靜態歷史訪問資料採用靜態資料結構儲存;以及動態資料判斷模組,用於判斷該用戶標識與店鋪標識是否與動態歷史訪問資料中的用戶標識與店鋪標識匹配,若匹配,則確定該新的訪問資料對應的用戶為該店鋪的再次訪問用戶,該動態歷史訪問資料採用動態資料結構儲存。
  11. 如申請專利範圍第10項所述的店鋪訪問資料處理系統,其中,該靜態資料判斷模組包括:序列陣列匹配單元,用於將店鋪標識和用戶標識代入序列陣列中進行匹配搜尋。
  12. 如申請專利範圍第10項所述的店鋪訪問資料處理系統,其中,該動態資料判斷模組包括:紅黑樹匹配單元,用於將店鋪標識和用戶標識代入紅 黑樹中進行匹配搜尋。
  13. 如申請專利範圍第10項所述的店鋪訪問資料處理系統,其中,該系統還包括:處理模組,若新的訪問資料對應的用戶為該店鋪的再次訪問用戶,則將本次訪問時間覆蓋該用戶上次訪問該店鋪的時間;反之,則將本次訪問記錄添加到動態歷史訪問資料中,該本次訪問記錄包括店鋪標識對應的店鋪資訊、用戶標識對應的用戶資訊及訪問時間。
  14. 如申請專利範圍第10至13項中任一項所述的店鋪訪問資料處理系統,其中,該系統還包括:合併模組,將部分或全部動態歷史訪問資料採用靜態資料結構儲存,轉化為靜態歷史資料,並與原始的靜態歷史訪問資料合併。
TW101121761A 2012-01-13 2012-06-18 店鋪訪問資料處理方法及系統 TW201329890A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210065476.4A CN103207882B (zh) 2012-01-13 2012-01-13 店铺访问数据处理方法及***

Publications (1)

Publication Number Publication Date
TW201329890A true TW201329890A (zh) 2013-07-16

Family

ID=47604222

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101121761A TW201329890A (zh) 2012-01-13 2012-06-18 店鋪訪問資料處理方法及系統

Country Status (6)

Country Link
US (1) US20130185429A1 (zh)
EP (1) EP2802979A4 (zh)
JP (1) JP2015508543A (zh)
CN (1) CN103207882B (zh)
TW (1) TW201329890A (zh)
WO (1) WO2013106595A2 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105917368A (zh) * 2014-01-17 2016-08-31 Sk普兰尼特有限公司 线下店铺广告服务***及其方法和应用的装置
CN104504077B (zh) * 2014-12-22 2018-04-03 北京国双科技有限公司 网页访问数据的统计方法和装置
US10872353B2 (en) 2015-12-14 2020-12-22 Google Llc Providing content to store visitors without requiring proactive information sharing
US10592913B2 (en) * 2015-12-14 2020-03-17 Google Llc Store visit data creation and management
CN106897281B (zh) 2015-12-17 2020-08-14 阿里巴巴集团控股有限公司 一种日志分片方法和装置
CN105701694A (zh) * 2015-12-31 2016-06-22 广州东海网络科技有限公司 创建电子商店的方法及创建电子商店的***
CN107368483B (zh) * 2016-05-11 2020-06-23 阿里巴巴集团控股有限公司 信息推荐方法、装置及服务器
CN108153777B (zh) * 2016-12-05 2022-02-22 北京国双科技有限公司 数据访问信息的获取方法及装置
CN108427687A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 一种用户数处理方法及装置
CN107562930B (zh) * 2017-09-15 2020-06-19 广州快信信息科技有限公司 操作行为数据的处理方法及装置
JP6616860B2 (ja) * 2018-04-06 2019-12-04 ソフトバンク株式会社 情報生成装置、プログラム及び情報生成方法
CN111367897B (zh) * 2019-06-03 2023-09-08 杭州海康威视***技术有限公司 一种数据处理方法、装置、设备及存储介质
CN112149391B (zh) * 2020-09-28 2023-06-09 平安证券股份有限公司 信息处理方法、信息处理装置、终端设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04253266A (ja) * 1991-01-29 1992-09-09 Tokyo Electric Co Ltd 取引処理装置
WO2002039215A2 (en) * 2000-11-09 2002-05-16 Visitalk.Com, Inc. Distributed dynamic data system and method
JP3724721B2 (ja) * 2001-06-22 2005-12-07 レモンクーポン株式会社 販売促進方法、販売促進システム及びコンピュータプログラム
US7136883B2 (en) * 2001-09-08 2006-11-14 Siemens Medial Solutions Health Services Corporation System for managing object storage and retrieval in partitioned storage media
US20030126560A1 (en) * 2001-12-28 2003-07-03 Koninklijke Philips Electronics N.V. Adaptive bookmarking of often-visited web sites
JP2004118621A (ja) * 2002-09-27 2004-04-15 Hitachi Information Systems Ltd 顧客管理システム
JP4439879B2 (ja) * 2003-11-13 2010-03-24 日本電信電話株式会社 データ処理装置および履歴検証方法
CA2499305A1 (en) * 2005-03-04 2006-09-04 668158 B.C. Ltd. Method and apparatus for providing geographically targeted information and advertising
US7606897B2 (en) * 2007-04-05 2009-10-20 Yahoo! Inc. Accelerated and reproducible domain visitor targeting
US7953727B2 (en) * 2008-04-04 2011-05-31 International Business Machines Corporation Handling requests for data stored in database tables
US8347204B2 (en) * 2008-05-05 2013-01-01 Norm Rosner Method and system for data analysis
GR1006698B (el) * 2008-12-22 2010-02-05 Μεθοδολογια και συστημα για συλλογη, επεξεργασια και διανομη δεδομενων οδικης κινησης για βελτιωμενη δρομολογηση σε συστηματα δορυφορικης πλοηγησης οχηματων
US8504792B2 (en) * 2009-12-22 2013-08-06 Apple Inc. Methods and apparatuses to allocate file storage via tree representations of a bitmap
US20110225288A1 (en) * 2010-03-12 2011-09-15 Webtrends Inc. Method and system for efficient storage and retrieval of analytics data
CN103001993A (zh) * 2011-09-19 2013-03-27 中兴通讯股份有限公司 服务器、网络数据提供方法及装置
CN104468672A (zh) * 2013-09-17 2015-03-25 北京千橡网景科技发展有限公司 用于对匿名用户进行推荐的方法和设备

Also Published As

Publication number Publication date
CN103207882A (zh) 2013-07-17
WO2013106595A3 (en) 2014-01-16
WO2013106595A2 (en) 2013-07-18
CN103207882B (zh) 2016-12-07
JP2015508543A (ja) 2015-03-19
EP2802979A4 (en) 2016-05-18
EP2802979A2 (en) 2014-11-19
US20130185429A1 (en) 2013-07-18

Similar Documents

Publication Publication Date Title
TW201329890A (zh) 店鋪訪問資料處理方法及系統
KR102133951B1 (ko) 짧은 링크 처리 방법, 디바이스, 및 서버
JP5613951B2 (ja) 積極的な情報のプッシュ通知のための方法およびそのためのサーバ
US9448999B2 (en) Method and device to detect similar documents
CN108363815B (zh) 一种网页页面的预读取方法、装置及智能终端设备
JP5826266B2 (ja) ウェブページのネストしたフラグメントキャッシングを処理する方法および装置
US10747951B2 (en) Webpage template generating method and server
KR20030048045A (ko) 데이터 네트워크의 정보 검색 및 분석 방법
JP2007526537A (ja) 持続的にイベントデータを記憶および提供するためのサーバアーキテクチャおよび方法
CN104252536A (zh) 一种基于hbase的上网日志数据查询方法及装置
JP5841299B2 (ja) 情報をプッシュする方法および情報をプッシュするための装置
JP5705114B2 (ja) 情報処理装置、情報処理方法、プログラムおよびウェブ・システム
WO2014056145A1 (zh) 使Web应用获取数据库变化的方法和***
CN102882988B (zh) 一种获得资源信息的地址信息的方法、装置及设备
JP5405190B2 (ja) コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法
CN111026709A (zh) 基于集群访问的数据处理方法及装置
CN104503983A (zh) 为搜索引擎提供网站认证数据的方法及装置
Pamnani et al. Web usage mining: a research area in web mining
CN106445968B (zh) 一种数据合并方法及装置
CN110334073A (zh) 一种元数据预取方法、装置、终端、服务器及存储介质
Suneetha et al. Data preprocessing and easy access retrieval of data through data ware house
JP2000172665A (ja) ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体
Mary et al. An efficient approach to perform pre-processing
JP5084895B2 (ja) テキストデータ読出装置、方法及びプログラム
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining