CN104102639A - 基于文本分类的推广触发方法和装置 - Google Patents

基于文本分类的推广触发方法和装置 Download PDF

Info

Publication number
CN104102639A
CN104102639A CN201310113608.0A CN201310113608A CN104102639A CN 104102639 A CN104102639 A CN 104102639A CN 201310113608 A CN201310113608 A CN 201310113608A CN 104102639 A CN104102639 A CN 104102639A
Authority
CN
China
Prior art keywords
text
web page
popularization
feature
page text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310113608.0A
Other languages
English (en)
Other versions
CN104102639B (zh
Inventor
杨攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310113608.0A priority Critical patent/CN104102639B/zh
Priority to PCT/CN2014/074390 priority patent/WO2014161452A1/en
Priority to US14/452,518 priority patent/US9436768B2/en
Publication of CN104102639A publication Critical patent/CN104102639A/zh
Application granted granted Critical
Publication of CN104102639B publication Critical patent/CN104102639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施方式提出了一种基于文本分类的推广触发方法和装置。方法包括:接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。本发明实施方式可以对网页文本、推广文本或用户文本进行有效分类,在不同的流量上侧重于不同的特征信息,能够有效提高分类准确度,并提高推广准确度。

Description

基于文本分类的推广触发方法和装置
技术领域
本发明实施方式涉及信息处理技术领域,更具体地,涉及一种基于文本分类的推广触发方法和装置。
背景技术
随着计算机技术和网络技术的飞速发展,互联网(Internet)和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且,随着移动互联网的发展,互联网也在向移动化发展。在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。随着电子消费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。
搜索引擎广告就是一种针对信息综合利用的示范性应用。搜索引擎广告也称为关键词广告,是指广告主根据自己的产品或服务的内容、特点等确定关键词,撰写广告内容并自主定价投放在搜索引擎上的广告。当用户搜索的内容与广告主的关键词匹配时,相应的广告就可能会被展示,并在用户点击后按照广告主对该关键词的出价收费。在广告的展示中,好的推广语可以促进广告的曝光率以及点击率。在基于效果为基础的广告***中,广告主只需要为可衡量的结果付费。
在现有技术的效果广告***中,广告触发基本都是基于文本分类方法。具体包括:分别首先通过规则或者机器学习的方法对广告和网页进行分类,然后在分类维度上计算广告和页面的相似度,最后根据相似度的排名进行拉取初选广告,再交由广告点击率预估***进行最终排序。
然而,在这种广告文本分类技术中,一方面分类体系粒度不够,难以适应网页信息的高速变化,另一方面仅考虑了来自页面内容的特征,如仅考虑标记(token)和关键字(keyword)等信息,缺乏对其他有效信息的利用。因此,现有技术中基于文本分类的推广触发方法的分类准确度不高,并导致推广准确度不高。
发明内容
本发明实施方式提出一种基于文本分类的推广触发方法,以提高推广准确度。
本发明实施方式还提出了一种基于文本分类的推广触发装置,以提高推广准确度。
本发明实施方式的具体方案如下:
一种基于文本分类的推广触发方法,该方法包括:
接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;
从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;
根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
一种推广触发装置,包括词法分析单元、层次分类单元和推广触发单元,其中:
词法分析单元,用于接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;
层次分类单元,用于从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;
推广触发单元,用于根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
从上述技术方案可以看出,在本发明实施方式中,接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。由此可见,应用本发明实施方式之后,考虑到不同流量上不同的特征属性,因此可以对网页文本、推广文本或用户文本进行有效分类,在不同的流量上侧重于不同的特征信息,因此能够有效提高分类准确度,并提高推广准确度。
另外,本发明实施方式将推广文本、网页文本和用户文本三个维度的信息映射到同一分类维度下,对于推广文本触发进行了有效支持。
附图说明
图1为根据本发明实施方式基于文本分类的推广触发方法流程图;
图2为根据本发明实施方式的分类体系结构图;
图3为根据本发明实施方式基于文本分类的推广触发装置结构图;
图4为根据本发明实施方式基于文本分类的推广触发过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在现有技术中,没有考虑到不同流量上不同的特征属性,因此无法对网页文本、广告文本或用户文本进行有效分类,只能在某个维度上效果不错,而其他维度上效果一般。
在本发明实施方式中,将流量也引入到层次分类体系下,流量名作为一个层次分类的节点。在文本分类时,对于网页文本、推广文本和用户文本的页面内容,可以判断其属于某个流量,再在该流量下进行具体分类,因此这个层次分类体系很容易进行扩展。
在本发明实施方式中,一方面针对不同流量建立分类体系,并将其融入到整个层次分类体系,另一方面充分利用不同流量下的特征信息,为网页文本、推广文本(比如广告文本)及用户文本的分类提供统一可靠的方法,保证其分类的整体效果。
图1为根据本发明实施方式基于文本分类的推广触发方法流程图。
如图1所示,该方法包括:
步骤101:接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析。
在这里,推广文本具体可以由推广源(比如广告商)所提供,用于对某项产品或业务进行推广。比如,推广文本可以是由广告商所提供的广告文本。
分别对网页文本和推广文本进行词法分析(lexical analysis)。词法分析是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数称为词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。
词法分析器一般以函数的形式存在,供语法分析器调用。在词法分析阶段,通常从左到右逐个字符地读入源程序,即对构成源程序的字符流进行扫描,然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序用于实现这个任务,而且词法分析程序可以使用Lex等工具自动生成。
步骤102:从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类。
在这里,从词法分析后的网页文本中提取出包含流量特征的特征,并且还从词法分析后的推广文本中也提取出包含流量特征的特征。
网页文本流量特征用于标识网页文本的来源特征,推广文本流量特征用于标识推广文本的来源特征。
比如,对于网页文本,可以用该网页文本的域名(URL)或网站源来标识流量特征。
在一个实施方式中,可以首先解析该网页文本的域名,再根据网页文本的域名确定网页文本的流量特征。比如,根据网页文本的域名中的预设关键字确定该网页文本来源自新闻类型网站,则可以确定该网页文本的流量特征为“新闻”。根据网页文本的域名中的预设关键字确定该网页文本来源自财经类型网站,则可以确定该网页文本的流量特征为“财经”。根据网页文本的域名中的预设关键字确定该网页文本来源自某门户网站,则可以确定该网页文本的流量特征为该门户网站。
对于推广文本,可以用推广文本的推广来源种类来标识流量特征。对于推广来源种类,可以利用流量特征进行各种行业划分。在行业划分的过程中,可以按照多种划分方式进行区分。
比如,可以按照三次行业进行划分。第一产业是指农、林、牧、渔业;第二产业是指采矿业,制造业,电力、燃气及水的生产和供应业,建筑业;第三产业是指除第一、二产业以外的其他行业,具体包括:交通运输、仓储和邮政业,信息传输、计算机服务和软件业,批发和零售业,住宿和餐饮业,金融业,房地产业,租赁和商务服务业,科学研究、技术服务和地质勘查业,水利、环境和公共设施管理业,居民服务和其他服务业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业,公共管理和社会组织,国际组织,等等。
可选地,还可以根据国民经济行业类型进行划分。分为15大类,排列顺序如下:⑴农、林、牧、渔业;⑵采掘业;⑶制造业;⑷电力、煤气及水的生产和供应业;⑸建筑业;⑹地质勘查、水利管理业;⑺交通运输、仓储及邮电通信业;⑻批发和零售贸易餐饮业;⑼金融、保险业;⑽房地产业;⑾社会服务业;⑿卫生体育和社会福利业;⒀教育、文化艺术和广播电影电视业;⒁科学研究和综合技术服务业;⒂国家机关、政党机关和社会团体,等等。
以上详细罗列出行业划分的具体实施方式,本领域技术人员可以意识到,这种罗列仅仅是阐述性的,并不用于对本发明实施方式的保护范围进行限定。
在一个实施方式中,从词法分析后的网页文本和推广文本中除了提取出流量特征之外,还可以提取出标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关键字特征或命名实体NamedEntity特征,等等。
在一个实施方式中,可以为每个分类文本训练一个最大熵模型。对于待分类文本,优选使用实数型的特征,既包含特征项,也包含特征值,同时输入到分类训练器中。
比如:可以设计如下的分类器特征及模版,每个类别的特征以数字编号加“-”开头:
标记(Token)特征:以"1-"开头,后接token name,如"1-iphone,1-ipad";
关键字(Keyword)特征:以"2-"开头,后接keyword name,如"2-iphone4s,2-ipad2";
主题(Topic)特征:以"3-"开头,后接topic id,如"3-1,3-10";
通用关键字(General Keyword)特征:以"4-"开头,后接general keywordname,如"4-鲜花";
命名实体(NamedEntity)特征:以"5-"开头,后接NamedEntity type,如"5-BRAND";
扩展Keyword特征:以"6-"开头,后接expanded keyword name,如"6-鲜花速递";
对于每类特征,特征值需要归一化到[0,1]区间,并且添加开关控制,方便线下实验和评估每类特征对于分类器的贡献。在特征抽取和验证完毕后,可以考虑采用基于统计方法的特征选择方法来过滤部分冗余特征,如利用卡方,信息增益等。
步骤103:根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
在这里,根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。具体地,可以采用多种文本相似度算法来计算网页文本和推广文本的相似度。
比如:在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),把它叫做文本D的向量表示。其中Wk是Tk的权重,1<=k<=N。
在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为D(30,20,20,10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示。
对于待分类文本,在线预测与离线训练共享特征抽取模块进行特征抽取,这样能保证线上线下特征的一致性。同时需要设计一个基于最大熵模型的层次分类器预测工具(hierarchical_classifier_predictor),该预测工具进行分类的步骤如下:
在每个节点加载已经训练好的子分类模型;从根节点出发,先按照第一级分类体系的进行分类,由于是最大熵分类器,每类的输出值是一个概率值,其和为1;逐个递归的对其下层的每个子分类节点进行分类,在判断是否继续向下分类时,会根据一个阈值进行控制,如果其上层的分类结果小于该阈值,就不需要向下继续分类;每一层的子类的分类值会乘上其父类的分类值,因此可以保证每一层分类值之和为1;遍历完整个层次分类器后,对于每一层的分类结果按从大到小的进行排序,实际调用时会根据阈值或者topn顺序输出分类结果。
计算完网页文本和各个候选推广文本的相似度之后,可以根据相似度排名拉取初选的推广文本,然后再由推广点击率预估***确定最终的排序结果,并且在网页文本上向用户推送预定数目个排序靠前的推广文本。
在上述流程中,进一步包括:接收用户文本,对用户文本进行词法分析,从词法分析后的用户文本中提取出包含流量特征的特征,并基于该预先训练的层次分类模型对用户文本中提取的特征进行层次分类;根据针对网页文本和用户文本提取特征的层次分类结果,计算网页文本和用户文本的相似度。
此时,根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作具体包括:对网页文本与用户文本的相似度以及网页文本与推广文本的相似度,进行加权求和,并根据该加权求和结果触发推广操作。
类似地,用户文本流量特征用于标识用户文本的来源特征。具体地,用户文本可以包括用户的历史搜索查询请求项query、用户的微薄标签或用户所浏览的网页标题,等等。
而且,用户可以在各种终端上利用浏览器来浏览网页文本和推广文本,这些终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
以上虽然详细罗列了终端的具体实例,本领域人员可以意识到,这些罗列仅是阐述目的,并不用于限定本发明实施方式的保护范围。浏览器具体可以包括微软的Internet Explorer、Mozilla的Firefox、Apple的Safari,Opera、GoogleChrome、GreenBrowser等浏览器。
以上虽然详细列出了一些常用浏览器,本领域技术人员可以意识到,本发明实施方式并不局限于这些浏览器,而是可以适用于任意可用于显示网页服务器或档案***内的文件、并让用户与文件互动的应用(App),这些应用可以是目前常见的各种浏览器,也可以是其他的任意具有网页浏览功能的应用程序。
在本发明实施方式中,建立一套能够分类推广文本(标题和关键词等信息)、用户文本(浏览历史和搜索历史等信息)和网页文本(网页标题和文本内容等信息)的文本分类器。目标是建立面向情境广告***的层次分类体系,依据分类体系构建兼容网页、用户自生成内容(UGC)及广告库的标注语料库,以及一个健壮可靠的高性能分类器。
在本发明实施方式中,建立有面向推广文本,网页文本和用户信息的统一的层次分类体系。首先,需要把推广文本、用户文本和网页文本投影到同一个分类体系,所以需要建立一个覆盖推广文本、用户文本和网页文本中商业概念的分类体系。由于商业概念具有天然的层次体系,并且层次体系允许分类器在信息不足的情况下定位到较浅的类别,而在信息充分的情况下定位到较深的类别,所以需要层次(hierarchical)分类器;在层次分类体系中考虑流量信息,作为一个节点加入到分类体系下。
图2为根据本发明实施方式的分类体系结构图。如图2所示,本发明实施方式中建立有面向推广文本,网页文本和用户信息的统一的层次分类体系。
基于上述详细分析,本发明实施方式还提出了一种基于文本分类的推广触发装置。
图3为根据本发明实施方式基于文本分类的推广触发装置结构图。如图3所示,该装置包括词法分析单元301、层次分类单元302和推广触发单元303,其中:
词法分析单元301,用于接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;
层次分类单元302,用于从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;
推广触发单元303,用于根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
在一个实施方式中,词法分析单元301,进一步用于接收用户文本,对用户文本进行词法分析,从词法分析后的用户文本中提取出包含流量特征的特征,并基于该预先训练的层次分类模型对用户文本中提取的特征进行层次分类;
层次分类单元302,进一步用于根据针对网页文本和用户文本提取特征的层次分类结果,计算网页文本和用户文本的相似度;
推广触发单元303,用于对网页文本与用户文本的相似度以及网页文本与推广文本的相似度,进行加权求和,并根据该加权求和结果触发推广操作。
在一个实施方式中,层次分类单元302,用于解析该网页文本的域名;根据网页文本的域名确定网页文本的流量特征。
在一个实施方式中,词法分析单元301,用于接收该用户的历史搜索查询请求项query、该用户的微薄标签或该用户所浏览的网页标题。
在一个实施方式中,层次分类单元302,用于从词法分析后的网页文本和推广文本中分别提取出流量特征、标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关键字特征或命名实体(NamedEntity)特征。
图4为根据本发明实施方式基于文本分类的推广触发过程示意图。
如图4所示,可以对训练样本(包括预先设置的分类标签和源文件)中的源文件进行词汇分析,并提取源文件特征,再基于预先设立的层级体系和分类标签进行层次分类训练,以得到层次分类模型。然后,可以利用该层次分类模型分别对分类文本(包括网页文本、推广文本或用户文本)中提取的特征进行层次分类。最后,可以根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的基于文本分类的推广触发方法和装置。
比如,可以遵循一定规范的应用程序接口,将基于文本分类的推广触发方法编写为安装到个人电脑、移动终端等中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的基于文本分类的推广触发方法。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于文本分类的推广触发方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的基于文本分类的推广触发方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。由此可见,应用本发明实施方式之后,考虑到不同流量上不同的特征属性,因此可以对网页文本、推广文本或用户文本进行有效分类,在不同的流量上侧重于不同的特征信息,因此能够有效提高分类准确度,并提高推广准确度。
另外,本发明实施方式将推广文本、网页文本和用户文本三个维度的信息映射到同一分类维度下,对于推广文本触发进行了有效支持。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于文本分类的推广触发方法,其特征在于,该方法包括:
接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;
从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;
根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
2.根据权利要求1所述的基于文本分类的推广触发方法,其特征在于,该方法进一步包括:
接收用户文本,对用户文本进行词法分析,从词法分析后的用户文本中提取出包含流量特征的特征,并基于该预先训练的层次分类模型对用户文本中提取的特征进行层次分类;
根据针对网页文本和用户文本提取特征的层次分类结果,计算网页文本和用户文本的相似度;
所述根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作包括:
对网页文本与用户文本的相似度以及网页文本与推广文本的相似度,进行加权求和,并根据该加权求和结果触发推广操作。
3.根据权利要求1所述的基于文本分类的推广触发方法,其特征在于,所述从词法分析后的网页文本中分别提取出包含流量特征的特征包括:
解析该网页文本的域名;
根据网页文本的域名确定网页文本的流量特征。
4.根据权利要求2所述的基于文本分类的推广触发方法,其特征在于,所述接收用户文本包括:
接收该用户的历史搜索查询请求项query、该用户的微薄标签或该用户所浏览的网页标题。
5.根据权利要求2所述的基于文本分类的推广触发方法,其特征在于,所述从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征包括:
从词法分析后的网页文本和推广文本中分别提取出流量特征、标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关键字特征或命名实体NamedEntity特征。
6.一种基于文本分类的推广触发装置,其特征在于,包括词法分析单元、层次分类单元和推广触发单元,其中:
词法分析单元,用于接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;
层次分类单元,用于从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;
推广触发单元,用于根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
7.根据权利要求6所述的基于文本分类的推广触发装置,其特征在于,
词法分析单元,进一步用于接收用户文本,对用户文本进行词法分析,从词法分析后的用户文本中提取出包含流量特征的特征,并基于该预先训练的层次分类模型对用户文本中提取的特征进行层次分类;
层次分类单元,进一步用于根据针对网页文本和用户文本提取特征的层次分类结果,计算网页文本和用户文本的相似度;
推广触发单元,用于对网页文本与用户文本的相似度以及网页文本与推广文本的相似度,进行加权求和,并根据该加权求和结果触发推广操作。
8.根据权利要求6所述的基于文本分类的推广触发装置,其特征在于,
层次分类单元,用于解析该网页文本的域名;根据网页文本的域名确定网页文本的流量特征。
9.根据权利要求6所述的基于文本分类的推广触发装置,其特征在于,
词法分析单元,用于接收该用户的历史搜索查询请求项query、该用户的微薄标签或该用户所浏览的网页标题。
10.根据权利要求6所述的基于文本分类的推广触发装置,其特征在于,
层次分类单元,用于从词法分析后的网页文本和推广文本中分别提取出流量特征、标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关键字特征或命名实体NamedEntity特征。
CN201310113608.0A 2013-04-02 2013-04-02 基于文本分类的推广触发方法和装置 Active CN104102639B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310113608.0A CN104102639B (zh) 2013-04-02 2013-04-02 基于文本分类的推广触发方法和装置
PCT/CN2014/074390 WO2014161452A1 (en) 2013-04-02 2014-03-31 System and method for pushing and distributing promotion content
US14/452,518 US9436768B2 (en) 2013-04-02 2014-08-05 System and method for pushing and distributing promotion content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310113608.0A CN104102639B (zh) 2013-04-02 2013-04-02 基于文本分类的推广触发方法和装置

Publications (2)

Publication Number Publication Date
CN104102639A true CN104102639A (zh) 2014-10-15
CN104102639B CN104102639B (zh) 2018-07-27

Family

ID=51657590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310113608.0A Active CN104102639B (zh) 2013-04-02 2013-04-02 基于文本分类的推广触发方法和装置

Country Status (3)

Country Link
US (1) US9436768B2 (zh)
CN (1) CN104102639B (zh)
WO (1) WO2014161452A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748801A (zh) * 2017-11-16 2018-03-02 北京百度网讯科技有限公司 新闻推荐方法、装置、终端设备及计算机可读存储介质
CN108090094A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种文本信息分类方法及***
CN108287913A (zh) * 2018-02-07 2018-07-17 霍尔果斯智融未来信息科技有限公司 一种数据可回溯的大规模离散型特征挖掘的方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN110096695A (zh) * 2018-01-30 2019-08-06 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN110334131A (zh) * 2019-07-09 2019-10-15 西安点告网络科技有限公司 用于机器学习模型的特征抽取的方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11838851B1 (en) 2014-07-15 2023-12-05 F5, Inc. Methods for managing L7 traffic classification and devices thereof
JP5963328B2 (ja) * 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
US11895138B1 (en) * 2015-02-02 2024-02-06 F5, Inc. Methods for improving web scanner accuracy and devices thereof
US11036855B2 (en) * 2018-09-28 2021-06-15 EMC IP Holding Company LLC Detecting frame injection through web page analysis
CN109858942B (zh) * 2018-11-06 2023-12-15 三六零科技集团有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN110083774B (zh) * 2019-05-10 2023-11-03 腾讯科技(深圳)有限公司 应用推荐列表的确定方法、装置、计算机设备及存储介质
CN117893179B (zh) * 2024-03-18 2024-05-28 四川嘉源生态发展有限责任公司 基于数字孪生的水利电力工程建造管控方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109232A1 (en) * 2006-06-07 2008-05-08 Cnet Networks, Inc. Evaluative information system and method
CN101520878A (zh) * 2009-04-03 2009-09-02 华为技术有限公司 向用户进行广告推送的方法、装置和***
CN101655868B (zh) * 2009-09-03 2012-08-22 中国人民解放军信息工程大学 网络数据挖掘方法、网络数据推送方法及设备
JP4637969B1 (ja) * 2009-12-31 2011-02-23 株式会社Taggy ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US20110282858A1 (en) * 2010-05-11 2011-11-17 Microsoft Corporation Hierarchical Content Classification Into Deep Taxonomies
CN102508859B (zh) * 2011-09-29 2014-10-29 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN102663022B (zh) * 2012-03-21 2015-02-11 浙江盘石信息技术有限公司 一种基于url的分类识别方法
CN102663026B (zh) * 2012-03-22 2015-09-23 浙江盘石信息技术股份有限公司 一种定向投放网络广告的实现方法
CN102769818A (zh) * 2012-07-30 2012-11-07 北京慧创新盈科技有限公司 一种移动互联网中的信息推送方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090094A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种文本信息分类方法及***
CN107748801A (zh) * 2017-11-16 2018-03-02 北京百度网讯科技有限公司 新闻推荐方法、装置、终端设备及计算机可读存储介质
CN107748801B (zh) * 2017-11-16 2022-04-29 北京百度网讯科技有限公司 新闻推荐方法、装置、终端设备及计算机可读存储介质
CN110096695A (zh) * 2018-01-30 2019-08-06 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN110096695B (zh) * 2018-01-30 2023-01-03 腾讯科技(深圳)有限公司 超链接标记方法和装置、文本分类方法和装置
CN108287913A (zh) * 2018-02-07 2018-07-17 霍尔果斯智融未来信息科技有限公司 一种数据可回溯的大规模离散型特征挖掘的方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108319987B (zh) * 2018-02-20 2021-06-29 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN110334131A (zh) * 2019-07-09 2019-10-15 西安点告网络科技有限公司 用于机器学习模型的特征抽取的方法和装置

Also Published As

Publication number Publication date
US20150032753A1 (en) 2015-01-29
WO2014161452A1 (en) 2014-10-09
CN104102639B (zh) 2018-07-27
US9436768B2 (en) 2016-09-06

Similar Documents

Publication Publication Date Title
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN105718579B (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
US10217058B2 (en) Predicting interesting things and concepts in content
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN104077290B (zh) 一种生成推广账户的方法和装置
CN102609474B (zh) 一种访问信息提供方法及***
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US9798820B1 (en) Classification of keywords
CN107424043A (zh) 一种产品推荐方法及装置,电子设备
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN104750789A (zh) 标签的推荐方法及装置
CN103177384A (zh) 基于用户兴趣图谱的网络广告投放方法
CN101542486A (zh) 排序图
CN103455545A (zh) 社交网络用户的位置估计的方法和***
CN101223526A (zh) 基于位置重要性对本地搜索结果评分
CN108021715B (zh) 基于语义结构特征分析的异构标签融合***
Wu et al. An integrated proactive knowledge management model for enhancing engineering services
CN105512180A (zh) 一种搜索推荐方法及装置
CN104751354A (zh) 一种广告人群筛选方法
CN103886020A (zh) 一种房地产信息快速搜索方法
KR102335780B1 (ko) 다수의 플랫폼 서버들을 이용하는 인플루언서를 활용한 온라인 광고 방법 및 온라인 광고 시스템
CN103984705A (zh) 一种搜索结果的展示方法、装置和***
CN104077707A (zh) 一种推广呈现方式的优化方法和装置
CN103869999A (zh) 对输入法所产生的候选项进行排序的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant