CN103853824A - 一种基于深度语义挖掘的内文广告发布方法与*** - Google Patents

一种基于深度语义挖掘的内文广告发布方法与*** Download PDF

Info

Publication number
CN103853824A
CN103853824A CN201410075127.XA CN201410075127A CN103853824A CN 103853824 A CN103853824 A CN 103853824A CN 201410075127 A CN201410075127 A CN 201410075127A CN 103853824 A CN103853824 A CN 103853824A
Authority
CN
China
Prior art keywords
advertisement
commodity
text
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410075127.XA
Other languages
English (en)
Other versions
CN103853824B (zh
Inventor
沈之锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410075127.XA priority Critical patent/CN103853824B/zh
Publication of CN103853824A publication Critical patent/CN103853824A/zh
Application granted granted Critical
Publication of CN103853824B publication Critical patent/CN103853824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度语义挖掘的内文广告发布方法与***,所述方法包括:构建广告需求本体;抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页类别,抽取关键词与关键句;根据语言学规律,对抽取到的关键句子进行深度语义挖掘,对带有商业性质并带有需求、情感与态度的句子、短语或词语进行发现和抽取,并进行广告标识;通过产生式***对广告标识区域嵌入精准广告,当用户在浏览这类网页时,在特定区域展现广告。本发明方法与***能够在网页文本内容中发布与用户阅读内容上下文需求相关的广告,分析出网站中哪个页面适合投放内文广告,将广告放置在页面中的哪些区域和广告词上,解决了现有的技术难题。

Description

一种基于深度语义挖掘的内文广告发布方法与***
技术领域
本发明涉及一种广告发布方法与***,尤其是一种基于深度语义挖掘的内文广告发布方法与***。属于广告技术领域。
背景技术
内文广告是通过计算机识别文章内部关键词和文章特性,并根据这些数据在鼠标滑过特定区域或关键词的时候显示出对应的精准广告,匹配好的关键词将被标识(如用下划线标出),它准确地将广告、内容、浏览者三者紧密结合在一起,是一种崭新的、温和的、完全由消费者触发的广告形式。
传统的搜索引擎关键词广告是将用户搜索过的商品信息存入cookies中,当用户浏览其他网站时,搜索引擎公司分析用户cookies,并假设用户搜索过的信息为用户需要的信息。基于该假设来判断用户可能对什么商品感兴趣,并在其他网站的广告框内发布用户搜索过的类似商品的广告,以此达到精准广告的目的。当前世界级的大型搜索引擎公司已经发展成熟,商业竞争激烈。应用该原理重新开发搜索引擎与之竞争,困难重重。与此不同的是,内文广告是一种与搜索引擎广告不同的新型模式。内文广告不收集用户信息。其使广告达到精准的基本假设是:假设用户之所以愿意阅读网上的文章或信息,表明该用户对该主题感兴趣。内文广告的目标是在文章内的最适合区域发布与用户阅读内容上下文相关的广告。因为文章内容间接映射了用户兴趣。以此达到精准的目的。
内文广告是一种广告的新模式,具有很多优点,包括受众质量高,规模大,用户主动点击,且精神集中所以广告记忆效果好。广告无需广告框,用户体验好,在网页主体内容页内,可在几乎所有文章中加载。放置自由、表现多样,不占用网页空间,当鼠标移入时,可以以文本链接、Tag标签、气泡按钮、图片、视频、Flash等各种方式表现广告,投放效果好,可统计分析,广告定向精准,数量巨大,可覆盖上万家网站,且统计方便,用户的点击可被跟踪和分析。
内文广告解决了很多现阶段广告的不足,而且适应现阶段广告技术的发展。尤其是移动互联网的兴起,使移动广告成为趋势,而手机屏幕小的特点使广告用户体验差,内文广告可以把广告打入文字内,解决屏幕小时打广告导致用户体验差的问题。当前的很多基于搜索关键词的广告,通过分析用户cookies,虽能精确匹配,但涉及隐私,随着法律的健全和发展,可能不能长久,可挖掘的用户隐私信息也会越来越少。基于深度语义挖掘的内文广告***不是依靠挖掘用户私密信息,而是挖掘网页本身。把用户阅读文章作为用户对特定类型文章喜好的一种投票。所以可以间接的通过文章内容折射用户喜好。
内文广告虽有很多的优势,但是国内在面向中文的内文广告方面却存在很大缺陷。尤其是当前还无法根据语义精确分析页面内容,所以当前的技术是把所有与广告商相关的词语都发布成为广告,这个缺陷直接导致了内文广告不但无法发挥上述专长,而且使网页布满劣质的广告,极大降低了用户体验。这也是内文广告当前未能大规模发展起来的直接原因;在内文广告***中面临的最大技术瓶颈是,无法做到广告发布与文章内容上下文相关、广告页面和关键词的搜索分析难度大,因为国内外关于商品需求本体的构建还不成熟,语义挖掘的深度不足,当前学术界研究的关键词提取大部分针对如何分析文章的词频和结构,目标是概括文章内容,这与广告本身的关键词提取根本目标有很大的不同,当前的内文广告发布***都还无法把带有商业性质并与上下文语义相关的关键词准确的标识为广告词。
发明内容
本发明的目的是为了解决上述现有技术的缺陷,提供一种可以实现内文广告的精确分析与发布的基于深度语义挖掘的内文广告发布方法。
本发明的另一目的在于提供一种基于深度语义挖掘的内文广告发布***。
本发明的目的可以通过采取如下技术方案达到:
一种基于深度语义挖掘的内文广告发布方法,其特征在于所述方法包括:
构建广告需求本体;
抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句;
对抽取到的关键句子进行深度语义挖掘,根据需求句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识;
根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,当用户在浏览这类网页文本时,在特定区域展现广告。
优选的,所述构建广告需求本体,具体包括:
从当前互联网电子商务网站的知识组织结构上获取大致的各类商品,进行词典扩建,构建商品词库;
根据互信息算法,计算两个商品词同时出现的概率,构建商品关联度集合;
根据公开情感词典,获取与商品评价和需求相关的情感词,构建情感需求词库;
根据商品词库、情感词库和关联度集合,构建商品广告推荐的规则库。
优选的,所述抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句,具体包括:
抓取各类内容的网页,采用信息抽取的方法,获得剔除了导航和网页广告的正文文本;
根据商品词库和情感需求词库,采用Aho-Corasick算法对网页进行关键词匹配,对完全不包含商品和需求相关词语的网页进行剔除;
对文本进行分词和词性标注,采用贝叶斯算法或支持向量机算法对网页内容进行文本分类,判断网页所属类别,进一步剔除与商业信息无关的文本类型;
对文本内容进行Tcxtrank算法分析,获取文本关键词与关键句。
优选的,所述对抽取到的关键句子进行深度语义挖掘,根据情感句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识,具体包括:
根据国际学术会议CoNLL规定的分析格式,对文本进行语义分析,分析出每个词语的词性、依存句法关系和角色语义,根据句子类型,分析句子语法特点和语义学模式,匹配相应的需求语法规则库,根据文本内容上下文提到的事件、商品、评论、困难与陈述,分析上下文需求关系,获得文本中的需求句;需求句的范围包括但不限于直接要求模式、询问原因模式、告知理由模式、表达困难模式、询问能力模式、缓和态度模式、表达需求模式、表达情感模式、评价态度模式等等各种句式;
抽取角色语义中的受事者部分,根据语言学语法规律,搭配语法分析和词性,抽取出句子中的相关商品词、需求词或关键词,对相关词语进行广告词标识。
优选的,所述根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,使用户在浏览这类网页文本时,在特定区域展现广告,具体包括:
根据广告商投放广告情况和出价情况,以及商品关联度排序情况,通过产生式规则,在已经确定的广告词上面发布精准广告;网站拥有者通过嵌入相应的javascript代码到其网站内,就可以实现对相关广告词进行自动标识,
当用户浏览的客户端为电脑终端时,在用户将鼠标移入或者拖动浏览到与文本内容上下文相关的带有商品需求、询问、祈使、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子和词语时显示广告;当用户浏览的客户端为手机终端时,在用户浏览到上述需求相关句子时,对相应广告词或商品区域进行凸显,在用户点击广告词或商品区域后显示广告。
优选的,所述方法还包括:
根据用户点击情况,进行机器学习和点击反馈,优化商品关联度集合与商品广告推荐的规则库。
优选的,所述根据用户点击情况,进行机器学习和点击反馈,优化商品关联度集合与商品广告推荐的规则库,具体如下:
根据用户点击广告的情况,作为权值,对相应的广告词与广告商商品之间的关系进行重新优化和机器学习训练,优化商品关联度集合与商品广告推荐的规则库,同时不断优化商品词库和情感需求词库。
本发明的另一目的可以通过采取如下技术方案达到:
一种基于深度语义挖掘的内文广告发布***,其特征在于所述***包括:
广告需求本体构建模块,用于构建广告需求本体;
关键词与关键句抽取模块,用于抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句;
深度语义挖掘与广告标识模块,用于对抽取到的关键句子进行深度语义挖掘,根据情感句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识;
广告展现模块,用于根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,使用户在浏览这类网页文本时,在特定区域展现广告。
优选的,所述***还包括:
优化模块,用于根据用户点击广告的情况,作为权值,对相应的广告词与广告商商品之间的关系进行重新优化和机器学习训练,优化商品关联度集合与商品广告推荐的规则库,同时不断优化商品词库和情感需求词库。
优选的,所述广告需求本体构建模块具体包括:
商品词库构成单元,用于从当前互联网电子商务网站的知识组织结构上获取大致的各类商品,进行词典扩建,构建商品词库;
商品关联度集合构建单元,用于根据互信息算法,计算两个商品词同时出现的概率,构建商品关联度集合;
情感需求词库构建单元,用于根据公开情感词典,获取与商品评价和需求相关的情感词,构建情感需求词库;
商品广告推荐的规则库构建单元,用于根据商品词库、情感词库和关联度集合,构建商品广告推荐的规则库;
所述关键词与关键句抽取模块具体包括:
网页抓取单元,用于抓取各类内容的网页,采用信息抽取的方法,获得剔除了导航和网页广告的正文文本;
网页模式匹配单元,用于根据商品词库和情感需求词库,采用Aho-Corasick算法对网页进行关键词匹配,对完全不包含商品和需求相关词语的网页进行剔除;
网页内容文本分类单元,用于对文本进行分词和词性标注,采用贝叶斯算法或支持向量机算法对网页内容进行文本分类,判断网页所属类别,进一步剔除与商业信息无关的文本类型;
关键词与关键句获取单元,用于对文本内容进行Textrank算法分析,获取文本关键词与关键句;
所述深度语义挖掘与广告标识模块具体包括:
句子分析单元,用于进行句法分析和角色语义标注,根据句子类型,分析句子语法特点和语义学模式,匹配相应的需求语法规则库,获得文本中的需求句;
广告词标识单元,用于抽取角色语义中的受事者部分,根据语言学语法规律,搭配语法分析和词性,抽取出句子中的相关商品词、需求词或关键词,对相关词语进行广告词标识;
所述广告展现模块具体包括:
广告发布单元,用于根据广告商的投放广告情况和出价情况,以及商品关联度排序情况,通过产生式规则,在已经确定的广告词上面发布精准广告;
广告显示单元,用于当用户浏览的客户端为电脑终端时,在用户将鼠标移入或者拖动浏览到与文本内容上下文相关的带有商品需求、询问、祈使、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子和词语时显示广告;当用户浏览的客户端为手机终端时,在用户浏览到上述需求相关句子时,对相应广告词或商品区域进行凸显,在用户点击广告词或商品区域后显示广告。
本发明相对于现有技术具有如下的有益效果:
1、本发明基于深度语义挖掘的内文广告发布方法与***通过设计本体库、文本挖掘和语义分析的方法,分析出了文章内具有广告价值的区域和关键词,当用户鼠标移入相应区域时,网页向用户展现针对性的广告,可以广泛应用于内文广告***中。
2、本发明基于深度语义挖掘的内文广告发布方法与***可以对文本进行情感和需求的深度语义挖掘,实现广告页面与关键词的精准定位,帮助内文广告***挖掘精准的广告内容页和关键词,从而能够在网页文本内容中发布与用户阅读内容上下文需求相关的广告,分析出网站中的哪个页面适合放内文广告,将内文广告放置在页面中的哪些区域和哪些广告词上,解决了现有的技术难题。
附图说明
图1为本发明基于深度语义挖掘的内文广告发布方法的流程示意图。
图2为本发明基于深度语义挖掘的内文广告发布方法的原理示意图。
图3为本发明基于深度语义挖掘的内文广告发布方法的分词、词性标注与句法分析图。
图4为本发明基于深度语义挖掘的内文广告发布方法的角色语义标注图。
图5为本发明基于深度语义挖掘的内文广告发布方法的深度语义挖掘综合分析图。
图6为本发明基于深度语义挖掘的内文广告发布***的结构框图。
具体实施方式
实施例1:
如图1和图2所示,本实施例的基于深度语义挖掘的内文广告发布方法,包括以下步骤:
1)构建广告需求本体,用L表示,即L={W,R,S,T},具体包括:
1.1)从当前互联网电子商务网站的知识组织结构上获取大致的各类商品,进行词典扩建,构建商品词库W(words),该词库包括但不限于:数码、教育、运动健身、医疗保健、美容化妆、服装、家具生活、旅游、母婴、办公用品、娱乐等20余个类别的广告相关数据,并针对每一个领域进行细分,例如教育又可以细分为:中考、高考、IT考证、公务员考试、英语培训等二级细致词库,以此类推。
通过人工参考当前网站内已有的知识结构,构建初始的种子词库;接着进一步对种子词库进行词语扩散,步骤如下:将建立的种子词放入同义词词林中进行检索(或放入知网本体中进行检索),获得该类别的其他相近词,相近词的选取主要是从语义上进行甄别,词语不仅考虑其字面表示,还收录相应的语义和概念相近的词语,保证足够的语义词录入;有足够的相近词后,再进行第二次词语扩散收集。
上述技术采用了基于Deep learning技术的***开源工具word2vec进行第二次商品词库发散,Word2vec的语料采用当前最新语料进行训练,以此解决同义词词林或知网无法一直保持最新词语更新的问题,该词库通过上述方法多次迭代,不断维护和优化;
1.2)根据互信息算法,计算两个商品词同时出现的概率,构建商品关联度集合R(relationship),该集合表示商品之间关联度的概率与各种联系,采用四元组{P1,V,P2,O}表示;其中,P1表示商品1,V为谓语动词,P2表示商品2,O为概率值;
商品关联度集合R的构建方法主要是基于词库W中的商品词,再加上互信息技术和Deep learning技术进行构建。其方法是取出词库W中的一个商品词p1,遍历W-p1个其他商品词;通过计算该商品出现与其他商品同时出现,再加上谓语动词(谓语动词包括但不限于“用于、具有、作为、目的是、属于、部分于、关联于、是一种、产生”等等与商业用途相关的词语)的互信息,得出最终的概率值;将商品P1,谓词、商品P2放入搜索引擎中计算得出返回结果数,作为互信息的基础值,归一化为相应的概率值,构建成为商品关联度四元组;在互信息值缺少的情况下,通过word2vec工具,通过输入商品名获得该商品相应关联词的方法,进一步获取和分析商品类似关联商品。不断优化和修正该四元组R;
1.3)根据知网情感词典、台湾NTU情感词典等公开情感词典,获取与商品评价和需求相关的情感词,构建情感需求词库S(sentiment),其中与需求相关的情感词主要是基于语言学的分析方法,抽取包括但不限于“想要、想购买、想找、想入手、想吃、想去、要买、要吃、需要、急需、急求、求送、求购、帮买、喜欢、中意、大爱、求推荐、希望买到、找到、获得”等与需求相关的词汇;
1.4)根据商品词库、情感词库和关联度集合,构建商品广告推荐的规则库T(trues),该规则库T是一个人工智能领域的产生式规则专家***,主要由三层架构构建,T={t,r,s},其中t为商品推理事实库,r为推理规则库,s为搜索控制***;t的构成主要基于前面构建的W与R两个已知事实库;r是基于深度语义挖掘所构成的规则,s为搜索控制***,包括专家***用到的各类搜索算法例如Rete等,使用s实现正向与逆向推理控制功能;
2)抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句,具体包括:
2.1)抓取各类内容的网页,针对不同的页面内容采用不同的信息抽取方法,获得剔除了导航和网页广告的正文文本;
在页面内容的抽取中,对什么样的网站进行数据采集与抽取也取决于与广告商的合作;在一般情况下,对于微博和SNS网站进行数据采集,可以采用调用其本身提供的API函数的方法,或者采用搜索爬虫模拟浏览器登陆的方式抓取数据,微博数据结构统一,因此无需进行网页正文内容信息抽取;对于论坛类网站可以采用scrapy爬虫技术,通过xpath等精准定向和抽取数据内容;对于博客和新闻网页结构,可以采用基于自然标注的网页信息抽取方法,抽取网页主要内容,剔除广告和导航内容等;对于商品类与电商类网站,也同样采用xpath技术以保障100%的采集准确率;对于网络无法获取的数据(例如IM数据),可以通过合作或购买的方式获得;
2.2)根据商品词库和情感需求词库,采用Aho-Corasick算法(即AC自动机)对网页进行关键词匹配,对完全不包含商品和需求相关词语的网页进行剔除;
所述AC自动机应用有限自动机的方法巧妙地将字符比较转化为了状态转移,此算法在扫描文本时完全不需要回溯,时间复杂度为O(n),且时间复杂度与关键字的数目和长度无关;由步骤1.1)和步骤1.3)可知,有广告价值的页面P=A-p,其中A为所有页面集合,p为未能与本题库匹配的页面,该步骤之所以不采用更加精准的机器学习方法,主要是考虑到计算量的问题,对整个网络进行文本挖掘是不现实或者说代价过大的;步骤1)构建的广告需求本体L,已经能够包含绝大多数的广告词与情感与需求词和各种语义关系,当一个页面不存在可能的广告或商品或情感需求词时,说明无法把广告关键词打在页面内,由于L足够大,所以每个页面匹配的词数已经很大,不会产生数据稀疏问题;
2.3)采用开源工具,如IK、ICTCLAS、Stanford NLP等分词工具,对文本进行分词和词性标注,如图3所示,“今天是情人节,大家都说应该精心准备好巧克力。”被分成13个词,分别用空格隔开,其中每个词都搭配有NN、VV、AD、PU等词性,分别表示名词、动词、形容词、标点符号等,接下去采用贝叶斯算法(贝叶斯分类器)或支持向量机(SVM)算法对网页内容进行文本分类,判断网页所属类别,进一步剔除与商业信息无关的文本类型;
采用贝叶斯算法还是采用支持向量机算法,主要取决于文本长度,对于较长文本例如博客和新闻等,因为具有足够多的特征项,因此采用朴素贝叶斯分类器进行分析,这样能够在保证精准分类的同时,获得较快计算速度;对于类似QQ签名IM聊天记录和微薄等短文,由于文本特征不足,因此采用SVM算法或者改进式贝叶斯算法,实验表明这些算法具有更好的分析精度;语料的选择主要是从各大网站上抓取足够多的各个领域的语料,其类别保持与步骤1.1)中的商品词库W的类别一致,并收集另一个不属于商业信息的类别,进行训练,此处对文本进行分类的目的主要有三个:第一,剔除掉与广告和商业毫不相干的文本类别,得到候选广告页面P的进一步筛选集;第二,它是一种变相的词义消解,可以把相同类别的分类文本去匹配相同类别的本体库词汇,文本分类可以对文章领域进行识别,因此就可以对例如数码产品的词汇“苹果”与食品词汇“苹果”进行区分,减少文本理解的歧义;第三,文本分类能为文本的进一步挖掘做预处理;处理完之后,得到了经过分词与词性标注的文本;
2.4)对文本内容进行Textrank算法分析,获取文本关键词与关键句;
Textrank算法是一种把词间关系看成投票关系的类似于Pagerank的算法,可用于分析和抽取文本中的关键词和主题句,关键词和主题句能够反映文章的主旨内容,是广告的常用区域;另外,对于带有情感态度需求和评价的句子也是发布内文广告需要关注的区域,将步骤1.3)中的情感需求词库S对全文进行Aho-Corasick算法关键词匹配,进行断句和提取后,获得可能带有需求与情感、态度与评价的句子;以上获得的两部分句子的分析结果可用于作为候选的广告关键词和广告句进行深度语义挖掘。
3)对抽取到的关键句子进行深度语义挖掘,根据需求句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识,具体包括:
3.1)进行句法分析和角色语义标注,如图3和图4所示,SBJ、COMP、ADV等分别表示主语、补语、修饰语等,词语词之间的连接线代表这两个词之间的依存语法关系,根据句子类型,分析句子语法特点和语义学模式,匹配相应的需求语法规则库,获得文本中的需求句:
3.1.1)进行句法分析,构建一颗句法树,构建句法树的目标是对步骤1.4)中的推理规则库r进行模式匹配和规则推理搜索,步骤1.2)中的商品关联度集合R中存储了大量的语义语法规则和商品购买规则,这些规则的获取主要靠人工构建;其中的语法规则类似于:NR+要+NP、能不能+PP+ADVP、祈求/求+NP、麻烦+VP、需要+VP、有没有适合+NR+使用的+NP?、求购+NN、NP+哪里的+NN+好点?其中NP、VP、PP等为名词短语、动词短语、介词短语等。
3.1.2)进行角色语义标注(SRL),主要采用的工具可以是OpenNLP、StanfordNLP、lllinois SRL等工具中的一种或多种。它是当前自然语言处理领域最为高级的分析方法,给定一个句子,SRL的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)如图4和图5所示A0表示施事者,A1表示受事者,ADV表示方式等;SRL标注的语义角色对分析类似谁对谁做了什么的问题,提供了强有力的支持,从上述步骤2.4)分析出的句子中经过角色语义标注的受事者部分有很大的概率是文章的广告推广内容和文章语义上描述的需要解决的问题。
深度语义挖掘的基础基于成熟的语言学方法,该方法在浅层语义分析的基础上进行更具深度的语义挖掘,如图5所示,一个句子中的每个词都被分解为带有词性、依存句法、词间依存关系、角色语义关系等细致内容,其分析格式主要基于国际学术会议CoNLL的浅层语义分析格式,在浅层语义分析基础上进行深度语义挖掘,语法规则的挖掘主要依据以下客观方法:基于现有语言学的规律和方法,搜集人们表达需求和情感的各种模式(称为语义学模式),这些模式包括直接要求模式、询问原因模式、告知理由模式、表达困难模式、询问能力模式、缓和态度模式等,这些语法规则符合当前汉语表达需求时的客观语法规则,根据文本内容上下文提到的事件、商品、评论、困难与陈述,分析上下文需求关系,将这些表达模式构成的集合都录入推理规则库r中;上述步骤3.1.2)形成的句法分析句法树,目的是用于与推理规则库r进行匹配;
句子如果符合语法规则模式,那么句法分析还要进一步进行句法中的常用句型,包括否定句,条件句和比喻句等,例如当出现没有、不是、不好等否定词时,判断结果需要取反;常用句型判断完成之后,能够基本确定文章中适合发布广告的句子,这些句子都是能够概括文章主旨,大部分的句子是带有需求或者情感倾向,包括但不限于带有需求、祈使、询问、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子;句子在各个部分经过细致分析后,便可以确定广告词的位置;
3.2)通过句法分析、抽取角色语义中的受事者部分、词性标注、商品词库等各部分综合分析,最终确定出句子中广告词,对该词语进行广告词标识;
广告词的确定主要结合三种因素综合分析:第一种是根据依存句法分析,确定各个词语之间的依存关系,将各种可能的匹配值进行线性平均,一般是把广告发布在句子中的名词、动词和动名词等词语或短语上;第二种是发布在角色语义标注的受事者部分的相关词语、短语或短句上;第三种是将步骤1.1)中的商品词库w,以上区域都是可以被打上广告的区域,主要根据文章匹配词语数和根据匹配的恰当度决定选择其中的一种或多种词语作为广告词;例如图3、图4所示的示例句子“今天是情人节,大家都说应该精心准备好巧克力。”,句子带有情感色彩和需求句式,综合分析以上方法,广告词被打在属于名词词性又兼有受事语义,同时又属于具体商品词汇的关键词“巧克力”上。
4)根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,当用户在浏览这类网页文本时,在特定区域展现广告,具体包括:
4.1)根据广告商的投放广告情况和出价情况,以及最重要的商品关联度排序情况,通过产生式规则,在已经确定的广告词上面发布精准广告,具体为:
综合分析广告商的投放广告情况和出价情况,通过步骤1.2)中形成的商品关联度集合R,进行判断,把与广告商最相近的商品打在相应的广告词上;广告链接显示的商品根据关联度进行排序,也可适当的根据广告商的出价程度排序;最后,网站拥有者通过嵌入相应的javascript代码到其网站内,就可以实现对相关广告词进行自动标识,通过加链接下划线、植入图片或按钮、植入flash或视频的方式,使广告词具有链接功能,成为相关广告;
4.2)当用户浏览的客户端为电脑终端时,在将鼠标移入或者拖动浏览到带有商品需求、询问、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子的区域时显示广告,具体为:
将内文广告显示在特定广告区域(通常为带有商品需求或情感句的区域)内,该区域通过Ajax技术,可以在用户没有把光标移入时隐藏,当用户的鼠标移动到相关广告句法模式的特定区域时,广告框显示不同内容来回应用户浏览页面的文章描述内容,例如当光标移入询问原因和带有直接需求的句子里面时,调用回应这类需求的广告显示内容,满足文章内提到的需求,广告回应方法主要根据商品广告推荐的规则库T和广告商的商品内容自动生成,精准的内文广告方法能够吸引更多的用户点击广告;由于以前没有需求分析技术,只能当用户点击广告时才显示,而本实施例可以在用户将鼠标移入或者拖动浏览到上述所述的需求相关句子时,就显示广告;
由于上述步骤都需要在大量的规则库搜索和匹配规则,而且是通过不同层次的层次推理才能确定最终的内文广告内容,因此采用Rete算法进行产生式规则的匹配、选择和执行;Rete算法有两个特点,一个是优于传统的模式匹配算法,包括状态保存,Rete算法通过保存操作过程中的状态,避免了大量的重复计算;另一个特点是节点共享,不同规则之间含有相同的模式,从而可以共享同一个节点,Rete网络的各个部分包含各种不同的节点共享;
5)根据用户点击广告的情况,作为权值,对相应的广告词与广告商商品之间的关系进行重新优化和机器学习训练,优化商品关联度集合和商品广告推荐的规则库,同时不断优化商品词库和情感需求词库;
该步骤可以把用户点击广告的数量作为投票数据,推导新的推理规则库r,还有进一步优化商品关联度集合R,当广告被点击时说明该广告句与引导语关联度大,该内文广告关键词所在位置正确,于是加强了句法模式与引导语的关联;反之亦然,如果广告一直没有被点击,则说明本设计投放的广告可以进一步优化,应该替换其他内容的广告语和替换关键词;另一种优化是对商品关联度集合的优化,点击了的广告使内文中提到的商品与关联商品之间关联度加大,优化步骤1.2)中O的概率值;同时不断优化商品词库和情感需求词库;
通过以上的方法,可以优化人工设计的语法规则或者机器产生的关联度可能产生的弊端,达到不断精准的目的。
实施例2:
本实施例的主要特点是:步骤4.2)中,当用户浏览的客户端为手机终端时,在浏览到需求相关句子时,无需鼠标移入即对相应广告词或商品区域进行凸显,在用户点击广告词后显示广告。其余同实施例1。
实施例3:
如图6所示,本实施例的基于深度语义挖掘的内文广告发布***包括:
广告需求本体构建模块,用于构建广告需求本体;
关键词与关键句抽取模块,用于抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句;
深度语义挖掘与广告标识模块,用于对抽取到的关键句子进行深度语义挖掘,根据情感句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识;
广告展现模块,用于根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,使用户在浏览这类网页文本时,在特定区域展现广告;
优化模块,用于根据用户点击广告的情况,作为权值,对相应的广告词与广告商商品之间的关系进行重新优化和机器学习训练,优化商品关联度集合与商品广告推荐的规则库,同时不断优化商品词库和情感需求词库。
其中,所述广告需求本体构建模块具体包括:
商品词库构成单元,用于从当前互联网电子商务网站的知识组织结构上获取大致的各类商品,进行词典扩建,构建商品词库;
商品关联度集合构建单元,用于根据互信息算法,计算两个商品词同时出现的概率,构建商品关联度集合;
情感需求词库构建单元,用于根据公开情感词典,获取与商品评价和需求相关的情感词,构建情感需求词库;
商品广告推荐的规则库构建单元,用于根据商品词库、情感词库和关联度集合,构建商品广告推荐的规则库;
所述关键词与关键句抽取模块具体包括:
网页抓取单元,用于抓取各类内容的网页,采用信息抽取的方法,获得剔除了导航和网页广告的正文文本;
网页模式匹配单元,用于根据商品词库和情感需求词库,采用Aho-Corasick算法对网页进行关键词匹配,对完全不包含商品和需求相关词语的网页进行剔除;
网页内容文本分类单元,用于对文本进行分词和词性标注,采用贝叶斯算法或支持向量机算法对网页内容进行文本分类,判断网页所属类别,进一步剔除与商业信息无关的文本类型;
关键词与关键句获取单元,用于对文本内容进行Textrank算法分析,获取文本关键词与关键句;
所述深度语义挖掘与广告标识模块具体包括:
句子分析单元,用于进行句法分析和角色语义标注,根据句子类型,分析句子语法特点和语义学模式,匹配相应的需求语法规则库,获得文本中的需求句;
广告词标识单元,用于抽取角色语义中的受事者部分,根据语言学语法规律搭配语法分析和词性,抽取出句子中的相关商品词、需求词或关键词,对相关词语进行广告词标识;
所述广告展现模块具体包括:
广告发布单元,用于根据广告商的投放广告情况和出价情况,以及商品关联度排序情况,通过产生式规则,在已经确定的广告词上面发布精准广告;
广告显示单元,用于当用户浏览的客户端为电脑终端时,在用户将鼠标移入或者拖动浏览到与文本内容上下文相关的带有商品需求、询问、祈使、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子和词语时显示广告;当用户浏览的客户端为手机终端时,在用户浏览到上述需求相关句子时,对相应广告词或商品区域进行凸显,在用户点击广告词或商品区域后显示广告。
从实施例1~3可以看到,本发明基于深度语义挖掘的内文广告发布方法与***可以对文本进行情感和需求的深度语义挖掘,实现广告页面与关键词的精准定位,帮助内文广告***挖掘精准的广告内容页和关键词,从而能够在网页文本内容中发布与用户阅读内容上下文需求相关的广告,分析出网站中的哪个页面适合放内文广告,将内文广告放置在页面中的哪些区域和哪些广告词上,解决了现有的技术难题。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种基于深度语义挖掘的内文广告发布方法,其特征在于所述方法包括:
构建广告需求本体;
抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句;
对抽取到的关键句子进行深度语义挖掘,根据需求句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识;
根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,当用户在浏览这类网页文本时,在特定区域展现广告。
2.根据权利要求1所述的一种基于深度语义挖掘的内文广告发布方法,其特征在于:所述构建广告需求本体,具体包括:
从当前互联网电子商务网站的知识组织结构上获取大致的各类商品,进行词典扩建,构建商品词库;
根据互信息算法,计算两个商品词同时出现的概率,构建商品关联度集合;
根据公开情感词典,获取与商品评价和需求相关的情感词,构建情感需求词库;
根据商品词库、情感词库和关联度集合,构建商品广告推荐的规则库。
3.根据权利要求2所述的一种基于深度语义挖掘的内文广告发布方法,其特征在于:所述抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句,具体包括:
抓取各类内容的网页,采用信息抽取的方法,获得剔除了导航和网页广告的正文文本;
根据商品词库和情感需求词库,采用Aho-Corasick算法对网页进行关键词匹配,对完全不包含商品和需求相关词语的网页进行剔除;
对文本进行分词和词性标注,采用贝叶斯算法或支持向量机算法对网页内容进行文本分类,判断网页所属类别,进一步剔除与商业信息无关的文本类型;
对文本内容进行Textrank算法分析,获取文本关键词与关键句。
4.根据权利要求1所述的一种基于深度语义挖掘的内文广告发布方法,其特征在于:所述对抽取到的关键句子进行深度语义挖掘,根据需求句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识,具体包括:
进行句法分析和角色语义标注,根据句子类型,分析句子语法特点和语义学模式,匹配相应的需求语法规则库,获得文本中的需求句;
抽取角色语义中的受事者部分,根据语言学语法规律,搭配语法分析和词性,抽取出句子中的相关商品词、需求词或关键词,对相关词语进行广告词标识。
5.根据权利要求1所述的一种基于深度语义挖掘的内文广告发布方法,其特征在于:所述根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,使用户在浏览这类网页文本时,在特定区域展现广告,具体包括:
根据广告商的投放广告情况和出价情况,以及商品关联度排序情况,通过产生式规则,在已经确定的广告词上面发布精准广告;
当用户浏览的客户端为电脑终端时,在用户将鼠标移入或者拖动浏览到与文本内容上下文相关的带有商品需求、询问、祈使、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子和词语时显示广告;当用户浏览的客户端为手机终端时,在用户浏览到上述需求相关句子时,对相应广告词或商品区域进行凸显,在用户点击广告词或商品区域后显示广告。
6.根据权利要求2所述的一种基于深度语义挖掘的内文广告发布方法,其特征在于所述方法还包括:
根据用户点击情况,进行机器学习和点击反馈,优化商品关联度集合与商品广告推荐的规则库。
7.根据权利要求6所述的一种基于深度语义挖掘的内文广告发布方法,其特征在于:所述根据用户点击情况,进行机器学习和点击反馈,优化商品关联度集合与商品广告推荐的规则库,具体如下:
根据用户点击广告的情况,作为权值,对相应的广告词与广告商商品之间的关系进行重新优化和机器学习训练,优化商品关联度集合与商品广告推荐的规则库,同时不断优化商品词库和情感需求词库。
8.一种基于深度语义挖掘的内文广告发布***,其特征在于所述***包括:
广告需求本体构建模块,用于构建广告需求本体;
关键词与关键句抽取模块,用于抓取和接收网页内容,根据广告本体和文本分类算法剔除与商业信息无关的网页,判断网页所属类别,抽取关键词与关键句;
深度语义挖掘与广告标识模块,用于对抽取到的关键句子进行深度语义挖掘,根据情感句语法规则对带有需求与情感、态度与评价的句子、短语或词语进行发现和抽取,并进行广告标识;
广告展现模块,用于根据标识的文本内容的类型与商品关联度,对带广告标识的网页文本,通过产生式规则进行推理,嵌入精准广告,使用户在浏览这类网页文本时,在特定区域展现广告。
9.根据权利要求8所述的一种基于深度语义挖掘的内文广告发布***,其特征在于所述***还包括:
优化模块,用于根据用户点击广告的情况,作为权值,对相应的广告词与广告商商品之间的关系进行重新优化和机器学习训练,优化商品关联度集合与商品广告推荐的规则库,同时不断优化商品词库和情感需求词库。
10.根据权利要求9所述的一种基于深度语义挖掘的内文广告发布***,其特征在于:
所述广告需求本体构建模块具体包括:
商品词库构成单元,用于从当前互联网电子商务网站的知识组织结构上获取大致的各类商品,进行词典扩建,构建商品词库;
商品关联度集合构建单元,用于根据互信息算法,计算两个商品词同时出现的概率,构建商品关联度集合;
情感需求词库构建单元,用于根据公开情感词典,获取与商品评价和需求相关的情感词,构建情感需求词库;
商品广告推荐的规则库构建单元,用于根据商品词库、情感词库和关联度集合,构建商品广告推荐的规则库;
所述关键词与关键句抽取模块具体包括:
网页抓取单元,用于抓取各类内容的网页,采用信息抽取的方法,获得剔除了导航和网页广告的正文文本;
网页模式匹配单元,用于根据商品词库和情感需求词库,采用Aho-Corasick算法对网页进行关键词匹配,对完全不包含商品和需求相关词语的网页进行剔除;
网页内容文本分类单元,用于对文本进行分词和词性标注,采用贝叶斯算法或支持向量机算法对网页内容进行文本分类,判断网页所属类别,进一步剔除与商业信息无关的文本类型;
关键词与关键句获取单元,用于对文本内容进行Textrank算法分析,获取文本关键词与关键句;
所述深度语义挖掘与广告标识模块具体包括:
句子分析单元,用于进行句法分析和角色语义标注,根据句子类型,分析句子语法特点和语义学模式,匹配相应的需求语法规则库,获得文本中的需求句;
广告词标识单元,用于抽取角色语义中的受事者部分,根据语言学语法规律搭配语法分析和词性,抽取出句子中的相关商品词、需求词或关键词,对相关词语进行广告词标识;
所述广告展现模块具体包括:
广告发布单元,用于根据广告商的投放广告情况和出价情况,以及商品关联度排序情况,通过产生式规则,在已经确定的广告词上面发布精准广告;
广告显示单元,用于当用户浏览的客户端为电脑终端时,在用户将鼠标移入或者拖动浏览到与文本内容上下文相关的带有商品需求、询问、祈使、要求、告知理由、询问能力、缓和态度、表达困难、表达情感态度及评价的相关句子和词语时显示广告;当用户浏览的客户端为手机终端时,在用户浏览到上述需求相关句子时,对相应广告词或商品区域进行凸显,在用户点击广告词或商品区域后显示广告。
CN201410075127.XA 2014-03-03 2014-03-03 一种基于深度语义挖掘的内文广告发布方法与*** Active CN103853824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410075127.XA CN103853824B (zh) 2014-03-03 2014-03-03 一种基于深度语义挖掘的内文广告发布方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410075127.XA CN103853824B (zh) 2014-03-03 2014-03-03 一种基于深度语义挖掘的内文广告发布方法与***

Publications (2)

Publication Number Publication Date
CN103853824A true CN103853824A (zh) 2014-06-11
CN103853824B CN103853824B (zh) 2017-05-24

Family

ID=50861479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410075127.XA Active CN103853824B (zh) 2014-03-03 2014-03-03 一种基于深度语义挖掘的内文广告发布方法与***

Country Status (1)

Country Link
CN (1) CN103853824B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699844A (zh) * 2015-03-31 2015-06-10 北京奇艺世纪科技有限公司 为广告确定视频标签的方法及装置
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN105718445A (zh) * 2016-01-28 2016-06-29 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105718256A (zh) * 2014-12-18 2016-06-29 通用汽车环球科技运作有限责任公司 用于通过本体模型的比较进行一致性检查的方法和装置
CN105824904A (zh) * 2016-03-15 2016-08-03 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN106407181A (zh) * 2016-09-07 2017-02-15 大地风景(武汉)信息技术有限公司 旅游目的地中的数据语义关联分析方法及***
WO2017035705A1 (zh) * 2015-08-28 2017-03-09 深圳市世强先进科技有限公司 一种智能搜索***及方法
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN107918797A (zh) * 2016-10-06 2018-04-17 富士通株式会社 用于编辑机器学习结果的方法和信息处理设备
CN107944898A (zh) * 2016-10-13 2018-04-20 驰众信息技术(上海)有限公司 广告投放楼宇信息的自动发现与排序方法
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108229990A (zh) * 2016-12-14 2018-06-29 北京奇虎科技有限公司 一种广告标题生成方法、装置和设备
CN108255814A (zh) * 2018-01-25 2018-07-06 王立山 一种智能体的自然语言产生式***及方法
CN108509571A (zh) * 2018-03-26 2018-09-07 刘莎 一种网页信息数据挖掘通用方法
CN109242431A (zh) * 2018-09-04 2019-01-18 浙江蟠桃会网络技术有限公司 一种基于数据体系的企业管理方法及其***
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及***
CN109298796A (zh) * 2018-07-24 2019-02-01 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109426987A (zh) * 2017-09-05 2019-03-05 本田技研工业株式会社 评价装置、评价方法、噪声消除装置和程序存储介质
WO2019113977A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 文章处理方法、装置、服务器及存储介质
CN109919641A (zh) * 2017-12-12 2019-06-21 优视科技有限公司 一种广告投放方法及平台
CN110110078A (zh) * 2018-01-11 2019-08-09 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN110362691A (zh) * 2019-07-19 2019-10-22 大连语智星科技有限公司 一种句法树库构建***
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110910168A (zh) * 2019-11-05 2020-03-24 北京洪泰文旅科技股份有限公司 一种文旅行业获客方法及设备
CN111291186A (zh) * 2020-01-21 2020-06-16 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111340551A (zh) * 2020-02-27 2020-06-26 广东博智林机器人有限公司 广告内容的生成方法、装置、终端及存储介质
CN111353803A (zh) * 2018-12-24 2020-06-30 北京奇虎科技有限公司 广告主分类方法及装置、计算设备
CN112784192A (zh) * 2021-01-22 2021-05-11 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及***
CN114399329A (zh) * 2021-12-22 2022-04-26 江苏沪磁智能科技有限公司 一种数字广告交易投放方法
US11915273B2 (en) 2019-05-24 2024-02-27 relemind GmbH Systems for creating and/or maintaining databases and a system for facilitating online advertising with improved privacy

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183396A (zh) * 2007-12-27 2008-05-21 深圳市迅雷网络技术有限公司 一种广告显示方法、***和装置
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和***
US20120054440A1 (en) * 2010-08-31 2012-03-01 Toby Doig Systems and methods for providing a hierarchy of cache layers of different types for intext advertising

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183396A (zh) * 2007-12-27 2008-05-21 深圳市迅雷网络技术有限公司 一种广告显示方法、***和装置
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和***
US20120054440A1 (en) * 2010-08-31 2012-03-01 Toby Doig Systems and methods for providing a hierarchy of cache layers of different types for intext advertising

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周应强: ""基于本体的web非规范知识处理中采集技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718256A (zh) * 2014-12-18 2016-06-29 通用汽车环球科技运作有限责任公司 用于通过本体模型的比较进行一致性检查的方法和装置
CN104699844B (zh) * 2015-03-31 2019-03-15 北京奇艺世纪科技有限公司 为广告确定视频标签的方法及装置
CN104699844A (zh) * 2015-03-31 2015-06-10 北京奇艺世纪科技有限公司 为广告确定视频标签的方法及装置
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
WO2017035705A1 (zh) * 2015-08-28 2017-03-09 深圳市世强先进科技有限公司 一种智能搜索***及方法
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN105718445B (zh) * 2016-01-28 2018-05-11 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105718445A (zh) * 2016-01-28 2016-06-29 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105824904B (zh) * 2016-03-15 2018-12-25 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN105824904A (zh) * 2016-03-15 2016-08-03 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN106407181A (zh) * 2016-09-07 2017-02-15 大地风景(武汉)信息技术有限公司 旅游目的地中的数据语义关联分析方法及***
CN106407181B (zh) * 2016-09-07 2019-05-14 武汉众犇慧通科技有限公司 旅游目的地中的数据语义关联分析方法及***
CN107918797A (zh) * 2016-10-06 2018-04-17 富士通株式会社 用于编辑机器学习结果的方法和信息处理设备
CN107944898A (zh) * 2016-10-13 2018-04-20 驰众信息技术(上海)有限公司 广告投放楼宇信息的自动发现与排序方法
CN108229990A (zh) * 2016-12-14 2018-06-29 北京奇虎科技有限公司 一种广告标题生成方法、装置和设备
CN108229990B (zh) * 2016-12-14 2023-08-15 三六零科技集团有限公司 一种广告标题生成方法、装置和设备
CN108073569B (zh) * 2017-06-21 2021-08-27 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
US11132699B2 (en) 2017-09-05 2021-09-28 Honda Motor Co., Ltd. Apparatuses, method, and computer program for acquiring and evaluating information and noise removal
CN109426987A (zh) * 2017-09-05 2019-03-05 本田技研工业株式会社 评价装置、评价方法、噪声消除装置和程序存储介质
CN109919641B (zh) * 2017-12-12 2021-04-23 阿里巴巴(中国)有限公司 一种广告投放方法及平台
CN109919641A (zh) * 2017-12-12 2019-06-21 优视科技有限公司 一种广告投放方法及平台
WO2019113977A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 文章处理方法、装置、服务器及存储介质
CN110110078A (zh) * 2018-01-11 2019-08-09 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN110110078B (zh) * 2018-01-11 2024-04-30 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN108255814A (zh) * 2018-01-25 2018-07-06 王立山 一种智能体的自然语言产生式***及方法
CN108509571A (zh) * 2018-03-26 2018-09-07 刘莎 一种网页信息数据挖掘通用方法
CN109298796B (zh) * 2018-07-24 2022-05-24 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109298796A (zh) * 2018-07-24 2019-02-01 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109242431A (zh) * 2018-09-04 2019-01-18 浙江蟠桃会网络技术有限公司 一种基于数据体系的企业管理方法及其***
CN109242431B (zh) * 2018-09-04 2021-07-27 舟山网脉科技有限公司 一种基于数据体系的企业管理方法及其***
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及***
CN111353803B (zh) * 2018-12-24 2024-04-05 三六零科技集团有限公司 广告主分类方法及装置、计算设备
CN111353803A (zh) * 2018-12-24 2020-06-30 北京奇虎科技有限公司 广告主分类方法及装置、计算设备
US11915273B2 (en) 2019-05-24 2024-02-27 relemind GmbH Systems for creating and/or maintaining databases and a system for facilitating online advertising with improved privacy
CN110362691A (zh) * 2019-07-19 2019-10-22 大连语智星科技有限公司 一种句法树库构建***
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110910168A (zh) * 2019-11-05 2020-03-24 北京洪泰文旅科技股份有限公司 一种文旅行业获客方法及设备
CN111291186A (zh) * 2020-01-21 2020-06-16 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111291186B (zh) * 2020-01-21 2024-01-09 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111340551A (zh) * 2020-02-27 2020-06-26 广东博智林机器人有限公司 广告内容的生成方法、装置、终端及存储介质
CN112784192B (zh) * 2021-01-22 2022-08-23 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法
CN112784192A (zh) * 2021-01-22 2021-05-11 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及***
CN114399329A (zh) * 2021-12-22 2022-04-26 江苏沪磁智能科技有限公司 一种数字广告交易投放方法

Also Published As

Publication number Publication date
CN103853824B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN103853824B (zh) 一种基于深度语义挖掘的内文广告发布方法与***
Kumar et al. Sentiment analysis of multimodal twitter data
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
Moussa et al. A survey on opinion summarization techniques for social media
Mitra et al. Helpfulness of online consumer reviews: A multi-perspective approach
US9798820B1 (en) Classification of keywords
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
Rao et al. A rating approach based on sentiment analysis
Jayasanka et al. Sentiment analysis for social media
Shahade et al. Multi-lingual opinion mining for social media discourses: An approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
Saxena et al. Introduction to sentiment analysis covering basics, tools, evaluation metrics, challenges, and applications
Wegrzyn-Wolska et al. Tweets mining for French presidential election
Arafat et al. Analyzing public emotion and predicting stock market using social media
Pak Automatic, adaptive, and applicative sentiment analysis
Nguyen et al. Analyzing customer experience in hotel services using topic modeling
Masood et al. Semantic analysis to identify students’ feedback
Hailu Opinion mining from Amharic blog
Wang et al. CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method
Pertsas et al. Ontology-driven information extraction from research publications
Li et al. Twitter sentiment analysis of the 2016 US Presidential Election using an emoji training heuristic
Nie et al. The Opinion Mining Based on Fuzzy Domain Sentiment Ontology Tree for Product Reviews.
Rai et al. Identification of landscape preferences by using social media analysis
Kasmuri et al. Building a Malay-English code-switching subjectivity corpus for sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant