CN113254756B - 广告召回方法、装置、设备和存储介质 - Google Patents
广告召回方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113254756B CN113254756B CN202010088191.7A CN202010088191A CN113254756B CN 113254756 B CN113254756 B CN 113254756B CN 202010088191 A CN202010088191 A CN 202010088191A CN 113254756 B CN113254756 B CN 113254756B
- Authority
- CN
- China
- Prior art keywords
- target
- advertisement
- recall
- nodes
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000011218 segmentation Effects 0.000 claims description 70
- 201000010099 disease Diseases 0.000 claims description 51
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 19
- 238000005065 mining Methods 0.000 claims description 11
- 208000024891 symptom Diseases 0.000 claims description 9
- 208000037919 acquired disease Diseases 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 20
- 239000003814 drug Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 206010011224 Cough Diseases 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 206010039083 rhinitis Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 241000233805 Phoenix Species 0.000 description 1
- 239000010231 banlangen Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 201000009151 chronic rhinitis Diseases 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000012567 medical material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种广告召回方法、装置、设备和存储介质,涉及智能搜索技术领域。具体实现方案为:确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与目标实体节点连接的目标属性节点;根据目标属性节点,确定历史搜索请求与历史召回广告之间的相关性;根据历史搜索请求与历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及智能搜索技术领域,具体涉及一种广告召回方法、装置、设备和存储介质。
背景技术
随着互联网市场的快速发展,可以根据用户发起的搜索请求来召回广告以推荐给用户,其中可以涉及医疗领域的广告召回,即根据用户搜索请求中的医疗搜索意图来召回医疗相关广告。目前,常规的匹配过滤方式无法对所有不相关广告进行有效屏蔽,进而广告召回的准确率较低,影响用户体验。
发明内容
本申请实施例提供了一种广告召回方法、装置、设备和存储介质,能够提高广告召回的准确率。
第一方面,本申请实施例提供了一种广告召回方法,包括:
确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点;
根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;
根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
上述申请中的一个实施例具有如下优点或有益效果:通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
可选的,所述确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,包括:
对所述历史搜索请求以及所述历史召回广告中的目标文本进行分词处理;
根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的核心词和候选实体节点;
根据所述核心词,从所述候选实体节点中选择目标实体节点。
上述申请中的一个实施例具有如下优点或有益效果:通过对历史搜索请求和历史召回广告的文本进行分词,并与目标领域知识图谱进行匹配,以确定文本核心词对应的目标实体节点,有利于通过目标领域知识图谱的映射得到文本的核心实体内容,为历史搜索请求和历史召回广告之间相关性的确定提供依据。
可选的,根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的核心词,包括:
根据命中所述目标领域知识图谱的分词,在所述目标文本中的置信度,从所述目标文本的分词结果中选择所述目标文本的核心词。
上述申请中的一个实施例具有如下优点或有益效果:以命中目标领域知识图谱的分词结果为基础,通过分词在文本环境中的置信度,有利于选择得到最能体现文本核心内容的分词。
可选的,根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的候选实体节点,包括:
将所述核心词与所述目标领域知识图谱中的自然语言词语节点进行匹配;其中,所述自然语言词语节点为所述目标领域知识图谱中节点的触发匹配词语表示;
根据所述自然语言词语节点的匹配结果,以及所述目标领域知识图谱中实体节点与属性节点之间的连接关系,将所述核心词关联的实体节点作为所述目标文本的候选实体节点。
上述申请中的一个实施例具有如下优点或有益效果:通过目标领域知识图谱中的自然语言词语节点进行知识图谱的匹配触发,以自然语言词语节点为最小匹配粒度,基于节点之间连接关系,由下至上匹配得到根节点的实体节点,能够最大范围的囊括实体节点或属性节点在自然语言中的多种表示,进而提高知识图谱的匹配力度,避免无法匹配的情况。
可选的,在所述根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告之后,还包括:
根据接收到的当前搜索请求,确定候选召回广告;
对所述当前搜索请求进行分词处理,并根据分词结果进行重构,得到候选搜索语料;
若检测到所述当前搜索请求或所述候选搜索语料,与所述历史搜索请求相同,则将所述候选召回广告与所述黑名单广告进行匹配,以屏蔽命中所述黑名单广告的候选召回广告。
上述申请中的一个实施例具有如下优点或有益效果:通过黑名单广告的确定,以在在线召回广告时,将当前搜索请求及其变形形式与历史搜索请求进行匹配,最大可能的屏蔽掉周期性检测时的黑名单广告,避免不相关或相关度较低的广告推荐给用户,提高广告召回准确率以及用户体验。
可选的,所述目标领域知识图谱是医疗领域知识图谱。
上述申请中的一个实施例具有如下优点或有益效果:在医疗场景中,医疗知识图谱在广告搜索中的应用,有利于为用户提供与用户搜索的医疗内容强相关性的广告,避免共有医疗属性导致广告的错误召回。
可选的,在所述确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点之前,还包括:
根据采集的疾病信息,以疾病为实体节点,其他疾病信息为属性节点,构建以实体节点为核心的医疗知识图谱。
上述申请中的一个实施例具有如下优点或有益效果:通过构建以疾病为实体节点,以其他疾病信息为属性节点的医疗知识图谱,有利于由任何疾病信息匹配得到对应的疾病实体,以便基于疾病实体进行相关性的检测。
可选的,所述构建以实体节点为核心的医疗知识图谱,包括:
对所述医疗知识图谱中的节点进行同义关系挖掘;
根据实体节点的名称属性、别名属性以及同义关系中的至少一项,对不同实体节点进行融合,以得到去冗余的医疗知识图谱。
上述申请中的一个实施例具有如下优点或有益效果:在构建医疗知识图谱的过程中,通过对节点进行同义关系挖掘,有利于确定同一节点的多种词语表示。同时,通过对医疗知识图谱中不同实体节点的融合,并将被融合的实体节点以其他属性形式进行保留,在扩大知识图谱的匹配范围的同时,去除了医疗知识图谱的冗余性。
可选的,所述根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性,包括:
根据所述目标实体节点连接的核心属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;其中,所述核心属性节点至少包括名称属性、科室属性和症状属性。
上述申请中的一个实施例具有如下优点或有益效果:在医疗场景中,以核心属性节点作为能够绝对区分疾病实体的节点,进而基于核心属性节点有利于确定历史搜索请求与历史召回广告之间的相关性。
第二方面,本申请实施例提供了一种广告召回装置,包括:
节点匹配模块,用于确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点;
广告相关性确定模块,用于根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;
广告屏蔽模块,用于根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所述的广告召回方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意实施例所述的广告召回方法。
上述申请中的一个实施例具有如下优点或有益效果:以历史搜索请求及其召回的历史召回广告为依据,基于目标领域知识图谱,确定历史搜索请求以及历史召回广告所关联的实体节点,并依据关联的实体节点确定历史搜索请求与历史召回广告之间的相关性,从而将相关性低于阈值的历史召回广告添加至黑名单中,以在相同搜索请求再次发起时屏蔽掉黑名单中的广告。本申请实施例通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的一种广告召回方法的流程图;
图2是根据本申请第二实施例的一种广告召回方法的流程图;
图3是根据本申请第二实施例的医疗知识图谱的局部示例图;
图4是根据本申请第二实施例的基于医疗知识图谱进行广告召回的结构框图;
图5是根据本申请第三实施例的一种广告召回方法的流程图;
图6是根据本申请第四实施例的一种广告召回方法的流程图;
图7是根据本申请第五实施例的一种广告召回装置的结构示意图;
图8是用来实现本申请实施例的广告召回方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
第一实施例
图1是根据本申请第一实施例的一种广告召回方法的流程图,本实施例可适用于基于目标领域知识图谱,周期性的检测用户发起的历史搜索请求与其召回的历史召回广告之间的相关性,确定相关性低于阈值的黑名单广告,从而为在线广告召回时屏蔽掉不相关广告的情况,该方法可由一种广告召回装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于搜索或广告服务器。如图1所示,该方法具体包括如下:
S110、确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与目标实体节点连接的目标属性节点。
在本申请具体实施例中,目标领域可以是搜索相关的任何领域,例如医疗领域等。历史搜索请求是指在过去一段时间内,由网络中大量用户在目标领域中发起的搜索请求。相应的,历史召回广告是指广告平台基于历史搜索请求所对应召回的广告。其中,不同的历史召回广告与同一历史搜索请求之间的相关性不同,相关性越强表示历史召回广告越满足用户的历史搜索需求。
本实施例中,针对于现有技术中仅仅基于关键词精确匹配来召回广告时,无法对所有不相关广告进行有效屏蔽的技术问题,通过构建目标领域知识图谱,将目标领域知识图谱应用于根据搜索请求的广告召回中。其中,目标领域知识图谱至少由实体节点和属性节点构成,并以实体节点为核心,以属性节点为实体节点的具体解释说明,从而可以根据属性节点匹配到关联的实体节点。其中,不同实体节点可以具有相同的属性节点。
此外,目标领域知识图谱中还可以包括自然语言词语节点,自然语言词语节点与目标领域知识图谱中的实体节点或属性节点一一对应,是对应的实体节点或属性节点的不同形式的词语表示,能够最大范围的囊括实体节点或属性节点在自然语言中的多种表示,可以作为目标领域知识图谱的最小匹配粒度,用于触发节点的匹配,以提高知识图谱的匹配力度,避免无法匹配的情况。
示例性的,在医疗领域中,根据从权威医疗机构网站采集的疾病信息,以疾病为实体节点,其他疾病信息为属性节点,确定医疗知识图谱中的节点。对医疗知识图谱中的实体节点和属性节点分别进行同义关系挖掘;根据实体节点的名称属性、别名属性以及同义关系中的至少一项,对不同实体节点进行融合,以得到不仅包含个维度信息且去冗余的医疗知识图谱。其中,还可以以各种疾病或属性的民间词语表示作为对应节点的自然语言词语节点。从而可以基于自然语言词语节点触发匹配,根据相匹配的自然语言词语节点确定属性节点,并根据目标领域知识图谱中节点之间的连接关系,确定属性节点连接的实体节点。
具体的,可以以历史搜索请求和历史召回广告中的标题、正文或图片文字中的至少一项,作为待匹配的目标文本,对目标文本进行分词处理,将得到的每个分词与目标领域知识图谱中的节点进行匹配,确定目标文本中命中目标领域知识图谱且能够体现目标文本核心内容的核心词和候选实体节点。其中,可以根据命中目标领域知识图谱的分词,在目标文本中的置信度,从目标文本的分词结果中选择目标文本的核心词。将核心词与目标领域知识图谱中的自然语言词语节点进行匹配,并将核心词关联的实体节点作为目标文本的候选实体节点。最终可以基于相关性模型,计算核心词与候选实体节点之间的相关度,过滤掉相关度较低的候选实体节点,将相关度最高且满足一定阈值的候选实体节点作为最终的目标实体节点。
S120、根据目标属性节点,确定历史搜索请求与历史召回广告之间的相关性。
在本申请具体实施例中,在确定了历史搜索请求的目标实体节点及其关联的目标属性节点,以及历史召回广告的目标实体节点及其关联的目标属性节点之后,可以以历史搜索请求和历史召回广告的目标属性节点为依据,来确定历史搜索请求与历史召回广告之间的相关性。
示例性的,可以预先基于目标领域中实体的特点,将实体节点的属性节点划分为核心属性节点和非核心属性节点。其中,核心属性节点一般为实体节点的标志属性,对实体有比较好的区分性;非核心属性节点则是一些区分性不是那么明显的属性。从而以目标实体节点连接的核心属性节点为依据,确定历史搜索请求与历史召回广告之间的相关性。
示例性的,在医疗领域当中,以感冒疾病为例的图谱结构如表1所示。其中,核心属性节点至少包括名称属性、科室属性和症状属性。假设确定历史搜索请求的目标实体节点为A,某一历史召回广告的目标实体节点为B。则基于医疗知识图谱,若检测到A和B的科室属性节点相同或者具有上下级的关系,或者若检测到A和B为同一个疾病实体节点或A和B的科室属性节点在科室属性上有交集,或者若检测到一个疾病的科室包含在另一个疾病的科室信息中,则可以确定历史搜索请求与该历史召回广告具有相关性。
表1图谱结构示例表
项目 | 值 | 样例 |
一级类目(category) | 一级科室 | 内科 |
二级类目(category) | 二级科室 | 呼吸内科 |
实体(disease) | 疾病名称的签名 | |
核心属性(core_attr) | 疾病名称 | 感冒 |
核心属性(core_attr) | 症状 | 打喷嚏 |
核心属性(core_attr) | 科室 | 呼吸内科 |
非核心属性(nocore_attr) | 部位 | 鼻 |
非核心属性(nocore_attr) | 用药 | 板蓝根 |
非核心属性(nocore_attr) | 临床检查 | 鼻腔狭窄 |
非核心属性(nocore_attr) | 易感人群 | 儿童 |
非核心属性(nocore_attr) | 传染方式 | 飞沫传播 |
非核心属性(nocore_attr) | 治疗方法 | 药物治疗 |
自然语言词语节点(mention) | 属性的值和同义词 |
S130、根据历史搜索请求与历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
在本申请具体实施例中,黑名单广告是指与历史搜索请求不具有相关性或相关性低于阈值的历史召回广告,用于指示检索***中,当再次根据该历史搜索请求或该历史搜索请求分词结果的重新组合而发起搜索和广告召回时,若召回结果中包含黑名单中的广告,则在线屏蔽该广告,以避免将相关性较低的广告推荐给用户。
具体的,通过周期性地执行S110中的实体链接以及S120中的相关性判别,将基于目标领域知识图谱检测确定的相关性低于阈值的历史召回广告添加至黑名单中。其中,在黑名单中,可以建立该历史搜索请求以及该历史搜索请求分词结果的重新组合,与黑名单广告之间的关联关系。
本实施例的技术方案,以历史搜索请求及其召回的历史召回广告为依据,基于目标领域知识图谱,确定历史搜索请求以及历史召回广告所关联的实体节点,并依据关联的实体节点确定历史搜索请求与历史召回广告之间的相关性,从而将相关性低于阈值的历史召回广告添加至黑名单中,以在相同搜索请求再次发起时屏蔽掉黑名单中的广告。本申请实施例通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
第二实施例
图2是根据本申请第二实施例的一种广告召回方法的流程图,本实施例在上述第一实施例的基础上,进一步对基于目标领域知识图谱来确定历史搜索请求及历史召回广告所关联的实体节点进行解释说明,能够基于文本的分词结果确定的文本核心词来匹配得到实体节点。如图2所示,该方法具体包括如下:
S210、对历史搜索请求以及历史召回广告中的目标文本进行分词处理。
在本申请具体实施例中,可以以历史搜索请求作为目标文本,对历史搜索请求文本进行分词处理。可以以历史召回广告的广告标题,或者历史召回广告中的文本内容,甚至是从广告图片中识别得到的文本内容,作为目标文本,对历史召回广告文本进行分词处理。其中,本实施例不对分词处理方式进行限定,任何能够对文本进行分词处理的方式都可以应用于本实施例中。
示例性的,假设历史搜索请求为“感冒咳嗽吃什么药”,可以以该历史搜索请求的文本为目标文本,对目标文本进行分词处理,得到分词结果“感冒”、“咳嗽”、“吃”、“什么”和“药”。
S220、根据目标文本的分词结果与目标领域知识图谱中节点之间的匹配结果,确定目标文本的核心词和候选实体节点。
在本申请具体实施例中,在对目标文本进行分词处理之后,将目标文本分词结果中的每个分词分别与目标领域知识图谱中的节点进行匹配,在分词结果与目标领域知识图谱中节点之间匹配结果的基础之上,执行后续实体链接和相关性判别。其中,为了提高目标领域知识图谱的匹配能力,以自然语言词语节点为最小匹配粒度,用于触发节点的匹配。
示例性的,以医疗知识图谱为例,图3为医疗知识图谱的局部示例图。如图3所示,以disease(疾病)为实体节点,以name(名称)、咳嗽、症状、用药、临床检查、治疗方法、易感人群和传播方式为属性节点,以mention标签为自然语言词语节点。例如,基于疾病名称进行匹配时,无论目标文本中的分词是感冒、伤风还是卡他性鼻炎等多种词语表示,都能够基于自然语言词语节点匹配到对应的名称属性节点感冒,以及属性节点连接的疾病实体节点。
本实施例中,核心词是指最能体现目标文本核心内容的分词。可选的,根据命中目标领域知识图谱的分词,在目标文本中的置信度,从目标文本的分词结果中选择目标文本的核心词。其中,本实施例不对置信度的确定方式进行限定,任何能够确定置信度的方式都可以应用于本实施例中。
示例性的,根据目标文本的分词结果与目标领域知识图谱中节点之间的匹配结果,针对于命中目标领域知识图谱的分词,基于wordrank技术,计算命中目标领域知识图谱的分词在目标文本中的置信度,根据置信度对这些分词进行排序,将置信度最高的分词作为该目标文本的核心词。例如,在上述示例中,在分词结果中,分词“感冒”、“咳嗽”和“药”命中了医疗知识图谱。从而基于wordrank技术计算分词“感冒”、“咳嗽”和“药”在目标文本中的置信度,得到分词“感冒”在该历史搜索请求语境下的置信度最高,因此将分词“感冒”作为该历史搜索请求的核心词。
本实施例中,候选实体节点是指,在目标文本所命中目标领域知识图谱的分词所关联的全部实体节点中,相对来说比较能够体现目标文本核心内容的实体节点,可以将核心词在目标领域知识图谱中匹配的实体节点作为目标文本的候选实体节点。可选的,将核心词与目标领域知识图谱中的自然语言词语节点进行匹配;根据自然语言词语节点的匹配结果,以及目标领域知识图谱中实体节点与属性节点之间的连接关系,将核心词关联的实体节点作为目标文本的候选实体节点。其中,根据目标领域知识图谱的匹配,核心词所关联的实体节点可以不止一个。例如,不同疾病所体现的个别症状可能相同,因此以该症状作为核心词进行匹配时,可以匹配得到不同的疾病实体节点。
本实施例中,为了提高实体链接效率,避免对不涉及目标领域知识图谱的历史召回广告的无效处理,可以在确定历史召回广告的目标文本的分词结果之后,基于自然语言词语节点进行匹配时,过滤掉所有分词都未命中目标领域知识图谱的目标文本所属的历史召回广告。
S230、根据核心词,从候选实体节点中选择目标实体节点。
在本申请具体实施例中,目标实体节点是指最能体现目标文本核心内容的实体节点。可以基于相关性模型,计算核心词与候选实体节点之间的相关度,过滤掉相关度较低的候选实体节点,将相关度最高且满足一定阈值的候选实体节点作为最终的目标实体节点。
示例性的,在上述示例中,在命中医疗知识图谱的分词中,假设分词“感冒”关联的实体节点包括A、B和C,分词“咳嗽”关联的实体节点包括D和E,分词“药”关联的实体节点包括F。根据各命中分词在目标文本中的置信度,确定分词“感冒”为核心词,并将实体节点A、B和C作为候选实体节点。基于相关性模型,计算核心词与候选实体节点之间的相关度,将A、B和C中相关度最高且满足一定阈值的候选实体节点作为最终的目标实体节点。
S240、根据目标实体节点连接的目标属性节点,确定历史搜索请求与历史召回广告之间的相关性。
S250、根据历史搜索请求与历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
示例性的,以医疗领域为例,图4为基于医疗知识图谱进行广告召回的结构框图。如图4所示,以权威医疗网站、凤巢医疗物料和DMP(Data Management Platform,数据管理平台)的疾病信息作为疾病数据源。在医疗知识图谱平台中,首先基于疾病数据源,通过实体建设、同义关系挖掘、实体融合以及自然语言词语节点建设来构建医疗知识图谱,形成疾病知识库(KG-Base)。从而在周期性地对历史召回广告进行检测时,医疗知识图谱平台通过文本匹配过滤、实体识别、wordrank以及相关性过滤来为目标文本进行实体链接。最终基于历史搜索请求和历史召回广告所链接的疾病实体节点进行匹配,确定历史搜索请求与历史召回广告之间的相关性,以挖掘黑名单广告,用于广告召回时屏蔽掉所召回的黑名单广告。
本实施例的技术方案,通过对历史搜索请求及其召回的历史召回广告的目标文本进行分词处理,基于目标领域知识图谱进行节点匹配,确定历史搜索请求以及历史召回广告的核心词和候选实体节点,并根据核心词从候选实体节点中选择目标实体节点,根据目标实体节点连接的目标属性节点确定历史搜索请求与历史召回广告之间的相关性,从而将相关性低于阈值的历史召回广告添加至黑名单中,以在相同搜索请求再次发起时屏蔽掉黑名单中的广告。本申请实施例通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
第三实施例
图5是根据本申请第三实施例的一种广告召回方法的流程图,本实施例在上述第一实施例的基础上,进一步对医疗领域的历史搜索请求及历史召回广告之间相关性检测进行解释说明,能够基于疾病信息构建医疗知识图谱,并基于医疗知识图谱进行相关性检测。如图5所示,该方法具体包括如下:
S510、根据采集的疾病信息,以疾病为实体节点,其他疾病信息为属性节点,构建以实体节点为核心的医疗知识图谱。
在本申请具体实施例中,在医疗领域中,疾病信息是预先从权威的医疗机构网站中所采集或抓取的疾病相关的信息,例如病例、论文等。可以通过关键字识别等方式,识别疾病信息中的疾病和属性等词语,确定医疗知识图谱中的节点。并根据医疗领域专业知识,建立节点之间的边,确定节点之间的关联关系。
可选的,对医疗知识图谱中的节点进行同义关系挖掘;根据实体节点的名称属性、别名属性以及同义关系中的至少一项,对不同实体节点进行融合,以得到去冗余的医疗知识图谱。
本实施例中,鉴于疾病信息的来源相对权威,疾病信息的表示相对专业,且同一词语的专业表示可能包含不止一种。因此,有必要挖掘医疗知识图谱中具有同义关系的节点。示例性的,对于属性节点,可以根据预先确定同义关系属性词的同义词表,对图谱中的属性节点进行属性名称的同义关系挖掘,以确定具有同义关系的属性节点,并扩充属性节点的多种专业表达形式。对于实体节点,可以根据疾病名称的文本相似度,和/或两个实体关联共同属性的数量,对图谱中的实体进行同义关系挖掘。例如,鼻炎和慢性鼻炎,虽然专业上具有一定的差异,但是对于用户几乎无较大差异。
本实施例中,同义关系的挖掘实现了对医疗知识图谱专业知识充分扩充,而为了提高医疗知识图谱的精简性以及应用效率,还需要对实体节点进行融合。具体的,将满足如下任意关系的不同实体及节点进行融合:实体名称相同;实体节点的别名属性中具有相同的别名;具有同义关系的两个实体。其中,在实体节点融合时,以属性标签较多的实体节点作为融合后的实体节点,保留所融合实体节点关联属性的并集,且将被融合掉的实体节点以别名属性的形式保留。
此外,基于医疗专业知识进行医疗知识图谱构建后,可以根据民间表示提取各节点的自然语言表示形式,作为各节点的自然语言词语节点。进而降低了用户输入医疗搜索请求的专业性要求,用户在其已知的任何一种词语表示都可以发起搜索,且根据任何一种词语表示都可以进行医疗知识图谱的匹配。
S520、对历史搜索请求以及历史召回广告中的目标文本进行分词处理。
S530、根据命中医疗知识图谱的分词,在目标文本中的置信度,从目标文本的分词结果中选择目标文本的核心词。
S540、将核心词与医疗知识图谱中的自然语言词语节点进行匹配;其中,自然语言词语节点为医疗知识图谱中节点的触发匹配词语表示。
S550、根据自然语言词语节点的匹配结果,以及医疗知识图谱中实体节点与属性节点之间的连接关系,将核心词关联的实体节点作为目标文本的候选实体节点。
S560、根据核心词,从候选实体节点中选择目标实体节点。
S570、根据目标实体节点连接的核心属性节点,确定历史搜索请求与历史召回广告之间的相关性;其中,核心属性节点至少包括名称属性、科室属性和症状属性。
S580、根据历史搜索请求与历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
本实施例的技术方案,通过构建以疾病为实体节点,其他疾病信息为属性节点的医疗知识图谱,并将医疗知识图谱应用于搜索场景的广告召回中,以检测历史搜索日志中不具有医疗相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于医疗信息的获取需求。
第四实施例
图6是根据本申请第四实施例的一种广告召回方法的流程图,本实施例在上述第一实施例的基础上,进一步基于黑名单广告的在线广告召回过程进行解释说明,能够基于黑名单广告屏蔽掉相关性低于阈值的广告。如图6所示,该方法具体包括如下:
S610、确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与目标实体节点连接的目标属性节点。
S620、根据目标属性节点,确定历史搜索请求与历史召回广告之间的相关性。
S630、根据历史搜索请求与历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
在本申请具体实施例中,可以周期性地对历史搜索请求及其召回的历史召回广告进行相关性判别,以确定黑名单广告。示例性的,每天晚上零点,以当天所有用户的全部历史搜索请求以及召回的历史召回广告的广告标题作为目标文本,执行实体链接和相关性判别。将不具有相关性或相关性降低的历史搜索请求及其关联的历史召回广告,添加至黑名单中。例如,将以感冒为主题的历史搜索请求与其召回的以整型为主题的历史召回广告,以及两者之间的关联关系添加至黑名单中。进而当任意用户发起对于感冒的搜索时,若召回广告中包括广告整型,即命中黑名单,则过滤掉所召回的整型广告。
S640、根据接收到的当前搜索请求,确定候选召回广告。
在本申请具体实施例中,当前搜索请求是指在线实时接收到的用户发起的搜索请求。相应的,基于现有技术中任何的广告召回方式,将根据当前搜索请求所召回的所有广告作为待推荐给用户的候选召回广告。
S650、对当前搜索请求进行分词处理,并根据分词结果进行重构,得到候选搜索语料。
在本申请具体实施例中,由于相同语义的文本的表示方式多种多样,且不同用户的表述习惯不同,因此对当前搜索请求进行分词处理,并基于分词结果进行重构,得到表达当前搜索请求的多种表述形式,构成候选搜索语料。
S660、若检测到当前搜索请求或候选搜索语料,与历史搜索请求相同,则将候选召回广告与黑名单广告进行匹配,以屏蔽命中黑名单广告的候选召回广告。
在本申请具体实施例中,将当前搜索请求以及候选搜索语料与历史搜索请求进行匹配,检测历史上是否发起过相同或相近的搜索请求。若检测到当前搜索请求或候选搜索语料与历史搜索请求相同,则将候选召回广告与黑名单广告进行匹配,在黑名单广告的指导下,屏蔽掉命中黑名单广告的候选召回广告。进而弥补了现有技术中无法对所有不相关广告进行有效屏蔽的缺陷。
本实施例的技术方案,通过黑名单广告的确定,以在在线召回广告时,将当前搜索请求及其变形形式与历史搜索请求进行匹配,最大可能的屏蔽掉周期性检测时的黑名单广告,避免不相关或相关度较低的广告推荐给用户,提高广告召回准确率以及用户体验。
第五实施例
图7是根据本申请第五实施例的一种广告召回装置的结构示意图,本实施例可适用于基于目标领域知识图谱,周期性的检测用户发起的历史搜索请求与其召回的历史召回广告之间的相关性,确定相关性低于阈值的黑名单广告,从而为在线广告召回时屏蔽掉不相关广告的情况,该装置可实现本申请任意实施例所述的广告召回方法。该装置700具体包括如下:
节点匹配模块710,用于确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点;
广告相关性确定模块720,用于根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;
广告屏蔽模块730,用于根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告。
可选的,所述节点匹配模块710具体用于:
对所述历史搜索请求以及所述历史召回广告中的目标文本进行分词处理;
根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的核心词和候选实体节点;
根据所述核心词,从所述候选实体节点中选择目标实体节点。
可选的,所述节点匹配模块710具体用于:
根据命中所述目标领域知识图谱的分词,在所述目标文本中的置信度,从所述目标文本的分词结果中选择所述目标文本的核心词。
可选的,所述节点匹配模块710具体用于:
将所述核心词与所述目标领域知识图谱中的自然语言词语节点进行匹配;其中,所述自然语言词语节点为所述目标领域知识图谱中节点的触发匹配词语表示;
根据所述自然语言词语节点的匹配结果,以及所述目标领域知识图谱中实体节点与属性节点之间的连接关系,将所述核心词关联的实体节点作为所述目标文本的候选实体节点。
进一步的,所述装置700还包括广告在线召回模块740,具体用于:
在所述根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告之后,根据接收到的当前搜索请求,确定候选召回广告;
对所述当前搜索请求进行分词处理,并根据分词结果进行重构,得到候选搜索语料;
若检测到所述当前搜索请求或所述候选搜索语料,与所述历史搜索请求相同,则将所述候选召回广告与所述黑名单广告进行匹配,以屏蔽命中所述黑名单广告的候选召回广告。
可选的,所述目标领域知识图谱是医疗领域知识图谱。
进一步的,所述装置700还包括图谱构建模块750,具体用于:
在所述确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点之前,根据采集的疾病信息,以疾病为实体节点,其他疾病信息为属性节点,构建以实体节点为核心的医疗知识图谱。
可选的,所述图谱构建模块750具体用于:
对所述医疗知识图谱中的节点进行同义关系挖掘;
根据实体节点的名称属性、别名属性以及同义关系中的至少一项,对不同实体节点进行融合,以得到去冗余的医疗知识图谱。
可选的,所述广告相关性确定模块720具体用于:
根据所述目标实体节点连接的核心属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;其中,所述核心属性节点至少包括名称属性、科室属性和症状属性。
本实施例的技术方案,通过各个功能模块之间的相互配合,实现了目标领域知识图谱的构建、实体的链接、历史搜索请求与历史召回广告之间相关性的判别、黑名单的确定、广告的实时在线召回以及黑名单广告的屏蔽等功能。本申请实施例通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
第六实施例
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的广告召回方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置,诸如,耦合至接口的显示设备,其上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作,例如,作为服务器阵列、一组刀片式服务器、或者多处理器***。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的广告召回方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的广告召回方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的广告召回方法对应的程序指令/模块,例如,附图7所示的节点匹配模块710、广告相关性确定模块720、广告屏蔽模块730、广告在线召回模块740和图谱构建模块750。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的广告召回方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据广告召回方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至广告召回方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
广告召回方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与广告召回方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置和触觉反馈装置等,其中,辅助照明装置例如发光二极管(LightEmitting Diode,LED);触觉反馈装置例如,振动电机等。该显示设备可以包括但不限于,液晶显示器(Liquid Crystal Display,LCD)、LED显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用集成电路(Application Specific Integrated Circuit,ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序,也称作程序、软件、软件应用、或者代码,包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置,例如,磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device,PLD),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置,例如,阴极射线管(Cathode Ray Tube,CRT)或者LCD监视器;以及键盘和指向装置,例如,鼠标或者轨迹球,用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈,例如,视觉反馈、听觉反馈、或者触觉反馈;并且可以用任何形式,包括声输入、语音输入或者、触觉输入,来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***,例如,数据服务器,或者实施在包括中间件部件的计算***,例如,应用服务器、或者实施在包括前端部件的计算***,例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互,或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信,例如,通信网络,来将***的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过将目标领域知识图谱应用于搜索场景的广告召回中,以检测历史搜索中不具有目标领域相关性的搜索请求及其召回的广告,从而为后续的广告召回进行有效指导,以将不相关的广告完全屏蔽,提高广告召回的准确率,满足用户对于目标领域信息的获取需求。
另外,通过对历史搜索请求和历史召回广告的文本进行分词,并与目标领域知识图谱进行匹配,以确定文本核心词对应的目标实体节点,有利于通过目标领域知识图谱的映射得到文本的核心实体内容,为历史搜索请求和历史召回广告之间相关性的确定提供依据。
另外,以命中目标领域知识图谱的分词结果为基础,通过分词在文本环境中的置信度,有利于选择得到最能体现文本核心内容的分词。
另外,通过目标领域知识图谱中的自然语言词语节点进行知识图谱的匹配触发,以自然语言词语节点为最小匹配粒度,基于节点之间连接关系,由下至上匹配得到根节点的实体节点,能够最大范围的囊括实体节点或属性节点在自然语言中的多种表示,进而提高知识图谱的匹配力度,避免无法匹配的情况。
另外,通过黑名单广告的确定,以在在线召回广告时,将当前搜索请求及其变形形式与历史搜索请求进行匹配,最大可能的屏蔽掉周期性检测时的黑名单广告,避免不相关或相关度较低的广告推荐给用户,提高广告召回准确率以及用户体验。
另外,在医疗场景中,医疗知识图谱在广告搜索中的应用,有利于为用户提供与用户搜索的医疗内容强相关性的广告,避免共有医疗属性导致广告的错误召回。
另外,通过构建以疾病为实体节点,以其他疾病信息为属性节点的医疗知识图谱,有利于由任何疾病信息匹配得到对应的疾病实体,以便基于疾病实体进行相关性的检测。
另外,在构建医疗知识图谱的过程中,通过对节点进行同义关系挖掘,有利于确定同一节点的多种词语表示。同时,通过对医疗知识图谱中不同实体节点的融合,并将被融合的实体节点以其他属性形式进行保留,在扩大知识图谱的匹配范围的同时,去除了医疗知识图谱的冗余性。
另外,在医疗场景中,以核心属性节点作为能够绝对区分疾病实体的节点,进而基于核心属性节点有利于确定历史搜索请求与历史召回广告之间的相关性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (11)
1.一种广告召回方法,其特征在于,包括:
确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点;
根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;
根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告;
其中,所述确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,包括:
对所述历史搜索请求以及所述历史召回广告中的目标文本进行分词处理;
根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的核心词和候选实体节点;
根据所述核心词,从所述候选实体节点中选择目标实体节点;
其中,所述核心词是最能体现目标文本核心内容的分词;所述候选实体节点是在目标文本所命中目标领域知识图谱的分词所关联的全部实体节点中,比较能够体现目标文本核心内容的实体节点;所述目标实体节点是最能体现目标文本核心内容的实体节点。
2.根据权利要求1所述的方法,其特征在于,根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的核心词,包括:
根据命中所述目标领域知识图谱的分词,在所述目标文本中的置信度,从所述目标文本的分词结果中选择所述目标文本的核心词。
3.根据权利要求1所述的方法,其特征在于,根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的候选实体节点,包括:
将所述核心词与所述目标领域知识图谱中的自然语言词语节点进行匹配;其中,所述自然语言词语节点为所述目标领域知识图谱中节点的触发匹配词语表示;
根据所述自然语言词语节点的匹配结果,以及所述目标领域知识图谱中实体节点与属性节点之间的连接关系,将所述核心词关联的实体节点作为所述目标文本的候选实体节点。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告之后,还包括:
根据接收到的当前搜索请求,确定候选召回广告;
对所述当前搜索请求进行分词处理,并根据分词结果进行重构,得到候选搜索语料;
若检测到所述当前搜索请求或所述候选搜索语料,与所述历史搜索请求相同,则将所述候选召回广告与所述黑名单广告进行匹配,以屏蔽命中所述黑名单广告的候选召回广告。
5.根据权利要求1所述的方法,其特征在于,所述目标领域知识图谱是医疗领域知识图谱。
6.根据权利要求5所述的方法,其特征在于,在所述确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点之前,还包括:
根据采集的疾病信息,以疾病为实体节点,其他疾病信息为属性节点,构建以实体节点为核心的医疗知识图谱。
7.根据权利要求6所述的方法,其特征在于,所述构建以实体节点为核心的医疗知识图谱,包括:
对所述医疗知识图谱中的节点进行同义关系挖掘;
根据实体节点的名称属性、别名属性以及同义关系中的至少一项,对不同实体节点进行融合,以得到去冗余的医疗知识图谱。
8.根据权利要求5所述的方法,其特征在于,所述根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性,包括:
根据所述目标实体节点连接的核心属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;其中,所述核心属性节点至少包括名称属性、科室属性和症状属性。
9.一种广告召回装置,其特征在于,包括:
节点匹配模块,用于确定历史搜索请求和历史召回广告在目标领域知识图谱中关联的目标实体节点,以及与所述目标实体节点连接的目标属性节点;
广告相关性确定模块,用于根据所述目标属性节点,确定所述历史搜索请求与所述历史召回广告之间的相关性;
广告屏蔽模块,用于根据所述历史搜索请求与所述历史召回广告之间的相关性,确定黑名单广告,用于广告召回时屏蔽掉相关性低于阈值的广告;
其中,所述节点匹配模块,具体用于对所述历史搜索请求以及所述历史召回广告中的目标文本进行分词处理;
根据所述目标文本的分词结果与所述目标领域知识图谱中节点之间的匹配结果,确定所述目标文本的核心词和候选实体节点;
根据所述核心词,从所述候选实体节点中选择目标实体节点;其中,所述核心词是最能体现目标文本核心内容的分词;所述候选实体节点是在目标文本所命中目标领域知识图谱的分词所关联的全部实体节点中,比较能够体现目标文本核心内容的实体节点;所述目标实体节点是最能体现目标文本核心内容的实体节点。
10. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的广告召回方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的广告召回方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010088191.7A CN113254756B (zh) | 2020-02-12 | 2020-02-12 | 广告召回方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010088191.7A CN113254756B (zh) | 2020-02-12 | 2020-02-12 | 广告召回方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254756A CN113254756A (zh) | 2021-08-13 |
CN113254756B true CN113254756B (zh) | 2024-03-26 |
Family
ID=77219692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010088191.7A Active CN113254756B (zh) | 2020-02-12 | 2020-02-12 | 广告召回方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254756B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168756B (zh) * | 2022-01-29 | 2022-05-13 | 浙江口碑网络技术有限公司 | 搜索意图的查询理解方法和装置,存储介质和电子设备 |
CN114881006A (zh) * | 2022-03-30 | 2022-08-09 | 医渡云(北京)技术有限公司 | 医疗文本纠错方法及装置、存储介质、电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622371A (zh) * | 2011-01-28 | 2012-08-01 | 成都致远诺亚舟教育科技有限公司 | 一种历史关联库***及其实现方法和电子学习设备 |
CN103207881A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 查询方法和装置 |
WO2015047963A1 (en) * | 2013-09-27 | 2015-04-02 | Microsoft Corporation | Query expansion, filtering and ranking for improved semantic search results utilizing knowledge graphs |
CN106682926A (zh) * | 2015-11-06 | 2017-05-17 | 北京奇虎科技有限公司 | 搜索广告的投放方法及装置 |
CN109101493A (zh) * | 2018-08-01 | 2018-12-28 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN109716334A (zh) * | 2016-08-16 | 2019-05-03 | 电子湾有限公司 | 选择下一用户提示类型 |
CN110047567A (zh) * | 2019-04-18 | 2019-07-23 | 中国石油大学(华东) | 一种基于病历关键信息提取技术的胆结石诊断模型 |
CN110390054A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 兴趣点召回方法、装置、服务器和存储介质 |
CN110609887A (zh) * | 2019-09-18 | 2019-12-24 | 中科赛思联科(苏州)网络科技有限公司 | 基于知识图谱的科技资源大数据查询推荐***及方法 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010120699A2 (en) * | 2009-04-16 | 2010-10-21 | Evri Inc. | Enhanced advertisement targeting |
US10409876B2 (en) * | 2016-05-26 | 2019-09-10 | Microsoft Technology Licensing, Llc. | Intelligent capture, storage, and retrieval of information for task completion |
US20180052884A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Knowledge graph construction for intelligent online personal assistant |
-
2020
- 2020-02-12 CN CN202010088191.7A patent/CN113254756B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622371A (zh) * | 2011-01-28 | 2012-08-01 | 成都致远诺亚舟教育科技有限公司 | 一种历史关联库***及其实现方法和电子学习设备 |
CN103207881A (zh) * | 2012-01-17 | 2013-07-17 | 阿里巴巴集团控股有限公司 | 查询方法和装置 |
WO2015047963A1 (en) * | 2013-09-27 | 2015-04-02 | Microsoft Corporation | Query expansion, filtering and ranking for improved semantic search results utilizing knowledge graphs |
CN106682926A (zh) * | 2015-11-06 | 2017-05-17 | 北京奇虎科技有限公司 | 搜索广告的投放方法及装置 |
CN109716334A (zh) * | 2016-08-16 | 2019-05-03 | 电子湾有限公司 | 选择下一用户提示类型 |
CN109101493A (zh) * | 2018-08-01 | 2018-12-28 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN110047567A (zh) * | 2019-04-18 | 2019-07-23 | 中国石油大学(华东) | 一种基于病历关键信息提取技术的胆结石诊断模型 |
CN110390054A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 兴趣点召回方法、装置、服务器和存储介质 |
CN110609887A (zh) * | 2019-09-18 | 2019-12-24 | 中科赛思联科(苏州)网络科技有限公司 | 基于知识图谱的科技资源大数据查询推荐***及方法 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113254756A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US9619513B2 (en) | Changed answer notification in a question and answer system | |
WO2019118007A1 (en) | Domain-specific natural language understanding of customer intent in self-help | |
US11487744B2 (en) | Domain name generation and searching using unigram queries | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
US9881059B2 (en) | Systems and methods for suggesting headlines | |
US9703860B2 (en) | Returning related previously answered questions based on question affinity | |
CN112528660B (zh) | 处理文本的方法、装置、设备、存储介质和程序产品 | |
Nie et al. | A Joint Local-Global Approach for Medical Terminology Assignment. | |
CN111460095B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN112530576A (zh) | 一种线上医患匹配方法、装置、电子设备及存储介质 | |
CN111274397B (zh) | 建立实体关系检测模型的方法以及装置 | |
CN112052308A (zh) | 一种摘要文本提取方法、装置、存储介质和电子设备 | |
CN113254756B (zh) | 广告召回方法、装置、设备和存储介质 | |
CN106095912B (zh) | 用于生成扩展查询词的方法和装置 | |
US11436241B2 (en) | Entity resolution based on character string frequency analysis | |
CN112115697B (zh) | 用于确定目标文本的方法、装置、服务器以及存储介质 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Min et al. | Joint passage ranking for diverse multi-answer retrieval | |
CN112507091A (zh) | 检索信息的方法、装置、设备以及存储介质 | |
CN111984774B (zh) | 搜索方法、装置、设备以及存储介质 | |
Han et al. | Linking fine-grained locations in user comments | |
CN111428478B (zh) | 一种词条同义判别的寻证方法、装置、设备和存储介质 | |
CN112509692B (zh) | 用于匹配医学表达的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |