CN112800315B - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112800315B
CN112800315B CN202110130043.1A CN202110130043A CN112800315B CN 112800315 B CN112800315 B CN 112800315B CN 202110130043 A CN202110130043 A CN 202110130043A CN 112800315 B CN112800315 B CN 112800315B
Authority
CN
China
Prior art keywords
word
abnormal
word pair
processed
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110130043.1A
Other languages
English (en)
Other versions
CN112800315A (zh
Inventor
连义江
杨新涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110130043.1A priority Critical patent/CN112800315B/zh
Publication of CN112800315A publication Critical patent/CN112800315A/zh
Application granted granted Critical
Publication of CN112800315B publication Critical patent/CN112800315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质,涉及计算机技术领域,进一步涉及深度学习和智能搜索等人工智能技术。具体实现方案为:根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词;根据识别结果,更新异常词语列表,所述异常词语列表用于数据搜索,极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率。

Description

数据处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及深度学习和智能搜索等人工智能技术领域。
背景技术
在数据搜索领域中可以包括三种角色:请求方、数据提供方和搜索引擎。其中,请求方向搜索引擎提交搜索请求,数据提供方向搜索引擎提供参考关键词和内容(比如广告创意),搜索引擎设计了搜索请求和参考关键词之间的匹配机制。当请求方提交的搜索请求和数据提供方提供的参考关键词匹配的时候,数据提供方的内容(比如广告创意)会展示在请求方的搜索结果页面中,这个过程中搜索请求和参考关键词之间的匹配问题至关重要。然而,搜索引擎通常会在搜索请求和参考关键词的匹配阶段不可避免地出现一些异常匹配情况,严重影响搜索结果的准确性。
发明内容
本申请提供了一种数据处理方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种数据处理方法、该方法包括:
根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词;
根据识别结果,更新异常词语列表,所述异常词语列表用于数据搜索。
根据本申请的另一方面,提供了一种数据处理装置,该装置包括:
识别模块,用于根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词;
列表更新模块,用于根据识别结果,更新异常词语列表,所述异常词语列表用于数据搜索。
根据本申请的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的数据处理方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本申请任一实施例所述的数据处理方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请任一实施例所述的数据处理方法。
根据本申请的技术,极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A是根据本申请实施例提供的一种数据处理方法的流程图;
图1B是根据本申请实施例提供的一种数据处理方法的原理图;
图2A是根据本申请实施例提供的另一种数据处理方法的流程图;
图2B是根据本申请实施例提供的一种同义度量模型的结构示意图;
图3是根据本申请实施例提供的又一种数据处理方法的流程图;
图4是根据本申请实施例提供的一种数据处理装置的结构示意图;
图5是用来实现本申请实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1A是根据本申请实施例提供的一种数据处理方法的流程图;图1B 是根据本申请实施例提供的一种数据处理方法的原理图。本申请实施例适用于在数据搜索领域,如何对数据进行处理,以降低异常匹配情况对搜索结果的影响的情况。本实施例应用于搜索引擎,该实施例可以由数据处理装置来执行,该装置可以采用软件和/或硬件来实现,该装置可集成于配置有搜索引擎功能的电子设备中。结合图1A和1B所示,该数据处理方法包括:
S101,根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词。
本实施例中,对于请求方提交的任一搜索请求,搜索引擎基于匹配机制能够从数据提供方提供的参考关键词中匹配出至少一个参考关键词;对于所匹配出的每一参考关键词,将该参考关键词与该搜索请求作为一个词语对;进一步的,对于任一词语对,若该词语对中搜索请求和参考关键词之间不相关或相关程度小于设定阈值,则词语对可以作为异常词语对。
种子库又可称为异常种子库,专门用于存储异常种子词语对,所谓异常种子词语对根据数据提供方反馈的异常词语对确定;可选的,可以将数据提供方反馈的异常词语对全部作为异常种子词语对,添加到种子库中;为了提高搜索结果的准确度,本实施例优选将数据提供方反馈的异常词语对中相关性较低的异常词语对作为异常种子词语对,添加到种子库中。由于数据提供方可实时向搜索引擎反馈异常词语对,进而在不影响搜索引擎的搜索功能的情况下,为了提高搜索结果的准确度,进一步的,本实施例可以在离线状态下,定期根据一段时间内数据提供方反馈的异常词语对,更新种子库。
搜索展示日志为搜索引擎根据请求方提交的搜索请求生成搜索结果过程中所产生的日志;具体的,历史搜索展示日志可以为当前时间之前搜索引擎所积累的所有搜索展示日志,还可以是一段时间内搜索引擎所积累的搜索展示日志,或者还可以是搜索引擎历史所积累的一定数量的搜索展示日志等。可选的,对于任一条历史搜索展示日志而言,该历史搜索展示日志中可以包括一个搜索请求、一个参考关键词和该参考关键词对应的内容(比如广告创意)等。待处理词语对为历史搜索展示日志中所记录的待识别是否为异常词语对的词语对。
可选的,本实施例可以按照设定条件进行识别操作,设定条件例如可以是设定周期,还可以是历史搜索展示日志的数量达到设定数量等。进而在监测到当前状态满足设定条件(比如当前时间满足设定周期)的情况下,获取历史搜索展示日志,从历史搜索展示日志中提取待处理词语对,并根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别。此时,历史搜索展示日志具体为上次识别操作至本次识别操作这段时间内搜索引擎所积累的日志。
进一步的,本实施例可以基于预先训练的同义度量模型,根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别。具体的,对于每一待处理词语对,可以将该待处理词语对和种子库中的异常种子词语对输入至同义度量模型中,同义度量模型输出该待处理词语对与每一异常种子词语对之间的相关程度,进而可以根据相关程度确定该待处理词语对是否为异常词语对。
示例性的,本实施例可以在离线状态下,根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别,这样可以保证搜索引擎的在线搜索功能不被影响,实现了***资源的合理利用。
进一步的,为了提高识别效率,对历史搜索展示日志中的待处理词语对进行识别之前还可以对历史搜索展示日志中的待处理词语对进行去重处理。也就是说,如果一个待处理词语对出现了至少两次,只保留一个。
S102,根据识别结果,更新异常词语列表,异常词语列表用于数据搜索。
本实施例中,异常词语列表专门用于存储异常词语对,可以被应用在数据搜索中,作为对搜索结果进行筛选的依据;进一步的,异常词语列表中可以包括数据提供方反馈的异常词语对,也可以不包括数据提供方反馈的异常词语对。
识别结果中可以包括每一待处理词语对是否为异常词语对的结果,或者,识别结果中可以只包括待处理词语对为异常词语对的待处理词语对等。
可选的,本实施例可以根据识别结果,将待处理词语对为异常词语对的待处理词语对添加至异常词语列表中,以更新异常词语列表。
需要说明的是,搜索引擎通常会在搜索请求和参考关键词的匹配阶段不可避免地出现一些异常匹配情况,也就是说存在异常词语对,严重影响搜索结果的准确性,因此在搜索过程中需要对异常词语对进行屏蔽。现有技术通常根据数据提供方反馈的异常词语对优化搜索引擎以此来避免类似的问题再次出现。由于言语表达的多样性,仅根据数据提供方反馈的异常词语对(即有限的异常词语对),或依赖人工干预构建异常词语列表,无法实现对同一类型的异常词语对进行屏蔽的效果。例如,数据提供方反馈的异常词语对为<晕厥的病因,癫痫是什么病>,其中搜索请求为“晕厥的病因”,参考关键词为“癫痫是什么病”,现有技术基于异常词语对< 晕厥的病因,癫痫是什么病>,无法对<晕厥怎么回事,癫痫有哪些原因> 和/或<晕厥成因,癫痫是什么导致的>等进行屏蔽。
值得注意的是,本实施例在异常种子词语对相对较少的情况下,通过定期对历史搜索展示日志中的待处理词语对进行识别,无需依赖人工,即可得到一个丰富的异常词语列表。例如,一个异常种子词语对为<晕厥的病因,癫痫是什么病>,本实施例通过对历史搜索展示日志中的待处理词语对进行识别,能够将<晕厥怎么回事,癫痫有哪些原因>、<晕厥成因,癫痫是什么导致的>、<晕厥的病因,癫痫的起因>、<晕厥的原因,怎么会癫>、以及<晕厥怎么回事,癫痫的成因>等待处理词语对识别为异常词语对,添加至异常词语列表中。本实施例为获取丰富的异常词语列表提供了一种新思路,同时为实现基于数据提供方提供的一个异常词语对识别一类型的异常词语对奠定了基础。此外,异常词语列表可随着历史搜索展示日志的变化而动态变化,进而扩宽了数据搜索过程中的识别范围。
本申请实施例的技术方案,通过引入种子库,以种子库中的异常种子词语对为基准,对历史搜索展示日志中的待处理词语对进行识别,并基于识别结果更新异常词语库。相比于现有技术而言,本实施例无需依赖人工,即可得到一个丰富的异常词语列表,为获取丰富的异常词语列表提供了一种新思路;此外,将丰富的异常词语列表用于数据搜索,可实现基于数据提供方提供的一个异常词语对识别一类型的异常词语对的效果,极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率。
可选的,作为本申请实施例的一种可选方式,在更新异常词语列表之后,可基于更新后的异常词语列表进行数据搜索,例如可以是根据请求方提交的目标搜索请求,从数据提供方提供的参考关键词中选择候选关键词;根据更新后的异常词语列表,对目标搜索请求和候选关键词进行识别。
具体的,请求方在具有搜索需求的情况下,可以向搜索引擎提交目标搜索请求;搜索引擎可以基于匹配机制,根据目标搜索请求,从数据提供方提供的参考关键词中选择出至少一个候选关键词(可选的,本实施例优选为多个候选关键词),将每一候选关键词和目标搜索请求作为一个候选词语对,如果任一候选词语对命中更新后的异常词语列表,则对该候选词语对进行屏蔽,或者任一候选词语对与更新后的异常词语列表中任一异常词语对之间的相似度大于设定的相似度阈值,则对该候选词语对进行屏蔽;进而搜索引擎只向请求方展示未屏蔽的候选词语对对应的内容(比如广告创意),极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率,同时提升了用户的体验。
图2A是根据本申请实施例提供的另一种数据处理方法的流程图。本申请实施例在上述实施例的基础上,进一步对如何根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别进行解释说明。如图2A所示,该数据处理方法包括:
S201,确定历史搜索展示日志中待处理词语对的核心词。
本实施例中,对于任一词语对而言,该词语对的核心词能够表征该词语对的中心思想;进一步的,该词语对的核心词由该词语对中搜索请求的核心词和该词语对中参考关键词的核心词构成。例如,一个词语对为<DNA 检测,DNA怀孕鉴定亲子怎么做>,该词语对的核心词为(DNA+检测)+ (DNA+怀孕+鉴定+亲子)。
可选的,对于历史搜索展示日志中的每一待处理词语对,可以采用核心词序列标注工具来识别该待处理词语对的核心词,或者还可以采用其他方式,比如预先构建的核心词识别模型来识别该待处理词语对的核心词等。
S202,根据种子库关联的核心词倒排索引和待处理词语对的核心词,从种子库的异常种子词语对中选择待处理词语对的目标词语对。
倒排索引是一种常用的索引机制;本实施例中,可以采用核心词序列标注工具识别种子库中每一异常种子词语对的核心词,并基于所有异常种子词语对的核心词,构建以核心词为索引词,以异常种子词语对为索引内容的核心词倒排索引。例如,如果异常种子词语对1和异常种子词语对2 的核心词相同,若均为(DNA+检测)+(DNA+怀孕+鉴定+亲子),进而在以(DNA+检测)+(DNA+怀孕+鉴定+亲子)为索引词的情况下,基于核心词倒排索引,可以从种子库中获取核心词一致的异常种子词语对,例如异常种子词语对1和异常种子词语对2。
进一步的,在种子库中的异常种子词语对发生变化的情况下,可以动态更新核心词倒排索引。例如,种子库中新增了一个或多个异常种子词语对,可以识别出新增的异常种子词语对的核心词,以新增的异常种子词语对的核心词为索引词,若预先构建的核心词倒排索引中存在以新增的异常种子词语对的核心词为索引词的情况,则可以将新增的异常种子词语对添加到对应的索引内容位置处。进一步的,若预先构建的核心词倒排索引中不存在以新增的异常种子词语对的核心词为索引词的情况,则可以新增一个以新增的异常种子词语对的核心词为索引词,以新增的异常种子词语对为索引内容的索引对。种子库关联的核心词倒排索引中可以包括至少一个索引对。
可选的,对于每一待处理词语对,本实施例可以以该待处理词语对的核心词为索引词,输入种子库关联的核心词倒排索引,可以得到核心词与该待处理词语对的核心词相同的异常种子词语对。进一步的,核心词与该待处理词语对的核心词相同的异常种子词语对的数量可以为一个或多个,若核心词与该待处理词语对的核心词相同的异常种子词语对的数量为一个,则可以将该异常种子词语对直接作为该待处理词语对的目标词语对;若核心词与该待处理词语对的核心词相同的异常种子词语对的数量为多个,则可以从多个种子异常词语对中选择一个目标词语对,示例性的,可以通过如下过程实现:
步骤A,根据种子库关联的核心词倒排索引和待处理词语对的核心词,从种子库的异常种子词语对中选择待处理词语对的候选词语对。
可选的,对于每一待处理词语对,本实施例可以将种子库中核心词与该待处理词语对的核心词相同的异常种子词语对作为该待处理词语对的候选词语对,候选词语对的数量为多个。
步骤B,基于同义度量模型,确定待处理词语对和候选词语对之间的距离。
同义度量模型又可称为相似度度量模型,为了提高计算速度,本实施例中的同义度量模型基于孪生网络的思想训练得到。例如如图2B所示,网络结构为转换网络(即transfomer),词嵌入(即word embedding)用于将词量化为向量,且网络参数共享,具体为正样本关键词一侧的网络参数与搜索请求一侧的网络参数相同,且搜索请求一侧的网络参数与负样本关键词一侧的网络参数相同。进一步的,采用样本对(即pair wise)的方式进行训练,训练过程中使用ranking loss损失函数,用于预测输入样本之间的相对距离。
可选的,可以将历史搜索展示日志中请求方点击的参考关键词,作为正样本关键词,将词语对<搜索请求,正样本关键词>作为正样本;与此同时,可以将历史搜索展示日志中请求方无点击的参考关键词中的一部分,作为负样本关键词,将词语对<搜索请求,负样本关键词>作为负样本;为了保证模型的精度,可以引入随机因素,例如还可以随机从历史搜索展示日志中选择设定数量的<搜索请求,随机参考关键词>词语对,也作为负样本。本实施例中可以将正样本和负样本输入至初始模型(即未训练的同义度量模型)进行训练,以得到同义度量模型。具体的,可以对正样本关键词、搜索请求和负样本关键词进行wordembedding,得到词向量;将所得到的词向量输入transformer,可分别得到正样本关键词向量、搜索请求向量和负样本关键词向量;之后,可以分别进行正样本关键词向量和搜索请求向量之间的度量学习(即metric learning),以及负样本关键词向量和搜索请求向量之间的度量学习,并采用ranking loss损失函数可得到损失,进而基于损失对模型进行训练,即可得到同义度量模型。为了保证模型的准确度,还可以采用人工标注的同义和非同义样本作为微调样本,对网络参数进行微调,以得到准确度较高的同义度量模型。
可选的,在本实施例中,对于每一待处理词语对,可以将该待处理词语对和该待处理词语对的候选词语对一并输入同义度量模型中,该同义度量模型输出该待处理词语对与每一候选词语对之间的距离。可选的,待处理词语对与每一候选词语对之间的距离可以表征该待处理词语对每一候选词语对之间的相关程度。进一步的,距离越大,相关性越小。
可选的,作为本申请实施例的一种可选方式,确定待处理词语对和候选词语对之间的距离可以是:计算待处理词语对中搜索请求和候选词语对中搜索请求之间第一距离,以及待处理词语对中参考关键词和候选词语对中参考关键词之间第二距离;根据第一距离和第二距离,确定待处理词语对和候选词语对之间的距离。
具体的,针对每一待处理词语对的每一候选词语对,可以计算该候选词语对中搜索请求与该待处理词语对中搜索请求之间的第一距离,以及计算该候选词语对中参考关键词与该待处理词语对中参考关键词之间的第二距离,并可以将第一距离和第二距离之和,作为该候选词语对和该待处理词语对之间的距离;或者,可以预先设定第一权值和第二权值,进而可以将第一权值和第一距离相乘,将第二权值和第二距离相乘,并将两者的乘积之和,作为该候选词语对和该待处理词语对之间的距离。
步骤C,根据距离,从候选词语对中选择待处理词语对的目标词语对。
具体的,对于每一待处理词语对,在确定该待处理词语对与该待处理词语对的每一候选词语对之间的距离之后,可以将最小距离所对应的候选词语对,作为该待处理词语对的目标词语对。
需要说明的是,本实施例通过引入核心词以及核心词倒排索引,对种子库的异常种子词语对进行筛选操作,减少了距离计算量,提高了识别效率;同时,引入基于孪生网络思想训练的同义度量模型,在能够保证距离计算精度的情况下,极大地提高了识别效率。
S203,根据待处理词语对和目标词语对之间的距离,识别待处理词语对是否为异常词语对。
可选的,对于每一待处理词语对,若该待处理词语对和该待处理词语对的目标词语对之间的距离小于或等于设定距离值,则确定该待处理词语对为异常词语对。若该待处理词语对和该待处理词语对的目标词语对之间的距离大于设定距离值,则确定该待处理词语对不是异常词语对。
S204,根据识别结果,更新异常词语列表,异常词语列表用于数据搜索。
本申请实施例的技术方案,通过引入种子库,以种子库中的异常种子词语对为基准,对历史搜索展示日志中的待处理词语对进行识别,并在具体识别过程中,引入核心词以及核心词倒排索引,对种子库的异常种子词语对进行筛选操作,减少了距离计算量,提高了识别效率;相比于现有技术而言,本实施例无需依赖人工,即可得到一个丰富的异常词语列表,为获取丰富的异常词语列表提供了一种新思路;此外,基于识别结果更新异常词语库,并将丰富的异常词语列表用于数据搜索,可实现基于数据提供方提供的一个异常词语对识别一类型的异常词语对的效果,极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率。
图3是根据本申请实施例提供的又一种数据处理方法的流程图。本申请实施例在上述实施例的基础上,增加了更新种子库的操作。如图3所示,该数据处理方法包括:
S301,根据数据提供方反馈的异常词语对,更新种子库。
可选的,本实施例可以将一段时间内数据提供方反馈的异常词语对全部作为异常种子词语对,添加到种子库中,以更新种子库。为了提高搜索结果的准确度,本实施例可以将数据提供方反馈的异常词语对中的一部分作为异常种子词语对,添加到种子库中,以更新种子库。
可选的,从数据提供方反馈的异常词语对中选择一部分作为异常种子词语对,添加到种子库中,以更新种子库具体可以通过实现过程如下:
步骤1,确定数据提供方反馈的异常词语对的置信度。
可选的,对于数据提供方反馈的每一异常词语对,可以确定该异常词语对中搜索请求和参考关键词之间的相似度,并可以根据相似度确定该异常词语对的置信度。例如,可以将相似度量化为一个0到1之间的标准数值,将1减去量化后的标准数值的差值作为置信度。或者,可以将相似度代入设定的置信度计算公式,以得到置信度。可选的,相似度与置信度成反比,也就是说,相似度越大,置信度越小。
步骤2,根据置信度,从数据提供方反馈的异常词语对中选择异常种子词语对。
可选的,可以按照置信度,对数据提供方反馈的异常词语对进行降序排序,之后可以将排列在前的预设数值个异常词语对作为异常种子词语对,添加至种子库中,以更新种子库。
步骤3,将异常种子词语对添加至种子库中。
需要说明的是,本实施例基于置信度,从数据提供方反馈的异常词语对中选择异常种子词语对,添加至种子库,保证了种子库中异常种子词语对的准确性,为获取精准的异常词语列表奠定了基础。
S302,根据更新后的种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词。
S303,根据识别结果,更新异常词语列表,异常词语列表用于数据搜索。
本申请实施例的技术方案,通过动态更新种子库,为获取丰富的异常词语列表奠定了基础;此外,以更新后的种子库中的异常种子词语对为基准,对历史搜索展示日志中的待处理词语对进行识别,无需依赖人工,即可得到一个丰富的异常词语列表,为获取丰富的异常词语列表提供了一种新思路;而且,基于识别结果更新异常词语库,并将丰富的异常词语列表用于数据搜索,可实现基于数据提供方提供的一个异常词语对识别一类型的异常词语对的效果,极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率。
图4是根据本申请实施例提供的一种数据处理装置的结构示意图。本申请实施例适用于在数据搜索领域,如何对数据进行处理,以降低异常匹配情况对搜索结果的影响的情况。该装置可以实现本申请任意实施例所述的数据处理方法。如图4所示,该数据处理装置包括:
识别模块401,用于根据种子库中的异常种子词语对,对历史搜索展示日志中的待处理词语对进行识别;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词;
列表更新模块402,用于根据识别结果,更新异常词语列表,异常词语列表用于数据搜索。
本申请实施例的技术方案,通过引入种子库,以种子库中的异常种子词语对为基准,对历史搜索展示日志中的待处理词语对进行识别,并基于识别结果更新异常词语库。相比于现有技术而言,本实施例无需依赖人工,即可得到一个丰富的异常词语列表,为获取丰富的异常词语列表提供了一种新思路;此外,将丰富的异常词语列表用于数据搜索,可实现基于数据提供方提供的一个异常词语对识别一类型的异常词语对的效果,极大地降低了异常匹配情况对搜索结果的影响,提高了搜索结果的准确率。
示例性的,识别模块401,包括:
核心词确定单元,用于确定待处理词语对的核心词;
目标选择单元,用于根据种子库关联的核心词倒排索引和待处理词语对的核心词,从种子库的异常种子词语对中选择待处理词语对的目标词语对;
异常识别单元,用于根据待处理词语对和目标词语对之间的距离,识别待处理词语对是否为异常词语对。
示例性的,目标选择单元,包括:
候选选择子单元,用于根据种子库关联的核心词倒排索引和待处理词语对的核心词,从种子库的异常种子词语对中选择待处理词语对的候选词语对;
距离确定子单元,用于基于同义度量模型,确定待处理词语对和候选词语对之间的距离;
目标选择子单元,用于根据距离,从候选词语对中选择待处理词语对的目标词语对。
示例性的,距离确定子单元具体用于:
计算待处理词语对中搜索请求和候选词语对中搜索请求之间第一距离,以及待处理词语对中参考关键词和候选词语对中参考关键词之间第二距离;
根据第一距离和所述第二距离,确定待处理词语对和候选词语对之间的距离。
示例性的,上述装置还包括:
种子库更新模块,用于根据数据提供方反馈的异常词语对,更新种子库。
示例性的,种子库更新模块具体用于:
确定数据提供方反馈的异常词语对的置信度;
根据置信度,从数据提供方反馈的异常词语对中选择异常种子词语对;
将异常种子词语对添加至所述种子库中。
示例性的,上述装置还包括:
关键词选择模块,用于根据请求方提交的目标搜索请求,从数据提供方提供的参考关键词中选择候选关键词;
识别模块401,还用于根据更新后的异常词语列表,对目标搜索请求和候选关键词进行识别。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出 (I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元 508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和 /或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种数据处理方法,包括:
确定待处理词语对的核心词;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词;
根据种子库关联的核心词倒排索引和所述待处理词语对的核心词,从所述种子库的异常种子词语对中选择所述待处理词语对的候选词语对;
基于同义度量模型,计算所述待处理词语对中搜索请求和所述候选词语对中搜索请求之间第一距离,以及所述待处理词语对中参考关键词和所述候选词语对中参考关键词之间第二距离;
根据所述第一距离和所述第二距离,确定所述待处理词语对和所述候选词语对之间的距离;
根据所述距离,从所述候选词语对中选择待处理词语对的目标词语对;
根据所述待处理词语对和所述目标词语对之间的距离,识别所述待处理词语对是否为异常词语对;其中,对于任一词语对,若所述词语对中搜索请求和参考关键词之间不相关或相关程度小于设定阈值,则所述词语对为异常词语对;
根据识别结果,更新异常词语列表,所述异常词语列表用于数据搜索。
2.根据权利要求1所述的方法,还包括:
根据数据提供方反馈的异常词语对,更新种子库。
3.根据权利要求2所述的方法,其中,根据数据提供方反馈的异常词语对,更新种子库,包括:
确定所述数据提供方反馈的异常词语对的置信度;
根据所述置信度,从所述数据提供方反馈的异常词语对中选择异常种子词语对;
将所述异常种子词语对添加至所述种子库中。
4.根据权利要求1所述的方法,根据识别结果,更新异常词语列表之后,还包括:
根据请求方提交的目标搜索请求,从数据提供方提供的参考关键词中选择候选关键词;
根据更新后的异常词语列表,对所述目标搜索请求和所述候选关键词进行识别。
5.一种数据处理装置,包括:
识别模块,包括核心词确定单元、目标选择单元和异常识别单元;
所述核心词确定单元,用于确定待处理词语对的核心词;其中,词语对包括请求方提交的搜索请求和数据提供方提供的参考关键词;
所述目标选择单元,包括候选选择子单元、距离确定子单元和目标选择子单元;
所述候选选择子单元,用于根据种子库关联的核心词倒排索引和所述待处理词语对的核心词,从所述种子库的异常种子词语对中选择所述待处理词语对的候选词语对;
所述距离确定子单元,用于基于同义度量模型,计算所述待处理词语对中搜索请求和所述候选词语对中搜索请求之间第一距离,以及所述待处理词语对中参考关键词和所述候选词语对中参考关键词之间第二距离;根据所述第一距离和所述第二距离,确定所述待处理词语对和所述候选词语对之间的距离;
所述目标选择子单元,用于根据所述距离,从所述候选词语对中选择待处理词语对的目标词语对;
所述异常识别单元,用于根据所述待处理词语对和所述目标词语对之间的距离,识别所述待处理词语对是否为异常词语对;其中,对于任一词语对,若所述词语对中搜索请求和参考关键词之间不相关或相关程度小于设定阈值,则所述词语对为异常词语对;
列表更新模块,用于根据识别结果,更新异常词语列表,所述异常词语列表用于数据搜索。
6.根据权利要求5所述的装置,还包括:
种子库更新模块,用于根据数据提供方反馈的异常词语对,更新种子库。
7.根据权利要求6所述的装置,其中,所述种子库更新模块具体用于:
确定所述数据提供方反馈的异常词语对的置信度;
根据所述置信度,从所述数据提供方反馈的异常词语对中选择异常种子词语对;
将所述异常种子词语对添加至所述种子库中。
8.根据权利要求5所述的装置,还包括:
关键词选择模块,用于根据请求方提交的目标搜索请求,从数据提供方提供的参考关键词中选择候选关键词;
识别模块,还用于根据更新后的异常词语列表,对所述目标搜索请求和所述候选关键词进行识别。
9. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的数据处理方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-4中任一项所述的数据处理方法。
CN202110130043.1A 2021-01-29 2021-01-29 数据处理方法、装置、设备及存储介质 Active CN112800315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110130043.1A CN112800315B (zh) 2021-01-29 2021-01-29 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110130043.1A CN112800315B (zh) 2021-01-29 2021-01-29 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112800315A CN112800315A (zh) 2021-05-14
CN112800315B true CN112800315B (zh) 2023-08-04

Family

ID=75813030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110130043.1A Active CN112800315B (zh) 2021-01-29 2021-01-29 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112800315B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
WO2018040503A1 (zh) * 2016-08-30 2018-03-08 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN111291069A (zh) * 2018-12-07 2020-06-16 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111950254A (zh) * 2020-09-22 2020-11-17 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN112115232A (zh) * 2020-09-24 2020-12-22 腾讯科技(深圳)有限公司 一种数据纠错方法、装置及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101609184B1 (ko) * 2014-05-27 2016-04-06 네이버 주식회사 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040503A1 (zh) * 2016-08-30 2018-03-08 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN111291069A (zh) * 2018-12-07 2020-06-16 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111950254A (zh) * 2020-09-22 2020-11-17 北京百度网讯科技有限公司 搜索样本的词特征提取方法、装置、设备以及存储介质
CN112115232A (zh) * 2020-09-24 2020-12-22 腾讯科技(深圳)有限公司 一种数据纠错方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于抽象概念的知网词语相似度计算;朱新华 等;计算机工程与设计;第38卷(第3期);全文 *

Also Published As

Publication number Publication date
CN112800315A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN113568940B (zh) 数据查询的方法、装置、设备以及存储介质
CN114817651B (zh) 数据存储方法、数据查询方法、装置和设备
CN113128209A (zh) 用于生成词库的方法及装置
CN113408280B (zh) 负例构造方法、装置、设备和存储介质
CN113033194B (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN114417118A (zh) 一种异常数据处理方法、装置、设备以及存储介质
CN112989170A (zh) 应用于信息搜索的关键词匹配方法、信息搜索方法及装置
CN112800315B (zh) 数据处理方法、装置、设备及存储介质
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
CN115794473A (zh) 一种根因告警的定位方法、装置、设备及介质
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114357180A (zh) 知识图谱的更新方法及电子设备
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN114422584B (zh) 资源的推送方法、设备和存储介质
CN113268987B (zh) 一种实体名称识别方法、装置、电子设备和存储介质
CN116127948B (zh) 待标注文本数据的推荐方法、装置及电子设备
CN113408661B (zh) 误匹配确定方法、装置、设备和介质
US12038989B2 (en) Methods for community search, method for training community search model, and electronic device
CN113033196B (zh) 分词方法、装置、设备及存储介质
CN115578583B (zh) 图像处理方法、装置、电子设备和存储介质
CN116167455B (zh) 模型训练及数据去重方法、装置、设备及存储介质
CN117312666A (zh) 一种意图推荐方法、装置、电子设备及存储介质
CN114037057B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN113377921B (zh) 用于匹配信息的方法、装置、电子设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant