CN114882311A - 一种训练集的生成方法及装置 - Google Patents
一种训练集的生成方法及装置 Download PDFInfo
- Publication number
- CN114882311A CN114882311A CN202210430967.8A CN202210430967A CN114882311A CN 114882311 A CN114882311 A CN 114882311A CN 202210430967 A CN202210430967 A CN 202210430967A CN 114882311 A CN114882311 A CN 114882311A
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- candidate
- search
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书公开了一种训练集的生成方法及装置,可以根据实际需求,先选定出基准训练样本,然后确定基准训练样本对应的基准特征表示,从而根据基准特征表示,从各候选样本中筛选出与基准训练样本相匹配的训练样本,生成用于训练排序模型的训练集,这样将极大的提高训练集的构建效率,进而可以降低排序模型训练的成本,提高了筛选训练样本的效率,以及提高了筛选出的训练样本的准确率。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种训练集的生成方法及装置。
背景技术
搜索技术作为互联网领域重要的流量入口和内容分发渠道,在各网站和应用中有着极其重要的作用,其中,用于根据用户输入的搜索词,为用户推荐与搜索词相关的搜索结果的排序模型,则是搜索技术的一个核心。
现有技术中,通常会批量获取用户的历史搜索数据,然后通过人工从批量获取的历史搜索数据中筛选出特定的难例,作为训练样本对排序模型进行训练,但是这样往往会导致排序模型训练的成本增加,降低了筛选训练样本的效率,并且筛选出的训练样本的准确率也较低,从而影响了排序模型训练。
因此,如何能够提升为排序模型筛选出的训练样本的效率,提高训练样本筛选的准确率,以及降低排序模型训练的成本,则是一个亟待解决的问题。
发明内容
本说明书提供一种训练集的生成方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种训练集的生成方法,包括:
获取基准训练样本;
根据所述基准训练样本中包含的搜索词以及搜索结果,确定出所述基准训练样本对应的特征表示,作为基准特征表示,所述基准特征表示用于表征所述基准训练样本包含的搜索词的词特征、以及所述搜索词与所述搜索结果中的至少部分文本所构成的各词序列的匹配情况;
根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与所述历史搜索词对应的历史搜索结果;
对所述目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
可选地,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,具体包括:
根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重;
根据每个候选样本对应的特征表示,以及每个候选样本对应的权重,从所述各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本。
可选地,根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重,具体包括:
根据每个候选样本对应的搜索时间的先后顺序,确定每个候选样本对应的权重,其中,针对每个候选样本,若该候选样本对应的搜索时间距离当前时间越近,该候选样本对应的权重越大。
可选地,根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重,具体包括:
针对每个候选样本,判断该候选样本对应的搜索时间是否属于指定时间;
若是,将预设的第一权重,作为该候选样本对应的权重,否则,将预设的第二权重,作为该候选样本对应的权重,所述第一权重大于所述第二权重。
可选地,根据标注后的各目标样本,确定用于模型训练的训练集,具体包括:
根据标注后的各目标样本,确定测试集和子训练集;
根据所述子训练集,对所述排序模型进行训练,得到训练后的排序模型;
将所述测试集中包含的训练样本,分别输入到未经所述子训练集训练的排序模型和所述训练后的排序模型中,以确定出未经所述子训练集训练的排序模型确定所述测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为所述未经所述子训练集训练的排序模型对应的准确率,以及所述训练后的排序模型确定所述测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为所述训练后的排序模型对应的准确率;
若确定所述训练后的排序模型对应的准确率大于所述未经所述子训练集训练的排序模型对应的准确率,将所述测试集和所述子训练集补充到预设的全量训练集中,得到用于对所述排序模型进行训练的训练集。
可选地,所述方法还包括:
针对所述训练集中的每个训练样本,将该训练样本输入到待训练的排序模型中,得到所述排序模型输出的该训练样本中的历史搜索结果与搜索词之间的匹配度;
以最小化所述匹配度与该训练样本对应的标注之间偏差为优化目标,对所述排序模型进行训练。
可选地,所述基准训练样本包括:排序模型预测出的搜索结果与搜索词之间的匹配度与用户实际执行结果不一致的训练样本、排序模型预测的搜索结果与搜索词之间匹配度的置信度低于预设阈值的训练样本中的至少一种。
本说明书提供了一种训练集的生成装置,包括:
获取模块,用于获取基准训练样本;
确定模块,用于根据所述基准训练样本中包含的搜索词以及搜索结果,确定出所述基准训练样本对应的特征表示,作为基准特征表示,所述基准特征表示用于表征所述基准训练样本包含的搜索词的词特征、以及所述搜索词与所述搜索结果中的至少部分文本所构成的各词序列的匹配情况;
筛选模块,用于根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与所述历史搜索词对应的历史搜索结果;
生成模块,用于对所述目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述训练集的生成方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述训练集的生成方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的训练集的生成方法,首先获取基准训练样本,根据基准训练样本中包含的搜索词以及搜索结果,确定出基准训练样本对应的特征表示,作为基准特征表示,基准特征表示用于表征基准训练样本包含的搜索词的词特征、以及搜索词与搜索结果中的至少部分文本所构成的各词序列的匹配情况,进而根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与历史搜索词对应的历史搜索结果,然后对目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
从上述方法中可以看出,可以根据实际需求,先选定出基准训练样本,然后确定基准训练样本对应的基准特征表示,从而根据基准特征表示,从各候选样本中筛选出与基准训练样本相匹配的训练样本,生成用于训练排序模型的训练集,这样将极大的提高训练集的构建效率,进而可以降低排序模型训练的成本,提高了筛选训练样本的效率,以及提高了筛选出的训练样本的准确率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种训练集的生成方法的流程示意图;
图2为本说明书中提供的排序模型的迭代示意图;
图3为本说明书提供的一种训练集的生成装置的示意图;
图4为本说明书提供的一种对应于图1的电子设备的示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
现有技术中,通常会采用以下两种方法来筛选用于训练排序模型的难例,其中,这里所说的难例是指排序模型不容易识别的训练样本,例如:滑雪和滑冰,通常可以使用筛选出的难例对排序模型进行针对性训练,以使排序模型的训练效果显著提升,以下分别对上述的两种方法进行详细说明。
第一种方法是利用规则从数据库中筛选出大量的数据作为训练样本来对排序模型进行训练,其中规则可以是随机抽取,或者筛选一定时间内的数据等,这种方法筛选出的训练样本数量大,并且筛选出的训练样本中难例的比例较低,其中大部分的训练样本都是排序模型已经能够很好的识别的训练样本,对排序模型的训练并没有太大帮助。
第二种方法是将排序模型推荐给用户的与搜索词字面内容相似但用户未点击的搜索结果作为难例,对排序模型进行训练,由于这种方法仅考虑了搜索结果与搜索词字面相似的这类难例,但是在实际应用中,存在一些搜索结果与搜索词并不相似的难例,例如:搜索词中或搜索结果中包含错别字、搜索词与搜索结果中包含音近字、搜索词与搜索结果中的部分词属于上下位词的难例,而这种方法对于这些难例的筛选效果较差。
从上述内容中可知,现有的两种筛选用于训练排序模型的难例的方法均不能准确、全面的筛选出用于训练排序模型的难例,因此,本说明书提供了一种训练集的生成方法,根据基准特征表示从各候选样本中筛选出各目标样本,并根据各目标样本,生成用于排序模型训练的样本集。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种训练集的生成方法的流程示意图,包括以下步骤:
S101:获取基准训练样本。
在本说明书中,业务平台可以获取异常训练样本或由研发人员基于实际需要确定出的某一类训练样本,作为基准训练样本,其中,异常训练样本可以是诸如:排序模型预测出的搜索结果与搜索词之间的匹配度,与用户实际执行结果不一致的训练样本,排序模型预测的搜索结果与搜索词之间匹配度的置信度低于预设阈值的训练样本,人工筛选出的易混淆的训练样本,排序模型预测的搜索结果与搜索词之间匹配情况与人工标注的匹配情况不一致的训练样本等。
上述内容中,研发人员确定出的某一类训练样本,可以根据实际需求而定,例如:基准训练样本可以是研发人员从搜索词为短词的这一类的训练样本中确定出的,再例如:基准训练样本可以是研发人员基于实际需要从搜索词为餐饮类的训练样本中确定出的。
排序模型预测出的搜索结果与搜索词之间的匹配度与用户实际执行结果不一致的训练样本,即,排序模型推荐给用户,但用户未点击的历史搜索结果。
排序模型预测的搜索结果与搜索词之间匹配度的置信度低于预设阈值的训练样本,例如,排序模型预测的搜索结果与搜索词之间匹配度为0.4~0.6之间的训练样本,其中,由于排序模型预测的搜索结果与搜索词之间匹配度为1,则认为排序模型预测的搜索结果与搜索词之间完全匹配,排序模型预测的搜索结果与搜索词之间匹配度为0,则认为排序模型预测的搜索结果与搜索词之间完全不匹配,所以排序模型预测的搜索结果与搜索词之间的匹配度越接近于0或1,则排序模型预测的搜索结果与搜索词之间匹配度的置信度越高,反之,排序模型预测的搜索结果与搜索词之间的匹配度越接近于0.5,则排序模型预测的搜索结果与搜索词之间匹配度的置信度越低。
在本说明书中,用于实现训练集的生成方法的执行主体,可以是指服务器等设置于业务平台的指定设备,也可以是指诸如台式电脑、笔记本电脑等指定设备,为了便于描述,下面仅以服务器是执行主体为例,对本说明书提供的训练集的生成方法进行说明。
S102:根据所述基准训练样本中包含的搜索词以及搜索结果,确定出所述基准训练样本对应的特征表示,作为基准特征表示,所述基准特征表示用于表征所述基准训练样本包含的搜索词的词特征、以及所述搜索词与所述搜索结果中的至少部分文本所构成的各词序列的匹配情况。
服务器可以根据获取到的基准训练样本中包含的搜索词的词特征,搜索词与搜索结果中的至少部分文本所构成的各词序列的匹配情况,确定出基准训练样本对应的特征表示。
其中,搜索词的词特征可以是诸如:是否为多实体、是否为品牌词、搜索词后缀是否为常用词、搜索词是否为短词、搜索词是否为纯英文等。
上述内容中,是否为多实体是指搜索词中包含多个实体,例如:某某明星同款连衣裙,其中涉及某某明星这一个实体,以及连衣裙这一个实体。
搜索词后缀是否为常用词,例如:某某火锅店,其中,火锅店为常用词后缀。
上述内容中,搜索词与搜索结果中的至少部分文本所构成的各词序列的匹配情况可以是诸如:不匹配、部分匹配、颠倒匹配、子序列匹配、命中店名后缀、拆开匹配等。
其中,部分匹配可以是例如:搜索词为AB和搜索结果为AB面馆,颠倒匹配可以是例如:搜索词为AB和搜索结果为BA,子序列匹配可以是例如:搜索词为AB面馆和搜索结果为A面馆,命中店名后缀可以是例如:搜索词为AB火锅和搜索结果为ABC火锅,拆开匹配可以是搜索词为橘子蛋糕和搜索结果为橘子茶和奶油蛋糕的情况。
为了便于理解上述确定出基准训练样本对应的特征表示的方法,本说明书提供了一个实施例,假设一个基准训练样本的搜索词为AB火锅,搜索结果为CD火锅,则可以确定该搜索词的词特征为:不是多实体、不是品牌词、后缀是常用词、是短词、不是纯英文,搜索词与搜索结果所构成的各词序列的匹配情况为:命中店名后缀,则可以确定出该基准训练样本对应的基准特征表示为00110000010,即符合上述特征条件(例如,是否为多实体,若是,则认为符合上述特征条件),则基准特征表示中对应的维度表示为1,不符合上述的特征条件,则基准特征表示中对应的维度表示为0。
除此之外,服务器还可以响应于研发人员发送的候选样本筛选指令,获取研发人员输入的特征表示,作为基准特征表示,可以理解为,若研发人员基于实际需求,可以使服务器直接根据研发人员输入的基准特征表示,从各候选样本中,筛选出各目标样本。
S103:根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与所述历史搜索词对应的历史搜索结果。
在本说明书中,服务器可以根据历史搜索词与历史搜索词对应的历史搜索结果,确定各候选样本,并确定出每个候选样本对应的特征表示,进而可以从各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本。
具体地,考虑到服务器确定出的各候选样本的覆盖面,以及各历史搜索词与历史搜索词对应的历史搜索结果的时效性(由于各搜索词在不同时间的热度不同,因此,每个搜索词都具有一定的时效性,因此,为了使训练出的排序模型能够在实际应用中取得更好的效果,这里需要考虑搜索词的时效性),服务器可以获取近期的各历史搜索词以及每个历史搜索词对应的前若干条的历史搜索结果(这里的若干条是指排序模型推荐给的各历史搜索结果的前若干条,其中可以包含用户未点击的历史搜索结果),例如,获取一个月内的各历史搜索词以及与每个历史搜索词对应的前20条的历史搜索结果,前20条是指排序模型针对一个搜索词推荐给用户的前20条搜索结果。
进一步地,服务器可以根据获取到的历史搜索词与历史搜索词对应的历史搜索结果,确定各候选样本,并通过上述的方法针对每个候选样本,确定出每个候选样本对应的特征表示,其中,每个候选样本中均包含一个搜索词和一个与该搜索词对应的搜索结果。
需要说明的是,候选样本的确定方法可以在上述的基准特征表示的确定方法之后,也可以在上述的基准特征表示的确定方法之前,或者两种方法同时进行。
上述内容中,服务器从各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本的方法可以是根据各候选样本对应的特征表示与基准特征表示之间的相似度,确定出与基准特征表示相匹配的候选样本,作为目标样本。
除此之外,为了提高服务器获取到的候选样本的时效性,上述内容中服务器从各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本的方法可以是,根据每个候选样本对应的搜索时间的先后顺序,确定每个候选样本对应的权重,进而根据每个候选样本对应的特征表示,以及每个候选样本对应的权重,从所述各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本。
在实际应用中,考虑到业务平台的用户在节假日期间的搜索频率大于工作日期间,因此,为了优化通过业务平台执行相应业务的用户体验,上述内容中,服务器从各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本的方法还可以是针对每个候选样本,判断该候选样本对应的搜索时间是否属于预设的指定时间段内(这里所说的指定时间段可以是例如,国家法定节假日,以及周六、周日等),若是,将预设的第一权重,作为该候选样本对应的权重,否则,将预设的第二权重,作为该候选样本对应的权重,进而根据每个候选样本对应的特征表示,以及每个候选样本对应的权重,从各候选样本中,筛选出与基准特征表示相匹配的候选样本,作为目标样本,其中,第一权重大于第二权重。
需要说明的是,上述的两种从各候选样本中,筛选出与基准特征表示相匹配的候选样本的方法,可以单独使用其中的一种,也可以将两种方法一起使用。
S104:对所述目标样本进行标注,并根据标注后的目标样本,生成用于训练所述排序模型的训练集。
服务器在筛选出各目标样本后,可以对目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
具体地,服务器可以将筛选出的各目标样本显示给研发人员,以使研发人员针对各目标样本进行标注并返回,然后服务器可以根据返回的标注后的各目标样本,确定测试集和子训练集,其中确定测试集和子训练集的方法可以是将各目标样本按照预设的比例随机划分后,得到测试集和子训练集。
进一步地,服务器可以根据子训练集,对排序模型进行训练,得到训练后的排序模型,而后,将测试集中包含的训练样本,分别输入到未经子训练集训练的排序模型和训练后的排序模型中,以确定出未经子训练集训练的排序模型确定测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为未经子训练集训练的排序模型对应的准确率,以及训练后的排序模型确定测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为训练后的排序模型对应的准确率,其中,这里所说的准确率具体可以根据排序模型输出的结果(输出的结果是指排序模型确定出的搜索词与搜索结果之间的匹配情况)与标注相一致的训练样本,在测试集中所包含的所有训练样本中的比重来确定的。
若确定训练后的排序模型对应的准确率大于未经子训练集训练的排序模型对应的准确率,将测试集和子训练集补充到预设的全量训练集中,得到用于对排序模型进行训练的训练集。
进一步地,为了更全面的评估各目标样本对排序模型的训练提升的效果,服务器还可以根据预设的全量训练集对未经子训练集训练的排序模型和训练后的排序模型中进行测试,并确定训练后的排序模型对应的准确率是否也大于未经子训练集训练的排序模型对应的准确率,若是,则将测试集和子训练集补充到预设的全量训练集中,得到用于对排序模型进行训练的训练集。
在本说明书中,服务器可以针对训练集中的每个训练样本,将该训练样本输入到待训练的排序模型中,得到排序模型输出的该训练样本中的历史搜索结果与搜索词之间的匹配度,进而以最小化匹配度与该训练样本对应的标注之间偏差为优化目标,对排序模型进行训练。
在实际应用中,服务器还可以通过多轮排序模型的迭代,对排序模型进行训练,如图2所示。
图2为本说明书中提供的排序模型的迭代示意图。
结合图2可以看出,针对每轮优化迭代,服务器可以将上一轮优化迭代中的排序模型在测试过程中,或在实际应用过程中遇到的异常训练样本,作为该轮优化迭代的基准训练样本,进而可以该轮优化迭代的基准训练样本,通过上述的方法,对排序模型进行训练,直到排序模型确定上述异常训练样本中包含的搜索词与历史搜索结果之间匹配度时的准确率大于预设阈值后,或者迭代的轮数达到预设轮数为止。
在实际应用中,存在多轮优化迭代后,依旧存在排序模型推荐给用户的搜索结果但用户未点击的搜索结果,此时,服务器可以将包含有这些搜索结果的异常训练样本发送给研发人员,以使研发人员可以针对这些异常训练样本,对排序模型进行优化调整,从而提升排序模型为用户推荐的搜索结果的准确性,其中,对排序模型进行优化调整可以是诸如:对模型的结构进行优化调整或者对模型的各项参数进行调整。
从上述方法中可以看出,可以根据实际需求,先选定出基准训练样本,然后确定基准训练样本对应的基准特征表示,从而根据基准特征表示,从众多的候选样本中搜索出与基准训练样本相匹配的训练样本,以生成用于训练排序模型的训练集,这样将极大的提高训练集的构建效率,进而可以降低排序模型训练的成本,提高了筛选训练样本的效率,同时,也将有效地提高筛选出的训练样本的准确率,从而进一步地保证了模型训练的效果。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家响应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
以上为本说明书的一个或多个实施例提供的训练集的生成方法,基于同样的思路,本说明书还提供了相应的训练集的生成装置,如图3所示。
图3为本说明书提供的一种训练集的生成装置的示意图,包括:
获取模块301,用于获取基准训练样本;
确定模块302,用于根据所述基准训练样本中包含的搜索词以及搜索结果,确定出所述基准训练样本对应的特征表示,作为基准特征表示,所述基准特征表示用于表征所述基准训练样本包含的搜索词的词特征、以及所述搜索词与所述搜索结果中的至少部分文本所构成的各词序列的匹配情况;
筛选模块303,用于根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与所述历史搜索词对应的历史搜索结果;
生成模块304,用于对所述目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
可选地,所述筛选模块303具体用于,根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重;根据每个候选样本对应的特征表示,以及每个候选样本对应的权重,从所述各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本。
可选地,所述筛选模块303具体用于,根据每个候选样本对应的搜索时间的先后顺序,确定每个候选样本对应的权重,其中,针对每个候选样本,若该候选样本对应的搜索时间距离当前时间越近,该候选样本对应的权重越大。
可选地,所述筛选模块303具体用于,针对每个候选样本,判断该候选样本对应的搜索时间是否属于指定时间;若是,将预设的第一权重,作为该候选样本对应的权重,否则,将预设的第二权重,作为该候选样本对应的权重,所述第一权重大于所述第二权重。
可选地,所述生成模块304具体用于,根据标注后的各目标样本,确定测试集和子训练集;根据所述子训练集,对所述排序模型进行训练,得到训练后的排序模型;将所述测试集中包含的训练样本,分别输入到未经所述子训练集训练的排序模型和所述训练后的排序模型中,以确定出未经所述子训练集训练的排序模型确定所述测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为所述未经所述子训练集训练的排序模型对应的准确率,以及所述训练后的排序模型确定所述测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为所述训练后的排序模型对应的准确率;若确定所述训练后的排序模型对应的准确率大于所述未经所述子训练集训练的排序模型对应的准确率,将所述测试集和所述子训练集补充到预设的全量训练集中,得到用于对所述排序模型进行训练的训练集。
可选地,所述生成模块304具体用于,针对所述训练集中的每个训练样本,将该训练样本输入到待训练的排序模型中,得到所述排序模型输出的该训练样本中的历史搜索结果与搜索词之间的匹配度;以最小化所述匹配度与该训练样本对应的标注之间偏差为优化目标,对所述排序模型进行训练。
可选地,所述基准训练样本包括:排序模型预测出的搜索结果与搜索词之间的匹配度与用户实际执行结果不一致的训练样本、排序模型预测的搜索结果与搜索词之间匹配度的置信度低于预设阈值的训练样本中的至少一种。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种训练集的生成方法。
本说明书还提供了图4所示的一种对应于图1的电子设备的示意结构图。如图4所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的训练集的生成方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种训练集的生成方法,其特征在于,包括:
获取基准训练样本;
根据所述基准训练样本中包含的搜索词以及搜索结果,确定出所述基准训练样本对应的特征表示,作为基准特征表示,所述基准特征表示用于表征所述基准训练样本包含的搜索词的词特征、以及所述搜索词与所述搜索结果中的至少部分文本所构成的各词序列的匹配情况;
根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与所述历史搜索词对应的历史搜索结果;
对所述目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
2.如权利要求1所述的方法,其特征在于,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,具体包括:
根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重;
根据每个候选样本对应的特征表示,以及每个候选样本对应的权重,从所述各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本。
3.如权利要求2所述的方法,其特征在于,根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重,具体包括:
根据每个候选样本对应的搜索时间的先后顺序,确定每个候选样本对应的权重,其中,针对每个候选样本,若该候选样本对应的搜索时间距离当前时间越近,该候选样本对应的权重越大。
4.如权利要求2所述的方法,其特征在于,根据每个候选样本对应的搜索时间,确定每个候选样本对应的权重,具体包括:
针对每个候选样本,判断该候选样本对应的搜索时间是否属于指定时间;
若是,将预设的第一权重,作为该候选样本对应的权重,否则,将预设的第二权重,作为该候选样本对应的权重,所述第一权重大于所述第二权重。
5.如权利要求1所述的方法,其特征在于,根据标注后的各目标样本,确定用于模型训练的训练集,具体包括:
根据标注后的各目标样本,确定测试集和子训练集;
根据所述子训练集,对所述排序模型进行训练,得到训练后的排序模型;
将所述测试集中包含的训练样本,分别输入到未经所述子训练集训练的排序模型和所述训练后的排序模型中,以确定出未经所述子训练集训练的排序模型确定所述测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为所述未经所述子训练集训练的排序模型对应的准确率,以及所述训练后的排序模型确定所述测试集中包含的搜索词与历史搜索结果之间匹配度时的准确率,作为所述训练后的排序模型对应的准确率;
若确定所述训练后的排序模型对应的准确率大于所述未经所述子训练集训练的排序模型对应的准确率,将所述测试集和所述子训练集补充到预设的全量训练集中,得到用于对所述排序模型进行训练的训练集。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述训练集中的每个训练样本,将该训练样本输入到待训练的排序模型中,得到所述排序模型输出的该训练样本中的历史搜索结果与搜索词之间的匹配度;
以最小化所述匹配度与该训练样本对应的标注之间偏差为优化目标,对所述排序模型进行训练。
7.如权利要求1~6任一项所述的方法,其特征在于,所述基准训练样本包括:排序模型预测出的搜索结果与搜索词之间的匹配度与用户实际执行结果不一致的训练样本、排序模型预测的搜索结果与搜索词之间匹配度的置信度低于预设阈值的训练样本中的至少一种。
8.一种训练集的生成装置,其特征在于,包括:
获取模块,用于获取基准训练样本;
确定模块,用于根据所述基准训练样本中包含的搜索词以及搜索结果,确定出所述基准训练样本对应的特征表示,作为基准特征表示,所述基准特征表示用于表征所述基准训练样本包含的搜索词的词特征、以及所述搜索词与所述搜索结果中的至少部分文本所构成的各词序列的匹配情况;
筛选模块,用于根据确定出的各候选样本对应的特征表示,从各候选样本中,筛选出与所述基准特征表示相匹配的候选样本,作为目标样本,针对每个候选样本,该候选样本中包括历史搜索词与所述历史搜索词对应的历史搜索结果;
生成模块,用于对所述目标样本进行标注,并根据标注后的目标样本,生成用于训练排序模型的训练集。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210430967.8A CN114882311A (zh) | 2022-04-22 | 2022-04-22 | 一种训练集的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210430967.8A CN114882311A (zh) | 2022-04-22 | 2022-04-22 | 一种训练集的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882311A true CN114882311A (zh) | 2022-08-09 |
Family
ID=82672171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210430967.8A Pending CN114882311A (zh) | 2022-04-22 | 2022-04-22 | 一种训练集的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882311A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115482440A (zh) * | 2022-11-09 | 2022-12-16 | 荣耀终端有限公司 | 样本数据获取方法、模型训练方法、电子设备及介质 |
CN116502679A (zh) * | 2023-05-15 | 2023-07-28 | 之江实验室 | 一种模型构建方法、装置、存储介质及电子设备 |
CN117909333A (zh) * | 2024-02-02 | 2024-04-19 | 深圳天朴科技有限公司 | 基于大数据结合人工智能实现数据的筛选方法及*** |
-
2022
- 2022-04-22 CN CN202210430967.8A patent/CN114882311A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115482440A (zh) * | 2022-11-09 | 2022-12-16 | 荣耀终端有限公司 | 样本数据获取方法、模型训练方法、电子设备及介质 |
CN116502679A (zh) * | 2023-05-15 | 2023-07-28 | 之江实验室 | 一种模型构建方法、装置、存储介质及电子设备 |
CN116502679B (zh) * | 2023-05-15 | 2023-09-05 | 之江实验室 | 一种模型构建方法、装置、存储介质及电子设备 |
CN117909333A (zh) * | 2024-02-02 | 2024-04-19 | 深圳天朴科技有限公司 | 基于大数据结合人工智能实现数据的筛选方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596645B (zh) | 一种信息推荐的方法、装置及设备 | |
CN114882311A (zh) | 一种训练集的生成方法及装置 | |
CN113010640B (zh) | 一种业务执行的方法及装置 | |
CN111144952A (zh) | 基于用户兴趣的广告推荐方法、装置、服务器及存储介质 | |
CN113688313A (zh) | 一种预测模型的训练方法、信息推送的方法及装置 | |
CN112966186A (zh) | 一种模型训练和信息推荐的方法及装置 | |
CN108519997B (zh) | 相关内容的推荐方法及装置 | |
CN115238826B (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN113344098A (zh) | 一种模型训练方法及装置 | |
CN115048577A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN111191132A (zh) | 一种信息推荐方法、装置及电子设备 | |
CN114298735A (zh) | 一种模型训练的方法、信息推送的方法及装置 | |
CN113343095A (zh) | 一种模型训练以及信息推荐方法及装置 | |
CN113641894A (zh) | 一种信息推荐的方法及装置 | |
CN113010809A (zh) | 一种信息推荐的方法及装置 | |
CN113343132B (zh) | 一种模型训练的方法、信息展示的方法及装置 | |
CN115017905A (zh) | 一种模型训练和信息推荐的方法及装置 | |
CN114331602A (zh) | 一种基于迁移学习的模型训练方法、信息推荐方法及装置 | |
CN114861043A (zh) | 一种模型训练以及推荐位置确定方法及装置 | |
CN114997907A (zh) | 一种预测模型的训练方法、信息推荐的方法及装置 | |
CN112966187A (zh) | 一种信息推荐的方法及装置 | |
CN113887234A (zh) | 一种模型训练以及推荐方法及装置 | |
CN113343085A (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN113344197A (zh) | 一种识别模型的训练方法、业务执行的方法以及装置 | |
CN112905913A (zh) | 一种舆情展示方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |