CN116204688B - 一种基于键入搜索词推荐用户搜索词的方法 - Google Patents

一种基于键入搜索词推荐用户搜索词的方法 Download PDF

Info

Publication number
CN116204688B
CN116204688B CN202310483388.4A CN202310483388A CN116204688B CN 116204688 B CN116204688 B CN 116204688B CN 202310483388 A CN202310483388 A CN 202310483388A CN 116204688 B CN116204688 B CN 116204688B
Authority
CN
China
Prior art keywords
target
search
user
difference
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310483388.4A
Other languages
English (en)
Other versions
CN116204688A (zh
Inventor
李志洁
王鹏
陈拉拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantum Digital Technology Co ltd
Original Assignee
Quantum Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantum Digital Technology Co ltd filed Critical Quantum Digital Technology Co ltd
Priority to CN202310483388.4A priority Critical patent/CN116204688B/zh
Publication of CN116204688A publication Critical patent/CN116204688A/zh
Application granted granted Critical
Publication of CN116204688B publication Critical patent/CN116204688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种基于键入搜索词推荐用户搜索词的方法,该方法包括:获取待推荐用户对应的目标键入信息,并确定目标键入信息对应的目标类别;根据目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,其中,候选搜索词集合包括:待推荐用户对应的相似用户集合中的各个相似用户和待推荐用户在目标键入信息对应的目标类别下的搜索词;根据候选搜索词对应的目标预测评分,从候选搜索词集合中筛选出待推荐搜索词集合;将待推荐搜索词集合推荐给待推荐用户。本发明通过对目标键入信息进行数据处理,提高了对用户进行搜索词推荐的准确度,应用于对用户进行搜索词推荐。

Description

一种基于键入搜索词推荐用户搜索词的方法
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于键入搜索词推荐用户搜索词的方法。
背景技术
随着科学技术的发展,各种类型的电子设备走入人们的日常生活,为了提高电子设备使用的智能化体验,现阶段大多数电子设备往往会根据用户的搜索词来推荐相关内容,其中,搜索词是指用户在搜索引擎中搜索想要了解内容时所输入的词条。为了提高用户体验,往往在用户输入搜索词部分内容时,进行搜索词推荐,当推荐的搜索词中含有用户需要的搜索词,可以使用户不需进行后续的输入,从而提高用户体验。目前,对用户进行搜索词推荐时,通常采用的方式为:基于用户的历史搜索词,确定推荐搜索词。
然而,当采用上述方式时,经常会存在如下技术问题:
当用户想要搜索的内容是用户历史未曾搜索过的类型方面的内容时,基于用户的历史搜索词,往往难以准确的对用户进行搜索词推荐,从而导致对用户进行搜索词推荐的准确度低下。
发明内容
本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决对用户进行搜索词推荐的准确度低下的技术问题,本发明提出了一种基于键入搜索词推荐用户搜索词的方法。
本发明提供了一种基于键入搜索词推荐用户搜索词的方法,该方法包括:
获取待推荐用户对应的目标键入信息,并确定所述目标键入信息对应的目标类别;
根据所述目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,其中,所述候选搜索词集合包括:所述待推荐用户对应的相似用户集合中的各个相似用户和所述待推荐用户在所述目标键入信息对应的目标类别下的搜索词;
根据候选搜索词对应的目标预测评分,从所述候选搜索词集合中筛选出待推荐搜索词集合;
将所述待推荐搜索词集合推荐给所述待推荐用户;
确定所述相似用户集合包括以下步骤:
获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合;
对得到的所有历史搜索信息集合包括的搜索词进行分类,得到目标类别集合;
确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度;
根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度,确定每个目标用户在每个目标类别下的目标评估指标,得到目标评估矩阵,其中,目标用户是待推荐用户或参考用户;
根据得到的所有历史搜索信息集合和所述目标评估矩阵,从所述参考用户集合中筛选出相似用户集合。
进一步地,所述对得到的所有历史搜索信息集合包括的搜索词进行分类,得到目标类别集合,包括:
将得到的所有历史搜索信息集合包括的每个搜索词输入到预先训练完成的目标分类网络,得到所述搜索词属于预设类别集合中的每个预设类别的概率,作为所述搜索词在所述预设类别下的类别概率,得到所述搜索词对应的类别概率集合;
对于得到的所有历史搜索信息集合包括的每个搜索词,从所述搜索词对应的类别概率集合中筛选出最大的类别概率,作为所述搜索词对应的目标概率,将所述搜索词对应的目标概率对应的预设类别,确定为所述搜索词对应的目标类别;
将得到的所有历史搜索信息集合包括的所有搜索词对应的目标类别,组合为目标类别集合。
进一步地,所述确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度,包括:
根据这两个搜索词对应的目标概率,将这两个搜索词分别确定为第一搜索词和第二搜索词;
根据第一数量、第二数量和第三数量,确定第一搜索词和第二搜索词之间的第一差异,其中,第一数量是所有历史搜索信息集合中包括第一搜索词不包括第二搜索词的历史搜索信息的数量,第二数量是所有历史搜索信息集合中包括第二搜索词不包括第一搜索词的历史搜索信息的数量,第三数量是所有历史搜索信息集合中既包括第一搜索词又包括第二搜索词的历史搜索信息的数量,第一数量和第二数量均与第一差异呈正相关,第三数量与第一差异呈负相关;
将第二概率与第一搜索词对应的目标概率的差值的绝对值,确定为第一搜索词和第二搜索词之间的第二差异,其中,第二概率是第二搜索词在第一搜索词对应的目标类别下的类别概率;
根据第一搜索词和第二搜索词之间的第一差异与第二差异,确定第一搜索词和第二搜索词之间的第三差异,其中,第一差异和第二差异均与第三差异呈正相关;
对第一搜索词和第二搜索词进行编码,得到第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据;
确定第一编码数据和第二编码数据之间的编辑距离,作为第一搜索词和第二搜索词之间的第四差异;
根据第一搜索词和第二搜索词之间的第四差异与第三差异,确定第一搜索词和第二搜索词之间的目标关联度,其中,第四差异和第三差异均与目标关联度呈负相关。
进一步地,所述根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度,确定每个目标用户在每个目标类别下的目标评估指标,包括:
将第四数量在第五数量中的占比,确定为所述目标用户在所述目标类别下的初始评估指标,其中,第四数量是所有历史搜索信息集合包括的所述目标用户在所述目标类别中键入搜索词的数量,第五数量是所有历史搜索信息集合包括的所述目标用户键入搜索词的数量;
根据所有历史搜索信息集合包括的所述目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度,确定所述目标用户在所述目标类别下的第一关联度,其中,所述目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度均与第一关联度呈正相关;
根据所有历史搜索信息集合包括的所有目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度,确定所述目标类别对应的第二关联度,其中,所有目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度均与第二关联度呈正相关;
将所述目标用户在所述目标类别下的第一关联度,在所述目标类别对应的第二关联度中的占比,确定为所述目标用户在所述目标类别下的第三关联度;
根据所述目标用户在所述目标类别集合中的目标类别下的初始评估指标,确定所述目标用户对应的参考评估指标,其中,所述目标用户在所述目标类别集合中的目标类别下的初始评估指标与参考评估指标呈正相关;
根据所述目标用户对应的参考评估指标和所述目标用户在所述目标类别下的第三关联度,确定所述目标用户在所述目标类别下的目标评估指标,其中,参考评估指标和第三关联度均与目标评估指标呈正相关。
进一步地,所述根据得到的所有历史搜索信息集合和所述目标评估矩阵,从所述参考用户集合中筛选出相似用户集合,包括:
根据得到的所有历史搜索信息集合,确定每个目标用户在每个目标类别下的语义契合度,得到语义契合度矩阵;
根据所述目标评估矩阵和所述语义契合度矩阵,从所述参考用户集合中筛选出相似用户集合。
进一步地,所述根据得到的所有历史搜索信息集合,确定每个目标用户在每个目标类别下的语义契合度,包括:
根据所有历史搜索信息集合包括的搜索词对应的目标行为频次,确定所述目标用户在所述目标类别下的目标行为契合度;
将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的所有搜索词对应的目标长度的方差,确定为所述目标用户在所述目标类别下的第一语义差异;
根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合,确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异;
根据所述目标用户在所述目标类别下键入的各个搜索词对应的第二语义差异,确定所述目标用户在所述目标类别下的第三语义差异,其中,所述目标用户在所述目标类别下键入的各个搜索词对应的第二语义差异与第三语义差异呈正相关;
根据所述目标用户在所述目标类别下的目标行为契合度、第一语义差异和第三语义差异,确定所述目标用户在所述目标类别下的语义契合度,其中,目标行为契合度与目标行为契合度呈正相关,第一语义差异和第三语义差异均与目标行为契合度呈负相关。
进一步地,所述根据所有历史搜索信息集合包括的搜索词对应的目标行为频次,确定所述目标用户在所述目标类别下的目标行为契合度,包括:
根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的各个搜索词对应的目标行为频次,确定所述目标用户在所述目标类别下的第一行为差异,其中,目标行为频次与第一行为差异呈正相关;
将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的所有搜索词对应的目标行为频次的方差,确定为所述目标用户在所述目标类别下的第二行为差异;
将所有历史搜索信息集合包括的所述目标类别集合中所有目标类别中的所有搜索词对应的目标行为频次的均值,确定为参考行为频次;
将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的各个搜索词对应的目标行为频次与所述参考行为频次的差值的累加和,确定为所述目标用户在所述目标类别下的第三行为差异;
根据所述目标用户在所述目标类别下的第一行为差异、第二行为差异和第三行为差异,确定所述目标用户在所述目标类别下的目标行为契合度,其中,第一行为差异、第二行为差异和第三行为差异均与目标行为契合度呈负相关。
进一步地,所述根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合,确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异,包括:
确定所述搜索词与所述搜索词对应的修改词集合中的每个修改词之间的差异,作为所述搜索词与所述修改词之间的目标差异,得到所述搜索词对应的目标差异集合;
根据所述搜索词对应的目标差异集合,确定所述搜索词对应的第二语义差异,其中,目标差异集合中的各个目标差异与第二语义差异呈正相关。
进一步地,所述根据所述目标评估矩阵和所述语义契合度矩阵,从所述参考用户集合中筛选出相似用户集合,包括:
对于所述待推荐用户和所述参考用户集合中的每个参考用户,将所述目标评估矩阵包括的所述参考用户和所述待推荐用户在每个目标类别下的目标评估指标的差值的平方,确定为所述待推荐用户和所述参考用户在所述目标类别下的第一评估差异,得到所述待推荐用户和所述参考用户之间的第一评估差异集合;
根据所述待推荐用户和每个参考用户之间的第一评估差异集合,确定所述待推荐用户和所述参考用户之间的第二评估差异,其中,第一评估差异集合中的第一评估差异与第二评估差异呈正相关;
对于所述待推荐用户和所述参考用户集合中的每个参考用户,将所述语义契合度矩阵包括的所述参考用户和所述待推荐用户在每个目标类别下的语义契合度的差值的平方,确定为所述待推荐用户和所述参考用户在所述目标类别下的第一契合差异,得到所述待推荐用户和所述参考用户之间的第一契合差异集合;
根据所述待推荐用户和每个参考用户之间的第一契合差异集合,确定所述待推荐用户和所述参考用户之间的第二契合差异,其中,第一契合差异集合中的第一契合差异与第二契合差异呈正相关;
根据所述待推荐用户和每个参考用户之间的第二评估差异和第二契合差异,确定所述待推荐用户和所述参考用户之间的度量距离,其中,第二评估差异和第二契合差异均与度量距离呈正相关;
根据所述待推荐用户和所述参考用户集合中的各个参考用户之间的度量距离,从所述参考用户集合中筛选出相似用户集合。
进一步地,所述根据所述目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,包括:
从目标搜索词组中筛选出所述候选搜索词对应的子搜索词组,其中,目标搜索词组包括:所述待推荐用户对应的相似用户集合中的各个相似用户和所述待推荐用户在所述目标键入信息对应的目标类别下的所有搜索词;
对于所述候选搜索词对应的子搜索词组中的每个搜索词,将键入该搜索词的目标用户在所述目标键入信息对应的目标类别下的语义契合度,确定为该搜索词对应的目标契合度;
对于所述候选搜索词对应的子搜索词组中的每个搜索词,根据该搜索词对应的目标契合度和目标概率,确定该搜索词对应的第一评分,其中,目标契合度和目标概率均与第一评分呈正相关;
根据所述候选搜索词对应的子搜索词组中的各个搜索词对应的第一评分,确定所述候选搜索词对应的目标预测评分,其中,子搜索词组中的各个搜索词对应的第一评分与目标预测评分呈正相关。
本发明具有如下有益效果:
本发明的一种基于键入搜索词推荐用户搜索词的方法,通过对目标键入信息进行数据处理,解决了对用户进行搜索词推荐的准确度低下的技术问题,提高了对用户进行搜索词推荐的准确度。首先,确定目标键入信息对应的目标类别,可以便于了解待推荐用户想要了解的内容类型,可以便于后续进行精确推荐。接着,由于候选搜索词集合包括:待推荐用户对应的相似用户集合中的各个相似用户和待推荐用户在目标键入信息对应的目标类别下的搜索词。因此从候选搜索词集合中进行待推荐搜索词的筛选,相较于直接从待推荐用户的历史搜索词中筛选,候选搜索词集合中的搜索词更加符合待推荐用户想要了解的类型中的内容,不是多种类型混杂在一起,更容易进行筛选出待推荐用户想要搜索的内容。其次,从候选搜索词集合中进行待推荐搜索词的筛选,相较于直接从待推荐用户的历史搜索词中筛选,候选搜索词集合中的搜索词不仅包含了待推荐用户曾经输入的搜索词,还包括了与待推荐用户相似的相似用户集合中的各个相似用户曾经输入的搜索词,使候选搜索词集合中的搜索词更加全面,即使待推荐用户想要搜索的内容是待推荐用户未曾搜索过的类型方面的内容时,还可以基于相似用户集合中的相似用户键入的关于该类型方面的搜索词,对待推荐用户进行推荐。比如,目标键入信息对应的目标类别是待推荐用户未曾搜索过的类型,还可以从候选搜索词集合包括的相似用户集合中的各个相似用户在目标键入信息对应的目标类别下的搜索词中进行搜索词推荐。然后,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,可以便于后续从候选搜索词集合中筛选出待推荐搜索词集合。最后,将待推荐搜索词集合推荐给待推荐用户,可以实现对待推荐用户进行搜索词推荐,并且提高了对用户进行搜索词推荐的准确度。其次,基于待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合、综合考虑搜索词之间的目标关联度和目标评估矩阵,从参考用户集合中筛选出相似用户集合,可以提高相似用户集合确定的准确度,从而可以提高对待推荐用户进行搜索词推荐的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为根据本发明的一种基于键入搜索词推荐用户搜索词的方法的流程图;
图2为根据本发明的确定相似用户集合的步骤的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明提供了一种基于键入搜索词推荐用户搜索词的方法,该方法包括以下步骤:
获取待推荐用户对应的目标键入信息,并确定目标键入信息对应的目标类别;
根据目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分;
根据候选搜索词对应的目标预测评分,从候选搜索词集合中筛选出待推荐搜索词集合;
将待推荐搜索词集合推荐给待推荐用户。
下面对上述各个步骤进行详细展开:
参考图1,示出了根据本发明的一种基于键入搜索词推荐用户搜索词的方法的一些实施例的流程。该基于键入搜索词推荐用户搜索词的方法,包括以下步骤:
步骤S1,获取待推荐用户对应的目标键入信息,并确定目标键入信息对应的目标类别。
在一些实施例中,可以获取待推荐用户对应的目标键入信息,并确定上述目标键入信息对应的目标类别。
其中,待推荐用户可以是待进行搜索词推荐的用户。搜索词可以是进行搜索的文本信息。目标键入信息也可以是文本信息。文本信息可以是任何文字组成的信息。例如,文本信息可以是但不限于:词语、句子、成语或多个词语的组合。目标键入信息可以是待推荐用户已键入的参与搜索的内容。目标键入信息对应的目标类别可以是目标键入信息所在的类别。
需要说明的是,确定目标键入信息对应的目标类别,可以便于了解待推荐用户想要了解的内容类型,可以便于后续进行精确推荐。
作为示例,本步骤可以包括以下步骤:
第一步,获取待推荐用户对应的目标键入信息。
例如,可以获取待推荐用户在搜索框中已经键入(输入)的内容,作为目标键入信息。
比如,若待推荐用户在搜索框中已经键入的内容为“电脑”,则目标键入信息为“电脑”。若待推荐用户在搜索框中已经键入的内容为“手机电池”,则目标键入信息为“手机电池”。
第二步,确定上述目标键入信息对应的目标类别。
例如,可以通过预先训练完成的目标分类网络,确定目标键入信息对应的目标类别。
其中,目标分类网络可以是用于判断文本信息所在类别的网络。目标分类网络可以是TextCNN网络(Text Convolutional Neural Networks,用于文本分析的卷积神经网络)。TextCNN网络的优化器可以为Adam。
可选地,目标分类网络的训练过程可以包括以下步骤:
第一步,获取参考文本信息集合和参考文本信息集合中的每个参考文本信息所在的类别。
其中,参考文本信息可以是已知类别的文本信息。
第二步,构建目标分类网络。
例如,可以构建TextCNN网络,作为训练前的目标分类网络。
第三步,将参考文本信息集合作为目标分类网络的训练集,将每个参考文本信息所在的类别作为目标分类网络的训练标签,对构建的目标分类网络进行训练,得到训练完成的目标分类网络。
其中,目标分类网络训练过程中的损失函数可以为交叉熵损失函数。目标分类网络的输出可以是参考文本信息属于预设类别集合中的每个预设类别的概率。预设类别可以是预先设置的类别。预设类别集合可以包括:预先标注的参考文本信息集合中的各个参考文本信息所在的类别。预设类别集合中预设类别的数量可以为100。
例如,预设类别集合可以包括:电脑相关类别、手机相关类别和铅笔相关类别。电脑相关类别可以包括:与电脑相关的信息。手机相关类别可以包括:与手机相关的信息。铅笔相关类别可以包括:与铅笔相关的信息。若参考文本信息是“电脑键盘”,则该参考文本信息所在的类别可以是电脑相关类别,进行目标分类网络训练时,可以得到该参考文本信息分别属于电脑相关类别、手机相关类别和铅笔相关类别的概率。将该参考文本信息输入到训练完成的目标分类网络,得到的概率中最大的概率可以是该参考文本信息属于电脑相关类别的概率。
步骤S2,根据目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分。
在一些实施例中,可以根据上述目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分。
其中,上述候选搜索词集合可以包括:上述待推荐用户对应的相似用户集合中的各个相似用户和上述待推荐用户在上述目标键入信息对应的目标类别下的搜索词。例如,候选搜索词集合可以包括:待推荐用户对应的相似用户集合中的各个相似用户在目标键入信息对应的目标类别下的搜索词、待推荐用户在上述目标键入信息对应的目标类别下的搜索词。候选搜索词集合可以是对待推荐用户对应的相似用户集合中的各个相似用户和上述待推荐用户在上述目标键入信息对应的目标类别下的搜索词进行去重后得到的集合。相似用户集合中的相似用户可以是与待推荐用户偏好相近的用户。用户在某个目标类别下的搜索词可以是用户输入的属于该目标类别的搜索词。候选搜索词集合可以是通过爬虫获取的集合。
需要说明的是,候选搜索词对应的目标预测评分越大,往往说明候选搜索词越应该被推荐。因此,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,可以便于后续从候选搜索词集合中筛选出待推荐搜索词集合。
可选地,参考图2,确定上述相似用户集合可以包括以下步骤:
步骤201,获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合。
在一些实施例中,可以获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合。
其中,待推荐用户对应的历史搜索信息集合可以包括:待推荐用户在不同时间键入的搜索词信息。参考用户对应的历史搜索信息集合可以包括:该参考用户在不同时间键入的搜索词信息。历史搜索信息可以包括:搜索词、搜索词的键入时间、搜索词对应的目标行为频次、搜索词对应的目标长度和搜索词对应的修改词集合。历史搜索信息包括的搜索词可以是用户需要进行搜索的内容。例如,搜索词可以是用户点击搜索按钮时,搜索框内的内容。搜索词的键入时间可以是该搜索词被输入到搜索框的时间。搜索词对应的目标行为频次可以是用户点击搜索按钮前,对搜索内容进行修改的次数。例如,搜索词对应的目标行为频次可以等于该搜索词对应的修改词集合中修改词的数量。搜索词对应的目标长度可以是该搜索词中的文字的数量。搜索词对应的修改词集合可以包括:用户在搜索框内正确输入该搜索词之前,对搜索内容进行修改得到的内容。例如,某个历史搜索信息可以包括:“手机壁纸图片”、“2023年04月24日09时31分26秒”、4、6、{“手集”,“手”,“手机壁纸涂”,“手机壁纸”}。其中,“手机壁纸图片”是该历史搜索信息包括的搜索词。“2023年04月24日09时31分26秒”是该历史搜索信息包括的搜索词的键入时间。4是该历史搜索信息包括的搜索词对应的目标行为频次。6是该历史搜索信息包括的搜索词对应的目标长度。搜索词对应的修改词集合可以是{“手集”,“手”,“手机壁纸涂”,“手机壁纸”}。“手集”、“手”、“手机壁纸涂”和“手机壁纸”可以是对搜索内容进行修改得到的修改词。“手集”可以是记录的用户输入搜索词“手机壁纸图片”时的第一次输入错误,于是对“手集”中的“集”进行删除,做了一次修改,得到“手”,对“手”进行增加,得到“手机壁纸涂”,存在错误文字“涂”,于是对“手机壁纸涂”中的“涂”进行删除,做了一次修改,得到“手机壁纸”,在“手机壁纸”之后没有错误的输入,因此得到的修改词可以分别为“手集”、“手”、“手机壁纸涂”和“手机壁纸”。
需要说明的是,获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合,可以便于后续判断待推荐用户和参考用户之间的相似情况,可以便于后续从参考用户集合中筛选出相似用户集合。
作为示例,可以利用爬虫技术,获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合。为了避免爬虫过程中出现数据异常的现象,可以对爬虫获取的数据进行数据清洗。
步骤202,对得到的所有历史搜索信息集合包括的搜索词进行分类,得到目标类别集合。
在一些实施例中,可以对得到的所有历史搜索信息集合包括的搜索词进行分类,得到目标类别集合。
其中,目标类别集合可以包括:所有历史搜索信息集合包括的搜索词所在的类别。
需要说明的是,对得到的所有历史搜索信息集合包括的搜索词进行分类,可以便于后续分析每个目标用户在每个目标类别下的情况,可以便于后续从参考用户集合中筛选出相似用户集合。其中,目标用户可以是待推荐用户或参考用户。
作为示例,本步骤可以包括以下步骤:
第一步,将得到的所有历史搜索信息集合包括的每个搜索词输入到预先训练完成的目标分类网络,得到上述搜索词属于预设类别集合中的每个预设类别的概率,作为上述搜索词在上述预设类别下的类别概率,得到上述搜索词对应的类别概率集合。
其中,搜索词对应的类别概率集合可以包括:该搜索词在预设类别集合中的每个预设类别下的类别概率。
第二步,对于得到的所有历史搜索信息集合包括的每个搜索词,从上述搜索词对应的类别概率集合中筛选出最大的类别概率,作为上述搜索词对应的目标概率,将上述搜索词对应的目标概率对应的预设类别,确定为上述搜索词对应的目标类别。
其中,搜索词对应的目标类别可以是该搜索词所在的类别。搜索词属于该搜索词对应的目标类别的概率可以是该搜索词对应的类别概率集合中最大的类别概率。
第三步,将得到的所有历史搜索信息集合包括的所有搜索词对应的目标类别,组合为目标类别集合。
步骤203,确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度。
在一些实施例中,可以确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度。
其中,两个搜索词之间的目标关联度可以表征这两个搜索词之间的关联情况。
作为示例,本步骤可以包括以下步骤:
第一步,根据这两个搜索词对应的目标概率,将这两个搜索词分别确定为第一搜索词和第二搜索词。
其中,可以将这两个搜索词中目标概率较大的搜索词,确定为第一搜索词,可以将这两个搜索词中目标概率较小的搜索词,确定为第二搜索词。当这两个搜索词对应的目标概率相等时,可以将这两个搜索词随机的确定为第一搜索词和第二搜索词。
第二步,根据第一数量、第二数量和第三数量,确定第一搜索词和第二搜索词之间的第一差异。
其中,第一数量可以是所有历史搜索信息集合中包括第一搜索词不包括第二搜索词的历史搜索信息的数量。第二数量可以是所有历史搜索信息集合中包括第二搜索词不包括第一搜索词的历史搜索信息的数量。第三数量可以是所有历史搜索信息集合中既包括第一搜索词又包括第二搜索词的历史搜索信息的数量。第一数量和第二数量均可以与第一差异呈正相关。第三数量可以与第一差异呈负相关。
例如,若第一搜索词是“手机”,第二搜索词是“电池”,则搜索词“手机屏幕”可以是包括第一搜索词不包括第二搜索词的搜索词,搜索词“手机屏幕”所在的历史搜索信息可以是包括第一搜索词不包括第二搜索词的历史搜索信息。搜索词“电脑电池”可以是包括第二搜索词不包括第一搜索词的搜索词,搜索词“电脑电池”所在的历史搜索信息可以是包括第二搜索词不包括第一搜索词的历史搜索信息。搜索词“手机电池”可以是既包括第一搜索词又包括第二搜索词的搜索词,搜索词“手机电池”所在的历史搜索信息可以是既包括第一搜索词又包括第二搜索词的历史搜索信息。
第三步,将第二概率与第一搜索词对应的目标概率的差值的绝对值,确定为第一搜索词和第二搜索词之间的第二差异。
其中,第二概率可以是第二搜索词在第一搜索词对应的目标类别下的类别概率。
第四步,根据第一搜索词和第二搜索词之间的第一差异与第二差异,确定第一搜索词和第二搜索词之间的第三差异。
其中,第一差异和第二差异均可以与第三差异呈正相关。
第五步,对第一搜索词和第二搜索词进行编码,得到第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据。
例如,可以采用UTF-8(8位元,Universal Character Set/UnicodeTransformation Format,可变长度字符编码)的编码规则,对第一搜索词进行编码,得到第一编码数据。可以采用UTF-8的编码规则,对第二搜索词进行编码,得到第二编码数据。
第六步,确定第一编码数据和第二编码数据之间的编辑距离,作为第一搜索词和第二搜索词之间的第四差异。
第七步,根据第一搜索词和第二搜索词之间的第四差异与第三差异,确定第一搜索词和第二搜索词之间的目标关联度。
其中,第四差异和第三差异均可以与目标关联度呈负相关。
例如,确定第一搜索词和第二搜索词之间的目标关联度对应的公式可以为:
Figure SMS_1
其中,
Figure SMS_19
是第一搜索词和第二搜索词之间的目标关联度。
Figure SMS_23
是第一搜索词和第 二搜索词之间的第一差异。
Figure SMS_27
是第一数量。
Figure SMS_5
是第二数量。
Figure SMS_7
是第三数量。
Figure SMS_11
是 取
Figure SMS_15
Figure SMS_4
中的最大值。
Figure SMS_8
是取
Figure SMS_12
Figure SMS_16
中的最小值。若
Figure SMS_20
Figure SMS_24
,则
Figure SMS_28
Figure SMS_32
。若
Figure SMS_18
Figure SMS_22
,则
Figure SMS_26
Figure SMS_30
Figure SMS_2
Figure SMS_6
均与
Figure SMS_10
呈正相关。
Figure SMS_14
Figure SMS_31
呈负相关。M是得到的所有历史搜索信息集合中历史搜索信息的数量。
Figure SMS_35
是第一搜索 词对应的目标概率。
Figure SMS_38
是第二概率。
Figure SMS_41
Figure SMS_36
的绝对值。
Figure SMS_39
是第一搜索词和 第二搜索词之间的第二差异。
Figure SMS_42
是自然常数的
Figure SMS_44
次方。
Figure SMS_21
是第一搜索词 和第二搜索词之间的第三差异。
Figure SMS_25
Figure SMS_29
均与
Figure SMS_33
呈正相关。
Figure SMS_34
Figure SMS_37
是预先设置的大 于0的因子,主要用于防止分母为0。比如,
Figure SMS_40
Figure SMS_43
均可以取0.01。
Figure SMS_3
是第一搜索词对应的 第一编码数据和第二搜索词对应的第二编码数据之间的编辑距离,也就是第一搜索词和第 二搜索词之间的第四差异。
Figure SMS_9
Figure SMS_13
均与
Figure SMS_17
呈负相关。
需要说明的是,当
Figure SMS_46
越大时,往往说明第一搜索词和第二搜索词同时出现的情况 越多,往往说明第一搜索词和第二搜索词越可能是同一个类别中的词,往往说明第一搜索 词和第二搜索词之间的关联程度往往越高。
Figure SMS_50
Figure SMS_52
越大,往往说明第一 搜索词和第二搜索词单独出现的可能性越大,往往说明第一搜索词和第二搜索词越可能不 是同一个类别中的词,往往说明第一搜索词和第二搜索词之间的关联程度往往越低。因此
Figure SMS_47
越大,往往说明第一搜索词和第二搜索词之间的关联程度往往越低。当
Figure SMS_49
越大 时,往往说明第一搜索词和第二搜索词越可能不是同一个类别中的词,往往说明第一搜索 词和第二搜索词之间的关联程度往往越低。因此,
Figure SMS_51
越大,往往说明第一搜索词和第二搜 索词之间的关联程度往往越低。由于
Figure SMS_53
是第一搜索词对应的第一编码数据和第二搜索 词对应的第二编码数据之间的编辑距离,因此当
Figure SMS_45
越大时,往往说明第一搜索词和第二 搜索词之间的差异越大,往往说明第一搜索词和第二搜索词之间的关联程度往往越低。因 此,
Figure SMS_48
越大,往往说明第一搜索词和第二搜索词之间的关联程度往往越低。
步骤204,根据得到的所有历史搜索信息集合、目标类别集合和搜索词之间的目标关联度,确定每个目标用户在每个目标类别下的目标评估指标,得到目标评估矩阵。
在一些实施例中,可以根据得到的所有历史搜索信息集合、上述目标类别集合和搜索词之间的目标关联度,确定每个目标用户在每个目标类别下的目标评估指标,得到目标评估矩阵。
其中,目标用户可以是待推荐用户或参考用户。目标评估矩阵可以包括:各个目标用户在各个目标类别下的目标评估指标。
需要说明的是,目标用户在目标类别下的目标评估指标可以表征该目标用户对该目标类别的偏好评分,也就是可以表征该目标用户对该目标类别的偏好程度。
作为示例,本步骤可以包括以下步骤:
第一步,将第四数量在第五数量中的占比,确定为上述目标用户在上述目标类别下的初始评估指标。
其中,第四数量可以是所有历史搜索信息集合包括的上述目标用户在上述目标类别中键入搜索词的数量。第五数量可以是所有历史搜索信息集合包括的上述目标用户键入搜索词的数量。
例如,确定目标用户在目标类别下的初始评估指标对应的公式可以为:
Figure SMS_54
其中,
Figure SMS_57
是第
Figure SMS_61
个目标用户在目标类别集合中的第
Figure SMS_64
个目标类别下的初始评估指 标。
Figure SMS_58
是所有历史搜索信息集合包括的第
Figure SMS_59
个目标用户在第
Figure SMS_62
个目标类别中键入的搜索词 的数量,也就是第四数量。
Figure SMS_65
是所有历史搜索信息集合包括的第
Figure SMS_56
个目标用户键入搜索词 的数量,也就是第五数量。
Figure SMS_60
是预先设置的大于0的因子,主要用于防止分母为0。比如,
Figure SMS_63
可 以取0.01。
Figure SMS_66
是目标用户的序号。
Figure SMS_55
是目标类别集合中目标类别的序号。
需要说明的是,当
Figure SMS_75
越大时,往往说明第
Figure SMS_69
个目标用户在第
Figure SMS_71
个目标类别中键入 的搜索词越多,往往说明第
Figure SMS_78
个目标用户对第
Figure SMS_81
个目标类别中的内容可能越感兴趣,往往说 明第
Figure SMS_79
个目标用户对第
Figure SMS_82
个目标类别的偏好程度越高。由于
Figure SMS_76
是第
Figure SMS_80
个目标用户键入搜索词 的数量,因此当
Figure SMS_67
越大时,往往说明第
Figure SMS_72
个目标用户在第
Figure SMS_70
个目标类别中键入的搜索词相 对于其他目标类别越多,往往说明第
Figure SMS_74
个目标用户对第
Figure SMS_73
个目标类别中的内容相对于其他目 标类别可以越感兴趣,往往说明第
Figure SMS_77
个目标用户对第
Figure SMS_68
个目标类别的偏好程度相对于其他目 标类别可能越高。
第二步,根据所有历史搜索信息集合包括的上述目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度,确定上述目标用户在上述目标类别下的第一关联度。
其中,上述目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度均可以与第一关联度呈正相关。
第三步,根据所有历史搜索信息集合包括的所有目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度,确定上述目标类别对应的第二关联度。
其中,所有目标用户键入的各个搜索词和上述目标类别中的各个搜索词之间的目标关联度均可以与第二关联度呈正相关。
第四步,将上述目标用户在上述目标类别下的第一关联度,在上述目标类别对应的第二关联度中的占比,确定为上述目标用户在上述目标类别下的第三关联度。
第五步,根据上述目标用户在上述目标类别集合中的目标类别下的初始评估指标,确定上述目标用户对应的参考评估指标。
其中,上述目标用户在上述目标类别集合中的目标类别下的初始评估指标可以与参考评估指标呈正相关。
例如,可以将目标用户在目标类别集合中所有目标类别下的初始评估指标的均值,确定为该目标用户对应的参考评估指标。
又如,可以从目标用户在目标类别集合中的各个目标类别下的初始评估指标中筛选出最大的初始评估指标,作为该目标用户对应的参考评估指标。
第六步,根据上述目标用户对应的参考评估指标和上述目标用户在上述目标类别下的第三关联度,确定上述目标用户在上述目标类别下的目标评估指标。
其中,参考评估指标和第三关联度均可以与目标评估指标呈正相关。
例如,确定目标用户在目标类别下的目标评估指标对应的公式可以为:
Figure SMS_83
其中,
Figure SMS_103
是第
Figure SMS_107
个目标用户在目标类别集合中的第
Figure SMS_110
个目标类别下的目标评估指 标。
Figure SMS_87
是所有历史搜索信息集合包括的第
Figure SMS_91
个目标用户键入的第i个搜索词和第
Figure SMS_95
个目标 类别中的第j个搜索词之间的目标关联度。
Figure SMS_99
是第
Figure SMS_88
个目标用户在第
Figure SMS_92
个目标类别下的第 一关联度。
Figure SMS_96
是所有历史搜索信息集合包括的第
Figure SMS_100
个目标用户键入的搜索词的数量。
Figure SMS_104
是 所有历史搜索信息集合包括的第
Figure SMS_108
个目标类别中搜索词的数量。
Figure SMS_112
Figure SMS_114
呈正相关。n是 目标用户的数量。
Figure SMS_102
可以表征所有历史搜索信息集合包括的所有目标用户键入的 各个搜索词和第
Figure SMS_106
个目标类别中的各个搜索词之间的目标关联度的累加值。
Figure SMS_111
是第
Figure SMS_115
个目标类别对应的第二关联度。
Figure SMS_84
Figure SMS_90
呈正相关。
Figure SMS_94
是第
Figure SMS_98
个目标用户在第
Figure SMS_101
个目标类别下的第三关联度。
Figure SMS_105
是预先设置的大于0的因子,主要用于防止分母为0。比如,
Figure SMS_109
可以取0.01。
Figure SMS_113
是第
Figure SMS_116
个目标用户对应的参考评估指标。
Figure SMS_117
是自然常数的
Figure SMS_118
次方。
Figure SMS_119
可以实现对
Figure SMS_85
的归一化。
Figure SMS_89
是目标用户的序 号。
Figure SMS_93
是目标类别集合中目标类别的序号。i是所有历史搜索信息集合包括的第
Figure SMS_97
个目标用户 键入的搜索词的序号。j是所有历史搜索信息集合包括的第
Figure SMS_86
个目标类别中搜索词的序号。
需要说明的是,由于
Figure SMS_136
是第
Figure SMS_139
个目标用户键入的第i个搜索词和第
Figure SMS_142
个目标类别 中的第j个搜索词之间的目标关联度,所以
Figure SMS_120
可以表征第
Figure SMS_125
个目标用户和第
Figure SMS_129
个目标类别 的关联程度。并且,由于
Figure SMS_133
可以表征所有目标用户和第
Figure SMS_121
个目标类别的整体关联程 度。因此,
Figure SMS_126
越大,往往说明第
Figure SMS_130
个目标用户和第
Figure SMS_134
个目标类别的相对关联程度越大,往往 说明第
Figure SMS_123
个目标用户键入的搜索词在第
Figure SMS_124
个目标类别中的越多,往往说明第
Figure SMS_128
个目标用户对 第
Figure SMS_132
个目标类别中的内容可能越感兴趣,往往说明第
Figure SMS_138
个目标用户对第
Figure SMS_141
个目标类别的偏好 程度越高。由于
Figure SMS_143
越大,往往说明第
Figure SMS_144
个目标用户对第
Figure SMS_122
个目标类别的偏好程度越高。因此
Figure SMS_127
越大,往往说明第
Figure SMS_131
个目标用户对第
Figure SMS_135
个目标类别的偏好程度越高。其次,
Figure SMS_137
可以实现对
Figure SMS_140
的归一化,可以便于后续处理。
步骤205,根据得到的所有历史搜索信息集合和目标评估矩阵,从参考用户集合中筛选出相似用户集合。
在一些实施例中,可以根据得到的所有历史搜索信息集合和上述目标评估矩阵,从上述参考用户集合中筛选出相似用户集合。
需要说明的是,综合考虑得到的所有历史搜索信息集合和目标评估矩阵,从参考用户集合中筛选出相似用户集合,可以提高相似用户集合确定的准确度,从而可以提高对待推荐用户进行搜索词推荐的准确度。
作为示例,本步骤可以包括以下步骤:
第一步,根据得到的所有历史搜索信息集合,确定每个目标用户在每个目标类别下的语义契合度,得到语义契合度矩阵。
其中,语义契合度矩阵可以包括各个目标用户在各个目标类别下的语义契合度。
例如,确定每个目标用户在每个目标类别下的语义契合度可以包括以下子步骤:
第一子步骤,根据所有历史搜索信息集合包括的搜索词对应的目标行为频次,确定上述目标用户在上述目标类别下的目标行为契合度。
比如,确定每个目标用户在上述目标类别下的目标行为契合度可以包括以下步骤:
首先,根据所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的各个搜索词对应的目标行为频次,确定上述目标用户在上述目标类别下的第一行为差异。
其中,目标行为频次可以与第一行为差异呈正相关。
如,可以将所有历史搜索信息集合包括的目标用户在目标类别下键入的所有搜索词对应的目标行为频次的均值,确定为该目标用户在该目标类别下的第一行为差异。
又如,可以将所有历史搜索信息集合包括的目标用户在目标类别下键入的各个搜索词对应的目标行为频次中最小的目标行为频次,确定为该目标用户在该目标类别下的第一行为差异。
接着,将所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的所有搜索词对应的目标行为频次的方差,确定为上述目标用户在上述目标类别下的第二行为差异。
然后,将所有历史搜索信息集合包括的上述目标类别集合中所有目标类别中的所有搜索词对应的目标行为频次的均值,确定为参考行为频次。
之后,将所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的各个搜索词对应的目标行为频次与上述参考行为频次的差值的累加和,确定为上述目标用户在上述目标类别下的第三行为差异。
最后,根据上述目标用户在上述目标类别下的第一行为差异、第二行为差异和第三行为差异,确定上述目标用户在上述目标类别下的目标行为契合度。
其中,第一行为差异、第二行为差异和第三行为差异均可以与目标行为契合度呈负相关。
如,确定上述目标用户在上述目标类别下的目标行为契合度对应的公式可以为:
Figure SMS_145
其中,
Figure SMS_163
是第
Figure SMS_167
个目标用户在目标类别集合中的第
Figure SMS_171
个目标类别下的目标行为契 合度。
Figure SMS_147
是第
Figure SMS_151
个目标用户在第
Figure SMS_155
个目标类别下的第一行为差异。
Figure SMS_159
是第
Figure SMS_175
个目标用户在第
Figure SMS_179
个目标类别下的第二行为差异,也就是所有历史搜索信息集合包括的第
Figure SMS_181
个目标用户在第
Figure SMS_183
个目标类别下键入的所有搜索词对应的目标行为频次的方差。t是参考行为频次。
Figure SMS_178
是 所有历史搜索信息集合包括的第
Figure SMS_180
个目标用户在第
Figure SMS_182
个目标类别下键入的第f个搜索词对应 的目标行为频次。
Figure SMS_184
是所有历史搜索信息集合包括的第
Figure SMS_162
个目标用户在第
Figure SMS_166
个目标类别下 键入的搜索词的数量。
Figure SMS_170
是第
Figure SMS_174
个目标用户在第
Figure SMS_146
个目标类别下的第三行为差 异。
Figure SMS_150
Figure SMS_154
Figure SMS_158
是预先设置的大于0的因子,主要用于防止分母为0。比如,
Figure SMS_149
Figure SMS_152
Figure SMS_156
均可以取 0.01。
Figure SMS_160
是第
Figure SMS_164
个目标用户在第
Figure SMS_168
个目标类别下的第四行为差异。
Figure SMS_172
可以实现 对
Figure SMS_176
的归一化。
Figure SMS_148
Figure SMS_153
Figure SMS_157
均可以与
Figure SMS_161
呈负相关。
Figure SMS_165
是目标用户的序号。
Figure SMS_169
是目标类别集合中目标类别的序号。f是所有历史搜索信息集合包括的第
Figure SMS_173
个目标用户在第
Figure SMS_177
个目标类别下键入的搜索词的序号。
需要说明的是,当搜索词对应的目标行为频次越大时,往往说明目标用户输入该 搜索词进行修改的次数越多,往往说明目标用户对该搜索词的熟悉程度可能越低,往往说 明目标用户对该搜索词所在目标类别的熟悉程度可能越低,往往说明目标用户对该搜索词 所在目标类别的行为契合程度越低。由于目标行为频次与
Figure SMS_204
呈正相关,因此
Figure SMS_207
越大,往往 说明第
Figure SMS_210
个目标用户对第
Figure SMS_187
个目标类别的契合程度可能越低。当
Figure SMS_192
越大时,往往说明第
Figure SMS_196
个 目标用户在第
Figure SMS_200
个目标类别下键入的搜索词对应的目标行为频次越混乱,往往说明第
Figure SMS_202
个目 标用户对第
Figure SMS_205
个目标类别的熟悉程度越不稳定,往往说明第
Figure SMS_208
个目标用户对第
Figure SMS_211
个目标类别 的行为习惯越不稳定,往往说明第
Figure SMS_203
个目标用户对第
Figure SMS_206
个目标类别的契合程度可能越低。当
Figure SMS_209
越大时,往往说明第f个搜索词被修改的次数越多。当
Figure SMS_212
越大时,往往 说明第
Figure SMS_188
个目标用户在键入第
Figure SMS_191
个目标类别中的搜索词时修改的次数越多,往往说明第
Figure SMS_195
个 目标用户对第
Figure SMS_199
个目标类别的熟悉程度越低,往往说明第
Figure SMS_185
个目标用户对第
Figure SMS_189
个目标类别的 行为契合程度可能越低。因此,当
Figure SMS_193
越大时,往往说明第
Figure SMS_197
个目标用户对第
Figure SMS_186
个目标类别的 熟悉程度越高,往往说明第
Figure SMS_190
个目标用户对第
Figure SMS_194
个目标类别的行为契合程度可能越高。其次,
Figure SMS_198
可以实现对
Figure SMS_201
的归一化,可以便于后续处理。
第二子步骤,将所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的所有搜索词对应的目标长度的方差,确定为上述目标用户在上述目标类别下的第一语义差异。
第三子步骤,根据所有历史搜索信息集合包括的上述目标用户在上述目标类别下键入的每个搜索词对应的修改词集合,确定上述目标用户在上述目标类别下键入的每个搜索词对应的第二语义差异。
比如,确定每个目标用户在上述目标类别下键入的每个搜索词对应的第二语义差异可以包括以下步骤:
首先,确定上述搜索词与上述搜索词对应的修改词集合中的每个修改词之间的差异,作为上述搜索词与上述修改词之间的目标差异,得到上述搜索词对应的目标差异集合。
其中,搜索词与修改词之间的目标差异可以表征搜索词与修改词之间的差异。搜索词对应的目标差异集合可以包括:该搜索词与该搜索词对应的修改词集合中的各个修改词之间的目标差异。
如,可以采用UTF-8的编码规则,对搜索词进行编码,得到第一数据。可以采用UTF-8的编码规则,对修改词进行编码,得到第二数据。可以将第一数据与第二数据之间的编辑距离,作为搜索词与修改词之间的目标差异。
接着,根据上述搜索词对应的目标差异集合,确定上述搜索词对应的第二语义差异。
其中,目标差异集合中的各个目标差异可以与第二语义差异呈正相关。
第四子步骤,根据上述目标用户在上述目标类别下键入的各个搜索词对应的第二语义差异,确定上述目标用户在上述目标类别下的第三语义差异。
其中,上述目标用户在上述目标类别下键入的各个搜索词对应的第二语义差异可以与第三语义差异呈正相关。
第五子步骤,根据上述目标用户在上述目标类别下的目标行为契合度、第一语义差异和第三语义差异,确定上述目标用户在上述目标类别下的语义契合度。
其中,目标行为契合度可以与目标行为契合度呈正相关。第一语义差异和第三语义差异均可以与目标行为契合度呈负相关。
比如,确定目标用户在目标类别下的语义契合度对应的公式可以为:
Figure SMS_213
其中,
Figure SMS_230
是第
Figure SMS_234
个目标用户在目标类别集合中的第
Figure SMS_238
个目标类别下的语义契合度。
Figure SMS_215
是第
Figure SMS_220
个目标用户在第
Figure SMS_224
个目标类别下的目标行为契合度。
Figure SMS_226
是第
Figure SMS_227
个目标用户在第
Figure SMS_231
个目标类别下的第一语义差异,也就是所有历史搜索信息集合包括的第
Figure SMS_235
个目标用户在第
Figure SMS_239
个目标类别下键入的所有搜索词对应的目标长度的方差。
Figure SMS_241
是第
Figure SMS_245
个目标用户在第
Figure SMS_248
个 目标类别下的第三语义差异。
Figure SMS_250
Figure SMS_233
呈正相关。
Figure SMS_237
是预先设置的大于0的因子, 主要用于防止分母为0。比如,
Figure SMS_242
可以取0.01。
Figure SMS_246
是所有历史搜索信息集合包括的第
Figure SMS_217
个 目标用户在第
Figure SMS_221
个目标类别下键入的,第f个搜索词与第f个搜索词对应的修改词集合中的 第b个修改词之间的目标差异。
Figure SMS_225
是所有历史搜索信息集合包括的第
Figure SMS_229
个目标用户在第
Figure SMS_232
个目标类别下键入的第f个搜索词对应的修改词集合中修改词的数量。
Figure SMS_236
是所有历史搜索 信息集合包括的第
Figure SMS_240
个目标用户在第
Figure SMS_244
个目标类别下键入的搜索词的数量。
Figure SMS_243
是 所有历史搜索信息集合包括的第
Figure SMS_247
个目标用户在第
Figure SMS_249
个目标类别下键入的第f个搜索词对应 的第二语义差异。
Figure SMS_251
Figure SMS_214
呈正相关。
Figure SMS_218
是目标用户的序号。
Figure SMS_223
是目标类别集合 中目标类别的序号。f是所有历史搜索信息集合包括的第
Figure SMS_228
个目标用户在第
Figure SMS_216
个目标类别下 键入的搜索词的序号。b是第
Figure SMS_219
个目标用户在第
Figure SMS_222
个目标类别下键入的第f个搜索词对应的修 改词集合中修改词的序号。
需要说明的是,当
Figure SMS_268
越大时,往往说明第
Figure SMS_271
个目标用户在第
Figure SMS_273
个目标类别下键入的 搜索词与对应的修改词集合中的修改词之间的差异越大,往往说明第
Figure SMS_255
个目标用户在第
Figure SMS_256
个 目标类别下对应的修改词的数量可能越多,往往说明第
Figure SMS_260
个目标用户在第
Figure SMS_264
个目标类别下键 入的搜索词被修改的次数越多,往往说明第
Figure SMS_253
个目标用户对第
Figure SMS_257
个目标类别的语义契合程度 可能越低。当
Figure SMS_261
越大时,往往说明第
Figure SMS_265
个目标用户在第
Figure SMS_259
个目标类别下键入的搜索词对应 的目标长度越混乱,往往说明第
Figure SMS_263
个目标用户在第
Figure SMS_267
个目标类别下键入的搜索词的长度越不 同,往往说明第
Figure SMS_270
个目标用户对第
Figure SMS_269
个目标类别的语义契合程度可能越低。由于当
Figure SMS_272
越大 时,往往说明第
Figure SMS_274
个目标用户对第
Figure SMS_275
个目标类别的熟悉程度越高,往往说明第
Figure SMS_252
个目标用户对 第
Figure SMS_258
个目标类别的行为契合程度可能越高。因此,
Figure SMS_262
越大,往往说明第
Figure SMS_266
个目标用户对第
Figure SMS_254
个 目标类别的语义契合程度可能越高。
第二步,根据上述目标评估矩阵和上述语义契合度矩阵,从上述参考用户集合中筛选出相似用户集合。
例如,从上述参考用户集合中筛选出相似用户集合可以包括以下子步骤:
第一子步骤,对于上述待推荐用户和上述参考用户集合中的每个参考用户,将上述目标评估矩阵包括的上述参考用户和上述待推荐用户在每个目标类别下的目标评估指标的差值的平方,确定为上述待推荐用户和上述参考用户在上述目标类别下的第一评估差异,得到上述待推荐用户和上述参考用户之间的第一评估差异集合。
其中,待推荐用户和参考用户之间的第一评估差异集合可以包括:待推荐用户和该参考用户在各个目标类别下的第一评估差异。
第二子步骤,根据上述待推荐用户和每个参考用户之间的第一评估差异集合,确定上述待推荐用户和上述参考用户之间的第二评估差异。
其中,第一评估差异集合中的第一评估差异可以与第二评估差异呈正相关。
第三子步骤,对于上述待推荐用户和上述参考用户集合中的每个参考用户,将上述语义契合度矩阵包括的上述参考用户和上述待推荐用户在每个目标类别下的语义契合度的差值的平方,确定为上述待推荐用户和上述参考用户在上述目标类别下的第一契合差异,得到上述待推荐用户和上述参考用户之间的第一契合差异集合。
其中,待推荐用户和参考用户之间的第一契合差异集合可以包括:待推荐用户和该参考用户在各个目标类别下的第一契合差异。
第四子步骤,根据上述待推荐用户和每个参考用户之间的第一契合差异集合,确定上述待推荐用户和上述参考用户之间的第二契合差异。
其中,第一契合差异集合中的第一契合差异可以与第二契合差异呈正相关。
第五子步骤,根据上述待推荐用户和每个参考用户之间的第二评估差异和第二契合差异,确定上述待推荐用户和上述参考用户之间的度量距离。
其中,第二评估差异和第二契合差异均可以与度量距离呈正相关。
比如,确定待推荐用户和参考用户之间的度量距离对应的公式可以为:
Figure SMS_276
其中,
Figure SMS_286
是待推荐用户和参考用户集合中第c个参考用户之间的度量距离。G是目 标类别集合中目标类别的数量。
Figure SMS_278
是待推荐用户在目标类别集合中的第
Figure SMS_282
个目标类别下的 语义契合度。
Figure SMS_290
是第c个参考用户在第
Figure SMS_294
个目标类别下的语义契合度。
Figure SMS_296
是待推荐用户在第
Figure SMS_299
个目标类别下的目标评估指标。
Figure SMS_287
是第c个参考用户在第
Figure SMS_291
个目标类别下的目标评估指 标。
Figure SMS_277
是目标类别集合中目标类别的序号。c是参考用户集合中参考用户的序号。
Figure SMS_283
是待推荐用户和第c个参考用户在第
Figure SMS_293
个目标类别下的第一评估差异。
Figure SMS_297
是待推荐用户和第c个参考用户之间的第二评估差异。
Figure SMS_295
Figure SMS_298
呈正相关。
Figure SMS_280
是待推荐用户和第c个参考用户在第
Figure SMS_284
个目标类别 下的第一契合差异。
Figure SMS_288
是待推荐用户和第c个参考用户之间的第二契合差异。
Figure SMS_292
Figure SMS_279
呈正相关。
Figure SMS_281
Figure SMS_285
均与
Figure SMS_289
呈正 相关。
需要说明的是,当
Figure SMS_300
Figure SMS_301
越小时,往往说明待推荐用户和第c 个参考用户在第
Figure SMS_302
个目标类别下的偏好情况越相似。因此,
Figure SMS_303
越小时,往往说明待推荐用户 和第c个参考用户的偏好情况越相似,往往说明第c个参考用户越可能是待推荐用户的相似 用户。
第六子步骤,根据上述待推荐用户和上述参考用户集合中的各个参考用户之间的度量距离,从上述参考用户集合中筛选出相似用户集合。
比如,可以根据待推荐用户和参考用户集合中的各个参考用户之间的度量距离,利用KNN(K-NearestNeighbor,K最邻近)算法,获取待推荐用户的近邻集,并将待推荐用户的近邻集,确定为相似用户集合。其中,KNN算法中的K可以为20。
需要说明的是,获取的参考用户集合和历史搜索信息集合中的数据越全面,筛选出相似用户集合往往越精确。
可选地,根据上述目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分可以包括以下步骤:
第一步,从目标搜索词组中筛选出上述候选搜索词对应的子搜索词组。
其中,目标搜索词组可以包括:上述待推荐用户对应的相似用户集合中的各个相似用户和上述待推荐用户在上述目标键入信息对应的目标类别下的所有搜索词。目标搜索词组可以包括相同的搜索词。候选搜索词对应的子搜索词组可以包括:该候选搜索词、目标搜索词组中与该候选搜索词相同的搜索词。
第二步,对于上述候选搜索词对应的子搜索词组中的每个搜索词,将键入该搜索词的目标用户在上述目标键入信息对应的目标类别下的语义契合度,确定为该搜索词对应的目标契合度。
第三步,对于上述候选搜索词对应的子搜索词组中的每个搜索词,根据该搜索词对应的目标契合度和目标概率,确定该搜索词对应的第一评分。
其中,目标契合度和目标概率均可以与第一评分呈正相关。
第四步,根据上述候选搜索词对应的子搜索词组中的各个搜索词对应的第一评分,确定上述候选搜索词对应的目标预测评分。
其中,子搜索词组中的各个搜索词对应的第一评分可以与目标预测评分呈正相关。
例如,确定上述候选搜索词对应的目标预测评分对应的公式可以为:
Figure SMS_304
其中,
Figure SMS_306
是候选搜索词集合中的第h个候选搜索词对应的目标预测评分。
Figure SMS_310
是键 入第y个搜索词(第h个候选搜索词对应的子搜索词组中的第y个搜索词)的目标用户在目标 键入信息对应的目标类别下的语义契合度,也就是第y个搜索词对应的目标契合度。
Figure SMS_313
是 第h个候选搜索词对应的子搜索词组中的第y个搜索词对应的目标概率。
Figure SMS_307
是第h个候选 搜索词对应的子搜索词组中的第y个搜索词对应的第一评分。
Figure SMS_309
Figure SMS_312
均与
Figure SMS_314
呈正相关。
Figure SMS_305
是第h个候选搜索词对应的子搜索词组中搜索词的数量。
Figure SMS_308
Figure SMS_311
呈正相关。
需要说明的是,当
Figure SMS_315
越大时,往往说明第h个候选搜索词被分到目标键入信息对 应的目标类别下的分类结果越准确。当
Figure SMS_316
越大时,往往说明键入第y个搜索词的目标用户 在目标键入信息对应的目标类别下的语义契合程度越大。因此,
Figure SMS_317
越大时,往往说明第h个 候选搜索词越适合被推荐给待推荐用户。
步骤S3,根据候选搜索词对应的目标预测评分,从候选搜索词集合中筛选出待推荐搜索词集合。
在一些实施例中,可以根据候选搜索词对应的目标预测评分,从上述候选搜索词集合中筛选出待推荐搜索词集合。
其中,待推荐搜索词集合中的待推荐搜索词可以是待进行推荐的搜索词。
作为示例,可以从候选搜索词集合中筛选出目标预测评分最高的预设数量个候选搜索词,作为待推荐搜索词,得到待推荐搜索词集合。其中,预设数量可以是预先设置的数量。例如,预设数量可以是10。
可选地,可以将目标评估矩阵作为协同过滤算法中的用户评估矩阵,将相似用户集合作为协同过滤算法中的用户近邻集,基于目标评估矩阵和相似用户集合,计算每个用户在对应的历史搜索信息集合中未键入搜索词的预测评分,基于Top-N推荐准则将每个搜索词预测评分按照从大到小的顺序进行排序,此时N的大小可以取20,即将预测评分排序结果中的20个搜索词组成推荐列表,并将推荐列表推荐给待推荐用户。
例如,若目标键入信息为“电脑”,预设数量为4,则待推荐搜索词集合可以为{“电脑屏幕”,“XXX品牌电脑”,“电脑电池”,“电脑键盘”}。
需要说明的是,获取的参考用户集合和历史搜索信息集合中的数据越全面,筛选出相似用户集合和待推荐搜索词集合往往越精确。
步骤S4,将待推荐搜索词集合推荐给待推荐用户。
在一些实施例中,可以将上述待推荐搜索词集合推荐给上述待推荐用户。
作为示例,可以采用网页技术,按照从大到小的顺序,将待推荐搜索词集合中的待推荐搜索词,显示在待推荐用户所输入的搜索框的下方,便于待推荐用户进行选择,以实现对待推荐用户进行搜索词推荐。
综上,首先确定目标键入信息对应的目标类别,可以便于了解待推荐用户想要了解的内容类型,可以便于后续进行精确推荐。接着,由于候选搜索词集合包括:待推荐用户对应的相似用户集合中的各个相似用户和待推荐用户在目标键入信息对应的目标类别下的搜索词。因此从候选搜索词集合中进行待推荐搜索词的筛选,相较于直接从待推荐用户的历史搜索词中筛选,候选搜索词集合中的搜索词更加符合待推荐用户想要了解的类型中的内容,不是多种类型混杂在一起,更容易进行筛选出待推荐用户想要搜索的内容。其次,从候选搜索词集合中进行待推荐搜索词的筛选,相较于直接从待推荐用户的历史搜索词中筛选,候选搜索词集合中的搜索词不仅包含了待推荐用户曾经输入的搜索词,还包括了与待推荐用户相似的相似用户集合中的各个相似用户曾经输入的搜索词,使候选搜索词集合中的搜索词更加全面,即使待推荐用户想要搜索的内容是待推荐用户未曾搜索过的类型方面的内容时,还可以基于相似用户集合中的相似用户键入的关于该类型方面的搜索词,对待推荐用户进行推荐。比如,目标键入信息对应的目标类别是待推荐用户未曾搜索过的类型,还可以从候选搜索词集合包括的相似用户集合中的各个相似用户在目标键入信息对应的目标类别下的搜索词中进行搜索词推荐。然后,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,可以便于后续从候选搜索词集合中筛选出待推荐搜索词集合。最后,将待推荐搜索词集合推荐给待推荐用户,可以实现对待推荐用户进行搜索词推荐,并且提高了对用户进行搜索词推荐的准确度。其次,基于待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合、综合考虑搜索词之间的目标关联度和目标评估矩阵,从参考用户集合中筛选出相似用户集合,可以提高相似用户集合确定的准确度,从而可以提高对待推荐用户进行搜索词推荐的准确度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于键入搜索词推荐用户搜索词的方法,其特征在于,包括以下步骤:
获取待推荐用户对应的目标键入信息,并确定所述目标键入信息对应的目标类别;
根据所述目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,其中,所述候选搜索词集合包括:所述待推荐用户对应的相似用户集合中的各个相似用户和所述待推荐用户在所述目标键入信息对应的目标类别下的搜索词;
根据候选搜索词对应的目标预测评分,从所述候选搜索词集合中筛选出待推荐搜索词集合;
将所述待推荐搜索词集合推荐给所述待推荐用户;
确定所述相似用户集合包括以下步骤:
获取待推荐用户对应的历史搜索信息集合和参考用户集合中每个参考用户对应的历史搜索信息集合;
对得到的所有历史搜索信息集合包括的搜索词进行分类,得到目标类别集合;
确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度;
根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度,确定每个目标用户在每个目标类别下的目标评估指标,得到目标评估矩阵,其中,目标用户是待推荐用户或参考用户;
根据得到的所有历史搜索信息集合和所述目标评估矩阵,从所述参考用户集合中筛选出相似用户集合。
2.根据权利要求1所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述对得到的所有历史搜索信息集合包括的搜索词进行分类,得到目标类别集合,包括:
将得到的所有历史搜索信息集合包括的每个搜索词输入到预先训练完成的目标分类网络,得到所述搜索词属于预设类别集合中的每个预设类别的概率,作为所述搜索词在所述预设类别下的类别概率,得到所述搜索词对应的类别概率集合;
对于得到的所有历史搜索信息集合包括的每个搜索词,从所述搜索词对应的类别概率集合中筛选出最大的类别概率,作为所述搜索词对应的目标概率,将所述搜索词对应的目标概率对应的预设类别,确定为所述搜索词对应的目标类别;
将得到的所有历史搜索信息集合包括的所有搜索词对应的目标类别,组合为目标类别集合。
3.根据权利要求2所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述确定得到的所有历史搜索信息集合包括的每两个搜索词之间的目标关联度,包括:
根据这两个搜索词对应的目标概率,将这两个搜索词分别确定为第一搜索词和第二搜索词;
根据第一数量、第二数量和第三数量,确定第一搜索词和第二搜索词之间的第一差异,其中,第一数量是所有历史搜索信息集合中包括第一搜索词不包括第二搜索词的历史搜索信息的数量,第二数量是所有历史搜索信息集合中包括第二搜索词不包括第一搜索词的历史搜索信息的数量,第三数量是所有历史搜索信息集合中既包括第一搜索词又包括第二搜索词的历史搜索信息的数量,第一数量和第二数量均与第一差异呈正相关,第三数量与第一差异呈负相关;
将第二概率与第一搜索词对应的目标概率的差值的绝对值,确定为第一搜索词和第二搜索词之间的第二差异,其中,第二概率是第二搜索词在第一搜索词对应的目标类别下的类别概率;
根据第一搜索词和第二搜索词之间的第一差异与第二差异,确定第一搜索词和第二搜索词之间的第三差异,其中,第一差异和第二差异均与第三差异呈正相关;
对第一搜索词和第二搜索词进行编码,得到第一搜索词对应的第一编码数据和第二搜索词对应的第二编码数据;
确定第一编码数据和第二编码数据之间的编辑距离,作为第一搜索词和第二搜索词之间的第四差异;
根据第一搜索词和第二搜索词之间的第四差异与第三差异,确定第一搜索词和第二搜索词之间的目标关联度,其中,第四差异和第三差异均与目标关联度呈负相关。
4.根据权利要求1所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据得到的所有历史搜索信息集合、所述目标类别集合和搜索词之间的目标关联度,确定每个目标用户在每个目标类别下的目标评估指标,包括:
将第四数量在第五数量中的占比,确定为所述目标用户在所述目标类别下的初始评估指标,其中,第四数量是所有历史搜索信息集合包括的所述目标用户在所述目标类别中键入搜索词的数量,第五数量是所有历史搜索信息集合包括的所述目标用户键入搜索词的数量;
根据所有历史搜索信息集合包括的所述目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度,确定所述目标用户在所述目标类别下的第一关联度,其中,所述目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度均与第一关联度呈正相关;
根据所有历史搜索信息集合包括的所有目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度,确定所述目标类别对应的第二关联度,其中,所有目标用户键入的各个搜索词和所述目标类别中的各个搜索词之间的目标关联度均与第二关联度呈正相关;
将所述目标用户在所述目标类别下的第一关联度,在所述目标类别对应的第二关联度中的占比,确定为所述目标用户在所述目标类别下的第三关联度;
根据所述目标用户在所述目标类别集合中的目标类别下的初始评估指标,确定所述目标用户对应的参考评估指标,其中,所述目标用户在所述目标类别集合中的目标类别下的初始评估指标与参考评估指标呈正相关;
根据所述目标用户对应的参考评估指标和所述目标用户在所述目标类别下的第三关联度,确定所述目标用户在所述目标类别下的目标评估指标,其中,参考评估指标和第三关联度均与目标评估指标呈正相关。
5.根据权利要求2所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据得到的所有历史搜索信息集合和所述目标评估矩阵,从所述参考用户集合中筛选出相似用户集合,包括:
根据得到的所有历史搜索信息集合,确定每个目标用户在每个目标类别下的语义契合度,得到语义契合度矩阵;
根据所述目标评估矩阵和所述语义契合度矩阵,从所述参考用户集合中筛选出相似用户集合。
6.根据权利要求5所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据得到的所有历史搜索信息集合,确定每个目标用户在每个目标类别下的语义契合度,包括:
根据所有历史搜索信息集合包括的搜索词对应的目标行为频次,确定所述目标用户在所述目标类别下的目标行为契合度;
将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的所有搜索词对应的目标长度的方差,确定为所述目标用户在所述目标类别下的第一语义差异;
根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合,确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异;
根据所述目标用户在所述目标类别下键入的各个搜索词对应的第二语义差异,确定所述目标用户在所述目标类别下的第三语义差异,其中,所述目标用户在所述目标类别下键入的各个搜索词对应的第二语义差异与第三语义差异呈正相关;
根据所述目标用户在所述目标类别下的目标行为契合度、第一语义差异和第三语义差异,确定所述目标用户在所述目标类别下的语义契合度,其中,目标行为契合度与目标行为契合度呈正相关,第一语义差异和第三语义差异均与目标行为契合度呈负相关。
7.根据权利要求6所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据所有历史搜索信息集合包括的搜索词对应的目标行为频次,确定所述目标用户在所述目标类别下的目标行为契合度,包括:
根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的各个搜索词对应的目标行为频次,确定所述目标用户在所述目标类别下的第一行为差异,其中,目标行为频次与第一行为差异呈正相关;
将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的所有搜索词对应的目标行为频次的方差,确定为所述目标用户在所述目标类别下的第二行为差异;
将所有历史搜索信息集合包括的所述目标类别集合中所有目标类别中的所有搜索词对应的目标行为频次的均值,确定为参考行为频次;
将所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的各个搜索词对应的目标行为频次与所述参考行为频次的差值的累加和,确定为所述目标用户在所述目标类别下的第三行为差异;
根据所述目标用户在所述目标类别下的第一行为差异、第二行为差异和第三行为差异,确定所述目标用户在所述目标类别下的目标行为契合度,其中,第一行为差异、第二行为差异和第三行为差异均与目标行为契合度呈负相关。
8.根据权利要求6所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据所有历史搜索信息集合包括的所述目标用户在所述目标类别下键入的每个搜索词对应的修改词集合,确定所述目标用户在所述目标类别下键入的每个搜索词对应的第二语义差异,包括:
确定所述搜索词与所述搜索词对应的修改词集合中的每个修改词之间的差异,作为所述搜索词与所述修改词之间的目标差异,得到所述搜索词对应的目标差异集合;
根据所述搜索词对应的目标差异集合,确定所述搜索词对应的第二语义差异,其中,目标差异集合中的各个目标差异与第二语义差异呈正相关。
9.根据权利要求5所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据所述目标评估矩阵和所述语义契合度矩阵,从所述参考用户集合中筛选出相似用户集合,包括:
对于所述待推荐用户和所述参考用户集合中的每个参考用户,将所述目标评估矩阵包括的所述参考用户和所述待推荐用户在每个目标类别下的目标评估指标的差值的平方,确定为所述待推荐用户和所述参考用户在所述目标类别下的第一评估差异,得到所述待推荐用户和所述参考用户之间的第一评估差异集合;
根据所述待推荐用户和每个参考用户之间的第一评估差异集合,确定所述待推荐用户和所述参考用户之间的第二评估差异,其中,第一评估差异集合中的第一评估差异与第二评估差异呈正相关;
对于所述待推荐用户和所述参考用户集合中的每个参考用户,将所述语义契合度矩阵包括的所述参考用户和所述待推荐用户在每个目标类别下的语义契合度的差值的平方,确定为所述待推荐用户和所述参考用户在所述目标类别下的第一契合差异,得到所述待推荐用户和所述参考用户之间的第一契合差异集合;
根据所述待推荐用户和每个参考用户之间的第一契合差异集合,确定所述待推荐用户和所述参考用户之间的第二契合差异,其中,第一契合差异集合中的第一契合差异与第二契合差异呈正相关;
根据所述待推荐用户和每个参考用户之间的第二评估差异和第二契合差异,确定所述待推荐用户和所述参考用户之间的度量距离,其中,第二评估差异和第二契合差异均与度量距离呈正相关;
根据所述待推荐用户和所述参考用户集合中的各个参考用户之间的度量距离,从所述参考用户集合中筛选出相似用户集合。
10.根据权利要求5所述的一种基于键入搜索词推荐用户搜索词的方法,其特征在于,所述根据所述目标键入信息对应的目标类别,获取候选搜索词集合中的每个候选搜索词对应的目标预测评分,包括:
从目标搜索词组中筛选出所述候选搜索词对应的子搜索词组,其中,目标搜索词组包括:所述待推荐用户对应的相似用户集合中的各个相似用户和所述待推荐用户在所述目标键入信息对应的目标类别下的所有搜索词;
对于所述候选搜索词对应的子搜索词组中的每个搜索词,将键入该搜索词的目标用户在所述目标键入信息对应的目标类别下的语义契合度,确定为该搜索词对应的目标契合度;
对于所述候选搜索词对应的子搜索词组中的每个搜索词,根据该搜索词对应的目标契合度和目标概率,确定该搜索词对应的第一评分,其中,目标契合度和目标概率均与第一评分呈正相关;
根据所述候选搜索词对应的子搜索词组中的各个搜索词对应的第一评分,确定所述候选搜索词对应的目标预测评分,其中,子搜索词组中的各个搜索词对应的第一评分与目标预测评分呈正相关。
CN202310483388.4A 2023-05-04 2023-05-04 一种基于键入搜索词推荐用户搜索词的方法 Active CN116204688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310483388.4A CN116204688B (zh) 2023-05-04 2023-05-04 一种基于键入搜索词推荐用户搜索词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310483388.4A CN116204688B (zh) 2023-05-04 2023-05-04 一种基于键入搜索词推荐用户搜索词的方法

Publications (2)

Publication Number Publication Date
CN116204688A CN116204688A (zh) 2023-06-02
CN116204688B true CN116204688B (zh) 2023-06-30

Family

ID=86517671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310483388.4A Active CN116204688B (zh) 2023-05-04 2023-05-04 一种基于键入搜索词推荐用户搜索词的方法

Country Status (1)

Country Link
CN (1) CN116204688B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474636B (zh) * 2023-12-27 2024-04-12 广州宇中网络科技有限公司 一种基于大数据的平台用户推荐方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022869A (zh) * 2016-05-12 2016-10-12 北京邮电大学 一种消费对象的推荐方法及装置
CN109635291A (zh) * 2018-12-04 2019-04-16 重庆理工大学 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN110276009A (zh) * 2019-06-20 2019-09-24 北京百度网讯科技有限公司 一种联想词的推荐方法、装置、电子设备及存储介质
CN113987159A (zh) * 2021-11-11 2022-01-28 北京爱奇艺科技有限公司 一种推荐信息确定方法、装置、电子设备及存储介质
CN114329055A (zh) * 2021-12-27 2022-04-12 北京达佳互联信息技术有限公司 搜索推荐方法及推荐装置、电子设备、存储介质
CN116089567A (zh) * 2023-01-04 2023-05-09 浙江极氪智能科技有限公司 一种搜索关键词的推荐方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022869A (zh) * 2016-05-12 2016-10-12 北京邮电大学 一种消费对象的推荐方法及装置
CN109635291A (zh) * 2018-12-04 2019-04-16 重庆理工大学 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN110276009A (zh) * 2019-06-20 2019-09-24 北京百度网讯科技有限公司 一种联想词的推荐方法、装置、电子设备及存储介质
CN113987159A (zh) * 2021-11-11 2022-01-28 北京爱奇艺科技有限公司 一种推荐信息确定方法、装置、电子设备及存储介质
CN114329055A (zh) * 2021-12-27 2022-04-12 北京达佳互联信息技术有限公司 搜索推荐方法及推荐装置、电子设备、存储介质
CN116089567A (zh) * 2023-01-04 2023-05-09 浙江极氪智能科技有限公司 一种搜索关键词的推荐方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN116204688A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN110046304B (zh) 一种用户推荐方法和装置
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN107341145B (zh) 一种基于深度学习的用户情感分析方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN107122469B (zh) 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN110674279A (zh) 基于人工智能的问答处理方法、装置、设备及存储介质
CN116992005B (zh) 基于大模型及本地知识库的智能对话方法、***及设备
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN116204688B (zh) 一种基于键入搜索词推荐用户搜索词的方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及***
CN114169869B (zh) 一种基于注意力机制的岗位推荐方法及装置
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
CN110597968A (zh) 一种回复选择方法及装置
CN117056479A (zh) 基于语义解析引擎的智能问答交互***
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及***
CN115827968A (zh) 一种基于知识图谱推荐的个性化知识追踪方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
Eskandari et al. Predicting best answer using sentiment analysis in community question answering systems
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN110390050B (zh) 一种基于深度语义理解的软件开发问答信息自动获取方法
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN116521822A (zh) 基于5g消息多轮会话机制的用户意图识别方法和装置
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
CN115391500A (zh) 基于预训练语言模型的对话式信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant