CN110020151B - 一种数据处理方法、装置、电子设备以及存储介质 - Google Patents

一种数据处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN110020151B
CN110020151B CN201711252207.8A CN201711252207A CN110020151B CN 110020151 B CN110020151 B CN 110020151B CN 201711252207 A CN201711252207 A CN 201711252207A CN 110020151 B CN110020151 B CN 110020151B
Authority
CN
China
Prior art keywords
site information
keyword
keywords
vector
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711252207.8A
Other languages
English (en)
Other versions
CN110020151A (zh
Inventor
贺宇
董国盛
周泽南
苏雪峰
佟子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Network Technology Co ltd
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711252207.8A priority Critical patent/CN110020151B/zh
Publication of CN110020151A publication Critical patent/CN110020151A/zh
Application granted granted Critical
Publication of CN110020151B publication Critical patent/CN110020151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备以及存储介质,以提高相关性确定的准确性。所述的方法包括:依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。无需人工的分类处理,有效提高相关度确定的准确性。

Description

一种数据处理方法、装置、电子设备以及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法、一种数据处理装置、一种电子设备,以及一种存储介质。
背景技术
随着网络技术的发展,越来越多的用户通过网络查询所需的各种信息,例如查询热播的影视作品、热门游戏,以及各种商品的性能、排行等,从而能够基于查询的结果辅助进行信息的选择。
通常在查询时需要对查询结果进行排序后反馈,一些方式是对站点的质量进行打分,但是这种方式没有考虑查询词和站点之间的相关性,排序结果可能不符合用户的要求,而造成查询效率的降低。而一些确定关键词和站点间相关性的方式通常是按照类别确定相关性,即通过类别的匹配程度来计算查询词和站点的相关性,但是这种方式的类别和分类特征通常是人工设置的,分类的准确性也不能得到保证,因此相关性计算的准确性难以保证,依据该相关性执行的排序准确性也较低。
发明内容
本发明实施例所要解决的技术问题是提供一种数据处理方法,以提高相关性确定的准确性。
相应的,本发明实施例还提供了一种数据处理装置、一种电子设备及一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,所述的方法包括:依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
可选的,所述依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,包括:确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;采用所述关键词和站点信息的对应关系构成关联路径。
可选的,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;依据二部图确定多个所述关键词和站点信息的关联路径。
可选的,所述依据二部图确定多个所述关键词和站点信息的关联路径,包括:依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
可选的,所述依据关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,包括:依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
可选的,所述依据第一词向量和第二词向量,计算所述关键词和站点信息的相关性,包括:选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
可选的,还包括:在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
本发明实施例还提供了一种数据处理装置,包括:路径确定模块,用于依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;词向量确定模块,用于依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;相关性计算模块,用于依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
可选的,所述路径确定模块,包括:数据提取子模块,用于确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;路径生成子模块,用于采用所述关键词和站点信息的对应关系构成关联路径。
可选的,所述路径生成子模块,包括:二部图生成单元,用于依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;路径确定单元,用于依据二部图确定多个所述关键词和站点信息的关联路径。
可选的,路径确定单元,用于依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
可选的,所述词向量确定模块,用于依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
可选的,所述相关性计算模块,用于选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
可选的,还包括:相关性查询模块,用于在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
本发明实施例还提供了一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例中任一所述的数据处理方法。
本发明实施例还提供了一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
可选的,所述依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,包括:确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;采用所述关键词和站点信息的对应关系构成关联路径。
可选的,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;依据二部图确定多个所述关键词和站点信息的关联路径。
可选的,所述依据二部图确定多个所述关键词和站点信息的关联路径,包括:依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
可选的,所述依据关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,包括:依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
可选的,所述依据第一词向量和第二词向量,计算所述关键词和站点信息的相关性,包括:选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
可选的,由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令:在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
本发明实施例包括以下优点:
本发明实施例可依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,从而依据大量搜索结果建立关键词和站点信息的关联路径,然后依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,进而计算关键词和站点信息的相关性,无需人工的分类处理,有效提高相关度确定的准确性。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明实施例中一种关联路径的示意图;
图3是本发明实施例中一种二部图的示意图;
图4是本发明的另一种数据处理方法实施例的步骤流程图;
图5是本发明的一种数据处理装置实施例的结构框图;
图6是本发明的另一种数据处理装置实施例的结构框图;
图7是发明的另一种数据处理装置实施例中路径生成子模块的结构框图;
图8是根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图;
图9是本发明实施例中服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102,依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径。
本发明实施例可采用搜索结果为数据基础来构建关键词和站点的关联。其中,目标搜索结果指的是关键词和搜索结果中相关性最高的N个搜索结果,可通过各种方式确定;关键词即执行搜索、查询、推荐等业务的查询词;站点即网站,站点信息指的是搜索结果中网站的标识信息,如网站地址等;关联路径指的是相关的关键词和站点信息构成的路径,关联路径可将关键词及其对应的站点信息随机或按照一定规则串联,如两个关键词和通过同一个站点信息串联,两个站点信息也可通过同一个关键词串联,即关联路径中相邻两个节点是具有关联的。在该关联路径中相邻两个节点一个为关键词,另一个为站点信息,则两个关键词通过站点信息相连,两个站点信息也通过关键词相连,一种关联路径的示例如图2所示,该路径为关键词A1-站点信息B1-关键词A2-站点信息B2-……-关键词An-站点信息Bn……。
可基于搜索引擎的查询日志获取关键词query,例如从查询日志中随机挑选百万级、千万级的关键词。然后搜索引擎采用该关键词爬取搜索结果并从中获取目标搜索结果,如将首页的搜索结果作为目标搜索结果,又如获取前N条搜索结果作为目标搜索结果等,可以依据需求确定,从而可以从每个搜索结果中得到该关键词对应的站点信息,进而针对每个关键词对应多个站点信息,然后按照一定的算法建立关键词和站点信息的关联路径,即将各关键词和站点信息向关联,形成相应的关联路径。
其中,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索得到相关的信息展示给用户的***。常见的搜索引擎包括百度(https://www.***.com),搜狗搜索(https://www.sogo.com/)等。用户在搜索引擎中所输入的查询词或称关键词可表示为query。站点信息为搜索引擎返回的查询结果中,每个网页所属的站点信息,可表示为site,例如一个结果的url=http://www.jianpu.cn/g/zh/zhoujielun.htm,则site=www.jianpu.cn。
步骤104,依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量。
预设模型为用于训练词向量的模型,其中,模型也可看作一种数据集合,是依据数据数学模型构建,数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物***的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻划出来的某种***的纯关系结构。如预设模型为神经网络的语言模型、word2vec的skip-gram模型等。
可以依据该关联路径来训练预设模型,从而可以得到关键词的第一词向量和站点信息的第二词向量。其中,可依据该关联路径确定各关键词、站点信息的向量信息,然后将该向量信息输入到预设模型中进行模型训练,从而能够得到各关键词的第一词向量和站点信息的第二词向量。
步骤106,依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
对于任意两个关键词和站点信息,可以采用关键词的第一词向量和站点信息的第二词向量计算相关性,从而得到任意两个关键词和站点信息之间的相关性。
从而在进行查询、搜索、推荐等业务中,针对查询词对应的查询结果,其排序的一个维度可为关键词和站点信息之间的相关性,从而提高排序的准确性,提高处理效率。
综上,可依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,从而依据大量搜索结果建立关键词和站点信息的关联路径,然后依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,进而计算关键词和站点信息的相关性,无需人工的分类处理,有效提高相似度确定的准确性。进而在依据该相关性进行排序时,能够有效提高排序的准确性。
本申请实施例中,词向量(Word Embedding)也称为词嵌入,是自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。自然语言处理(Neuro-Linguistic Programming,NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
本发明一个可选实施例中,所述依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,包括:确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;采用所述关键词和站点信息的对应关系构成关联路径。可以采用搜索引擎爬取关键词对应的搜索结果,然后从搜索结果中提取目标搜索结果,再针对每个目标搜索结果中提取关键词对应的站点信息,从而得到各关键词和站点信息的对应关系,该对应关系依据关键词搜索到的目标搜索结果中具有站点信息确定,表征该关键词和站点信息之间具有关联性。从而可依据该对应关系建立关键词和站点信息的关联路径,从而将各关键词和站点信息串联起来。
其中,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;依据二部图确定多个关键词和站点信息的关联路径。依据所述关键词和站点信息的对应关系,可以将各关键词和相应的站点信息连接,即一个关键词对应多个站点信息,而一个站点信息也可以属于多个关键词,因此将关键词、站点信息间连接,构成关键词和站点信息的二部图,则关键词和站点信息构成该二部图的节点。然后以二部图中任意节点为起点在二部图的节点间游走,可构成一条关联路径,基于该二部图可构成多条关联路径。
例如:关键词“周杰伦”对应站点信息:www.a.com、www.b.com;关键词“简单爱简谱”对应站点信息:www.a.com、www.b.com、www.c.com、www.e.com;关键词“吉他谱”对应站点信息:www.c.com、www.d.com;关键词“曲谱大全”对应站点信息:www.c.com、www.d.com、www.e.com。则可构成如图3所示的二部图。
则基于该二部图可构成多条关联路径,如一条关联路径为:周杰伦-www.a.com-简单爱简谱-www.e.com-曲谱大全-www.d.com-……等;又如一条路径为:www.b.com-周杰伦-www.a.com-简单爱简谱-www.c.com-吉他谱-www.d.com-……等。
其中,二部图是图论中的一种模型,设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B),则称图G为一个二分图(或称二部图)。
从而能够基于关键词和站点信息的对应关系构成二部图,进而得到关键词和站点信息构成的路径,便于向量的转化。
参照图4,示出了本发明的另一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤402,确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息。
可基于搜索引擎的查询日志获取关键词query,例如从查询日志中随机挑选百万级、千万级的关键词。然后搜索引擎采用该关键词爬取搜索结果并从中获取目标搜索结果,如将首页的搜索结果作为目标搜索结果,又如获取前N条搜索结果作为目标搜索结果等,可以依据需求确定。再针对每个搜索结果提取其中的站点信息,作为该关键词对应的站点信息,从而得到一个关键词对应的多个站点信息,并且,由于一个站点信息可能被多个关键词搜索到,因此一个站点信息也可对应多的关键词。
步骤404,依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图。
通过目标搜索结果获取到关键词及其对应的站点信息后,可依据关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,即将有关联的站点信息和关键词串联起来。如上例所示,将关键词“周杰伦”分别和站点信息:www.a.com、www.b.com连接,将关键词“简单爱简谱”分别站点信息:www.a.com、www.b.com、www.c.com、www.e.com连接,从而建立了周杰伦-www.a.com-简单爱简谱的关联,并且在该连接过程中同一类型的信息不会直接相连,即两个关键词不会直接相连,两个站点信息不会直接相连,而是关键词连接站点信息,从而构成相应的二部图,一个示例如图3所示。
步骤406,依据二部图确定多个所述关键词和站点信息的关联路径。
然后可以从该二部图中任意选取节点作为起点,基于该起点在二部图中游走来得到关键词和站点信息的关联路径,其中一个起点可得到一个或多个关联路径,且二部图中可选取多个节点作为起点,从而通过一个二部图可得到多个关联路径。其中在二部图中游走的方式可为多种,如按照一定的规律游走,又如随机游走等,可依据需求确定。
一个可选实施例中,所述依据二部图确定多个关键词和站点信息的关联路径,包括:依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。若通过随机游走方式,则可以选取节点作为起点,然后依据二部图中节点的关联随机游走,从而将关键词和站点信息串联,生成相应的关联路径。
其中,随机游走(Random Walk)是指任何无规则行走者所带的守恒量都各自对应着一个扩散运输定律,接近于布朗运动,是布朗运动理想的数学状态,本申请实施例可基于二部图运行随机游走算法生成关联路径。
步骤408,依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量。
然后可通过多个关联路径来确定关键词和站点信息的向量,可以依据该关联路径生成向量信息,包括关键词的第一路径向量和预设模型的第二路径向量,其中可针对每个关键词得到其第一路径向量,以及针对每个站点信息得到其第二路径向量。
步骤410,将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
即将关联路径作为训练数据进行预设模型的训练,如将关联路径中各关键词的第一路径向量和站点信息的第二路径向量分别输入到预设模型中。从而训练该预设模型,执行模型对应的迭代过程,从而能够基于该模型即可得到各关键词的第一词向量和站点信息的第二词向量。从而针对上述选取的每个关键词及其对应的站点信息,可分别按照相应的向量表示。本发明实施例中第一词向量和第二词向量是统称,用于区分表征关键词和站点信息的向量。
例如根据word2vec中的skip-gram模型,将关键词query和站点信息site表示成n维稠密向量的形式,进而求得query和site的相关性。其中,skip-gram一种用于训练词向量的模型,可根据输入词向量来预测一定窗口内上下文的词向量,从而便于确定出关键词、站点信息的词向量。
步骤412,选择关键词和站点信息。
步骤414,将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
在得到各关键词的第一词向量和站点信息的第二词向量后,可以选取关键词和站点信息,然后通过关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到相关性值,从而确定出任意两个关键词和站点信息之间的相关性。
上述关键词和站点信息之间相关性的计算方式可应用于各种场景中,适用场景包括但不限于搜索引擎,推荐***等,将关键词和站点信息通过向量的形式表示,从而基于向量计算两者的相关性,从而作为一个连续的特征加入到搜索、推荐等场景中,更好的优化搜索效果。在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
如在搜索查询场景中,用户输入关键词后,搜索引擎基于该关键词进行搜索,得到相应的搜索结果,从而在对搜索结果进行排序的过程中,将该关键词和搜索结果中站点信息的相关性作为排序依据之一,即将上述确定的相关性和其他方式相结合来进行搜索结果的排序。实际处理中可在数据库中预先存储各关键词和站点信息之间的相关性值,也可在数据库中存储各关键词的第一词向量以及站点信息的第二词向量,从而在需要时获取相应的第一词向量和第二词向量来计算相关性值,作为排序依据数之一。
应用在推荐场景中与搜索查询场景类似,对于推荐关键词所匹配的推荐结果,可确定关键词和推荐结果中站点信息的相关性,作为推荐结果的排序依据之一,从而通过搜索查询、推荐等场景中反馈结果的准确性,提高处理效率。
本发明实施例这种将两个事物,通过图的方式关联起来,采用随机游走策略,生成两个事物的向量形式,从而可以直接计算相关程度,这种方案适用于很多新兴的互联网产品。比如新闻推荐,我们可以生成用户和新闻的向量,比如广告CTR,可以将用户和广告向量化等等。
本发明实施例可结合用户的真实意图和自然语言处理等技术,挖掘关键词query和站点信息site的直接关系,提供了一种新的从query到site的相关性计算方法。通过机器学习的方法,将query和site向量化,使其在同一语义空间,通过计算向量的相关性如余弦相似度,从而提高query和site之间相似度的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例还提供了一种输入装置,应用于终端设备,所述终端设备具有触摸屏和压力感应装置,所述压力感应装置可感知触摸屏上操作的压力信息。
参照图5,示出了本发明的一种数据排列装置实施例的结构框图,具体可以包括如下模块:
路径确定模块502,用于依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径。
词向量确定模块504,用于依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量。
相关性计算模块506,用于依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
综上,依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,从而依据大量搜索结果建立关键词和站点信息关联,然后依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,从而将关键词和站点都按照向量形式表示,进而计算关键词和站点信息的相关性,无需人工的分类处理,有效提高相似度确定的准确性。
参照图6,示出了本发明的另一种数据排列装置实施例的结构框图,具体可以包括如下模块:
路径确定模块502,用于依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径。
词向量确定模块504,用于依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量。
相关性计算模块506,用于依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
相关性查询模块508,用于在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
其中,所述路径确定模块502,包括:数据提取子模块5022和路径生成子模块5024,其中:
数据提取子模块5022,用于确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;
路径生成子模块5024,用于采用所述关键词和站点信息的对应关系构成关联路径。
如图7所示的所述路径生成子模块5024,包括:二部图生成单元50242和路径确定单元50244,其中:
二部图生成单元50242,用于依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;
路径确定单元50244,用于依据二部图确定多个所述关键词和站点信息的关联路径。
其中,所述路径确定单元50244,用于依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
所述词向量确定模块504,用于依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
所述相关性计算模块506,用于选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
上述关键词和站点信息之间相关性的计算方式可应用于各种场景中,适用场景包括但不限于搜索引擎,推荐***等,将关键词和站点信息通过向量的形式表示,从而基于向量计算两者的相关性,从而作为一个连续的特征加入到搜索、推荐等场景中,更好的优化搜索效果。本发明实施例这种将两个事物,通过图的方式关联起来,采用随机游走策略,生成两个事物的向量形式,从而可以直接计算相关程度,这种方案适用于很多新兴的互联网产品。比如新闻推荐,我们可以生成用户和新闻的向量,比如广告CTR,可以将用户和广告向量化等等。
本发明实施例可结合用户的真实意图和自然语言处理等技术,挖掘关键词query和站点信息site的直接关系,提供了一种新的从query到site的相关性计算方法。通过机器学习的方法,将query和site向量化,使其在同一语义空间,通过计算向量的相关性如余弦相似度,从而提高query和site之间相似度的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图8是根据一示例性实施例示出的一种用于展示输入的电子设备800的结构框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种输入方法,所述方法包括:依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
可选的,所述依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,包括:确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;采用所述关键词和站点信息的对应关系构成关联路径。
可选的,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;依据二部图确定多个所述关键词和站点信息的关联路径。
可选的,所述依据二部图确定多个所述关键词和站点信息的关联路径,包括:依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
可选的,所述依据关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,包括:依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
可选的,所述依据第一词向量和第二词向量,计算所述关键词和站点信息的相关性,包括:选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
可选的,还包括:在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
图9是本发明实施例中服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器800上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,一个或一个以上键盘956,和/或,一个或一个以上操作***941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本发明实施例还提供了一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性。
可选的,所述依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径,包括:确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;采用所述关键词和站点信息的对应关系构成关联路径。
可选的,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;依据二部图确定多个所述关键词和站点信息的关联路径。
可选的,所述依据二部图确定多个所述关键词和站点信息的关联路径,包括:依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
可选的,所述依据关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,包括:依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
可选的,所述依据第一词向量和第二词向量,计算所述关键词和站点信息的相关性,包括:选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
可选的,由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令:在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法和装置、一种电子设备以及一种存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种数据处理方法,其特征在于,所述的方法包括:
确定多个目标搜索结果;
从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;
采用所述关键词和站点信息的对应关系构成关联路径,所述关联路径中相邻两个节点一个为关键词,另一个为站点信息;
依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;
依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性;
所述依据关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量,包括:
依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;
将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
2.根据权利要求1所述的方法,其特征在于,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:
依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;
依据二部图确定多个所述关键词和站点信息的关联路径。
3.根据权利要求2所述的方法,其特征在于,所述依据二部图确定多个所述关键词和站点信息的关联路径,包括:
依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
4.根据权利要求1所述的方法,其特征在于,所述依据第一词向量和第二词向量,计算所述关键词和站点信息的相关性,包括:
选择关键词和站点信息;
将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
5.根据权利要求1所述的方法,其特征在于,还包括:
在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;
将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
6.一种数据处理装置,其特征在于,包括:
路径确定模块,用于确定多个目标搜索结果;依据目标搜索结果中关键词和站点信息,构成关键词和站点信息的关联路径;
词向量确定模块,用于依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;
相关性计算模块,用于依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性;
所述路径确定模块,包括:
数据提取子模块,用于确定多个目标搜索结果,并从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;
路径生成子模块,用于采用所述关键词和站点信息的对应关系构成关联路径,所述关联路径中相邻两个节点一个为关键词,另一个为站点信息;
所述词向量确定模块,用于依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
7.根据权利要求6所述的装置,其特征在于,所述路径生成子模块,包括:
二部图生成单元,用于依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;
路径确定单元,用于依据二部图确定多个所述关键词和站点信息的关联路径。
8.根据权利要求7所述的装置,其特征在于,
所述路径确定单元,用于依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
9.根据权利要求6所述的装置,其特征在于,
所述相关性计算模块,用于选择关键词和站点信息;将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
10.根据权利要求6所述的装置,其特征在于,还包括:
相关性查询模块,用于在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
11.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-5任一所述的数据处理方法。
12.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定多个目标搜索结果;
从各目标搜索结果中分别提取关键词和所述关键词对应的站点信息;
采用所述关键词和站点信息的对应关系构成关联路径,所述关联路径中相邻两个节点一个为关键词,另一个为站点信息;
依据所述关联路径和预设模型,确定关键词的第一词向量和站点信息的第二词向量;
依据所述第一词向量和第二词向量,计算所述关键词和站点信息的相关性;
依据所述关联路径生成向量信息,其中,所述向量信息包括关键词的第一路径向量和站点信息的第二路径向量;
将所述向量信息输入到预设模型中,得到关键词的第一词向量和站点信息的第二词向量。
13.根据权利要求12所述的电子设备,其特征在于,所述采用所述关键词和站点信息的对应关系构成关联路径,包括:
依据所述关键词和站点信息的对应关系,将各关键词和相应的站点信息连接,构成所述关键词和站点信息的二部图;
依据二部图确定多个所述关键词和站点信息的关联路径。
14.根据权利要求13所述的电子设备,其特征在于,所述依据二部图确定多个所述关键词和站点信息的关联路径,包括:
依据所述二部图,通过随机游走方式将关键词和站点信息串联,生成多个关联路径。
15.根据权利要求12所述的电子设备,其特征在于,所述依据第一词向量和第二词向量,计算所述关键词和站点信息的相关性,包括:
选择关键词和站点信息;
将关键词的第一词向量和站点信息的第二词向量进行相关性计算,得到所述关键词和站点信息之间的相关性。
16.根据权利要求12所述的电子设备,其特征在于,由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令:
在通过查询词执行设定业务时,从查询结果中获取查询词对应的网址信息,其中,所述设定业务包括以下至少一种:搜索业务、推荐业务;
将所述查询词作为关键词,将所述网址信息作为站点信息,查询对应关键词和站点信息的相关性。
CN201711252207.8A 2017-12-01 2017-12-01 一种数据处理方法、装置、电子设备以及存储介质 Active CN110020151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711252207.8A CN110020151B (zh) 2017-12-01 2017-12-01 一种数据处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711252207.8A CN110020151B (zh) 2017-12-01 2017-12-01 一种数据处理方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN110020151A CN110020151A (zh) 2019-07-16
CN110020151B true CN110020151B (zh) 2022-04-26

Family

ID=67185939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711252207.8A Active CN110020151B (zh) 2017-12-01 2017-12-01 一种数据处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN110020151B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883295B (zh) * 2019-11-29 2024-02-23 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789462A (zh) * 2011-05-18 2012-11-21 阿里巴巴集团控股有限公司 一种项目推荐方法及***
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193939B (zh) * 2010-03-10 2016-04-06 阿里巴巴集团控股有限公司 信息导航的实现方法、信息导航服务器和信息处理***
CN106484698A (zh) * 2015-08-25 2017-03-08 北京奇虎科技有限公司 一种搜索关键词的推送方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789462A (zh) * 2011-05-18 2012-11-21 阿里巴巴集团控股有限公司 一种项目推荐方法及***
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及***

Also Published As

Publication number Publication date
CN110020151A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
US11120078B2 (en) Method and device for video processing, electronic device, and storage medium
CN111581488B (zh) 一种数据处理方法及装置、电子设备和存储介质
CN111291069B (zh) 一种数据处理方法、装置和电子设备
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN112508612B (zh) 训练广告创意生成模型、生成广告创意的方法及相关装置
CN112148980B (zh) 基于用户点击的物品推荐方法、装置、设备和存储介质
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
CN110110207B (zh) 一种信息推荐方法、装置及电子设备
CN112784142A (zh) 一种信息推荐方法及装置
CN112307281A (zh) 一种实体推荐方法及装置
CN112148923B (zh) 搜索结果的排序方法、排序模型的生成方法、装置及设备
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN111241844A (zh) 一种信息推荐方法及装置
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN111368161A (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN110020151B (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN107436896B (zh) 一种输入推荐方法、装置及电子设备
CN110110046B (zh) 同名实体推荐方法及装置
CN112559852A (zh) 一种信息推荐方法及装置
CN110147426B (zh) 一种查询文本的分类标签确定方法及相关装置
CN113157923B (zh) 实体分类方法、装置及可读存储介质
CN113256379A (zh) 一种为商品关联购物需求的方法
CN112052395B (zh) 一种数据处理方法及装置
CN110362686B (zh) 一种词库的生成方法、装置、终端设备和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220926

Address after: 100084. Room 9, floor 01, cyber building, building 9, building 1, Zhongguancun East Road, Haidian District, Beijing

Patentee after: BEIJING SOGOU TECHNOLOGY DEVELOPMENT Co.,Ltd.

Patentee after: Beijing Sogou Network Technology Co.,Ltd.

Address before: 100084. Room 9, floor 01, cyber building, building 9, building 1, Zhongguancun East Road, Haidian District, Beijing

Patentee before: BEIJING SOGOU TECHNOLOGY DEVELOPMENT Co.,Ltd.