CN111125566B - 信息获取方法和装置、电子设备和存储介质 - Google Patents
信息获取方法和装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111125566B CN111125566B CN201911266244.3A CN201911266244A CN111125566B CN 111125566 B CN111125566 B CN 111125566B CN 201911266244 A CN201911266244 A CN 201911266244A CN 111125566 B CN111125566 B CN 111125566B
- Authority
- CN
- China
- Prior art keywords
- attribute
- text
- label
- user
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种信息获取方法和装置、电子设备和存储介质,其中,方法包括:提取当前对象的属性标签;基于标签体系中不同类型对象在属性标签之间的匹配关系,从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象;其中,所述标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系;所述不同类型对象包括:用户、项目和文本;返回所述匹配的至少一个其他类型对象。本公开实施例可以精确匹配到一种类型对象匹配的其他类型对象,从而满足对项目、文本等的精准推荐/搜索,提高推荐效率和搜索效率,能够更广泛地满足推荐和搜索需求。
Description
技术领域
本公开涉及互联网技术,尤其是一种信息获取方法和装置、电子设备和存储介质。
背景技术
近年来,伴随着互联网技术的快速发展,人们逐渐由信息匮乏时代步入信息过载时代。由于信息量级的爆发式增长,无论是信息生产者还是信息消费者都遇到了巨大的挑战。而个性化推荐***和搜索***的应用,为解决这一挑战提供了一种有效途径。借助于推荐***,一方面,项目(例如商品、产品等)和信息生产者可以依托数据实现对项目的精准推荐;另一方面,使用搜索***,用户也可以从琳琅满目的信息中快速定位自己的需求、并匹配出满足自己需求的项目。
然而,在现有的推荐***和检索***中,由于用户的需求比较泛化和抽象,无法明确、精准的确定用户需求,从而无法为用户提供匹配的项目,无法满足推荐和搜索需求。
发明内容
本公开实施例提供一种信息获取方法和装置、电子设备和存储介质,以实现用户和信息之间的匹配。
本公开实施例的一个方面,提供一种信息获取方法,包括:
提取当前对象的属性标签;
基于标签体系中不同类型对象在属性标签之间的匹配关系,从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象;其中,所述标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系;所述不同类型对象包括:用户、项目和文本;
返回所述匹配的至少一个其他类型对象。
可选地,在本公开上述任一方法实施例中,还包括建立所述标签体系的步骤:
利用标签提取模型对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签;利用所述标签提取模型对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签;以及,利用所述标签提取模型对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签;
基于提取的至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签,建立所述至少一个用户在各类别下的属性标签、所述至少一个项目在各类别下的属性标签、以及所述至少一个文本在各类别下的属性标签之间的匹配关系,得到所述标签体系。
可选地,在本公开上述任一方法实施例中,所述利用标签提取模型对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签,包括:
利用所述标签提取模型中的正则模型,对所述第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的抽象性标签;
利用所述标签提取模型中的机器学习模型,由所述至少一个用户在各类别下的抽象性标签,得到所述至少一个用户在各类别下的属性标签。
可选地,在本公开上述任一方法实施例中,所述利用所述标签提取模型对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签,包括:
利用所述标签提取模型中的公式模型对所述第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的抽象性标签;
利用所述标签提取模型中的机器学习模型,由所述至少一个项目在各类别下的抽象性标签,得到所述至少一个项目在各类别下的属性标签。
可选地,在本公开上述任一方法实施例中,所述利用所述标签提取模型对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签,包括:
利用所述标签提取模型中的正则模型对所述第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的抽象性标签;
利用所述标签提取模型中的机器学习模型,由所述至少一个文本在各类别下的抽象性标签,得到所述至少一个文本在各类别下的属性标签。
可选地,在本公开上述任一方法实施例中,所述对第一数据库中的用户信息进行标签提取之前,还包括:对所述第一数据库中的用户信息进行去重和/或过滤;和/或,
所述对第二数据库中的项目信息进行标签提取之前,还包括:对所述第二数据库中的项目信息进行去重和/或过滤;和/或,
所述对第三数据库中的文本信息进行标签提取之前,还包括:对所述第三数据库中的文本信息进行去重和/或过滤。
可选地,在本公开上述任一方法实施例中,还包括:
基于所述第一数据库中的增量用户信息、所述第二数据库中的增量项目信息、和/或所述第三数据库中的增量文本信息的属性标签,对所述标签体系进行更新。
可选地,在本公开上述任一方法实施例中,所述提取当前对象的属性标签,包括:利用所述标签提取模型,提取当前对象的属性标签。
可选地,在本公开上述任一方法实施例中,还包括:
在分布式全文搜索引擎ElasticSearch中存储所述标签体系、以及所述标签体系中各属性标签对应的用户、项目或者文本的链接地址。
可选地,在本公开上述任一方法实施例中,所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:
从所述ElasticSearch存储的所述标签体系中,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象的链接地址;
若所述至少一个其他类型对象包括用户,从所述第一数据库中获取包括的用户的链接地址所链接的用户信息;
若所述至少一个其他类型对象包括项目,从所述第二数据库中获取包括的项目的链接地址所链接的项目信息;
若所述至少一个其他类型对象包括文本,从所述第二数据库中获取包括的文本的链接地址所链接的文本信息。
可选地,在本公开上述任一方法实施例中,所述当前对象为用户;
所述提取当前对象的属性标签之前,还包括:获取所述用户的用户相关信息;
所述提取当前对象的属性标签,包括:将所述用户相关信息输入标签提取模型,经所述标签提取模型提取所述用户相关信息的属性标签;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:从所述标签体系中获取基于所述用户相关信息的属性标签匹配的项目和/或文本;
所述返回所述匹配的至少一个其他类型对象,包括:向所述用户发送所述匹配的项目和/或文本。
可选地,在本公开上述任一方法实施例中,所述获取所述用户的用户相关信息之前,还包括:
接收所述用户发起的搜索请求,所述搜索请求中包括项目或文本的关键词。
可选地,在本公开上述任一方法实施例中,所述当前对象为项目;
所述提取当前对象的属性标签,包括:将所述项目的项目相关信息输入标签提取模型,经所述标签提取模型提取所述项目相关信息的属性标签;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:从所述标签体系中获取基于所述项目相关信息的属性标签匹配的文本;
所述返回所述匹配的至少一个其他类型对象之后,还包括:以所述匹配的文本作为所述项目的介绍信息;或者,在所述项目相关信息中设置所述匹配的文本或者所述匹配的文本的链接地址。
可选地,在本公开上述任一方法实施例中,所述当前对象为文本;
所述提取当前对象的属性标签,包括:将所述文本输入标签提取模型,经所述标签提取模型提取所述文本的属性标签;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:从所述标签体系中获取基于所述文本的属性标签匹配的项目;
所述返回所述匹配的至少一个其他类型对象之后,还包括:在所述文本中设置所述匹配的项目或者所述匹配的项目的链接地址。
可选地,在本公开上述任一方法实施例中,所述项目包括以下任意一项:商品、产品、服务。
本公开实施例的另一个方面,提供一种信息获取装置,包括:
提取模块,用于提取当前对象的属性标签;
第一获取模块,用于基于标签体系中不同类型对象在属性标签之间的匹配关系,从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象;其中,所述标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系;所述不同类型对象包括:用户、项目和文本;
反馈模块,用于返回所述匹配的至少一个其他类型对象。
可选地,在本公开上述任一装置实施例中,所述提取模块,具体用于利用标签提取模型,提取当前对象的属性标签。
可选地,在本公开上述任一装置实施例中,所述提取模块,还用于:利用标签提取模型,对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签;对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签;以及,对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签;
所述装置还包括:
建立模块,用于基于提取的至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签,建立所述至少一个用户在各类别下的属性标签、所述至少一个项目在各类别下的属性标签、以及所述至少一个文本在各类别下的属性标签之间的匹配关系,得到所述标签体系。
可选地,在本公开上述任一装置实施例中,还包括:
去重过滤模块,用于对所述第一数据库中的用户信息进行去重和/或过滤;和/或,对所述第二数据库中的项目信息进行去重和/或过滤;和/或,对所述第三数据库中的文本信息进行去重和/或过滤。
可选地,在本公开上述任一装置实施例中,所述提取模块,还用于:利用标签提取模型,实时或者按照预设周期,对第一数据库中的增强用户信息进行标签提取,对第二数据库中的增量项目信息进行标签提取,以及,对第三数据库中的增量文本信息进行标签提取;
所述建立模块,还用于基于所述第一数据库中的增量用户信息、所述第二数据库中的增量项目信息、和/或所述第三数据库中的增量文本信息的属性标签,对所述标签体系进行更新。
可选地,在本公开上述任一装置实施例中,还包括:
存储模块,用于在分布式全文搜索引擎ElasticSearch中存储所述标签体系、以及所述标签体系中各属性标签对应的用户、项目或者文本的链接地址。
可选地,在本公开上述任一装置实施例中,所述第一获取模块,具体用于:
从所述ElasticSearch存储的所述标签体系中,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象的链接地址;
若所述至少一个其他类型对象包括用户,从所述第一数据库中获取包括的用户的链接地址所链接的用户信息;
若所述至少一个其他类型对象包括项目,从所述第二数据库中获取包括的项目的链接地址所链接的项目信息;
若所述至少一个其他类型对象包括文本,从所述第二数据库中获取包括的文本的链接地址所链接的文本信息。
可选地,在本公开上述任一装置实施例中,所述当前对象为用户;
所述装置还包括:
第二获取模块,用于获取所述用户的用户相关信息;
所提取模块,具体用于将所述用户相关信息输入标签提取模型,经所述标签提取模型提取所述用户相关信息的属性标签;
所述第一获取模块,具体用于从所述标签体系中获取基于所述用户相关信息的属性标签匹配的项目和/或文本;
所述反馈模块,具体用于向所述用户发送所述匹配的项目和/或文本。
可选地,在本公开上述任一装置实施例中,还包括:
接收模块,用于接收所述用户发起的搜索请求,所述搜索请求中包括项目或文本的关键词;
所述第二获取模块,具体用于在所述接收模块接收到所述用户发起的搜索请求后,获取所述用户的用户相关信息。
可选地,在本公开上述任一装置实施例中,所述当前对象为项目;
所述提取模块,具体用于将所述项目的项目相关信息输入标签提取模型,经所述标签提取模型提取所述项目相关信息的属性标签;
所述第一获取模块,具体用于从所述标签体系中获取基于所述项目相关信息的属性标签匹配的文本;
所述反馈模块,还用于以所述匹配的文本作为所述项目的介绍信息;或者,在所述项目相关信息中设置所述匹配的文本或者所述匹配的文本的链接地址。
可选地,在本公开上述任一装置实施例中,所述当前对象为文本;
所述提取模块,具体用于将所述文本输入标签提取模型,经所述标签提取模型提取所述文本的属性标签;
所述第一获取模块,具体用于从所述标签体系中获取基于所述文本的属性标签匹配的项目;
所述反馈模块,还用于在所述文本中设置所述匹配的项目或者所述匹配的项目的链接地址。
可选地,在本公开上述任一装置实施例中,所述项目包括以下任意一项:商品、产品、服务。
本公开实施例的又一个方面,提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的方法。
本公开实施例的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的方法。
基于本公开上述实施例提供的信息获取方法和装置、电子设备和存储介质,预先建立标签体系,包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系,所述不同类型对象包括:用户、项目和文本;接收到当前对象后,提取当前对象的属性标签,进而,基于标签体系中的匹配关系,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,从而得到与当前对象匹配的至少一个其他类型对象。由于属性标签可以较为精确的描述对象的属性,预先基于各类型对象在各类别下的属性标签在各类型对象之间建立了匹配关系,从而使得本公开实施例可以精确匹配到一种类型对象匹配的其他类型对象,从而满足对项目、文本等的精准推荐/搜索,提高推荐效率和搜索效率,能够更广泛地满足推荐和搜索需求。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本***息获取方法一个实施例的流程图。
图2为本***息获取方法另一个实施例的流程图。
图3为本***息获取方法又一个实施例的流程图。
图4为本***息获取装置一个实施例的结构示意图。
图5为本***息获取装置另一个实施例的结构示意图。
图6为本公开电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境,等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
图1为本***息获取方法一个实施例的流程图。如图1所示,该实施例的信息获取方法包括:
102,提取当前对象的属性标签。
可选地,在其中一些可能的实现方式中,可以利用标签提取模型,提取当前对象的属性标签。
104,基于标签体系中不同类型对象在属性标签之间的匹配关系,从标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象。
其中,标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系。
可选地,在其中一些可能的实现方式中,所述不同类型对象例如可以包括但不限于:用户、项目和文本。所述当前对象可以是所述不同类型对象中任一类型的对象,例如用户、项目或文本。
可选地,在其中一些可能的实现方式中,所述项目例如可以包括但不限于以下任意一项:商品、产品、服务等等。
106,返回所述匹配的至少一个其他类型对象。
基于本公开上述实施例提供的信息获取方法,预先建立标签体系,包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系,所述不同类型对象包括:用户、项目和文本;接收到当前对象后,提取当前对象的属性标签,进而,基于标签体系中的匹配关系,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,从而得到与当前对象匹配的至少一个其他类型对象。由于属性标签可以较为精确的描述对象的属性,预先基于各类型对象在各类别下的属性标签在各类型对象之间建立了匹配关系,从而使得本公开实施例可以精确匹配到一种类型对象匹配的其他类型对象,从而满足对项目、文本等的精准推荐/搜索,提高推荐效率和搜索效率,能够更广泛地满足推荐和搜索需求。
图2为本***息获取方法另一个实施例的流程图。如图2所示,在图1所示实施例的基础上,该实施例还包括如下建立标签体系的步骤:
202,利用标签提取模型对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签;利用标签提取模型对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签;以及,利用标签提取模型对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签。
其中,第一数据库、第二数据库和第三数据库中存储有建立标签体系所依赖的各种数据。
在其中一些可能的实现方式中,第一数据库中存储有全面的用户信息,例如可以包括但不限于以下任意一项或多项:交流会话、搜索记录、项目点击日志、用户画像、文章浏览历史、问答浏览历史等。
其中,用户画像包括个性化的用户信息,例如可以包括但不限于:用户的年龄、性别、兴趣爱好、社会属性、生活习惯、消费行为等信息,个性化的用户信息可以从用户在向实现本公开实施例方法的装置注册时提供的信息获得,或者从用户在其他应用或者网站中注册时提供的信息获得。然而,本公开实施例对用户信息的获取不限于此。
其中,从用户的交流会话中,可以挖掘用户的自身现状(诸如是否已婚、是否有老人、是否有小孩等)和项目偏好信息(如喜欢的项目特点、关心的项目特点等);另外,根据用户的搜索记录、项目点击日志,文章浏览历史、问答浏览历史等,可以确定用户的行为偏好;最终以项目需求和用户偏好为导向,来整理用户的属性标签。
在其中一些可能的实现方式中,第二数据库中存储有全面的项目信息,例如可以包括但不限于以下任意一项或多项:项目标题、核心卖点、适宜人群、经纪人评价、业主评价、项目固有属性、用户反馈等。例如,项目为房源时,第二数据库中的房源信息例如可以是:房源标题、核心卖点、适宜人群、周边配套地标信息、经纪人评价、业主评价、房源固有属性、带看反馈等。
本公开实施例中的文本可以包括文章、问答等类型的内容。在其中一些可能的实现方式中,第三数据库中存储有全面的文本信息,例如可以包括但不限于以下任意一项或多项:项目的资讯、百科文章、服务文章、问答、相关知识等。例如,项目为房源时,第三数据库中存储的文本信息例如可以是:房产资讯、百科文章、装修文章、房产问答、房产知识等。可以通过文本聚类和关键词抽取的方式,分析抽取文本的主题和关键词,从而得到文本的各种属性标签。
204,基于提取的至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签,建立至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签之间的匹配关系,得到标签体系。
基于上述实施例,可以基于对第一数据库、第二数据库和第三数据库中存储数据进行属性标签的提取来建立用户、项目和文本在各类别下的属性标签之间的匹配关系的标签体系,以便后续基于该标签体系进行属性标签的匹配,信息推荐和匹配,满足对项目、文本等的精准推荐/搜索。
可选地,在其中一些可能的实现方式中,操作202中,可以利用标签提取模型中的正则模型,对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的抽象性标签,然后,利用标签提取模型中的机器学习模型,由上述至少一个用户在各类别下的抽象性标签,得到上述至少一个用户在各类别下的属性标签。
其中,由于用户信息为非结构化文本,本公开实施例利用正则模型,基于预先建立的正则库,可以快速挖掘抽取非结构化文本的标签信息,得到准确度较高的抽象性标签;由于正则模型的泛化性较差,本公开实施例进一步利用机器学习模型对上述抽象性标签进行处理,从而可以得到用户在各类别下的属性标签。
可选地,在其中一些可能的实现方式中,操作202中,可以利用标签提取模型中的公式模型对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的抽象性标签,然后,利用标签提取模型中的机器学习模型,由上述至少一个项目在各类别下的抽象性标签,得到上述至少一个项目在各类别下的属性标签。
其中,项目信息为结构化数据,例如项目信息中包括:商品面积:88m2;价格:8999元;…,利用公式模型可以直接提取各项指标的数值与预先设置的范围比较,从而得到其属性标签,例如,假设80-90m2对应于大两居的属性标签、60-80m2对应于大一居的属性标签、100-120m2对应于大一居的属性标签,则将88m2与80-90m2比较可以确定该商品的属性标签为大两居,从而直接生成属性标签。
可选地,在其中一些可能的实现方式中,操作202中,可以利用标签提取模型中的正则模型对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的抽象性标签,然后,利用标签提取模型中的机器学习模型,由上述至少一个文本在各类别下的抽象性标签,得到至少一个文本在各类别下的属性标签。
其中,由于文本信息(文章、问答等)为非结构化文本,本公开实施例利用正则模型,基于预先建立的正则库,可以快速挖掘抽取非结构化文本的标签信息,得到准确度较高的抽象性标签;由于正则模型的泛化性较差,本公开实施例进一步利用机器学习模型对上述抽象性标签进行处理,从而可以得到文本在各类别下的属性标签。
本公开实施例中的机器学习模型,可以预先基于由大量训练样本构成的测试数据集训练得到,训练得到的机器学习模型,可以针对各用户或者文本的抽象性标签得到相应的属性标签,可以针对各项目得到属性标签。其中测试数据集的训练样本可以包括用户信息样本、项目信息样本和文本信息样本,各样本上分别标注有相应的属性标签。
基于上述实施例,提取用户、文本和项目的属性标签后,可以对提取的属性标签的覆盖率和准确率进行计算评估。其中,覆盖度是指一种属性标签可以覆盖多少比例的训练样本。例如,“有老人”属性标签可以覆盖15%的用户信息样本,那么其覆盖度便是15%,标签覆盖度,可以在得到属性标签后,基于统计数据计算得到。准确率是是指一种属性标签的准确性,可以将标签提取模型提取到的属性标签与训练样本上标注的属性标签进行比较得到。基于标签的覆盖率,可以获知一个属性标签的应用广泛性,基于标签的准确率,可以获知标签提取模型的性能,从而为后续的精准推荐、搜索提供依据。
可选地,在在其中一些可能的实现方式中,操作204中,建立至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签之间的匹配关系时,可以直接基于至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签中多包含的关键字来建立三者之间的匹配关系,也可以将三者都映射到统一的对应字段来建立三者之间的匹配关系。
例如,项目为房源时,对于“老人类”属性标签,用户的属性标签为“有老人”,房源的属性标签为“适合有老人”,文本的属性标签为“关于老人”,尽管三者的属性标签表述有所不同,但都包含“老人”,可以将三者基于“老人”建立匹配关系;或者,也可以将三者都映射为对应的“old_man_pos”,来建立匹配关系。
针对不同领域,各项目、用户、文本的具有的类别可以不同。例如,针对房产领域,标签体系可以包括家庭情况、买房目的、学校、小区偏好、价格、房屋属性、户型、楼栋位置、房屋类型、交易属性等10个大类别、再细分为93个小类别。其中房屋属性例如可以包括采光、燃气、电梯、院子、花园、家具家电、集中供暖、南北通透等小类别,每个小类别对应的用户、房源、文本的属性标签匹配,例如在采光小类别,匹配的用户、房源、文本的属性标签分别为:关于采光、采光好、关于采光;在电梯小类别,匹配的用户、房源、文本的属性标签分别为:关于电梯、有电梯、关于电梯;等等。
可选地,在上述实现方式中,还可以在对第一数据库中的用户信息进行标签提取之前,先对第一数据库中的用户信息进行去重和/或过滤,例如,可以基于用户标识(ID)对用户信息进行去重和/或过滤,其中的用户ID用于唯一标识一个用户,其中的去重即去除同一用户的重复用户信息,过滤即过滤掉不符合预设要求(例如非法字段)的用户信息,从而实现对用户信息的清洗,避免后续对重复、无效用户信息的处理,提高后续用户信息的处理效率。
可选地,在上述实现方式中,还可以在对第二数据库中的项目信息进行标签提取之前,对第二数据库中的项目信息进行去重和/或过滤,例如,可以基于项目标识(ID)对项目信息进行去重和/或过滤,其中的项目ID用于唯一标识一个项目,其中的去重即去除同一项目的重复项目信息,过滤即过滤掉不符合预设要求(例如非法字段)的项目信息,从而实现对项目信息的清洗,避免后续对重复、无效项目信息的处理,提高后续项目信息的处理效率。
可选地,在上述实现方式中,还可以对第三数据库中的文本信息进行标签提取之前,对第三数据库中的文本信息进行去重和/或过滤,例如,可以基于文本标识(ID)对文本信息进行去重和/或过滤,其中的文本ID用于唯一标识一个文本,其中的去重即去除同一文本的重复文本信息,过滤即过滤掉不符合预设要求(例如非法字段)的文本信息,从而实现对文本信息的清洗,避免后续对重复、无效文本信息的处理,提高后续文本信息的处理效率。
进一步地,在图2所示实施例之后,还可以基于第一数据库中的增量用户信息、第二数据库中的增量项目信息、和/或第三数据库中的增量文本信息的属性标签,对标签体系进行更新。具体来说,按照预设周期或者实时获取第一数据库中的增量用户信息、第二数据库中的增量项目信息、和/或第三数据库中的增量文本信息,然后针对获取到的第一数据库中的增量用户信息、第二数据库中的增量项目信息、和/或第三数据库中的增量文本信息,执行图2所示实施例的流程,对已经建立的标签体系进行更新。
可选地,在图2所示实施例之后,还可以在分布式全文搜索引擎(ElasticSearch)中存储标签体系、以及标签体系中各属性标签对应的用户、项目或者文本的链接地址。
图3为本***息获取方法又一个实施例的流程图。如图3所示,该实施例的信息获取方法包括:
302,提取当前对象的属性标签。
304,基于标签体系中不同类型对象在属性标签之间的匹配关系,从ElasticSearch存储的标签体系中,获取基于当前对象的属性标签匹配的至少一个其他类型对象的链接地址。
其中,标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系。
可选地,在其中一些可能的实现方式中,所述不同类型对象例如可以包括但不限于:用户、项目和文本。所述当前对象可以是所述不同类型对象中任一类型的对象,例如用户、项目或文本。
若上述至少一个其他类型对象包括用户,执行操作306;若上述至少一个其他类型对象包括项目,执行操作308;若至少一个其他类型对象包括文本,执行操作310。
306,从第一数据库中获取包括的用户的链接地址所链接的用户信息。
然后执行操作312。
308,从第二数据库中获取包括的项目的链接地址所链接的项目信息。
然后执行操作312。
310,从第三数据库中获取包括的文本的链接地址所链接的文本信息。
312,返回获取到的用户信息、项目信息、文本信息。
ElasticSearch可以以倒排索引的方式,存储标签体系、以及标签体系中各属性标签对应的用户、项目或者文本的链接地址,本实施例从ElasticSearch存储的标签体系中,获取基于当前对象的属性标签匹配的至少一个其他类型对象的链接地址,然后再从相应的数据库中获取该链接地址所链接的用户信息、项目信息或文本信息,从而提高了获取效率,减少了服务响应时间。
进一步地,在上述各实施例中,在当前对象为用户时,操作102之前,还可以获取用户的用户相关信息。相应地,在操作102中,可以将改用户相关信息输入标签提取模型,经标签提取模型提取用户相关信息的属性标签;操作104中,可以从标签体系中获取基于该用户相关信息的属性标签匹配的项目和/或文本;操作106中,可以向该用户发送上述匹配的项目和/或文本。
基于该实施例,可以基于用户的用户相关信息,向该用户推荐与其需求匹配的项目和/或文本,从而满足用户对项目、文本等的精准推荐,提高推荐效率,能够更广泛地满足对用户的推荐需求。
另外,在上述实施例中,获取用户的用户相关信息之前,还可以接收用户发起的搜索请求,该搜索请求中包括项目或文本的关键词。基于用户发送的搜索请求触发执行上述获取该用户的用户相关信息,从而满足用户对项目、文本等的精准搜索,提高搜索效率,能够更广泛地满足用户的搜索需求。
或者,在上述各实施例中,当前对象为项目时,操作102中,可以将该项目的项目相关信息输入标签提取模型,经标签提取模型提取该项目相关信息的属性标签。相应地,操作104中,可以从标签体系中获取基于该项目相关信息的属性标签匹配的文本;操作106之后,还可以以该匹配的文本作为项目的介绍信息;或者,在该项目相关信息中设置匹配的文本或者匹配的文本的链接地址。
基于该实施例,可以获取与项目精确匹配的文本,从而实现对项目相关的文章等的推荐,使用户可以全面了解项目相关的信息和知识,有从而提高项目推荐效果。
或者,在上述各实施例中,当前对象为文本时,操作102中,可以将该文本输入标签提取模型,经标签提取模型提取该文本的属性标签。相应地,操作104中,可以从标签体系中获取基于该文本的属性标签匹配的项目;操作106中,可以在该文本中设置匹配的项目或者匹配的项目的链接地址。
基于该实施例,可以获取与文本精确匹配的项目,从而实现对文本相关的项目等的推荐,使用户可以在感兴趣的情况下方便获取相关的项目或其详细信息,有助于实现对项目的推荐,提高项目推荐效果。
本公开实施例中的项目为房源时,本公开实施例的方案可以应用于找房、房源推荐和搜索业务场景,例如在经纪人小贝助手,找房机器人、房源检索推荐、内容检索推荐等。例如,可以应用于以下场景的房源推荐和搜索:
场景一:用户提出比较泛化和抽象的找房需求,例如“我想找个交通便利的,方便上幼儿园和小学的房子”,其中“交通便利”、“方便上幼儿园和小学”都是比较泛化和抽象的概念,基于本公开实施例,可以提取中用户的属性标签“交通”、“幼儿园”和“小学”,然后匹配出与属性标签“交通”、“幼儿园”和“小学”一致的房源推荐给用户;
场景二:用户并不明确自己的需求,例如“我现在的情况是:家里有俩老人,结婚三年多了,有个1岁的宝宝,有什么房子推荐吗?”,基于本公开实施例,可以提取中用户的属性标签“有老人”和“有小孩”,然后匹配出与属性标签“有老人”和“有小孩”一致的房源推荐给用户;
场景三:在一些文章和问答等内容文本中,可以提取该文本的属性标签,匹配出一致的房源并嵌入该文本中,从而给用户更好的推荐体验。例如在一篇讲解“法拍房”的文章中嵌入属于“法拍房”的房源;
场景四:针对房源卡片上的房源提取该房源的属性标签,匹配出一致的文本并在该房源卡片上添加该文本。例如,在一个属于“底商”的房源详情页上展示关于“底商”的文章或问答。
在推荐和搜索场景中,属性标签被广泛应用,其作为一种简要的表示方式,可以灵活、精准地描述用户、物品或信息的属性。在推荐***中,属性标签可以用于刻画用户的偏好,提升推荐效果;而在搜索***中,属性标签可作为物品或信息的属性提高召回和排序效率。基于本公开实施例,可以在用户、项目、文本内容三种基础实体之间建立很强的联系,提取的属性标签也具有很强的抽象性,在实践中,可以更广泛地满足项目的推荐和搜索需求。
本公开实施例提供的任一种信息获取方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种信息获取方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种信息获取方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本***息获取装置一个实施例的结构示意图。该实施例的信息获取装置可用于实现本公开上述各信息获取方法实施例。如图4所示,该实施例的信息获取装置包括:提取模块,第一获取模块和反馈模块。其中:
提取模块,用于提取当前对象的属性标签。
第一获取模块,用于基于标签体系中不同类型对象在属性标签之间的匹配关系,从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象。其中,所述标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系;所述不同类型对象包括:用户、项目和文本。可选地,在其中一些可能的实现方式中,所述项目例如可以包括但不限于以下任意一项:商品、产品、服务等等。
反馈模块,用于返回所述匹配的至少一个其他类型对象。
基于本公开上述实施例提供的信息获取装置,可以精确匹配到一种类型对象匹配的其他类型对象,从而满足对项目、文本等的精准推荐/搜索,提高推荐效率和搜索效率,能够更广泛地满足推荐和搜索需求。
可选地,在其中一些可能的实现方式中,所述提取模块,具体用于利用标签提取模型,提取当前对象的属性标签。
图5为本***息获取装置另一个实施例的结构示意图。该实施例中,所述提取模块,还可用于:利用标签提取模型,对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签;对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签;以及,对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签。
如图5所示,与图4所示的实施例相比,该实施例中,还包括:建立模块,用于基于提取的至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签,建立所述至少一个用户在各类别下的属性标签、所述至少一个项目在各类别下的属性标签、以及所述至少一个文本在各类别下的属性标签之间的匹配关系,得到所述标签体系。
另外,再参见图5,在又一实施例的信息获取装置中,还可以包括:去重过滤模块,用于对所述第一数据库中的用户信息进行去重和/或过滤;和/或,对所述第二数据库中的项目信息进行去重和/或过滤;和/或,对所述第三数据库中的文本信息进行去重和/或过滤。
可选地,在上述实施例中,所述提取模块,还可用于:利用标签提取模型,实时或者按照预设周期,对第一数据库中的增强用户信息进行标签提取,对第二数据库中的增量项目信息进行标签提取,以及,对第三数据库中的增量文本信息进行标签提取。相应地,所述建立模块,还可用于基于所述第一数据库中的增量用户信息、所述第二数据库中的增量项目信息、和/或所述第三数据库中的增量文本信息的属性标签,对所述标签体系进行更新。
另外,再参见图5,在再一实施例的信息获取装置中,还可以包括:存储模块,用于在分布式全文搜索引擎ElasticSearch中存储所述标签体系、以及所述标签体系中各属性标签对应的用户、项目或者文本的链接地址。
可选地,在其中一些可能的实现方式中,所述第一获取模块,具体用于:从所述ElasticSearch存储的所述标签体系中,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象的链接地址;若所述至少一个其他类型对象包括用户,从所述第一数据库中获取包括的用户的链接地址所链接的用户信息;若所述至少一个其他类型对象包括项目,从所述第二数据库中获取包括的项目的链接地址所链接的项目信息;若所述至少一个其他类型对象包括项目,从所述第二数据库中获取包括的项目的链接地址所链接的项目信息。
可选地,在其中一些可能的实现方式中,所述当前对象为用户。相应地,上述实施例的信息获取装置还可以包括:第二获取模块,用于获取所述用户的用户相关信息。相应地,所提取模块,具体用于将所述用户相关信息输入标签提取模型,经所述标签提取模型提取所述用户相关信息的属性标签;所述第一获取模块,具体用于从所述标签体系中获取基于所述用户相关信息的属性标签匹配的项目和/或文本;所述反馈模块,具体用于向所述用户发送所述匹配的项目和/或文本。
可选地,在上述的信息获取装置实施例中,还可以包括:接收模块,用于接收所述用户发起的搜索请求,所述搜索请求中包括项目或文本的关键词。相应地,该实施例中,所述第二获取模块,具体用于在所述接收模块接收到所述用户发起的搜索请求后,获取所述用户的用户相关信息。
另外,在另一些可能的实现方式中,所述当前对象为项目。相应地,该实施例中,所述提取模块,具体用于将所述项目的项目相关信息输入标签提取模型,经所述标签提取模型提取所述项目相关信息的属性标签;所述第一获取模块,具体用于从所述标签体系中获取基于所述项目相关信息的属性标签匹配的文本;所述反馈模块,还用于以所述匹配的文本作为所述项目的介绍信息;或者,在所述项目相关信息中设置所述匹配的文本或者所述匹配的文本的链接地址。
或者,在又一些可能的实现方式中,所述当前对象为文本。相应地,该实施例中,所述提取模块,具体用于将所述文本输入标签提取模型,经所述标签提取模型提取所述文本的属性标签;所述第一获取模块,具体用于从所述标签体系中获取基于所述文本的属性标签匹配的项目;所述反馈模块,还用于在所述文本中设置所述匹配的项目或者所述匹配的项目的链接地址。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的信息获取方法。
另外,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述的信息获取方法。
图6为本公开电子设备一个应用实施例的结构示意图。下面,参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
如图6所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的信息获取方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的信息获取方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的信息获取方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (25)
1.一种信息获取方法,其特征在于,包括:
提取当前对象的属性标签;其中,所述属性标签用于描述对象的属性;其中,所述当前对象包括不同类型对象中任一类型的对象,所述不同类型对象包括:用户、项目和文本;
基于预先建立的标签体系中不同类型对象在属性标签之间的匹配关系,从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象;其中,所述标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系;所述标签体系基于分别对第一数据库中存储的用户信息、第二数据库中存储的项目信息和第三数据库中存储的文本信息进行属性标签提取,并基于用户、项目和文本的属性标签中包含的关键字或者将用户、项目和文本的属性标签映射到统一的对应字段来建立用户、项目和文本的属性标签之间的匹配关系得到;
返回所述匹配的至少一个其他类型对象;
其中,所述方法还包括:
在分布式全文搜索引擎ElasticSearch中存储所述标签体系、以及所述标签体系中各属性标签对应的用户、项目或者文本的链接地址;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:
从所述ElasticSearch存储的所述标签体系中,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象的链接地址;
若所述至少一个其他类型对象包括用户,从第一数据库中获取包括的用户的链接地址所链接的用户信息;
若所述至少一个其他类型对象包括项目,从第二数据库中获取包括的项目的链接地址所链接的项目信息;
若所述至少一个其他类型对象包括文本,从第三数据库中获取包括的文本的链接地址所链接的文本信息。
2.根据权利要求1所述的方法,其特征在于,还包括建立所述标签体系的步骤:
利用标签提取模型对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签;利用所述标签提取模型对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签;以及,利用所述标签提取模型对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签;
基于提取的至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签,建立所述至少一个用户在各类别下的属性标签、所述至少一个项目在各类别下的属性标签、以及所述至少一个文本在各类别下的属性标签之间的匹配关系,得到所述标签体系。
3.根据权利要求2所述的方法,其特征在于,所述利用标签提取模型对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签,包括:
利用所述标签提取模型中的正则模型,对所述第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的抽象性标签;
利用所述标签提取模型中的机器学习模型,由所述至少一个用户在各类别下的抽象性标签,得到所述至少一个用户在各类别下的属性标签。
4.根据权利要求2所述的方法,其特征在于,所述利用所述标签提取模型对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签,包括:
利用所述标签提取模型中的公式模型对所述第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的抽象性标签;
利用所述标签提取模型中的机器学习模型,由所述至少一个项目在各类别下的抽象性标签,得到所述至少一个项目在各类别下的属性标签。
5.根据权利要求2所述的方法,其特征在于,所述利用所述标签提取模型对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签,包括:
利用所述标签提取模型中的正则模型对所述第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的抽象性标签;
利用所述标签提取模型中的机器学习模型,由所述至少一个文本在各类别下的抽象性标签,得到所述至少一个文本在各类别下的属性标签。
6.根据权利要求2所述的方法,其特征在于,所述对第一数据库中的用户信息进行标签提取之前,还包括:对所述第一数据库中的用户信息进行去重和/或过滤;和/或,
所述对第二数据库中的项目信息进行标签提取之前,还包括:对所述第二数据库中的项目信息进行去重和/或过滤;和/或,
所述对第三数据库中的文本信息进行标签提取之前,还包括:对所述第三数据库中的文本信息进行去重和/或过滤。
7.根据权利要求2所述的方法,其特征在于,还包括:
基于所述第一数据库中的增量用户信息、所述第二数据库中的增量项目信息、和/或所述第三数据库中的增量文本信息的属性标签,对所述标签体系进行更新。
8.根据权利要求2所述的方法,其特征在于,所述提取当前对象的属性标签,包括:利用所述标签提取模型,提取当前对象的属性标签。
9.根据权利要求1-8任一所述的方法,其特征在于,所述当前对象为用户;
所述提取当前对象的属性标签之前,还包括:获取所述用户的用户相关信息;
所述提取当前对象的属性标签,包括:将所述用户相关信息输入标签提取模型,经所述标签提取模型提取所述用户相关信息的属性标签;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:从所述标签体系中获取基于所述用户相关信息的属性标签匹配的项目和/或文本;
所述返回所述匹配的至少一个其他类型对象,包括:向所述用户发送所述匹配的项目和/或文本。
10.根据权利要求9所述的方法,其特征在于,所述获取所述用户的用户相关信息之前,还包括:
接收所述用户发起的搜索请求,所述搜索请求中包括项目或文本的关键词。
11.根据权利要求1-8任一所述的方法,其特征在于,所述当前对象为项目;
所述提取当前对象的属性标签,包括:将所述项目的项目相关信息输入标签提取模型,经所述标签提取模型提取所述项目相关信息的属性标签;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:从所述标签体系中获取基于所述项目相关信息的属性标签匹配的文本;
所述返回所述匹配的至少一个其他类型对象之后,还包括:以所述匹配的文本作为所述项目的介绍信息;或者,在所述项目相关信息中设置所述匹配的文本或者所述匹配的文本的链接地址。
12.根据权利要求1-8任一所述的方法,其特征在于,所述当前对象为文本;
所述提取当前对象的属性标签,包括:将所述文本输入标签提取模型,经所述标签提取模型提取所述文本的属性标签;
所述从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象,包括:从所述标签体系中获取基于所述文本的属性标签匹配的项目;
所述返回所述匹配的至少一个其他类型对象之后,还包括:在所述文本中设置所述匹配的项目或者所述匹配的项目的链接地址。
13.根据权利要求1-8任一所述的方法,其特征在于,所述项目包括以下任意一项:商品、产品、服务。
14.一种信息获取装置,其特征在于,包括:
提取模块,用于提取当前对象的属性标签;其中,所述属性标签用于描述对象的属性;其中,所述当前对象包括不同类型对象中任一类型的对象,所述不同类型对象包括:用户、项目和文本;
第一获取模块,用于基于预先建立的标签体系中不同类型对象在属性标签之间的匹配关系,从所述标签体系中获取基于所述当前对象的属性标签匹配的至少一个其他类型对象;其中,所述标签体系包括各类型对象在各类别下的属性标签、以及不同类型对象的属性标签之间的匹配关系;所述标签体系基于分别对第一数据库中存储的用户信息、第二数据库中存储的项目信息和第三数据库中存储的文本信息进行属性标签提取,并基于用户、项目和文本的属性标签中包含的关键字或者将用户、项目和文本的属性标签映射到统一的对应字段来建立用户、项目和文本的属性标签之间的匹配关系得到;
反馈模块,用于返回所述匹配的至少一个其他类型对象;
存储模块,用于在分布式全文搜索引擎ElasticSearch中存储所述标签体系、以及所述标签体系中各属性标签对应的用户、项目或者文本的链接地址;
其中,所述第一获取模块,具体用于:
从所述ElasticSearch存储的所述标签体系中,获取基于所述当前对象的属性标签匹配的至少一个其他类型对象的链接地址;
若所述至少一个其他类型对象包括用户,从第一数据库中获取包括的用户的链接地址所链接的用户信息;
若所述至少一个其他类型对象包括项目,从第二数据库中获取包括的项目的链接地址所链接的项目信息;
若所述至少一个其他类型对象包括文本,从第三数据库中获取包括的文本的链接地址所链接的文本信息。
15.根据权利要求14所述的装置,其特征在于,所述提取模块,具体用于利用标签提取模型,提取当前对象的属性标签。
16.根据权利要求14所述的装置,其特征在于,所述提取模块,还用于:利用标签提取模型,对第一数据库中的用户信息进行标签提取,得到至少一个用户在各类别下的属性标签;对第二数据库中的项目信息进行标签提取,得到至少一个项目在各类别下的属性标签;以及,对第三数据库中的文本信息进行标签提取,得到至少一个文本在各类别下的属性标签;
所述装置还包括:
建立模块,用于基于提取的至少一个用户在各类别下的属性标签、至少一个项目在各类别下的属性标签、以及至少一个文本在各类别下的属性标签,建立所述至少一个用户在各类别下的属性标签、所述至少一个项目在各类别下的属性标签、以及所述至少一个文本在各类别下的属性标签之间的匹配关系,得到所述标签体系。
17.根据权利要求16所述的装置,其特征在于,还包括:
去重过滤模块,用于对所述第一数据库中的用户信息进行去重和/或过滤;和/或,对所述第二数据库中的项目信息进行去重和/或过滤;和/或,对所述第三数据库中的文本信息进行去重和/或过滤。
18.根据权利要求16所述的装置,其特征在于,所述提取模块,还用于:利用标签提取模型,实时或者按照预设周期,对第一数据库中的增强用户信息进行标签提取,对第二数据库中的增量项目信息进行标签提取,以及,对第三数据库中的增量文本信息进行标签提取;
所述建立模块,还用于基于所述第一数据库中的增量用户信息、所述第二数据库中的增量项目信息、和/或所述第三数据库中的增量文本信息的属性标签,对所述标签体系进行更新。
19.根据权利要求14-18任一所述的装置,其特征在于,所述当前对象为用户;
所述装置还包括:
第二获取模块,用于获取所述用户的用户相关信息;
所提取模块,具体用于将所述用户相关信息输入标签提取模型,经所述标签提取模型提取所述用户相关信息的属性标签;
所述第一获取模块,具体用于从所述标签体系中获取基于所述用户相关信息的属性标签匹配的项目和/或文本;
所述反馈模块,具体用于向所述用户发送所述匹配的项目和/或文本。
20.根据权利要求19所述的装置,其特征在于,还包括:
接收模块,用于接收所述用户发起的搜索请求,所述搜索请求中包括项目或文本的关键词;
所述第二获取模块,具体用于在所述接收模块接收到所述用户发起的搜索请求后,获取所述用户的用户相关信息。
21.根据权利要求14-18任一所述的装置,其特征在于,所述当前对象为项目;
所述提取模块,具体用于将所述项目的项目相关信息输入标签提取模型,经所述标签提取模型提取所述项目相关信息的属性标签;
所述第一获取模块,具体用于从所述标签体系中获取基于所述项目相关信息的属性标签匹配的文本;
所述反馈模块,还用于以所述匹配的文本作为所述项目的介绍信息;或者,在所述项目相关信息中设置所述匹配的文本或者所述匹配的文本的链接地址。
22.根据权利要求14-18任一所述的装置,其特征在于,所述当前对象为文本;
所述提取模块,具体用于将所述文本输入标签提取模型,经所述标签提取模型提取所述文本的属性标签;
所述第一获取模块,具体用于从所述标签体系中获取基于所述文本的属性标签匹配的项目;
所述反馈模块,还用于在所述文本中设置所述匹配的项目或者所述匹配的项目的链接地址。
23.根据权利要求14-18任一所述的装置,其特征在于,所述项目包括以下任意一项:商品、产品、服务。
24.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-13任一所述的方法。
25.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-13任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911266244.3A CN111125566B (zh) | 2019-12-11 | 2019-12-11 | 信息获取方法和装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911266244.3A CN111125566B (zh) | 2019-12-11 | 2019-12-11 | 信息获取方法和装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125566A CN111125566A (zh) | 2020-05-08 |
CN111125566B true CN111125566B (zh) | 2021-08-31 |
Family
ID=70498511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911266244.3A Active CN111125566B (zh) | 2019-12-11 | 2019-12-11 | 信息获取方法和装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125566B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131321A (zh) * | 2020-08-06 | 2020-12-25 | 亿存(北京)信息科技有限公司 | 用户画像标签的生成方法和装置、计算机设备、存储介质 |
CN112487035A (zh) * | 2020-12-04 | 2021-03-12 | 国泰新点软件股份有限公司 | 基于elasticsearch的标签存储和查询方法及装置 |
CN113362105B (zh) * | 2021-06-01 | 2024-02-02 | 北京十一贝科技有限公司 | 用户标签形成方法、装置及计算机可读存储介质 |
CN113326254A (zh) * | 2021-06-18 | 2021-08-31 | 立信(重庆)数据科技股份有限公司 | 一种调研数据清洗方法及*** |
CN114416669B (zh) * | 2022-03-30 | 2022-07-26 | 天津联想协同科技有限公司 | 群组过程文件管理方法、装置、网盘及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101331474A (zh) * | 2005-12-16 | 2008-12-24 | 微软公司 | 浏览与电子邮件有关的项目 |
KR20130128525A (ko) * | 2012-05-17 | 2013-11-27 | 삼성탈레스 주식회사 | 유사 프로젝트 형상 관리 시스템 및 그 방법 |
CN105227971A (zh) * | 2015-07-09 | 2016-01-06 | 传成文化传媒(上海)有限公司 | 一种酒店用电视的信息推荐方法及*** |
CN106796609A (zh) * | 2014-12-19 | 2017-05-31 | 三星电子株式会社 | 提供内容的方法及执行该方法的电子装置 |
CN107292097A (zh) * | 2017-06-14 | 2017-10-24 | 华东理工大学 | 基于特征组的特征选择方法、及中医主症选择方法 |
CN108628981A (zh) * | 2018-04-27 | 2018-10-09 | 四川斐讯信息技术有限公司 | 一种基于身体指标的文章推送方法及*** |
CN108681969A (zh) * | 2018-04-24 | 2018-10-19 | 深圳市众投邦股份有限公司 | 终端、投资项目的确定方法及其装置和可读存储介质 |
CN110188268A (zh) * | 2019-05-21 | 2019-08-30 | 浙江工商大学 | 一种基于标签和时间信息的个性化推荐方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
CN101283353B (zh) * | 2005-08-03 | 2015-11-25 | 搜索引擎科技有限责任公司 | 通过分析标签找到相关文档的***和方法 |
CN108269110B (zh) * | 2016-12-30 | 2021-10-26 | 华为技术有限公司 | 基于社区问答的物品推荐方法、***及用户设备 |
CN107992585B (zh) * | 2017-12-08 | 2020-09-18 | 北京百度网讯科技有限公司 | 通用标签挖掘方法、装置、服务器及介质 |
CN108280200B (zh) * | 2018-01-29 | 2021-11-09 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109344249B (zh) * | 2018-08-14 | 2023-02-17 | 创新先进技术有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN109493199A (zh) * | 2019-01-04 | 2019-03-19 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN110196948A (zh) * | 2019-06-10 | 2019-09-03 | 北京金山安全软件有限公司 | 内容推荐方法、装置、计算机设备及存储介质 |
CN110222252A (zh) * | 2019-06-14 | 2019-09-10 | 宜春宜联科技有限公司 | 信息检索方法、装置和设备 |
-
2019
- 2019-12-11 CN CN201911266244.3A patent/CN111125566B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101331474A (zh) * | 2005-12-16 | 2008-12-24 | 微软公司 | 浏览与电子邮件有关的项目 |
KR20130128525A (ko) * | 2012-05-17 | 2013-11-27 | 삼성탈레스 주식회사 | 유사 프로젝트 형상 관리 시스템 및 그 방법 |
CN106796609A (zh) * | 2014-12-19 | 2017-05-31 | 三星电子株式会社 | 提供内容的方法及执行该方法的电子装置 |
CN105227971A (zh) * | 2015-07-09 | 2016-01-06 | 传成文化传媒(上海)有限公司 | 一种酒店用电视的信息推荐方法及*** |
CN107292097A (zh) * | 2017-06-14 | 2017-10-24 | 华东理工大学 | 基于特征组的特征选择方法、及中医主症选择方法 |
CN108681969A (zh) * | 2018-04-24 | 2018-10-19 | 深圳市众投邦股份有限公司 | 终端、投资项目的确定方法及其装置和可读存储介质 |
CN108628981A (zh) * | 2018-04-27 | 2018-10-09 | 四川斐讯信息技术有限公司 | 一种基于身体指标的文章推送方法及*** |
CN110188268A (zh) * | 2019-05-21 | 2019-08-30 | 浙江工商大学 | 一种基于标签和时间信息的个性化推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111125566A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125566B (zh) | 信息获取方法和装置、电子设备和存储介质 | |
US20180218015A1 (en) | Intelligent internet system with adaptive user interface providing one-step access to knowledge | |
Zhao et al. | Connecting social media to e-commerce: Cold-start product recommendation using microblogging information | |
US8370358B2 (en) | Tagging content with metadata pre-filtered by context | |
US11514124B2 (en) | Personalizing a search query using social media | |
US20160125096A1 (en) | Context aware query selection | |
CN105573966A (zh) | 电子表格中所呈现的内容的自适应修改 | |
JP7387432B2 (ja) | ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法 | |
US20090240638A1 (en) | Syntactic and/or semantic analysis of uniform resource identifiers | |
US20210263978A1 (en) | Intelligent interface accelerating | |
US11188543B2 (en) | Utilizing social information for recommending an application | |
US11416907B2 (en) | Unbiased search and user feedback analytics | |
US9390168B1 (en) | Customer keyword-based item recommendations | |
KR20150086441A (ko) | 콘텐츠 및 상관 거리에 기반하는 사람 연결 | |
WO2013070534A1 (en) | Function extension for browsers or documents | |
Fletcher | A quality-based web api selection for mashup development using affinity propagation | |
US20160092960A1 (en) | Product recommendations over multiple stores | |
Hsu et al. | Integrated machine learning with semantic web for open government data recommendation based on cloud computing | |
KR20190109628A (ko) | 개인화된 기사 컨텐츠 제공 방법 및 장치 | |
US10529002B2 (en) | Classification of visitor intent and modification of website features based upon classified intent | |
US10248983B1 (en) | Customized item descriptions based on skill level | |
CN113076428B (zh) | 一种书单生成方法和装置 | |
WO2019008394A1 (en) | CAPTURE AND EXTRACTION OF DIGITAL INFORMATION | |
US11709844B2 (en) | Computerized smart inventory search methods and systems using classification and tagging | |
US20170371935A1 (en) | Relating collections in an item universe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201020 Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd. Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin Applicant before: BEIKE TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |