CN113656603B - 一种字段描述信息获得方法及装置 - Google Patents

一种字段描述信息获得方法及装置 Download PDF

Info

Publication number
CN113656603B
CN113656603B CN202111032146.0A CN202111032146A CN113656603B CN 113656603 B CN113656603 B CN 113656603B CN 202111032146 A CN202111032146 A CN 202111032146A CN 113656603 B CN113656603 B CN 113656603B
Authority
CN
China
Prior art keywords
field
entity
association
searching
association relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111032146.0A
Other languages
English (en)
Other versions
CN113656603A (zh
Inventor
龚厚瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN202111032146.0A priority Critical patent/CN113656603B/zh
Publication of CN113656603A publication Critical patent/CN113656603A/zh
Application granted granted Critical
Publication of CN113656603B publication Critical patent/CN113656603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种字段描述信息获得方法及装置,涉及数据处理技术领域,上述方法包括:获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;基于针对视频内容的历史搜索行为,确定与第一字段直接存在关联关系的第二字段;从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体;根据第一实体,从知识图谱中查找与第一字段之间间接存在关联关系第二实体,并基于第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段;根据目标描述信息,获得第一字段的描述信息。应用本发明实施例提供的方案可以提高获得的第一字段的描述信息的准确度。

Description

一种字段描述信息获得方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种字段描述信息获得方法及装置。
背景技术
在用户搜索场景中,用户需要搜索视频内容的情况下,用户一般会在搜索框中输入待查询字段,这样服务器可以基于待查询字段为用户提供内容。此外,为吸引用户搜索服务器提供的其他内容,在用户输入待查询字段后还可以为用户推荐待查询字段的关联字段。例如,用户输入待查询字段“士兵突击”的情况下,关联字段可以为“士兵突击”的主演名称,如“王宝强”、与“士兵突击”题材相同的其他电视剧的名称,如“亮剑”等。
现有技术中,一般可以基于字段描述信息确定与待查询字段相似的其他字段作为关联字段。对于用户的一次用户搜索行为而言,可以从用户搜索行为中提取出用于搜索的第一字段,并从历史搜索行为中确定各用户在预设时长的时间段内所使用除第一字段外的其他字段进行搜索的历史搜索行为,从所确定的历史搜索行为中提取出用于搜索的第二字段。由于理论上,用户在短时间内进行的搜索行为的关联程度可能较高,第二字段与第一字段之间的关联程度便可能较高,因此可以根据第二字段的描述信息,获得第一字段的描述信息。
然而,在实际情况下,用户进行视频内容搜索时使用的字段在内容上往往较为发散,也就是第一字段与第二字段之间的关联程度可能较低,进行搜索时使用的字段的噪声较大,例如,用户在预设时长的时间段内既搜索了动画片,又搜索了综艺节目,则第一字段为用于搜索动画片的字段,第二字段为用于搜索综艺节目的字段,第一字段与第二字段之间的关联程度较低。因此受到关联程度较低的第二字段的影响,确定得到的第一字段的描述信息的准确度可能较低。
发明内容
本发明实施例的目的在于提供一种字段描述信息获得方法及装置,以提高获得到的字段的描述信息的准确度。具体技术方案如下:
在本发明实施例的第一方面,首先提供了一种字段描述信息获得方法,所述方法包括:
获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;
基于针对视频内容的历史搜索行为,确定与第一字段直接存在关联关系的第二字段,其中,第一搜索时间与第二搜索时间之间的时间差小于等于预设时间差,所述第一搜索时间为:历史搜索行为中使用所述第一字段进行搜索的时间,所述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间;
从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体,其中,所述知识图谱是:由与视频内容相关联的实体组成的;
根据所述第一实体,从所述知识图谱中查找与所述第一字段之间间接存在关联关系第二实体,并基于所述第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段;
根据目标描述信息,获得所述第一字段的描述信息,其中,所述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
在本发明实施例的第二方面,还提供了一种字段描述信息获得装置,所述装置包括:
字段提取模块,用于获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;
字段确定模块,用于基于针对视频内容的历史搜索行为,确定与第一字段直接存在关联关系的第二字段,其中,第一搜索时间与第二搜索时间之间的时间差小于等于预设时间差,所述第一搜索时间为:历史搜索行为中使用所述第一字段进行搜索的时间,所述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间;
实体查找模块,用于从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体,其中,所述知识图谱是:由与视频内容相关联的实体组成的;
实体字段查找模块,用于根据所述第一实体,从所述知识图谱中查找与所述第一字段之间间接存在关联关系第二实体,并基于所述第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段;
信息获得模块,用于根据目标描述信息,获得所述第一字段的描述信息,其中,所述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
在本发明实施例的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
在本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述方法步骤。
在本发明实施例的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面任一所述的方法步骤。
本发明实施例提供的字段描述信息获得方法,获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;基于针对视频内容的历史搜索行为,确定搜索时间与第一字段的搜索时间之间的时间差小于预设时间差的第二字段,作为与第一字段直接存在关联关系的字段;从已构建的、与视频内容相关的知识图谱中查找与所述第一字段直接存在关联关系的第一实体;根据第一实体,从知识图谱中查找与第一字段之间间接存在关联关系第二实体,并基于第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段。根据第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息,获得第一字段的描述信息。
由以上可见,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中提供的第一种字段描述信息获得方法的流程示意图;
图2为本发明实施例中提供的一种行为图谱的示意图;
图3为本发明实施例中提供的一种知识图谱的示意图;
图4为本发明实施例中提供的一种行为知识图谱的示意图;
图5为本发明实施例中提供的第二种字段描述信息获得方法的流程示意图;
图6为本发明实施例中提供的第三种字段描述信息获得方法的流程示意图;
图7为本发明实施例中提供的第一种字段描述信息获得装置的结构示意图;
图8为本发明实施例中提供的第二种字段描述信息获得装置的结构示意图;
图9为本发明实施例中提供的第三种字段描述信息获得装置的结构示意图;
图10为本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中获得的第一字段的描述信息的准确度较低。为解决这一问题,本发明实施例提供了一种字段描述信息获得方法及装置。
本发明的一个实施例中,提供了一种字段描述信息获得方法,上述方法包括:
获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;
基于针对视频内容的历史搜索行为,确定与第一字段直接存在关联关系的第二字段,其中,第一搜索时间与第二搜索时间之间的时间差小于等于预设时间差,上述第一搜索时间为:历史搜索行为中使用上述第一字段进行搜索的时间,上述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间;
从已构建的知识图谱中查找与上述第一字段直接存在关联关系的第一实体,其中,上述知识图谱是:由与视频内容相关联的实体组成的;
根据上述第一实体,从上述知识图谱中查找与上述第一字段之间间接存在关联关系第二实体,并基于上述第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段;
根据目标描述信息,获得上述第一字段的描述信息,其中,上述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
由以上可见,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
下面通过具体的实施例对本发明实施例提供的一种字段描述信息获得方法及装置进行说明。
参见图1,为本发明实施例提供的第一种字段描述信息获得方法的流程示意图,上述方法包括以下步骤S101-S105。
S101:获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段。
具体的,在检测到用户针对视频内容的用户搜索行为之后,可以从用户搜索行为中使用的字段内提取上述第一字段。
其中,上述第一字段可以是用户搜索行为中使用的完整的字段,也可以是完整的字段中包含的部分字符组成的字段。
本发明的一个实施例中,可以对上述完整的字段进行分词处理,提取其中的关键词,作为上述第一字段。具体的,可以采用现有技术中的分词处理方式对完整的字段进行分词梳理,获得上述第一字段。
S102:基于针对视频内容的历史搜索行为,确定与第一字段直接存在关联关系的第二字段。
其中,第一搜索时间与第二搜索时间之间的时间差小于等于预设时间差。上述第一搜索时间为:历史搜索行为中使用上述第一字段进行搜索的时间。上述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间。
另外,在各用户的历史搜索行为中,用户可能多次使用第一字段进行搜索,因此可能存在多个第一搜索时间,可以基于不同的第一搜索时间确定不同的第二字段。
再者,上述第一字段与第二字段之间的关联关系可以为有向关系,也可以为无向关系,第一字段与不同的第二字段之间的关联关系的权重不同,权重越大表示第一字段与第二字段之间的关联程度越高。
其中,有向关系可以表示历史搜索行为中使用第一字段进行搜索的时间与使用第二字段进行搜索的时间之间的前后关系。可以认为在第一时间先于第二时间的情况下,存在第一字段指向第二字段的关联关系。则相反的,若第一时间晚于第二时间,则存在第二字段指向第一字段的关联关系。
或者,也可以认为在第一时间晚于第二时间的情况下,存在第一字段指向第二字段的关联关系。则相反的,若第一时间先于第二时间,可以认为存在第二字段指向第一字段的关联关系。
而无向关系不表示第一时间与第二时间之间的前后关系。则无论第一时间在先还是第二时间在先,第一字段与第二字段之间都可能存在无向的关联关系。
此外,可以以三元组的形式存储第一字段与第二字段之间的关联关系,其中,上述三元组中包含三个元素,分别表示第一字段、第二字段与关联关系。例如,第一个元素为第一字段的标识,第二个元素为上述关联关系的标识,第三个元素为第二字段的标识。上述字段的标识可以为字段的编号或字段本身,上述关联关系的标识可以为关联关系的种类,如表示第一字段对应的第一时间在第二字段对应的第二时间之前的标识,第一字段对应的第一时间在第二字段对应的第二时间之后的标识等,上述关联关系的标识也可以为关联关系的权重。
具体的,可以在各用户的历史搜索行为中,确定所对应的第二时间与第一时间的时间差小于预设时间差的历史搜索行为,从所确定的历史搜索行为中提取字段,作为上述第二字段。例如,上述预设时间差可以为5分钟。其中,从历史搜索行为中提取字段的方式与前述步骤S101相似,在此不再赘述。
另外,也可以通过步骤A实现上述步骤S102,在此暂不详述。
S103:从已构建的知识图谱中查找与上述第一字段直接存在关联关系的第一实体。
其中,上述知识图谱是:由与视频内容相关联的实体组成的。例如,上述与视频内容相关联的实体可以包含电影、电视剧、演员、编剧、导演、摄影师、奖项、电影节等。
具体的,上述知识图谱中包含对应各个实体的节点以及节点之间的边,节点之间存在边表示边两侧的节点对应的实体之间存在关联关系。上述知识图谱中还可以包含实体之间的关联关系的权重,上述权重表示存在关联关系的实体之间的关联程度,不同实体之间关联关系的权重可以相同也可以不同。若知识图谱中并未单独记录关联关系的权重,可以默认上述实体之间的权重为第一预设权重。
另外,上述第一字段与第一实体之间的关联关系可以表示:第一字段与第一实体对应的对象相同,例如,第一字段为“王宝强”,第一实体为记录王宝强的信息的实体。
上述第一字段与第一实体之间的关联关系也可以表示:第一字段对应的对象中包含上述第一实体对应的对象,或第一实体对应的对象包含第一字段对应的对象,例如,第一字段为“王宝强士兵突击”,上述第一字段既对应对象王宝强,也对应对象士兵突击,第一实体为记录王宝强的信息的实体,或者第一字段为“吴京主演的电影”,第一实体为记录战狼的信息的实体。
再者,上述第一字段与第一实体之间的关联关系的权重可以被设置为第二预设权重。
本发明的一个实施例中,可以通过步骤B和/或步骤C确定上述第一实体,本发明实施例在此暂不详述。
S104:根据上述第一实体,从上述知识图谱中查找与上述第一字段之间间接存在关联关系第二实体,并基于上述第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段。
具体的,由于知识图谱中原本便记录有各个实体之间的关联关系,可以将知识图谱中与第一实体之间直接和/或间接存在关联关系的实体确定为第二实体。另外,已知的字段之间也可以存在已知的关联关系,可以基于上述关联关系,从已知的字段中确定与第二字段之间直接和/或间接存在关联关系的字段,作为第三字段。再者,已知的字段与知识图谱中的实体之间也可以存在关联关系,因此可以将与第一实体以及第二实体之间直接和/或间接存在关联关系的已知的字段确定为第三字段,并且可以将与第二字段以及第三字段之间直接和/或间接存在关联关系的实体确定为第三实体。
其中,可以采用与步骤S102相似的方式确定已知的字段之间的关联关系,可以采用与步骤S103相似的方式确定已知的字段与知识图谱中的实体之间的关联关系,在此不再赘述。
另外,不同的第三字段与第一字段之间的距离不同,也就是不同的第三字段与第一字段之间间接存在的关联关系经过的字段或节点的最小数量不同。例如,若第一字段与已知的字段X之间直接存在关联关系、与已知的字段Y之间不直接存在关联关系,但字段X与字段Y之间直接存在关联关系,则字段Y经过1个字段X与第一字段之间间接存在关联关系,则字段Y与第一字段之间的距离为1。
不同的第二实体与第一字段之间的距离也不相同,也就是不同的第二实体与第一字段之间间接存在的关联关系经过的字段或节点的最小数量不同。例如,若第一字段与已知的字段X之间直接存在关联关系、与实体Z之间不直接存在关联关系,但字段X与已知的字段Y之间直接存在关联关系,实体Z与字段Y之间直接存在关联关系,则实体Z经过字段X、字段Y共2个字段与第一字段之间间接存在关联关系,则实体Z与第一字段之间的距离为2。
理论上,与第一字段之间的距离越大的字段或实体与第一字段之间的关联程度越小,因此本发明实施例可以在与第一字段间接存在关联关系的字段中,选择与第一字段之间的距离小于第一预设距离的字段作为第三字段。并且在与第一字段间接存在关联关系的实体中,选择与第一字段之间的距离小于第二预设距离的实体作为第二实体,以保证所确定的第三字段与第一字段之间的关联程度较高,并且保证所确定的第二实体与第一字段之间的关联程度较高。
其中,上述第一预设距离与第二预设距离可以相同,也可以不同。
本发明的另一个实施例中,可以通过步骤S103A-S103B实现上述步骤S104,在此暂不详述。
S105:根据目标描述信息,获得上述第一字段的描述信息。
其中,上述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
具体的,上述描述信息可以以特征向量的形式表示,则可以计算上述第二字段、第三字段、第一实体与第二实体的特征向量的平均值,作为上述第一字段的描述信息。
另外,由于第二字段与第一字段直接存在关联关系,第一实体与第一字段直接存在关联关系,第三字段与第一字段间接存在关联关系,第二实体与第一字段间接存在关联关系。所以对于第一字段而言,第二字段和第一实体的关联程度较高,第三字段和第二实体的关联程度较低,所以第二字段、第一实体的描述信息对第一字段的描述信息的影响较大,第三字段、第二实体的描述信息对第一字段的描述信息的影响较小。并且,不同的第三字段、第二实体与第一字段之间的距离不同,距离越大对第一字段的描述信息的影响越小。再者,不同关联关系的权重不同,对于第一字段而言,上述第二字段、第三字段、第一实体与第二实体的关联关系的权重越大,则对第一字段的描述信息的影响越大。
所以在计算上述第一字段的描述信息时,对于不同的第二字段、第三字段、第一实体与第二实体,计算时可以使用不同的权重值。则在上述描述信息以特征向量的形式表示的情况下,可以对上述第二字段、第三字段、第一实体与第二实体的特征向量进行加权计算、加权平均计算等,得到上述第一字段的描述信息。
再者,可以采用graph embedding方法获得上述第一字段的描述信息,上述graphembedding方法可以为node2vec方法或其他现有技术中的方法,本发明实施例对此不进行限定。
由以上可见,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
本发明的一个实施例中,上述已知的字段间的关联关系可以以行为图谱的形式表示,其中,上述行为图谱中包含各个节点以及节点之间的边,每一节点对应一个已知的字段,节点之间的边表示边两侧的节点对应的字段之间存在关联关系。
则在确定已知的字段中与上述第一字段直接存在关联关系的第二字段后,可以将上述第一字段作为一个新的节点添加到上述行为图谱中,并在上述新的节点与第二字段对应的节点之间添加边,表示第一字段与第二字段之间存在关联关系。
参见图2,为本发明实施例提供的一种行为图谱的示意图。
其中,各个圆形表示各个节点,各个连线表示行为图谱中的各个边。节点1对应第一字段,节点2-节点4对应各个已知的字段,节点1与节点2之间的连线表示第一字段与节点2对应的字段之间存在关联关系,节点2对应的字段为第二字段。节点2与节点3之间的连线表示节点2对应的字段与节点3对应的字段之间存在第一关联关系,节点2与节点4之间的连线表示节点2对应的字段与节点4对应的字段之间存在第一关联关系。
由于节点3与节点4与节点1之间不直接存在连线,但均可以通过节点2与节点1相连,因此上述节点3与节点4对应的字段与节点1对应的第一字段间接存在关联关系,节点3与节点4对应的字段为第三字段。
本发明的另一个实施例中,不同实体之间的关联关系表示的关系的种类可以不同,例如,上述关系的种类可以为:实体信息表示的含义相同的同义关系,一个实体中包含另一个实体的包含关系等。如,实体汤姆克鲁斯与实体阿汤哥之间的关联关系可以为同义关系,实体古装剧与实体清宫剧之间的关联关系可以为包含关系。
上述实体之间的关联关系可以为有向关系,也可以为无向关系。例如,若实体M与实体N之间存在同义关系,则对于实体M而言,实体M的实体信息与实体N的实体信息的含义相同,对于实体N而言,实体N的实体信息与实体M的实体信息的含义同样相同,则上述同义关系为无向关系。而若实体M与实体N之间存在包含关系,表示实体M中包含实体N,但实体N中不包含实体M,所以上述包含关系为有向关系。
参见图3,为本发明实施例提供的一种知识图谱的示意图。
其中,各个圆形表示知识图谱中的各个节点,节点5-节点9分别对应实体a-实体e,各个连线表示知识图谱中的各个边,节点5与节点6之间的连线表示实体a与实体b之间存在关联关系,节点5与节点7之间的连线表示实体a与实体c之间存在关联关系,节点6与节点8之间的连线表示实体b与实体d之间存在关联关系,节点7与节点8之间的连线表示实体c与实体d之间存在关联关系,节点8与节点9之间的连线表示实体d与实体e之间存在关联关系。
本发明的一个实施例中,可以基于以下步骤D1-步骤D3构建上述知识图谱。
步骤D1:获取与视频内容相关的实体,并确定各个实体之间的关联关系。
具体的,上述与视频内容相关的实体以及实体之间的关联关系可以是本地已存储的,也可以是从网络中获取的。
步骤D2:基于各个实体之间的关联关系生成三元组。
其中,上述三元组内的元素分别为:存在关联关系的两个实体的实体标识以及实体之间的关联关系的类型。
具体的,上述实体标识可以为实体的名称、编号等。
步骤D3:基于所生成的三元组构建上述知识图谱。
具体的,每一三元组记录有一对实体之间的关联关系,将各对实体之间的关联关系组合,便可以得到知识图谱。
其中,可以以上述三元组的集合表示上述知识图谱,或者将每一三元组作为知识图谱表中的一个表项,以知识图谱表的形式表示上述知识图谱。
本发明的又一个实施例中,在上述第一字段以行为图谱中的节点表示的情况下,可以在第一字段对应的节点与第一实体对应的知识图谱中的节点之间添加边,从而将行为图谱与知识图谱连接起来形成行为知识图谱。
参见图4,为本发明实施例提供的一种行为知识图谱的示意图,上述图4表示的行为知识图谱为图2所示的行为图谱与图3所示的知识图谱连接得到的。图中虚线以上为上述行为图谱,虚线以下为知识图谱。节点1与节点5之间的连线表示第一字段与实体a之间直接存在关联关系,节点1与节点6之间的连线表示第一字段与实体b之间存在关联关系,实体a与实体b为上述第一实体。
另外,节点7、节点8与节点9与节点1之间不直接存在连线,但均存在经由其他节点与节点1之间的连线,因此实体c、实体d与实体e与第一字段之间间接存在关联关系,实体c、实体d与实体e为第二实体。
本发明的一个实施例中,可以通过以下步骤A实现上述步骤S102。
步骤A:基于针对视频内容的历史搜索行为,确定目标频次大于预设频次的字段,作为第二字段。
其中,上述目标频次为:历史搜索行为中使用该字段进行搜索的时间与第一搜索时间之间的时间差小于上述预设时间差的频次。
具体的,对于一个字段,若各用户使用第一字段进行搜索的第一搜索时间与使用该字段进行搜索的时间之间的时间差小于预设时间差,且上述时间差小于预设时间差的目标频次大于预设频次,可以认为各用户频繁的在短时间内共同搜索第一字段与该字段,则可以认为第一字段与该字段之间的关联程度较高,将该字段确定为与第一字段直接存在关联关系的上述第二字段。
由以上可见,对于历史搜索行为使用的字段,仅将使用该字段进行搜索的时间与上述第一时间之间的时间差小于预设时间差,且在各用户的历史搜索行为中、上述时间差小于预设时间差的频次大于预设频次的字段作为第二字段。由于用户在短时间内共同使用第一字段与第二字段进行搜索的频次较高,也就是大量用户频繁的在短时间内先后使用第一字段与第二字段进行搜索,因此在理论上所确定的第二字段与第一字段之间的关联程度越高,基于关联程度高的第二字段确定得到的第一字段的描述信息的准确度较高。
此外,在上述步骤A之后,本发明实施例还包括以下步骤E。
步骤E:将上述第二字段对应的目标频次,作为上述第一字段与第二字段之间的关联关系权重。
具体的,上述权重表示第一字段与第二字段之间关联程度,上述目标频次越大,说明用户在短时间内既使用第一字段进行搜索又使用第二字段进行搜索的频次越高,则第一字段与第二字段之间的关联程度越高,因此上述目标频次可以作为上述第一关联关系的权重。
本发明的一个实施例中,可以通过以下步骤B和/或步骤C实现上述步骤S103。
步骤B:从已构建的知识图谱中,确定部分或全部实体信息与上述第一字段相同的实体,作为与上述第一字段直接存在关联关系的第一实体。
具体的,上述实体信息可以包括实体名称、实体属性信息等,上述实体属性信息可以包含实体种类、实体生成时间、实体信息的大小等。
本发明的一个实施例中,可以遍历各个实体,将部分或全部实体信息与上述第一字段相同的实体确定为第一实体,也可以将部分或全部实体信息为上述第一字段的一部分的实体确定为第一实体。
具体的,可以对上述第一字段进行分词处理,将分词处理结果分别于实体的部分或全部实体信息进行对比,确定实体中的第一实体。
其中,上述分词处理可以通过现有技术中的分词方式实现,本发明实施例对此不进行限定。
步骤C:从已构建的知识图谱中,确定部分或全部实体信息与上述第一字段语义相同的实体,作为与上述第一字段直接存在关联关系的第一实体。
本发明的一个实施例中,可以分别对第一字段进行语义分析,并对各个实体的全部或部分实体信息进行语义分析,分别将各个实体部分或全部的实体信息的语义与第一字段的语义进行对比,确定实体中的第一实体。
具体的,可以通过现有技术中的方式进行上述语义分析,本发明实施例对此不进行限定。
参见图5,为本发明实施例提供的第二种字段描述信息获得方法的流程示意图,与前述图1所示的实施例相比,上述步骤S103可以通过以下步骤S103A-S103B实现。
S103A:根据第一关联关系以及上述知识图谱中实体之间的第二关联关系,确定包含上述第一字段的标识的标识序列。
其中,上述标识序列中相邻标识表示的节点之间直接存在关联关系,上述节点为字段或实体。
具体的,上述第一字段的标识可以位于上述标识序列中的任意位置。
另外,上述标识序列中的标识可以为节点的编号、名称等。
本发明的一个实施例中,可以通过步骤S103A1-S103A2实现上述步骤S103A,在此暂不详述。
S103B:将上述标识序列中的标识对应的、除第一字段以及第二字段之外的字段确定为第三字段,将上述标识序列中的标识对应的、除第一实体之外的实体确定为第二实体。
具体的,由于上述标识序列中包含的每一对相邻标识对应的节点之间直接存在关联关系,因此上述标识序列中的任意两个标识对应的节点之间存在关联关系。又由于上述标识序列中包含第一字段的标识,上述标识序列中的各个标识对应节点与第一字段存在直接关联关系或间接关联关系。通过上述标识序列可以确定与第一字段之间存在间接关联关系的第三字段与第二实体。
参见图6,为本发明实施例提供的第三种字段描述信息获得方法的流程示意图,与前述图5所示的实施例相比,上述步骤S103A可以通过以下步骤S103A1-S103A2实现。
S103A1:选择与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点。
具体的,在作为过目标节点的节点的数量小于预设数量的情况下,重复执行上述步骤S103A1,重复选择新的目标节点,直至作为过目标节点的节点的数量不小于预设数量,则执行步骤S103A2。
其中,上述目标节点的初始值为上述第一字段。也就是说,从上述第一字段开始,选择与第一字段直接存在关联关系的第二字段,或与第一字段直接存在关联关系的第一实体,作为第二个目标节点。进一步的,选择与第二个目标节点之间直接存在关联关系的一个节点,作为第三个目标节点。以此类推,直至得到预设数量个目标节点。
本发明的一个实施例中,与目标节点之间直接存在关联关系的节点可能有多个,但每次被选择作为目标节点的节点仅有一个,可以通过以下步骤F-步骤I中的任意一种,选择新的目标节点。
步骤F:优先选择未作为过目标节点的、与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点。
步骤G:优先选择作为过目标节点的、与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点。
步骤H:优先选择与当前的目标节点之间关联关系权重最高、且直接存在关联关系的一个节点,作为新的目标节点。
其中,上述关联关系权重表示节点之间的关联程度。
步骤I:随机选择与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点。
此外,也可以结合上述步骤F与步骤H,即选择与上述目标节点之间直接存在关联关系的节点里,未作为过目标节点的节点中,与当前的目标节点之间的关联关系的权重最高的节点,作为新的目标节点。
还可以结合上述步骤G与步骤H,即选择与上述目标节点之间直接存在关联关系的节点里,作为过目标节点的节点中,与当前的目标节点之间的关联关系的权重最高的节点,作为新的目标节点。
还可以通过其他方式选择新的目标节点,本发明实施例在此不再赘述。
S103A2:生成按照第一顺序排列的、包含各目标节点的标识的标识序列。
其中,上述第一顺序为:各个节点作为目标节点的先后顺序。
具体的,由于每一次执行上述步骤S103A1时,会选择与当前的目标节点直接存在关联关系的一个节点,作为新的目标节点,因此前后两次被选择为目标节点的节点之间直接存在关联关系。所以按照第一顺序生成的标识序列中,相邻标识对应的节点之间直接存在关联关系,不相邻的标识对应的节点之间可以直接或间接的存在关联关系。并且,由于目标节点的初始值是第一字段,因此第一字段作为过目标节点,生成的标识序列中包含第一字段的第一标识,也就是上述标识序列中各个标识对应的除第一字段之外的各个节点与第一字段均直接或间接的存在关联关系。
另外,结束重复执行上述步骤S103A1的过程的条件为作为过目标节点的节点的数量不小于预设数量,因此作为过目标节点的节点的数量累计达到了预设数量。也就是将各目标节点的标识组成的标识序列中包含预设数量个标识。
由以上可见,以第一字段为初始的目标节点,并依据节点之间的关联关系依次将其他节点确定为新的目标节点,所确定的各个新的目标节点均与第一字段之间存在直接或间接的关联关系。将各个节点的标识按照作为目标节点的顺序排列,可以组成一个标识序列,标识序列对应的各个节点便与第一字段存在直接或间接的关联关系。因此通过本发明实施例得到的标识序列能够表示与第一字段存在关联关系的实体或字段。
本发明的另一个实施例中,上述目标节点的初始值也可以为其他节点,在此基础上执行上述步骤S103A1-S103A2同样可以生成标识序列,可以从所生成的标识序列中,选择包含第一标识的标识序列。
与前述字段描述信息获得方法相对应,参见图7,为本发明实施例提供的第一种字段描述信息获得装置的结构示意图,上述装置包括:
字段提取模块701,用于获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;
字段确定模块702,用于基于针对视频内容的历史搜索行为,确定与第一字段直接存在关联关系的第二字段,其中,第一搜索时间与第二搜索时间之间的时间差小于等于预设时间差,所述第一搜索时间为:历史搜索行为中使用所述第一字段进行搜索的时间,所述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间;
实体查找模块703,用于从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体,其中,所述知识图谱是:由与视频内容相关联的实体组成的;
实体字段查找模块704,用于根据所述第一实体,从所述知识图谱中查找与所述第一字段之间间接存在关联关系第二实体,并基于所述第二字段以及已知的字段之间的第一关联关系,确定与第一字段之间间接存在关联关系的第三字段;
信息获得模块705,用于根据目标描述信息,获得所述第一字段的描述信息,其中,所述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
由以上可见,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
本发明的一个实施例中,所述实体查找模块703,具体用于:
从已构建的知识图谱中,确定部分或全部实体信息与所述第一字段相同的实体,作为与所述第一字段直接存在关联关系的第一实体;
和/或
从已构建的知识图谱中,确定部分或全部实体信息与所述第一字段语义相同的实体,作为与所述第一字段直接存在关联关系的第一实体。
参见图8,为本发明实施例提供的第二种字段描述信息获得装置的结构示意图,与前述图7所示的实施例相比,上述实体字段查找模块704,包括:
序列确定子模块704A,用于根据第一关联关系以及所述知识图谱中实体之间的第二关联关系,确定包含所述第一字段的标识的标识序列,其中,所述标识序列中相邻标识表示的节点之间直接存在关联关系,所述节点为字段或实体;
实体字段确定子模块704B,用于将所述标识序列中的标识对应的、除第一字段以及第二字段之外的字段确定为第三字段,将所述标识序列中的标识对应的、除第一实体之外的实体确定为第二实体。
由以上可见,由于上述标识序列中包含的每一对相邻标识对应的节点之间直接存在关联关系,因此上述标识序列中的任意两个标识对应的节点之间存在关联关系。又由于上述标识序列中包含第一字段的标识,上述标识序列中的各个标识对应节点与第一字段存在直接关联关系或间接关联关系。通过上述标识序列可以确定与第一字段之间存在间接关联关系的第三字段与第二实体。
参见图9,为本发明实施例提供的第三种字段描述信息获得装置的结构示意图,与前述图8所示的实施例相比,上述序列确定子模块704A,包括:
节点选择单元704A1,用于根据第一关联关系以及所述知识图谱中实体之间的第二关联关系,重复执行选择与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点的步骤,直至作为过目标节点的节点的数量不小于预设数量,所述目标节点的初始值为所述第一字段;
序列生成单元704A2,用于生成按照第一顺序排列的、包含各目标节点的标识的标识序列,所述第一顺序为:各个节点作为目标节点的先后顺序。
由以上可见,以第一字段为初始的目标节点,并依据节点之间的关联关系依次将其他节点确定为新的目标节点,所确定的各个新的目标节点均与第一字段之间存在直接或间接的关联关系。将各个节点的标识按照作为目标节点的顺序排列,可以组成一个标识序列,标识序列对应的各个节点便与第一字段存在直接或间接的关联关系。因此通过本发明实施例得到的标识序列能够表示与第一字段存在关联关系的实体或字段。
本发明的一个实施例中,所述节点选择单元704A1,具体用于:
根据第一关联关系以及所述知识图谱中实体之间的第二关联关系,重复通过以下方式中的任意一种,选择新的目标节点,直至作为过目标节点的节点的数量不小于预设数量:
优先选择未作为过目标节点的、与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点;
优先选择作为过目标节点的、与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点;
优先选择与当前的目标节点之间关联关系权重最高、且直接存在关联关系的一个节点,作为新的目标节点,其中,所述关联关系权重表示节点之间的关联程度。
本发明的一个实施例中,所述字段确定模块702,具体用于:
基于针对视频内容的历史搜索行为,确定目标频次大于预设频次的字段,作为第二字段,其中,所述目标频次为:历史搜索行为中使用该字段进行搜索的时间与第一搜索时间之间的时间差小于所述预设时间差的频次。
由以上可见,对于历史搜索行为使用的字段,仅将使用该字段进行搜索的时间与上述第一时间之间的时间差小于预设时间差,且在各用户的历史搜索行为中、上述时间差小于预设时间差的频次大于预设频次的字段作为第二字段。由于用户在短时间内共同使用第一字段与第二字段进行搜索的频次较高,也就是大量用户频繁的在短时间内先后使用第一字段与第二字段进行搜索,因此在理论上所确定的第二字段与第一字段之间的关联程度越高,基于关联程度高的第二字段确定得到的第一字段的描述信息的准确度较高。
本发明的一个实施例中,所述装置还包括:
权重确定模块,用于将所述第二字段对应的目标频次,作为所述第一字段与第二字段之间的关联关系权重。
本发明的一个实施例中,通过以下图谱构建模块构建所述知识图谱;
所述图谱构建模块,用于:
获取与视频内容相关的实体,并确定各个实体之间的关联关系;
基于各个实体之间的关联关系生成三元组,其中,所述三元组内的元素分别为:存在关联关系的两个实体的实体标识以及实体之间的关联关系的类型;
基于所生成的三元组构建所述知识图谱。
本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现上述字段描述信息获得方法任一所述的方法步骤。
应用本发明实施例提供的电子设备获得第一字段的描述信息时,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中上述字段描述信息获得方法任一所述的方法步骤。
应用本实施例提供的计算机可读存储介质中存储的计算机程序获得第一字段的描述信息时,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中上述字段描述信息获得方法任一所述的方法步骤。
执行本实施例提供的计算机程序产品获得第一字段的描述信息时,本发明实施例提供的方案除了基于历史搜索行为确定与第一字段之间直接存在关联关系的第二字段之外,也确定了知识图谱中与第一字段直接存在关联关系的第一实体,还确定了与第一字段间接存在关联关系的第三字段与第二实体。因此通过引入已构建的知识图谱,第一字段不仅与已知的字段之间存在关联关系,还与实体之间存在关联关系,与第一字段的关联关系较为丰富。因此与上述第一字段之间存在关联关系的字段、实体等节点较为丰富,也就使得根据较为丰富的节点的描述信息获得的第一字段的描述信息较为准确。
另外,对于在历史搜索行为中出现概率较低的第一字段,能够确定得到的与上述第一字段之间存在的关联关系的字段较少,基于较少量存在关联关系的字段的描述信息获得的第一字段的描述信息的准确度较低。本发明实施例引入了已构建的知识图谱,除了查找与第一字段存在关联关系的字段之外,还可以从知识图谱中查找与第一字段之间存在关联关系的实体,因此查找到的与上述第一字段之间存在关联关系的节点的数量较多,基于数量较多的节点的描述信息获得的第一字段的描述信息的准确度较高。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种字段描述信息获得方法,其特征在于,所述方法包括:
获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;
从针对视频内容的历史搜索行为中,确定所对应的第二搜索时间与第一搜索时间的时间差小于预设时间差的历史搜索行为,从所确定的历史搜索行为中提取与第一字段直接存在关联关系的第二字段,其中,所述第一搜索时间为:历史搜索行为中使用所述第一字段进行搜索的时间,所述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间,所述第一字段与第二字段之间的关联关系为有向关系或无向关系,第一字段与不同的第二字段之间的关联关系的权重不同,权重越大表示第一字段与第二字段之间的关联程度越高;
从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体,其中,所述知识图谱是:由与视频内容相关联的实体组成的,通过以下方式构建所述知识图谱:获取与视频内容相关的实体,并确定各个实体之间的关联关系;基于各个实体之间的关联关系生成三元组,其中,所述三元组内的元素分别为:存在关联关系的两个实体的实体标识以及实体之间的关联关系的类型;基于所生成的三元组构建所述知识图谱;
将所述知识图谱中与所述第一实体直接和/或间接存在关联关系的实体确定为第二实体,将与所述第二字段之间直接和/或间接存在关联关系的已知的字段确定为第三字段,将与所述第一实体以及第二实体直接和/或间接存在关联关系的已知的字段确定为第三字段;
根据目标描述信息,获得所述第一字段的描述信息,其中,所述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
2.根据权利要求1所述的方法,其特征在于,所述从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体,包括:
从已构建的知识图谱中,确定部分或全部实体信息与所述第一字段相同的实体,作为与所述第一字段直接存在关联关系的第一实体;
和/或
从已构建的知识图谱中,确定部分或全部实体信息与所述第一字段语义相同的实体,作为与所述第一字段直接存在关联关系的第一实体。
3.根据权利要求1所述的方法,其特征在于,所述将所述知识图谱中与所述第一实体直接和/或间接存在关联关系的实体确定为第二实体,将与所述第二字段之间直接和/或间接存在关联关系的已知的字段确定为第三字段,将与所述第一实体以及第二实体直接和/或间接存在关联关系的已知的字段确定为第三字段,包括:
根据第一关联关系以及所述知识图谱中实体之间的第二关联关系,确定包含所述第一字段的标识的标识序列,其中,所述标识序列中相邻标识表示的节点之间直接存在关联关系,所述节点为字段或实体;
将所述标识序列中的标识对应的、除第一字段以及第二字段之外的字段确定为第三字段,将所述标识序列中的标识对应的、除第一实体之外的实体确定为第二实体。
4.根据权利要求3所述的方法,其特征在于,所述确定包含所述第一字段的标识的标识序列,包括:
重复执行选择与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点的步骤,直至作为过目标节点的节点的数量不小于预设数量,所述目标节点的初始值为所述第一字段;
生成按照第一顺序排列的、包含各目标节点的标识的标识序列,所述第一顺序为:各个节点作为目标节点的先后顺序。
5.根据权利要求4所述的方法,其特征在于,所述选择与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点,包括:
通过以下方式中的任意一种,选择新的目标节点:
优先选择未作为过目标节点的、与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点;
优先选择作为过目标节点的、与当前的目标节点之间直接存在关联关系的一个节点,作为新的目标节点;
优先选择与当前的目标节点之间关联关系权重最高、且直接存在关联关系的一个节点,作为新的目标节点,其中,所述关联关系权重表示节点之间的关联程度。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述从针对视频内容的历史搜索行为中,确定所对应的第二搜索时间与第一搜索时间的时间差小于预设时间差的历史搜索行为,从所确定的历史搜索行为中提取与第一字段直接存在关联关系的第二字段,包括:
基于针对视频内容的历史搜索行为,确定目标频次大于预设频次的字段,作为第二字段,其中,所述目标频次为:历史搜索行为中使用该字段进行搜索的时间与第一搜索时间之间的时间差小于所述预设时间差的频次。
7.根据权利要求6所述的方法,其特征在于,在所述基于针对视频内容的历史搜索行为,确定目标频次大于预设频次的字段,作为第二字段之后,所述方法还包括:
将所述第二字段对应的目标频次,作为所述第一字段与第二字段之间的关联关系权重。
8.一种字段描述信息获得装置,其特征在于,所述装置包括:
字段提取模块,用于获取针对视频内容的用户搜索行为,并从用户搜索行为中提取用于进行搜索的第一字段;
字段确定模块,用于从针对视频内容的历史搜索行为中,确定所对应的第二搜索时间与第一搜索时间的时间差小于预设时间差的历史搜索行为,从所确定的历史搜索行为中提取与第一字段直接存在关联关系的第二字段,其中,所述第一搜索时间为:历史搜索行为中使用所述第一字段进行搜索的时间,所述第二搜索时间为:历史搜索行为中使用第二字段进行搜索的时间,所述第一字段与第二字段之间的关联关系为有向关系或无向关系,第一字段与不同的第二字段之间的关联关系的权重不同,权重越大表示第一字段与第二字段之间的关联程度越高;
实体查找模块,用于从已构建的知识图谱中查找与所述第一字段直接存在关联关系的第一实体,其中,所述知识图谱是:由与视频内容相关联的实体组成的,通过以下方式构建所述知识图谱:获取与视频内容相关的实体,并确定各个实体之间的关联关系;基于各个实体之间的关联关系生成三元组,其中,所述三元组内的元素分别为:存在关联关系的两个实体的实体标识以及实体之间的关联关系的类型;基于所生成的三元组构建所述知识图谱;
实体字段查找模块,用于将所述知识图谱中与所述第一实体直接和/或间接存在关联关系的实体确定为第二实体,将与所述第二字段之间直接和/或间接存在关联关系的已知的字段确定为第三字段,将与所述第一实体以及第二实体直接和/或间接存在关联关系的已知的字段确定为第三字段;
信息获得模块,用于根据目标描述信息,获得所述第一字段的描述信息,其中,所述目标描述信息包括:第二字段的描述信息、第三字段的描述信息、第一实体的描述信息以及第二实体的描述信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN202111032146.0A 2021-09-03 2021-09-03 一种字段描述信息获得方法及装置 Active CN113656603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111032146.0A CN113656603B (zh) 2021-09-03 2021-09-03 一种字段描述信息获得方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111032146.0A CN113656603B (zh) 2021-09-03 2021-09-03 一种字段描述信息获得方法及装置

Publications (2)

Publication Number Publication Date
CN113656603A CN113656603A (zh) 2021-11-16
CN113656603B true CN113656603B (zh) 2024-06-04

Family

ID=78482827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111032146.0A Active CN113656603B (zh) 2021-09-03 2021-09-03 一种字段描述信息获得方法及装置

Country Status (1)

Country Link
CN (1) CN113656603B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114742A1 (en) * 2006-11-14 2008-05-15 You Ganmei Object entity searching method and object entity searching device
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置
CN111339250A (zh) * 2020-02-20 2020-06-26 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114742A1 (en) * 2006-11-14 2008-05-15 You Ganmei Object entity searching method and object entity searching device
CN104598556A (zh) * 2015-01-04 2015-05-06 百度在线网络技术(北京)有限公司 搜索方法及装置
CN111339250A (zh) * 2020-02-20 2020-06-26 北京百度网讯科技有限公司 新类别标签的挖掘方法及电子设备、计算机可读介质

Also Published As

Publication number Publication date
CN113656603A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US10296534B2 (en) Storing and searching fingerprints derived from media content based on a classification of the media content
JP6751235B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
CN111666450B (zh) 视频召回方法、装置、电子设备及计算机可读存储介质
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
US7243085B2 (en) Hybrid personalization architecture
CN111666448B (zh) 搜索方法、装置、电子设备及计算机可读存储介质
KR102233175B1 (ko) 특징배우 결정 및 특징배우 출연확률 기반 영상 식별 방법 및 장치
CN108319628B (zh) 一种用户兴趣确定方法及装置
CN110765348B (zh) 一种热词的推荐方法、装置、电子设备及存储介质
CN113407773A (zh) 一种短视频智能推荐方法、***、电子设备及存储介质
US11756301B2 (en) System and method for automatically detecting and marking logical scenes in media content
CN109740621B (zh) 一种视频分类方法、装置及设备
CN110263318B (zh) 实体名称的处理方法、装置、计算机可读介质及电子设备
CN106294765A (zh) 处理新闻数据的方法及装置
CN113656603B (zh) 一种字段描述信息获得方法及装置
CN112836126A (zh) 基于知识图谱的推荐方法、装置、电子设备及存储介质
CN110569447B (zh) 一种网络资源的推荐方法、装置及存储介质
CN108596647B (zh) 一种广告投放方法、装置及电子设备
CN104376000A (zh) 确定网页属性的方法及装置
CN111951808A (zh) 语音交互方法、装置、终端设备及介质
CN117272056A (zh) 对象特征构建方法、装置和计算机可读存储介质
CN114547440A (zh) 基于互联网大数据的用户画像挖掘方法及人工智能云***
US20140325378A1 (en) Method and apparatus for generating a personalized page
CN112328835A (zh) 对象的向量表示的生成方法、装置、电子设备及存储介质
Trabelsi et al. Harnessing the potential of HMM for movie rating recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant