CN116910260B - 一种基于大数据的数字资产搜索方法 - Google Patents

一种基于大数据的数字资产搜索方法 Download PDF

Info

Publication number
CN116910260B
CN116910260B CN202311178378.6A CN202311178378A CN116910260B CN 116910260 B CN116910260 B CN 116910260B CN 202311178378 A CN202311178378 A CN 202311178378A CN 116910260 B CN116910260 B CN 116910260B
Authority
CN
China
Prior art keywords
target
objects
class
determining
digital asset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311178378.6A
Other languages
English (en)
Other versions
CN116910260A (zh
Inventor
王双
程越
高昂
王淑敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202311178378.6A priority Critical patent/CN116910260B/zh
Publication of CN116910260A publication Critical patent/CN116910260A/zh
Application granted granted Critical
Publication of CN116910260B publication Critical patent/CN116910260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于大数据的数字资产搜索方法,从数字资产的数据类型、语义的维度分别着手,在数字资产借由本地资源进行存储时,即确定其可能面临的搜索情况,对其进行分类。在检测到搜索指令时,分别从数据类型、语义的维度分别地确定搜索结果,使得得到的搜索结果,能够至少从数据类型、语义的维度与搜索指令匹配。进一步地,本说明书还对得到的搜索结果进行了排序,使得在排序上相邻的搜索结构之间的相似度较小,则用户在观察搜索结果时,能够较为便捷的察觉到序列中的搜索结果之间的差异,使得用户能够较快的找到其目标的数字资产。

Description

一种基于大数据的数字资产搜索方法
技术领域
本申请涉及数据识别技术领域,尤其涉及一种基于大数据的数字资产搜索方法。
背景技术
数字资产(Digital assets)是指企业或个人持有或控制的,以电子数据形式存在的,在日常活动中持有以备出售或处于生产过程中的非货币性资产。以个人持有的数字资产为例,该用户持有的数字资产可能是一段音频文件、一张图片、一个文档等。若用户持有的数字资产较多,数字资产的内容较为丰富,则有可能导致难以对其进行管理的现象,则在众多的数字资产中进行搜索时,由于数字资产的数据类型不尽相同,数字资产的量较多,某一数据内容又未必基于某一特定的数据类型,将导致针对其进行的搜索无从下手。
发明内容
本申请实施例提供了一种基于大数据的数字资产搜索方法,以至少部分的解决上述技术问题。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种基于大数据的数字资产搜索方法,所述方法包括:
将本地存储的数字资产,确定为参照对象;
按照所述参照对象的数据类型,对所述参照对象进行聚类,得到第一聚类结果;
对所述参照对象进行语义分析,按照所述语义分析的结果,对所述参照对象进行聚类,得到第二聚类结果;
将检测到的待存储至本地的数字资产,确定为待定对象;
根据所述待定对象的所述数据类型,将所述待定对象添加至所述第一聚类结果中;并且,根据所述待定对象的语义分析的结果,将所述待定对象添加至所述第二聚类结果中;
在检测到搜索指令时,若解析出所述搜索指令指向的所述数据类型,则从所述第一聚类结果中确定出与所述搜索指令匹配的,作为第一类;
根据所述搜索指令表示出的语义,从所述第二聚类结果中确定出与所述搜索指令匹配的,作为第二类;
确定所述第一类和所述第二类的交集,作为第一目标对象;
按照所述第一目标对象之间的相似度,对所述第一目标对象进行排序,得到第一目标序列,使得所述第一目标序列中相邻的所述第一目标对象之间的相似度之和最小;
展示所述第一目标序列。
在本说明书一个可选的实施例中,所述方法还包括:
若未解析出所述搜索指令指向的所述数据类型,则针对所述第二类中的每个类,从其包含的所述数字资产中确定出其对应的第二目标对象,使得所述第二目标对象与其所属的所述第二类中除所述第二目标对象以外的其他所述数字资产的相似度之和最大;
按照所述第二目标对象之间的相似度,对所述第二目标对象进行排序,得到所述第一目标序列,使得所述第一目标序列中相邻的所述第二目标对象之间的相似度之和最小。
在本说明书一个可选的实施例中,针对所述第二类中的每个类,从其包含的所述数字资产中确定出其对应的第二目标对象,包括:
基于预设的每种所述数据类型,针对所述第二类中的每个类,从其包含的所述数字资产中确定出分别对应于每种所述数据类型的所述第二目标对象。
在本说明书一个可选的实施例中,按照所述第二目标对象之间的相似度,对所述第二目标对象进行排序,得到所述第一目标序列,包括:
以所述第一目标序列中相邻的所述第二目标对象之间的相似度之和最小、且相邻的所述第二目标对象的所述数据类型不同为目标,对所述第二目标对象进行排序,得到所述第一目标序列。
在本说明书一个可选的实施例中,所述数据类型包括:
图片、视频、文字、音频。
在本说明书一个可选的实施例中,所述方法还包括:
在检测到针对所述第一目标序列中的所述数字资产的选择操作时,将所述选择操作针对的所述数字资产,确定为第三目标对象;
将所述第三目标对象所属的第二聚类结果,作为目标类;
从所述目标类中,以与所述搜索指令的匹配度、和与所述第三目标对象的匹配度之和最大化为目标,确定出指定数量个所述数字资产,作为第四目标对象;
对所述第四目标对象进行排序,得到第二目标序列;
在基于所述选择操作展示所述第三目标对象时,展示所述第二目标序列。
在本说明书一个可选的实施例中,所述指定数量与所述第一目标序列涵盖的所述数据类型的数量和所述第二类的数量的比值正相关,且所述指定数量还与匹配度差值正相关;
所述匹配度差值是所述第一目标序列中的所述数字资产与所述搜索指令的最大匹配度、和所述第三目标对象与所述搜索指令的匹配度的差值。
第二方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
第三方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书中的方法,从数字资产的数据类型、语义的维度分别着手,在数字资产借由本地资源进行存储时,即确定其可能面临的搜索情况,对其进行分类。在检测到搜索指令时,分别从数据类型、语义的维度分别地确定搜索结果,使得得到的搜索结果,能够至少从数据类型、语义的维度与搜索指令匹配。进一步地,本说明书还对得到的搜索结果进行了排序,使得在排序上相邻的搜索结构之间的相似度较小,则用户在观察搜索结果时,能够较为便捷的察觉到序列中的搜索结果之间的差异,使得用户能够较快的找到其目标的数字资产。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种基于大数据的数字资产搜索方法的过程示意图;
图2为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其它元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本说明书中的基于大数据的数字资产搜索方法包含以下步骤:
S100:将本地存储的数字资产,确定为参照对象。
本地存储的数字资产的量可能较多。每一个数字资产作为一个参照对象。
在本说明书一个可选的实施例中,本说明书的执行主体周期性地(周期的时长可以是经验值)对第二聚类结果包含的数字资产的量的增量进行检测,若增量的增幅大于预设的增幅阈值(可以是经验值),则触发执行本步骤。
S102:按照所述参照对象的数据类型,对所述参照对象进行聚类,得到第一聚类结果。
本说明书中的数据类型即为对数据进行存储时,数据表现出的类型。例如,当数字资产是图片时,数据类型可以是jpg、gif等。此外,数字资产还可以是文档、音频等等,相关技术中的数据存储时的类型,在条件允许的情况下,均可以作为本说明书中的数据类型,在此不一一赘述。
相关技术中可以用于对数据进行聚类的技术手段,在条件允许的情况下,均适用于本说明书。聚类的粒度可以根据经验确定。例如,在较为粗的粒度中,可以图片聚为一类、音频聚为一类;在较为细的粒度中,可以jpg聚为一类、gif聚为一类。
通过本步骤的聚类,聚类得到的结果即为第一聚类结果。第一聚类结果可能包含多个类,类的数量与粒度有关。
S104:对所述参照对象进行语义分析,按照所述语义分析的结果,对所述参照对象进行聚类,得到第二聚类结果。
在本说明书中,相关技术中能够对数字资产进行语义分析的技术手段,在条件允许的情况下,均适用于本说明书。由于数字资产的数据类型不同,采用的语义分析手段可能不同。
通过本步骤的聚类,聚类得到的结果即为第二聚类结果。第二聚类结果可能包含多个类,类的数量与粒度有关。可能存在某一数字资产同时属于多个第二聚类结果中的情形。
第一聚类结果和第二聚类结果可以从不同的维度,对数字资产进行表征。
S106:将检测到的待存储至本地的数字资产,确定为待定对象。
以个人用户为例,用户在浏览网页时,有可能发现自己感兴趣的数字资产,则可以通过本步骤存储至本地。
S108:根据所述待定对象的所述数据类型,将所述待定对象添加至所述第一聚类结果中;并且,根据所述待定对象的语义分析的结果,将所述待定对象添加至所述第二聚类结果中。
本步骤即为确定待定对象属于哪个第一聚类结果和第二聚类结果。之后,将待定对象存储至本地,作为本地存储的数字资产。
S110:在检测到搜索指令时,若解析出所述搜索指令指向的所述数据类型,则从所述第一聚类结果中确定出与所述搜索指令匹配的,作为第一类。
搜索指令是用户在需要对数字资产进行搜索时,发出的指令,其中携带有表达目标要获取的数字资产为何的信息,例如,搜索时采用的关键词可以作为本说明书中的搜索指令。示例性地,若搜索指令是“猫咪图片”,则其中的“图片”即为数据类型。与图片相关的第一聚类结果均可以作为本说明书中的第一类,可知,可能存在得到的第一类不唯一的情况。
确定匹配度的技术手段,在条件允许的情况下,均适用于本说明书。在基于匹配度确定第一类和第二类时采用的匹配度阈值,可以是经验值。
S112:根据所述搜索指令表示出的语义,从所述第二聚类结果中确定出与所述搜索指令匹配的,作为第二类。
同理,通过本步骤确定出的第二类也有可能存在不唯一的情况。
S114:确定所述第一类和所述第二类的交集,作为第一目标对象。
相关技术中,能够确定数据集合之间的交集技术手段,在条件允许的情况下,均适用于本说明书。
通过本步骤确定出的第一目标对象可能不唯一,一个第一目标对象,即为一个数字资产。
S116:按照所述第一目标对象之间的相似度,对所述第一目标对象进行排序,得到第一目标序列。
通过本步骤得到的第一目标序列中相邻的第一目标对象之间的相似度之和最小。相关技术中,用于确定数据之间的相似度的技术手段、以及基于相似度对数据进行排序的技术手段,在条件允许的情况下,均适用于本说明书。
在第一目标序列中,任意相邻的两个数字资产的相似度均较小,则用户在观察第一目标序列时,能够较为快捷的确定出不同的数字资产之间的差异,以辨识出哪个数字资产才是其目标要获得的。
S118:展示所述第一目标序列。
本说明书中的方法,从数字资产的数据类型、语义的维度分别着手,在数字资产借由本地资源进行存储时,即确定其可能面临的搜索情况,对其进行分类。在检测到搜索指令时,分别从数据类型、语义的维度分别地确定搜索结果,使得得到的搜索结果,能够至少从数据类型、语义的维度与搜索指令匹配。进一步地,本说明书还对得到的搜索结果进行了排序,使得在排序上相邻的搜索结构之间的相似度较小,则用户在观察搜索结果时,能够较为便捷的察觉到序列中的搜索结果之间的差异,使得用户能够较快的找到其目标的数字资产。
但是,实际的应用场景中,有可能存在搜索指令并未明确示出数字资产的数据类型的情况。在这种情况下,为了更加快捷的确定出用户目标的数字资产,在本说明书一个可选的实施例中,在基于搜索指令确定出第二类之后,针对所述第二类中的每个类,从其包含的所述数字资产中确定出其对应的第二目标对象,使得所述第二目标对象与其所属的第二类中除所述第二目标对象以外的其他数字资产的相似度之和最大。也就是说,第二目标对象是其所属的第二类中,最具代表性的,倘若该第二目标对象与搜索指令较为匹配,则搜索指令指向的数字资产较大概率的属于该第二目标对象是其所属的第二类。其中,第二目标对象可以是预设数量个(可以是经验值)。然后,按照所述第二目标对象之间的相似度,对所述第二目标对象进行排序,得到第一目标序列,使得所述第一目标序列中相邻的所述第二目标对象之间的相似度之和最小。该实施例由于无法确定出搜索指令指向的数据类型,则无需确定第一类。
可选地,在确定第二目标对象时,针对预设的每种所述数据类型,针对所述第二类中的每个类,从其包含的所述数字资产中确定出分别对应于预设的每种所述数据类型的第二目标对象,以使得得到的第一目标序列中尽可能多的涵盖数据类型,避免出现疏漏。
由于第一目标序列中涵盖的数据类型可能较多,则数据类型也成为了数字资产之间的差异,为了进一步的鲜明地体现数字资产之间的差异,可选地,以所述第一目标序列中相邻的所述第二目标对象之间的相似度之和最小、且相邻的所述第二目标对象的所述数据类型不同为目标,对所述第二目标对象进行排序,得到第一目标序列。其中,数据类型不同为首要目标。
此后,在展示出第一目标序列之后,继续对用户的操作进行检测。在可选的实施例中,在检测到针对所述第一目标序列中的所述数字资产的选择操作时,将所述选择操作针对的所述数字资产,确定为第三目标对象(第三目标对象即为与用户的需求较为匹配的数字资产)。将所述第三目标对象所属的第二聚类结果,作为目标类。从所述目标类中,以与所述搜索指令匹配度和与所述第三目标对象匹配度之和最大化为目标,确定出指定数量个所述数字资产,作为第四目标对象。对所述第四目标对象进行排序,得到第二目标序列。展示所述第二目标序列。
其中,所述指定数量与所述第一目标序列涵盖的所述数据类型的数量与所述第二类的数量的比值正相关。搜索指令针对的是一个确定的数字资产,则该数字资产的数据类型也是确定的、唯一的,第一目标序列涵盖的所述数据类型的数量越多,表明针对数据类型的不确定性越明显,此时尚未明确的确定出用户实际需求的是哪个数字资产,则可以提高指定数量,避免出现疏漏。第二类表征语义上与用户需求贴切的数字资产,第二类的数量越小,表明第一目标序列中的语义越鲜明、越确切、和用户的需求越匹配,则应减小指定数量。
此外,指定数量还与匹配度差值正相关。所述匹配度差值是所述第一目标序列中的所述数字资产与所述搜索指令的最大匹配度、和所述第三目标对象与所述搜索指令的匹配度的差值。匹配度差值用于评价第一目标序列的质量,差值越大,表明质量越差,则应增加指定数量,为用户提供更多的选择。
图2是本申请的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种基于大数据的数字资产搜索装置。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种基于大数据的数字资产搜索方法。
上述如本申请图1所示实施例揭示的一种基于大数据的数字资产搜索方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中一种基于大数据的数字资产搜索方法,并实现图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,执行前述的任意一种基于大数据的数字资产搜索方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种基于大数据的数字资产搜索方法,其特征在于,所述方法包括:
将本地存储的数字资产,确定为参照对象;
按照所述参照对象的数据类型,对所述参照对象进行聚类,得到第一聚类结果;
对所述参照对象进行语义分析,按照所述语义分析的结果,对所述参照对象进行聚类,得到第二聚类结果;
将检测到的待存储至本地的数字资产,确定为待定对象;
根据所述待定对象的所述数据类型,将所述待定对象添加至所述第一聚类结果中;并且,根据所述待定对象的语义分析的结果,将所述待定对象添加至所述第二聚类结果中;
在检测到搜索指令时,若解析出所述搜索指令指向的所述数据类型,则从所述第一聚类结果中确定出与所述搜索指令匹配的,作为第一类;
根据所述搜索指令表示出的语义,从所述第二聚类结果中确定出与所述搜索指令匹配的,作为第二类;
确定所述第一类和所述第二类的交集,作为第一目标对象;
按照所述第一目标对象之间的相似度,对所述第一目标对象进行排序,得到第一目标序列,使得所述第一目标序列中相邻的所述第一目标对象之间的相似度之和最小;
展示所述第一目标序列;
若未解析出所述搜索指令指向的所述数据类型,则针对所述第二类中的每个类,从其包含的所述数字资产中确定出其对应的第二目标对象,使得所述第二目标对象与其所属的所述第二类中除所述第二目标对象以外的其他所述数字资产的相似度之和最大;
按照所述第二目标对象之间的相似度,对所述第二目标对象进行排序,得到所述第一目标序列,使得所述第一目标序列中相邻的所述第二目标对象之间的相似度之和最小;
在检测到针对所述第一目标序列中的所述数字资产的选择操作时,将所述选择操作针对的所述数字资产,确定为第三目标对象;
将所述第三目标对象所属的第二聚类结果,作为目标类;
从所述目标类中,以与所述搜索指令的匹配度、和与所述第三目标对象的匹配度之和最大化为目标,确定出指定数量个所述数字资产,作为第四目标对象;
对所述第四目标对象进行排序,得到第二目标序列;
在基于所述选择操作展示所述第三目标对象时,展示所述第二目标序列。
2.如权利要求1所述方法,其特征在于,针对所述第二类中的每个类,从其包含的所述数字资产中确定出其对应的第二目标对象,包括:
基于预设的每种所述数据类型,针对所述第二类中的每个类,从其包含的所述数字资产中确定出分别对应于每种所述数据类型的所述第二目标对象。
3.如权利要求2所述方法,其特征在于,按照所述第二目标对象之间的相似度,对所述第二目标对象进行排序,得到所述第一目标序列,包括:
以所述第一目标序列中相邻的所述第二目标对象之间的相似度之和最小、且相邻的所述第二目标对象的所述数据类型不同为目标,对所述第二目标对象进行排序,得到所述第一目标序列。
4.如权利要求1所述方法,其特征在于,所述数据类型包括:
图片、视频、文字、音频。
5.如权利要求1所述方法,其特征在于,
所述指定数量与所述第一目标序列涵盖的所述数据类型的数量和所述第二类的数量的比值正相关,且所述指定数量还与匹配度差值正相关;
所述匹配度差值是所述第一目标序列中的所述数字资产与所述搜索指令的最大匹配度、和所述第三目标对象与所述搜索指令的匹配度的差值。
6.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~5之任一所述方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~5之任一所述方法。
CN202311178378.6A 2023-09-13 2023-09-13 一种基于大数据的数字资产搜索方法 Active CN116910260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311178378.6A CN116910260B (zh) 2023-09-13 2023-09-13 一种基于大数据的数字资产搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311178378.6A CN116910260B (zh) 2023-09-13 2023-09-13 一种基于大数据的数字资产搜索方法

Publications (2)

Publication Number Publication Date
CN116910260A CN116910260A (zh) 2023-10-20
CN116910260B true CN116910260B (zh) 2023-11-17

Family

ID=88351517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311178378.6A Active CN116910260B (zh) 2023-09-13 2023-09-13 一种基于大数据的数字资产搜索方法

Country Status (1)

Country Link
CN (1) CN116910260B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655876A (zh) * 2009-09-17 2010-02-24 广东国笔科技股份有限公司 一种基于语义分析的智能检索***及方法
WO2021012553A1 (zh) * 2019-07-25 2021-01-28 深圳壹账通智能科技有限公司 一种数据处理方法及相关设备
CN114020864A (zh) * 2021-11-02 2022-02-08 山东库睿科技有限公司 搜索结果的展示方法、装置及设备
CN114155109A (zh) * 2021-12-06 2022-03-08 中国建设银行股份有限公司 一种资产配置方法、装置、设备及介质
CN116467408A (zh) * 2023-04-23 2023-07-21 中国银行股份有限公司 一种文档搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102256B2 (en) * 2016-09-29 2018-10-16 International Business Machines Corporation Internet search result intention

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655876A (zh) * 2009-09-17 2010-02-24 广东国笔科技股份有限公司 一种基于语义分析的智能检索***及方法
WO2021012553A1 (zh) * 2019-07-25 2021-01-28 深圳壹账通智能科技有限公司 一种数据处理方法及相关设备
CN114020864A (zh) * 2021-11-02 2022-02-08 山东库睿科技有限公司 搜索结果的展示方法、装置及设备
CN114155109A (zh) * 2021-12-06 2022-03-08 中国建设银行股份有限公司 一种资产配置方法、装置、设备及介质
CN116467408A (zh) * 2023-04-23 2023-07-21 中国银行股份有限公司 一种文档搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
增广链修复下大数据并行搜索聚类算法;何玉新;;科技通报(03);全文 *

Also Published As

Publication number Publication date
CN116910260A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN108270629B (zh) 网站访客行为监测方法及装置
CN108509436B (zh) 一种确定推荐对象的方法、装置及计算机存储介质
WO2019169978A1 (zh) 资源推荐方法及装置
US7899804B2 (en) Automatic extraction of semantics from text information
CN117093653B (zh) 一种信息化资源共享方法及***
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN111782946A (zh) 书友推荐方法、计算设备及计算机存储介质
CN106878242B (zh) 一种确定用户身份类别的方法及装置
CN109582883B (zh) 栏目页的确定方法和装置
CN115080514A (zh) 索引数据生成方法、信息检索方法、装置及计算机***
CN108804563B (zh) 一种数据标注方法、装置以及设备
CN116910260B (zh) 一种基于大数据的数字资产搜索方法
CN108255891B (zh) 一种判别网页类型的方法及装置
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
CN111858619B (zh) 一种数据自流转的方法、装置和电子设备
CN111597454A (zh) 一种账号推荐方法及装置
CN110019210B (zh) 数据写入方法及设备
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
CN106776654B (zh) 一种数据搜索方法及装置
CN110019771B (zh) 文本处理的方法及装置
CN117633263B (zh) 一种基于大数据的数字资产的编码方法
CN110968691B (zh) 司法热点确定方法及装置
CN106354750A (zh) 一种实现搜索的方法和装置
CN117688222B (zh) 一种基于贝叶斯网络的数字图书馆的实现方法及***
CN111639269A (zh) 一种地点推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant