CN117688139A - 在区块链中基于工业互联网标识的文本搜索方法和装置 - Google Patents
在区块链中基于工业互联网标识的文本搜索方法和装置 Download PDFInfo
- Publication number
- CN117688139A CN117688139A CN202410145576.0A CN202410145576A CN117688139A CN 117688139 A CN117688139 A CN 117688139A CN 202410145576 A CN202410145576 A CN 202410145576A CN 117688139 A CN117688139 A CN 117688139A
- Authority
- CN
- China
- Prior art keywords
- text
- identification
- target
- sample
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims description 64
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 17
- 238000012795 verification Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种在区块链中基于工业互联网标识的文本搜索方法和装置,其中,方法包括:对目标文本进行特征提取,得到目标文本特征;基于目标文本特征,在分层可导航小世界图索引中搜索目标文本特征对应的目标节点;从区块链中获取目标节点对应的文本存储信息;基于目标节点对应的文本存储信息,获取目标文本相匹配的第一匹配文本;确定第一匹配文本对应的标识信息中是否具有关联文本标识,关联文本标识为工业互联网标识;响应于确定第一匹配文本对应的标识信息中具有关联文本标识,基于关联文本标识获取目标文本的第二匹配文本。
Description
技术领域
本公开涉及区块链技术领域、文本搜索技术领域,尤其是一种在区块链中基于工业互联网标识的文本搜索方法和装置。
背景技术
随着文本数据的迅猛增长,文本搜索技术也得到了长足的发展。相关技术中,通常是先确定关键词,之后利用关键词确定匹配的文本。然而在实际应用中,为了保证数据的安全性,通常会将文本分别存储在不同的服务器或云端,这就使的每次在通过关键词搜索文本时均需要在不同服务器或云端之间多次进行,导致文本搜索效率低。
发明内容
为了解决上述问题,本公开实施例提供一种在区块链中基于工业互联网标识的文本搜索方法和装置。
本公开实施例的一个方面,提供了一种在区块链中基于工业互联网标识的文本搜索方法,包括:对目标文本进行特征提取,得到目标文本特征;基于所述目标文本特征,在分层可导航小世界图索引中搜索所述目标文本特征对应的目标节点,所述分层可导航小世界图索引包括由上至下排列的多层子导航小世界图,所述多层子导航小世界图中的任一子导航小世界图包括多个节点,所述多个节点中的任一节点对应一个文本特征;从区块链中获取所述目标节点对应的文本存储信息;基于所述目标节点对应的文本存储信息,获取所述目标文本相匹配的第一匹配文本;确定所述第一匹配文本的标识信息中是否具有关联文本标识,所述关联文本标识为工业互联网标识;响应于确定所述第一匹配文本对应的标识信息中具有关联文本标识,对所述关联文本标识进行标识解析,得到所述目标文本相匹配的第二匹配文本。
本公开实施例的另一个方面,提供了一种在区块链中基于工业互联网标识的文本搜索装置,包括:第一获取模块,用于对目标文本进行特征提取,得到目标文本特征;搜索模块,用于基于所述目标文本特征,在分层可导航小世界图索引中搜索所述目标文本特征对应的目标节点,所述分层可导航小世界图索引包括由上至下排列的多层子导航小世界图,所述多层子导航小世界图中的任一子导航小世界图包括多个节点,所述多个节点中的任一节点对应一个文本特征;第二获取模块,用于从区块链中获取所述目标节点对应的文本存储信息;第三获取模块,用于基于所述目标节点对应的文本存储信息,获取所述目标文本相匹配的第一匹配文本;第四获取模块,用于确定所述第一匹配文本对应的标识信息中是否具有关联文本标识,所述关联文本标识为工业互联网标识;标识解析模块,用于响应于确定所述第一匹配文本对应的标识信息中具有关联文本标识,对所述关联文本标识进行标识解析,得到所述目标文本相匹配的第二匹配文本。
本公开实施例的又一个方面,提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现在区块链中基于工业互联网标识的文本搜索方法。
本公开实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现在区块链中基于工业互联网标识的文本搜索方法。
在本公开实施例中,先对目标文本进行特征提取,得到目标文本特征,之后直接在包括文本特征和文本存储信息的可导航小世界图索引中搜索目标文本特征对应的目标节点,之后通过目标节点对应的文本存储信息获取与目标文本相配的第一匹配文本,由此实现了高效快速的搜索出与目标文本相匹配的第一匹配文本,解决了由于文本存储在不同的服务器或云端导致的文本搜索效率低的问题,有效提高了文本搜索效率。另外,在公开实施例中,通过第一匹配文本对应的标识信息,确定第一匹配文本是否具有关联文本标识,并在确定第一匹配文本具有关联文本标识,基于该关联文本标识获取目标文本的第二匹配文本。由此,可以实现一次性为用户提供与目标文本相关的多个匹配文本,进一步提高了文本搜索效率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是本公开一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索方法的流程示意图;
图2是本公开另一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索方法的流程示意图;
图3是本公开一示例性实施例提供的步骤S110的流程示意图;
图4是本公开又一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索方法的流程示意图;
图5为本公开实施例类目对象的结构示意图;
图6为本公开实施例本体对象的结构示意图;
图7是本公开一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索装置的结构框图;
图8为本公开电子设备一个应用实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境,等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
在本实施例中:
狭义的区块链(Blockchain)技术是按照时间顺序,将数据区块以顺序相连的方式组合成的链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。广义的区块链技术是利用块链式数据结构验证与存储数据,利用分布式节点共识算法生成和更新数据,利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约,编程和操作数据的全新的分布式基础架构与计算范式。
工业互联网标识解析体系是工业互联网的基础***。工业互联网标识解析体系主要由标识分配管理***和标识解析***组成,其中,工业互联网中的标识是机器和产品的“身份证”,具有唯一性,采取逐级分配的分层方式进行管理。标识解析***利用标识对机器和物品进行定位和信息查询。工业互联网标识解析体系可以包括:国际根节点、国家顶级节点、二级标识解析节点、企业节点、公共递归解析节点、其他/企业信息***。
国际根节点:是指某一种标识体系管理的最高层级服务节点,不限于特定国家或者地区,而是面向全球范围提供公共的根区数据管理和根解析服务。国家顶级节点:我国工业互联网标识解析体系的关键,既是对外互联的国际关口,也是对内统筹的核心枢纽。能够面向全国范围提供顶级标识编码注册和标识解析服务,以及标识备案、标识认证等管理能力。国家顶级节点既要与各种标识体系的国际根节点保持连通,又要连通国内的各种二级及以下其他标识解析服务节点。二级标识解析节点:是指一个行业或者区域内部的标识解析公共服务节点,能够面向行业或区域提供标识编码注册和标识解析服务,以及完成相关的标识业务管理、标识应用对接等。每个二级节点都会被国家顶级节点分配唯一的二级节点标识前缀。企业节点:是指一个企业内部的标识解析服务节点,能够面向特定企业提供标识编码注册和标识解析服务。既可以独立部署,也可以作为企业信息***的组成要素。每个企业节点都会被二级节点分配唯一的企业节点标识前缀,标识后缀的内容将由企业自行定义和分配,企业节点标识前缀+标识后缀将会构成完整的工业互联网标识。公共递归解析节点:是指标识解析体系对外提供标识解析服务的关键性入口设施,接收外部客户端的标识查询请求,在标识解析体系内部通过逐级递归的方式,找到企业节点,并获取标识的详细信息。其他/企业信息***:是指借助工业互联网标识解析体系的标识能力,处理数据和业务逻辑,在工业场景中被广泛使用的工业互联网应用(Application,APP)和工业互联网平台。
具体地,工业互联网标识解析基本流程:
步骤(1):标识解析客户端向递归节点发送标识解析请求;
步骤(2):递归节点查看本地缓存,无缓存结果时,递归节点对标识解析请求进行签名,并发送国家顶级节点;
步骤(3):国家顶级节点对签名的标识解析请求进行验签,核验递归节点的真实性和消息的完整性,核验通过后,将二级节点解析记录信息签名后反馈递归节点,该二级节点解析记录信息包括二级节点解析地址;
步骤(4):递归节点对签名的二级节点解析记录信息进行验证,核验国家顶级节点的真实性和二级节点解析记录信息的完整性,核验通过后,对标识解析请求签名,并根据二级节点解析地址,将签名的标识解析请求发送二级节点;
步骤(5):二级节点对签名的标识解析请求进行验签,核验递归节点的真实性和标识解析请求消息的完整性,核验通过后将企业节点解析记录信息签名后反馈给递归节点,该企业节点解析记录信息包括企业节点解析地址;
步骤(6):递归节点对签名进行验证,核验企业节点的真实性和企业节点解析记录信息的完整性,核验通过后,对标识解析请求签名,并根据企业节点解析地址,将签名的标识解析请求发送企业节点;
步骤(7):企业节点核验递归节点的真实性和标识解析请求的完整性,核验通过后,将解析结果签名后反馈给递归节点,该解析结果包括标识解析服务地址;
步骤(8):递归节点进行验签,核验企业节点的真实以及解析结果的完整性和真实有效性,核验通过后,将解析结果进行缓存,同时将解析结果反馈给标识解析客户端;
步骤(9):标识解析客户端向企业信息***发送查询请求,该查询请求包括标识解析服务地址和待查询标识;
步骤(10):企业信息***将待查询标识所标识的对象信息返回标识解析客户端。
图1是本公开一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤S110,对目标文本进行特征提取,得到目标文本特征。在本实施例中,将目标文本的文本特征称为目标文本特征。
其中,目标文本特征可以包括目标文本的至少一个关键词。例如,目标文本特征可以包括目标文本的关键词。在一个具体实现方式中,还可以将目标文本的至少一个关键词转换为向量,并将该向量作为目标文本特征。
在一个具体实现方式中,可以利用分词技术等对目标文本进行分词处理,得到目标文本对应的多个词,将该多个词中在目标文本中出现频率最高的词作为目标文本的关键词,由该关键词和该关键词在目标文本中的出现频率构成目标文本的目标文本特征。
步骤S120,基于目标文本特征,在分层可导航小世界图索引中搜索目标文本特征对应的目标节点。
其中,分层可导航小世界图索引(Hierarchical Navigable Small World,HNSW)包括由上至下排列的多层子导航小世界图,该多层子导航小世界图中的任一子导航小世界图包括多个节点,该多个节点中的任一节点对应一个文本特征。在本实施例中,将最下层子导航小世界图中距离目标文本特征最近节点称为目标文本特征对应的目标节点。
在一个具体实现方式中,在HNSW中,按照由上至下的顺序,各层子导航小世界图包括的节点的数量依次增加,即最下层子导航小世界图包括的节点数最多,最上层子导航小世界图包括的节点数最少。对于每个子导航小世界图,该子导航小世界图包括多个节点,该多个节点中的每个节点与该节点周围的预设个数的节点通过一条边连接。每个节点可以对应的一个文本特征,每个文本特征可以包括文本中至少一个关键词和该关键词的相关信息。例如,文本特征可以包括但不限于至少一个关键词等。在多层子导航小世界图中,除最下层子导航小世界图以外其他每个子导航小世界图中的每个节点均与该节点所在子导航小世界图的下一子导航小世界图中的一个节点具有映射关系。
在一个具体实现方式中,在HNSW中,按照由上至下的顺序逐层搜索,直至从多层子导航小世界图的最下层子导航小世界图中获得目标节点。具体的,在HNSW中,先从最上层子导航小世界图中开始搜索,搜索出在最上层子导航小世界图中距离目标文本特征最近节点作为邻近节点;之后,在除最上层子导航小世界图和最下层子导航小世界图以外的其他子导航小世界图中,每个子导航小世界图将其的上一子导航小世界图的邻近节点在该子导航小世界图中映射的节点作为搜索的起始节点,由此该起始节点开始在该子导航小世界图包括的所有节点中搜索出距离该起始节点最近的邻近节点;然后,将最下层子导航小世界图的上一子导航小世界图的邻近节点在最下层子导航小世界图映射的节点作为搜索的起始节点,由此该起始节点开始在最下层子导航小世界图包括的所有节点中搜索出距离该起始节点最近的节点,并将该最近的节点作为目标文本特征对应的目标节点。
步骤S130,从区块链中获取目标节点对应的文本存储信息。
其中,文本存储信息包括文本存储地址。
在一个具体实现方式中,HNSW的每个节点对应一个文本存储地址。区块链中存储有HNSW的各节点与文本存储信息之间的对应关系。
示例性的,假设文本存储在云端,可以从区块链中获取目标节点与文本存储信息之间的对应关系,该目标节点与文本存储信息之间的对应关系的形式可以如式(1)所示,之后基于目标节点与文本存储信息之间的对应关系,确定目标节点对应的文本存储信息(uri2// uri3);
node.uri1=uri2// uri3 (1)
node为目标节点,uri1为目标节点的uri(Uniform Resource Identifier,统一资源标识符)地址,uri2为云端的uri地址,uri3为文本在云端中的uri地址。
步骤S140,基于目标节点对应的文本存储信息,获取目标文本相匹配的第一匹配文本。
在本实施例中,将从目标节点对应的文本存储信息获得文本称为第一匹配文本。在一个具体实现方式中,该第一匹配文本中可以包括目标文本特征。
步骤S150,确定第一匹配文本对应的标识信息中是否具有关联文本标识。
其中,第一匹配文本对应的标识信息包括用于唯一标识第一匹配文本的文本标识。关联文本标识用于唯一标识一个文本,且关联文本标识和第一匹配文本的文本标识均为工业互联网标识。
在一个具体实现方式中,当第一匹配文本对应的标识信息中包括关联文本标识时,则确定该第一匹配文本具有关联文本标识,即第一匹配文本对应的标识信息中所包括的关联文本标识与该第一匹配文本具有关联关系;当第一匹配文本中不包括关联文本标识时,则确定该第一匹配文本不具有关联文本标识。
步骤S160,响应于确定第一匹配文本对应的标识信息中具有关联文本标识,对关联文本标识进行标识解析,得到目标文本相配的第二匹配文本。
其中,通过工业互联网的标识解析***对关联文本标识进行标识解析处理,得到该关联文本标识所标识的文本,并将该文本确定为目标文本的第二匹配文本。
在本公开实施例中,先对目标文本进行特征提取,得到目标文本特征,之后直接在包括文本特征和文本存储信息的可导航小世界图索引中搜索目标文本特征对应的目标节点,之后通过目标节点对应的文本存储信息获取与目标文本相配的第一匹配文本,由此实现了高效快速的搜索出与目标文本相匹配的第一匹配文本,解决了由于文本存储在不同的服务器或云端导致的文本搜索效率低的问题,有效提高了文本搜索效率。另外,在公开实施例中,通过第一匹配文本对应的标识信息,确定第一匹配文本是否具有关联文本标识,并在确定第一匹配文本具有关联文本标识,基于该关联文本标识获取目标文本的第二匹配文本。由此,可以实现一次性为用户提供与目标文本相关的多个匹配文本,进一步提高了文本搜索效率。
图2是本公开另一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索方法的流程示意图。在一些可选实施方式中,如图2所示,可以通过如下方法构建分层可导航小世界图索引,具体包括:
步骤S210,获取多个样本文本。
其中,样本文本例如可以包括但不限于:论文、期刊文章、工作报告等。
步骤S220,分别对于多个样本文本中的各样本文本,获取该样本文本的词频信息。
其中,该样本文本的词频信息包括该样本文本中各词的词频数据。
在一个具体实现方式中,可以基于词频-逆向文件频率(Term Frequency–InverseDocument Frequency,TF-IDF)算法确定该文本中各词的词频数据。
示例性的,可以多个样本文本作为语料库。先对该样本文本进行分词处理,确定该样本文本对应的各词,对于每个词,可以确定该词在该样本文本中出现次数,并将该出现次数确定为该词的TF,考虑到不同样本文本的长短不同,可以对该词的TF进行归一化处理,即将该词的TF除以该样本文本对应的词的总数量。之后基于式(2)确定该词的IDF,之后将该词的归一化后的TF与IDF相乘,得到该词的TF-IDF,并将该词的TF-IDF确定为该词的词频数据,通过该方法确定每个样本文本对应的每个词的词频数据;
(2)
其中,m为语料库中样本文本的数量,p为语料库中包含该词的样本文本的数量。
步骤S230,根据该样本文本的词频信息,确定该样本文本的初始文本特征。
其中,定该样本文本的初始文本特征包括该样本文本的关键词。
在一个可选实施方式中,可以将每个样本文本中词频数据最大的前k个词作为该样本文本的关键词,由该样本文本的关键词构成该样本文本的初始文本特征。
步骤S240,利用预设加密算法对该样本文本的初始文本特征进行加密,得到该样本文本的文本特征。
其中,预设加密算法可以为可搜索加密(Searchable Encryption,SE)算法,或者,预设加密算法也可以为哈希算法。可以利用可搜索加密算法对每个样本文本的初始文本特征进行加密处理,得到该样本文本的文本特征。
示例性的,假设预设加密算法为哈希算法,可以对初始文本特征中的各关键词分别进行哈希计算,由各关键词的哈希值构成该样本文本的文本特征。
假设预设加密算法可以为安全向量内积计算的加密算法(Secure kNN),具体的,可以先生成两个n×n维的可逆矩阵M1和M2,以及生成一个n维的二元向量S=(S1、S2、S3…Sn)。对于初始文本特征Fi(关键词)转换为向量,将初始文本特征Fi进行扩充,得Fi′=(Fi1,Fi2,Fi2,…Fin,‖Fi‖2)T,例如,可以将Fi拆分成n个子特征,由该n个子特征构成Fi′;之后利用(3)和(4)将Fi′拆分成两个向量;
其中,Sj∈S,Fij∈Fi,v为随机数,v∈{0,1};
基于式(5)构建文本特征;
(5)。
步骤S250基于多个样本文本的文本特征,采用分层可导航小世界算法,构建分层可导航小世界图索引。
在一个具体实现方式中,在HNSW算法中,针对多层子导航小世界图,在向HNSW图索引中***新增节点时,先确定新增节点要***的子导航小世界图,之后由新增节点要***的子导航小世界图开始,按照由上至下的顺序,逐层***新增节点。在HNSW算法中,针对每层子导航小世界图,向每层子导航小世界图中逐个***节点。
向HNSW图索引中***新增节点的方式可以具体包括:假设HNSW构建参数包括:连接数u和总层数m。HNSW中m层子导航小世界图,按照由下至上的顺序分别为第0层子导航小世界图、第1层子导航小世界图、…、第m层子导航小世界图,u≥1。
在分层可导航小世界图索引中***一个新增节点时,先通过随机选取的方式确定该新增节点要***的子导航小世界图,假设该新增节点要***的子导航小世界图为第f层子导航小世界图,m≤f≤0。
将新增节点z***到第f层子导航小世界图,将该新增节点记为***节点zf,之后第f层子导航小世界图中任一节点作为第f层子导航小世界图的起始节点,由第f层子导航小世界图的起始节点开始,利用启发式搜索算法,在第f层子导航小世界图中确定出距离***节点zf最近的u个节点,并将这u个节点分别与***节点zf连接,同时将距离***节点zf最近的节点作为进入节点。
在第f-1层子导航小世界图中确定与该进入节点具有映射关系的节点,并将该节点作为第f-1层子导航小世界图的起始节点,将新增节点z记录为***节点zf-1,之后由第f-1层子导航小世界图的起始节点开始,利用启发式搜索算法,在第f-1层子导航小世界图中确定出距离***节点zf-1最近的u个节点,并将这u个节点分别与***节点zf-1连接,同时将距离***节点zf-1最近的节点作为进入节点,在第f-2层子导航小世界图中确定与该进入节点具有映射关系的节点,并将该节点作为第f-2层子导航小世界图的起始节点;
在第f-2层至第m层中,重复在第f-1层子导航小世界图中***新增节点的操作,以使新增节点逐层***到第f层至第m层子导航小世界图中。其中,同时在新增节点z在第f层至第m层中的***节点之间建立映射关系,即新增节点z在第f层子导航小世界图中的***节点与新增节点z在第f-1层子导航小世界图中的***节点具有映射关系,以此类推,新增节点z在第m层子导航小世界图中的***节点与新增节点z在第m-1层子导航小世界图中的***节点具有映射关系。
图3是本公开一示例性实施例提供的步骤S110的流程示意图。在一些可选实施方式中,如图3所示,步骤S110包括如下步骤:
步骤S111,获取目标文本中各词的词频信息。
其中,目标文本中各词的词频信息包括目标文本中各词的词频数据。
在一个具体实现方式中,可以基于TF-IDF算法确定目标文本中各词的词频数据,即目标文本中各词的TF-IDF 确定为该词的词频数据。
步骤S112,根据目标文本中各词的词频信息,确定目标文本的初始文本特征。
其中,目标文本的初始文本特征包括该目标文本的关键词。
在一个可选实施方式中,可以将目标文本中词频数据最大的前k个词作为目标文本的关键词,由目标文本的关键词构成目标文本的初始文本特征。
步骤S113,利用预设加密算法法对目标文本的初始文本特征进行加密,得到目标文本的目标文本特征。
其中,对目标文本的初始文本特征的加密方式可以参见步骤S240中对样本文本的初始文本特征的加密方式,此处不做赘述。
图4是本公开又一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索方法的流程示意图。在一些可选实施方式中,如图4所示,步骤S110之前还包括如下步骤:
步骤S310,基于各样本文本的初始文本特征,确定样本文本之间的关联度。
其中,对于多个样本文本中的任意两个样本文本,可以基于该任意两个样本文本的初始文本特征中的关键词,确定该任意两个样本文本之间的关联度。
示例性的,基于该任意两个样本文本的初始文本特征中包括的关键词,确定任意两个样本文本具有相同关键词的数量,并利用该相同关键词的数量除以该任意两个样本文本的关键词的总数量,得到该任意两个样本文本的关联度。
步骤S320,根据样本文本之间的关联度和预设关联度阈值,确定多个样本文本中具有关联关系的样本文本。
其中,当任意两个样本文本之间的关联度大于或等于预设关联度阈值,则确定该任意两个样本文本之间具有关联关系;当任意两个样本文本之间的关联度小于预设关联度阈值,则确定该任意两个样本文本之间不具有关联关系。
步骤S330,根据具有关联关系的样本文本的文本标识,确定具有关联关系的样本文本的标识信息。
其中,任一样本文本的标识信息中包括与所述任一样本文本具有关联关系的样本文本的文本标识。即,将具有关联关系的任意两个样本文本的文本标识相互作为彼此的关联文本标识存储到彼此的标识信息中。
示例性的,假设样本文本A和样本文本B具有关联关系,则将样本文本A的文本标识作为关联文本标识存储到样本文本B的标识信息中,将样本文本B的文本标识作为关联文本标识存储到样本文本A的标识信息中。
在一个具体实现方式中,标识信息可以为数字资产。具体的,通过传输协议传输的数据可以称为数字资产。传输协议可以为数字资产传输协议(Digital Asset TransferProtocol,DATP)等。数字资产可以分为类目对象(Class AO)和本体对象(OntologyAO)。类目对象表征目录信息。本体对象是类目对象的具体实例,用于表征与类目对象对应的信息。图5示出类目对象的结构。如图5所示,Object ID表示对象标识符,用于唯一标识一个类目对象。Registry Time为创建时间,表示类目对象被创建时间。Expiration Time为失效时间,表示类目对象的失效时间。Modified Time为修改时间,表示类目对象被修改时间;Class Object为对象类型,表示该类型为类目对象。Father表示类目对象所代表的上一级类目对象,用包含所继承上一级类目对象的标识符的集合表示,如:{Object ID1,ObjectID2,…}。 Child表示类目对象所代表的下一级类目对象,用包含下一级类目对象的标识符的集合表示,如:{ObjectID7,Object ID8,…}。元属性信息用于表示与该类目对象对应的本体对象所包括的属性的目录、属性特性、标签以及该类目对象的属性。例如,元属性信息可以包括:属性所属的类目标准、属性名称、属性描述、属性加工类型、值字典、取值类型、示例、更新周期、安全等级、对象关系等。属性所属类目标准:即属性所遵循的规范标准,如Eclass;属性名称:属性命名应遵循三大原则:避免产生隐私侵犯、同一属性使用同一属性名称,同类属性使用同类语句结构;属性描述:对属性名称用一两句话进行解释,避免属性名称由于用词过于简短而存在的歧义、模糊、多义等问题;属性加工类型:根据加工类型的不同分为原始类属性、统计类属性和算法类属性,原始类属性为原始数据表中就存在的字段,经过简单处理(例如,去重等)后成为属性,即可被业务人员使用,如文本的作者、出版日期等;统计类属性表示原始数据通过加工,例如求和、平均、正则表达式等简单数学函数运算,成为的属性,如7天文本被浏览的总数等;算法类属性即原始数据通过模型算法计算后的深度加工类的标签,如“文本影响力”等;值字典:即属性各种可能取值的枚举,例如:“性别”属性的值字典为【男、女】,“文本”属性的值字典为【外文、中文】;取值类型:即属性值的数据类型,有数值型、字符型、日期型等;示例:属性值的具体的示例;更新周期:指属性数据的更新周期;安全等级:属性数据从源数据获取到数据加工、属性上线、属性使用的过程中会存在数据安全风险,因此要为属性制定安全等级,并根据属性的安全等级来生成不同等级的属性使用规范;对象关系:针对father、child的类目对象原生属性标签,可以对象关系进一步说明。图6示出了本体对象的结构。如图6所示,Object ID为对象标识符,用于唯一标识一个本体对象。Registry Time为创建时间,表示本体对象的被创建时间。ExpirationTime为失效时间,表示本体对象的失效时间。Modified Time为修改时间,表示本体对象的修改时间;Data/Opera为对象类型,表示本体对象的类型,Data表示本体对象为数据对象,Opera表示本体对象为操作对象,Reference ID为引用标识,表示本体对象对应的类目对象的Object ID。数据本体表示本体对象所属类目对象下的具体的实际数据或者数据操作接口地址等,即数据本体可以包括样本文本的文本标识,当样本文本具有关联文本标识时,该数据本体还包括关联文本标识。其中数据格式、语义、周期、安全等级等需要与所属类目对象中定义的相符合。
在一些可选实施方式中,本公开实施例中步骤S140可以包括:获取目标节点对应的文本存储信息对应的加密文本;对目标节点对应的文本存储信息对应的加密文本进行解密,得到第一匹配文本。
在一个具体实现方式中,可以利用对称加密算法(SM4、SM2)对多个样本图像中的每个样本文本进行加密,得到多个加密文本,并将多个加密文本存储到云端,由云端反馈每个加密文本在云端的存储地址,并将该存储地址作为该样本文本的文本存储信息。建立每个样本文本的文本存储信息与对应该样本文本的文本特征的节点之间的对应关系,并将该对应关系存储到区块中。
可以基于目标节点对应的文本存储信息,从云端获取该文本存储信息对应的加密文本;之后对该加密文本进行解密,得到解密后的样本文本,并将该解密后的样本文本作为第一匹配文本。
在一些可选实施方式中,本公开实施例中步骤S160可以包括:对关联文本标识进行标识解析,得到关联文本标识对应的加密文本;对关联文本标识对应的加密文本进行解密,得到第二匹配文本。
在一个可选实施方式中,还可以将多个样本文本的加密文本存储到工业互联网中。可以为每个样本文本分配一个工业互联网标识作为该样本文本的文本标识,同时建立该样本文本的文本标识与该样本文本的加密文本的对应关系。当该样本文本具有关联关系的样本文本时,可以将该样本文本的文本标识作为与其具有关联关系的样本文本的关联文本标识,并将该关联文本标识存储到与其具有关联关系的样本文本的标识信息中。
可以利用通过工业互联网的标识解析***对关联文本标识进行标识解析处理,得到该关联文本标识对应的加密文本,之后对该关联文本标识对应的加密文本进行解密,并解密后的样本文本作为第二匹配文本。
图7是本公开一示例性实施例提供的在区块链中基于工业互联网标识的文本搜索装置的结构框图。如图7所示,该在区块链中基于工业互联网标识的文本搜索装置包括:
第一获取模块400,用于对目标文本进行特征提取,得到目标文本特征;
搜索模块410,用于基于所述目标文本特征,在分层可导航小世界图索引中搜索所述目标文本特征对应的目标节点,所述分层可导航小世界图索引包括由上至下排列的多层子导航小世界图,所述多层子导航小世界图中的任一子导航小世界图包括多个节点,所述多个节点中的任一节点对应一个文本特征;
第二获取模块420,用于从区块链中获取所述目标节点对应的文本存储信息;
第三获取模块430,用于基于所述目标节点对应的文本存储信息,获取所述目标文本相匹配的第一匹配文本;
第四获取模块440,用于确定所述第一匹配文本对应的标识信息中是否具有关联文本标识,所述关联文本标识为工业互联网标识;
标识解析模块450,用于响应于确定所述第一匹配文本对应的标识信息中具有关联文本标识,对所述关联文本标识进行标识解析,得到所述目标文本相匹配的第二匹配文本。
在一些可选示例中,本公开上述实施例中的在区块链中基于工业互联网标识的文本搜索装置还包括:
第五获取模块,用于获取多个样本文本;
提取模块,用于分别对于所述多个样本文本中的各样本文本,获取所述样本文本的词频信息,所述词频信息包括所述样本文本中各词的词频数据;
第一确定模块,用于根据所述样本文本的词频信息,确定所述样本文本的初始文本特征;
加密模块,用于利用预设加密算法对所述样本文本的初始文本特征进行加密,得到所述样本文本的文本特征;
构建模块,用于基于所述多个样本文本的文本特征,采用分层可导航小世界算法,构建所述分层可导航小世界图索引。
在一些可选示例中,本公开上述实施例中的第一获取模块400可以包括:
获取子模块,用于获取所述目标文本中各词的词频信息;
确定子模块,用于根据所述目标文本中各词的词频信息,确定所述目标文本的初始文本特征;
加密子模块,用于利用所述预设加密算法法对所述目标文本的初始文本特征进行加密,得到所述目标文本的目标文本特征。
在一些可选示例中,本公开上述实施例中的在区块链中基于工业互联网标识的文本搜索装置还包括:
第二确定模块,用于基于各样本文本的初始文本特征,确定样本文本之间的关联度;
第三确定模块,用于根据所述样本文本之间的关联度和预设关联度阈值,确定所述多个样本文本中具有关联关系的样本文本;
第四确定模块,用于根据具有关联关系的样本文本的文本标识,确定具有关联关系的样本文本的标识信息,任一样本文本的标识信息中包括与所述任一样本文本具有关联关系的样本文本的文本标识。
在一些可选示例中,本公开上述实施例中的第三获取模块430具体用于:
获取所述目标节点对应的文本存储信息对应的加密文本;
对所述目标节点对应的文本存储信息对应的加密文本进行解密,得到所述第一匹配文本。
在一些可选示例中,本公开上述实施例中的标识解析模块450具体用于:
对所述关联文本标识进行标识解析,得到所述关联文本标识对应的加密文本;
对所述关联文本标识对应的加密文本进行解密,得到所述第二匹配文本。
在本公开的在区块链中基于工业互联网标识的文本搜索装置中,上述公开的各种可选实施例、可选实施方式和可选示例,都可以根据需要进行灵活的选择和组合,从而实现相应的功能和效果,本公开不进行一一列举。
本公开的在区块链中基于工业互联网标识的文本搜索装置与本公开上述各在区块链中基于工业互联网标识的文本搜索方法的实施例之间相互对应,相关内容可以相互参考,此处不再赘述。
本公开的在区块链中基于工业互联网标识的文本搜索装置示例性实施例对应的有益技术效果可以参见上述示例性方法部分的相应有益技术效果,此处不再赘述。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的区块链中基于工业互联网标识的文本搜索方法。
图8为本公开电子设备一个应用实施例的结构示意图。下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
如图8所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的区块链中基于工业互联网标识的文本搜索方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的区块链中基于工业互联网标识的文本搜索方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的区块链中基于工业互联网标识的文本搜索方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种在区块链中基于工业互联网标识的文本搜索方法,其特征在于,包括:
对目标文本进行特征提取,得到目标文本特征;
基于所述目标文本特征,在分层可导航小世界图索引中搜索所述目标文本特征对应的目标节点,所述分层可导航小世界图索引包括由上至下排列的多层子导航小世界图,所述多层子导航小世界图中的任一子导航小世界图包括多个节点,所述多个节点中的任一节点对应一个文本特征;
从区块链中获取所述目标节点对应的文本存储信息;
基于所述目标节点对应的文本存储信息,获取所述目标文本相匹配的第一匹配文本;
确定所述第一匹配文本的标识信息中是否具有关联文本标识,所述关联文本标识为工业互联网标识;
响应于确定所述第一匹配文本对应的标识信息中具有关联文本标识,对所述关联文本标识进行标识解析,得到所述目标文本相匹配的第二匹配文本。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取多个样本文本;
分别对于所述多个样本文本中的各样本文本,获取所述样本文本的词频信息,所述词频信息包括所述样本文本中各词的词频数据;
根据所述样本文本的词频信息,确定所述样本文本的初始文本特征;
利用预设加密算法对所述样本文本的初始文本特征进行加密,得到所述样本文本的文本特征;
基于所述多个样本文本的文本特征,采用分层可导航小世界算法,构建所述分层可导航小世界图索引。
3.根据权利要求2所述的方法,其特征在于,所述对目标文本进行特征提取,得到所述目标文本的目标文本特征,包括:
获取所述目标文本中各词的词频信息;
根据所述目标文本中各词的词频信息,确定所述目标文本的初始文本特征;
利用所述预设加密算法法对所述目标文本的初始文本特征进行加密,得到所述目标文本的目标文本特征。
4.根据权利要求2所述的方法,其特征在于,还包括:
基于各样本文本的初始文本特征,确定样本文本之间的关联度;
根据所述样本文本之间的关联度和预设关联度阈值,确定所述多个样本文本中具有关联关系的样本文本;
根据具有关联关系的样本文本的文本标识,确定具有关联关系的样本文本的标识信息,任一样本文本的标识信息中包括与所述任一样本文本具有关联关系的样本文本的文本标识。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述目标节点对应的文本存储信息,获取所述目标文本的第一匹配文本,包括:
获取所述目标节点对应的文本存储信息对应的加密文本;
对所述目标节点对应的文本存储信息对应的加密文本进行解密,得到所述第一匹配文本。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述关联文本标识获取所述目标文本的第二匹配文本,包括:
对所述关联文本标识进行标识解析,得到所述关联文本标识对应的加密文本;
对所述关联文本标识对应的加密文本进行解密,得到所述第二匹配文本。
7.一种在区块链中基于工业互联网标识的文本搜索装置,其特征在于,包括:
第一获取模块,用于对目标文本进行特征提取,得到目标文本特征;
搜索模块,用于基于所述目标文本特征,在分层可导航小世界图索引中搜索所述目标文本特征对应的目标节点,所述分层可导航小世界图索引包括由上至下排列的多层子导航小世界图,所述多层子导航小世界图中的任一子导航小世界图包括多个节点,所述多个节点中的任一节点对应一个文本特征;
第二获取模块,用于从区块链中获取所述目标节点对应的文本存储信息;
第三获取模块,用于基于所述目标节点对应的文本存储信息,获取所述目标文本相匹配的第一匹配文本;
第四获取模块,用于确定所述第一匹配文本对应的标识信息中是否具有关联文本标识,所述关联文本标识为工业互联网标识;
标识解析模块,用于响应于确定所述第一匹配文本对应的标识信息中具有关联文本标识,对所述关联文本标识进行标识解析,得到所述目标文本相匹配的第二匹配文本。
8.根据权利要求7所述的装置,其特征在于,还包括:
第五获取模块,用于获取多个样本文本;
提取模块,用于对于所述多个样本文本,获取所述样本文本的词频信息,所述词频信息包括所述样本文本中各词的词频数据;
第一确定模块,用于根据所述样本文本的词频信息,确定所述样本文本的初始文本特征;
加密模块,用于利用预设加密算法对所述样本文本的初始文本特征进行加密,得到所述样本文本的文本特征;
构建模块,用于基于所述多个样本文本的文本特征,采用分层可导航小世界算法,构建所述分层可导航小世界图索引。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-6任一所述的在区块链中基于工业互联网标识的文本搜索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-6任一所述的在区块链中基于工业互联网标识的文本搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145576.0A CN117688139A (zh) | 2024-02-01 | 2024-02-01 | 在区块链中基于工业互联网标识的文本搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145576.0A CN117688139A (zh) | 2024-02-01 | 2024-02-01 | 在区块链中基于工业互联网标识的文本搜索方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117688139A true CN117688139A (zh) | 2024-03-12 |
Family
ID=90126863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410145576.0A Pending CN117688139A (zh) | 2024-02-01 | 2024-02-01 | 在区块链中基于工业互联网标识的文本搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688139A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256880A (zh) * | 2020-11-11 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 文本识别方法和装置、存储介质及电子设备 |
CN114610984A (zh) * | 2022-03-03 | 2022-06-10 | 中汽数据(天津)有限公司 | 工业互联网标识发布、查询方法,及数据标识*** |
-
2024
- 2024-02-01 CN CN202410145576.0A patent/CN117688139A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256880A (zh) * | 2020-11-11 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 文本识别方法和装置、存储介质及电子设备 |
CN114610984A (zh) * | 2022-03-03 | 2022-06-10 | 中汽数据(天津)有限公司 | 工业互联网标识发布、查询方法,及数据标识*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210092802A (ko) | 블록체인 네트워크를 통한 데이터의 효율적이고 안전한 처리, 접근 및 전송을 위한 시스템 및 방법 | |
US8688673B2 (en) | System for communication and collaboration | |
US8495007B2 (en) | Systems and methods for hierarchical aggregation of multi-dimensional data sources | |
US8209407B2 (en) | System and method for web service discovery and access | |
US20070011155A1 (en) | System for communication and collaboration | |
Bukhari et al. | A web service search engine for large-scale web service discovery based on the probabilistic topic modeling and clustering | |
Awad et al. | Chaotic searchable encryption for mobile cloud storage | |
JP2004533030A (ja) | ピア環境において情報アクセスを実行するための装置、方法及びシステム | |
Taheriyan et al. | A scalable approach to learn semantic models of structured sources | |
WO2021043088A1 (zh) | 文件查询方法、装置、计算机设备及存储介质 | |
Ananthi et al. | FSS-SDD: fuzzy-based semantic search for secure data discovery from outsourced cloud data | |
JP4783407B2 (ja) | 情報資源の協同タギングシステム及び方法 | |
Magdy et al. | Privacy preserving search index for image databases based on SURF and order preserving encryption | |
US20220092104A1 (en) | System for automatic management and depositing of documents (images) hash in block-chain technology | |
US9330170B2 (en) | Relating objects in different mediums | |
CN117688139A (zh) | 在区块链中基于工业互联网标识的文本搜索方法和装置 | |
CN113656466B (zh) | 保单数据查询方法、装置、设备及存储介质 | |
US11550777B2 (en) | Determining metadata of a dataset | |
US11461551B1 (en) | Secure word search | |
EP1929410B1 (en) | A method and system for searching for people or items by keywords | |
Kamath et al. | Similarity analysis of service descriptions for efficient Web service discovery | |
US11544317B1 (en) | Identifying content items in response to a text-based request | |
US8934662B1 (en) | Tracking image origins | |
WO2007099331A2 (en) | Data processing apparatus | |
CN116860802A (zh) | 非关系型数据库密文数据检索方法及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |