CN117955732A - 数据处理方法和相关装置 - Google Patents
数据处理方法和相关装置 Download PDFInfo
- Publication number
- CN117955732A CN117955732A CN202410307489.0A CN202410307489A CN117955732A CN 117955732 A CN117955732 A CN 117955732A CN 202410307489 A CN202410307489 A CN 202410307489A CN 117955732 A CN117955732 A CN 117955732A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- data processing
- information
- processing result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 491
- 230000011218 segmentation Effects 0.000 claims description 130
- 238000000034 method Methods 0.000 claims description 78
- 239000012634 fragment Substances 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006835 compression Effects 0.000 abstract description 6
- 238000007906 compression Methods 0.000 abstract description 6
- 238000013139 quantization Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000011664 signaling Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/43—Assembling or disassembling of packets, e.g. segmentation and reassembly [SAR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Storage Device Security (AREA)
Abstract
本申请实施例公开了数据处理方法和相关装置,将数据处理模型拆分为了第一模型和第二模型,第一设备通过第一模型生成第一数据特征信息,并在第一数据特征信息中添加噪声信息得到第二数据特征信息,第二设备通过第二模型,基于该第二数据特征信息得到数据处理结果。由于第一设备只能够得到部分模型,因此保障了模型提供方的模型资产;由于第二数据特征信息中添加有噪声信息,第二设备无法还原得到输入数据,保障了数据提供方的数据资产;由于噪声信息是在靠近输出侧的数据处理流程中产生影响,因此对于数据处理结果的干扰较小,数据处理准确度较高;此外,本申请无需对整个数据处理流程进行重复执行,有助于实现模型压缩与量化,数据处理效率较高。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及数据处理方法和相关装置。
背景技术
随着计算机技术的不断发展,越来越多的技术领域开始应用计算机模型技术来提高处理精度和处理效率,同时带来更智能化的技术体验。数据提供方可以向模型提供方提供用于输入模型的数据,由模型提供方通过模型基于输入数据得到模型输出,返回给数据提供方进行使用。
在相关技术中,数据提供方可以将数据拆分成多个数据分片,自身保留部分数据分片,将另一部分数据分片发送给数据提供方,双方分别将所拥有的数据分片输入到模型中,得到对应的输出结果,最终将双方得到的输出结果进行拼接、还原,得到完成的输入数据所对应的输出结果,在上述过程中由于模型提供方不能够获得完整的输入数据,因此提高了数据提供方所提供的数据的安全性。
然而,相关技术中的方法极大的提高了通过模型进行数据处理的处理量,大幅降低了数据处理效率,难以广泛的应用于各种数据处理场景。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法,能够在模型应用场景中,在保障数据处理精度的前提下,同时保障数据提供方和模型提供方双方的数据安全。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例公开了一种数据处理方法,所述方法应用于第一设备,所述第一设备中包括第一模型,所述方法包括:
通过所述第一模型,根据第一数据生成第一数据特征信息,所述第一数据特征信息用于表征所述第一数据的数据特征,所述第一模型对应第一模型架构;
在所述第一数据特征信息中添加噪声信息,得到第二数据特征信息;
向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
第二方面,本申请实施例公开了一种数据处理方法,所述方法应用于第二设备,第二设备中包括第二模型,所述方法包括:
获取第一设备发送的第二数据特征信息,所述第二数据特征信息为所述第一设备通过在第一数据特征信息中添加噪声信息得到的,所述第一数据特征信息为所述第一设备通过第一模型根据第一数据生成的,所述第一模型对应第一模型架构;
通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
第三方面,本申请实施例公开了一种数据处理装置,所述装置包括第一生成单元、第一添加单元和第一发送单元:
所述第一生成单元,用于通过所述第一模型,根据第一数据生成第一数据特征信息,所述第一数据特征信息用于表征所述第一数据的数据特征,所述第一模型对应第一模型架构;
所述第一添加单元,用于在所述第一数据特征信息中添加噪声信息,得到第二数据特征信息;
所述第一发送单元,用于向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述第一生成单元具体用于:
对所述第一数据进行分片处理,得到第一数据分片和第二数据分片,所述第一数据分片和第二数据分片用于构成所述第一数据;
通过所述第一模型,根据所述第一数据分片生成第一子特征信息,所述第一子特征信息用于表征所述第一数据分片的数据特征,所述第一模型对应第一模型参数;
向所述第二设备发送所述第二数据分片,指示所述第二设备通过第三模型,根据所述第二数据分片生成第二子特征信息,所述第二子特征信息用于表征所述第二数据分片的数据特征,所述第三模型对应第二模型参数和所述第一模型架构,所述第一模型参数和所述第二模型参数用于构成目标模型参数,所述目标模型参数为所述数据处理模型中的所述第一模型架构对应的模型参数;
获取所述第二设备发送的所述第二子特征信息;
结合所述第一子特征信息和所述第二子特征信息,确定所述第一数据特征信息。
在一种可能的实现方式中,所述第一数据分片与所述第二数据分片的数据大小相同。
在一种可能的实现方式中,所述装置还包括第一获取单元、分词单元、第一确定单元和第二生成单元:
所述第一获取单元,用于获取待处理文本信息;
所述分词单元,用于对所述待处理文本信息进行分词处理,得到所述待处理文本信息对应的分词集合,所述分词集合中包括多个分词;
所述第一确定单元,用于确定所述多个分词分别对应的分词编码;
所述第二生成单元,用于根据所述多个分词分别对应的分词编码,生成所述第一数据。
在一种可能的实现方式中,所述第一确定单元具体用于:
确定目标分词对应的目标分词编码,所述目标分词为所述多个分词中的任意一个,所述目标分词编码用于表征所述目标分词;
所述待处理文本信息包括多个单元分别对应的文本信息,所述装置还包括第二确定单元:
所述第二确定单元,用于确定所述目标分词对应的目标分段编码,所述目标分段编码用于标识所述目标分词所处的单元;
所述第二生成单元具体用于:
根据所述多个分词分别对应的分词编码和分段编码,生成所述第一数据。
在一种可能的实现方式中,所述装置还包括第三确定单元:
所述第三确定单元,用于确定所述目标分词对应的目标位置编码,所述目标位置编码用于标识所述目标分词在所述待处理文本信息中的位置分布;
所述第二生成单元具体用于:
根据所述多个分词分别对应的分词编码和位置编码,生成所述第一数据。
在一种可能的实现方式中,所述第一确定单元具体用于:
根据编码映射关系,确定所述多个分词分别对应的分词编码,所述编码映射关系用于记录分词与分词编码之间的映射关系;
所述装置还包括更新单元:
所述更新单元,用于在所述编码映射关系中不具有所述目标分词的情况下,将所述目标分词与所述目标分词编码之间的映射关系更新到所述编码映射关系中。
在一种可能的实现方式中,所述装置还包括第四确定单元:
所述第四确定单元,用于确定所述第一数据对应的加密信息和解密信息,所述加密信息用于表征对所述第一数据所对应数据处理结果的加密方式,所述解密信息用于解密通过所述加密方式加密的数据;
所述第一发送单元具体用于:
向第二设备发送所述第二数据特征信息和所述加密信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息和所述加密信息生成第一数据处理结果,所述第二模型用于根据所述第二数据特征信息生成初始数据处理结果,以及根据所述加密信息对所述初始数据处理结果进行加密,输出所述第一数据处理结果;
所述装置还包括第二获取单元和解密单元:
所述第二获取单元,用于获取所述第二设备发送的所述第一数据处理结果;
所述解密单元,用于通过所述解密信息,对所述第一数据处理结果进行解密,得到所述初始数据处理结果。
第四方面,本申请实施例公开了一种数据处理装置,所述装置包括第三获取单元和第三生成单元:
所述第三获取单元,用于获取第一设备发送的第二数据特征信息,所述第二数据特征信息为所述第一设备通过在第一数据特征信息中添加噪声信息得到的,所述第一数据特征信息为所述第一设备通过第一模型根据第一数据生成的,所述第一模型对应第一模型架构;
所述第三生成单元,用于通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述第一数据处理结果与第二数据处理结果之间的差异程度小于第一程度阈值,所述第二数据处理结果为所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述装置还包括第四获取单元、第一分段单元、第四生成单元、第五生成单元、调节单元和第二分段单元:
所述第四获取单元,用于获取第二数据,所述第二数据具有对应的样本数据处理结果,所述样本数据处理结果为通过所述数据处理模型对所述第二数据进行处理的结果;
所述第一分段单元,用于基于初始结构分段方式对所述数据处理模型对应的模型架构进行分段,得到第一初始模型架构和第二初始模型架构,所述第一初始模型架构为第一初始模型对应的模型架构,所述第二初始模型架构为第二初始模型对应的模型架构;
所述第四生成单元,用于通过所述第一初始模型,根据所述样本数据生成第三数据特征信息,所述第三数据特征信息用于表征所述样本数据对应的数据特征;
所述第五生成单元,用于通过所述第二初始模型,根据第四数据特征信息生成待定数据处理结果,所述第四数据特征信息为通过在所述第三数据特征信息中添加所述噪声信息得到的;
所述调节单元,用于根据所述待定数据处理结果与所述样本数据处理结果之间的差异,调节所述初始结构分段方式,得到结构分段方式,通过所述结构分段方式确定出的所述待定数据处理结果与所述样本数据处理结果之间的差异程度小于所述第一程度阈值;
所述第二分段单元,用于基于所述结构分段方式对所述数据处理模型对应的模型架构进行分段,得到所述第一模型架构和第二模型架构。
在一种可能的实现方式中,所述噪声信息满足所述第一数据处理结果与第二数据处理结果之间的差异程度小于第二程度阈值,所述第二数据处理结果为所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述第一设备还用于对所述第一数据进行分片处理,得到第一数据分片和第二数据分片,所述第一数据分片和第二数据分片用于构成所述第一数据,所述第二设备还包括第三模型,所述第三模型对应第二模型参数和所述第一模型架构,所述装置还包括第五获取单元、第六生成单元和第二发送单元:
所述第五获取单元,用于获取所述第一设备发送的第二数据分片;
所述第六生成单元,用于通过所述第三模型,根据所述第二数据分片生成第二子特征信息;
所述第二发送单元,用于向所述第一设备发送所述第二子特征信息,指示所述第一设备结合所述第一子特征信息和所述第二子特征信息确定所述第一数据特征信息,所述第一子特征信息为所述第一设备通过所述第一模型,根据所述第一数据分片生成的信息,所述第一模型对应第一模型参数,所述第一模型参数和所述第二模型参数用于构成目标模型参数,所述目标模型参数为所述数据处理模型中的所述第一模型架构对应的模型参数。
在一种可能的实现方式中,所述第三获取单元具体用于:
获取第一设备发送的第二数据特征信息和加密信息,所述加密信息用于表征对所述第一数据所对应数据处理结果的加密方式;
所述第二模型用于根据所述第二数据特征信息生成初始数据处理结果,以及根据所述加密信息对所述初始数据处理结果进行加密,输出所述第一数据处理结果;
所述装置还包括第三发送单元:
所述第三发送单元,用于向所述第一设备发送所述第一数据处理结果,指示所述第一设备通过所述解密信息,对所述第一数据处理结果进行解密,得到所述初始数据处理结果,所述解密信息用于解密通过所述加密方式加密的数据。
第五方面,本申请实施例公开了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行第一方面中任意一项所述的数据处理方法,或执行第二方面中任意一项所述的数据处理方法;
第六方面,本申请实施例公开了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面中任意一项所述的数据处理方法,或执行第二方面中任意一项所述的数据处理方法;
第七方面,本申请实施例公开了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行第一方面中任意一项所述的数据处理方法,或执行第二方面任意一项中所述的数据处理方法。
由上述技术方案可以看出,首先为了避免作为数据提供方的第一设备获取到完整的数据处理模型,本申请中可以只将数据处理模型中靠近输入侧的第一模型放置到第一设备中,即数据提供方只能够获取到部分模型,从而保障了模型资产的安全性。第一设备可以通过第一模型根据作为输入数据的第一数据生成第一数据特征信息。其次,为了避免作为模型提供方的第二设备能够获知第一数据,第一设备可以在第一数据特征信息中添加噪声信息,得到第二数据特征信息,将该第二数据特征信息发送给第二设备,指示第二设备根据数据处理模型中靠近输出侧的第二模型来确定第一数据处理结果,该第一数据处理结果用于表征数据处理模型通过处理第一数据所得到的数据处理结果。由于第二数据特征信息中包含噪声信息,因此第二设备无法基于该第二数据特征信息准确还原出第一数据,进而保障了数据提供方所提供的的输入数据不会被模型提供方所获取,保障了数据的安全性。同时,由于噪声信息是在靠近输出侧的第二模型中对数据处理过程进行影响,因此对于数据处理过程的影响程度较小,最终得到的第一数据处理结果较为接近数据处理模型通过处理第一数据得到的实际数据处理结果,从而保障了数据处理的准确度。综上所述,本申请可以在保障数据处理准确性的前提下,同时保障数据提供方的数据资产安全和模型提供方的模型资产安全,同时无需多次重复的数据处理流程,保障了数据处理效率,从而本申请的数据处理方法可以适用于更加广泛的数据处理场景。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实际应用场景中数据处理方法的示意图;
图2为本申请实施例提供的一种数据处理方法的信令图;
图3为本申请实施例提供的一种数据处理方法的信令图;
图4为本申请实施例提供的一种数据处理方法的示意图;
图5为本申请实施例提供的一种数据处理方法的信令图;
图6为本申请实施例提供的一种实际应用场景中数据处理方法的信令图;
图7为本申请实施例提供的一种实际应用场景中数据处理方法的示意图;
图8为本申请实施例提供的一种数据处理装置的结构框图;
图9为本申请实施例提供的一种数据处理装置的结构框图;
图10为本申请实施例提供的一种终端的结构图;
图11为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
基于模型的数据处理具有广泛的应用场景,例如,人工智能场景中可以通过输入文本信息来得到对应的文本信息处理结果等。数据处理通常需要数据提供方和模型提供方的参与,其中数据提供方用于提供输入数据处理模型的数据,以获取数据对应的处理结果,模型提供方用于提供数据处理模型,以完成针对数据的数据处理流程。
在相关技术中,为了保障数据提供方的数据资产安全,使模型提供方无法获知完整的输入数据,数据提供方可以将需要输入的数据分为两部分,分别由数据提供方和模型提供方输入到模型中进行处理,最终将结果进行拼接得到完整数据对应的数据处理结果。
然而,相关技术中的数据处理方式将原本针对完整数据的一次数据处理转化为了针对两个数据部分的各一次数据处理,这就导致数据处理流程量大幅扩大,虽然能够在一定程度上保障数据提供方的数据资产安全,但是会导致数据处理效率大幅下降,难以提供高效的数据处理服务,从而难以适用于多种对数据处理效率要求较高的场景。
为了解决上述技术问题,本申请提供了一种数据处理方法,将数据处理模型拆分为了靠近数据输入侧的第一模型和靠近数据输出侧的第二模型,作为数据提供方的第一设备可以通过第一模型,根据作为输入数据的第一数据生成第一数据特征信息,然后通过在第一数据特征信息中添加噪声信息,得到第二数据特征信息,作为模型提供方的第二设备可以通过第二模型,基于该第二数据特征信息得到第一数据处理结果,该第一数据处理结果用于表征数据处理模型通过处理第一数据得到的数据处理结果。由于数据提供方只能够得到部分模型,因此模型提供方的模型资产能够得到保障;由于第二数据特征信息中添加有噪声信息,因此第二设备无法通过第二数据特征信息还原得到第一数据,保障了数据提供方的数据资产;同时,由于噪声信息是在靠近输出侧的数据处理流程中产生影响的,因此对于数据处理结果的干扰较小,得到的第一数据处理结果的准确度较高;此外,本申请无需对整个数据处理流程进行重复执行,数据处理效率较高。综上所述,本申请能够在保障数据处理准确度和数据处理效率的前提下,兼顾数据资产安全和模型资产安全,带来较优的数据处理效果。
可以理解的是,该方法可以应用于计算机设备上,该计算机设备为具有数据处理功能的计算机设备,例如可以为终端设备或服务器。该方法可以通过终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合执行。其中,终端设备可以为手机、平板电脑、笔记本电脑、台式电脑等设备。终端设备还可以包括多种虚拟现实设备,例如可以包括增强现实(Augmented Reality,简称AR)设备,如AR眼镜、AR屏幕等设备,以及可以包括虚拟现实技术(Virtual Reality,简称VR)设备,例如头戴式VR眼镜等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器,或者云服务器等。
本申请还涉及大模型领域技术,具体可以涉及其中的模型压缩与量化和模型并行计算技术。
模型压缩与量化是指指通过压缩与量化的技术帮助减小模型大小和加速模型推理,从而降低模型在存储和计算方面的成本。模型压缩通常包括剪枝、低秩分解、知识蒸馏等,模型量化指将模型中的浮点数参数转换为定点数或整数参数,从而减小模型大小和加速模型推理。
模型并行计算是指指将模型的计算任务分配给多个计算设备(例如CPU、GPU、TPU等)同时进行计算,从而加速模型的训练和推理。模型并行计算能够有效地利用计算资源,提高模型的计算效率和训练速度。
在本申请中,模型压缩与量化技术主要体现在无需重复对数据提供方提供的数据进行数据重复处理上,或只需要在部分数据处理过程中进行并行处理,无需对整个数据处理过程进行重复,因此提高了数据处理效率。模型并行计算主要体现在将模型参数进行拆分后,通过具有不同模型参数分片的多个模型,并行对数据提供方所对应的数据分片进行数据处理的过程上,能够同时保障数据提供方的数据资产安全和模型提供方的模型资产安全。
为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请提供的数据处理方法进行介绍。
参见图1,图1为本申请实施例提供的一种实际应用场景中数据处理方法的示意图,在该实际应用场景中,第一设备为第一服务器101,第二设备为第二服务器102,第一服务器101为数据提供方对应的服务器,第二服务器102为模型提供方对应的服务器。
用于进行数据处理的数据处理模型的模型架构可以拆分为第一模型架构和第二模型架构,其中第一模型结构接近输入侧,用于构建第一模型,第二模型架构接近输出侧,用于构建第二模型。模型提供方可以将第一模型发送给第一服务器101,第一服务器101通过第一模型,可以对第一数据进行处理,得到第一数据特征信息,第一数据特征信息用于表征第一数据对应的数据特征。第一服务器101可以在第一数据特征信息中添加噪声信息,得到第二数据特征信息,然后将第二数据特征信息发送给第二服务器102。由于第二数据特征信息中添加了噪声信息,因此第二服务器102无法获知第一数据特征信息,从而无法还原出第一数据,进而保障了数据提供方的数据资产安全。
第二服务器102可以通过第二模型,根据第二数据特征信息确定出第一数据处理结果。由于第一数据经过了第一模型和第二模型的处理,而第一模型和第二模型能够构成数据处理模型对应的完整模型架构,因此该第一数据处理结果可以用于表征数据处理模型通过处理第一数据得到的数据处理结果。
第一方面,上已述及该方式可以保障第一服务器101的数据资产安全;第二方面,由于第一服务器101只能够得到部分模型架构,无法还原出完整的数据处理模型,因此保障了第二服务器102的模型资产安全;第三方面,本申请是在第一数据经过第一模型处理后再添加噪声信息,因此噪声信息只作用于靠近数据输出侧的数据处理流程,对数据处理流程的影响较小,因此第一数据处理结果较为接近数据处理模型通过处理第一数据得到的数据处理结果,准确度较高;第四方面,本申请的第一数据无需重复执行数据处理流程,具有较高的数据处理效率。
接下来,将结合附图,对本申请提供的数据处理方法进行详细介绍。
参见图2,图2为本申请实施例提供的一种数据处理方法的信令图,在该实施例中,计算机设备可以包括数据提供方对应的第一设备,和模型提供方对应的第二设备,第一设备和第二设备均可以为任意具有数据处理功能的设备。该方法包括:
S201:第一设备通过第一模型,根据第一数据生成第一数据特征信息。
可以理解的是,模型提供方的模型资产主要体现在模型架构和模型参数两个维度,例如对于数据处理模型来说,模型架构能够表征出进行数据处理的处理流程,模型参数能够决定基于该处理流程进行数据处理的具体方式,这些都是模型提供方通过模型研发得到的模型资产。
基于此,在本实施例中,为了保障模型提供方的模型资产,避免模型架构和模型参数完全被作为数据提供方的第一设备获取,可以先对数据处理模型的模型架构进行拆分,得到靠近数据输入侧的第一模型架构,以及靠近输出侧的第二模型架构,其中,第一模型架构用于确定输入数据对应的数据特征信息,该数据特征信息用于表征输入数据;第二模型架构用于根据数据特征信息确定数据处理结果,从而第一模型架构和第二模型架构能够组合实现数据处理模型完整的数据处理功能。
通过第一模型架构可以构成第一模型,通过第二模型架构可以构成第二模型,在本实施例中,只将第一模型提供给第一设备,从而作为数据提供方的第一设备无法获知完整的模型架构和模型参数,进而无法自己构建出数据处理模型,保障了模型资产安全。
第一设备可以通过第一模型,根据第一数据生成第一数据特征信息,第一数据特征信息用于表征第一数据的数据特征,第一模型对应第一模型架构。
S202:第一设备在第一数据特征信息中添加噪声信息,得到第二数据特征信息。
为了使作为模型提供方的第二设备无法获知准确的输入数据,第一设备可以在第一数据特征信息中添加噪声信息,生成第二数据特征信息,从而基于该第二数据特征信息无法还原出准确的第一数据。其中,噪声信息可以包括多种,例如可以为高斯分布噪声信息等,此处不做限定。
S203:第一设备向第二设备发送第二数据特征信息,指示第二设备通过第二模型,根据第二数据特征信息生成第一数据处理结果。
其中,第二模型对应第二模型架构,第一模型架构和第二模型架构用于构成数据处理模型对应的模型架构,第一数据处理结果用于表征数据处理模型通过处理第一数据得到的数据处理结果。
S204:第二设备获取第一设备发送的第二数据特征信息。
通过上述内容可见,第二数据特征信息为第一设备通过在第一数据特征信息中添加噪声信息得到的,第一数据特征信息为第一设备通过第一模型根据第一数据生成的。
S205:第二设备通过第二模型,根据第二数据特征信息生成第一数据处理结果。
由于第一模型架构和第二模型架构能够构成数据处理模型完整的模型架构,而第一数据处理结果是第一数据经过第一模型架构的数据处理、噪声添加和第二模型架构的数据处理得到的,因此第一数据处理结果与数据处理模型通过处理第一数据得到的数据处理结果之间的差异只在于噪声信息的影响,从而该第一数据处理结果可以用于表征数据处理模型通过处理第一数据得到的数据处理结果。
可以理解的是,通常情况下,噪声信息所参与的数据处理流程越长,对于数据处理结果的影响越大;噪声信息所影响的数据处理流程越接近数据输出侧,对于输入数据的影响越大,从而数据处理结果的影响越大,反之越接近输出侧,对于输入数据的影响越小,从而对于数据处理结果的影响越小。因此,本申请通过在经过第一模型处理后再添加噪声信息,使噪声信息只会影响接近输出侧的第二模型的数据处理部分,从而可以降低噪声信息对第一数据的影响,进而降低对数据处理结果的影响,使第一数据处理结果能够较为接近真实的数据处理结果,保障了数据处理的准确度。
由上述技术方案可以看出,本申请在保障了数据提供方的数据资产安全和模型提供方的模型资产安全的同时,降低了噪声信息对于数据处理结果的影响,使最终得到的第一数据处理结果较为接近数据处理模型通过处理第一数据得到的实际数据处理结果,保障了数据处理的准确度。同时,本申请无需多次重复的数据处理流程,例如只需经过一次第二模型架构对应的数据处理流程,也可以只需经过一次第一模型架构对应的数据流程,保障了数据处理效率,从而本申请的数据处理方法可以适用于更加广泛的数据处理场景。
上已述及,模型资产包括了模型架构和模型参数,上述方法虽然能够整体上使完整的模型架构和模型参数被分割,然而第一设备中的第一模型仍然可能包括数据处理模型在第一模型架构上所对应的完整的模型参数。在一种可能的实现方式中,计算机设备可以进一步对第一模型架构所对应的模型参数进行处理,来避免数据提供方获得第一模型架构所对应的完整模型参数。
参见图3,图3为本申请实施例提供的一种数据处理方法的信令图,其中,步骤S301~S303和S307~S308为步骤S201的一种可能的实现方式。该方法包括:
S301:第一设备对第一数据进行分片处理,得到第一数据分片和第二数据分片。
数据分片是指将数据分割成多个数据部分,得到多个数据分片,在本申请中可以分为第一数据分片和第二数据分片这两个分片,也可以切分成更多分片,此处不作限定。第一数据分片和第二数据分片可以用于构成第一数据,即第一数据分片和第二数据分片能够包括第一数据对应的完整数据内容,从而通过对第一数据分片进行数据处理和对第二数据分片进行数据处理,能够模拟出针对第一数据进行数据处理的数据结果。
S302:第一设备通过第一模型,根据第一数据分片生成第一子特征信息。
在本申请实施例中,为了保护模型提供方的模型参数资产安全,如图4所示,可以将目标模型参数切分为第一模型参数和第二模型参数,该目标模型参数为数据处理模型中的第一模型架构对应的模型参数。计算机设备可以将第一模型参数分配给数据提供方的第一模型,从而数据提供方无法获知完整的目标模型参数,进而无法还原出数据处理模型对应第一模型架构的模型部分。该第一子特征信息用于表征所述第一数据分片的数据特征。
S303:第一设备向第二设备发送第二数据分片,指示第二设备通过第三模型,根据第二数据分片生成第二子特征信息。
第二模型参数可以分配给第三模型,第三模型位于作为模型提供方的第二设备中,第三模型同样对应第一模型架构,第二子特征信息用于表征第二数据分片的数据特征。
S304:第二设备获取第一设备发送的第二数据分片。
S305:第二设备通过第三模型,根据第二数据分片生成第二子特征信息。
S306:第二设备向第一设备发送第二子特征信息,指示第一设备结合第一子特征信息和第二子特征信息确定第一数据特征信息。
上已述及,第一子特征信息为第一设备通过第一模型,根据第一数据分片生成的信息,第一模型对应第一模型参数,第一模型参数和第二模型参数用于构成目标模型参数,数据处理模型中对应第一模型架构的模型部分对应目标模型参数。
S307:第一设备获取第二设备发送的第二子特征信息。
S308:第一设备结合第一子特征信息和第二子特征信息,确定第一数据特征信息。
由于第一模型参数和第二模型参数可以用于构成目标模型参数,而第一数据分片和第二数据分片可以用于构成第一数据,且第一模型和第三模型均对应第一模型架构,因此结合第一模型对第一数据分片的数据处理和第三模型对第二数据分片的数据处理,能够还原出数据处理模型对应第一模型架构的模型部分对第一数据的数据处理,从而,基于第一子特征信息和第二子特征信息能够确定出第一数据特征信息。
S309:第一设备在第一数据特征信息中添加噪声信息,得到第二数据特征信息。
S310:第一设备向第二设备发送第二数据特征信息,指示第二设备通过第二模型,根据第二数据特征信息生成第一数据处理结果。
S311:第二设备获取第一设备发送的第二数据特征信息。
S312:第二设备通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果。
由上述过程可见,在整个数据处理过程中,作为数据提供方的第一设备不会获取数据处理模型任意模型架构所对应的完整模型参数,从而进一步保障了模型提供方的模型资产安全;同时,作为模型提供方的第二设备也不会获取完整的第一数据,从而保障了数据提供方的数据资产安全。此外,相较于相关技术来说,本申请只需在第一模型架构部分进行两次数据处理,无需重复整个数据处理流程,因此仍然在一定程度上提高了数据处理效率。
可以理解的是,模型进行数据处理的速度通常情况下与数据大小相关,数据越大,则数据处理速度通常越慢。在第一模型和第三模型的模型架构相同,即数据处理流程相同时,数据大小决定了第一模型和第三模型的数据处理速度。因此,在一种可能的实现方式中,由于需要等待第一模型和第三模型两方都处理完毕,才能够进行合成得到第一数据特征信息,为了避免由于数据大小不同,导致第一模型和第三模型中处理数据大小较大的数据分片的模型还未处理完毕,另一个模型已经处理完成, 从而需要等待数据处理的问题,第一设备可以使第一数据分片与第二数据分片的数据大小相同,从而整体上能够带来最佳的数据处理速度,保障数据处理效率。
上述过程主要在输入数据维度对数据提供方的数据资产进行了保护,在另一种可能的实现方式中,本申请还可以对模型输出的数据处理结果进行保护,以避免数据提供方以外的其他方获知数据处理结果。
参见图5,图5为本申请实施例提供的一种数据处理方法的信令图,其中,步骤S504为步骤S203的一种可能的实现方式,步骤S505为步骤S204的一种可能的实现方式,该方法包括:
S501:第一设备确定第一数据对应的加密信息和解密信息。
其中,加密信息用于表征对第一数据所对应数据处理结果的加密方式,解密信息用于解密通过该加密方式加密的数据。该加密方式可以包括多种,此处不作限定。
S502:第一设备通过第一模型,根据第一数据生成第一数据特征信息。
S503:第一设备在第一数据特征信息中添加噪声信息,得到第二数据特征信息。
S504:第一设备向第二设备发送第二数据特征信息和加密信息,指示第二设备通过第二模型,根据第二数据特征信息和加密信息生成第一数据处理结果。
在向第二设备发送第二数据特征信息时,第一设备可以将加密信息也发送给第二设备,使第二设备中的第二模型可以基于该加密信息对处理得到的数据处理结果进行加密,最终输出加密后的第一数据处理结果,从而使模型提供方无法获知准确的数据处理结果,从输出侧保障了数据提供方的数据资产安全。
S505:第二设备获取第一设备发送的第二数据特征信息和加密信息。
S506:第二设备通过第二模型,根据第二数据特征信息和加密信息生成第一数据处理结果。
其中,第二模型可以用于根据第二数据特征信息生成初始数据处理结果,以及根据加密信息对初始数据处理结果进行加密,输出第一数据处理结果。初始数据处理结果即为通过对第二数据特征信息进行数据处理所得到的准确的数据处理结果,本申请实施例的目的即为保护该数据处理结果不被模型提供方所获知。需要强调的是,第二模型的输入为第二数据特征信息,输出为第一数据处理结果,中间先得到初始数据处理结果后并不会输出,而是直接执行加密流程,因此第二设备无法得到该初始数据处理结果。由于解密信息由第一设备所持有,因此第二设备无法对第一数据处理结果进行解密,从而保障了数据资产安全。
S507:第二设备向第一设备发送第一数据处理结果,指示第一设备通过解密信息,对第一数据处理结果进行解密,得到初始数据处理结果。
S508:第一设备获取第二设备发送的第一数据处理结果。
S509:第一设备通过解密信息,对第一数据处理结果进行解密,得到初始数据处理结果。
接下来,将针对第一设备和第二设备两侧分别对应的技术细节进行详细介绍。
针对第一设备侧,本申请可以应用与多种数据的数据处理场景。以文本信息类型的数据处理为例,在一种可能的实现方式中,第一设备可以通过以下方式对文本信息进行处理,得到用于输入模型的第一数据。
第一设备可以获取待处理文本信息,待处理文本信息即为需要通过数据处理模型得到数据处理结果的信息,例如可以为需要输入查询模型的查询文本信息等。为了使数据处理模型能够更好的理解文本信息的信息构成,从而能够进行更加准确的数据处理,第一设备可以对待处理文本信息进行分词处理,得到待处理文本信息对应的分词集合,分词集合中包括多个分词,分词可以为文本信息中的字、词组、短句等,此处不作限定。分词处理可以采用多种分词方法,例如可以采用字节对码化(Byte-Pair Encoding,简称BPE)、单词片段(WordPiece),句子片段(SentencePiece)等方法,此处不作限定。
然后,为了使数据处理模型能够理解各个分词的含义,第一设备可以确定多个分词分别对应的分词编码,从而将文本信息转换为模型能够理解的编码信息。分词编码用于表征对应的分词,不同分词所对应的分词编码有所不同,从而能够通过分词编码对分词进行有效表征。分词编码的编码方案可以包括多种,例如可以采用8位元编码(UniversalCharacter Set/Unicode Transformation Format,简称utf-8)等,此处不作限定。第一设备可以根据多个分词分别对应的分词编码,生成第一数据,从而使数据处理模型能够充分理解待处理文本信息的信息内容。
其中,为了进一步提高数据处理精度,除了分词本身对应的信息内容外,第一设备还可以将其他有助于数据处理的信息融入到第一数据中。
例如,在一种可能的实现方式中,在确定多个分词分别对应的分词编码时,第一设备可以确定目标分词对应的目标分词编码用于表征目标分词,目标分词可以为多个分词中的任意一个。待处理文本信息包括多个单元分别对应的文本信息,单元是指能够包括多个分词的文本信息单元,例如可以为句单元、段落单元等。通常情况下,处于同一单元中的多个分词之间的关联关系更为密切,不同单元的多个分词之间的关联关系较弱,因此,通过标识出多个分词分别所属的单元,能够有助于数据处理模型分析分词之间的关联关系,进而能够进行更加准确的数据处理。
基于此,第一设备可以确定目标分词对应的目标分段编码,该目标分段编码用于标识目标分词所处的单元。在根据多个分词分别对应的分词编码,生成第一数据时,第一设备可以根据多个分词分别对应的分词编码和分段编码,生成第一数据,从而使模型能够基于分段编码清楚的获知多个分词之间的关联关系,提高数据处理精度。
除了所属单元之间的关系外,不同分词之间的位置关系也是影响文本信息内容的重要因素,相同分词分布在不同文本信息位置时,所带来的信息内容可能会有所不同,且多个分词之间的位置关系也能够在一定程度上影响由多个分词所构成的文本信息的信息内容。从而,在另一种可能的实现方式中,第一设备还可以确定目标分词对应的目标位置编码,目标位置编码用于标识目标分词在待处理文本信息中的位置分布,例如,可以标识目标分词为待处理文本信息中的第一个分词、第二个分词等。当待处理文本信息中只包括一个单元时,该位置编码可以直接标识分词在待处理文本信息中的位置关系,当待处理文本信息中包括多个单元时,位置编码可以标识分词在所属单元中的位置关系,例如多个词语在同一句子中的位置分布等。
在根据多个分词分别对应的分词编码,生成第一数据时,第一设备可以根据多个分词分别对应的分词编码和位置编码,生成第一数据,从而可以使模型能够获知多个分词之间的位置关系,有助于模型进一步理解待处理文本信息的文本语义,进而能够提高数据处理精度。
上已述及,分词和分词编码具有较强的对应关系,即通常情况下,分词和分词编码一一对应,以表征出每个分词的独特性。为了进一步提高数据处理效率,在一种可能的实现方式中,可以构建编码映射关系,使第一设备能够基于编码映射关系实现分词编码的快速确定。
在确定多个分词分别对应的分词编码,第一设备可以根据编码映射关系,确定多个分词分别对应的分词编码,其中,编码映射关系用于记录分词与分词编码之间的映射关系,从而只需通过简单的映射关系查找即可确定分词编码,简化了分词编码确定流程,一方面能够进一步提高数据处理效率,另一方面能够降低第一设备的数据处理压力,使本申请的数据处理方法能够应用与更多数据处理性能较差的设备上,扩大数据处理的泛用性。
可以理解的是,由于分词种类较多,可能存在部分分词没有已经生成过的分词编码,因此可能在编码映射关系中不具有对应的分词编码。此时,第一设备可以通过其他方式,例如可以通过编码算法来生成这种分词对应的分词编码。为了提高编码映射关系的全面性,在编码映射关系中不具有目标分词的情况下,第一设备可以将目标分词与目标分词编码之间的映射关系更新到编码映射关系中,从而在下一次需要针对目标分词生成分词编码时,可以直接基于编码映射关系来生成,无需再次进行其他编码处理。
接下来,将针对作为模型提供方的第二设备进行详细的技术介绍。
首先,可以理解的是,由于本申请在数据处理过程中,将原本完整的模型架构拆分为了第一模型架构和第二模型架构,因此可能会对数据处理结果带来一定的影响。基于此,在一种可能的实现方式中,在进行模型架构拆分时,第二设备可以设置第一程度阈值,该第一程度阈值用于衡量模型架构拆分对于数据处理精度的影响。第二设备可以保障第一数据处理结果与第二数据处理结果之间的差异程度小于第一程度阈值,第二数据处理结果为数据处理模型通过处理第一数据得到的数据处理结果。即,在拆分模型架构时,第二设备可以保障基于拆分后的模型架构得到的数据处理结果与基于完整的模型架构得到的数据处理结果较为接近,从而能够保障通过本申请的方式进行数据处理的处理精度。
具体的,在一种可能的实现方式中,第二设备可以通过以下方式进行模型架构的拆分:
首先,第二设备可以获取第二数据,第二数据具有对应的样本数据处理结果,样本数据处理结果为通过数据处理模型对第二数据进行处理的结果,即通过完整的模型架构进行数据处理后得到的数据处理结果。
第二设备可以基于初始结构分段方式对数据处理模型对应的模型架构进行分段,得到第一初始模型架构和第二初始模型架构,第一初始模型架构和第二初始模型架构可以构成数据处理模型对应的模型架构。第二设备可以构建第一初始模型和第二初始模型,其中,第一初始模型架构为第一初始模型对应的模型架构,第二初始模型架构为第二初始模型对应的模型架构,从而经过第一初始模型和第二初始模型数据处理,能够模拟经过数据处理模型的数据处理。
第二设备可以通过第一初始模型,根据样本数据生成第三数据特征信息,第三数据特征信息用于表征样本数据对应的数据特征,然后通过第二初始模型,根据第四数据特征信息生成待定数据处理结果,第四数据特征信息为通过在第三数据特征信息中添加噪声信息得到的,从而能够表征出噪声信息对第三数据特征信息的影响。其中,噪声信息的添加方可以包括多种,例如,若需要对噪声信息进行保密,则可以由第一设备进行添加,从而保障第二设备在后续处理流程中,无法基于噪声信息对数据进行还原;若无需对噪声信息进行保密,则可以由第二设备进行添加。
此外,为了保障在实际应用时数据处理的精确度,在进行结构分段方式分析时,所应用的噪声信息可以和实际应用时的噪声信息一致,从而保障噪声信息对于模型数据处理过程的影响程度较为接近,避免额外因素的干扰。
上已述及,样本数据处理结果为基于完整的模型架构对第二数据进行处理的处理结果,而待定数据处理结果为基于两部分分开的模型架构对第二数据进行处理的处理结果,因此,根据待定数据处理结果与样本数据处理结果之间的差异,能够表征出分段后的模型架构对于数据处理准确度的影响,差异越小,则说明基于初始结构分段方式对模型架构进行分段时,对于数据处理准确度的影响越小。从而,第二设备可以根据该差异调节初始结构分段方式,得到结构分段方式,通过结构分段方式确定出的待定数据处理结果与样本数据处理结果之间的差异程度小于第一程度阈值,进而能够保障基于该结构分段方式进行分段后,所得到的第一模型和第二模型能够较为准确的对数据进行处理。
第二设备可以基于结构分段方式对数据处理模型对应的模型架构进行分段,得到第一模型架构和第二模型架构,其中第一模型架构可以用于构成上述第一模型和第三模型,第二模型架构可以用于构成第二模型。
此外,通过上述内容可见,噪声信息也是影响数据处理准确度的因素之一。由于在本申请中,噪声信息的目的在于改变数据,而不在于影响数据处理结果,因此可以基于噪声信息对数据处理结果的影响程度来选择噪声信息的种类。在本申请中,可以预设第二程度阈值,该第二程度阈值用于衡量噪声信息是否对数据处理结果有较大影响,所选择的噪声信息满足第一数据处理结果与第二数据处理结果之间的差异程度小于第二程度阈值,第二数据处理结果为数据处理模型通过处理第一数据得到的数据处理结果,从而能够保障不会因为添加噪声信息而导致数据处理结果不准确,影响数据提供方的模型使用效果。
为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请提供的技术方案进行介绍。
参见图6,图6为本申请实施例提供的一种实际应用场景中数据处理方法的信令图,在该实际应用场景中,计算机设备包括作为数据提供方的第一设备和作为模型提供方的第二设备,该方法包括:
S601:第一设备确定第一数据对应的加密信息和解密信息。
在本申请中,原始数据可以为文本信息,第一数据可以为经过分词和编码处理后的分词编码结果U。在U中可以添加分段编码信息(segment encoding)、位置编码信息(position encoding)等,此处不做限定。
S602:第一设备对第一数据进行分片处理,得到第一数据分片和第二数据分片。
第一设备可以将分词结果U分片,得到第一数据分片和第二数据分片/>,第一设备持有/>,第二设备持有/>。 在本实际应用场景中,/>格式的数据均标识数据分片,其中/>表示第一模型相关的数据分片,/>表示第三模型相关的数据分片。
S603:第一设备通过第一模型,根据第一数据分片生成第一子特征信息。
在本申请中,第一模型架构可以为图7所示的模型架构的N次循环,输入数据在一次循环中,依次经过多头注意力机制层(Multi-head Attention)、归一化层(Layer Norm)、前馈层(Feed Forwards)和第二个归一化层。第一模型和第三模型均对应该第一模型架构。
S604:第一设备向第二设备发送第二数据分片,指示第二设备通过第三模型,根据第二数据分片生成第二子特征信息。
S605:第二设备获取第一设备发送的第二数据分片。
S606:第二设备通过第三模型,根据第二数据分片生成第二子特征信息。
第一模型架构中的各层作用如下:
1、多头注意力机制层:是由多个注意力机制层(Attention)拼接而成,处理方式如下公式所示:
其中,W0为模型权重,其中每个attention的计算如下公式所示:
其中, />为输入模型的数据分片,/>,/>与/>均为模型权重,即模型参数。其中,第一模型架构应用于第一模型和第三模型,数据处理模型对应第一模型架构的模型参数可以切分为第一模型参数和第二模型参数这两个数据分片,其中,第一模型对应第一模型参数中的/>,与/>,第三模型对应第二模型参数中的/>,/>与/>。/>为各个注意力机制计算的输出,通过多头注意力机制层,可以强化模型对于各个分词与文本信息整体之间的关联关系,从而加深模型对于输入数据的理解。
2、归一化层:通过第一模型和第三模型可以分别进行如下计算:
为经过各个注意力机制层的输出,最后归一化层输出如下所示:
其中G与B为模型参数中的超参数。
2、前馈层:通过第一模型和第三模型可以分别进行如下计算:
其中与/>为模型参数中的权重参数,/>为激活函数,例如可以为激活函数高斯误差线性单元GeLu。
通过上述过程,第一模型可以输出第一子特征信息,第三模型可以输出第二子特征信息/>。
S607:第二设备向第一设备发送第二子特征信息,指示第一设备结合第一子特征信息和第二子特征信息确定第一数据特征信息。
S608:第一设备获取第二设备发送的第二子特征信息。
S609:第一设备结合第一子特征信息和第二子特征信息,确定第一数据特征信息。
第一数据特征信息的结合方式可以如下公式所示:
S610:第一设备在第一数据特征信息中添加噪声信息,得到第二数据特征信息。
第一设备可以在第一数据特征信息X添加高斯噪声作为噪声信息,其中为可配置参数,得到第二数据特征信息/>。
S611:第一设备向第二设备发送第二数据特征信息和加密信息,指示第二设备通过第二模型,根据第二数据特征信息生成第一数据处理结果。
S612:第二设备获取第一设备发送的第二数据特征信息。
S613:第二设备通过第二模型,根据第二数据特征信息和加密信息生成第一数据处理结果。
S614:第二设备向第一设备发送第一数据处理结果,指示第一设备通过解密信息,对第一数据处理结果进行解密,得到初始数据处理结果。
S615:第一设备获取第二设备发送的第一数据处理结果。
S616:第一设备通过解密信息,对第一数据处理结果进行解密,得到初始数据处理结果。
需要强调的是,本申请所涉及的模型均可以采用具有相似功能的多种模型架构,在本申请实施例中只是采用一种进行举例,并不做限定。
通过上述过程可见,本申请技术方案相较于相关技术,具有以下多个方面的技术效果进步:
1、本申请可以通过模型架构拆分、模型参数拆分等方式,使数据提供方无法获得完整的数据处理模型,保障了模型提供方的模型资产安全。
2、本申请可以通过添加噪声信息、数据处理结果加密、输入数据分片等方式,保障数据提供方在输入数据和输出结果两个维度的数据资产安全。
3、本申请可以通过建立编码映射关系等方式,提高数据提供方的数据处理效率,降低数据提供方的数据处理压力,从而进一步提高数据处理方法的泛用性。
4、本申请可以通过对架构分段方式和噪声信息进行调节,来降低模型架构分段和噪声信息添加对数据处理结果准确度的影响,保障数据处理精度。
基于上述实施例提供的应用于第一设备的数据处理方法,本申请还提供了一种数据处理装置,参见图8,图8为本申请实施例提供的一种数据处理装置的结构框图,该装置800包括第一生成单元801、第一添加单元802和第一发送单元803:
所述第一生成单元801,用于通过所述第一模型,根据第一数据生成第一数据特征信息,所述第一数据特征信息用于表征所述第一数据的数据特征,所述第一模型对应第一模型架构;
所述第一添加单元802,用于在所述第一数据特征信息中添加噪声信息,得到第二数据特征信息;
所述第一发送单元803,用于向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述第一生成单元801具体用于:
对所述第一数据进行分片处理,得到第一数据分片和第二数据分片,所述第一数据分片和第二数据分片用于构成所述第一数据;
通过所述第一模型,根据所述第一数据分片生成第一子特征信息,所述第一子特征信息用于表征所述第一数据分片的数据特征,所述第一模型对应第一模型参数;
向所述第二设备发送所述第二数据分片,指示所述第二设备通过第三模型,根据所述第二数据分片生成第二子特征信息,所述第二子特征信息用于表征所述第二数据分片的数据特征,所述第三模型对应第二模型参数和所述第一模型架构,所述第一模型参数和所述第二模型参数用于构成目标模型参数,所述目标模型参数为所述数据处理模型中的所述第一模型架构对应的模型参数;
获取所述第二设备发送的所述第二子特征信息;
结合所述第一子特征信息和所述第二子特征信息,确定所述第一数据特征信息。
在一种可能的实现方式中,所述第一数据分片与所述第二数据分片的数据大小相同。
在一种可能的实现方式中,所述装置还包括第一获取单元、分词单元、第一确定单元和第二生成单元:
所述第一获取单元,用于获取待处理文本信息;
所述分词单元,用于对所述待处理文本信息进行分词处理,得到所述待处理文本信息对应的分词集合,所述分词集合中包括多个分词;
所述第一确定单元,用于确定所述多个分词分别对应的分词编码;
所述第二生成单元,用于根据所述多个分词分别对应的分词编码,生成所述第一数据。
在一种可能的实现方式中,所述第一确定单元具体用于:
确定目标分词对应的目标分词编码,所述目标分词为所述多个分词中的任意一个,所述目标分词编码用于表征所述目标分词;
所述待处理文本信息包括多个单元分别对应的文本信息,所述装置还包括第二确定单元:
所述第二确定单元,用于确定所述目标分词对应的目标分段编码,所述目标分段编码用于标识所述目标分词所处的单元;
所述第二生成单元具体用于:
根据所述多个分词分别对应的分词编码和分段编码,生成所述第一数据。
在一种可能的实现方式中,所述装置还包括第三确定单元:
所述第三确定单元,用于确定所述目标分词对应的目标位置编码,所述目标位置编码用于标识所述目标分词在所述待处理文本信息中的位置分布;
所述第二生成单元具体用于:
根据所述多个分词分别对应的分词编码和位置编码,生成所述第一数据。
在一种可能的实现方式中,所述第一确定单元具体用于:
根据编码映射关系,确定所述多个分词分别对应的分词编码,所述编码映射关系用于记录分词与分词编码之间的映射关系;
所述装置还包括更新单元:
所述更新单元,用于在所述编码映射关系中不具有所述目标分词的情况下,将所述目标分词与所述目标分词编码之间的映射关系更新到所述编码映射关系中。
在一种可能的实现方式中,所述装置还包括第四确定单元:
所述第四确定单元,用于确定所述第一数据对应的加密信息和解密信息,所述加密信息用于表征对所述第一数据所对应数据处理结果的加密方式,所述解密信息用于解密通过所述加密方式加密的数据;
所述第一发送单元803具体用于:
向第二设备发送所述第二数据特征信息和所述加密信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息和所述加密信息生成第一数据处理结果,所述第二模型用于根据所述第二数据特征信息生成初始数据处理结果,以及根据所述加密信息对所述初始数据处理结果进行加密,输出所述第一数据处理结果;
所述装置还包括第二获取单元和解密单元:
所述第二获取单元,用于获取所述第二设备发送的所述第一数据处理结果;
所述解密单元,用于通过所述解密信息,对所述第一数据处理结果进行解密,得到所述初始数据处理结果。
基于上述实施例提供的应用于第二设备的数据处理方法,本申请还提供了一种数据处理装置,参见图9,图9为本申请实施例提供的一种数据处理装置的结构框图,该装置900包括第三获取单元901和第三生成单元902:
所述第三获取单元901,用于获取第一设备发送的第二数据特征信息,所述第二数据特征信息为所述第一设备通过在第一数据特征信息中添加噪声信息得到的,所述第一数据特征信息为所述第一设备通过第一模型根据第一数据生成的,所述第一模型对应第一模型架构;
所述第三生成单元902,用于通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述第一数据处理结果与第二数据处理结果之间的差异程度小于第一程度阈值,所述第二数据处理结果为所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述装置还包括第四获取单元、第一分段单元、第四生成单元、第五生成单元、调节单元和第二分段单元:
所述第四获取单元,用于获取第二数据,所述第二数据具有对应的样本数据处理结果,所述样本数据处理结果为通过所述数据处理模型对所述第二数据进行处理的结果;
所述第一分段单元,用于基于初始结构分段方式对所述数据处理模型对应的模型架构进行分段,得到第一初始模型架构和第二初始模型架构,所述第一初始模型架构为第一初始模型对应的模型架构,所述第二初始模型架构为第二初始模型对应的模型架构;
所述第四生成单元,用于通过所述第一初始模型,根据所述样本数据生成第三数据特征信息,所述第三数据特征信息用于表征所述样本数据对应的数据特征;
所述第五生成单元,用于通过所述第二初始模型,根据第四数据特征信息生成待定数据处理结果,所述第四数据特征信息为通过在所述第三数据特征信息中添加所述噪声信息得到的;
所述调节单元,用于根据所述待定数据处理结果与所述样本数据处理结果之间的差异,调节所述初始结构分段方式,得到结构分段方式,通过所述结构分段方式确定出的所述待定数据处理结果与所述样本数据处理结果之间的差异程度小于所述第一程度阈值;
所述第二分段单元,用于基于所述结构分段方式对所述数据处理模型对应的模型架构进行分段,得到所述第一模型架构和第二模型架构。
在一种可能的实现方式中,所述噪声信息满足所述第一数据处理结果与第二数据处理结果之间的差异程度小于第二程度阈值,所述第二数据处理结果为所述数据处理模型通过处理所述第一数据得到的数据处理结果。
在一种可能的实现方式中,所述第一设备还用于对所述第一数据进行分片处理,得到第一数据分片和第二数据分片,所述第一数据分片和第二数据分片用于构成所述第一数据,所述第二设备还包括第三模型,所述第三模型对应第二模型参数和所述第一模型架构,所述装置还包括第五获取单元、第六生成单元和第二发送单元:
所述第五获取单元,用于获取所述第一设备发送的第二数据分片;
所述第六生成单元,用于通过所述第三模型,根据所述第二数据分片生成第二子特征信息;
所述第二发送单元,用于向所述第一设备发送所述第二子特征信息,指示所述第一设备结合所述第一子特征信息和所述第二子特征信息确定所述第一数据特征信息,所述第一子特征信息为所述第一设备通过所述第一模型,根据所述第一数据分片生成的信息,所述第一模型对应第一模型参数,所述第一模型参数和所述第二模型参数用于构成目标模型参数,所述目标模型参数为所述数据处理模型中的所述第一模型架构对应的模型参数。
在一种可能的实现方式中,所述第三获取单元901具体用于:
获取第一设备发送的第二数据特征信息和加密信息,所述加密信息用于表征对所述第一数据所对应数据处理结果的加密方式;
所述第二模型用于根据所述第二数据特征信息生成初始数据处理结果,以及根据所述加密信息对所述初始数据处理结果进行加密,输出所述第一数据处理结果;
所述装置还包括第三发送单元:
所述第三发送单元,用于向所述第一设备发送所述第一数据处理结果,指示所述第一设备通过所述解密信息,对所述第一数据处理结果进行解密,得到所述初始数据处理结果,所述解密信息用于解密通过所述加密方式加密的数据。
本申请实施例还提供了一种计算机设备,请参见图10所示,该计算机设备可以是终端设备,以终端设备为手机为例:
图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(Wireless Fidelity,简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。通常,RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732。具体地,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板741。进一步的,触控面板731可覆盖显示面板741,当触控面板731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图10中,触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号,传输到扬声器761,由扬声器761转换为声音信号输出;另一方面,传声器762将收集的声音信号转换为电信号,由音频电路760接收后转换为音频数据,再将音频数据输出处理器780处理后,经RF电路710以发送给比如另一手机,或者将音频数据输出至存储器720以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体检测。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。
手机还包括给各个部件供电的电源790(比如电池),优选的,电源可以通过电源管理***与处理器780逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器780还具有以下功能:
通过所述第一模型,根据第一数据生成第一数据特征信息,所述第一数据特征信息用于表征所述第一数据的数据特征,所述第一模型对应第一模型架构;
在所述第一数据特征信息中添加噪声信息,得到第二数据特征信息;
向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
或,该终端设备所包括的处理器780还具有以下功能:
获取第一设备发送的第二数据特征信息,所述第二数据特征信息为所述第一设备通过在第一数据特征信息中添加噪声信息得到的,所述第一数据特征信息为所述第一设备通过第一模型根据第一数据生成的,所述第一模型对应第一模型架构;
通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
本申请实施例还提供一种服务器,请参见图11所示,图11为本申请实施例提供的服务器800的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,简称CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作***841。
上述实施例中由服务器所执行的步骤可以基于图11所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的数据处理方法中的任意一种实施方式。
本申请实施例还提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行上述实施例中任意一项所述的数据处理方法。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息(如数据提供方提供的数据)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (18)
1.一种数据处理方法,其特征在于,所述方法应用于第一设备,所述第一设备中包括第一模型,所述方法包括:
通过所述第一模型,根据第一数据生成第一数据特征信息,所述第一数据特征信息用于表征所述第一数据的数据特征,所述第一模型对应第一模型架构;
在所述第一数据特征信息中添加噪声信息,得到第二数据特征信息;
向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述第一模型,根据第一数据生成第一数据特征信息,包括:
对所述第一数据进行分片处理,得到第一数据分片和第二数据分片,所述第一数据分片和第二数据分片用于构成所述第一数据;
通过所述第一模型,根据所述第一数据分片生成第一子特征信息,所述第一子特征信息用于表征所述第一数据分片的数据特征,所述第一模型对应第一模型参数;
向所述第二设备发送所述第二数据分片,指示所述第二设备通过第三模型,根据所述第二数据分片生成第二子特征信息,所述第二子特征信息用于表征所述第二数据分片的数据特征,所述第三模型对应第二模型参数和所述第一模型架构,所述第一模型参数和所述第二模型参数用于构成目标模型参数,所述目标模型参数为所述数据处理模型中的所述第一模型架构对应的模型参数;
获取所述第二设备发送的所述第二子特征信息;
结合所述第一子特征信息和所述第二子特征信息,确定所述第一数据特征信息。
3.根据权利要求2所述的方法,其特征在于,所述第一数据分片与所述第二数据分片的数据大小相同。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待处理文本信息;
对所述待处理文本信息进行分词处理,得到所述待处理文本信息对应的分词集合,所述分词集合中包括多个分词;
确定所述多个分词分别对应的分词编码;
根据所述多个分词分别对应的分词编码,生成所述第一数据。
5.根据权利要求4所述的方法,其特征在于,所述确定所述多个分词分别对应的分词编码,包括:
确定目标分词对应的目标分词编码,所述目标分词为所述多个分词中的任意一个,所述目标分词编码用于表征所述目标分词;
所述待处理文本信息包括多个单元分别对应的文本信息,所述方法还包括:
确定所述目标分词对应的目标分段编码,所述目标分段编码用于标识所述目标分词所处的单元;
所述根据所述多个分词分别对应的分词编码,生成所述第一数据,包括:
根据所述多个分词分别对应的分词编码和分段编码,生成所述第一数据。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定所述目标分词对应的目标位置编码,所述目标位置编码用于标识所述目标分词在所述待处理文本信息中的位置分布;
所述根据所述多个分词分别对应的分词编码,生成所述第一数据,包括:
根据所述多个分词分别对应的分词编码和位置编码,生成所述第一数据。
7.根据权利要求4所述的方法,其特征在于,所述确定所述多个分词分别对应的分词编码,包括:
根据编码映射关系,确定所述多个分词分别对应的分词编码,所述编码映射关系用于记录分词与分词编码之间的映射关系;
所述方法还包括:
在所述编码映射关系中不具有所述目标分词的情况下,将所述目标分词与所述目标分词编码之间的映射关系更新到所述编码映射关系中。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第一数据对应的加密信息和解密信息,所述加密信息用于表征对所述第一数据所对应数据处理结果的加密方式,所述解密信息用于解密通过所述加密方式加密的数据;
所述向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,包括:
向第二设备发送所述第二数据特征信息和所述加密信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息和所述加密信息生成第一数据处理结果,所述第二模型用于根据所述第二数据特征信息生成初始数据处理结果,以及根据所述加密信息对所述初始数据处理结果进行加密,输出所述第一数据处理结果;
所述方法还包括:
获取所述第二设备发送的所述第一数据处理结果;
通过所述解密信息,对所述第一数据处理结果进行解密,得到所述初始数据处理结果。
9.一种数据处理方法,其特征在于,所述方法应用于第二设备,第二设备中包括第二模型,所述方法包括:
获取第一设备发送的第二数据特征信息,所述第二数据特征信息为所述第一设备通过在第一数据特征信息中添加噪声信息得到的,所述第一数据特征信息为所述第一设备通过第一模型根据第一数据生成的,所述第一模型对应第一模型架构;
通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
10.根据权利要求9所述的方法,其特征在于,所述第一数据处理结果与第二数据处理结果之间的差异程度小于第一程度阈值,所述第二数据处理结果为所述数据处理模型通过处理所述第一数据得到的数据处理结果。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取第二数据,所述第二数据具有对应的样本数据处理结果,所述样本数据处理结果为通过所述数据处理模型对所述第二数据进行处理的结果;
基于初始结构分段方式对所述数据处理模型对应的模型架构进行分段,得到第一初始模型架构和第二初始模型架构,所述第一初始模型架构为第一初始模型对应的模型架构,所述第二初始模型架构为第二初始模型对应的模型架构;
通过所述第一初始模型,根据所述样本数据生成第三数据特征信息,所述第三数据特征信息用于表征所述样本数据对应的数据特征;
通过所述第二初始模型,根据第四数据特征信息生成待定数据处理结果,所述第四数据特征信息为通过在所述第三数据特征信息中添加所述噪声信息得到的;
根据所述待定数据处理结果与所述样本数据处理结果之间的差异,调节所述初始结构分段方式,得到结构分段方式,通过所述结构分段方式确定出的所述待定数据处理结果与所述样本数据处理结果之间的差异程度小于所述第一程度阈值;
基于所述结构分段方式对所述数据处理模型对应的模型架构进行分段,得到所述第一模型架构和第二模型架构。
12.根据权利要求9所述的方法,其特征在于,所述噪声信息满足所述第一数据处理结果与第二数据处理结果之间的差异程度小于第二程度阈值,所述第二数据处理结果为所述数据处理模型通过处理所述第一数据得到的数据处理结果。
13.根据权利要求9所述的方法,其特征在于,所述第一设备还用于对所述第一数据进行分片处理,得到第一数据分片和第二数据分片,所述第一数据分片和第二数据分片用于构成所述第一数据,所述第二设备还包括第三模型,所述第三模型对应第二模型参数和所述第一模型架构,所述方法还包括:
获取所述第一设备发送的第二数据分片;
通过所述第三模型,根据所述第二数据分片生成第二子特征信息;
向所述第一设备发送所述第二子特征信息,指示所述第一设备结合所述第一子特征信息和所述第二子特征信息确定所述第一数据特征信息,所述第一子特征信息为所述第一设备通过所述第一模型,根据所述第一数据分片生成的信息,所述第一模型对应第一模型参数,所述第一模型参数和所述第二模型参数用于构成目标模型参数,所述目标模型参数为所述数据处理模型中的所述第一模型架构对应的模型参数。
14.根据权利要求9所述的方法,其特征在于,所述获取第一设备发送的第二数据特征信息,包括:
获取第一设备发送的第二数据特征信息和加密信息,所述加密信息用于表征对所述第一数据所对应数据处理结果的加密方式;
所述第二模型用于根据所述第二数据特征信息生成初始数据处理结果,以及根据所述加密信息对所述初始数据处理结果进行加密,输出所述第一数据处理结果;
所述方法还包括:
向所述第一设备发送所述第一数据处理结果,指示所述第一设备通过所述解密信息,对所述第一数据处理结果进行解密,得到所述初始数据处理结果,所述解密信息用于解密通过所述加密方式加密的数据。
15.一种数据处理装置,其特征在于,所述装置包括第一生成单元、第一添加单元和第一发送单元:
所述第一生成单元,用于通过所述第一模型,根据第一数据生成第一数据特征信息,所述第一数据特征信息用于表征所述第一数据的数据特征,所述第一模型对应第一模型架构;
所述第一添加单元,用于在所述第一数据特征信息中添加噪声信息,得到第二数据特征信息;
所述第一发送单元,用于向第二设备发送所述第二数据特征信息,指示所述第二设备通过第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
16.一种数据处理装置,其特征在于,所述装置包括第三获取单元和第三生成单元:
所述第三获取单元,用于获取第一设备发送的第二数据特征信息,所述第二数据特征信息为所述第一设备通过在第一数据特征信息中添加噪声信息得到的,所述第一数据特征信息为所述第一设备通过第一模型根据第一数据生成的,所述第一模型对应第一模型架构;
所述第三生成单元,用于通过所述第二模型,根据所述第二数据特征信息生成第一数据处理结果,所述第二模型对应第二模型架构,所述第一模型架构和所述第二模型架构用于构成数据处理模型对应的模型架构,所述第一数据处理结果用于表征所述数据处理模型通过处理所述第一数据得到的数据处理结果。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1-8中任意一项所述的数据处理方法,或执行权利要求9-14中任意一项所述的数据处理方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的数据处理方法,或执行权利要求9-14中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410307489.0A CN117955732B (zh) | 2024-03-18 | 2024-03-18 | 数据处理方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410307489.0A CN117955732B (zh) | 2024-03-18 | 2024-03-18 | 数据处理方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117955732A true CN117955732A (zh) | 2024-04-30 |
CN117955732B CN117955732B (zh) | 2024-06-25 |
Family
ID=90800210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410307489.0A Active CN117955732B (zh) | 2024-03-18 | 2024-03-18 | 数据处理方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117955732B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929886A (zh) * | 2019-12-06 | 2020-03-27 | 支付宝(杭州)信息技术有限公司 | 模型训练、预测方法及其*** |
CN111125760A (zh) * | 2019-12-20 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的模型训练、预测方法及其*** |
CN114417394A (zh) * | 2021-12-08 | 2022-04-29 | 海南火链科技有限公司 | 基于区块链的数据存证方法、装置、设备及可读存储介质 |
CN114553612A (zh) * | 2022-04-27 | 2022-05-27 | 深圳市一航网络信息技术有限公司 | 数据加密、解密方法、装置、存储介质及电子设备 |
WO2022148283A1 (zh) * | 2021-01-05 | 2022-07-14 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备、存储介质及程序产品 |
CN117056962A (zh) * | 2023-07-21 | 2023-11-14 | 厦门大学 | 联邦学习大模型精调方法及装置 |
-
2024
- 2024-03-18 CN CN202410307489.0A patent/CN117955732B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929886A (zh) * | 2019-12-06 | 2020-03-27 | 支付宝(杭州)信息技术有限公司 | 模型训练、预测方法及其*** |
CN111125760A (zh) * | 2019-12-20 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的模型训练、预测方法及其*** |
WO2022148283A1 (zh) * | 2021-01-05 | 2022-07-14 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备、存储介质及程序产品 |
CN114417394A (zh) * | 2021-12-08 | 2022-04-29 | 海南火链科技有限公司 | 基于区块链的数据存证方法、装置、设备及可读存储介质 |
CN114553612A (zh) * | 2022-04-27 | 2022-05-27 | 深圳市一航网络信息技术有限公司 | 数据加密、解密方法、装置、存储介质及电子设备 |
CN117056962A (zh) * | 2023-07-21 | 2023-11-14 | 厦门大学 | 联邦学习大模型精调方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117955732B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10959124B2 (en) | Uplink data transmission method, terminal, network side device and system | |
US20190349202A1 (en) | Protection method and protection system of system partition key data and terminal | |
CN103763112B (zh) | 一种用户身份保护方法和装置 | |
CN110825863B (zh) | 一种文本对融合方法及装置 | |
CN114629649B (zh) | 基于云计算的数据处理方法、装置及存储介质 | |
CN103546887A (zh) | 一种应用软件传输方法、装置、终端及服务器 | |
CN116541865A (zh) | 基于数据安全的密码输入方法、装置、设备及存储介质 | |
CN107995151B (zh) | 登录验证方法、装置及*** | |
CN109766705B (zh) | 一种基于电路的数据验证方法、装置及电子设备 | |
CN116610372B (zh) | 一种中央处理器配置方法、装置及相关产品 | |
CN117955732B (zh) | 数据处理方法和相关装置 | |
CN112748899A (zh) | 一种数据处理方法和相关设备 | |
CN115270163B (zh) | 数据处理方法、相关装置及存储介质 | |
CN115589281A (zh) | 解密方法、相关装置及存储介质 | |
CN115549889A (zh) | 解密方法、相关装置及存储介质 | |
CN117009845A (zh) | 一种类增量模型的训练方法、装置以及存储介质 | |
CN111625278B (zh) | 一种源代码文件的生成方法及相关设备 | |
CN112379905B (zh) | 一种内核升级方法、装置、终端及存储介质 | |
CN111104566B (zh) | 特征索引编码方法、装置、电子设备及存储介质 | |
CN109743289B (zh) | 一种基于神经网络的数据验证方法、装置及电子设备 | |
CN115801308B (zh) | 数据处理方法、相关装置及存储介质 | |
CN116597828B (zh) | 模型确定方法、模型应用方法和相关装置 | |
CN116450808B (zh) | 一种数据的处理方法、装置以及存储介质 | |
CN115883839B (zh) | 一种图像校验方法、装置、设备及计算机可读存储介质 | |
CN117118647A (zh) | 一种数据加密方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |