WO2024131622A1 - Ai网络模型确定方法、信息传输方法、装置和通信设备 - Google Patents

Ai网络模型确定方法、信息传输方法、装置和通信设备 Download PDF

Info

Publication number
WO2024131622A1
WO2024131622A1 PCT/CN2023/138607 CN2023138607W WO2024131622A1 WO 2024131622 A1 WO2024131622 A1 WO 2024131622A1 CN 2023138607 W CN2023138607 W CN 2023138607W WO 2024131622 A1 WO2024131622 A1 WO 2024131622A1
Authority
WO
WIPO (PCT)
Prior art keywords
network model
sub
information
gradient
updated
Prior art date
Application number
PCT/CN2023/138607
Other languages
English (en)
French (fr)
Inventor
孙布勒
Original Assignee
维沃移动通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 维沃移动通信有限公司 filed Critical 维沃移动通信有限公司
Publication of WO2024131622A1 publication Critical patent/WO2024131622A1/zh

Links

Definitions

  • the present application belongs to the field of communication technology, and specifically relates to an AI network model determination method, information transmission method, device and communication equipment.
  • AI artificial intelligence
  • AI network model training is usually performed on the network side device.
  • the terminal needs to send the collected sample data to the network side device so that the network side device can train the AI network model based on the sample data, and then send the trained AI network model to the terminal so that the terminal can obtain the AI network model.
  • the training sample data of the terminal and the obtained AI network model are known to the network side device, which makes the terminal at risk of privacy information leakage.
  • the embodiments of the present application provide an AI network model determination method, an information transmission method, an apparatus, and a communication device, which can enable the first device and the second device to perform segmented learning on the AI network model required by the first device through information interaction between the first device and the second device.
  • the first device does not need to send the training sample data to the second device, and the second device does not know the AI network model finally obtained by the terminal, thereby improving the privacy performance of the first device.
  • a method for determining an AI network model comprising:
  • the first device sends first information to the second device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model;
  • the first device receives second information from the second device, wherein the second information includes second output information and/or second gradient information of the second sub-AI network model, and the second device has the second sub-AI network model;
  • the first device updates the first sub-AI network model according to the gradient information of the first sub-AI network model, wherein the gradient information of the first sub-AI network model includes the first gradient information or the gradient information obtained by back-propagating the first sub-AI network model based on the second gradient information;
  • the first device receives the updated second sub-AI network model from the second device
  • the first device determines a target AI network model according to the updated first sub-AI network model and the updated second sub-AI network model.
  • an AI network model determination device comprising:
  • a first sending module configured to send first information to a second device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model;
  • a first receiving module configured to receive second information from the second device, wherein the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model;
  • a first updating module configured to update the first sub-AI network model according to the gradient information of the first sub-AI network model, wherein the gradient information of the first sub-AI network model includes the first gradient information or the gradient information obtained by back-propagating the first sub-AI network model based on the second gradient information;
  • a second receiving module configured to receive an updated second sub-AI network model from the second device
  • the first determination module is used to determine the target AI network model according to the updated first sub-AI network model and the updated second sub-AI network model.
  • an information transmission method comprising:
  • the second device receives first information from the first device, wherein the first information includes first output information and/or first gradient information of the first sub-AI network model, and the first device has the first sub-AI network model;
  • the second device sends second information to the first device, wherein the second information includes second output information and/or second gradient information of the second sub-AI network model, and the second device has the second sub-AI network model;
  • the second device updates the second sub-AI network model according to the gradient information of the second sub-AI network model, wherein the gradient information of the second sub-AI network model includes the second gradient information or the gradient information obtained by back-propagating the second sub-AI network model based on the first gradient information;
  • the second device sends the updated second sub-AI network model to the first device.
  • an information transmission device comprising:
  • a third receiving module configured to receive first information from a first device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model;
  • a second sending module configured to send second information to the first device, wherein the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model;
  • a second updating module configured to update the second sub-AI network model according to the gradient information of the second sub-AI network model, wherein the gradient information of the second sub-AI network model includes the second gradient information or the gradient information obtained by back-propagating the second sub-AI network model based on the first gradient information;
  • the third sending module is used to send the updated second sub-AI network model to the first device.
  • a communication device comprising a processor and a memory, the memory storing A program or instruction that can be run on the processor, which implements the steps of the method described in the first aspect or the third aspect when executed by the processor.
  • a communication device comprising a processor and a communication interface, wherein, when the communication device is a first device, the communication interface is used to send first information to a second device, and receive second information from the second device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model, and the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model; the processor is used to update the first sub-AI network model according to the gradient information of the first sub-AI network model, wherein the gradient information of the first sub-AI network model includes the first gradient information or the gradient information obtained by back-propagating the first sub-AI network model based on the second gradient information; the communication interface is also used to receive the updated second sub-AI network model from the second device; the processor is also used to determine the target AI network model according to the updated first sub-AI network model and the updated second sub
  • the communication interface is used to receive first information from the first device, and send second information to the first device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model, and the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model;
  • the processor is used to update the second sub-AI network model according to the gradient information of the second sub-AI network model, wherein the gradient information of the second sub-AI network model includes the second gradient information or the gradient information obtained by back-propagating the second sub-AI network model based on the first gradient information;
  • the communication interface is also used to send the updated second sub-AI network model to the first device.
  • a communication system comprising: a first device and a second device, wherein the first device can be used to execute the steps of the AI network model determination method as described in the first aspect, and the second device can be used to execute the steps of the information transmission method as described in the third aspect.
  • a readable storage medium on which a program or instruction is stored.
  • the program or instruction is executed by a processor, the steps of the method described in the first aspect are implemented, or the steps of the method described in the third aspect are implemented.
  • a chip comprising a processor and a communication interface, wherein the communication interface is coupled to the processor, and the processor is used to run a program or instruction to implement the method described in the first aspect, or to implement the method described in the third aspect.
  • a computer program/program product is provided, wherein the computer program/program product is stored in a storage medium, and the computer program/program product is executed by at least one processor to implement the steps of the AI network model determination method as described in the first aspect, or the computer program/program product is executed by at least one processor to implement the steps of the information transmission method as described in the third aspect.
  • the complete AI network model is divided into a first sub-AI network model and a second sub-AI network model, and the first sub-AI network model is forward propagated and reversely propagated on the first device side.
  • the first device performs forward propagation and reverse propagation on the second sub-AI network model, and then exchanges the results of forward propagation and/or reverse propagation between the first device and the second device, so as to update the first sub-AI network model on the first device side and update the second sub-AI network model on the second device side.
  • the first device can obtain the updated first sub-AI network model and the updated second sub-AI network model to form the target AI network model ultimately required by the first device.
  • the training sample data of the first device used to train the target AI network model and the target AI network model ultimately trained by the terminal are unknown to the second device, thereby protecting the information security of the first device.
  • FIG1 is a schematic diagram of the structure of a wireless communication system to which an embodiment of the present application can be applied;
  • FIG2 is a schematic diagram of performance gain when CSI is predicted based on a network model and when CSI is not predicted;
  • FIG3 is a flow chart of a method for determining an AI network model provided in an embodiment of the present application.
  • FIG4a is one of the relationship diagrams of the first sub-AI network model and the second sub-AI network model and the boundary position;
  • FIG4b is a second diagram showing the relationship between the first sub-AI network model and the second sub-AI network model and the boundary position;
  • FIG5 is a flow chart of an information transmission method provided in an embodiment of the present application.
  • FIG6 is a schematic diagram of the structure of an AI network model determination device provided in an embodiment of the present application.
  • FIG7 is a schematic diagram of the structure of an information transmission device provided in an embodiment of the present application.
  • FIG8 is a schematic diagram of the structure of a communication device provided in an embodiment of the present application.
  • first, second, etc. in the specification and claims of the present application are used to distinguish similar objects, and are not used to describe a specific order or sequence. It should be understood that the terms used in this way are interchangeable under appropriate circumstances, so that the embodiments of the present application can be implemented in an order other than those illustrated or described here, and the objects distinguished by “first” and “second” are generally of the same type, and the number of objects is not limited.
  • the first object can be one or more.
  • “and/or” in the specification and claims represents at least one of the connected objects, and the character “/" generally represents that the objects associated with each other are in an "or” relationship.
  • LTE Long Term Evolution
  • LTE-A Long Term Evolution
  • CDMA Code Division Multiple Access
  • TDMA Time Division Multiple Access
  • FDMA Frequency Division Multiple Access
  • OFDMA Orthogonal Frequency Division Multiple Access
  • SC-FDMA Single-carrier Frequency Division Multiple Access
  • NR New Radio
  • 6G 6th Generation
  • FIG1 shows a block diagram of a wireless communication system applicable to an embodiment of the present application.
  • the wireless communication system includes a terminal 11 and a network side device 12.
  • the terminal 11 may be a mobile phone, a tablet computer (Tablet Personal Computer), a laptop computer (Laptop Computer) or a notebook computer, a personal digital assistant (Personal Digital Assistant, PDA), a handheld computer, a netbook, an ultra-mobile personal computer (ultra-mobile personal computer, UMPC), a mobile Internet device (Mobile Internet Device, MID), an augmented reality (augmented reality, AR)/virtual reality (virtual reality, VR) device , robots, wearable devices (Wearable Device), vehicle user equipment (VUE), pedestrian user equipment (PUE), smart home (home appliances with wireless communication functions, such as refrigerators, televisions, washing machines or furniture, etc.), game consoles, personal computers (personal computers, PCs), teller machines or self-service machines and other terminal side devices, wearable devices include: smart watches, smart bracelets, smart headphones,
  • the network side device 12 may include access network equipment or core network equipment, wherein the access network equipment may also be called wireless access network equipment, wireless access network (Radio Access Network, RAN), wireless access network function or wireless access network unit.
  • the access network equipment may include a base station, a wireless local area network (WLAN) access point or a WiFi node, etc.
  • WLAN wireless local area network
  • the base station may be called a node B, an evolved node B (eNB), an access point, a base transceiver station (BTS), a radio base station, a radio transceiver, a basic service set (BSS), an extended service set (ESS), a home node B, a home evolved node B, a transmission reception point (TRP) or some other appropriate term in the field.
  • eNB evolved node B
  • BTS base transceiver station
  • BSS basic service set
  • ESS extended service set
  • home node B a home evolved node B
  • TRP transmission reception point
  • AI models have been widely used in various fields. There are many ways to implement AI models, such as neural networks, decision trees, support vector machines, Bayesian classifiers, etc. This application uses neural networks as an example for illustration, but does not limit the specific type of AI models.
  • the parameters of the neural network are optimized through optimization algorithms.
  • An optimization algorithm is a type of algorithm that can help us minimize or maximize an objective function (sometimes called a loss function).
  • the objective function is often a mathematical combination of model parameters and data. For example, given data X and its corresponding label Y, we build a neural network model f(.). With the model, we can get the predicted output f(x) based on the input x, and we can calculate the difference between the predicted value and the true value (f(x)-Y), which is the loss function. Our goal is to find the right weights and biases to minimize the value of the above loss function. The smaller the loss value, the closer our model is to the real situation.
  • BP Back Propagation
  • the basic idea of the BP algorithm is that the learning process consists of two processes: forward propagation of the signal and back propagation of the error.
  • forward propagation the input sample is passed from the input layer, processed by each hidden layer layer by layer, and then passed to the output layer. If the actual output layer If the output does not match the expected output, it will enter the error back propagation stage.
  • Error back propagation is to propagate the output error through the hidden layer to the input layer layer by layer in some form, and distribute the error to all units in each layer, so as to obtain the error signal of each layer unit. This error signal is used as the basis for correcting the weights of each unit.
  • This process of adjusting the weights of each layer in the forward propagation of signals and the reverse propagation of errors is repeated over and over again.
  • the process of continuous adjustment of weights is the learning and training process of the network. This process continues until the error of the network output is reduced to an acceptable level, or until the pre-set number of learning times is reached.
  • the selected AI algorithms and models vary depending on the type of solution.
  • the main way to improve 5G network performance with AI is to enhance or replace existing algorithms or processing modules with algorithms and models based on neural networks.
  • algorithms and models based on neural networks can achieve better performance than those based on deterministic algorithms.
  • Commonly used neural networks include deep neural networks, convolutional neural networks, and recurrent neural networks. With the help of existing AI tools, neural networks can be built, trained, and verified.
  • CSI prediction can be performed based on the AI network model, that is, the historical CSI is input into the AI model, the AI network model analyzes the time domain variation characteristics of the channel, and outputs the future CSI.
  • the performance gain such as the Normalized Mean Squared Error (NMSE)
  • NMSE Normalized Mean Squared Error
  • the corresponding neural network needs to be run on the terminal.
  • the wireless environment changes, the business execution changes, etc.
  • the model used on the terminal side also needs to change, evolve, and update.
  • a first device that needs to retrain or update an AI network model needs to send the collected training sample data and its labels to a second device responsible for retraining or updating. After the second device completes the retraining or updating of the AI network model, it sends the trained AI network model to the first device. In this way, the training sample data of the first device and the AI network model finally used are known to the second device, which reduces the information security performance of the first device.
  • the first device that needs to retrain or update the AI network model can train a part of the AI network model, and the other part of the AI network model is trained by the second device.
  • the target AI network model obtained by the first device is unknown to the second device, thereby improving the information security performance of the first device.
  • AI network model determination method information transmission method, AI network model determination device, information transmission device and communication equipment provided in the embodiments of the present application are described in detail through some embodiments and their application scenarios.
  • An embodiment of the present application provides an AI network model determination method, the execution subject of which is a first device.
  • the AI network model determination method executed by the first device may include the following steps:
  • Step 301 A first device sends first information to a second device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model.
  • the first device may be a client device that needs to obtain or update the AI network model, such as a terminal or a network-side device.
  • the second device may be a server-side device, such as another terminal or another network-side device, which is not specifically limited here.
  • Step 302 The first device receives second information from the second device, wherein the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model.
  • Step 303 The first device updates the first sub-AI network model according to the gradient information of the first sub-AI network model, wherein the gradient information of the first sub-AI network model includes the first gradient information or the gradient information obtained by back-propagating the first sub-AI network model based on the second gradient information.
  • Step 304 The first device receives the updated second sub-AI network model from the second device;
  • Step 305 The first device determines a target AI network model according to the updated first sub-AI network model and the updated second sub-AI network model.
  • the first sub-AI network model may include a partial layer of a complete AI network model
  • the second sub-AI network model may include another partial layer of the complete AI network model
  • the number of first sub-AI network models possessed by the first device may be one or at least two
  • the number of second sub-AI network models possessed by the second device may also be one or at least two
  • a complete AI network model can be obtained by connecting the first sub-AI network model and the second sub-AI network model in series.
  • adjacent first sub-AI network models and second sub-AI network models are divided by a boundary position.
  • the complete neural network is divided into a client sub-neural network and a server sub-neural network, wherein the client sub-neural network is arranged on the client side and the server sub-neural network is arranged on the server side.
  • the output of the client sub-neural network is the input of the server sub-neural network;
  • the gradient information at the input position of the server sub-neural network is used as the gradient information at the output position of the client sub-neural network.
  • the complete neural network is divided into client sub-neural network 1, server sub-neural network and client sub-neural network 2, wherein the client sub-neural network is arranged on the client side, and the server sub-neural network 1 and the client sub-neural network 2 are arranged on the server side.
  • the output of the client sub-neural network 1 is the input of the server sub-neural network
  • the output of the server sub-neural network is the input of the client sub-neural network 2
  • the gradient information at the input position of the client sub-neural network 2 is used as the gradient information at the output position of the server sub-neural network
  • the gradient information at the input position of the server sub-neural network is used as the gradient information at the output position of the client sub-neural network 1.
  • the first device has one first sub-AI network model and the second device has one second sub-AI network model, which does not constitute a specific Body limitation.
  • the training sample data used to train the first sub-AI network model and the second sub-AI network model may be data collected by the first device, or may be offline data.
  • the training sample data is mainly taken as data collected by the first device as an example, which is not specifically limited here.
  • the first sub-AI network model includes an input layer of the first AI network model.
  • the first device can input the collected training sample data into the first sub-AI network model to obtain the first output information output by the first sub-AI network model.
  • the first device does not need to send the collected training sample data to the second device, which can improve the information security performance of the first device.
  • the first AI network model can be a complete AI network model including the first sub-AI network model and the second sub-AI network model.
  • the first AI network model is the AI network model before the update corresponding to the target AI network model.
  • the first sub-AI network model includes an output layer of the first AI network model.
  • the first device can compare the label corresponding to the collected training sample data with the output result of the first AI network model to obtain the gradient information at the output position of the first sub-AI network model. In this way, the first device does not need to send the label corresponding to the collected training sample data to the second device, which can improve the information security performance of the first device.
  • the second sub-AI network model includes the input layer of the first AI network model.
  • the first device can send the collected training sample data to the second device, so that the second device inputs the training sample data into the second sub-AI network model to obtain second output information.
  • the second sub-AI network model includes the output layer of the first AI network model.
  • the first device can send the label corresponding to the training sample data to the second device, so that the second device compares the label of the training sample data with the output result of the first AI network model to obtain the gradient information at the output position of the second sub-AI network model.
  • the first device may back propagate the first sub-AI network model based on the gradient information at the output position of the first sub-AI network model to obtain the first gradient information at the input position of the first sub-AI network model.
  • the gradient information at the output position of the first sub-AI network model may be the gradient information at the input position of the second sub-AI network model closest to the first sub-AI network model.
  • the output position of the sub-AI network model indicates the position where the sub-AI network model is used to input information when the forward model is transferred, and the output position of the sub-AI network model indicates the position where the sub-AI network model is used to output the result when the forward model is transferred.
  • the gradient information at the output position of the server sub-neural network may be the gradient information at the input position of the client sub-neural network 2.
  • the gradient information at the output position of the second sub-AI network model may be the gradient information at the input position of the most recent first sub-AI network model after the second sub-AI network model.
  • the gradient information at the output position of the client sub-neural network 1 may be the gradient information at the input position of the server sub-neural network.
  • the input information is transmitted from the input position of the first AI network model to the first AI network model.
  • the output position of the model is forwarded.
  • the gradient information is reversely transmitted from the input and output positions of the first AI network model to the input and output positions of the first AI network model.
  • the first device can update the first sub-AI network model based on the gradient information of each layer in the first sub-AI network model.
  • the second device can update the second sub-AI network model based on the gradient information of each layer in the second sub-AI network model.
  • step 301 may be performed first and then step 302, or step 302 may be performed first and then step 301.
  • the execution order of step 301 and step 302 is not limited here.
  • step 303 of step 301 above can be executed once or at least twice, and when the conditions for terminating model training are met, the first device receives the latest second sub-AI network model from the second device, and determines the target AI network model based on its own updated first sub-AI network model and the latest second sub-AI network model.
  • condition for terminating the training of the above model may be that the number of model iterations reaches a preset number, or the model accuracy reaches a preset accuracy, etc., which is not specifically limited here.
  • the first output information may be information output by the first sub-AI network model using the second output information as input to the first sub-AI network model. In one embodiment, the first output information may be information output by the first sub-AI network model using the sample data as input to the first sub-AI network model.
  • the second output information may be information output by the second sub-AI network model using the first output information as input to the second sub-AI network model. In one implementation, the second output information may be information output by the second sub-AI network model using the sample data as input to the second graph sub-AI network model.
  • the second gradient information may be the gradient information of the second sub-AI network model obtained by back-propagating the second sub-AI network model using the first gradient information as the gradient information at the output position of the second sub-AI network model.
  • the second gradient information may be the gradient information obtained by back-propagating the second sub-AI network model based on the error between the second output information of the second sub-AI network model and the corresponding sample label.
  • the first gradient information may be the gradient information of the first sub-AI network model obtained by back-propagating the first sub-AI network model using the second gradient information as the gradient information at the output position of the first sub-AI network model.
  • the first gradient information may be the gradient information obtained by back-propagating the first sub-AI network model based on the error between the first output information of the first sub-AI network model and the corresponding sample label.
  • the second output information of the server sub-neural network is the information output by the server sub-neural network after the first output information of the client sub-neural network is input into the server sub-neural network.
  • the server can perform reverse propagation on the server sub-neural network based on the error information of the second output information to obtain the second gradient information, and send the second gradient information to the client device so that the client device Back propagation is performed based on the second gradient information as the gradient at the output position of the client sub-neural network to obtain the gradient information of each layer of the client sub-neural network.
  • the error information of the second output information may be obtained by comparing the second output information with a corresponding sample label.
  • the number of client sub-neural networks is equal to 2, and there is a client sub-neural network before and after the server sub-neural network respectively.
  • the server performs forward propagation on the server sub-neural network based on the first output information of the client sub-neural network 1 to obtain the second output information
  • the second output information can be sent to the client device, so that the client device uses the second output information as the input information of the client sub-neural network 2, performs forward propagation on the client sub-neural network 2, and obtains the first output information of the client sub-neural network 2.
  • the client device can perform back-propagation on the client sub-neural network 2 based on the error between the first output information of the client sub-neural network 2 and the corresponding sample label to obtain the gradient information of each layer of the client sub-neural network 2, and then send the first gradient information at the input position of the client sub-neural network 2 to the server, so that the server uses the first gradient information at the input position of the client sub-neural network 2 as the gradient information at the output position of the server sub-neural network to perform back-propagation on the server sub-neural network to obtain the gradient information of each layer of the server sub-neural network, and finally, the server sends the second gradient information at the input position of the server sub-neural network to the client device, so that the client device uses the second gradient information at the input position of the server sub-neural network as the gradient information at the output position of the client sub-neural network 1 to perform back-propagation on the client sub-
  • the client device can update the client sub-neural network 1 based on the gradient information of each layer of the client sub-neural network 1, and update the client sub-neural network 1 based on the gradient information of each layer of the client sub-neural network 2.
  • the server can update the server sub-neural network based on the gradient information of each layer of the server sub-neural network.
  • the number of the second sub-AI network models may also be greater than 1, and its specific forward propagation and backward propagation processes can refer to the forward propagation and backward propagation processes in the application scenario shown in Figure 4b, and are not specifically limited here.
  • the method before the first device sends the first information to the second device, the method further includes:
  • the first device obtains third information, wherein the third information indicates a boundary position of the first sub-AI network model and/or a boundary position of the second sub-AI network model.
  • the adjacent first sub-AI network model and the second sub-AI network model are separated by a boundary position.
  • the third information can be used to determine which layer or layers in the first AI network model belong to the first sub-AI network model, and which layer or layers belong to the second sub-AI network model.
  • the first device acquiring the third information may be that the first device determines the third information. For example, when the first device has a first AI network model, the first device determines the third information and indicates it to the second device.
  • the first device acquiring the third information may be that the first device receives the third information from the second device. For example, when the second device has the first AI network model, the second device determines the third information and indicates it to the first device.
  • the first device acquiring the third information may be that the first device negotiates with the second device to determine the third information.
  • the first device obtains the third information by respectively receiving the third information from the third device
  • the third device may be a device having a first AI network model, such as the first device is a client device, the second device is an operator server, and the third device is an intermediary server having the first AI network model.
  • the third information includes at least one of the following:
  • the number of demarcation positions may be one or at least two. Wherein, when the number of demarcation positions is N, the sum of the number of the first sub-AI network model and the second sub-AI network model is equal to N+1, where N is an integer greater than or equal to 1.
  • the relative position of the first sub-AI network model and the demarcation position may include whether the first sub-AI network model is before or after the demarcation position. For example, as shown in FIG4b , the client sub-neural network 1 is before demarcation position 1, and the client sub-neural network 2 is after demarcation position 2.
  • the relative position of the second sub-AI network model to the demarcation position may include whether the second sub-AI network model is before or after the demarcation position.
  • the server sub-neural network is located after demarcation position 1 and before demarcation position 2.
  • the correspondence between the first sub-AI network model and the demarcation position can indicate which first sub-AI network model is divided by the demarcation position.
  • the first sub-AI network model corresponding to demarcation position 1 is client sub-neural network 1
  • the first sub-AI network model corresponding to demarcation position 2 is client sub-neural network 2.
  • the correspondence between the second sub-AI network model and the boundary position can indicate which second sub-AI network model is divided by the boundary position.
  • the first sub-AI network model and the second sub-AI network model on both sides of the boundary position can be determined.
  • the first device obtains the third information, including:
  • the first device negotiates the third information with the second device.
  • the first device sends a first request message to the second device to request that the first AI network model be segmented according to the third information to obtain a first sub-AI network model and a second sub-AI network model. Then, the second device can send a first response message to the first device to allow the first AI network model to be segmented according to the third information.
  • the first device and the second device have a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model.
  • the first device and the second device may negotiate and determine the third information.
  • the first device obtains the third information, including:
  • the first device receives third information from the second device.
  • the second device has a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model
  • the method further includes:
  • the first device receives an initial first sub-AI network model from the second device.
  • the second device determines and sends the third information to the first device. For example, when the second device has the first AI network model, the second device determines the third information and divides the first AI network model based on the third information to obtain the first sub-AI network model and the second sub-AI network model, and then the second device sends the first sub-AI network model to the first device. At this time, the second device has a complete AI network model, while the first device only has the first sub-AI network model.
  • the method further includes:
  • the first device sends third information to the second device.
  • the first device has a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model
  • the method further includes:
  • the first device determines an initial first sub-AI network model and an initial second sub-AI network model according to the first AI network model and the third information;
  • the first device sends an initial second sub-AI network model to the second device.
  • the first device determines and sends the third information to the second device. For example, when the first device has a first AI network model, the first device determines the third information, and divides the first AI network model based on the third information to obtain a first sub-AI network model and a second sub-AI network model, and then the first device sends the second sub-AI network model to the second device. At this point, the first device has a complete AI network model, while the second device only has the second sub-AI network model.
  • the first device obtains the third information, including:
  • the first device receives third information from a third device, wherein the third device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the method further comprises:
  • the first device receives an initial first sub-AI network model from the third device.
  • the third information is determined by a third device having the first AI network model, and based on the third information
  • the third device can then send the first sub-AI network model to the first device and send the second sub-AI network model to the second device.
  • the first device only has the first sub-AI network model
  • the second device only has the second sub-AI network model.
  • the method further includes:
  • the first device sends a target tag corresponding to the target sample data to the second device;
  • the second gradient information is back-propagated based on the first sub-AI network model to obtain the first gradient information.
  • the output position of the first AI network model when the output position of the first AI network model is located in the second sub-AI network model, it is necessary to match the output information of the second sub-AI network model with the corresponding sample label, obtain the error between the two, and then back-propagate the error to obtain gradient information.
  • an iterative training process of the first sub-AI network model and the second sub-AI network model includes: the first device inputs the target sample data into the first sub-AI network model to obtain the first output information output by the first sub-AI network model, the first device sends the first output information to the second device, the second device inputs the first output information into the second sub-AI network model to obtain the second output information output by the second sub-AI network model, the second device obtains the error between the second output information and the target label corresponding to the target sample data, and back-propagates the error in the second sub-AI network model to obtain the second gradient information of the second sub-AI network model, and sends the second gradient information at the input position of the second sub-AI network model to the first device, the first device back-propagates the second gradient information at the input position of the second sub-AI network model in the first sub-AI network model to obtain the first gradient information of the first sub-AI network model, wherein the second device also updates the second sub-AI network
  • the number of iterative training of the first sub-AI network model and the second sub-AI network model can be multiple times, which is not specifically limited here.
  • the first device when the output position of the first AI network model is located at the second sub-AI network model, the first device sends the sample label to the second device so that the second device performs error back propagation accordingly.
  • the output position of the first AI network model can also be located in the first sub-AI network model.
  • the first device does not need to send the sample label to the second device, but performs error back propagation based on the sample label on the first device side.
  • the first device needs to send the first gradient information at the output position of the first sub-AI network model to the second device, so that the second device performs error back propagation in the second sub-AI network model based on the first gradient information.
  • the first device needs The first gradient information at the input position of the client sub-neural network 2 is sent to the second device, and then the second device performs error back propagation on the server sub-neural network based on the first gradient information at the input position of the client sub-neural network 2 to obtain the second gradient information at the input position of the server sub-neural network, and sends the second gradient information at the input position of the server sub-neural network to the first device, and the second device performs error back propagation on the client sub-neural network 1 based on the second gradient information at the input position of the server sub-neural network to obtain the first gradient information of each layer of the client sub-neural network 1.
  • the method before the first device sends the first information to the second device, the method further includes:
  • the first device sends first indication information to the second device, wherein the first indication information is used to instruct training of the first sub-AI network model and the second sub-AI network model.
  • the first indication information may indicate starting training of the first sub-AI network model and the second sub-AI network model.
  • the first device decides whether to start training the first sub-AI network model and the second sub-AI network model.
  • the first device sending the first information to the second device includes:
  • the first device When the first device receives the second indication information, it sends the first information to the second device, wherein the second indication information is used to indicate the training of the first sub-AI network model and the second sub-AI network model.
  • the second indication information may indicate starting training of the first sub-AI network model and the second sub-AI network model.
  • the first device may receive second indication information from the second device or the third device.
  • the second device or the third device decides whether to start training the first sub-AI network model and the second sub-AI network model.
  • the method before the first device receives the updated second sub-AI network model from the second device, the method further includes:
  • the first device obtains verification information, wherein the verification information is used to indicate performance of a second AI network model, the second AI network model including an updated first sub-AI network model and an updated second sub-AI network model;
  • the first device When determining that the verification information satisfies a preset condition, the first device sends third indication information to the second device, wherein the third indication information indicates at least one of the following:
  • the second device sends the updated second sub-AI network model to the first device
  • the performance of the second AI network model meets the requirements
  • the verification information meets the preset conditions
  • the output results of the updated first sub-AI network model and the second sub-AI network model may be verified to obtain verification information, where M may be an integer greater than or equal to 2.
  • the first device may obtain the verification information by receiving the verification information from the second device or the third device.
  • the first device may obtain verification information by obtaining an output result of the second AI network model and matching the output result of the second AI network model with a sample label to obtain verification information.
  • the verification information may include information used to verify the performance of the second AI network model, such as the error between the output result of the second AI network model and the sample label, and/or the accuracy of the output result of the second AI network model, for example: the value of the loss function or other result values for evaluating the performance of the neural network.
  • the verification information meeting a preset condition may include at least one of the following:
  • the error between the output result of the second AI network model and the sample label is less than or equal to the preset error
  • the accuracy of the output result of the second AI network model is greater than or equal to the preset accuracy.
  • the training of the first sub-AI network model and the second sub-AI network model can be terminated, and the first device can send third indication information to the second device, and instruct the second device to send the updated second sub-AI network model to the first device through the third indication information, and/or indicate that the performance of the second AI network model meets the requirements, and/or indicate that the verification information meets the preset conditions, and/or indicate the termination of training the first sub-AI network model and the second sub-AI network model, so that the second device can terminate the training of the first sub-AI network model and the second sub-AI network model.
  • the second device may not send the updated second sub-AI network model to the first device even if the second sub-AI network model is updated if the third indication information is not received.
  • the second device receives the third indication information, it sends the second sub-AI network model after the most recent update, that is, the latest second sub-AI network model, to the first device.
  • the method further includes:
  • the first device receives fourth indication information, wherein the fourth indication information indicates to terminate training of the first sub-AI network model and the second sub-AI network model.
  • the first device may receive fourth indication information from the second device or the third device.
  • the second device or the third device decides whether to terminate the training of the first sub-AI network model and the second sub-AI network model.
  • the method further includes:
  • the first device sends verification information, wherein the verification information is used to indicate performance of the second AI network model, and the second AI network model includes an updated first sub-AI network model and an updated second sub-AI network model.
  • the first device may send verification information to the second device or the third device.
  • the second device or the third device can determine whether to terminate the training of the first sub-AI network model and the second sub-AI network model based on the verification information.
  • the first device compares the output result of the client sub-neural network 2 with the corresponding sample label and determines the verification information according to the comparison result.
  • the information is sent to a second device (such as an operator server) or a third device (such as a third-party server) so that the second device or the third device decides whether to terminate the training of the first sub-AI network model and the second sub-AI network model.
  • the second device or the third device may send fourth indication information to the first device.
  • the first device can obtain the updated first sub-AI network model and the updated second sub-AI network model to form the target AI network model ultimately required by the first device.
  • the training sample data of the first device used to train the target AI network model, and the target AI network model ultimately trained by the terminal are unknown to the second device, thereby protecting the information security of the first device.
  • the information transmission method provided in the embodiment of the present application may be executed by the second device. As shown in FIG5 , the information transmission method may include the following steps:
  • Step 501 A second device receives first information from a first device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model.
  • Step 502 The second device sends second information to the first device, wherein the second information includes second output information and/or second gradient information of the second sub-AI network model, and the second device has the second sub-AI network model.
  • Step 503 The second device updates the second sub-AI network model according to the gradient information of the second sub-AI network model, wherein the gradient information of the second sub-AI network model includes the second gradient information or the gradient information obtained by back-propagating the second sub-AI network model based on the first gradient information.
  • Step 504 The second device sends the updated second sub-AI network model to the first device.
  • the above-mentioned second device can be a terminal or a network side device, which is not specifically limited here.
  • the second device has an AI network model training function.
  • first information, second information, first sub-AI network model, second sub-AI network model, first output information, first gradient information, second output information, and second gradient information in the embodiments of the present application are the same as those of the first information, second information, first sub-AI network model, second sub-AI network model, first output information, first gradient information, second output information, and second gradient information in the method embodiment shown in Figure 3, and are not specifically limited here.
  • the second device updates the second sub-AI network model according to the gradient information of the second sub-AI network model.
  • the second device may forward propagate the second sub-AI network model according to the first output information from the first device to obtain the second output information, and reversely propagate the error between the second output information and the sample label in the second sub-AI network model to obtain the gradient information of each layer in the second sub-AI network model, and based on the first output information, the second device forward propagates the second sub-AI network model to obtain the second output information, and reversely propagates the error between the second output information and the sample label in the second sub-AI network model to obtain the gradient information of each layer in the second sub-AI network model.
  • the gradient information of each layer in the second sub-AI network model is used to update the second sub-AI network model.
  • the second device updates the second sub-AI network model according to the gradient information of the second sub-AI network model.
  • the second device may back-propagate the second sub-AI network model according to the first gradient information from the first device to obtain the gradient information of each layer in the second sub-AI network model, and update the second sub-AI network model based on the gradient information of each layer in the second sub-AI network model.
  • the second device may first execute step 501 and then execute step 502, or the second device may first execute step 502 and then execute step 501.
  • the execution order of step 501 and step 502 is not specifically limited here.
  • the execution times of the above step 501 and/or step 502 may be equal to or greater than 1 time, and the execution times of step 501 and step 502 are not specifically limited.
  • the above steps 501 to 503 can be performed once or at least twice, and when the condition for terminating the model training is met, the second device sends the latest second sub-AI network model to the first device.
  • the second device repeatedly executes steps 501 to 503 to iteratively update the second sub-AI network model, and during the iterative update process, the second sub-AI network model is updated at least once, and then, when the condition for terminating the model training is met, the second device sends the latest second sub-AI network model to the first device.
  • the target AI network model is the same as the target AI network model in the method embodiment shown in FIG. 3 , but the target AI network model is unknown to the second device.
  • the above steps 501 to 503 may be performed once or at least twice, and each time the second sub-AI network model is updated, the second device sends the updated second sub-AI network model to the first device.
  • the first device may determine the second AI network model based on the second sub-AI network model after each update and the updated first sub-AI network model, and determine whether the performance of the second AI network model meets the requirements. In this way, when the performance of the second AI network model meets the requirements, the second AI network model may be determined as the target AI network model.
  • the above steps 501 to 503 may be performed once or at least twice, and after updating the second sub-AI network model every X times, the second device sends the updated second sub-AI network model to the first device, where X is an integer greater than or equal to 1.
  • the first device may determine the second AI network model based on the second sub-AI network model received each time and the corresponding first sub-AI network model, and determine whether the performance of the second AI network model meets the requirements. In this way, when the performance of the second AI network model meets the requirements, the second AI network model may be determined as the target AI network model.
  • the method before the second device receives the first information from the first device, the method further includes:
  • the second device obtains third information, wherein the third information indicates a boundary position of the first sub-AI network model and/or a boundary position of the second sub-AI network model.
  • the third information includes at least one of the following:
  • At least one boundary position wherein the adjacent first sub-AI network model and the second sub-AI network model are separated by a Demarcation location segmentation;
  • the second device obtains the third information, including:
  • the second device negotiates the third information with the first device.
  • the first device and the second device have a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model.
  • the second device obtains the third information, including:
  • the second device sends third information to the first device.
  • the second device has a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model
  • the method further includes:
  • the second device determines an initial first sub-AI network model and an initial second sub-AI network model according to the first AI network model and the third information;
  • the second device sends an initial first sub-AI network model to the first device.
  • the second device obtains the third information, including:
  • the second device receives third information from the first device.
  • the first device has a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model
  • the method further includes:
  • the second device receives an initial second sub-AI network model from the first device.
  • the second device obtains the third information, including:
  • the second device receives third information from a third device, wherein the third device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the method further comprises:
  • the second device receives an initial first sub-AI network model from the third device.
  • the method further includes:
  • the second device receives a target tag corresponding to the target sample data from the second device
  • the second gradient information is back-propagated to obtain the first gradient information.
  • the method before the second device receives the first information from the first device, the method further includes:
  • the second device receives first indication information from the first device, wherein the first indication information is used to instruct training of the first sub-AI network model and the second sub-AI network model;
  • the second device sends second indication information to the first device, wherein the first indication information is used to instruct training of the first sub-AI network model and the second sub-AI network model.
  • the method before the second device sends the updated second sub-AI network model to the first device, the method further includes:
  • the second device sends verification information, wherein the verification information is used to indicate performance of a second AI network model, wherein the second AI network model includes an updated first sub-AI network model and an updated second sub-AI network model.
  • the second device sends the updated second sub-AI network model to the first device, including:
  • the second device When the second device receives the third indication information, it sends the updated second sub-AI network model to the first device, wherein the third indication information indicates at least one of the following:
  • the second device sends the updated second sub-AI network model to the first device
  • the method before the second device sends the second sub-AI network model to the first device, the method further includes:
  • the second device obtains verification information, wherein the verification information is used to indicate performance of the second AI network model, the second AI network model including the updated first sub-AI network model and the updated second sub-AI network model;
  • the second device sends the updated second sub-AI network model to the first device, including:
  • the second device When determining that the verification information meets the preset condition, the second device sends the updated second sub-AI network model to the first device.
  • the method further includes:
  • the second device When determining that the verification information satisfies a preset condition, the second device sends third indication information, wherein the third indication information indicates at least one of the following:
  • the performance of the second AI network model meets the requirements
  • the verification information meets the preset conditions
  • the method further includes:
  • the second device receives fourth indication information, wherein the fourth indication information indicates to terminate training of the first sub AI network model and the second sub-AI network model.
  • the second device and the first device interact with the intermediate data and intermediate gradient information between the first sub-AI network model and the second sub-AI network model, so that the second device and the first device can train the target AI network model required by the first device in a segmented learning manner, and the target AI network model is unknown to the second device, thereby improving the information security performance of the first device.
  • the AI network model determination method and information transmission method in the embodiments of the present application are illustrated by taking the application scenario shown in Figure 4a as an example.
  • the first device is a client device and the second device is a server.
  • the target neural network required by the client device can be determined by the following process:
  • the server sends the complete neural network to the client device
  • the server and the client device negotiate first information, which includes: a boundary position, and relative positions of the server sub-neural network and the client sub-neural network to the boundary position.
  • the complete neural network may have one or at least two demarcation positions, and thus may have one or more server sub-neural networks and client sub-neural networks.
  • a complete neural network has one demarcation position and the complete neural network is divided into one server sub-neural network and one client sub-neural network.
  • the server determines a server sub-neural network based on the first information, and/or the client device determines a client sub-neural network based on the first information.
  • the client device sends the labels corresponding to the training sample data to the server.
  • the condition for this transmission to occur is that the output of the complete neural network is on the server.
  • this step may include at least one of the following:
  • the server sends a command to the client to start training
  • the client sends a command to the server to start training
  • the third device sends an instruction to start training to the server and/or the client.
  • this step specifically includes:
  • the client device Based on the first information, the client device sends the output result of the client sub-neural network to the server, and the server sends the output result of the server sub-neural network to the client; and based on the first information, the server sends the gradient information obtained by back-propagation at the input of the server sub-neural network to the client, and the client device sends the gradient information obtained by back-propagation at the input of the client sub-neural network to the server.
  • this step may also include: the client or server sends a value of a loss function or other result value of evaluating the performance of the neural network to a third device.
  • the value of the loss function or other result value of evaluating the performance of the neural network is used to determine whether the neural network meets the conditions for terminating training.
  • this step may include at least one of the following:
  • the server sends a command to the client to end training
  • the client sends a command to the server to end training
  • the third device sends an instruction to end the training to the server and/or the client.
  • the server sends the trained server network sub-neural network to the client.
  • the AI network model determination method provided in the embodiment of the present application can be executed by an AI network model determination device.
  • the AI network model determination device executing the AI network model determination method is taken as an example to illustrate the AI network model determination device provided in the embodiment of the present application.
  • a first sending module 601 is used to send first information to a second device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model;
  • a first receiving module 602 is configured to receive second information from the second device, wherein the second information includes second output information and/or second gradient information of the second sub-AI network model, and the second device has the second sub-AI network model;
  • a first updating module 603 is used to update the first sub-AI network model according to the gradient information of the first sub-AI network model, wherein the gradient information of the first sub-AI network model includes the first gradient information or the gradient information obtained by back-propagating the first sub-AI network model based on the second gradient information;
  • a second receiving module 604 is used to receive an updated second sub-AI network model from the second device
  • the first determination module 605 is used to determine the target AI network model according to the updated first sub-AI network model and the updated second sub-AI network model.
  • the AI network model determination device 600 further includes:
  • the first acquisition module is used to acquire third information, wherein the third information indicates a boundary position of the first sub-AI network model and/or a boundary position of the second sub-AI network model.
  • the third information includes at least one of the following:
  • the first acquisition module is specifically configured to:
  • the third information is negotiated with the second device.
  • the first device and the second device have a first AI network model, and the first AI network model
  • the model includes the first sub-AI network model and the second sub-AI network model.
  • the first acquisition module is specifically configured to:
  • the second device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the AI network model determination device 600 further includes:
  • the third receiving module is used to receive the initial first sub-AI network model from the second device.
  • the AI network model determination device 600 further includes:
  • the fourth sending module is used to send third information to the second device.
  • the first device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the AI network model determination device 600 further includes:
  • a second determination module configured to determine an initial first sub-AI network model and an initial second sub-AI network model according to the first AI network model and the third information
  • the fifth sending module is used to send the initial second sub-AI network model to the second device.
  • the first acquisition module is specifically configured to:
  • the third device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the AI network model determination device 600 further includes:
  • the fourth receiving module is used to receive the initial first sub-AI network model from the third device.
  • the AI network model determination device 600 further includes:
  • a sixth sending module configured to send a target tag corresponding to the target sample data to the second device
  • the second gradient information is back-propagated based on the first sub-AI network model to obtain the first gradient information.
  • the AI network model determination device 600 further includes:
  • the seventh sending module is used to send first indication information to the second device, wherein the first indication information is used to indicate the training of the first sub-AI network model and the second sub-AI network model.
  • the first sending module 601 is specifically configured to:
  • the AI network model determination device 600 When the AI network model determination device 600 receives the second indication information, the first signal is sent to the second device. Information, wherein the second indication information is used to instruct training of the first sub-AI network model and the second sub-AI network model.
  • the AI network model determination device 600 further includes:
  • a second acquisition module configured to acquire verification information, wherein the verification information is used to indicate performance of a second AI network model, wherein the second AI network model includes an updated first sub-AI network model and an updated second sub-AI network model;
  • An eighth sending module is used to send third indication information to the second device when the AI network model determination device 600 determines that the verification information meets the preset condition, wherein the third indication information indicates at least one of the following:
  • the second device sends the updated second sub-AI network model to the first device
  • the performance of the second AI network model meets the requirements
  • the verification information meets the preset conditions
  • the AI network model determination device 600 further includes:
  • the fifth receiving module is used to receive fourth indication information, wherein the fourth indication information indicates to terminate the training of the first sub-AI network model and the second sub-AI network model.
  • the AI network model determination device 600 further includes:
  • a ninth sending module is used to send verification information, wherein the verification information is used to indicate the performance of the second AI network model, and the second AI network model includes an updated first sub-AI network model and an updated second sub-AI network model.
  • the AI network model determination device 600 of the embodiment of the present application can implement each process implemented by the first device in the method embodiment shown in Figure 5, and can achieve the same beneficial effects. To avoid repetition, it will not be repeated here.
  • the information transmission method provided in the embodiment of the present application can be executed by an information transmission device.
  • the information transmission device provided in the embodiment of the present application is described by taking the information transmission method executed by the information transmission device as an example.
  • An information transmission device provided in an embodiment of the present application may be a device in a second device. As shown in FIG. 7 , the information transmission device 700 may include the following modules:
  • a third receiving module 701 is configured to receive first information from a first device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model;
  • a second sending module 702 is used to send second information to the first device, wherein the second information includes second output information and/or second gradient information of the second sub-AI network model, and the second device has the second sub-AI network model;
  • a second updating module 703 is used to update the second sub-AI network model according to the gradient information of the second sub-AI network model, wherein the gradient information of the second sub-AI network model includes the second gradient information or the gradient information obtained by back-propagating the second sub-AI network model based on the first gradient information;
  • the third sending module 704 is used to send the updated second sub-AI network model to the first device.
  • the information transmission device 700 further includes:
  • the third acquisition module is used to acquire third information, wherein the third information indicates the boundary position of the first sub-AI network model and/or the boundary position of the second sub-AI network model.
  • the third information includes at least one of the following:
  • the third acquisition module is specifically used to:
  • the third information is negotiated with the first device.
  • the first device and the second device have a first AI network model
  • the first AI network model includes the first sub-AI network model and the second sub-AI network model.
  • the third acquisition module is specifically used to:
  • the second device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the information transmission device 700 further includes:
  • a third determination module configured to determine an initial first sub-AI network model and an initial second sub-AI network model according to the first AI network model and the third information
  • the tenth sending module is used to send the initial first sub-AI network model to the first device.
  • the third acquisition module is specifically used to:
  • the first device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the information transmission device 700 further includes:
  • the sixth receiving module is used to receive the initial second sub-AI network model from the first device.
  • the third acquisition module is specifically used to:
  • the third device has a first AI network model, and the first AI network model includes the first sub-AI network model and the second sub-AI network model;
  • the information transmission device 700 further includes:
  • the seventh receiving module is used to receive the initial first sub-AI network model from the third device.
  • the information transmission device 700 further includes:
  • An eighth receiving module configured to receive a target tag corresponding to the target sample data from the second device
  • the second gradient information is back-propagated based on the first sub-AI network model to obtain the first gradient information.
  • the information transmission device 700 further includes:
  • a ninth receiving module configured to receive first indication information from the first device, wherein the first indication information is used to instruct training of the first sub-AI network model and the second sub-AI network model;
  • An eleventh sending module is used to send second indication information to the first device, wherein the first indication information is used to instruct training of the first sub-AI network model and the second sub-AI network model.
  • the information transmission device 700 further includes:
  • a twelfth sending module is used to send verification information, wherein the verification information is used to indicate the performance of the second AI network model, and the second AI network model includes an updated first sub-AI network model and an updated second sub-AI network model.
  • the third sending module 704 is specifically configured to:
  • the updated second sub-AI network model is sent to the first device, wherein the third indication information indicates at least one of the following:
  • the second device sends the updated second sub-AI network model to the first device
  • the information transmission device 700 further includes:
  • a fourth acquisition module configured to acquire verification information, wherein the verification information is used to indicate performance of the second AI network model, the second AI network model comprising an updated first sub-AI network model and an updated second sub-AI network model;
  • the third sending module 704 is specifically used for:
  • the updated second sub-AI network model is sent to the first device.
  • the information transmission device 700 further includes:
  • the thirteenth sending module is configured to send third indication information when the information transmission device 700 determines that the verification information satisfies a preset condition, wherein the third indication information indicates at least one of the following:
  • the performance of the second AI network model meets the requirements
  • the verification information meets the preset conditions
  • the information transmission device 700 further includes:
  • the tenth receiving module is used to receive fourth indication information, wherein the fourth indication information indicates to terminate the training of the first sub-AI network model and the second sub-AI network model.
  • the information transmission device 700 provided in the embodiment of the present application can implement each process implemented by the second device in the method embodiment shown in Figure 5, and can achieve the same beneficial effects. To avoid repetition, it will not be described here.
  • the embodiment of the present application further provides a communication device 800, including a processor 801 and a memory 802, wherein the memory 802 stores a program or instruction that can be run on the processor 801.
  • the communication device 800 is a first device
  • the program or instruction is executed by the processor 801 to implement the various steps of the method embodiment shown in FIG3 , and the same technical effect can be achieved.
  • the communication device 800 is a second device
  • the program or instruction is executed by the processor 801 to implement the various steps of the method embodiment shown in FIG5 , and the same technical effect can be achieved. To avoid repetition, it will not be repeated here.
  • An embodiment of the present application also provides a communication device, including a processor and a communication interface.
  • the communication interface is used to send first information to the second device, and receive second information from the second device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model, and the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model;
  • the processor is used to update the first sub-AI network model according to the gradient information of the first sub-AI network model, wherein the gradient information of the first sub-AI network model includes the first gradient information or the gradient information obtained by back-propagating the first sub-AI network model based on the second gradient information;
  • the communication interface is also used to receive the updated second sub-AI network model from the second device;
  • the processor is also used to determine the target AI network model according to the updated first sub-AI network model and the updated second sub-AI network model.
  • the communication device embodiment can implement the various processes performed by the AI network model determination device 600 shown in Figure 6, and can achieve the same technical effect, which will not be repeated here.
  • the communication interface is used to receive first information from the first device, and send second information to the first device, wherein the first information includes first output information and/or first gradient information of a first sub-AI network model, and the first device has the first sub-AI network model, and the second information includes second output information and/or second gradient information of a second sub-AI network model, and the second device has the second sub-AI network model;
  • the processor is used to update the second sub-AI network model according to the gradient information of the second sub-AI network model, wherein the gradient information of the second sub-AI network model includes the second gradient information or the gradient information obtained by back-propagating the second sub-AI network model based on the first gradient information;
  • the communication interface is also used to send the updated second sub-AI network model to the first device.
  • the communication device embodiment can implement each process performed by the information transmission device 700 shown in Figure 7, and can achieve the same technical effect, which will not be repeated here.
  • An embodiment of the present application also provides a readable storage medium, on which a program or instruction is stored.
  • a program or instruction is stored.
  • the various processes of the method embodiment shown in Figure 3 or Figure 5 are implemented, and the same technical effect can be achieved. To avoid repetition, it will not be repeated here.
  • the processor is the processor in the terminal described in the above embodiment.
  • the readable storage medium includes a computer readable storage medium, such as a computer read-only memory ROM, a random access memory RAM, a magnetic disk or an optical disk.
  • An embodiment of the present application further provides a chip, which includes a processor and a communication interface, wherein the communication interface is coupled to the processor, and the processor is used to run programs or instructions to implement the various processes of the method embodiment shown in Figure 3 or Figure 5, and can achieve the same technical effect. To avoid repetition, it will not be repeated here.
  • the chip mentioned in the embodiments of the present application can also be called a system-level chip, a system chip, a chip system or a system-on-chip chip, etc.
  • the embodiments of the present application further provide a computer program/program product, which is stored in a storage medium, and is executed by at least one processor to implement the various processes of the method embodiments shown in Figures 3 or 5, and can achieve the same technical effect. To avoid repetition, it will not be repeated here.
  • An embodiment of the present application also provides a communication system, including: a first device and a second device, wherein the first device can be used to execute the steps of the AI network model determination method shown in Figure 3, and the second device can be used to execute the steps of the information transmission method shown in Figure 5.
  • the technical solution of the present application can be embodied in the form of a computer software product, which is stored in a storage medium (such as ROM/RAM, a magnetic disk, or an optical disk), and includes a number of instructions for enabling a terminal (which can be a mobile phone, a computer, a server, an air conditioner, or a network device, etc.) to execute the methods described in each embodiment of the present application.
  • a storage medium such as ROM/RAM, a magnetic disk, or an optical disk
  • a terminal which can be a mobile phone, a computer, a server, an air conditioner, or a network device, etc.

Abstract

本申请公开了一种AI网络模型确定方法、信息传输方法、装置和通信设备,属于通信技术领域,AI网络模型确定方法包括:第一设备向第二设备发送第一信息,第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,第一设备具有第一子AI网络模型;第一设备接收来自第二设备的第二信息,第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,第二设备具有第二子AI网络模型;第一设备根据第一子AI网络模型的梯度信息更新第一子AI网络模型;第一设备接收来自第二设备的更新后的第二子AI网络模型;第一设备根据更新后的第一子AI网络模型和更新后的第二子AI网络模型,确定目标AI网络模型。

Description

AI网络模型确定方法、信息传输方法、装置和通信设备
相关申请的交叉引用
本申请主张在2022年12月21日在中国提交的中国专利申请No.202211652621.9的优先权,其全部内容通过引用包含于此。
技术领域
本申请属于通信技术领域,具体涉及一种AI网络模型确定方法、信息传输方法、装置和通信设备。
背景技术
在相关技术中,对在通信网络中的设备部署人工智能(Artificial Intelligence,AI)网络模型进行了研究。
对于AI网络模型,由于终端的能力有限,通常在网络侧设备进行AI网络模型的训练,训练过程中,终端需要将采集的样本数据发送给网络侧设备,以使网络侧设备根据该样本数据训练得到AI网络模型,然后将训练得到的AI网络模型发送给终端,以使终端得到AI网络模型。
由上可知,相关技术中训练AI网络模型的过程中,终端的训练样本数据以及得到的AI网络模型对网络侧设备而言都是可知的,使终端存在隐私信息泄露的风险。
发明内容
本申请实施例提供一种AI网络模型确定方法、信息传输方法、装置和通信设备,能够通过第一设备和第二设备之间的信息交互,使第一设备和第二设备对第一设备需要的AI网络模型进行分割学习,该过程中,第一设备不需要将训练样本数据发送给第二设备,且第二设备也不知道终端最终得到的AI网络模型,能够提升第一设备的私密性能。
第一方面,提供了一种AI网络模型确定方法,该方法包括:
第一设备向第二设备发送第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
所述第一设备接收来自所述第二设备的第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
所述第一设备根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;
所述第一设备接收来自所述第二设备的更新后的第二子AI网络模型;
所述第一设备根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
第二方面,提供了一种AI网络模型确定装置,该装置包括:
第一发送模块,用于向第二设备发送第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
第一接收模块,用于接收来自所述第二设备的第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
第一更新模块,用于根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;
第二接收模块,用于接收来自所述第二设备的更新后的第二子AI网络模型;
第一确定模块,用于根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
第三方面,提供了一种信息传输方法,包括:
第二设备接收来自第一设备的第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
所述第二设备向所述第一设备发送第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
所述第二设备根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;
所述第二设备向所述第一设备发送更新后的第二子AI网络模型。
第四方面,提供了一种信息传输装置,该装置包括:
第三接收模块,用于接收来自第一设备的第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
第二发送模块,用于向所述第一设备发送第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
第二更新模块,用于根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;
第三发送模块,用于向所述第一设备发送更新后的第二子AI网络模型。
第五方面,提供了一种通信设备,该通信设备包括处理器和存储器,所述存储器存储 可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或第三方面所述的方法的步骤。
第六方面,提供了一种通信设备,包括处理器及通信接口,其中,在所述通信设备为第一设备的情况下,所述通信接口用于向第二设备发送第一信息,以及接收来自所述第二设备的第二信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;所述处理器用于根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;所述通信接口还用于接收来自所述第二设备的更新后的第二子AI网络模型;所述处理器还用于根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型;
在所述通信设备为第二设备的情况下,所述通信接口用于接收来自第一设备的第一信息,以及向所述第一设备发送第二信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;所述处理器用于根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;所述通信接口还用于向所述第一设备发送更新后的第二子AI网络模型。
第七方面,提供了一种通信***,包括:第一设备和第二设备,所述第一设备可用于执行如第一方面所述的AI网络模型确定方法的步骤,所述第二设备可用于执行如第三方面所述的信息传输方法的步骤。
第八方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤,或者实现如第三方面所述的方法的步骤。
第九方面,提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法,或实现如第三方面所述的方法。
第十方面,提供了一种计算机程序/程序产品,所述计算机程序/程序产品被存储在存储介质中,所述计算机程序/程序产品被至少一个处理器执行以实现如第一方面所述的AI网络模型确定方法的步骤,或者所述计算机程序/程序产品被至少一个处理器执行以实现如第三方面所述的信息传输方法的步骤。
在本申请实施例中,通过将完整的AI网络模型分割为第一子AI网络模型和第二子AI网络模型,并在第一设备侧对第一子AI网络模型进行正向传播和反向传播,在第二设 备侧对第二子AI网络模型进行正向传播和反向传播,然后在第一设备和第二设备之间交互正向传播和/或反向传播的结果,能够实现在第一设备侧更新第一子AI网络模型,在第二设侧更新第二子AI网络模型,最后,第一设备可以获取更新后的第一子AI网络模型和更新后的第二子AI网络模型,组成第一设备最终需要的目标AI网络模型。该过程中,第一设备的用于训练目标AI网络模型的训练样本数据,以及终端最终训练的目标AI网络模型对于第二设备都是未知的,从而能够保护第一设备的信息安全。
附图说明
图1是本申请实施例能够应用的一种无线通信***的结构示意图;
图2是基于网络模型进行预测CSI和未预测CSI时的性能增益示意图;
图3是本申请实施例提供的一种AI网络模型的确定方法的流程图;
图4a是第一子AI网络模型和第二子AI网络模型与分界位置的关系图之一;
图4b是第一子AI网络模型和第二子AI网络模型与分界位置的关系图之二;
图5是本申请实施例提供的一种信息传输方法的流程图;
图6是本申请实施例提供的一种AI网络模型的确定装置的结构示意图;
图7是本申请实施例提供的一种信息传输装置的结构示意图;
图8是本申请实施例提供的一种通信设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
值得指出的是,本申请实施例所描述的技术不限于长期演进型(Long Term Evolution,LTE)/LTE的演进(LTE-Advanced,LTE-A)***,还可用于其他无线通信***,诸如码分多址(Code Division Multiple Access,CDMA)、时分多址(Time Division Multiple Access,TDMA)、频分多址(Frequency Division Multiple Access,FDMA)、正交频分多址(Orthogonal Frequency Division Multiple Access,OFDMA)、单载波频分多址(Single-carrier Frequency Division Multiple Access,SC-FDMA)和其他***。本申请实施例中的术语“***”和“网络”常被可互换地使用,所描述的技术既可用于以上提及的***和无线电技术,也可用于 其他***和无线电技术。以下描述出于示例目的描述了新空口(New Radio,NR)***,并且在以下大部分描述中使用NR术语,但是这些技术也可应用于NR***应用以外的应用,如第6代(6th Generation,6G)通信***。
图1示出本申请实施例可应用的一种无线通信***的框图。无线通信***包括终端11和网络侧设备12。其中,终端11可以是手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)或称为笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)、掌上电脑、上网本、超级移动个人计算机(ultra-mobile personal computer,UMPC)、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴式设备(Wearable Device)、车载设备(Vehicle User Equipment,VUE)、行人终端(Pedestrian User Equipment,PUE)、智能家居(具有无线通信功能的家居设备,如冰箱、电视、洗衣机或者家具等)、游戏机、个人计算机(personal computer,PC)、柜员机或者自助机等终端侧设备,可穿戴式设备包括:智能手表、智能手环、智能耳机、智能眼镜、智能首饰(智能手镯、智能手链、智能戒指、智能项链、智能脚镯、智能脚链等)、智能腕带、智能服装等。需要说明的是,在本申请实施例并不限定终端11的具体类型。网络侧设备12可以包括接入网设备或核心网设备,其中,接入网设备也可以称为无线接入网设备、无线接入网(Radio Access Network,RAN)、无线接入网功能或无线接入网单元。接入网设备可以包括基站、无线局域网(Wireless Local Area Network,WLAN)接入点或WiFi节点等,基站可被称为节点B、演进节点B(eNB)、接入点、基收发机站(Base Transceiver Station,BTS)、无线电基站、无线电收发机、基本服务集(Basic Service Set,BSS)、扩展服务集(Extended Service Set,ESS)、家用B节点、家用演进型B节点、发送接收点(Transmission Reception Point,TRP)或所述领域中其他某个合适的术语,只要达到相同的技术效果,所述基站不限于特定技术词汇,需要说明的是,在本申请实施例中仅以NR***中的基站为例进行介绍,并不限定基站的具体类型。
人工智能目前在各个领域获得了广泛的应用。AI模型有多种实现方式,例如神经网络、决策树、支持向量机、贝叶斯分类器等。本申请以神经网络为例进行说明,但是并不限定AI模型的具体类型。
神经网络的参数通过优化算法进行优化。优化算法就是一种能够帮我们最小化或者最大化目标函数(有时候也叫损失函数)的一类算法。而目标函数往往是模型参数和数据的数学组合。例如给定数据X和其对应的标签Y,我们构建一个神经网络模型f(.),有了模型后,根据输入x就可以得到预测输出f(x),并且可以计算出预测值和真实值之间的差距(f(x)-Y),这个就是损失函数。我们的目的是找到合适的权值和偏置,使上述的损失函数的值达到最小,损失值越小,则说明我们的模型越接近于真实情况。
目前常见的优化算法,基本都是基于误差反向传播(Back Propagation,BP)算法。BP算法的基本思想是,学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时,输入样本从输入层传入,经各隐层逐层处理后,传向输出层。若输出层的实际 输出与期望的输出不符,则转入误差的反向传播阶段。误差反传是将输出误差以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程,是周而复始地进行的。权值不断调整的过程,也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止。
一般而言,根据解决类型不同,选取的AI算法和采用的模型也有所差别。根据目前发表文章及公开研究成果,借助AI提升5G网络性能的主要方法是通过基于神经网络的算法和模型增强或者替代目前已有的算法或处理模块。在特定场景下,基于神经网络的算法和模型可以取得比基于确定性算法更好的性能。比较常用的神经网络包括深度神经网络、卷积神经网络和循环神经网络等。借助已有AI工具,可以实现神经网络的搭建、训练与验证工作。
通过AI或机器学习(Machine Learning,ML)方法替代现有***中的模块能够有效提升***性能。例如:可以基于AI网络模型进行CSI预测,即将历史CSI输入给AI模型,AI网络模型分析信道的时域变化特性,并输出未来的CSI。如图2所示,在采用AI网络模型对未来不同时刻的CSI进行预测时,其取得的性能增益(如标准化均方误差(Normalized Mean Squared Error,NMSE))相较于不预测CSI的方案而言,有很大的提升,且预测的未来时刻不同,可以达到的预测精度也会不一样。
AI网络模型应用于无线通信***中时,需要在终端上运行相应的神经网络。但是,随着终端的移动,无线环境的变化、执行业务的变化等,终端侧使用的模型也需要进行变化、演进、更新。
在相关技术中,有AI网络模型重训练或更新需求的第一设备,需要将采集的训练样本数据及其标签发送给负责重训练或更新的第二设备,在第二设备完成AI网络模型的重训练或更新后,再将训练好的AI网络模型发送给第一设备,这样,第一设备的训练样本数据以及最终使用的AI网络模型,对第二设备而言,都是可知的,降低了第一设备的信息安全性能。
而本申请实施例中,通过在第一设备和第二设备之间交互前向传播信息和/或反向传播信息,使得有AI网络模型重训练或更新需求的第一设备,可以训练AI网络模型的一部分,AI网络模型的另一部分由第二设备进行训练,最终,第一设备获得的目标AI网络模型对于第二设备而言是未知的,从而提升了第一设备的信息安全性能。
下面结合附图,通过一些实施例及其应用场景对本申请实施例提供的AI网络模型确定方法、信息传输方法、AI网络模型确定装置、信息传输装置及通信设备等进行详细地说明。
请参阅图3,本申请实施例提供的一种AI网络模型确定方法,其执行主体是第一设备,如图2所示,该第一设备执行的AI网络模型确定方法可以包括以下步骤:
步骤301、第一设备向第二设备发送第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型。
一种实施方式中,第一设备可以是具有获取或更新AI网络模型的需求的客户端设备,如终端或网络侧设备。第二设备可以是服务端设备,如另一终端或另一网络侧设备,在此不作具体限定。
步骤302、所述第一设备接收来自所述第二设备的第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型。
步骤303、所述第一设备根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息。
步骤304、所述第一设备接收来自所述第二设备的更新后的第二子AI网络模型;
步骤305、所述第一设备根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
一种实施方式中,第一子AI网络模型可以包括完整的AI网络模型的部分层,第二子AI网络模型可以包括该完整的AI网络模型的另一部分层。
一种实施方式中,第一设备具有的第一子AI网络模型的数量可以是一个或至少两个,第二设备具有的第二子AI网络模型的数量也可以是一个或至少两个,且第一子AI网络模型和第二子AI网络模型串联后可以得到完整的AI网络模型。
一种实施方式中,相邻的第一子AI网络模型和第二子AI网络模型之间通过分界位置进行分割。
例如:如图4a所示,将完整的神经网络分割为客户端子神经网络和服务器子神经网络,其中,客户端子神经网络布局在客户端,服务器子神经网络布局在服务器端。且在正向传播过程中,客户端子神经网络的输出为服务器子神经网络的输入;在反向传播过程中,服务器子神经网络的输入位置处的梯度信息作为客户端子神经网络的输出位置处的梯度信息。
再例如:如图4b所示,将完整的神经网络分割为客户端子神经网络1、服务器子神经网络和客户端子神经网络2,其中,客户端子神经网络布局在客户端,服务器子神经网络1和客户端子神经网络2布局在服务器端。且在正向传播过程中,客户端子神经网络1的输出为服务器子神经网络的输入,服务器子神经网络的输出为客户端子神经网络2的输入;在反向传播过程中,客户端子神经网络2的输入位置处的梯度信息作为服务器子神经网络的输出位置处的梯度信息,服务器子神经网络的输入位置处的梯度信息作为客户端子神经网络1的输出位置处的梯度信息。
需要说明的是,本申请实施例中,为了便于说明,通常以第一设备具有1个第一子AI网络模型,且第二设备具有1个第二子AI网络模型为例进行举例说明,在此不构成具 体限定。
一种实施方式中,用于训练第一子AI网络模型和第二子AI网络模型的训练样本数据可以是第一设备采集的数据,或者是离线数据,本申请实施例中,主要以训练样本数据是第一设备采集的数据为例进行举例说明,在此不构成具体限定。
一种实施方式中,第一子AI网络模型包括第一AI网络模型的输入层,此时,在正向传播过程中,第一设备可以将采集的训练样本数据输入至第一子AI网络模型,得到第一子AI网络模型输出的第一输出信息。这样,第一设备无需将采集的训练样本数据发送给第二设备,能够提升第一设备的信息安全性能。其中,第一AI网络模型可以是包括第一子AI网络模型和第二子AI网络模型的完整的AI网络模型,例如:第一AI网络模型是目标AI网络模型对应的更新前的AI网络模型。
一种实施方式中,第一子AI网络模型包括第一AI网络模型的输出层,此时,第一设备可以将采集的训练样本数据对应的标签,与第一AI网络模型的输出结果进行比较,得到第一子AI网络模型的输出位置处的梯度信息。这样,第一设备无需将采集的训练样本数据对应的标签发送给第二设备,能够提升第一设备的信息安全性能。
一种实施方式中,第二子AI网络模型包括第一AI网络模型的输入层,此时,第一设备可以将采集的训练样本数据发送给第二设备,以使第二设备将该训练样本数据输入至第二子AI网络模型,得到第二输出信息。
一种实施方式中,第二子AI网络模型包括第一AI网络模型的输出层,此时,第一设备可以将训练样本数据对应的标签发送给第二设备,以使第二设备将该训练样本数据的标签与第一AI网络模型的输出结果进行比较,得到第二子AI网络模型的输出位置处的梯度信息。
一种实施方式中,在反向传播过程中,第一设备可以基于第一子AI网络模型的输出位置处的梯度信息对第一子AI网络模型进行反向传播,得到第一子AI网络模型的输入位置处的第一梯度信息。
可选地,第一子AI网络模型的输出位置处的梯度信息可以是该第一子AI网络模型之后的最近一个第二子AI网络模型的输入位置处的梯度信息。其中,子AI网络模型的输出位置表示进行正向模型传递时该子AI网络模型用于输入信息的位置,子AI网络模型的输出位置表示进行正向模型传递时该子AI网络模型用于输出结果的位置。
例如:如图4b所示,服务器子神经网络的输出位置处的梯度信息可以是客户端子神经网络2的输入位置处的梯度信息。
可选地,第二子AI网络模型的输出位置处的梯度信息可以是该第二子AI网络模型之后的最近一个第一子AI网络模型的输入位置处的梯度信息。
例如:如图4b所示,客户端子神经网络1的输出位置处的梯度信息可以是服务器子神经网络的输入位置处的梯度信息。
也就是说,正向模型传输时,输入信息由第一AI网络模型的输入位置向第一AI网络 模型的输出位置进行正向传递。反向模型传输时,梯度信息由第一AI网络模型的出入位置向第一AI网络模型的入出位置进行反向传递。
第一设备可以基于第一子AI网络模型中每一层的梯度信息来更新第一子AI网络模型。与之相应的,第二设备可以基于第二子AI网络模型中每一层的梯度信息来更新第二子AI网络模型。
需要说明的是,上述可以先执行步骤301再执行步骤302,或者先执行步骤302再执行步骤301,在此并不限定步骤301和步骤302的执行顺序。
此外,在更新或训练目标AI网络模型的过程中,上述步骤301之步骤303可以执行1次或者至少两次,且在满足模型终止训练的条件时,第一设备接收来自所述第二设备的最新的第二子AI网络模型,并根据自身更新后的第一子AI网络模型和该最新的第二子AI网络模型,确定目标AI网络模型。
可选地,上述模型终止训练的条件,可以是模型迭代次数达到预设次数,或者是模型精度达到预设精度等,在此不作具体限定。
一种实施方式中,第一输出信息可以是将第二输出信息作为第一子AI网络模型的输入,并由第一子AI网络模型输出的信息。一种实施方式中,第一输出信息可以是将样本数据作为第一子AI网络模型的输入,并由第一子AI网络模型输出的信息。
一种实施方式中,第二输出信息可以是将第一输出信息作为第二子AI网络模型的输入,并由第二子AI网络模型输出的信息。一种实施方式中,第二输出信息可以是将样本数据作为第二图子AI网络模型的输入,并由第二子AI网络模型输出的信息。
一种实施方式中,第二梯度信息可以是将第一梯度信息作为所述第二子AI网络模型的输出位置处的梯度信息,并对第二子AI网络模型进行反向传播后得到的第二子AI网络模型的梯度信息。一种实施方式中,第二梯度信息可以是基于第二子AI网络模型的第二输出信息与对应的样本标签之间的误差,对第二子AI网络模型进行反向传播得到的梯度信息。
一种实施方式中,第一梯度信息可以是将第二梯度信息作为所述第一子AI网络模型的输出位置处的梯度信息,并对第一子AI网络模型进行反向传播后得到的第一子AI网络模型的梯度信息。一种实施方式中,第一梯度信息可以是基于第一子AI网络模型的第一输出信息与对应的样本标签之间的误差,对第一子AI网络模型进行反向传播得到的梯度信息。
以如图4a所示应用场景为例:
一种实施方式中,服务器子神经网络的第二输出信息是将客户端子神经网络的第一输出信息输入至服务器子神经网络后,由所述服务器子神经网络输出的信息。
在一种可选的实施方式中,服务器在基于第一输出信息对服务器子神经网络进行正向传播,以得到第二输出信息后,可以基于第二输出信息的误差信息对服务器子神经网络进行反向传播,得到第二梯度信息,并将第二梯度信息发送给客户端设备,以使客户端设备 基于第二梯度信息作为客户端子神经网络的输出位置处的梯度进行反向传播,得到客户端子神经网络的每一层的梯度信息。
可选地,上述第二输出信息的误差信息可以通过将第二输出信息与对应的样本标签进行比较得到。
以如图4b所示应用场景为例:
在正向传播过程中:客户端子神经网络的数量等于2,服务器子神经网络的前后分别有一个客户端子神经网络,此时,服务器在基于客户端子神经网络1的第一输出信息对服务器子神经网络进行正向传播,以得到第二输出信息后,可以将第二输出信息发送给客户端设备,以使客户端设备将该第二输出信息作为客户端子神经网络2的输入信息,对该客户端子神经网络2的进行正向传播,得到客户端子神经网络2的第一输出信息。
在反向传播过程中:客户端设备可以基于客户端子神经网络2的第一输出信息与对应的样本标签的误差对客户端子神经网络2进行反向传播,得到客户端子神经网络2的每一层的梯度信息,然后,将客户端子神经网络2的输入位置处的第一梯度信息发送给服务器,以使服务器将客户端子神经网络2的输入位置处的第一梯度信息作为服务器子神经网络的输出位置处的梯度信息对服务器子神经网络进行反向传播,得到服务器子神经网络的每一层的梯度信息,最后,服务器将该服务器子神经网络的输入位置处的第二梯度信息发送给客户端设备,以使客户端设备将该服务器子神经网络的输入位置处的第二梯度信息作为客户端子神经网络1的输出位置处的梯度信息对客户端子神经网络1进行反向传播,得到客户端子神经网络1的每一层的梯度信息。
这样,客户端设备可以基于客户端子神经网络1的每一层的梯度信息对客户端子神经网络1进行更新,以及基于客户端子神经网络2的每一层的梯度信息对客户端子神经网络1进行更新。服务器可以即基于服务器子神经网络的每一层的梯度信息对服务器子神经网络进行更新。
需要说明的是,第二子AI网络模型的数量也可能大于1,其具体的正向传播和反向传播过程可以参考如图4b所示应用场景中的正向传播和反向传播过程,在此不作具体限定。
作为一种可选的实施方式,在所述第一设备向第二设备发送第一信息之前,所述方法还包括:
所述第一设备获取第三信息,其中,所述第三信息指示所述第一子AI网络模型的分界位置和/或所述第二子AI网络模型的分界位置。
一种实施方式中,相邻的第一子AI网络模型和第二子AI网络模型通过一个分界位置分割。通过第三信息可以确定第一AI网络模型中的哪个或哪些层属于第一子AI网络模型,以及哪个或哪些层属于第二子AI网络模型。
一种实施方式中,第一设备获取第三信息可以是,第一设备确定第三信息。例如:在第一设备具有第一AI网络模型的情况下,由第一设备确定第三信息,并指示给第二设备。
一种实施方式中,第一设备获取第三信息可以是,第一设备接收来自第二设备的第三信息。例如:在第二设备具有第一AI网络模型的情况下,由第二设备确定第三信息,并指示给第一设备。
一种实施方式中,第一设备获取第三信息可以是,第一设备与第二设备协商确定第三信息。
一种实施方式中,第一设备获取第三信息可以是,第一设备和第二设备分别接收来自第三设备的第三信息,第三设备可以是具有第一AI网络模型的设备,如第一设备是客户端设备,第二设备是运营商服务器,第三设备是具有第一AI网络模型的中间商服务器。
可选地,所述第三信息包括以下至少一项:
至少一个分界位置,其中,相邻的第一子AI网络模型和第二子AI网络模型通过一个分界位置分割;
所述第一子AI网络模型与分界位置的相对位置;
所述第二子AI网络模型与分界位置的相对位置;
所述第一子AI网络模型与分界位置之间的对应关系;
所述第二子AI网络模型与分界位置之间的对应关系。
选项一,分界位置的数量可以是一个或至少两个。其中,在分界位置的数量是N的情况下,第一子AI网络模型和第二子AI网络模型的数量之和等于N+1,N为大于或等于1的整数。
选项二,所述第一子AI网络模型与分界位置的相对位置,可以包括所述第一子AI网络模型在分界位置之前还是在分界位置之后。例如:如图4b所示,客户端子神经网络1位于分界位置1之前,客户端子神经网络2位于分界位置2之后。
选项三,所述第二子AI网络模型与分界位置的相对位置,可以包括所述第二子AI网络模型在分界位置之前还是在分界位置之后。例如:如图4b所示,服务器子神经网络位于分界位置1之后,且位于分界位置2之前。
选项四,所述第一子AI网络模型与分界位置之间的对应关系,可以指示分界位置所分割的是哪一个第一子AI网络模型。例如:如图4b所示,分界位置1对应的第一子AI网络模型为客户端子神经网络1,分界位置2对应的第一子AI网络模型为客户端子神经网络2。
选项五,所述第二子AI网络模型与分界位置之间的对应关系,可以指示分界位置所分割的是哪一个第二子AI网络模型。
一种实施方式中,通过将相邻的第一子AI网络模型和第二子AI网络模型,与用于分割该第一子AI网络模型和第二子AI网络模型的分界位置进行关联,这样,在确定分界位置之后,可以确定该分界位置两侧的第一子AI网络模型和第二子AI网络模型。
作为一种可选的实施方式,所述第一设备获取第三信息,包括:
所述第一设备与所述第二设备协商所述第三信息。
例如:第一设备向第二设备发送第一请求信息,以请求按照第三信息对第一AI网络模型进行分割,得到第一子AI网络模型和第二子AI网络模型,然后,第二设备可以向第一设备发送第一响应信息,以允许按照第三信息对第一AI网络模型进行分割。
可选地,所述第一设备和所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型。
本实施方式中,可以在第一设备和第二设备均具有第一AI网络模型的情况下,由第一设备和第二设备协商确定第三信息。
作为一种可选的实施方式,所述第一设备获取第三信息,包括:
所述第一设备接收来自所述第二设备的第三信息。
可选地,所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
所述第一设备接收来自所述第二设备的初始的第一子AI网络模型。
本实施方式中,由第二设备确定并向第一设备发送第三信息。例如:在第二设备具有第一AI网络模型的情况下,由第二设备确定第三信息,并基于第三信息对第一AI网络模型进行分割,得到第一子AI网络模型和第二子AI网络模型,然后第二设备将第一子AI网络模型发送给第一设备。此时,第二设备具有完整的AI网络模型,而第一设备只有第一子AI网络模型。
作为一种可选的实施方式,在所述第一设备获取第三信息之后,所述方法还包括:
所述第一设备向所述第二设备发送第三信息。
可选地,所述第一设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
所述第一设备根据所述第一AI网络模型和所述第三信息确定初始的第一子AI网络模型和初始的第二子AI网络模型;
所述第一设备向所述第二设备发送初始的第二子AI网络模型。
本实施方式中,由第一设备确定并向第二设备发送第三信息。例如:在第一设备具有第一AI网络模型的情况下,由第一设备确定第三信息,并基于第三信息对第一AI网络模型进行分割,得到第一子AI网络模型和第二子AI网络模型,然后第一设备将第二子AI网络模型发送给第二设备。此时,第一设备具有完整的AI网络模型,而第二设备只有第二子AI网络模型。
作为一种可选的实施方式,所述第一设备获取第三信息,包括:
所述第一设备接收来自第三设备的第三信息,其中,所述第三设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
所述方法还包括:
所述第一设备接收来自所述第三设备的初始的第一子AI网络模型。
本实施方式中,由具有第一AI网络模型的第三设备来确定第三信息,并基于第三信 息将第一AI网络模型分割为第一子AI网络模型和第二子AI网络模型,然后,第三设备可以将第一子AI网络模型发送给第一设备,以及将第二子AI网络模型发送给第二设备。此时,第一设备只有第一子AI网络模型,第二设备只有第二子AI网络模型。
作为一种可选的实施方式,所述方法还包括:
所述第一设备向所述第二设备发送与目标样本数据对应的目标标签;
其中,基于所述第一子AI网络模型对所述目标样本数据进行正向传播,得到所述第一输出信息;
基于所述第二子AI网络模型对所述第一输出信息进行正向传播,得到所述第二输出信息;
基于所述第二子AI网络模型对所述第二输出信息与对应的目标标签之间的误差进行反向传播,得到所述第二梯度信息;
基于所述第一子AI网络模型对所述第二梯度信息进行反向传播,得到所述第一梯度信息。
一种实施方式中,在所述第一AI网络模型的输出位置位于第二子AI网络模型的情况下,需要将第二子AI网络模型的输出信息与对应的样本标签进行匹配,得到两者的误差后对该误差进行反向传播,得到梯度信息。
例如:如图4a所示,第一子AI网络模型和第二子AI网络模型的一次迭代训练过程包括:第一设备将目标样本数据输入第一子AI网络模型,得到第一子AI网络模型输出的第一输出信息,第一设备将第一输出信息发送给第二设备,第二设备将第一输出信息输入第二子AI网络模型,得到第二子AI网络模型输出的第二输出信息,第二设备获取第二输出信息与目标样本数据对应的目标标签的误差,并将该误差在第二子AI网络模型中进行反向传播,得到第二子AI网络模型的第二梯度信息,以及将第二子AI网络模型的输入位置处的第二梯度信息发送给第一设备,第一设备将第二子AI网络模型的输入位置处的第二梯度信息在第一子AI网络模型中进行反向传播,得到第一子AI网络模型的第一梯度信息,其中,第二设备还基于第二梯度信息对第二子AI网络模型进行更新,第一设备还基于第一梯度信息对第一子AI网络模型进行更新。
需要说明的是,在一种实施中,第一子AI网络模型和第二子AI网络模型的迭代训练次数可以是多次,在此不作具体限定。
本实施方式中,在所述第一AI网络模型的输出位置位于第二子AI网络模型的情况下,第一设备将样本标签发送给第二设备,以使第二设备据此进行误差的反向传播。
需要说明的是,在一种实施方式中,第一AI网络模型的输出位置也可以位于第一子AI网络模型,例如:如图4b所示场景下,第一设备不需要将样本标签发送给第二设备,而是在第一设备侧基于样本标签进行误差的反向传播。此时,第一设备需要将第一子AI网络模型的输出位置处的第一梯度信息发送给第二设备,以使第二设备基于该第一梯度信息在第二子AI网络模型中进行误差的反向传播。例如:如图4b所示场景下,第一设备需 要将客户端子神经网络2的输入位置处的第一梯度信息,发送给第二设备,然后,第二设备基于客户端子神经网络2的输入位置处的第一梯度信息对服务器子神经网络进行误差反向传播,得到服务器子神经网络的输入位置处的第二梯度信息,并将服务器子神经网络的输入位置处的第二梯度信息发送给第一设备,第二设备基于服务器子神经网络的输入位置处的第二梯度信息对客户端子神经网络1进行误差反向传播,得到客户端子神经网络1的每一层的第一梯度信息。
作为一种可选的实施方式,在所述第一设备向第二设备发送第一信息之前,所述方法还包括:
所述第一设备向所述第二设备发送第一指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
一种实施方式中,第一指示信息可以指示开始训练所述第一子AI网络模型和所述第二子AI网络模型。
本实施方式中,由第一设备决定是否开始训练所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,所述第一设备向第二设备发送第一信息,包括:
所述第一设备在接收到第二指示信息的情况下,向第二设备发送第一信息,其中,所述第二指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
一种实施方式中,第二指示信息可以指示开始训练所述第一子AI网络模型和所述第二子AI网络模型。
一种实施方式中,第一设备可以接收来自第二设备或第三设备的第二指示信息。
本实施方式中,由第二设备或第三设备决定是否开始训练所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,在所述第一设备接收来自所述第二设备的更新后的第二子AI网络模型之前,所述方法还包括:
所述第一设备获取校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,所述第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型;
所述第一设备在确定所述校验信息满足预设条件的情况下,向所述第二设备发送第三指示信息,其中,所述第三指示信息指示以下至少一项:
所述第二设备向所述第一设备发送更新后的第二子AI网络模型;
所述第二AI网络模型的性能满足需求;
所述校验信息满足预设条件;
终止训练所述第一子AI网络模型和所述第二子AI网络模型。
一种实施方式中,可以在每一次或每M次更新第一子AI网络模型和第二子AI网络模型后,对更新后的第一子AI网络模型和第二子AI网络模型的输出结果进行一次校验,以获取校验信息,M可以是大于或等于2的整数。
一种实施方式中,第一设备获取校验信息的方式可以是:从第二设备或第三设备接收所述校验信息。
一种实施方式中,第一设备获取校验信息的方式可以是:获取第二AI网络模型的输出结果,并将该第二AI网络模型的输出结果与样本标签进行匹配,以得到校验信息。
一种实施方式中,校验信息可以包括第二AI网络模型的输出结果与样本标签的误差,和/或第二AI网络模型的输出结果的精确度等用于校验第二AI网络模型的性能的信息,例如:损失函数的取值或其他评估神经网络性能的结果取值。
一种实施方式中,所述校验信息满足预设条件可以包括以下至少一项:
第二AI网络模型的输出结果与样本标签的误差小于或等于预设误差;
第二AI网络模型的输出结果的精确度大于或等于预设精度。
一种实施方式中,在所述校验信息满足预设条件时,可以终止对第一子AI网络模型和第二子AI网络模型的训练,第一设备可以向第二设备发送第三指示信息,通过第三指示信息指示所述第二设备向所述第一设备发送更新后的第二子AI网络模型,和/或指示所述第二AI网络模型的性能满足需求,和/或指示所述校验信息满足预设条件,和/或指示终止训练所述第一子AI网络模型和所述第二子AI网络模型,便可以使第二设备终止对第一子AI网络模型和第二子AI网络模型的训练。
一种实施方式中,在第三指示信息指示所述第二设备向所述第一设备发送更新后的第二子AI网络模型的情况下,第二设备可以在未接收到第三指示信息的情况下,即使更新了第二子AI网络模型,也不向第一设备发送更新后的第二子AI网络模型。当第二设备接收到第三指示信息时,则向第一设备发送最近一次更新后的第二子AI网络模型,即最新的第二子AI网络模型。
作为一种可选的实施方式,所述方法还包括:
所述第一设备接收第四指示信息,其中,所述第四指示信息指示终止训练所述第一子AI网络模型和所述第二子AI网络模型。
一种实施方式中,第一设备可以接收来自第二设备或第三设备的第四指示信息。
本实施方式中,由第二设备或第三设备决定是否终止训练所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,所述方法还包括:
所述第一设备发送校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型。
一种实施方式中,第一设备可以向第二设备或第三设备的校验信息。
可选地,第二设备或第三设备在接收校验信息后,可以根据校验信息来判断是否终止训练所述第一子AI网络模型和所述第二子AI网络模型。
一种实施方式中,如图4b所示,第一设备通过将客户端子神经网络2的输出结果与对应的样本标签进行比较,并根据比较结果确定校验信息,此后,第一设备可以将该校验 信息发送给第二设备(如运营商服务器)或第三设备(如第三方服务器),以使第二设备或第三设备据此决定是否可以终止训练所述第一子AI网络模型和所述第二子AI网络模型。其中,在第二设备或第三设备据此决定可以终止训练所述第一子AI网络模型和所述第二子AI网络模型的情况下,第二设备或第三设备可以向第一设备发送第四指示信息。
在本申请实施例中,通过将完整的AI网络模型分割为第一子AI网络模型和第二子AI网络模型,并在第一设备侧对第一子AI网络模型进行正向传播和反向传播,在第二设备侧对第二子AI网络模型进行正向传播和反向传播,然后在第一设备和第二设备之间交互正向传播和/或反向传播的结果,能够实现在第一设备侧更新第一子AI网络模型,在第二设侧更新第二子AI网络模型,最后,第一设备可以获取更新后的第一子AI网络模型和更新后的第二子AI网络模型,组成第一设备最终需要的目标AI网络模型。该过程中,第一设备的用于训练目标AI网络模型的训练样本数据,以及终端最终训练的目标AI网络模型对于第二设备都是未知的,从而能够保护第一设备的信息安全。
请参阅图5,本申请实施例提供的信息传输方法,其执行主体可以是第二设备,如图5所示,该信息传输方法可以包括以下步骤:
步骤501、第二设备接收来自第一设备的第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型。
步骤502、所述第二设备向所述第一设备发送第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型。
步骤503、所述第二设备根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息。
步骤504、所述第二设备向所述第一设备发送更新后的第二子AI网络模型。
上述第二设备可以是终端或者网络侧设备,在此不作具体限定,该第二设备具有AI网络模型训练功能。
本申请实施例中的第一信息、第二信息、第一子AI网络模型、第二子AI网络模型、第一输出信息、第一梯度信息、第二输出信息、第二梯度信息的含义和作用与如图3所示方法实施例中的第一信息、第二信息、第一子AI网络模型、第二子AI网络模型、第一输出信息、第一梯度信息、第二输出信息、第二梯度信息的含义和作用相同,在此不作具体限定。
一种实施方式中,第二设备根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,可以是第二设备根据来自第一设备的第一输出信息,对第二子AI网络模型进行正向传播,得到第二输出信息,将该第二输出信息与样本标签之间的误差,在第二子AI网络模型中进行反向传播,得到第二子AI网络模型中每一层的梯度信息,并基于该第 二子AI网络模型中每一层的梯度信息,对第二子AI网络模型进行更新。
一种实施方式中,第二设备根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,可以是第二设备根据来自第一设备的第一梯度信息,对第二子AI网络模型进行反向传播,得到第二子AI网络模型中每一层的梯度信息,并基于该第二子AI网络模型中每一层的梯度信息,对第二子AI网络模型进行更新。
需要说明的是,第二设备可以先执行步骤501再执行步骤502,或者,第二设备可以先执行步骤502再执行步骤501,在此对步骤501和步骤502的执行顺序不作具体限定。
此外,在一次AI网络模型的迭代过程中,上述步骤501和/或步骤502的执行次数可以等于1次或大于1次,在此对步骤501和步骤502的执行次数不作具体限定
一种实施方式中,在更新或训练目标AI网络模型的过程中,上述步骤501至步骤503可以执行1次或者至少两次,且在满足模型终止训练的条件时,第二设备向第一设备发送最新的第二子AI网络模型。例如:第二设备重复执行步骤501至步骤503,以对第二子AI网络模型进行迭代更新,该迭代更新过程中,对第二子AI网络模型进行至少一次更新,然后,在满足模型终止训练的条件时,第二设备向第一设备发送最新的第二子AI网络模型。
其中,目标AI网络模型与如图3所示方法实施例中的目标AI网络模型相同,但是,目标AI网络模型是第二设备不可知的。
一种实施方式中,在更新或训练目标AI网络模型的过程中,上述步骤501至步骤503可以执行1次或者至少两次,且每次更新第二子AI网络模型后,第二设备将更新后的第二子AI网络模型发送给第一设备。此时,第一设备可以基于每次更新后的第二子AI网络模型和更新后的第一子AI网络模型来确定第二AI网络模型,并判断第二AI网络模型的性能是否满足需求,这样,在第二AI网络模型的性能满足需求时,可以将该第二AI网络模型确定为目标AI网络模型。
一种实施方式中,在更新或训练目标AI网络模型的过程中,上述步骤501至步骤503可以执行1次或者至少两次,且每X次更新第二子AI网络模型后,第二设备将更新后的第二子AI网络模型发送给第一设备,X为大于或者等于1的整数。此时,第一设备可以基于每次接收的第二子AI网络模型和对应的第一子AI网络模型来确定第二AI网络模型,并判断第二AI网络模型的性能是否满足需求,这样,在第二AI网络模型的性能满足需求时,可以将该第二AI网络模型确定为目标AI网络模型。
作为一种可选的实施方式,在所述第二设备接收来自第一设备的第一信息之前,所述方法还包括:
所述第二设备获取第三信息,其中,所述第三信息指示所述第一子AI网络模型的分界位置和/或所述第二子AI网络模型的分界位置。
作为一种可选的实施方式,所述第三信息包括以下至少一项:
至少一个分界位置,其中,相邻的第一子AI网络模型和第二子AI网络模型通过一个 分界位置分割;
所述第一子AI网络模型与分界位置的相对位置;
所述第二子AI网络模型与分界位置的相对位置;
所述第一子AI网络模型与分界位置之间的对应关系;
所述第二子AI网络模型与分界位置之间的对应关系。
作为一种可选的实施方式,所述第二设备获取第三信息,包括:
所述第二设备与所述第一设备协商所述第三信息。
作为一种可选的实施方式,所述第一设备和所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,所述第二设备获取第三信息,包括:
所述第二设备向所述第一设备发送第三信息。
作为一种可选的实施方式,所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
所述第二设备根据所述第一AI网络模型和所述第三信息确定初始的第一子AI网络模型和初始的第二子AI网络模型;
所述第二设备向所述第一设备发送初始的第一子AI网络模型。
作为一种可选的实施方式,所述第二设备获取第三信息,包括:
所述第二设备接收来自所述第一设备的第三信息。
作为一种可选的实施方式,所述第一设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
所述第二设备接收来自所述第一设备的初始的第二子AI网络模型。
作为一种可选的实施方式,所述第二设备获取第三信息,包括:
所述第二设备接收来自第三设备的第三信息,其中,所述第三设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
所述方法还包括:
所述第二设备接收来自所述第三设备的初始的第一子AI网络模型。
作为一种可选的实施方式,所述方法还包括:
所述第二设备接收来自所述第二设备的与目标样本数据对应的目标标签;
其中,基于所述第一子AI网络模型对所述目标样本数据进行正向传播,得到所述第一输出信息;
基于所述第二子AI网络模型对所述第一输出信息进行正向传播,得到所述第二输出信息;
基于所述第二子AI网络模型对所述第二输出信息与对应的目标标签之间的误差进行反向传播,得到所述第二梯度信息;
基于所述第一子AI网络模型对所述第二梯度信息进行反向传播,得到所述第一梯度 信息。
作为一种可选的实施方式,在所述第二设备接收来自所述第一设备的第一信息之前,所述方法还包括:
所述第二设备接收来自所述第一设备的第一指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型;
和/或,
所述第二设备向所述第一设备发送第二指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,在所述第二设备向所述第一设备发送更新后的第二子AI网络模型之前,所述方法还包括:
所述第二设备发送校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,所述第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型。
作为一种可选的实施方式,所述第二设备向所述第一设备发送更新后的第二子AI网络模型,包括:
所述第二设备在接收到第三指示信息的情况下,向所述第一设备发送更新后的第二子AI网络模型,其中,所述第三指示信息指示以下至少一项:
所述第二设备的向所述第一设备发送更新后的第二子AI网络模型;
第二AI网络模型的性能满足需求;
校验信息满足预设条件;
终止训练所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,在所述第二设备向所述第一设备发送第二子AI网络模型之前,所述方法还包括:
所述第二设备获取校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型;
所述第二设备向所述第一设备发送更新后的第二子AI网络模型,包括:
所述第二设备在确定所述校验信息满足预设条件的情况下,向所述第一设备发送更新后的第二子AI网络模型。
作为一种可选的实施方式,所述方法还包括:
所述第二设备在确定所述校验信息满足预设条件的情况下,发送第三指示信息,其中,所述第三指示信息指示以下至少一项:
所述第二AI网络模型的性能满足需求;
所述校验信息满足预设条件;
终止训练所述第一子AI网络模型和所述第二子AI网络模型。
作为一种可选的实施方式,所述方法还包括:
所述第二设备接收第四指示信息,其中,所述第四指示信息指示终止训练所述第一子 AI网络模型和所述第二子AI网络模型。
本申请实施例中,第二设备与第一设备对第一子AI网络模型和第二子AI网络模型之间的中间数据以及中间梯度信息进行交互,使得第二设备与第一设备能够以分割学习的方式,对第一设备需要的目标AI网络模型进行训练,且目标AI网络模型对第二设备是不可知的,从而能够提升第一设备的信息安全性能。
为了便于说明本申请实施例提供的AI网络模型确定方法和信息传输方法,以如图4a所示应用场景为例对本申请实施例的AI网络模型确定方法和信息传输方法进行举例说明。
如图4a所示,第一设备为客户端设备,第二设备为服务器,此时,可以通过以下过程确定客户端设备需要的目标神经网络:
1、服务器将完整神经网络发送给客户端设备;
2、服务器和客户端设备协商第一信息,该第一信息包括:分界位置、服务器子神经网络和客户端子神经网络分别与分界位置的相对位置。
可选地,完整神经网络可以具有1个或者至少两个分界位置,进而会有1个或多个服务器子神经网络和客户端子神经网络。本申请实施例中,以完整神经网络具有1个分界位置,将该完整神经网络分割为1个服务器子神经网络和1个客户端子神经网络为例进行举例说明。
3、服务器根据第一信息确定服务器子神经网络,和/或,客户端设备根据第一信息确定客户端子神经网络。
4、客户端设备向服务器发送训练样本数据对应的标签。其中,该传输发生的条件是完整神经网络的输出是在服务器。
5、开始训练。
可选地,本步骤可以包括以下至少一项:
服务器向客户端发送开始训练的指令;
客户端向服务器发送开始训练的指令;
第三设备向服务器和/或客户端发送开始训练的指令。
可选地,本步骤具体包括:
根据第一信息,客户端设备将客户端子神经网络的输出结果发送给服务器,服务器将服务器子神经网络的输出结果发送给客户端;以及根据第一信息,服务器将在服务器子神经网络输入处反向传播获得的梯度信息发送给客户端,客户端设备将在客户端子神经网络输入处反向传播获得的梯度信息发送给服务器。
可选地,本步骤还可以包括:客户端或服务器向第三设备发送损失函数的取值或其他评估神经网络性能的结果取值。该损失函数的取值或其他评估神经网络性能的结果取值用于判断神经网络是否满足终止训练的条件。
6、结束训练。
可选地,本步骤可以包括以下至少一项:
服务器向客户端发送结束训练的指令;
客户端向服务器发送结束训练的指令;
第三设备向服务器和/或客户端发送结束训练的指令。
7、训练结束后模型共享。
本步骤中,服务器将训练好的服务器网络子神经网络发送给客户端。
本申请实施例提供的AI网络模型确定方法,执行主体可以为AI网络模型确定装置。本申请实施例中以AI网络模型确定装置执行AI网络模型确定方法为例,说明本申请实施例提供的AI网络模型确定装置。
请参阅图6,本申请实施例提供的一种AI网络模型确定装置,可以是第一设备内的装置,如图6所示,该AI网络模型确定装置600可以包括以下模块:
第一发送模块601,用于向第二设备发送第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
第一接收模块602,用于接收来自所述第二设备的第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
第一更新模块603,用于根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;
第二接收模块604,用于接收来自所述第二设备的更新后的第二子AI网络模型;
第一确定模块605,用于根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
可选地,AI网络模型确定装置600,还包括:
第一获取模块,用于获取第三信息,其中,所述第三信息指示所述第一子AI网络模型的分界位置和/或所述第二子AI网络模型的分界位置。
可选地,所述第三信息包括以下至少一项:
至少一个分界位置,其中,相邻的第一子AI网络模型和第二子AI网络模型通过一个分界位置分割;
所述第一子AI网络模型与分界位置的相对位置;
所述第二子AI网络模型与分界位置的相对位置;
所述第一子AI网络模型与分界位置之间的对应关系;
所述第二子AI网络模型与分界位置之间的对应关系。
可选地,所述第一获取模块,具体用于:
与所述第二设备协商所述第三信息。
可选地,所述第一设备和所述第二设备具有第一AI网络模型,且所述第一AI网络模 型包括所述第一子AI网络模型和所述第二子AI网络模型。
可选地,所述第一获取模块,具体用于:
接收来自所述第二设备的第三信息。
可选地,所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
AI网络模型确定装置600,还包括:
第三接收模块,用于接收来自所述第二设备的初始的第一子AI网络模型。
可选地,AI网络模型确定装置600,还包括:
第四发送模块,用于向所述第二设备发送第三信息。
可选地,所述第一设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
AI网络模型确定装置600,还包括:
第二确定模块,用于根据所述第一AI网络模型和所述第三信息确定初始的第一子AI网络模型和初始的第二子AI网络模型;
第五发送模块,用于向所述第二设备发送初始的第二子AI网络模型。
可选地,所述第一获取模块,具体用于:
接收来自第三设备的第三信息,其中,所述第三设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
AI网络模型确定装置600,还包括:
第四接收模块,用于接收来自所述第三设备的初始的第一子AI网络模型。
可选地,AI网络模型确定装置600,还包括:
第六发送模块,用于向所述第二设备发送与目标样本数据对应的目标标签;
其中,基于所述第一子AI网络模型对所述目标样本数据进行正向传播,得到所述第一输出信息;
基于所述第二子AI网络模型对所述第一输出信息进行正向传播,得到所述第二输出信息;
基于所述第二子AI网络模型对所述第二输出信息与对应的目标标签之间的误差进行反向传播,得到所述第二梯度信息;
基于所述第一子AI网络模型对所述第二梯度信息进行反向传播,得到所述第一梯度信息。
可选地,AI网络模型确定装置600,还包括:
第七发送模块,用于向所述第二设备发送第一指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,第一发送模块601,具体用于:
在AI网络模型确定装置600接收到第二指示信息的情况下,向第二设备发送第一信 息,其中,所述第二指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,AI网络模型确定装置600,还包括:
第二获取模块,用于获取校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,所述第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型;
第八发送模块,用于在AI网络模型确定装置600确定所述校验信息满足预设条件的情况下,向所述第二设备发送第三指示信息,其中,所述第三指示信息指示以下至少一项:
所述第二设备向所述第一设备发送更新后的第二子AI网络模型;
所述第二AI网络模型的性能满足需求;
所述校验信息满足预设条件;
终止训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,AI网络模型确定装置600,还包括:
第五接收模块,用于接收第四指示信息,其中,所述第四指示信息指示终止训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,AI网络模型确定装置600,还包括:
第九发送模块,用于发送校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型。
本申请实施例的AI网络模型确定装置600能够实现如图5所示方法实施例中,第一设备实现的各个过程,且能够取得相同的有益效果,为避免重复,在此不再赘述。
本申请实施例提供的信息传输方法,执行主体可以为信息传输装置。本申请实施例中以信息传输装置执行信息传输方法为例,说明本申请实施例提供的信息传输装置。
请参阅图7,本申请实施例提供的一种信息传输装置,可以是第二设备内的装置,如图7所示,该信息传输装置700可以包括以下模块:
第三接收模块701,用于接收来自第一设备的第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
第二发送模块702,用于向所述第一设备发送第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
第二更新模块703,用于根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;
第三发送模块704,用于向所述第一设备发送更新后的第二子AI网络模型。
可选地,信息传输装置700还包括:
第三获取模块,用于获取第三信息,其中,所述第三信息指示所述第一子AI网络模型的分界位置和/或所述第二子AI网络模型的分界位置。
可选地,所述第三信息包括以下至少一项:
至少一个分界位置,其中,相邻的第一子AI网络模型和第二子AI网络模型通过一个分界位置分割;
所述第一子AI网络模型与分界位置的相对位置;
所述第二子AI网络模型与分界位置的相对位置;
所述第一子AI网络模型与分界位置之间的对应关系;
所述第二子AI网络模型与分界位置之间的对应关系。
可选地,所述第三获取模块具体用于:
与所述第一设备协商所述第三信息。
可选地,所述第一设备和所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型。
可选地,所述第三获取模块具体用于:
向所述第一设备发送第三信息。
可选地,所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
信息传输装置700还包括:
第三确定模块,用于根据所述第一AI网络模型和所述第三信息确定初始的第一子AI网络模型和初始的第二子AI网络模型;
第十发送模块,用于向所述第一设备发送初始的第一子AI网络模型。
可选地,所述第三获取模块具体用于:
接收来自所述第一设备的第三信息。
可选地,所述第一设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
信息传输装置700还包括:
第六接收模块,用于接收来自所述第一设备的初始的第二子AI网络模型。
可选地,所述第三获取模块具体用于:
接收来自第三设备的第三信息,其中,所述第三设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
信息传输装置700还包括:
第七接收模块,用于接收来自所述第三设备的初始的第一子AI网络模型。
可选地,信息传输装置700还包括:
第八接收模块,用于接收来自所述第二设备的与目标样本数据对应的目标标签;
其中,基于所述第一子AI网络模型对所述目标样本数据进行正向传播,得到所述第一输出信息;
基于所述第二子AI网络模型对所述第一输出信息进行正向传播,得到所述第二输出信息;
基于所述第二子AI网络模型对所述第二输出信息与对应的目标标签之间的误差进行反向传播,得到所述第二梯度信息;
基于所述第一子AI网络模型对所述第二梯度信息进行反向传播,得到所述第一梯度信息。
可选地,信息传输装置700还包括:
第九接收模块,用于接收来自所述第一设备的第一指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型;
和/或,
第十一发送模块,用于向所述第一设备发送第二指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,信息传输装置700还包括:
第十二发送模块,用于发送校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,所述第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型。
可选地,第三发送模块704,具体用于:
在信息传输装置700接收到第三指示信息的情况下,向所述第一设备发送更新后的第二子AI网络模型,其中,所述第三指示信息指示以下至少一项:
所述第二设备的向所述第一设备发送更新后的第二子AI网络模型;
第二AI网络模型的性能满足需求;
校验信息满足预设条件;
终止训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,信息传输装置700还包括:
第四获取模块,用于获取校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型;
第三发送模块704,具体用于:
在信息传输装置700确定所述校验信息满足预设条件的情况下,向所述第一设备发送更新后的第二子AI网络模型。
可选地,信息传输装置700还包括:
第十三发送模块,用于在信息传输装置700确定所述校验信息满足预设条件的情况下,发送第三指示信息,其中,所述第三指示信息指示以下至少一项:
所述第二AI网络模型的性能满足需求;
所述校验信息满足预设条件;
终止训练所述第一子AI网络模型和所述第二子AI网络模型。
可选地,信息传输装置700还包括:
第十接收模块,用于接收第四指示信息,其中,所述第四指示信息指示终止训练所述第一子AI网络模型和所述第二子AI网络模型。
本申请实施例提供的信息传输装置700,能够实现如图5所示方法实施例中第二设备实现的各个过程,且能够取得相同的有益效果,为避免重复,在此不再赘述。
可选的,如图8所示,本申请实施例还提供一种通信设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,例如,该通信设备800为第一设备时,该程序或指令被处理器801执行时实现如图3所示方法实施例的各个步骤,且能达到相同的技术效果。该通信设备800为第二设备时,该程序或指令被处理器801执行时实现如图5所示方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种通信设备,包括处理器和通信接口。
在一种实施方式中,在所述通信设备为第一设备的情况下,所述通信接口用于向第二设备发送第一信息,以及接收来自所述第二设备的第二信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;所述处理器用于根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;所述通信接口还用于接收来自所述第二设备的更新后的第二子AI网络模型;所述处理器还用于根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
本实施方式中,该通信设备实施例能够实现如图6所示AI网络模型确定装置600执行的各个过程,且能达到相同的技术效果,在此不再赘述。
在一种实施方式中,在所述通信设备为第二设备的情况下,所述通信接口用于接收来自第一设备的第一信息,以及向所述第一设备发送第二信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;所述处理器用于根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;所述通信接口还用于向所述第一设备发送更新后的第二子AI网络模型。
本实施方式中,该通信设备实施例能够实现如图7所示信息传输装置700执行的各个过程,且能达到相同的技术效果,在此不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现如图3或图5所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的终端中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如图3或图5所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片,***芯片,芯片***或片上***芯片等。
本申请实施例另提供了一种计算机程序/程序产品,所述计算机程序/程序产品被存储在存储介质中,所述计算机程序/程序产品被至少一个处理器执行以实现如图3或图5所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供了一种通信***,包括:第一设备和第二设备,所述第一设备可用于执行如图3所示的AI网络模型确定方法的步骤,所述第二设备可用于执行如图5所示的信息传输方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施 方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (37)

  1. 一种AI网络模型确定方法,包括:
    第一设备向第二设备发送第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
    所述第一设备接收来自所述第二设备的第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
    所述第一设备根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;
    所述第一设备接收来自所述第二设备的更新后的第二子AI网络模型;
    所述第一设备根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
  2. 根据权利要求1所述的方法,其中,在所述第一设备向第二设备发送第一信息之前,所述方法还包括:
    所述第一设备获取第三信息,其中,所述第三信息指示所述第一子AI网络模型的分界位置和/或所述第二子AI网络模型的分界位置。
  3. 根据权利要求2所述的方法,其中,所述第三信息包括以下至少一项:
    至少一个分界位置,其中,相邻的第一子AI网络模型和第二子AI网络模型通过一个分界位置分割;
    所述第一子AI网络模型与分界位置的相对位置;
    所述第二子AI网络模型与分界位置的相对位置;
    所述第一子AI网络模型与分界位置之间的对应关系;
    所述第二子AI网络模型与分界位置之间的对应关系。
  4. 根据权利要求2所述的方法,其中,所述第一设备获取第三信息,包括:
    所述第一设备与所述第二设备协商所述第三信息。
  5. 根据权利要求4所述的方法,其中,所述第一设备和所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型。
  6. 根据权利要求2所述的方法,其中,所述第一设备获取第三信息,包括:
    所述第一设备接收来自所述第二设备的第三信息。
  7. 根据权利要求6所述的方法,其中,所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
    所述第一设备接收来自所述第二设备的初始的第一子AI网络模型。
  8. 根据权利要求2所述的方法,其中,在所述第一设备获取第三信息之后,所述方法还包括:
    所述第一设备向所述第二设备发送第三信息。
  9. 根据权利要求8所述的方法,其中,所述第一设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
    所述第一设备根据所述第一AI网络模型和所述第三信息确定初始的第一子AI网络模型和初始的第二子AI网络模型;
    所述第一设备向所述第二设备发送初始的第二子AI网络模型。
  10. 根据权利要求2所述的方法,其中,所述第一设备获取第三信息,包括:
    所述第一设备接收来自第三设备的第三信息,其中,所述第三设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
    所述方法还包括:
    所述第一设备接收来自所述第三设备的初始的第一子AI网络模型。
  11. 根据权利要求1至10中任一项所述的方法,所述方法还包括:
    所述第一设备向所述第二设备发送与目标样本数据对应的目标标签;
    其中,基于所述第一子AI网络模型对所述目标样本数据进行正向传播,得到所述第一输出信息;
    基于所述第二子AI网络模型对所述第一输出信息进行正向传播,得到所述第二输出信息;
    基于所述第二子AI网络模型对所述第二输出信息与对应的目标标签之间的误差进行反向传播,得到所述第二梯度信息;
    基于所述第一子AI网络模型对所述第二梯度信息进行反向传播,得到所述第一梯度信息。
  12. 根据权利要求1至10中任一项所述的方法,其中,在所述第一设备向第二设备发送第一信息之前,所述方法还包括:
    所述第一设备向所述第二设备发送第一指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
  13. 根据权利要求1至10中任一项所述的方法,其中,所述第一设备向第二设备发送第一信息,包括:
    所述第一设备在接收到第二指示信息的情况下,向第二设备发送第一信息,其中,所述第二指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
  14. 根据权利要求1至10中任一项所述的方法,其中,在所述第一设备接收来自所述第二设备的更新后的第二子AI网络模型之前,所述方法还包括:
    所述第一设备获取校验信息,其中,所述校验信息用于指示第二AI网络模型的性能, 所述第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型;
    所述第一设备在确定所述校验信息满足预设条件的情况下,向所述第二设备发送第三指示信息,其中,所述第三指示信息指示以下至少一项:
    向所述第一设备发送更新后的第二子AI网络模型;
    所述第二AI网络模型的性能满足需求;
    所述校验信息满足预设条件;
    终止训练所述第一子AI网络模型和所述第二子AI网络模型。
  15. 根据权利要求1至10中任一项所述的方法,所述方法还包括:
    所述第一设备接收第四指示信息,其中,所述第四指示信息指示终止训练所述第一子AI网络模型和所述第二子AI网络模型。
  16. 根据权利要求1至10中任一项所述的方法,所述方法还包括:
    所述第一设备发送校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型。
  17. 一种信息传输方法,包括:
    第二设备接收来自第一设备的第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
    所述第二设备向所述第一设备发送第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI网络模型;
    所述第二设备根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;
    所述第二设备向所述第一设备发送更新后的第二子AI网络模型。
  18. 根据权利要求17所述的方法,其中,在所述第二设备接收来自第一设备的第一信息之前,所述方法还包括:
    所述第二设备获取第三信息,其中,所述第三信息指示所述第一子AI网络模型的分界位置和/或所述第二子AI网络模型的分界位置。
  19. 根据权利要求18所述的方法,其中,所述第三信息包括以下至少一项:
    至少一个分界位置,其中,相邻的第一子AI网络模型和第二子AI网络模型通过一个分界位置分割;
    所述第一子AI网络模型与分界位置的相对位置;
    所述第二子AI网络模型与分界位置的相对位置;
    所述第一子AI网络模型与分界位置之间的对应关系;
    所述第二子AI网络模型与分界位置之间的对应关系。
  20. 根据权利要求18所述的方法,其中,所述第二设备获取第三信息,包括:
    所述第二设备与所述第一设备协商所述第三信息。
  21. 根据权利要求20所述的方法,其中,所述第一设备和所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型。
  22. 根据权利要求18所述的方法,其中,所述第二设备获取第三信息,包括:
    所述第二设备向所述第一设备发送第三信息。
  23. 根据权利要求22所述的方法,其中,所述第二设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
    所述第二设备根据所述第一AI网络模型和所述第三信息确定初始的第一子AI网络模型和初始的第二子AI网络模型;
    所述第二设备向所述第一设备发送初始的第一子AI网络模型。
  24. 根据权利要求18所述的方法,其中,所述第二设备获取第三信息,包括:
    所述第二设备接收来自所述第一设备的第三信息。
  25. 根据权利要求24所述的方法,其中,所述第一设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型,所述方法还包括:
    所述第二设备接收来自所述第一设备的初始的第二子AI网络模型。
  26. 根据权利要求18所述的方法,其中,所述第二设备获取第三信息,包括:
    所述第二设备接收来自第三设备的第三信息,其中,所述第三设备具有第一AI网络模型,且所述第一AI网络模型包括所述第一子AI网络模型和所述第二子AI网络模型;
    所述方法还包括:
    所述第二设备接收来自所述第三设备的初始的第一子AI网络模型。
  27. 根据权利要求18至26中任一项所述的方法,所述方法还包括:
    所述第二设备接收来自所述第二设备的与目标样本数据对应的目标标签;
    其中,基于所述第一子AI网络模型对所述目标样本数据进行正向传播,得到所述第一输出信息;
    基于所述第二子AI网络模型对所述第一输出信息进行正向传播,得到所述第二输出信息;
    基于所述第二子AI网络模型对所述第二输出信息与对应的目标标签之间的误差进行反向传播,得到所述第二梯度信息;
    基于所述第一子AI网络模型对所述第二梯度信息进行反向传播,得到所述第一梯度信息。
  28. 根据权利要求18至26中任一项所述的方法,其中,在所述第二设备接收来自所述第一设备的第一信息之前,所述方法还包括:
    所述第二设备接收来自所述第一设备的第一指示信息,其中,所述第一指示信息用于 指示训练所述第一子AI网络模型和所述第二子AI网络模型;
    和/或,
    所述第二设备向所述第一设备发送第二指示信息,其中,所述第一指示信息用于指示训练所述第一子AI网络模型和所述第二子AI网络模型。
  29. 根据权利要求18至26中任一项所述的方法,其中,在所述第二设备向所述第一设备发送更新后的第二子AI网络模型之前,所述方法还包括:
    所述第二设备发送校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,所述第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型。
  30. 根据权利要求18至26中任一项所述的方法,其中,所述第二设备向所述第一设备发送更新后的第二子AI网络模型,包括:
    所述第二设备在接收到第三指示信息的情况下,向所述第一设备发送更新后的第二子AI网络模型,其中,所述第三指示信息指示所述第二设备的向所述第一设备发送更新后的第二子AI网络模型,和/或指示第二AI网络模型的性能满足需求,和/或指示校验信息满足预设条件,和/或指示终止训练所述第一子AI网络模型和所述第二子AI网络模型。
  31. 根据权利要求18至26中任一项所述的方法,其中,在所述第二设备向所述第一设备发送第二子AI网络模型之前,所述方法还包括:
    所述第二设备获取校验信息,其中,所述校验信息用于指示第二AI网络模型的性能,第二AI网络模型包括更新后的第一子AI网络模型和更新后的第二子AI网络模型;
    所述第二设备向所述第一设备发送更新后的第二子AI网络模型,包括:
    所述第二设备在确定所述校验信息满足预设条件的情况下,向所述第一设备发送更新后的第二子AI网络模型。
  32. 根据权利要求31所述的方法,所述方法还包括:
    所述第二设备在确定所述校验信息满足预设条件的情况下,发送第三指示信息,其中,所述第三指示信息指示以下至少一项:
    所述第二AI网络模型的性能满足需求;
    所述校验信息满足预设条件;
    终止训练所述第一子AI网络模型和所述第二子AI网络模型。
  33. 根据权利要求18至26中任一项所述的方法,所述方法还包括:
    所述第二设备接收第四指示信息,其中,所述第四指示信息指示终止训练所述第一子AI网络模型和所述第二子AI网络模型。
  34. 一种AI网络模型确定装置,所述装置包括:
    第一发送模块,用于向第二设备发送第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,第一设备具有所述第一子AI网络模型;
    第一接收模块,用于接收来自所述第二设备的第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,所述第二设备具有所述第二子AI 网络模型;
    第一更新模块,用于根据所述第一子AI网络模型的梯度信息更新所述第一子AI网络模型,其中,所述第一子AI网络模型的梯度信息包括所述第一梯度信息或基于所述第二梯度信息对所述第一子AI网络模型进行反向传播得到的梯度信息;
    第二接收模块,用于接收来自所述第二设备的更新后的第二子AI网络模型;
    第一确定模块,用于根据更新后的第一子AI网络模型和所述更新后的第二子AI网络模型,确定目标AI网络模型。
  35. 一种信息传输装置,所述装置包括:
    第三接收模块,用于接收来自第一设备的第一信息,其中,所述第一信息包括第一子AI网络模型的第一输出信息和/或第一梯度信息,所述第一设备具有所述第一子AI网络模型;
    第二发送模块,用于向所述第一设备发送第二信息,其中,所述第二信息包括第二子AI网络模型的第二输出信息和/或第二梯度信息,第二设备具有所述第二子AI网络模型;
    第二更新模块,用于根据所述第二子AI网络模型的梯度信息更新所述第二子AI网络模型,其中,所述第二子AI网络模型的梯度信息包括所述第二梯度信息或基于所述第一梯度信息对所述第二子AI网络模型进行反向传播得到的梯度信息;
    第三发送模块,用于向所述第一设备发送更新后的第二子AI网络模型。
  36. 一种通信设备,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至16中任一项所述的AI网络模型确定方法的步骤,或者实现如权利要求17至33中任一项所述的信息传输方法的步骤。
  37. 一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至16中任一项所述的AI网络模型确定方法的步骤,或者实现如权利要求17至33中任一项所述的信息传输方法的步骤。
PCT/CN2023/138607 2022-12-21 2023-12-14 Ai网络模型确定方法、信息传输方法、装置和通信设备 WO2024131622A1 (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211652621.9 2022-12-21

Publications (1)

Publication Number Publication Date
WO2024131622A1 true WO2024131622A1 (zh) 2024-06-27

Family

ID=

Similar Documents

Publication Publication Date Title
US11966844B2 (en) Method for training neural network model and apparatus
JP6828001B2 (ja) 音声ウェイクアップ方法及び装置
Cakmak et al. S-AMP: Approximate message passing for general matrix ensembles
CN106896352B (zh) 一种基于随机集理论的多雷达异步数据分布式融合方法
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
Boabang et al. A machine learning framework for handling delayed/lost packets in tactile Internet remote robotic surgery
CN115564017A (zh) 模型数据处理方法、电子设备及计算机存储介质
CN113965313B (zh) 基于同态加密的模型训练方法、装置、设备以及存储介质
Jeong et al. Deep reinforcement learning-based task offloading decision in the time varying channel
WO2024131622A1 (zh) Ai网络模型确定方法、信息传输方法、装置和通信设备
CN115472279B (zh) 一种基于人工智能的远程按摩控制方法及***
WO2024120358A1 (zh) 信息传输方法、信息传输装置和通信设备
CN108830422A (zh) 智能驾驶的优化方法、装置及***
CN118233329A (zh) Ai网络模型确定方法、信息传输方法、装置和通信设备
US10924087B2 (en) Method and apparatus for adaptive signal processing
WO2024120409A1 (zh) Ai网络模型的确定方法、信息传输方法、装置和通信设备
Li et al. Dynamic regret of adversarial MDPs with unknown transition and linear function approximation
WO2024027683A1 (zh) 模型匹配方法、装置、通信设备及可读存储介质
WO2024032695A1 (zh) Csi预测处理方法、装置、通信设备及可读存储介质
WO2024067280A1 (zh) 更新ai模型参数的方法、装置及通信设备
WO2024067665A1 (zh) Csi预测处理方法、装置、通信设备及可读存储介质
WO2024067281A1 (zh) Ai模型的处理方法、装置及通信设备
WO2023186091A1 (zh) 样本确定方法、装置及设备
CN113762532B (zh) 联邦学习模型的训练方法、装置、电子设备和存储介质
CN117639862A (zh) Csi预测处理方法、装置、通信设备及可读存储介质