CN116361858B - 应用ai决策的用户会话资源数据保护方法及软件产品 - Google Patents

应用ai决策的用户会话资源数据保护方法及软件产品 Download PDF

Info

Publication number
CN116361858B
CN116361858B CN202310371962.7A CN202310371962A CN116361858B CN 116361858 B CN116361858 B CN 116361858B CN 202310371962 A CN202310371962 A CN 202310371962A CN 116361858 B CN116361858 B CN 116361858B
Authority
CN
China
Prior art keywords
text
sensitive
processing network
vector
session resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310371962.7A
Other languages
English (en)
Other versions
CN116361858A (zh
Inventor
杨权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Infinite Free Culture Media Co ltd
Beijing Peihong Wangzhi Technology Co ltd
Original Assignee
Beijing Infinite Free Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Infinite Free Culture Media Co ltd filed Critical Beijing Infinite Free Culture Media Co ltd
Priority to CN202310371962.7A priority Critical patent/CN116361858B/zh
Publication of CN116361858A publication Critical patent/CN116361858A/zh
Application granted granted Critical
Publication of CN116361858B publication Critical patent/CN116361858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及人工智能、大数据技术领域,提供一种应用AI决策的用户会话资源数据保护方法及软件产品,该方法及软件产品结合资源文本大数据对AI神经网络进行联合调试以保障AI神经网络的性能。在AI神经网络的应用阶段,结合大数据匿名脱敏技术对Online会话资源文本进行大数据匿名脱敏保护,能够提高大数据匿名脱敏保护的精度和合理性。此外,由于Online会话资源文本可以涉及元宇宙、数字服务等领域,因此该方法及软件产品的转用性高,可扩展性强。

Description

应用AI决策的用户会话资源数据保护方法及软件产品
技术领域
本发明涉及人工智能、大数据技术领域,尤其涉及一种应用AI决策的用户会话资源数据保护方法及软件产品。
背景技术
人工智能自诞生以来,理论和技术日益成熟,其应用领域也不断扩大。例如,人工智能在问答机器人、语言识别、图像识别和专家***等领域应用越来越成熟。随着大数据时代的进一步推进,人工智能和大数据的碰撞给大部分行业带来了质的改变,人工智能+大数据+云计算等一系列前沿技术的综合模式能够与元宇宙、数字经济、智慧城市、智能制造等进行匹配,从而极大程度地改善工作和生活,为经济发展作出了巨大贡献。在大数据和数字化的背景下,针对数据信息的保护也是不容忽视的。
发明内容
本发明提供一种应用AI决策的用户会话资源数据保护方法及软件产品,结合资源文本大数据对AI神经网络进行联合调试以保障AI神经网络的性能。在AI神经网络的应用阶段,结合大数据匿名脱敏技术对Online会话资源文本进行大数据匿名脱敏保护,能够提高大数据匿名脱敏保护的精度和合理性。此外,由于Online会话资源文本可以涉及元宇宙、数字服务等领域,因此该方法及软件产品的转用性高,可扩展性强。为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种应用AI决策的用户会话资源数据保护方法,应用于大数据AI决策服务器,所述方法包括:
获得原始Online会话资源文本,对所述原始Online会话资源文本进行文本细节重构,得到Online会话资源重构文本;
对所述Online会话资源重构文本进行敏感数据向量挖掘,得到目标敏感数据表征向量;
获得通用敏感文本处理网络,采用所述通用敏感文本处理网络和所述目标敏感数据表征向量对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络;
结合所述通用敏感文本处理网络的网络变量,对所述中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络;
获得通用敏感数据表征向量和待匿名Online会话资源文本,并将所述通用敏感数据表征向量和所述目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量;
采用所述最终敏感文本处理网络和所述敏感数据拼接向量,对所述待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本。
在一些可选的实施例中,所述采用所述最终敏感文本处理网络和所述敏感数据拼接向量,对所述待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本,包括:
采用所述最终敏感文本处理网络对所述待匿名Online会话资源文本进行文本特征提炼,得到所述待匿名Online会话资源文本的待匿名敏感文本向量;
采用所述敏感数据拼接向量对所述待匿名敏感文本向量进行敏感要素泛化操作,得到敏感文本泛化向量;
采用所述最终敏感文本处理网络对所述敏感文本泛化向量进行文本恢复操作,得到所述满足大数据保护条件的Online会话资源脱敏文本。
在一些可选的实施例中,所述采用所述最终敏感文本处理网络对所述待匿名Online会话资源文本进行文本特征提炼,得到所述待匿名Online会话资源文本的待匿名敏感文本向量,包括:
采用所述最终敏感文本处理网络,对所述待匿名Online会话资源文本进行敏感数据向量挖掘处理,得到所述待匿名Online会话资源文本的文本描述数据;
采用所述最终敏感文本处理网络,将所述文本描述数据进行区域投影操作,得到所述文本描述数据的文本区域定位标签;
采用所述最终敏感文本处理网络,通过所述文本区域定位标签生成所述待匿名Online会话资源文本的待匿名敏感文本向量。
在一些可选的实施例中,所述将所述通用敏感数据表征向量和所述目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量,包括:
将所述通用敏感数据表征向量进行汇总操作,得到已汇总敏感数据表征向量;
将所述已汇总敏感数据表征向量和所述目标敏感数据表征向量进行向量聚合,得到敏感数据拼接向量。
在一些可选的实施例中,所述结合所述通用敏感文本处理网络的网络变量,对所述中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络,包括:
从所述中间敏感文本处理网络中抽取得到至少一个拟改进网络单元;
通过所述拟改进网络单元,在所述通用敏感文本处理网络中抽取得到对应的改进辅助单元;
结合所述改进辅助单元的单元配置变量,对所述拟改进网络单元的单元配置变量进行改进操作,得到所述最终敏感文本处理网络。
在一些可选的实施例中,所述结合所述改进辅助单元的单元配置变量,对所述拟改进网络单元的单元配置变量进行改进操作,得到所述最终敏感文本处理网络,包括:
确定所述拟改进网络单元的单元配置变量加权因子和所述改进辅助单元的单元配置变量加权因子;
通过所述拟改进网络单元的单元配置变量加权因子和所述改进辅助单元的单元配置变量加权因子,将所述拟改进网络单元的单元配置变量和所述改进辅助单元的单元配置变量进行向量聚合,得到所述最终敏感文本处理网络。
在一些可选的实施例中,所述采用所述通用敏感文本处理网络和所述目标敏感数据表征向量,对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络,包括:
采用所述通用敏感文本处理网络的网络变量,对所述设定敏感文本处理网络的网络变量进行回滚处理,得到默认敏感文本处理网络;
采用所述目标敏感数据表征向量对所述默认敏感文本处理网络进行调试,得到所述中间敏感文本处理网络。
在一些可选的实施例中,所述采用所述目标敏感数据表征向量对所述默认敏感文本处理网络进行调试,得到所述中间敏感文本处理网络,包括:
获得Online会话资源调试文本;
采用所述目标敏感数据表征向量和所述默认敏感文本处理网络,对所述Online会话资源调试文本进行敏感数据匿名保护,得到文本匿名保护预测结果;
确定所述文本匿名保护预测结果和模板Online会话资源文本的调试代价数据;
通过所述调试代价数据改进所述默认敏感文本处理网络的网络变量,以获得所述通用敏感文本处理网络。
在一些可选的实施例中,所述采用所述目标敏感数据表征向量和所述默认敏感文本处理网络,对所述Online会话资源调试文本进行敏感数据匿名保护,得到文本匿名保护预测结果,包括:
采用所述默认敏感文本处理网络,对所述Online会话资源调试文本进行文本特征提炼,得到敏感数据表征向量样例;
采用所述目标敏感数据表征向量,对所述敏感数据表征向量样例进行敏感要素泛化操作,得到所述Online会话资源调试文本的敏感文本泛化向量样例;
采用所述默认敏感文本处理网络,通过所述敏感文本泛化向量样例生成所述Online会话资源调试文本的文本匿名保护预测结果。
在一些可选的实施例中,所述采用所述默认敏感文本处理网络,通过所述敏感文本泛化向量样例生成所述Online会话资源调试文本的文本匿名保护预测结果,包括:
采用所述默认敏感文本处理网络,对所述敏感文本泛化向量样例进行文本恢复操作,得到Online会话资源恢复文本;
对所述Online会话资源调试文本进行内容判别操作,得到所述Online会话资源调试文本的内容判别结果;
采用所述内容判别结果,对所述Online会话资源恢复文本进行内容显著性调整,得到所述文本匿名保护预测结果。
在一些可选的实施例中,所述方法还包括:
对所述Online会话资源脱敏文本进行文本细节解析,得到所述Online会话资源脱敏文本的文本细节解析结果;
通过所述文本细节解析结果,对所述Online会话资源脱敏文本进行文本细节重构,得到Online会话资源脱敏重构文本。
在一些可选的实施例中,所述通过所述文本细节解析结果,对所述Online会话资源脱敏文本进行文本细节重构,得到Online会话资源脱敏重构文本,包括:
获得AI文本重构网络;
采用所述AI文本重构网络对所述Online会话资源脱敏文本进行文本重构,得到Online会话资源脱敏重构文本;
所述采用AI文本重构网络对所述Online会话资源脱敏文本进行文本重构,得到Online会话资源脱敏重构文本之前,包括:
获得重构文本样例和设定AI文本重构网络;
对所述重构文本样例进行扰动添加操作,得到扰动文本样例;
采用所述扰动文本样例对所述设定AI文本重构网络进行调试,得到所述AI文本重构网络。
第二方面是一种大数据AI决策服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据AI决策服务器执行第一方面的方法。
第三方面是一种用于实现应用AI决策的用户会话资源数据保护方法的软件产品,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行第一方面的方法。
第四方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
本发明实施例可以获得原始Online会话资源文本,对原始Online会话资源文本进行文本细节重构,得到Online会话资源重构文本;对Online会话资源重构文本进行敏感数据向量挖掘,得到目标敏感数据表征向量;获得通用敏感文本处理网络和目标敏感数据表征向量,其中,通用敏感文本处理网络用于将敏感数据表征形式调整为通用敏感数据表征形式;采用通用敏感文本处理网络和目标敏感数据表征向量,对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络,其中,中间敏感文本处理网络用于根据大数据保护条件对敏感数据表征形式进行进一步调整,将通用敏感文本处理网络的网络变量和中间敏感文本处理网络的网络变量进行改进,得到最终敏感文本处理网络;获得通用敏感数据表征向量和待匿名Online会话资源文本,并将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量;采用最终敏感文本处理网络和敏感数据拼接向量,对待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本,这样在对原始Online会话资源文本进行数据匿名脱敏保护时,可以保障数据匿名脱敏保护的精度和合理性。
附图说明
图1为本发明实施例提供的应用AI决策的用户会话资源数据保护方法的流程示意图。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的应用AI决策的用户会话资源数据保护方法的流程示意图,应用AI决策的用户会话资源数据保护方法可以通过大数据AI决策服务器实现,大数据AI决策服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据AI决策服务器执行步骤101-步骤106。
步骤101、获得原始Online会话资源文本,对原始Online会话资源文本进行文本细节重构,得到Online会话资源重构文本。
在本发明实施例中,原始Online会话资源文本包括需要进行文本细节优化重构的Online会话资源文本。比如,原始Online会话资源文本可以是存在病句的Online会话资源文本。又比如,原始Online会话资源文本可以是存在错别字的Online会话资源文本。
在一些可能的设计思路下,可以采用多种方案对原始Online会话资源文本进行文本细节重构。比如,基于设定AI文本重构网络对原始Online会话资源文本进行文本细节重构。
其中,设定AI文本重构网络可以以卷积神经网络+贝叶斯网络+激活函数为基础进行网络搭建。该设定AI文本重构网络可以对原始Online会话资源文本进行文本细节优化,从而得到更优质的Online会话资源重构文本。
步骤102、对Online会话资源重构文本进行敏感数据向量挖掘,得到目标敏感数据表征向量。
在一些可能的设计思路下,在得到Online会话资源重构文本后,可以对Online会话资源重构文本进行敏感数据向量挖掘(特征提取),从而得到目标敏感数据表征向量。
进一步地,目标敏感数据表征向量包括用于记载敏感数据的表征形式的文本特征。
在一些可能的设计思路下,可以采用多种方案对Online会话资源重构文本进行敏感数据向量挖掘,从而得到目标敏感数据表征向量。
比如,可以采用各种结合AI算法的网络对Online会话资源重构文本进行敏感数据向量挖掘,从而得到目标敏感数据表征向量。
步骤103、获得通用敏感文本处理网络和目标敏感数据表征向量,采用通用敏感文本处理网络和目标敏感数据表征向量,对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络。
在本发明实施例中,通用敏感文本处理网络包括可以将Online会话资源文本的敏感数据表征形式调整为通用敏感数据表征形式的网络。通用敏感文本处理网络可以理解为基础的敏感文本处理网络,因此通用敏感数据表征形式可以适应性理解为基础的敏感数据表征形式,基础的敏感数据表征形式可以理解为针对数据脱敏保护所设计的通用的脱敏保护输出形式。在此基础上,可以基于通用敏感文本处理网络和目标敏感数据表征向量实现设定敏感文本处理网络的迁移调试,从而得到中间敏感文本处理网络,中间敏感文本处理网络是设定敏感文本处理网络完成迁移调试之后的敏感文本处理网络。
本领域技术人员可知晓,通用敏感文本处理网络可以是以卷积神经网络、深度学习网络等。
本发明实施例中的Online会话资源文本可以包括不同种类的Online会话资源文本。比如,本发明实施例中的Online会话资源文本可以是元宇宙服务交互过程中所生成的Online会话资源文本,还可以是数字金融业务互动过程中所生成的Online会话资源文本,也可以是在线chatting过程中所产生的Online会话资源文本。
其中,敏感数据表征形式可以包括Online会话资源文本中敏感数据信息的匿名脱敏输出形式。
在一些可能的设计思路下,敏感数据表征形式可以灵活设计,比如基于K匿名进行处理,或者基于内容屏蔽方式进行处理等。
在一些可能的设计思路下,通用敏感数据表征形式可以包括多种Online会话资源文本的敏感数据表征形式。比如,存在5个敏感数据表征形式,这5个敏感数据表征形式都各不相同。为便于介绍,可以将这5个敏感数据表征形式视作通用敏感数据表征形式。
在一些可能的设计思路下,大数据保护条件可以包括匿名请求***期望Online会话资源文本所输出的敏感数据表征形式。比如,待匿名Online会话资源文本最初的敏感数据表征形式为个人信息屏蔽和业务互动内容屏蔽的敏感数据表征形式,但是匿名请求***期希望将待匿名Online会话资源文本转换为仅对个人信息进行脱敏保护的敏感数据表征形式,则仅对个人信息进行脱敏保护的敏感数据表征形式可以为大数据保护条件。
在一些可能的设计思路下,通用敏感数据表征向量包括可以用于记载敏感数据的表征形式的文本特征。
鉴于能够将各种不同敏感数据表征形式都视作通用敏感数据表征形式,因而通用敏感数据表征向量也可以包括各种不同敏感数据表征形式的特征。比如,通用敏感数据表征形式包括5种不同的敏感数据表征形式,则通用敏感数据表征向量可以包括5种不同的敏感数据表征向量。
在一些可能的设计思路下,在获得通用敏感数据表征向量之前,可以采用敏感数据输出处理网络对各种不同敏感数据表征形式的Online会话资源文本进行文本特征提炼,从而得到多种不同敏感数据表征形式的文本特征。
示例性的,可以采用敏感数据输出处理网络分别对多个Online会话资源文本进行文本特征提炼,从而得到多个敏感数据表征向量。
本领域技术人员可知晓,敏感数据输出处理网络也可以是根据实际需求搭建得到的神经网络。
在一些可能的设计思路下,目标敏感数据表征向量包括用于记载敏感数据的表征形式的文本特征。
在一些可能的设计思路下,目标敏感数据表征向量和通用敏感数据表征向量的输出方式可有多种。比如,目标敏感数据表征向量和通用敏感数据表征向量可以是线性数组等方式。
在一些可能的实施例中,在获得通用敏感文本处理网络之前,可以对未训练的敏感文本处理网络进行调试,从而得到通用敏感文本处理网络。比如,可以采用通用敏感数据表征向量和Online会话资源调试文本对未训练的敏感文本处理网络进行调试,从而得到通用敏感数据表征形式调整。
鉴于中间敏感文本处理网络的性能和通用敏感文本处理网络相似,都是为了实现敏感数据表征形式调整,而中间敏感文本处理网络可以应对一些指定的敏感数据表征形式。因而可以采用通用敏感文本处理网络和目标敏感数据表征向量,对设定敏感文本处理网络进行联合调试(比如迁移调试),以提高调试设定敏感文本处理网络的时效性。本领域技术人员可知晓,在进行联合调试时,可以结合监督训练和无监督训练实现。
其中,调试样例集包括对神经网络进行调试的样本资源。比如,在对设定敏感文本处理网络进行调试时,是采用目标敏感数据表征向量,对设定敏感文本处理网络进行调试,所以调试样例集为目标敏感数据表征向量。
在实际实施过程中,Online会话资源文本的数量通常不多,如果直接采用Online会话资源文本对待调试中间敏感文本处理网络进行调试,会造成中间敏感文本处理网络的性能偏低。因而可以采用性能较好的通用敏感文本处理网络对待调试中间敏感文本处理网络进行联合调试。
示例性的,步骤“采用通用敏感文本处理网络和所述目标敏感数据表征向量,对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络”,可以包括:采用通用敏感文本处理网络的网络变量,对设定敏感文本处理网络的网络变量进行回滚处理,得到默认敏感文本处理网络;采用目标敏感数据表征向量对所述默认敏感文本处理网络进行调试,得到所述中间敏感文本处理网络。
其中,网络变量可以理解为模型参数,回滚处理可以理解为模型参数初始化处理,设定敏感文本处理网络可以包括未经过调试的神经网络。比如,该设定敏感文本处理网络可以是一个卷积神经网络模型,但是还无法将Online会话资源文本基于大数据保护条件进行脱敏匿名保护的模型。
在一些可能的设计思路下,为了使得通用敏感文本处理网络可以对设定敏感文本处理网络进行联合调试,通用敏感文本处理网络的网络结构和设定敏感文本处理网络的网络结构一般是一样的。
比如,通用敏感文本处理网络的网络结构包括三层功能单元,则设定敏感文本处理网络的网络结构页可以包括三层功能单元。
在一些可能的设计思路下,采用通用敏感文本处理网络的网络变量对待调试中间敏感文本处理网络的网络变量进行回滚处理时,可以通过通用敏感文本处理网络的网络变量,对设定敏感文本处理网络的网络变量进行设置,从而使得默认敏感文本处理网络具有通用的敏感数据表征形式调整的性能。
比如,通用敏感文本处理网络中三层功能单元的网络变量分别是p1、p2和p3,则设定敏感文本处理网络中三层功能单元的网络变量也可以是p1、p2和p3。
在一些可能的设计思路下,为了让中间敏感文本处理网络可以将Online会话资源文本的敏感数据表征形式调整为大数据保护条件,可以采用Online会话资源文本对默认敏感文本处理网络进行调试,从而得到中间敏感文本处理网络。
示例性的,步骤“采用目标敏感数据表征向量对默认敏感文本处理网络进行调试,得到中间敏感文本处理网络”,可以包括:获得Online会话资源调试文本;采用目标敏感数据表征向量和所述默认敏感文本处理网络,对Online会话资源调试文本进行敏感数据匿名保护,得到文本匿名保护预测结果;确定文本匿名保护预测结果和模板Online会话资源文本的调试代价数据;通过调试代价数据改进默认敏感文本处理网络的网络变量,以获得通用敏感文本处理网络。
其中,Online会话资源调试文本可以理解为可以Online会话资源文本的训练样本。调试代价数据可以理解为损失信息或者损失数据。
在一些可能的设计思路下,对默认敏感文本处理网络(网络变量回滚处理后得到的初始化敏感文本处理网络)进行调试的思路,可以是采用默认敏感文本处理网络持续学习实现对Online会话资源调试文本进行敏感数据匿名保护的过程。示例性的,步骤“采用所述目标敏感数据表征向量和所述默认敏感文本处理网络,对所述Online会话资源调试文本进行敏感数据匿名保护,得到文本匿名保护预测结果”,可以包括:采用所述默认敏感文本处理网络,对所述Online会话资源调试文本进行文本特征提炼,得到敏感数据表征向量样例;采用所述目标敏感数据表征向量,对所述敏感数据表征向量样例进行敏感要素泛化操作,得到所述Online会话资源调试文本的敏感文本泛化向量样例;采用所述默认敏感文本处理网络,通过所述敏感文本泛化向量样例生成所述Online会话资源调试文本的文本匿名保护预测结果。
在一些可能的设计思路下,当采用默认敏感文本处理网络对Online会话资源调试文本进行文本特征提炼时,可以采用文本特征提炼子网(特征编码器)对Online会话资源调试文本进行文本特征提炼,从而得到敏感数据表征向量样例。
在一些可能的设计思路下,采用默认敏感文本处理网络对Online会话资源调试文本进行文本特征提炼时,可以采用默认敏感文本处理网络对Online会话资源调试文本进行敏感数据向量挖掘,得到Online会话资源调试文本的文本描述数据(可以理解为特征信息)。然后,通过Online会话资源调试文本的文本描述数据,得到敏感数据表征向量样例。示例性的,步骤“采用默认敏感文本处理网络,对Online会话资源调试文本进行文本特征提炼,得到敏感数据表征向量样例”,可以包括:采用默认敏感文本处理网络,对Online会话资源调试文本进行敏感数据向量挖掘处理,得到Online会话资源调试文本的文本描述数据;采用默认敏感文本处理网络,将文本描述数据进行区域投影操作,得到文本描述数据的文本区域定位标签;采用默认敏感文本处理网络,通过文本区域定位标签生成Online会话资源调试文本的敏感数据表征向量样例。
举例而言,区域投影操作可以理解为位置映射处理,文本区域定位标签用于反应文本描述数据的位置分布特征。此外,Online会话资源调试文本的文本描述数据包括可以表示Online会话资源调试文本的Online会话资源文本特征的信息。
在一些可能的设计思路下,通过Online会话资源调试文本内容的不同,在对Online会话资源调试文本进行敏感数据向量挖掘时,特征向量的挖掘偏向也会存在差异。
在一些可能的设计思路下,可以采用多种方案对Online会话资源调试文本进行敏感数据向量挖掘。比如,可以采用待调试通用敏感文本处理网络的梯度单元对Online会话资源文本进行滑动平均处理,从而得到Online会话资源调试文本的文本描述数据。又比如,可以采用待调试通用敏感文本处理网络的滑动平均算子对Online会话资源文本进行滑动平均处理,从而得到Online会话资源调试文本的文本描述数据。
在一些可能的设计思路下,得到Online会话资源调试文本的文本描述数据之后,可以将文本描述数据进行区域投影操作,得到文本描述数据的文本区域定位标签。
在一些可能的设计思路下,可以采用默认敏感文本处理网络,通过文本区域定位标签生成Online会话资源调试文本的敏感数据表征向量样例。
比如,可以采用设定中间特征将文本区域定位标签调整为敏感数据表征向量样例。其中,设定中间特征包括默认敏感文本处理网络中事先配置的特征向量,该特征向量可以将文本区域定位标签调整为敏感数据表征向量样例。
在一些可能的设计思路下,在得到Online会话资源调试文本的敏感数据表征向量之后,可以采用目标敏感数据表征向量,对敏感数据表征向量样例进行敏感要素泛化操作,从而得到Online会话资源调试文本的敏感文本泛化向量样例。其中,采用目标敏感数据表征向量,对Online会话资源调试文本进行敏感要素泛化操作时,可以采用多种方案。
比如,可以将目标敏感数据表征向量和敏感数据表征向量样例求和,从而得到Online会话资源调试文本的敏感文本泛化向量样例(进一步匿名处理之后的文本特征向量)。又比如,可以将目标敏感数据表征向量和敏感数据表征向量样例进行正则化处理,从而得到Online会话资源调试文本的敏感文本泛化向量样例。
比如,可以将敏感数据表征向量样例的评判指标(均值+方差)对齐到通用敏感数据表征向量的评判指标(均值+方差)上,从而得到敏感文本泛化向量样例。
在一些可能的设计思路下,在得到敏感文本泛化向量样例之后,可以采用默认敏感文本处理网络,通过敏感文本泛化向量样例生成Online会话资源调试文本的文本匿名保护预测结果。示例性的,步骤“采用所述默认敏感文本处理网络,通过所述敏感文本泛化向量样例生成所述Online会话资源调试文本的文本匿名保护预测结果”,可以包括:采用所述默认敏感文本处理网络,对所述敏感文本泛化向量样例进行文本恢复操作(文本特征译码处理),得到Online会话资源恢复文本(特征译码文本);对所述Online会话资源调试文本进行内容判别操作,得到所述Online会话资源调试文本的内容判别结果;采用所述内容判别结果,对所述Online会话资源恢复文本进行内容显著性调整,得到所述文本匿名保护预测结果。其中,内容判别操作可以理解为语义拆分处理。
在一些可能的设计思路下,当设定敏感文本处理网络是生成对抗网络时,可以采用生成对抗网络中的特征译码单元对敏感文本泛化向量样例进行文本恢复操作,从而得到Online会话资源恢复文本。
其中,Online会话资源恢复文本包括已经具有目标敏感数据表征向量的Online会话资源文本。但是,由于不同Online会话资源调试文本内容的不同,所以可以通过Online会话资源调试文本的内容,对Online会话资源恢复文本进行向量强化,从而使得得到的文本匿名保护预测结果尽可能完整准确。
在一些可能的设计思路下,可以对Online会话资源调试文本进行内容判别操作,得到Online会话资源调试文本的内容判别结果。然后,采用内容判别结果,对Online会话资源恢复文本进行内容显著性调整,得到文本匿名保护预测结果。
在一些可能的设计思路下,采用内容判别结果对Online会话资源恢复文本进行内容显著性调整(特征强化处理)时,可以将内容判别结果和Online会话资源恢复文本的文本描述数据进行叠加,从而实现对Online会话资源恢复文本进行内容显著性调整。
在一些可能的设计思路下,在得到文本匿名保护预测结果之后,可以确定文本匿名保护预测结果和模板Online会话资源文本的调试代价数据,从而可以通过调试代价数据对设定敏感文本处理网络的网络变量进行调整,以获得中间敏感文本处理网络。
其中,调试代价数据包括可以用来评判文本匿名保护预测结果和模板Online会话资源文本之间敏感数据表征形式的类似程度。比如,调试代价数据可以是一个变量值,当该变量值越小时,表明文本匿名保护预测结果和模板Online会话资源文本之间敏感数据表征形式的类似程度越高,网络的运行质量越佳。相反,当该变量值越大时,表明文本匿名保护预测结果和模板Online会话资源文本之间敏感数据表征形式的类似程度越低,网络的运行质量越差。
在一些可能的设计思路下,可以采用代价函数(比如交叉熵代价函数)确定文本匿名保护预测结果和模板Online会话资源文本的调试代价数据。
在一些可能的设计思路下,当设定敏感文本处理网络是生成对抗网络时,还可以采用生成对抗网络中的决策子网确定文本匿名保护预测结果和模板Online会话资源文本的调试代价数据。
在一些可能的设计思路下,得到调试代价数据之后,便可以通过调试代价数据对设定敏感文本处理网络的网络变量进行改进操作,从而得到中间敏感文本处理网络。
比如,当调试代价数据较大时,可以调整设定敏感文本处理网络的网络变量。然后再对最终敏感文本处理网络进行调试,看看调试代价数据是否得到改进。基于以上思路循环调试,直到调试代价数据满足要求时,便可以将当前的最终敏感文本处理网络确定为中间敏感文本处理网络。
在一些可能的设计思路下,在对未训练的敏感文本处理网络进行调试时,由于通用敏感数据表征形式可以包括多种Online会话资源文本的敏感数据表征形式,因此,通用敏感数据表征向量可以包括多种Online会话资源文本的敏感数据表征向量,所以未训练的敏感文本处理网络的调试样例集的丰富性和体量可以得到保证。因此,可以采用通用敏感数据表征向量,对未训练的敏感文本处理网络进行调试,从而得到通用敏感文本处理网络。其中,采用通用敏感数据表征形式Online会话资源文本对未训练的敏感文本处理网络进行调试的过程可以参考对默认敏感文本处理网络进行调试的过程。
在本发明实施例中,通过对待调试通用敏感文本处理网络进行调试,从而使得通用敏感文本处理网络可以掌握多种敏感数据表征形式的特征,并具有通用的对Online会话资源文本进行敏感数据表征形式调整的性能。然后,通过采用通用敏感数据表征向量对待调试中间敏感文本处理网络进行联合调试,从而提升对网络调试的时效性。
其中,在对网络进行调试的过程中,通过采用Online会话资源调试文本的内容判别结果,对Online会话资源文本进行文本强化,可以进一步地提高网络的运行质量,使得通过网络进行敏感数据表征形式调整后的Online会话资源文本匹配大数据保护条件,实现个性化且针对性的数据匿名保护。
步骤104、结合通用敏感文本处理网络的网络变量,对中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络。
在一些可能的设计思路下,为了更深层次地提升中间敏感文本处理网络的性能,还可以采用沿用性更佳的通用敏感文本处理网络对中间敏感文本处理网络进行调整,从而得到最终敏感文本处理网络。其中,最终敏感文本处理网络更为优质,经过最终敏感文本处理网络进行敏感数据表征形式调整的Online会话资源文本可以更加接近大数据保护条件。
在一些可能的设计思路下,步骤“结合通用敏感文本处理网络的网络变量,对中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络”,可以包括:从中间敏感文本处理网络中抽取得到至少一个拟改进网络单元;通过拟改进网络单元,在通用敏感文本处理网络中抽取得到对应的改进辅助单元;结合改进辅助单元的单元配置变量,对拟改进网络单元的单元配置变量进行改进操作,得到最终敏感文本处理网络。
本领域技术人员可知晓,功能单元/网络单元是神经网络中的一部分,每个功能单元都对应具有不同的功能。
在一些可能的设计思路下,在将通用敏感文本处理网络的网络变量对中间敏感文本处理网络的网络变量进行改进时,可以首先从中间敏感文本处理网络中抽取得到至少一个拟改进网络单元。其中,拟改进网络单元包括性能还需改进的功能单元。比如,当中间敏感文本处理网络中的敏感数据向量挖掘层(挖掘功能单元)性能较差时,便可以将敏感数据向量挖掘层确定为拟改进网络单元,并抽取出来。又比如,当中间敏感文本处理网络中的敏感数据向量挖掘层和下采样层的性能不佳时,便可以将敏感数据向量挖掘层和下采样层都抽取出来,并确定为拟改进网络单元。
在一些可能的设计思路下,可以通过拟改进网络单元,在通用敏感文本处理网络中抽取得到对应的改进辅助单元。其中,改进辅助单元包括对拟改进网络单元进行调整时作为参照的功能单元。
比如,当中间敏感文本处理网络中的敏感数据向量挖掘层和下采样层的性能不佳时,可以相应地在通用敏感文本处理网络中抽取得到敏感数据向量挖掘层和下采样层,并将通用敏感文本处理网络中的敏感数据向量挖掘层和下采样层确定为改进辅助单元。
在一些可能的设计思路下,在抽取得到拟改进网络单元和改进辅助单元之后,便可以将改进辅助单元的单元配置变量对拟改进网络单元的单元配置变量进行改进,得到最终敏感文本处理网络。其中,在采用改进辅助单元的单元配置变量对拟改进网络单元的单元配置变量进行改进操作时,可以将改进辅助单元的单元配置变量和拟改进网络单元的单元配置变量进行融合,从而得到最终敏感文本处理网络。示例性的,步骤“采用改进辅助单元的单元配置变量对拟改进网络单元的单元配置变量进行改进操作,得到最终敏感文本处理网络”,可以包括:确定拟改进网络单元的单元配置变量加权因子和改进辅助单元的单元配置变量加权因子;通过拟改进网络单元的单元配置变量加权因子和改进辅助单元的单元配置变量加权因子,将拟改进网络单元的单元配置变量和改进辅助单元的单元配置变量进行参数向量聚合,得到最终敏感文本处理网络。
比如,拟改进网络单元的单元配置变量为in1,改进辅助单元的单元配置变量为in2。其中,拟改进网络单元的单元配置变量加权因子为x1,改进辅助单元的单元配置变量加权因子为y1。则将拟改进网络单元的单元配置变量和改进辅助单元的单元配置变量进行向量聚合时,可以得到最新的单元配置变量IN=in1*x1+in2*y1。这样,可以使得中间敏感文本处理网络的单元配置变量发生变化,以使得最终敏感文本处理网络不仅可以将Online会话资源文本的敏感数据表征形式调整为大数据保护条件,而且还通过通用敏感文本处理网络提高了对Online会话资源文本进行敏感数据表征形式调整的性能。
步骤105、获得通用敏感数据表征向量和待匿名Online会话资源文本,并将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量。
在一些可能的设计思路下,待匿名Online会话资源文本可以包括进行敏感数据表征形式调整的Online会话资源文本。其中,本发明实施例对待匿名Online会话资源文本的敏感数据表征形式和内容并无限定。
其中,由于可以将各种不同敏感数据表征形式都视作通用敏感数据表征形式,因此,通用敏感数据表征向量也可以包括各种不同敏感数据表征形式的特征。比如,通用敏感数据表征形式包括5种不同的敏感数据表征形式,则通用敏感数据表征向量可以包括5种不同的敏感数据表征向量。
在一些可能的设计思路下,还可以将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量。
其中,由于通用敏感数据表征向量可以包括多个敏感数据表征向量,因此,可以将进行汇总操作后,再和目标敏感数据表征向量进行融合。示例性的,步骤“将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量”,可以包括:将通用敏感数据表征向量汇总操作,得到已汇总敏感数据表征向量;将已汇总敏感数据表征向量和目标敏感数据表征向量进行向量聚合,得到敏感数据拼接向量。
其中,可以采用多种方案对通用敏感数据表征向量进行汇总操作。比如,可以将多个敏感数据表征向量进行平均化,从而得到已汇总敏感数据表征向量。又比如,可以确定多个敏感数据表征向量的方差,从而得到已汇总敏感数据表征向量。
在得到已汇总敏感数据表征向量之后,便可以将已汇总敏感数据表征向量和目标敏感数据表征向量进行向量聚合,得到敏感数据拼接向量。
比如,可以将已汇总敏感数据表征向量和目标敏感数据表征向量进行求和,从而得到敏感数据拼接向量。
在一些可能的设计思路下,步骤“将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量”和步骤“采用通用敏感文本处理网络的网络变量对中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络”的实施先后不限。比如,可以先执行步骤“将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量”,也可以先执行步骤“采用通用敏感文本处理网络的网络变量对中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络”。又比如,还可以同步实施。
步骤106、采用最终敏感文本处理网络和敏感数据拼接向量,对待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本。
在一些可能的设计思路下,可以采用最终敏感文本处理网络和敏感数据拼接向量,对待匿名Online会话资源文本进行敏感数据匿名保护,从而得到满足大数据保护条件的Online会话资源脱敏文本。示例性的,步骤“采用最终敏感文本处理网络和敏感数据拼接向量,对待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本”,可以包括:采用最终敏感文本处理网络对待匿名Online会话资源文本进行文本特征提炼,得到待匿名Online会话资源文本的待匿名敏感文本向量;采用敏感数据拼接向量对待匿名敏感文本向量进行敏感要素泛化操作,得到敏感文本泛化向量;采用最终敏感文本处理网络对敏感文本泛化向量进行文本恢复操作,得到满足大数据保护条件的Online会话资源脱敏文本。
在一些可能的设计思路下,当最终敏感文本处理网络是生成对抗网络时,可以采用生成对抗网络中的文本特征提炼子网(特征编码器)对待匿名Online会话资源文本进行文本特征提炼,得到待匿名Online会话资源文本的待匿名Online会话资源文本敏感数据表征形式。
在一些可能的设计思路下,可以采用最终敏感文本处理网络对待匿名Online会话资源文本进行敏感数据向量挖掘处理,得到待匿名Online会话资源文本的文本描述数据。然后,通过待匿名Online会话资源文本的文本描述数据,得到待匿名敏感文本向量。示例性的,步骤“采用最终敏感文本处理网络对待匿名Online会话资源文本进行文本特征提炼,得到待匿名Online会话资源文本的待匿名敏感文本向量”,可以包括:采用最终敏感文本处理网络,对待匿名Online会话资源文本进行敏感数据向量挖掘处理,得到待匿名Online会话资源文本的文本描述数据;采用最终敏感文本处理网络,将文本描述数据进行区域投影操作,得到文本描述数据的文本区域定位标签;采用最终敏感文本处理网络,通过文本区域定位标签生成待匿名Online会话资源文本的待匿名敏感文本向量。
其中,可以采用多种方案对待匿名Online会话资源文本进行敏感数据向量挖掘。比如,可以采用最终敏感文本处理网络的梯度单元对待匿名Online会话资源文本进行滑动平均处理,从而得到待匿名Online会话资源文本的文本描述数据。又比如,可以采用最终敏感文本处理网络的滑动平均算子对待匿名Online会话资源文本进行滑动平均处理,从而得到待匿名Online会话资源文本的文本描述数据。将文本描述数据进行区域投影操作时,可以采用预设分布条件对文本描述数据进行区域投影操作。在根据文本区域定位标签生成待匿名Online会话资源文本的待匿名敏感文本向量时,可以采用设定中间特征将文本区域定位标签调整为待匿名敏感文本向量。
在一些可能的设计思路下,可以通过多种方案,采用敏感数据拼接向量对待匿名敏感文本向量进行敏感要素泛化操作(特征泛化处理),得到敏感文本泛化向量。
比如,可以将敏感数据拼接向量和待匿名敏感文本向量进行整合,从而得到敏感文本泛化向量。
在一些可能的设计思路下,当最终敏感文本处理网络是生成对抗网络时,可以采用生成对抗网络中的特征译码单元对待匿名Online会话资源文本进行文本特征提炼,得到满足大数据保护条件的Online会话资源脱敏文本。
在一些可能的设计思路下,在得到Online会话资源脱敏文本之后,还可以对Online会话资源脱敏文本的优质程度进行分析,当Online会话资源脱敏文本的优质程度较差时,则可以对Online会话资源脱敏文本的优质程度进行提升。示例性的,该方法还可以包括:对Online会话资源脱敏文本进行文本细节解析,得到Online会话资源脱敏文本的文本细节解析结果;通过文本细节解析结果,对Online会话资源脱敏文本进行文本细节重构,得到Online会话资源脱敏重构文本。
其中,Online会话资源脱敏文本的文本细节解析结果包括可以表示Online会话资源文本质量的信息。比如,文本细节解析结果可以包括Online会话资源脱敏文本的词语准确度、Online会话资源文本大小等信息。
在一些可能的设计思路下,可以通过文本细节解析结果,对Online会话资源脱敏文本进行文本细节重构,得到完成重构的Online会话资源脱敏文本,从而提高Online会话资源脱敏文本的细节质量。
在一些可能的设计思路下,还可以采用AI文本重构网络对Online会话资源脱敏文本进行文本重构。其中,AI文本重构网络可以是深度学习模型,还可以是其他类型的神经网络模型。本领域技术人员可以根据实际需求灵活调整AI文本重构网络的网络层结构。
在一些可能的设计思路下,在采用AI文本重构网络对Online会话资源脱敏文本进行文本重构之前,可以获得设定AI文本重构网络,并对设定AI文本重构网络进行调试,从而得到AI文本重构网络。其中,对设定AI文本重构网络的步骤可以包括:获得重构文本样例和待调试AI文本重构网络;对重构文本样例进行扰动添加操作,得到扰动文本样例;采用扰动文本样例对设定AI文本重构网络进行调试,得到AI文本重构网络。
其中,重构文本样例可以包括任意敏感数据表征形式的优化后Online会话资源文本。设定AI文本重构网络可以以卷积神经网络+贝叶斯网络+激活函数为基础进行网络搭建。
在一些可能的设计思路下,由于重构文本样例匮乏,因此可以对重构文本样例进行扰动添加操作(噪声添加处理),得到扰动文本样例。然后,采用扰动文本样例对待调试AI文本重构网络进行调试,从而得到AI文本重构网络。其中,扰动添加操作包括主动减少重构文本样例的优质程度的处理。其中,扰动添加操作的方式可以有多种。比如,可以通过错别词句添加等。
在得到扰动文本样例之后,可以采用扰动文本样例对待调试AI文本重构网络进行调试,从而得到AI文本重构网络。
在一些可能的设计思路下,在得到AI文本重构网络后,便可以采用AI文本重构网络对Online会话资源脱敏文本进行文本细节重构。比如,若Online会话资源脱敏文本存在词语准确度较低的问题,则可以采用AI文本重构网络对Online会话资源脱敏文本进行文本细节重构,从而提高Online会话资源脱敏文本的优质程度。
本发明实施例提出了一种应用AI决策的用户会话资源数据保护方法,该应用AI决策的用户会话资源数据保护方法包括:获得通用敏感文本处理网络、中间敏感文本处理网络、通用敏感数据表征向量、目标敏感数据表征向量和待匿名Online会话资源文本,其中,通用敏感文本处理网络用于将敏感数据表征形式调整为通用敏感数据表征形式,中间敏感文本处理网络用于根据大数据保护条件对敏感数据表征形式进行进一步调整;采用通用敏感文本处理网络的网络变量对中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络;将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量;采用最终敏感文本处理网络和敏感数据拼接向量,对待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本。通过采用通用敏感文本处理网络的网络变量对中间敏感文本处理网络的网络变量进行改进操作,从而使得最终敏感文本处理网络生成的Online会话资源脱敏文本更加匹配大数据保护条件,这样在对原始Online会话资源文本进行数据匿名脱敏保护时,可以保障数据匿名脱敏保护的精度和合理性。
此外,在生成Online会话资源脱敏文本时,还采用敏感数据拼接向量。由于敏感数据拼接向量是由通用敏感数据表征向量和目标敏感数据表征向量进行向量聚合所得,因此敏感数据拼接向量能够兼容数据匿名保护的不同需求,可以进一步地提高对Online会话资源文本进行敏感数据表征形式调整的精度和可信度。
另外,本发明实施例还可以对Online会话资源脱敏文本进行细节重构,提高了Online会话资源脱敏文本的优质程度。
在本发明实施例中,大数据AI决策服务器可以获得通用敏感文本处理网络、中间敏感文本处理网络、通用敏感数据表征向量、目标敏感数据表征向量和待匿名Online会话资源文本;大数据AI决策服务器采用通用敏感文本处理网络的网络变量对中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络;大数据AI决策服务器将通用敏感数据表征向量和目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量;大数据AI决策服务器采用最终敏感文本处理网络和敏感数据拼接向量,对待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本,这样在对原始Online会话资源文本进行数据匿名脱敏保护时,可以保障数据匿名脱敏保护的精度和合理性。
在上述内容的基础上,在一些可独立的实施例中,在所述采用所述最终敏感文本处理网络和所述敏感数据拼接向量,对所述待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本之后,所述方法还包括:响应于推送平台***发送的会话资源推送请求,确定所述会话资源推送请求指向的在线会话客户端的问答偏好标签;在所述问答偏好标签与所述Online会话资源脱敏文本匹配时,将所述Online会话资源脱敏文本推送给所述在线会话客户端。
可见,在推送Online会话资源脱敏文本之前,通过问答偏好标签的匹配处理,可以保障数据推送的精度,减少推送偏差造成的资源浪费,进一步地,由于推送的Online会话资源脱敏文本是经过数据匿名保护的,因而在线会话客户端在使用Online会话资源脱敏文本时,Online会话资源脱敏文本中的隐私信息能够免于被泄露,保障了相关用户的隐私权益。
在上述内容的基础上,在一些可独立的实施例中,所述响应于推送平台***发送的会话资源推送请求,确定所述会话资源推送请求指向的在线会话客户端的问答偏好标签,包括步骤201-步骤206。
步骤201、响应于所述在线会话客户端的问答记录调取授权信息,获取所述在线会话客户端的在线问答信息集,其中,所述在线问答信息集包括存在时间先后的W组在线问答信息,所述W为大于或等于1的整数。
步骤202、根据所述在线问答信息集获取追问应答信息集,其中,所述追问应答信息集包括存在时间先后的W组追问应答信息。
步骤203、基于所述在线问答信息集,通过在线对话分析算法所包括的第一对话识别组件获取在线问答交互描述集,其中,所述在线问答交互描述集包括W个在线问答交互描述。
步骤204、基于所述追问应答信息集,通过所述在线对话分析算法所包括的第二对话识别组件获取追问应答交互描述集,其中,所述追问应答交互描述集包括W个追问应答交互描述。
步骤205、基于所述在线问答交互描述集以及所述追问应答交互描述集,通过所述在线对话分析算法所包括的偏好解析组件获取所述在线问答信息集所对应的偏好解析权重。
步骤206、根据所述偏好解析权重确定所述在线问答信息集的问答偏好标签。
可见,通过结合在线问答信息和追问应答信息进行问答偏好标签的确定,能够在输出偏好解析权重的过程中充分考虑在线问答交互描述和追问应答交互描述所表征的用户问答需求,这样可以保障偏好解析权重的可信度,进而提高问答偏好标签的确定精度。
在上述内容的基础上,在一些可独立的实施例中,所述基于所述在线问答交互描述集以及所述追问应答交互描述集,通过所述在线对话分析算法所包括的偏好解析组件获取所述在线问答信息集所对应的偏好解析权重,包括:基于所述在线问答交互描述集,通过所述在线对话分析算法所包括的第一场景关注模块获取W个第一描述向量,其中,每个第一描述向量对应于一个在线问答交互描述;基于所述追问应答交互描述集,通过所述在线对话分析算法所包括的第二场景关注模块获取W个第二描述向量,其中,每个第二描述向量对应于一个追问应答交互描述;对所述W个第一描述向量以及所述W个第二描述向量进行拼接处理,得到W个目标描述向量,其中,每个目标描述向量包括一个第一描述向量以及一个第二描述向量;基于所述W个目标描述向量,通过所述在线对话分析算法所包括的所述偏好解析组件获取所述在线问答信息集所对应的偏好解析权重。
本发明实施例还提供了一种用于实现应用AI决策的用户会话资源数据保护方法的软件产品,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行上述的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述的方法。
综上,提供一种应用AI决策的用户会话资源数据保护方法及软件产品,该方法及软件产品结合资源文本大数据对AI神经网络进行联合调试以保障AI神经网络的性能。在AI神经网络的应用阶段,结合大数据匿名脱敏技术对Online会话资源文本进行大数据匿名脱敏保护,能够提高大数据匿名脱敏保护的精度和合理性。此外,由于Online会话资源文本可以涉及元宇宙、数字服务等领域,因此该方法及软件产品的转用性高,可扩展性强
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种应用AI决策的用户会话资源数据保护方法,其特征在于,应用于大数据AI决策服务器,所述方法包括:
获得原始Online会话资源文本,对所述原始Online会话资源文本进行文本细节重构,得到Online会话资源重构文本;
对所述Online会话资源重构文本进行敏感数据向量挖掘,得到目标敏感数据表征向量;
获得通用敏感文本处理网络,采用所述通用敏感文本处理网络和所述目标敏感数据表征向量对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络;
结合所述通用敏感文本处理网络的网络变量,对所述中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络;
获得通用敏感数据表征向量和待匿名Online会话资源文本,并将所述通用敏感数据表征向量和所述目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量;
采用所述最终敏感文本处理网络和所述敏感数据拼接向量,对所述待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本;
所述采用所述通用敏感文本处理网络和所述目标敏感数据表征向量,对设定敏感文本处理网络进行联合调试,得到中间敏感文本处理网络,包括:
采用所述通用敏感文本处理网络的网络变量,对所述设定敏感文本处理网络的网络变量进行回滚处理,得到默认敏感文本处理网络;
采用所述目标敏感数据表征向量对所述默认敏感文本处理网络进行调试,得到所述中间敏感文本处理网络;
其中,所述采用所述目标敏感数据表征向量对所述默认敏感文本处理网络进行调试,得到所述中间敏感文本处理网络,包括:
获得Online会话资源调试文本;
采用所述目标敏感数据表征向量和所述默认敏感文本处理网络,对所述Online会话资源调试文本进行敏感数据匿名保护,得到文本匿名保护预测结果;
确定所述文本匿名保护预测结果和模板Online会话资源文本的调试代价数据;
通过所述调试代价数据改进所述默认敏感文本处理网络的网络变量,以获得所述中间敏感文本处理网络;
其中,所述采用所述目标敏感数据表征向量和所述默认敏感文本处理网络,对所述Online会话资源调试文本进行敏感数据匿名保护,得到文本匿名保护预测结果,包括:
采用所述默认敏感文本处理网络,对所述Online会话资源调试文本进行文本特征提炼,得到敏感数据表征向量样例;
采用所述目标敏感数据表征向量,对所述敏感数据表征向量样例进行敏感要素泛化操作,得到所述Online会话资源调试文本的敏感文本泛化向量样例;
采用所述默认敏感文本处理网络,通过所述敏感文本泛化向量样例生成所述Online会话资源调试文本的文本匿名保护预测结果;
其中,所述采用所述默认敏感文本处理网络,通过所述敏感文本泛化向量样例生成所述Online会话资源调试文本的文本匿名保护预测结果,包括:
采用所述默认敏感文本处理网络,对所述敏感文本泛化向量样例进行文本恢复操作,得到Online会话资源恢复文本;
对所述Online会话资源调试文本进行内容判别操作,得到所述Online会话资源调试文本的内容判别结果;
采用所述内容判别结果,对所述Online会话资源恢复文本进行内容显著性调整,得到所述文本匿名保护预测结果。
2.如权利要求1所述的应用AI决策的用户会话资源数据保护方法,其特征在于,所述采用所述最终敏感文本处理网络和所述敏感数据拼接向量,对所述待匿名Online会话资源文本进行敏感数据匿名保护,得到满足大数据保护条件的Online会话资源脱敏文本,包括:
采用所述最终敏感文本处理网络对所述待匿名Online会话资源文本进行文本特征提炼,得到所述待匿名Online会话资源文本的待匿名敏感文本向量;
采用所述敏感数据拼接向量对所述待匿名敏感文本向量进行敏感要素泛化操作,得到敏感文本泛化向量;
采用所述最终敏感文本处理网络对所述敏感文本泛化向量进行文本恢复操作,得到所述满足大数据保护条件的Online会话资源脱敏文本。
3.如权利要求2所述的应用AI决策的用户会话资源数据保护方法,其特征在于,所述采用所述最终敏感文本处理网络对所述待匿名Online会话资源文本进行文本特征提炼,得到所述待匿名Online会话资源文本的待匿名敏感文本向量,包括:
采用所述最终敏感文本处理网络,对所述待匿名Online会话资源文本进行敏感数据向量挖掘处理,得到所述待匿名Online会话资源文本的文本描述数据;
采用所述最终敏感文本处理网络,将所述文本描述数据进行区域投影操作,得到所述文本描述数据的文本区域定位标签;
采用所述最终敏感文本处理网络,通过所述文本区域定位标签生成所述待匿名Online会话资源文本的待匿名敏感文本向量。
4.如权利要求1所述的应用AI决策的用户会话资源数据保护方法,其特征在于,所述将所述通用敏感数据表征向量和所述目标敏感数据表征向量进行表征向量拼接操作,得到敏感数据拼接向量,包括:
将所述通用敏感数据表征向量进行汇总操作,得到已汇总敏感数据表征向量;
将所述已汇总敏感数据表征向量和所述目标敏感数据表征向量进行向量聚合,得到敏感数据拼接向量。
5.如权利要求1所述的应用AI决策的用户会话资源数据保护方法,其特征在于,所述结合所述通用敏感文本处理网络的网络变量,对所述中间敏感文本处理网络的网络变量进行改进操作,得到最终敏感文本处理网络,包括:
从所述中间敏感文本处理网络中抽取得到至少一个拟改进网络单元;
通过所述拟改进网络单元,在所述通用敏感文本处理网络中抽取得到对应的改进辅助单元;
结合所述改进辅助单元的单元配置变量,对所述拟改进网络单元的单元配置变量进行改进操作,得到所述最终敏感文本处理网络。
6.如权利要求5所述的应用AI决策的用户会话资源数据保护方法,其特征在于,所述结合所述改进辅助单元的单元配置变量,对所述拟改进网络单元的单元配置变量进行改进操作,得到所述最终敏感文本处理网络,包括:
确定所述拟改进网络单元的单元配置变量加权因子和所述改进辅助单元的单元配置变量加权因子;
通过所述拟改进网络单元的单元配置变量加权因子和所述改进辅助单元的单元配置变量加权因子,将所述拟改进网络单元的单元配置变量和所述改进辅助单元的单元配置变量进行向量聚合,得到所述最终敏感文本处理网络。
7.如权利要求1所述的应用AI决策的用户会话资源数据保护方法,其特征在于,所述方法还包括:
对所述Online会话资源脱敏文本进行文本细节解析,得到所述Online会话资源脱敏文本的文本细节解析结果;
通过所述文本细节解析结果,对所述Online会话资源脱敏文本进行文本细节重构,得到Online会话资源脱敏重构文本;
其中,所述通过所述文本细节解析结果,对所述Online会话资源脱敏文本进行文本细节重构,得到Online会话资源脱敏重构文本,包括:
获得AI文本重构网络;
采用所述AI文本重构网络对所述Online会话资源脱敏文本进行文本重构,得到Online会话资源脱敏重构文本;
所述采用所述AI文本重构网络对所述Online会话资源脱敏文本进行文本重构,得到Online会话资源脱敏重构文本之前,包括:
获得重构文本样例和设定AI文本重构网络;
对所述重构文本样例进行扰动添加操作,得到扰动文本样例;
采用所述扰动文本样例对所述设定AI文本重构网络进行调试,得到所述AI文本重构网络。
8.一种用于实现应用AI决策的用户会话资源数据保护方法的软件产品,其特征在于,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行如权利要求1-7中一个或多个所述的方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时如权利要求1-7中一个或多个所述的方法。
CN202310371962.7A 2023-04-10 2023-04-10 应用ai决策的用户会话资源数据保护方法及软件产品 Active CN116361858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310371962.7A CN116361858B (zh) 2023-04-10 2023-04-10 应用ai决策的用户会话资源数据保护方法及软件产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310371962.7A CN116361858B (zh) 2023-04-10 2023-04-10 应用ai决策的用户会话资源数据保护方法及软件产品

Publications (2)

Publication Number Publication Date
CN116361858A CN116361858A (zh) 2023-06-30
CN116361858B true CN116361858B (zh) 2024-01-26

Family

ID=86938333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310371962.7A Active CN116361858B (zh) 2023-04-10 2023-04-10 应用ai决策的用户会话资源数据保护方法及软件产品

Country Status (1)

Country Link
CN (1) CN116361858B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN111639477A (zh) * 2020-06-01 2020-09-08 北京中科汇联科技股份有限公司 一种文本重构训练方法及***
CN111680497A (zh) * 2019-02-25 2020-09-18 北京嘀嘀无限科技发展有限公司 会话特征提取方法、会话识别模型训练方法及装置
CN112434331A (zh) * 2020-11-20 2021-03-02 百度在线网络技术(北京)有限公司 一种数据脱敏方法、装置、设备以及存储介质
CN113886885A (zh) * 2021-10-21 2022-01-04 平安科技(深圳)有限公司 数据脱敏方法、数据脱敏装置、设备及存储介质
CN114398665A (zh) * 2021-12-14 2022-04-26 杭萧钢构股份有限公司 一种数据脱敏方法、装置、存储介质及终端
CN114598671A (zh) * 2022-03-21 2022-06-07 北京明略昭辉科技有限公司 会话消息处理方法、装置、存储介质以及电子设备
EP4016355A2 (en) * 2022-03-25 2022-06-22 i2x GmbH Anonymized sensitive data analysis
CN115664785A (zh) * 2022-10-21 2023-01-31 重庆智能工程职业学院 一种大数据平台数据脱敏***
CN115712703A (zh) * 2022-12-26 2023-02-24 合肥随铥互联网科技有限公司 应用于大数据匿名处理的决策分析方法及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11830099B2 (en) * 2020-11-09 2023-11-28 Adobe Inc. Machine learning modeling for protection against online disclosure of sensitive data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858280A (zh) * 2019-01-21 2019-06-07 深圳昂楷科技有限公司 一种基于机器学习的脱敏方法、装置及脱敏设备
CN111680497A (zh) * 2019-02-25 2020-09-18 北京嘀嘀无限科技发展有限公司 会话特征提取方法、会话识别模型训练方法及装置
CN111639477A (zh) * 2020-06-01 2020-09-08 北京中科汇联科技股份有限公司 一种文本重构训练方法及***
CN112434331A (zh) * 2020-11-20 2021-03-02 百度在线网络技术(北京)有限公司 一种数据脱敏方法、装置、设备以及存储介质
CN113886885A (zh) * 2021-10-21 2022-01-04 平安科技(深圳)有限公司 数据脱敏方法、数据脱敏装置、设备及存储介质
CN114398665A (zh) * 2021-12-14 2022-04-26 杭萧钢构股份有限公司 一种数据脱敏方法、装置、存储介质及终端
CN114598671A (zh) * 2022-03-21 2022-06-07 北京明略昭辉科技有限公司 会话消息处理方法、装置、存储介质以及电子设备
EP4016355A2 (en) * 2022-03-25 2022-06-22 i2x GmbH Anonymized sensitive data analysis
CN115664785A (zh) * 2022-10-21 2023-01-31 重庆智能工程职业学院 一种大数据平台数据脱敏***
CN115712703A (zh) * 2022-12-26 2023-02-24 合肥随铥互联网科技有限公司 应用于大数据匿名处理的决策分析方法及服务器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Protection of privacy in big data using SDD framework with DNN;B. Ravi Prasad 等;2017 2nd International Conference for Convergence in Technology (I2CT);全文 *
动态数据脱敏技术的研究;董子娴;中国优秀硕士学位论文全文数据库 信息科技辑(第(2022)01期期);I138-188 *
基于图表示学习的会话感知推荐模型;曾义夫;牟其林;周乐;蓝天;刘峤;;计算机研究与发展(03);全文 *

Also Published As

Publication number Publication date
CN116361858A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111723209B (zh) 半监督文本分类模型训练方法、文本分类方法、***、设备及介质
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
Yu et al. Visual relationship detection with internal and external linguistic knowledge distillation
JP2023541649A (ja) 連合学習システムにおけるセマンティック学習
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
US20200401910A1 (en) Intelligent causal knowledge extraction from data sources
US10937417B2 (en) Systems and methods for automatically categorizing unstructured data and improving a machine learning-based dialogue system
CN112347361B (zh) 推荐对象的方法、神经网络及其训练方法、设备和介质
US20230108863A1 (en) Deep learning document generation from conversation transcripts
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
WO2022178011A1 (en) Auditing citations in a textual document
CN117493529B (zh) 基于自然语言模型的拟人对话方法、装置及电子设备
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
US11699435B2 (en) System and method to interpret natural language requests and handle natural language responses in conversation
CN115455151A (zh) 一种ai情绪可视化识别方法、***及云平台
CN111680132B (zh) 一种用于互联网文本信息的噪声过滤和自动分类方法
CN116361858B (zh) 应用ai决策的用户会话资源数据保护方法及软件产品
CN114048319B (zh) 基于注意力机制的幽默文本分类方法、装置、设备、介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN116976341A (zh) 实体识别方法、装置、电子设备、存储介质及程序产品
US11222177B2 (en) Intelligent augmentation of word representation via character shape embeddings in a neural network
CN113779202A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN113407683A (zh) 一种文本信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230903

Address after: 530200 No.1 Wuxiang Avenue, Liangqing District, Nanning City, Guangxi Zhuang Autonomous Region

Applicant after: Yang Quan

Address before: 530200 No. 12-1, Zhiyuan 1st Street, Liangqing District, Nanning, Guangxi

Applicant before: Guangxi Nanning Xibei Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240105

Address after: 100000 room 17001, 1701, 17th floor, No. 25, Middle East Third Ring Road, Chaoyang District, Beijing

Applicant after: Beijing infinite free culture media Co.,Ltd.

Address before: Room 528, 5th Floor, Building D, Building 33, No. 99 Kechuang 14th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing, 100000 (Yizhuang Cluster, High end Industrial Zone, Beijing Pilot Free Trade Zone)

Applicant before: Beijing Peihong Wangzhi Technology Co.,Ltd.

Effective date of registration: 20240105

Address after: Room 528, 5th Floor, Building D, Building 33, No. 99 Kechuang 14th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing, 100000 (Yizhuang Cluster, High end Industrial Zone, Beijing Pilot Free Trade Zone)

Applicant after: Beijing Peihong Wangzhi Technology Co.,Ltd.

Address before: 530200 No.1 Wuxiang Avenue, Liangqing District, Nanning City, Guangxi Zhuang Autonomous Region

Applicant before: Yang Quan

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant