CN113837554B

CN113837554B - 基于多模态关键信息匹配的食品安全风险识别方法及***

Info

Publication number: CN113837554B
Application number: CN202111008264.8A
Authority: CN
Inventors: 宋海红; 葛岚; 胥洪; 张晓�; 谢亮; 王炳军
Original assignee: Qingdao Customs Of People's Republic Of China
Current assignee: Qingdao Customs Of People's Republic Of China
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-07-21
Anticipated expiration: 2041-08-30
Also published as: CN113837554A

Abstract

本发明涉及一种基于多模态关键信息匹配的食品安全风险识别方法及***，该方法包括：建立风险信息数据库，形成食品关键信息溯源图谱，将风险信息数据库与食品关键信息溯源图谱进行匹配；预训练风险信息数据库和食品关键信息溯源图谱中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量；通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型；将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库，通过风险信息交互表示分级库查询待识别食品是否存在风险；可缓解目前技术无法对食品全过程监管和多模态风险动态更新的问题。

Description

基于多模态关键信息匹配的食品安全风险识别方法及***

技术领域

本发明涉及食品安全管理技术领域，尤其涉及一种基于多模态关键信息匹配的食品安全风险识别方法及***。

背景技术

随着经济全球化的深入发展，世界各国的经济联系日益紧密，食品贸易规模不断扩大。作为一种特殊商品，食品的安全问题关系人类健康，受到世界各国的广泛关注。为了维护食品安全，各个国家和地区都设立了相关的监管机构，建立食品风险监察机制，对市场上的食品进行核查，比对风险，并面向社会发布风险公告。同时，食品链条上的企业为增加产品的信任，也会积极配合监管机构，提供原材料种养殖、食品加工、运输、检测等关键环节的信息，确保信息透明、可追溯。

然而，目前的监管状况存在人民日益增长的食品安全需要与食品监管任务繁重的矛盾。这种矛盾产生的原因主要有：1)消费者所接触到的食品从原材料到产品需要经过一系列错综复杂的环节及流程，监管人员任务繁重，难以分析整个流程并判定风险，通常只能聚焦最终产品的抽检信息；2)从多种渠道收集的食品风险信息，数据量巨大，多种数据模态共现，且不定期动态更新，进行信息比对的成本巨大。

为了保障食品安全，及时发现潜在风险，减少人力成本，机器学习已成为提升传统食品监督手段的有效途径之一。中国专利202010622308.5和202011558703.8都公开了一种基于食品安全图谱的风险评估方法。然而，这类方法都是通过将最终产品的图谱信息输入含有固定风险知识的模型来预测风险等级，无法满足食品过程数据的监管及多模态风险知识动态更新的需求。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于多模态关键信息匹配的食品安全风险识别方法及***，基于深度学习、表示学习及信息检索等技术，提出一种针对食品关键过程数据和多模态风险信息匹配的食品安全风险智能识别方法及***，首先通过表示学习技术，分别获取多模态风险和食品关键过程的表示向量，进一步通过风险匹配的方式识别食品安全风险，可缓解目前技术无法对食品全过程监管和多模态风险动态更新的问题。

根据本发明的第一方面，提供了一种基于多模态关键信息匹配的食品安全风险识别方法，包括：步骤1，采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库；

步骤2，收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱，将所述风险信息数据库与所述食品关键信息溯源图谱进行匹配；所述标签由人工根据风险信息数据库中的公告和/或舆情信息添加，表示该食品关键信息溯源图谱是否与任意一条风险信息匹配；

步骤3，通过表示学习技术，预训练风险信息数据库和食品关键信息溯源图谱中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量；

步骤4，通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型；

步骤5，将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库，通过所述风险信息交互表示分级库查询待识别食品是否存在风险。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述步骤1包括：

步骤101，通过文字识别技术采集公开的多种数据模态的食品风险信息；所述多种数据模态包括文本和表格；

步骤102，将采集的食品风险信息通过机器翻译为同一语言种类；

步骤103，将采集的所述食品风险信息与本地自有的食品风险信息进行汇总，建立所述风险信息数据库。

可选的，所述步骤2包括：

步骤201，收集所述食品溯源链条上种养殖、生产加工以及运输各个环节的所述食品关键过程信息，所述食品关键过程信息包括：温度、湿度、批次号以及原材料；

步骤202，汇总并提取所述关键过程信息，以图谱的形式储存所述食品溯源链条上各环节上的实体与关系，得到所述食品溯源图谱；

步骤203，标注出所述风险信息数据库中与食品溯源图谱匹配的食品安全风险信息。

可选的，所述步骤3包括：

步骤301，对于任意一个模态k的单模态编码器f_k，分别随机隐藏对应单模态数据中的部分元素，利用数据内部的上下文关联，进行第一阶段训练，预测出隐藏的元素，损失函数为：

其中，S为输入单模态编码器的样本中被隐藏元素的集合，f_k(·)是单模态编码器输出的隐藏元素预测值，y_x为隐藏元素对应的真实值，φ为根据相应模态预测选定的衡量预测值与真实值差异的函数；

步骤302，对于多模态交互编码器f_m，随机隐藏共现模态数据中的部分元素，利用模态间的语义关联，进行第二阶段训练，预测出隐藏的元素，损失函数为：

其中，T为输入多模态交互编码器的样本中被隐藏元素的集合，f_m(·)是多模态交互编码器输出的隐藏元素预测值；

步骤303，分别利用池化操作，将所述多模态交互编码器f_m和所述食品关键信息溯源图谱的图编码器的输出压缩为一维的表示向量：风险信息交互表示向量h_R和食品关键信息表示向量h_G。

可选的，所述步骤4包括：

步骤401，通过预先选定的距离函数或多层感知机，计算所述风险信息交互表示向量h_R和食品关键信息表示向量h_G之间的匹配概率p(h_R,h_G)；

步骤402，利用标注的食品风险匹配信息微调模型，进行第三阶段训练，损失函数为：

其中，y∈{0,1}是表示食品溯源信息与风险信息匹配的标签。

可选的，所述步骤5中通过所述风险信息交互表示分级库查询待识别食品是否存在风险的过程包括：

步骤501，通过图编码器获取所述待识别食品的所述食品溯源图谱的所述食品关键信息表示向量h_G；

步骤503，按分级依次计算所述食品关键信息表示向量h_G与所述风险信息交互表示向量h_R的匹配概率p(h_R,h_G)；

步骤504，输出所述待识别食品存在风险的等级与概率p(h_R,h_G)。

根据本发明的第二方面，提供一种基于多模态关键信息匹配的食品安全风险识别***，包括：风险信息数据库建立模块、食品关键信息溯源图谱建立模块、表示向量计算模块、向量匹配概率计算模块和查询模块；

所述风险信息数据库建立模块，用于采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库；

所述食品关键信息溯源图谱建立模块，用于收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱，将所述风险信息数据库与所述食品关键信息溯源图谱进行匹配；

所述表示向量计算模块，用于通过表示学习技术，预训练风险信息数据库和食品关键信息溯源图谱中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量；

所述向量匹配概率计算模块，用于通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型；

所述查询模块，用于将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库，通过所述风险信息交互表示分级库查询待识别食品是否存在风险。

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现基于多模态关键信息匹配的食品安全风险识别方法的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现基于多模态关键信息匹配的食品安全风险识别方法的步骤。

本发明实施例提供的一种基于多模态关键信息匹配的食品安全风险识别方法、***及存储介质，采用表示学习技术，将多种独立出现或共现的风险数据模态统一映射为一维的表示向量，使风险来源和多模态风险关联更加丰富，提升识别精度；将食品溯源的关键过程信息融入食品溯源图谱，实现食品全链条关键过程的监管，提升监管力度；采用信息检索技术，完成食品溯源信息与多模态风险信息的匹配，可快速匹配动态更新的风险信息，减少人力成本。首先，借助爬虫、机器翻译、OCR识别等多种数字化技术，将从不同国家和地区采集的风险信息和食品关键信息转化为机器可读的统一语言的数字化格式，形成风险信息数据库和食品关键信息溯源图谱；然后，通过表示学习技术，预训练风险信息数据库和食品关键信息溯源图谱中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量；进一步，通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型；最后，建立风险信息交互表示分级库DH，查询待识别食品是否存在风险。

附图说明

图1为本发明实施例提供的一种基于多模态关键信息匹配的食品安全风险识别方法的流程图；

图2为本发明实施例提供的多模态关键信息匹配框架图；

图3为本发明实施例提供的一种基于多模态关键信息匹配的食品安全风险识别***的结构图；

图4为本发明提供的一种可能的电子设备的硬件结构示意图；

图5为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

随着信息检索技术大规模普及，以搜索引擎为代表的深度学习匹配模型可以帮助人们迅速地从大规模信息中完成目标匹配任务。因此，信息检索技术可以很好的适应食品***中复杂过程环节与动态风险库匹配的问题。在食品安全背景下，模型通常只需建模动态的多模态风险是否与关键过程环节匹配的问题，而无需通过学习具体的风险知识，从抽检信息中预测风险。

图1为本发明提供的一种基于多模态关键信息匹配的食品安全风险识别方法流程图，如图1所示，方法包括：步骤1，采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库DR。

步骤2，收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱DG，将风险信息数据库DR与食品关键信息溯源图谱DG进行匹配，该标签由人工根据风险信息数据库中的公告和/或舆情信息添加，表示该食品关键信息溯源图谱是否与任意一条风险信息匹配。

步骤3，通过表示学习技术，预训练风险信息数据库DR和食品关键信息溯源图谱DG中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量。

步骤4，通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型。

步骤5，将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库DH，通过风险信息交互表示分级库DH查询待识别食品是否存在风险。

本发明基于深度学习、表示学习及信息检索等技术，提出一种针对食品关键过程数据和多模态风险信息匹配的食品安全风险智能识别方法，该方法首先通过表示学习技术，分别获取多模态风险和食品关键过程的表示向量，进一步通过风险匹配的方式识别食品安全风险，可缓解目前技术无法对食品全过程监管和多模态风险动态更新的问题。

实施例1

本发明提供的实施例1为本发明提供的一种基于多模态关键信息匹配的食品安全风险识别的方法的实施例，如图2所示为本发明实施例提供的多模态关键信息匹配框架图，结合图2可知，该实施例包括：步骤1，采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库DR。

在一种可能的实施例方式中，从国内外网站***息以及本地自有信息采集并预处理食品风险信息，具体包括：

步骤101，通过文字识别技术采集公开的多种数据模态的食品风险信息；多种数据模态包括文本和表格等。

具体的，可以通过爬虫技术采集数据，可以通过OCR识别技术进行文字识别。采集国内外网站公开的多种数据模态共现或独立出现的官方公告以及网络舆情等信息。

步骤102，将采集的食品风险信息通过机器翻译为同一语言种类。

通过机器翻译技术，将包含不同国家和地区语言的食品风险信息转化为同一语种。

步骤103，将采集的食品风险信息与本地自有的食品风险信息进行汇总，建立风险信息数据库DR。

步骤2，收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱DG，将风险信息数据库DR与食品关键信息溯源图谱DG进行匹配。

在一种可能的实施例方式中，步骤2包括：

步骤201，收集食品溯源链条上种养殖、生产加工以及运输等各个环节的食品关键过程信息，食品关键过程信息包括：温度、湿度、批次号以及原材料等。

步骤202，汇总并提取关键过程信息，以图谱的形式储存食品溯源链条上各环节上的实体与关系，得到食品溯源图谱DG。

步骤203，标注出风险信息数据库DR中与食品溯源图谱DG匹配的食品安全风险信息。

具体操作中可以通过人工方式进行标注。

在一种可能的实施例方式中，步骤3包括：

其中，S为输入单模态编码器的样本中被隐藏元素的集合，f_k(·)是单模态编码器输出的隐藏元素预测值，y_x为隐藏元素对应的真实值，φ为根据相应模态预测选定的衡量预测值与真实值差异的函数。

其中，T为输入多模态交互编码器的样本中被隐藏元素的集合，f_m(·)是多模态交互编码器输出的隐藏元素预测值。

步骤303，分别利用池化操作，将多模态交互编码器f_m和食品关键信息溯源图谱DG的图编码器的输出压缩为一维的表示向量：风险信息交互表示向量h_R和食品关键信息表示向量h_G。

在一种可能的实施例方式中，步骤4包括：

步骤401，通过预先选定的距离函数或多层感知机，计算风险信息交互表示向量h_R和食品关键信息表示向量h_G之间的匹配概率p(h_R,h_G)；

其中，y∈{0,1}是表示食品溯源信息与风险信息匹配的标签。

在一种可能的实施例方式中，步骤5中通过风险信息交互表示分级库DH查询待识别食品是否存在风险的过程包括：

步骤501，通过图编码器获取待识别食品的食品溯源图谱DG的食品关键信息表示向量h_G。

步骤503，按分级依次计算食品关键信息表示向量h_G与风险信息交互表示向量h_R的匹配概率p(h_R,h_G)。

步骤504，输出待识别食品存在风险的等级与概率p(h_R,h_G)。

实施例2

本发明提供的实施例2为本发明提供的一种基于多模态关键信息匹配的食品安全风险识别***的实施例，图3为本发明实施例提供的一种基于多模态关键信息匹配的食品安全风险识别***的结构图，结合图3可知，该实施例包括：风险信息数据库建立模块、食品关键信息溯源图谱建立模块、表示向量计算模块、向量匹配概率计算模块和查询模块。

风险信息数据库建立模块，用于采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库DR。

食品关键信息溯源图谱建立模块，用于收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱DG，将风险信息数据库DR与食品关键信息溯源图谱DG进行匹配。

表示向量计算模块，用于通过表示学习技术，预训练风险信息数据库DR和食品关键信息溯源图谱DG中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量。

向量匹配概率计算模块，用于通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型。

查询模块，用于将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库DH，通过风险信息交互表示分级库DH查询待识别食品是否存在风险。

可以理解的是，本发明提供的一种基于多模态关键信息匹配的食品安全风险识别***与前述各实施例提供的基于多模态关键信息匹配的食品安全风险识别方法相对应，基于多模态关键信息匹配的食品安全风险识别***的相关技术特征可参考基于多模态关键信息匹配的食品安全风险识别方法的相关技术特征，在此不再赘述。

请参阅图4，图4为本发明实施例提供的电子设备的实施例示意图。如图4所示，本发明实施例提了一种电子设备，包括存储器1310、处理器1320及存储在存储器1320上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：步骤1，采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库DR；步骤2，收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱DG，将风险信息数据库DR与食品关键信息溯源图谱DG进行匹配；步骤3，通过表示学习技术，预训练风险信息数据库DR和食品关键信息溯源图谱DG中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量；步骤4，通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型；步骤5，将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库DH，通过风险信息交互表示分级库DH查询待识别食品是否存在风险。

请参阅图5，图5为本发明提供的一种计算机可读存储介质的实施例示意图。如图5所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：

步骤1，采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库DR；步骤2，收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱DG，将风险信息数据库DR与食品关键信息溯源图谱DG进行匹配；步骤3，通过表示学习技术，预训练风险信息数据库DR和食品关键信息溯源图谱DG中的单模态编码器和多模态交互编码器，得到风险信息交互表示向量和食品关键信息表示向量；步骤4，通过计算风险信息交互表示向量和食品关键信息表示向量的匹配概率，利用标签信息微调模型；步骤5，将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库DH，通过风险信息交互表示分级库DH查询待识别食品是否存在风险。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于多模态关键信息匹配的食品安全风险识别方法，其特征在于，所述方法包括：

步骤1，采集多种数据模态的食品风险信息，建立包含多种数据模态组合的风险信息数据库；

步骤2，收集食品溯源链条中各个环节的食品关键过程信息，形成带标签的食品关键信息溯源图谱，将所述风险信息数据库与所述食品关键信息溯源图谱进行匹配；所述标签由人工根据风险信息数据库中的公告和/或舆情信息添加,表示该食品关键信息溯源图谱是否与任意一条风险信息匹配；

步骤5，将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库，通过所述风险信息交互表示分级库查询待识别食品是否存在风险；

所述步骤3包括：

2.根据权利要求1所述的食品安全风险识别方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的食品安全风险识别方法，其特征在于，所述步骤2包括：

步骤202，汇总并提取所述关键过程信息，以图谱的形式储存所述食品溯源链条上各环节上的实体与关系，得到食品溯源图谱；

4.根据权利要求1所述的食品安全风险识别方法，其特征在于，所述步骤4包括：

其中，y∈{0,1}是表示食品溯源信息与风险信息匹配的标签。

5.根据权利要求1所述的食品安全风险识别方法，其特征在于，所述步骤5中通过所述风险信息交互表示分级库查询待识别食品是否存在风险的过程包括：

步骤501，通过图编码器获取所述待识别食品的食品溯源图谱的所述食品关键信息表示向量h_G；

6.一种基于多模态关键信息匹配的食品安全风险识别***，其特征在于，包括：风险信息数据库建立模块、食品关键信息溯源图谱建立模块、表示向量计算模块、向量匹配概率计算模块和查询模块；

所述查询模块，用于将风险信息交互表示向量按风险发生频率和重要性分级存储，建立风险信息交互表示分级库，通过所述风险信息交互表示分级库查询待识别食品是否存在风险；

所述表示向量计算模块的处理过程包括：

7.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-5任一项所述的基于多模态关键信息匹配的食品安全风险识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-5任一项所述的基于多模态关键信息匹配的食品安全风险识别方法的步骤。