CN110688845B

CN110688845B - 菜谱类内容的识别方法、装置、终端及可读存储介质

Info

Publication number: CN110688845B
Application number: CN201910959885.0A
Authority: CN
Inventors: 石锋; 江峰; 黄尚志
Original assignee: Hanhai Information Technology Shanghai Co Ltd
Current assignee: Hanhai Information Technology Shanghai Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2024-02-13
Anticipated expiration: 2039-10-10
Also published as: CN110688845A

Abstract

本申请关于一种菜谱类内容的识别方法、装置、终端及存储介质，属于人工智能领域，该方法包括：获取网络平台中的用户原创内容，网络平台中提供有用户原创内容发布功能；从用户原创内容中提取文本特征；将文本特征输入菜谱识别模型，得到至少两组识别结果，其中，菜谱识别模型用于根据文本特征确定用户原创内容对菜谱类内容的包含情况；当至少两组识别结果符合匹配条件时，确定用户原创内容中包含菜谱类内容。本申请通过对用户原创内容进行文本特征的提取，并将文本特征输入可获得至少两组识别结果的菜谱识别模型并与菜谱匹配条件进行比较，确定用户原创内容是否包含菜谱类内容的方式，提高了对于用户原创内容是否包含菜谱类内容的识别的正确率。

Description

菜谱类内容的识别方法、装置、终端及可读存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种菜谱类内容的识别方法、装置、终端及可读存储介质。

背景技术

在一些与食品有关的应用程序的平台上，部分用户会通过发表评论的方式公开菜谱。在部分应用程序当中，将会对发表菜谱的用户进行奖励，或对关于菜谱的评论进行展示。

相关技术中，对于用户评论菜谱的检测方法通常为关键词集检索的方式，具有用户原创内容发布功能的平台通常通过使用菜谱中常见的关键词对评论进行检索及筛选，区别出带有菜谱的评论。具有用户原创内容(User Generated Content，UGC)发布功能的平台对于菜谱相关的关键词进行设定，当用户发表的评论中含有具有用户原创内容发布功能的平台设定的关键词时，则认为该条评论为带有菜谱的评论。

然而，在关键词检索的方式中，仅当用户发表的评论中含有关键词的评论，该评论才会被视为带有菜谱的评论，而由于菜谱类评论内容扩展性较强，当用户发表的内容属于菜谱类内容而不包含预设关键词时，则对该内容的检测结果产生错误，故利用关键词检测的方法识别网络信息是否属于菜谱的正确率较低。

发明内容

本申请关于一种菜谱类内容的识别方法、装置、终端及可读存储介质，可以解决通过相关技术中用关键词检测的方法识别网络信息是否属于菜谱的正确率较低的问题。该技术方案如下：

一方面，提供了一种菜谱类内容的识别方法，该方法包括：

获取网络平台中的用户原创内容，网络平台中提供有用户原创内容发布功能；

从用户原创内容中提取文本特征；

将文本特征输入菜谱识别模型，得到至少两组识别结果，菜谱识别模型中包括通过不同识别算法对文本特征进行识别的至少两个模型，其中，菜谱识别模型用于根据文本特征确定用户原创内容对菜谱类内容的包含情况；

当至少两组识别结果符合菜谱匹配条件时，确定用户原创内容中包含菜谱类内容。

在一个可选的实施例中，菜谱识别模型中包括第一识别模型；

将用户原创内容以及文本特征输入菜谱识别模型，得到至少两组识别结果，包括：

将用户原创内容以及文本特征输入第一识别模型，得到第一识别结果，第一识别结果是第一识别模型通过逻辑回归算法对文本特征进行识别得到的结果。

在一个可选的实施例中，菜谱识别模型中包括第二识别模型：

将用户原创内容以及文本特征输入第二识别模型，得到第二识别结果，第二识别结果是第二识别模型通过双向长短期记忆人工神经网络算法对文本特征进行识别得到的结果。

在一个可选的实施例中，每组识别结果中包括目标概率，目标概率用于表示用户原创内容中包含菜谱类内容的概率；

当至少两组识别结果符合菜谱匹配条件时，确定用户原创内容中包含菜谱类内容，包括：

当识别结果对应的目标概率达到概率阈值时，确定识别结果为符合菜谱匹配条件的目标识别结果；

当至少两组识别结果中，目标识别结果的占比达到比例阈值时，确定用户原创内容中包含菜谱类内容。

在一个可选的实施例中，从用户原创内容中提取文本特征，包括：

根据菜谱类内容的特性对用户原创内容进行特征提取，得到字特征和词特征。

当词特征包含至少两个字特征时，从文本特征中滤除词特征中包含的字特征。

在一个可选的实施例中，用户原创内容是目标账号发布在网络平台中的，在确定用户原创内容中包含菜谱类内容后，还包括：

对目标账号触发具有用户原创内容发布功能的平台的奖励机制。

另一方面，提供了一种基于人工智能的菜谱类内容的识别装置，该装置包括：

获取模块，用于获取具有用户原创内容发布功能的平台中的用户原创内容；

获取模块，用于从用户原创内容中提取文本特征；

输入模块，用于将文本特征输入菜谱识别模型，得到至少两组识别结果，菜谱识别模型中包括通过不同识别算法对文本特征进行识别的至少两个模型，其中，菜谱识别模型用于根据文本特征确定用户原创内容对菜谱类内容的包含情况；

确定模块，用于当至少两组识别结果符合菜谱匹配条件时，确定用户原创内容中包含菜谱类内容。

输入模块，还用于将用户原创内容和文本特征输入第一识别模型，得到第一识别结果，第一识别结果是第一识别模型通过逻辑回归算法对文本特征进行识别得到的结果。

在一个可选的实施例中，菜谱模型中包括第二识别模型；

输入模块，还用于将用户原创内容和文本特征输入第二识别模型，得到第二识别结果，第二识别结果是第二识别模型通过双向长短期记忆人工神经网络算法对文本特征进行识别得到的结果。

确定模块，还用于当识别结果对应的目标概率达到概率阈值时，确定识别结果为符合菜谱匹配条件的目标识别结果；

确定模块，还用于当识别结果中，目标识别结果的占比达到比例阈值时，确定用户原创内容中包含菜谱类内容。

在一个可选的实施例中，获取模块，还用于根据菜谱类内容的特性对用户原创内容进行特征提取，得到字特征和词特征。

在一个可选的实施例中，当词特征包含至少两个字特征时，从文本特征中滤除词特征中包含的字特征。

另一方面，提供了一种计算机设备，计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述本申请实施例中提供的菜谱类内容的识别方法。

另一方面，提供了一种计算机可读存储介质，可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述本申请实施例中提供的菜谱类内容的识别方法。

本申请提供的技术方案带来的有益效果至少包括：

通过对用户原创内容进行文本特征的提取，并将文本特征输入可获得至少两组识别结果的菜谱识别模型并与菜谱匹配条件进行比较，确定用户原创内容是否包含菜谱类内容的方式，从多个维度对用户原创内容进行识别，提高了对于用户原创内容是否包含菜谱类内容的识别的正确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的具有用户原创内容发布功能的平台的界面示意图；

图2示出了菜谱类内容的文本详细信息的界面图；

图3示出了相关技术中基于关键字词识别的菜谱类内容的识别方法的流程图；

图4示出了相关技术中一个基于关键字词识别的菜谱类内容的识别方法的流程示意图；

图5示出了本公开一个示例性实施例提供的菜谱类内容的识别方法的流程图；

图6是本公开实施例提供的一种可以基于规则的方法提取用户原创内容中的字特征和词特征的示意图；

图7示出了本公开一个示例性实施例提供的菜谱类内容的识别方法的流程图；

图8示出了本申请实施例一种识别模型主动学习的训练方法的流程图；

图9示出了本公开一个示例性实施例提供的菜谱类内容的识别方法的流程示意图；

图10示出了本公开一个示例性实施例提供的菜谱类内容的识别装置的示意图；

图11示出了本公开一个示例性实施例提供的菜谱类内容的识别终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单的介绍：

人工智能(Artificial Intelligence，AI)：是指通过计算机程序来呈现人类智能的技术，进一步的，人工智能还可以表示机器对人的智能行为的学习。人工智能是计算机科学的一个分支，是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本实施例中，主要涉及到自然语言处理以及机器学习技术。

命名实体识别(Named Entity Recognition，NER)：又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。NER是自然语言处理(Nature Language processing,NLP)中的基本任务之一，解决问题的目标是从用户原创内容中抽取出特定需求实体的文本片段。可选地，为从用户原创内容中抽取出特定需求实体和文本片段，通常使用基于规则的方法或基于模型的方法。

逻辑回归(Logistics Regression，LR)算法：是机器学习算法的一个分支，主要指面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数的过程。可选地，逻辑回归算法通过建立回归方程、拟合曲线的方式对输入的值进行一个预测值的输出。

双向长短期记忆(Bi-directional Long Short-Term Memory)神经网络：是循环神经网络(Recurrent Neural Network，RNN)的一种分支，由前向LSTM和后向LSTM组合而成，与LSTM作用相同，Bi-LSTM在处理自然语言任务中常备用来建模上下文信息。

图1示出了本申请一个示例性实施例提供的具有用户原创内容发布功能的平台的界面示意图。该具有用户原创内容发布功能的平台中包括向用户进行包含菜谱类内容的笔记的分享的功能，该具有用户原创内容发布功能的平台包括功能区101和推荐区102。

功能区101包括搜索栏1011、分类栏1012和创作栏1013。搜索栏1011为用户提供自定义的包含菜谱类内容的文本的检索，文本包括笔记、评论以及其他形式的网络信息，一般有用户进行原创并发布。可选地，检索方式包括通过菜品名称、菜品分类以及菜品食材进行检索。分类栏1012为用户提供了预设的菜品分类选项，分类方式包括菜品的食材种类和烹制种类。可选地，根据菜品的食材种类设有“肉类选项”和“蔬菜选项”，根据菜谱的烹制种类设有“烘焙”选项和“家常菜”选项。进一步地，分类栏提供有可以显示全部选项的“全部分类”选项。当用户想要发布包含菜谱类内容的文本时，可以通过创作栏1013进入创作界面，在创作界面中进行包含菜谱类内容的文本的创作。

推荐区102包括热门话题1021、用户推荐1022以及推荐菜谱1023。在热门话题1021中，通过话题配图、话题名称、话题描述以及对应包含菜谱类内容的文本数量的方式对话题内容进行初步展示。可选地，用户可以通过热门话题中的话题选项进入对应话题，在对应话题的界面中进行包括浏览具体包含菜谱类内容的文本或在该话题界面发布包含菜谱类内容的文本的进一步操作。在用户推荐1022中，显示的为被推荐用户账号的信息与简介，可选地，被推荐用户为具有用户原创内容发布功能的平台进行推荐的用户账号，用户账号的信息与简介包括该用户账号拥有者本人进行设置的信息与简介和具有用户原创内容发布功能的平台为用户标注的信息与简介。可选地，用户推荐1022还包括互动按键，用户可以用过互动按键对被推荐用户账号进行进一步的互动。在推荐菜谱1023中，显示的信息为被推荐的包含菜谱类内容的文本的相关信息。可选地，用户可以通过推荐菜谱的信息进入推荐菜谱的详细文本界面。

可选地，用户可通过图1示出的具有用户原创内容发布功能的平台中提供的任一方式进入菜谱的详细信息界面。图2示出了菜谱类内容的文本详细信息的界面图。参考图2，包含菜谱类内容的文本详细信息的界面中包括菜品配图区域201、菜谱发布者信息202、菜谱主信息203、功能区域204、评论区域205以及快捷功能区域206。

菜品配图区域201为用户可以依照菜谱做出的菜品的效果图片。可选地，当菜品配图的数量大于一张时，菜谱发布者或具有用户原创内容发布功能的平台可选用其中一张作为封面，用户可通过封面看到全部的菜品配图。

菜谱发布者信息202为发布该包含菜谱类内容的文本的用户的账号信息，菜谱发布者信息包括菜谱发布者用户的账号信息以及对于菜谱文本编辑的信息。可选地，对于包含菜谱类内容的文本编辑的信息包括菜谱的发布时间以及菜谱的修改时间。进一步地，菜谱发布信息202包括互动按键，用户可以通过互动按键与菜谱发布者的账号进行互动。可选地，互动方式包括对于菜谱发布者进行非公开的聊天或通过具有用户原创内容发布功能的平台的推送即时获取菜品发布者的动态。

功能区域204为具有用户原创内容发布功能的平台设置的可以进行对包含菜谱类内容的文本评论、点赞等交互式行为的区域，菜谱发布者可以收到来自具有用户原创内容发布功能的平台推送的交互式行为信息。

评论区域205用于显示其他用户在阅读该菜谱之后进行的评价，评论区域会显示进行评价的用户的账号信息、评论本体以及对于评论编辑的信息。可选地，评论区域205也设有互动区域，用于提供用户与发表评论的用户之间进行互动的功能。可选地，用户可以在评论区域发送包含菜谱类内容的文本。

快捷功能区域206用于为用户提供对包含菜谱类内容的笔记的评论、发表对于包含菜谱类内容的文本的态度以及对包含菜谱类内容的文本进行收藏。

菜谱主信息203包括使用文字叙述的，包括包含菜谱类内容的文本的信息。请参考图2，图2所示的菜谱主信息203包括其他信息、菜品需要食材以及菜品制作流程。其中，其他信息表示与菜谱无关，并且显示在菜谱内容中的信息；菜品需要食材表示制作该菜品需要使用的食材，菜品需要工具表示制作该菜品需要使用的工具。菜品制作流程表示使用菜品需要工具以及菜品需要食材获得菜品的制作流程。

可选地，由于包括包含菜谱类内容的文本的实用性大于其他类型的网络信息，且包括包含菜谱类内容的文本相比其他类型的网络信息而言目标受众较为确定，故可选地，具有用户原创内容发布功能的平台可以对发布在社交平台内各个位置的包括包含菜谱类内容的文本进行整合与归纳，并且对发布在菜谱类分类下，但不包含菜谱类内容的文本进行筛选与删除。

相关技术中，通常使用关键字词识别的方式对包含菜谱类内容的文本进行识别，图3示出了相关技术中基于关键字词识别的菜谱类内容的识别方法的流程图，该方法可应用于终端中，该方法包括：

步骤301，获取用户原创内容。

步骤302，将用户原创内容与预存关键字词进行匹配。

可选地，预存关键字词为由人工输入并存储至终端的关键字和关键词。预存关键字词为至少一个关键字或词组，可选地，将所有预存关键字词与用户原创内容进行匹配，当用户原创内容中包含该预存关键字词中的关键字或关键词时，则该用户原创内容与预存关键字词匹配成功。

步骤303，当用户原创内容中包含该预存关键字词中的关键字或关键词时，确定用户原创内容包含菜谱类内容。

图4示出了相关技术中一个基于关键字词识别的菜谱类内容的识别方法的流程示意图。请参考图4，终端404通过基于关键字词识别的菜谱类内容的识别方法对用户原创内容401，用户原创内容402及用户原创内容403进行识别。可选地，终端404中设置有关键字词集405，关键字词集405中包括：锅、鱼、豆腐、姜、汤、水、入味、炒、腌制，将所有上述关键字词与用户原创内容进行匹配，也即，将上述关键字词与用户原创内容401至用户原创内容403进行匹配，从而确定用户原创内容是否包含菜谱类内容。可选地，由于用户原创内容401至用户原创内容403中均包含如上关键词，则终端404将用户原创内容401至用户原创内容403均判断为包含菜谱类内容的文本。

显而易见地，基于关键字词识别的菜谱类内容的识别方法无法对用户原创内容进行准确判断，具有识别的准确度较低的问题。

图5示出了本公开一个示例性实施例提供的菜谱类内容的识别方法的流程图，以该方法应用于终端之中进行说明，该方法包括：

步骤501，获取网络平台中的用户原创内容，网络平台中提供有用户原创内容发布功能。

可选地，用户原创内容(User Generated Content，UGC)是由目标帐号发布，且被发布于网络平台上的文本内容。可选地，该用户原创内容为通过输入、编辑、上传等操作后，由目标帐号发布至该网络平台中的内容，该用户原创内容包括目标帐号发布的评论内容、笔记内容、转发附加内容、私信内容、日记内容、分享内容中的至少一种，该用户原创内容中包括文本内容，可选地，该用户原创内容中还包括图像内容、视频内容、音频内容等，本公开实施例对此不加以限定。

可选地，该用户原创内容是与网络平台中的餐饮类商家相关的内容，可选地，该用户原创内容可以是对该餐饮类商家的菜品进行评价的评论内容，可以是对该餐饮类商家进行推荐的分享内容，还可以是向该餐饮类商家发送的私信内容。示意性的，结合该餐饮类商家，该用户原创内容包括如下情况中的至少一种：该用户原创内容为发布于餐饮类商家对应的评论区域或网络平台公共评论区域中的评论内容；该用户原创内容为发布于目标帐号个人分享空间中的与该餐饮类商家相关的笔记内容；该用户原创内容为目标帐号转发与该餐饮类商家相关的内容时附加的转发附加内容；该用户原创内容为由目标帐号以私信形式发送至餐饮类商家的私信内容；该用户原创内容以日记形式发布于个人分享空间中的与该餐饮类商家相关的日记内容；或，该用户原创内容为发布于网络公共平台中的与该餐饮类商家相关的分享内容。

可选地，该网络平台可以是生活服务平台、信息公开平台、本地生活信息及交易平台，示意性的，本公开实施例中，以该用户原创内容发布功能平台为生活服务平台为例进行举例。

步骤502，从用户原创内容中提取文本特征。

可选地，文本特征是指将用户原创内容进行识别之后，对作为识别结果的字或词进行向量化后获得的。可选地，通过对于文本的分析对用户原创内容的文本特征进行提取。

可选地，对用户原创内容进行识别，获得为初步特征字和初步特征词，其中，初步特征字表示从用户原创内容中获得的，用于表示用户原创内容包含菜谱类内容的单个汉字。在一个示例中，“肉”“菜”“煮”“炒”等常出现在菜谱类内容的单个汉字可被认为是初步特征字。初步特征词表示从用户原创内容中获得的，可能包含文本特征的词组。在一个示例中，“鸡蛋”“宽油”“夫妻肺片”等常出现在菜谱类内容的大于或等于两个汉字的组合而成的词组可被认为是初步特征词。

可选地，根据菜谱类内容的特性对文本内容进行特征提取。可选的，菜谱类内容的特性是根据包含菜谱类内容的文本内容总结归纳得出的。在一个示例中，多个包含菜谱类内容的文本内容均包含食材信息与烹饪方式信息，则菜谱类提取规则中即需要包含食材信息与烹饪方式信息。

进一步地，通过NER方法得到用户原创内容中的初步特征字和初步特征词。

NER方法包括基于规则的方法和基于模型的方法。

其中，基于规则的方法指针对具有特殊上下文的初步特征字和初步特征词，或初步特征字和初步特征词的本身就与其他文本内容具有较多不同的文本。在本实施例中，基于规则的方法适应于语料比较简单的用户原创内容中。图6是本公开实施例提供的一种可以基于规则的方法提取用户原创内容中的初步特征字和初步特征词的用户原创内容的示意图。请参考图6，在一个示例中，用户原创内容为包含菜谱类内容的文本内容。通过第一规则和第二规则对文本的初步特征字和初步特征词进行提取。可选地，第一规则是针对具有特殊上下文的初步特征字和初步特征词进行提取的特征规则。因为文本内容都是由“食材+数字+计量单位”的方式进行排列，故可以通过表达“特征+数字+计量单位”的表达式将下文中带有数字和计量单位的特殊特征进行提取，提取后的结果为“鲍鱼、海参、蹄筋、墨鱼、瑶柱、鹌鹑蛋、杏鲍菇、绍兴酒、可乐、汤”。可选地，第二规则是针对初步特征字或初步特征词的本身就与其他文本具有较多不同的文本。请参考图6，用户原创内容都是有“食材+数字+计量单位”的方式进行排列，并且与上下文中的“食材：”等文字与符号具有较明显区别，所以，可将“食材+数字+计量单位”的排列方式的字段均提取作为初步特征词。提取后的结果为：提取的初步特征字和初步特征词：鲍鱼2只、海参4只、蹄筋200g、墨鱼100g、瑶柱50g、鹌鹑蛋100g、杏鲍菇50g、绍兴酒20ml、可乐200ml、汤500m。

基于模型的方法指从模型角度对初步特征字和初步特征词进行分析的方法。可选地，对初步特征字和初步特征词进行分析的模型均由机器训练的方式得到。从模型的角度看，基于模型的NER方法实际是一种序列标注的方法。可选地，在基于模型的NER方法中，输入的为文字序列，输出的为标签序列，标签序列指针对文字序列的每一个单元进行标注的序列。

示意性地，本实施例中的标签体系可选用常见的标签体系。常见的标签体系包括IO、BIO、BMEWO、BMEWO+。常见的标签与文字序列的关系如下表一所示：

表一

文字序列	IO	BIO	BMEWO	BMEWO+
					例	O	O	O	O
如	O	O	O	O
					，	O	O	O	O
将	O	O	O	O_FOOD
					熟	I_FOOD	B_FOOD	B_FOOD	B_FOOD
牛	I_FOOD	I_FOOD	M_FOOD	M_FOOD
					肉	I_FOOD	I_FOOD	E_FOOD	E_FOOD
放	O	O	O	FOOD_O
					入	O	O	O	O_TOOL
锅	I_TOOL	S_TOOL	S_TOOL	S_TOOL
					中	O	O	O	TOOL_O
。	O	O	O	O

参考表1，示意性地，选取的输入字段为“例如，将熟牛肉放入锅中”，其中，需要标注的特征为初步特征字“锅”与初步特征词“熟牛肉”。

在IO标签体系中，为“熟”“牛”“肉”标注“I_FOOD”符号，“锅”标注“I_TOOL”符号，其他字与字符标注“O”符号，即代表将“熟牛肉”标注为与食材相关的特征，将“锅”标注为与工具相关的特征。进一步地，因为“熟牛肉”为大于一个汉字组成的特征，故“熟牛肉”属于初步特征词，“锅”为一个汉字组成的特征，故“锅”属于初步特征字。可选地，在IO标签体系的机器训练过程中，“牛”与“牛肉”也被识别为与食材相关的特征，此时，选取字符长度最长的“熟牛肉”标注为与食材相关的初步特征词。故IO标签体系相当于将文字序列进行“特征汉字或字符”与“非特征汉字或字符”的标注。

在BIO标签体系中，为“熟”标注“B_FOOD”符号，“牛”“肉”标注“I_FOOD”符号，“锅”标注“S_TOOL”符号，即代表将“熟牛肉”标注为与食材相关的特征，“熟”标注为与食材相关的特征的起始汉字，将“锅”标注为与工具相关的特征，且“锅”为由单个汉字组成的特征。进一步地，因为“熟牛肉”为大于一个汉字组成的特征，故“熟牛肉”属于初步特征词，“锅”为一个汉字组成的特征，故“锅”属于初步特征字。可选地，在BIO标签体系的机器训练过程中，“牛”与“牛肉”也被识别为与食材相关的特征，此时，选取字符长度最长的“熟牛肉”标注为与食材相关的初步特征词。故BIO标签体系相当于将文字序列进行“特征汉字或字符”、“非特征汉字或字符”、“单个特征汉字或字符”以及“多个特征汉字或字符的起始特征汉字或字符”的标注。

在BWEMO标签体系中，为“熟”标注“B_FOOD”符号，“牛”标注“M_FOOD”符号，“肉”标注“E_FOOD”符号，“锅”标注“S_TOOL”符号，即代表将“熟牛肉”标注为与食材相关的特征，“熟”标注为与食材相关的特征的起始汉字，“牛”标注为与食材相关的特征的中间汉字，“肉”标注为与食材相关的特征的结束汉字，将“锅”标注为与工具相关的特征，且“锅”为由单个汉字组成的特征。进一步地，因为“熟牛肉”为大于一个汉字组成的特征，故“熟牛肉”属于初步特征词，“锅”为一个汉字组成的特征，故“锅”属于初步特征字。可选地，在BMEWO标签体系的机器训练过程中，“牛”与“牛肉”也被识别为与食材相关的特征，此时，选取字符长度最长的“熟牛肉”标注为与食材相关的初步特征词。故BMEWO标签体系相当于将文字序列进行“非特征汉字或字符”、“单个特征汉字或字符”、“多个特征汉字或字符的起始特征汉字或字符”、“多个特征汉字或字符的中间特征汉字或字符”、“多个特征汉字或字符的结束特征汉字或字符”与“单个特征汉字或字符”的标注。

在BWEMO+标签体系中，为“熟”标注“B_FOOD”符号，“牛”标注“M_FOOD”符号，“肉”标注“E_FOOD”符号，“锅”标注“S_TOOL”符号，即代表将“熟牛肉”标注为与食材相关的特征，“熟”标注为与食材相关的特征的起始汉字，“牛”标注为与食材相关的特征的中间汉字，“肉”标注为与食材相关的特征的结束汉字，将“锅”标注为与工具相关的特征，且“锅”为由单个汉字组成的特征。进一步地，将“将”标注为“O_FOOD”符号，表示与食材相关的特征的前置汉字或字符；“放”标注为“FOOD_O”符号，表示与食材相关的特征的后置汉字或字符；“入”标注为“O_TOOL”符号，表示与工具相关的特征的前置汉字或字符；“中”标注为“FOOD_O”符号，表示与工具相关的特征的后置汉字或字符。进一步地，因为“熟牛肉”为大于一个汉字组成的特征，故“熟牛肉”属于初步特征词，“锅”为一个汉字组成的特征，故“锅”属于初步特征字。可选地，在BMEWO+标签体系的机器训练过程中，“牛”与“牛肉”也被识别为与食材相关的特征，此时，选取字符长度最长的“熟牛肉”标注为与食材相关的初步特征词。故BMEWO+标签体系相当于将文字序列进行“非特征汉字或字符”、“单个特征汉字或字符”、“多个特征汉字或字符的起始特征汉字或字符”、“多个特征汉字或字符的中间特征汉字或字符”、“多个特征汉字或字符的结束特征汉字或字符”、“特征汉字或字符的前置汉字或字符”、“特征汉字或字符的后置汉字或字符”与“单个特征汉字或字符”的标注。

对用户原创内容进行的标注，通常选用的标注方式包括表一所示的四种标签体系。可选地，根据标签体系的复杂程度，确定机器训练的训练时间与训练次数，以提高标签体系进行标注的准确率。

可选地，终端根据需要进行判断的准确程度以及文本内容的复杂程度选取合适的基于规则的NER方法和/或基于模型的NER方法对用户原创内容进行识别，获得用户原创内容中的初步特征字与初步特征词。

可选地，可通过基于规则的NER方法获得用户原创内容中的初步特征字，通过基于模型的NER方法获得用户原创内容中的初步特征词。

进一步地，在获取初步特征字和初步特征词后，通过对初步特征字与初步特征词的向量化进行对用户原创内容的特征提取，得到用户原创内容的字特征和词特征。

步骤503，将用户原创内容以及文本特征输入菜谱识别模型，得到至少两组识别结果。

可选地，文本特征是通过步骤502中的基于规则的NER方法或基于模型的NER方法对用户原创内容进行特征提取后获得的特征。文本特征中包括字特征和/或词特征。

菜谱识别模型中包括通过不同识别算法对用户原创内容和/或文本特征进行识别的至少两个模型，其中，菜谱识别模型用于根据文本特征确定用户原创内容对菜谱类内容的包含情况。可选地，菜谱识别模型通过识别结果体现用户原创内容是否包含菜谱类内容。为保证识别的准确性，选用至少两个识别模型对文本内容和/或文本特征进行识别。可选地，每个菜谱识别模型可以使用相同的原理对文本内容和/或文本特征进行识别，可选地，每个菜谱识别模型使用不同的原理对文本内容和/或文本特征进行识别，从多个维度对文本特征是否包含菜谱类特征进行判断，保证识别的准确性。

步骤504，当至少两组识别结果符合菜谱匹配条件时，确定用户原创内容中包含的菜谱类内容。

可选地，菜谱识别模型中包括的模型以输出目标概率的形式输出识别结果。目标概率用于指示用户原创内容中包含菜谱类内容的概率。可选地，菜谱识别模型中包括的每个模型都设有概率阈值，当该模型输出的目标概率达到该概率阈值时，即确定在该模型中，识别结果是符合菜谱匹配条件的目标识别结果，即通过该模型的识别，用户原创内容包含菜谱类内容。进一步的，当所有识别结果中目标识别结果的占比达到比例阈值时，确定用户原创内容为菜谱类内容。示意性地，菜谱识别模型中包括菜谱识别模型A和菜谱识别模型B，菜谱识别模型A与菜谱识别模型B均通过输出目标概率的形式输出识别结果。菜谱识别模型A中设有的概率阈值为50％，菜谱识别模型B中设有的概率阈值为70％。将用户原创内容输入菜谱识别模型后，菜谱识别模型A输出的目标概率为60％，菜谱识别模型B输出的目标概率为65％，而比例阈值为100％，即表示目标识别结果需要符合的比例是100％，则此时，菜谱识别模型得到的结果为用户原创内容中不包含菜谱类内容。

可选地，在确定用户原创内容为包含菜谱类内容的文本之后，具有用户原创内容发布功能的平台将触发对于菜品发布者用户的奖励机制，以激励用户发布包含菜谱类内容的信息。

综上所述，本实施例提供的方法，通过对用户原创内容进行文本特征的提取，并将文本特征输入可获得至少两组识别结果的菜谱识别模型并与菜谱匹配条件进行比较，确定用户原创内容是否包含菜谱类内容的方式，提高了对于用户原创内容是否包含菜谱类内容的识别的正确率。

在基于图5的可选实施例中，图7示出了本公开一个示例性实施例提供的菜谱类内容的识别方法的流程图，本实施例中，上述实施例中的步骤503可被替换成步骤5031和步骤5032。

步骤5031，将用户原创内容以及文本特征输入第一识别模型，得到第一识别结果。

可选地，第一识别模型是基于人工智能的模型，可以通过主动学习的方式进行训练。

在一个示例中，第一识别模型是通过逻辑回归算法对文本特征进行识别的菜谱识别模型。

逻辑回归算法是一种经典的分类方法，其一般用于面对一个回归或分类问题，并对该问题建议一个模型。逻辑回归算法通过建立代价函数，然后经过优化方法迭代求出最优的模型参数，之后将解决问题所需要的特征输入模型，通过特征的向量化与正则化，得到该问题概率形式的结果。示意性地，将用户原创内容中n个独立的文本特征向量化后输入第一菜谱识别模型，第一菜谱识别模型将会通过进行逻辑回归求解的方式输出其目标概率，其中，文本特征包括词特征和字特征，n为正整数。

步骤5032，将用户原创内容以及文本特征输入第二识别模型，得到第二识别结果。

可选地。第二识别模型是基于人工智能的模型，可以通过主动学习的方式进行训练。

在一个示例中，第二识别模型是通过Bi-LSTM神经网络对文本特征进行识别的菜谱识别模型。

Bi-LSTM算法是LSTM算法的一种变种，其通过将字符串中每个汉字进行向量化的方法进行模型搭建，达到对目标字符串进行解码的目的。进一步地，LSTM网络包括输入层、投影层与输出层，通过输入层、投影层、输出层对字符串进行的处理，达到对字符串中的字符进行向量化以及解码的目的。可选地，在LTSM网络的输出层之后，加入进行分类概率取值的softmax层，对解码的结果进行分类结果的回归处理，最终实现以概率的形式对解码结果进行输出。在一个示例中，将从用户原创内容输入第二菜谱识别模型，第二菜谱识别模型通过双向信息分析的方法，对用户原创内容以字符串的形式进行向量化处理并进行解码，再在加入的softmax层中输入字特征与词特征，对解码的结果以概率的形式进行输出。

可选地，在上述实施例中，第一识别模型、第二识别模型均是基于人工智能，并通过机器学习的方式获得，并使用主动学习的方式加以训练得到的，图8示出了本申请实施例一种识别模型主动学习的训练方法的流程图，刚方法包括以下步骤：

步骤801，获取识别模型对用户原创内容的目标概率。

步骤802，将目标概率属于无法分辨区间的用户原创内容进行人工标定，得到用户原创内容的人工标定结果。

无法分辨区间的用户原创内容包括无法分辨的用户原创内容和分辨错误的用户原创内容。无法分辨的用户原创内容包括因阈值设置问题而无法进行分辨的用户原创内容，主要出现在阈值不连续的情况下，如，在一个示例中，识别模型设置为当目标概率大于70％时，识别该用户原创内容包含菜谱类内容，当目标概率小于30％时，识别该用户原创内容不包含菜谱类内容。此时，当一个用户原创内容的目标概率为50％时，则该文本属于无法分辨的用户原创内容。在另一个示例中，识别模型设置为当目标概率大于50％时，识别该用户原创内容包括菜谱类内容，且用户原创内容经过识别模型得到的目标概率为60％，但经过人工标定后识别其不包括菜谱类内容，则该用户原创内容属于分辨错误的用户原创内容。

人工标定的方式即指将无法分辨的用户原创内容和分辨错误的的用户原创内容通过人工检测的方式判断是否包含菜谱类内容，并进行标定。

步骤803，将用户原创内容和人工标定结果添加入主动学习池，通过主动学习池对识别模型进行再次训练。

主动学习池指识别模型进行下一次训练时使用的用户原创内容以及人工标定结果的集合。添加至主动学习池的用户原创内容包括经过人工标定后的无法分辨的用户原创内容以及人工标定后发现分辨错误的用户原创内容。

可选地，当距上一次主动学习训练时间达到一定长度时，通过主动学习池对识别模型进行再次训练；可选地，当主动学习池中的用户原创内容数量达到阈值时，通过主动学习池对识别模型进行再次训练。通过将之前训练的错误数据重复输入识别模型的方法，提高机器学习的学习效率。

综上所述，本实施例提供的方法，通过对用户原创内容进行文本特征的提取，并将文本特征输入可获得至少两组识别结果的菜谱识别模型并与菜谱匹配条件进行比较，确定用户原创内容是否包含菜谱类内容的方式，提高了对于用户原创内容是否包含菜谱类内容的识别的正确率。通过提供基于人工智能的且属于两种不同原理的模型，从多个维度对目标特征进行识别，并且通过主动学习的方式，对识别模型进行实时训练，进一步提高了识别的正确率。

图9示出了本公开一个示例性实施例提供的菜谱类内容的识别方法的流程示意图，以该方法应用于终端之中进行说明，该方法包括：

获取用户发布的内容901，该用户发布内容901为用户发布在具有用户原创内容发布功能的平台上的用户原创内容。

将用户原创内容通过NER算法以及特征抽取902，即指示通过NER算法从用户原创内容中提取文本特征，并对提取后的文本特征进行整理与储存。

当经过NER算法与特征抽取902后，进行判断。当未抽取到相关特征时，执行903。

将用户原创内容记录为非菜谱内容903，即指示用户原创内容不包含菜谱类内容。

当抽取到相关特征时，同时执行904与905。

将用户原创内容以及文本特征通过基于Bi-LSTM算法分类904的识别模型进行识别，即指示将文本特征输入基于Bi-LSTM算法的第二菜谱识别模型，获取由第二菜谱模型得到的目标概率。

将用户原创内容以及文本特征通过基于逻辑回归分类算法905的识别模型，即指示将文本特征输入基于逻辑回归算法的第一菜谱识别模型，获取由第一菜谱，模型得到的目标概率。

确定用户原创内容为菜谱内容906，即指示将用户原创内容确定为包含菜谱类内容的文本内容。

可选地，在确定用户原创内容为包含菜谱类内容的文本内容之后，具有用户原创内容发布功能的平台将触发对于菜品发布者用户的奖励机制，以激励用户发布包含菜谱类内容的信息。

图10示出了本公开一个示例性实施例提供的基于人工智能的菜谱类内容的识别装置的示意图，该装置包括：

获取模块1001，用于获取网络平台中的用户原创内容，网络平台中提供有用户原创内容发布功能；

获取模块1001，用于从用户原创内容中提取文本特征；

输入模块1002，还用于将文本特征输入菜谱识别模型，得到至少两组识别结果，菜谱识别模型中包括通过不同识别算法对文本特征进行识别的至少两个模型，其中，菜谱识别模型用于根据文本特征确定用户原创内容对菜谱类内容的包含情况；

确定模块1003，用于当至少两组识别结果符合菜谱匹配条件时，确定用户原创内容中包含菜谱类内容。

输入模块1002，还用于将用户原创内容和文本特征输入第一识别模型，得到第一识别结果，第一识别结果是第一识别模型通过逻辑回归算法对文本特征进行识别得到的结果。

在一个可选的实施例中，菜谱模型中包括第二识别模型；

输入模块1002，还用于将用户原创内容和文本特征输入第二识别模型，得到第二识别结果，第二识别结果是第二识别模型通过双向长短期记忆人工神经网络算法对文本特征进行识别得到的结果。

确定模块1003，还用于当识别结果对应的目标概率达到概率阈值时，确定识别结果为符合菜谱匹配条件的目标识别结果；

确定模块1003，还用于当识别结果中，目标识别结果的占比达到比例阈值时，确定用户原创内容中包含菜谱类内容。

在一个可选的实施例中，获取模块1001，还用于根据菜谱类内容的特性从用户原创内容进行特征提取，得到字特征和词特征。

在一个可选地实施例中，用户原创内容是目标账号发布在网络平台中的，在确定用户原创内容中包含菜谱类内容后，还包括：

图11示出了本公开一个示例性实施例提供的菜谱类内容的识别终端的结构示意图，该用户设备包括：

处理器1101包括一个或者一个以上处理核心，处理器1101通过运行软件程序以及模块，从而执行各种功能应用以及信息处理。

接收器1102和发射器1103可以实现为一个通信组件，该通信组件可以是一块通信芯片。

存储器1104通过总线1105与处理器1101相连。

存储器1104可用于存储至少一个指令，处理器1101用于执行该至少一个指令，以实现上述方法实施例中的各个步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述菜谱类内容的识别方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述菜谱类内容的识别方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的菜谱类内容的识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述菜谱类内容的识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种菜谱类内容的识别方法，其特征在于：

获取网络平台中的用户原创内容，所述网络平台中提供有用户原创内容发布功能；

从所述用户原创内容中提取文本特征；

将所述用户原创内容以及所述文本特征输入菜谱识别模型，得到至少两组识别结果，所述菜谱识别模型中包括通过不同识别算法对所述文本特征进行识别的至少两个模型，其中，所述菜谱识别模型用于确定所述用户原创内容对菜谱类内容的包含情况；

当所述至少两组识别结果符合菜谱匹配条件时，确定所述用户原创内容中包含所述菜谱类内容。

2.根据权利要求1所述的方法，其特征在于，所述菜谱识别模型中包括第一识别模型；

所述将所述用户原创内容以及所述文本特征输入菜谱识别模型，得到至少两组识别结果，包括：

将所述用户原创内容以及所述文本特征输入所述第一识别模型，得到第一识别结果，所述第一识别结果是所述第一识别模型通过逻辑回归算法对所述文本特征进行识别得到的结果。

3.根据权利要求1所述的方法，其特征在于，所述菜谱识别模型中包括第二识别模型：

将所述用户原创内容以及所述文本特征输入所述第二识别模型，得到第二识别结果，所述第二识别结果是所述第二识别模型通过双向长短期记忆人工神经网络算法对文本特征进行识别得到的结果。

4.根据权利要求1至3任一所述的方法，其特征在于，每组所述识别结果中包括目标概率，所述目标概率用于表示所述用户原创内容中包含所述菜谱类内容的概率；

所述当所述至少两组识别结果符合菜谱匹配条件时，确定所述用户原创内容中包含所述菜谱类内容，包括：

当所述识别结果对应的所述目标概率达到概率阈值时，确定所述识别结果为符合所述菜谱匹配条件的目标识别结果；

当所述至少两组识别结果中，所述目标识别结果的占比达到比例阈值时，确定所述用户原创内容中包含所述菜谱类内容。

5.根据权利要求1至3任一所述的方法，其特征在于，所述从所述用户原创内容中提取文本特征，包括：

根据所述菜谱类内容的特性对所述用户原创内容进行特征提取，得到字特征和词特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述词特征包含至少两个所述字特征时，从所述文本特征中滤除所述词特征中包含的所述字特征。

7.根据权利要求4所述的方法，其特征在于，所述用户原创内容是目标账号发布在所述网络平台中的内容；

在确定所述用户原创内容中包含所述菜谱类内容之后，还包括：

对所述目标账号触发所述网络平台中与所述菜谱类内容对应的奖励机制。

8.一种菜谱类内容的识别装置，其特征在于，所述装置包括：

获取模块，用于获取网络平台中的用户原创内容，所述网络平台中提供有用户原创内容发布功能；

所述获取模块，还用于从所述用户原创内容中提取文本特征；

输入模块，用于将所述用户原创内容和所述文本特征输入菜谱识别模型，得到至少两组识别结果，所述菜谱识别模型中包括通过不同识别算法对所述文本特征进行识别的至少两个模型，其中，所述菜谱识别模型用于根据所述文本特征确定所述用户原创内容对菜谱类内容的包含情况；

确定模块，用于当所述至少两组识别结果符合菜谱匹配条件时，确定所述用户原创内容中包含所述菜谱类内容。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的菜谱类内容的识别方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的菜谱类内容的识别方法。