CN110737770B - 文本数据敏感性识别方法、装置、电子设备及存储介质 - Google Patents

文本数据敏感性识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110737770B
CN110737770B CN201810719136.6A CN201810719136A CN110737770B CN 110737770 B CN110737770 B CN 110737770B CN 201810719136 A CN201810719136 A CN 201810719136A CN 110737770 B CN110737770 B CN 110737770B
Authority
CN
China
Prior art keywords
text data
processed
sensitive
theme
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810719136.6A
Other languages
English (en)
Other versions
CN110737770A (zh
Inventor
张梦
雍倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810719136.6A priority Critical patent/CN110737770B/zh
Publication of CN110737770A publication Critical patent/CN110737770A/zh
Application granted granted Critical
Publication of CN110737770B publication Critical patent/CN110737770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提出一种文本数据敏感性识别方法、装置、电子设备及存储介质,属于互联网技术领域。其中,该方法包括:对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型;根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签;利用待处理文本数据及所述待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。由此,通过这种文本数据敏感性识别方法,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。

Description

文本数据敏感性识别方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本数据敏感性识别方法、装置、电子设备及存储介质。
背景技术
进入21世纪以来,科技发展日新月异,在互联网行业高速发展的信息社会,互联网已经成为人们获取知识和信息的重要途径。比如,人们可以通过互联网查阅信息、浏览新闻等,政府机构、官方媒体也可以通过互联网上的信息,获取线索信息、了解民意诉求等。然而,面对海量的互联网信息,获取有价值的、具有社会意义的线索无异于大海捞针。与此同时,互联网应用范围的扩大化也使得互联网上的信息良莠不齐,不乏有会产生不利于未成年人成长或者危害社会稳定等负面影响的不良信息。
因此,根据需求对互联网上的信息进行甄别,识别敏感数据,提高人们利用互联网获取信息的效率,或者规避不良信息对社会造成的负面影响,具有十分重要的现实意义。现有文本数据敏感度识别技术中,主要是通过人工的方式进行,或者通过人工建立敏感词表,进而利用机器基于该敏感词表对目标文本进行简单的匹配查询,以确定目标文本的敏感度。但通过人工建立敏感词表的方式,缺乏敏感词与语境的结合,容易导致识别结果不准确,而且效率低下,浪费人力资源。
发明内容
本申请提出的文本数据敏感性识别方法、装置、电子设备及存储介质,用于解决相关技术中,现有通过人工建立敏感词表对文本数据进行敏感度识别的方法,不仅准确率低,而且效率低下,浪费人力资源的问题。
本申请一方面实施例提出的文本数据敏感性识别方法,包括:对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型;根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注,以确定所述待处理文本数据对应的标注标签;利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。
本申请另一方面实施例提出的文本数据敏感性识别装置,包括:第一确定模块,用于对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型;第二确定模块,用于根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注,以确定所述待处理文本数据对应的标注标签;训练模块,用于利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。
本申请再一方面实施例提出的电子设备,其包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前所述的文本数据敏感性识别方法。
本申请再一方面实施例提出的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如前所述的文本数据敏感性识别方法。
本申请又一方面实施例提出的计算机程序,该程序被处理器执行时,以实现本申请实施例所述的文本数据敏感性识别方法。
本申请实施例提供的文本数据敏感性识别方法、装置、电子设备、计算机可读存储介质及计算机程序,可以对待处理文本数据进行主题识别,确定待处理文本数据对应的第一主题类型,并根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签,进而利用待处理文本数据及待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。由此,通过根据主题类型对待处理文本数据进行分类,之后即可根据与主题类型对应的特征集对待处理文本数据进行数据标注,并利用待处理文本数据及其对应的标注标签构成训练样本集,训练得到敏感识别模型,从而利用敏感识别模型对文本数据进行敏感性识别,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种文本数据敏感性识别方法的流程示意图;
图2为本申请实施例所提供的另一种文本数据敏感性识别方法的流程示意图;
图3为本申请实施例提供的一种文本数据敏感性识别装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请实施例针对现有通过人工建立敏感词表对文本数据进行敏感度识别的方法,不仅准确率低,而且效率低下,浪费人力资源的问题,提出一种文本数据敏感性识别方法。
本申请实施例提供的文本数据敏感性识别方法,可以对待处理文本数据进行主题识别,确定待处理文本数据对应的第一主题类型,并根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签,进而利用待处理文本数据及待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。由此,通过根据主题类型对待处理文本数据进行分类,之后即可根据与主题类型对应的特征集对待处理文本数据进行数据标注,并利用待处理文本数据及其对应的标注标签构成训练样本集,训练得到敏感识别模型,从而利用敏感识别模型对文本数据进行敏感性识别,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。
下面参考附图对本申请提供的文本数据敏感性识别方法、装置、电子设备、存储介质及计算机程序进行详细描述。
图1为本申请实施例所提供的一种文本数据敏感性识别方法的流程示意图。
如图1所示,该文本数据敏感性识别方法,包括以下步骤:
步骤101,对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型。
其中,第一主题类型,是指待处理文本数据对应的主题类型。比如,主题类型可以是政治类、经济类、社会类等。
可以理解的是,相同的词语在不同的语境下,可能具有不同的含义,因此在不同的语境下,相同词语的敏感性也可能不同。为了避免在不同的语境下,相同词语的敏感性不同,而导致对待处理文本数据的标注不准确,可以首先对待处理文本数据根据全篇语境进行分类。而待处理文本数据的全篇语境可以与待处理文本数据的主题类型有关,因此,在本申请实施例中,可以对待处理文本数据进行主题识别,以初步确定待处理文本数据的全篇语境。
需要说明的是,在本申请实施例一种可能的实现方式中,可以利用主题识别模型对待处理文本数据进行主题识别。训练主题识别模型时,可以利用已确定出主题类型的文本数据构成训练样本集,训练生成主题识别模型。
步骤102,根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注,以确定所述待处理文本数据对应的标注标签。
其中,特征集中,包括用于对待处理文本数据进行数据标注时所遵循的词法特征、语义特征及句法特征等。
可以理解的是,在本申请实施例中,不同的第一主题类型可以对应于不同的特征集。比如,第一主题类型为“社会类”时,对应的特征集中可能包括特征A、特征B和特征C;第一主题类型为“经济类”时,对应的特征集中可能包括特征B、特征E和特征D。
其中,不同主题类型对应的特征集,可以根据该主题类型关联的政策文件确定。比如,可以根据政府机构、官方媒体判别敏感内容的业务逻辑,确定“社会类”标题对应的特征集。比如通过对政府机构、官方媒体判别敏感内容的业务逻辑进行解析后,确定“社会类”标题对应的词法特征及语义特征包括:负面内容、未完结的具体事件、事件的影响会涉及到他人。
需要说明的是,每种第一主题类型对应的特征集可以有多个特征,当待处理文本数据与其第一主题类型对应的特征集中的一条或多条匹配时,或者,待处理文本数据与特征集的匹配度大于预设的第一阈值时,即可以将该待处理文本数据标注为敏感,即该待处理文本数据对应的标注标签为敏感。
实际使用时,预设的第一阈值,可以根据实际情况确定,本申请实施例对此不做限定。比如,第一阈值可以是60%。
举例来说,待处理文本数据对应的第一主题类型为“社会类”,“社会类”对应的特征集有6条,预设的第一阈值为60%,而该待处理文本数据与特征集中的其中4条匹配,则其与特征集的匹配度为67%,大于预设的第一阈值,因此该待处理文本数据的标注标签为敏感。
进一步的,在本申请实施例一种可能的实现形式中,在确定出待处理文本数据对应的标注标签之后,还可以根据待处理文本数据与其主题类型对应的特征集的匹配度,确定待处理文本属于该标注标签的可信度。
具体的,可以预设不同的可信度阈值,比如预设第二阈值和第三阈值,其中,第二阈值大于第一阈值,第三阈值小于第一阈值。之后,即可以根据待处理文本数据与特征集的匹配度,与上述各阈值的关系,确定待处理文本数据属于其对应的标注标签的可信度。
在本申请实施例一种可能的实现形式中,可以依据以下规则确定待处理文本数据属于其对应的标注标签的可信度:若待处理文本数据与第一主题类型对应的特征集的匹配度大于第一阈值且小于第二阈值时,则待处理文本数据对应的标注标签为敏感,且其可信度较低,可以将可信度等级设定为1级;若待处理文本数据与第一主题类型对应的特征集的匹配度大于第二阈值,则待处理文本数据对应的标注标签为敏感,且其可信度较高,可以将对应的可信度等级设定为2级;若待处理文本数据与第一主题类型对应的特征集的匹配度小于第一阈值且大于第三阈值时,则待处理文本数据对应的标注标签为非敏感,且其可信度较低,对应的可信度等级为1级;若待处理文本数据其第一主题类型对应的特征集的匹配度小于第三阈值时,则待处理文本数据对应的标注标签为非敏感,且其可信度较高,对应的可信度等级为2级。
举例来说,待处理文本数据A、B、C、D对应的第一主题类型均为“社会类”,“社会类”对应的特征集中有6个特征,预设的第一阈值为60%,第二阈值为80%,第三阈值为20%,而待处理文本数据A与特征集中的4个特征匹配,待处理文本数据B与特征集中的6个特征匹配,待处理文本数据C与特征集中的3个特征匹配,待处理文本数据D与特征集中的任意一个特征均不匹配,则待处理文本数据A、B、C、D与特征集的匹配度分别为67%、100%、50%、0%,且待处理文本数据A与特征集的匹配度大于第一阈值且小于第二阈值,对应的标注标签为敏感,可信度较低,可信度等级为1级;待处理文本数据B与特征集的匹配度大于第二阈值,对应的标注标签为敏感,可信度较高,可信度等级为2级;待处理文本数据C与特征集的匹配度小于第一阈值且大于第三阈值,对应的标注标签为非敏感,可信度较低,可信度等级为1级;待处理文本数据D与特征集的匹配度小于第三阈值,对应的标注标签为非敏感,可信度较高,可信度等级为2级。
需要说明的是,上述举例说明仅为示例性的,不能视为对本申请的限制。实际使用时,可以根据实际需要将可信度等级做更加细化的划分。
可选的,在本申请实施例一种可能的实现形式中,还可以根据待处理文本数据是否与特征集中的所有特征匹配,对待处理文本数据进行数据标注。即当待处理文本数据与特征集中的所有特征均匹配时,才可以将待处理文本数据标注为敏感;反之,将待处理文本数据标注为不敏感。
进一步的,第一主题类型对应的特征集,可以根据第一主题类型对应的敏感文本数据确定。即在上述步骤102之前,还可以包括:
对与所述第一主题类型对应的敏感文本数据进行数据处理,确定所述第一主题类型对应的特征集。
其中,敏感文本数据,是指其对应的标注标签已被确定为敏感的文本数据。
需要说明的是,在本申请实施例一种可能的实现形式中,在对待处理文本数据进行数据标注之前,可以对各第一主题类型对应的敏感文本数据分别进行数据处理,分别确定出各第一主题类型对应的敏感文本数据共有的敏感词,或者共有的特征,进而将各第一主题类型对应的敏感文本数据共有的特征,确定为各第一主题类型对应的特征集。
步骤103,利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。
在本申请实施例中,在对待处理文本数据进行数据标注后,即可根据待处理文本数据对应的标签,将待处理文本数据及待处理文本数据对应的标注标签共同构成训练样本集,训练得到敏感识别模型。
进一步的,待处理文本数据对应的第一主题类型可能有多种,而不同的第一主题类型对应的特征集可以不同,因此,为了避免因第一主题类型不同,导致训练出的敏感识别模型的识别准确性差,可以根据第一主题类型分别训练敏感识别模型。即在本申请实施例一种可能的实现形式中,上述步骤103,可以包括:
利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的与所述第一主题类型对应的训练样本集,对识别模型进行训练,得到与所述第一主题类型对应的第一敏感识别模型。
可以理解的是,在利用待处理文本数据及待处理文本数据对应的标注标签构成训练样本集时,可以根据待处理文本数据对应的第一主题类型,将待处理文本数据进行分类,进而将各第一主题类型对应的待处理文本数据及其对应的标注标签分别构成一个训练样本集,之后即可根据各第一主题类型对应的训练样本集,分别训练得到与各第一主题类型分别对应的第一敏感识别模型。
需要说明的是,在本申请实施例一种可能的实现形式中,在利用待处理文本数据及其对应的标注标签构成训练样本集时,还可以将其属于对应的标注标签的可信度,与待处理文本数据及其标注标签共同构成训练样本集,以使得训练得到的敏感识别模型不仅可以识别出文本数据对应的标注标签,还可以识别出文本数据属于该标注标签的可信度。
进一步的,在本申请实施例中,训练得到敏感识别模型之后,即可利用敏感识别模型确定目标文本数据的敏感性。即在本申请实施例一种可能的实现形式中,上述步骤103之后,还可以包括:
获取目标文本数据;
对所述目标文本数据进行主题识别,以确定所述目标文本数据对应的第二主题类型;
利用与所述第二主题类型对应的第二敏感识别模型,对所述目标文本数据进行识别,以确定所述目标文本数据的敏感标签。
其中,目标文本数据,是指当前待确定其敏感标签的文本数据。第二主题类型,是指目标文本数据对应的主题类型。
需要说明的是,在本申请实施例中,获取到目标文本数据之后,即可对目标文本数据进行主题识别,其中对目标文本数据进行主题识别的方法,与对待处理文本数据进行主题识别的方法相同,此处不再赘述。
在本申请实施例一种可能的实现形式中,可以根据目标文本数据对应的第二主题类型,确定出第二主题类型对应的第二敏感识别模型,进而利用确定出的第二敏感识别模型对目标文本数据进行识别,以确定目标文本数据的敏感标签。
举例来说,若对目标文本数据A进行主题识别后,确定其对应的第二主题类型为“政治类”,则可以利用“政治类”对应的敏感识别模型对目标文本数据进行识别。
进一步的,在本申请实施例一种可能的实现形式中,在利用敏感识别模型对目标文本数据进行识别时,不仅可以确定目标文本数据的敏感标签,还可以确定目标文本数据属于其对应的敏感标签的可信度。
需要说明的是,本申请实施例中,在根据训练样本集,训练得到敏感识别模型后,敏感识别模型在使用过程中,可以根据敏感识别模型的识别结果及新的敏感词汇的出现,自动对该模型的训练样本进行优化和完善,从而保证敏感识别模型的识别精度和准确度。
本申请实施例提供的文本数据敏感性识别方法,可以对待处理文本数据进行主题识别,确定待处理文本数据对应的第一主题类型,并根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签,进而利用待处理文本数据及待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。由此,通过根据主题类型对待处理文本数据进行分类,之后即可根据与主题类型对应的特征集对待处理文本数据进行数据标注,并利用待处理文本数据及其对应的标注标签构成训练样本集,训练得到敏感识别模型,从而利用敏感识别模型对文本数据进行敏感性识别,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。
在本申请一种可能的实现形式中,从网络上获取到的原始文本数据可能包括一些低质量的噪声数据,会影响最终训练出的敏感识别模型的识别性能。同时,文本数据的来源不同,其结构、形式等也可能不同,从而对其主题识别的准确性造成影响。因此在对获取到的文本数据进行数据标注之前,可以首先滤除噪声数据,并根据文本数据的来源使用不同的主题识别模型,对其进行主题识别。
下面结合图2,对本申请实施例提供的文本数据敏感性识别方法进行进一步说明。
图2为本申请实施例所提供的另一种文本数据敏感性识别方法的流程示意图。
如图2所示,该文本数据敏感性识别方法,包括以下步骤:
步骤201,对获取的文本数据进行数据清洗,以获取所述候选文本数据。
其中,数据清洗,是指按照一定的规则或方法去除噪音数据的过程。候选文本数据,是指对文本数据进行数据清洗后,获得的高质量文本数据。
需要说明的是,在本申请实施例一种可能的实现形式中,为了得到用于训练敏感识别模型的训练样本集,可以从网络侧获取一定量的初始文本数据,进而根据初始文本数据进行筛选,获取待处理文本数据。由于网络上的数据不仅内容千差万别,而且质量也良莠不齐,从而导致从网络侧获取到的原始文本数据中,可能包含一些低质量的噪音数据,影响到敏感识别模型的稳定性和准确性。因此,在对获取到的初始文本数据进行主题识别之前,可以对其进行数据清洗,以去除低质量的噪音数据。
在本申请实施例中,可以通过规则匹配的方式进行数据清洗。实际使用时,数据清洗的规则可以根据实际需要预设,本申请实施例对此不做限定。比如,规则可以是:字数小于100字、主题不明确、广告等。预设的数据清洗规则可以有多条,若文本数据与预设的数据清洗规则中的一条或多条匹配时,可以将其确定为低质量的噪音数据,并将其去除,以得到候选文本数据。
或者,在本申请一种可能的实现形式中,可以利用数据清洗模型进行数据清洗。其中,可以利用已知的高质量文本数据构成训练样本集,训练得到数据清洗模型,之后将文本数据输入数据清洗模型,即可判断输入的文本数据是否为高质量文本数据,从而获取到候选文本数据。
步骤202,将预设的敏感词表中的各敏感词,分别与各候选文本数据进行匹配处理,以确定各候选文本数据与所述敏感词表中各敏感词间的匹配度。
步骤203,根据所述各候选文本数据与所述敏感词表中各敏感词间的匹配度,从所述各候选文本数据中获取待处理文本数据。
需要说明的是,在对候选文本数据进行主题识别之前,可以根据预设的敏感词表,初步判断各候选文本数据的敏感性,将明显不具有敏感性的候选文本去除,以获取到待处理文本数据。
在本申请实施例一种可能的实现形式中,可以从已知的敏感文本数据中提取敏感词,构成基础敏感词表,进而利用同义词、近义词扩展等方式,对基础敏感词表进行扩充,形成预设的敏感词表。
需要说明的是,将预设的敏感词表中的各敏感词与各候选文本数据进行匹配处理时,可以将敏感词表中的各敏感词逐个与各候选文本数据的全文进行匹配,以提高匹配的准确性。
在本申请实施例中,在确定各候选文本数据与敏感词表中各敏感词间的匹配度时,可以首先将候选文本数据进行分词处理,以确定候选文本数据中包括的各分词,进而确定候选文本数据中各分词与预设的敏感词表中各敏感词的匹配度。在本申请实施例中,候选文本数据与预设的敏感词表中各敏感词的匹配度,可以根据候选文本数据中各分词分别与预设的敏感词表中各敏感词间的语义相似度确定。语义相似度可以衡量两个词汇的相似度,可以通过相似度函数确定,一般来说,相似度函数的值域在0到1之间,并且相似度函数的值越大,则词汇的相似度越高,也就是说,两个相同词汇的相似度的值为1。即在本申请实施例一种可能的实现形式中,可以使用语义相似度表示候选文本数据与预设的敏感词表中各敏感词的匹配度。
需要说明的是,在本申请实施例一种可能的实现形式中,可以预设候选文本数据中的分词与预设的敏感词表中各敏感词的匹配度第四阈值,比如可以是0.6。若预设候选文本中的分词与预设的敏感词表中各敏感词的匹配度大于第四阈值,则可以将该分词确定为疑似敏感词,并统计候选文本数据中疑似敏感词的数量。
进一步的,在本申请实施例一种可能的实现形式中,还可以预设候选文本数据中疑似敏感词数量阈值,当候选文本数据中的疑似敏感词数量超过阈值时,可以将候选文本数据确定为待处理文本数据。
另外,还可以根据实际情况预设第五阈值,当候选文本数据中包含与预设的敏感词表中敏感词的匹配度大于第五阈值的分词时,则不考虑候选文本数据中疑似敏感词的数量,直接可以将该候选文本数据确定为待处理文本数据。
举例来说,假设预设的候选文本数据与预设的敏感词表中各敏感词的匹配度第四阈值为0.6,第五阈值为0.9,疑似敏感词数量阈值为10,若候选文本数据A中包含预设的敏感词表中的两个敏感词,则可以将候选文本数据A与这两个敏感词的匹配度置为1,并可以直接将候选文本数据A确定为待处理文本。若候选文本数据B中的20个分词与敏感词间的匹配度均大于0.6且小于0.7,则可以确定候选文本数据B中包含20个疑似敏感词,大于疑似敏感词数量阈值,因此可以将候选文本数据B确定为待处理文本数据。
步骤204,根据所述待处理文本数据的发布站点,确定所述待处理文本数据的类别。
步骤205,采用与所述待处理文本数据的类别对应的主题识别模型,对所述待处理文本数据进行主题识别。
可以理解的是,待处理文本数据的来源不同,其对应的文本结构、撰写方式等都可能不同,进而影响对待处理文本的主题识别。比如,媒体网站发布的内容通常具有固定的标题结构、固定的撰写格式,如贴吧等网民发布网站发布的内容通常不具有规律性的文本结构。因此,在本申请实施例中,可以根据待处理文本数据的发布站点,确定待处理文本数据的类别,进而根据待处理文本数据的类别,使用与其类别对应的主题识别模型对待处理文本数据进行主题识别,以提高主题识别的准确性。
需要说明的是,在本申请实施例一种可能的实现形式中,可以首先从不同的发布站点获取一定量的文本数据,并利用来自同一发布站点的文本数据构成训练样本集,以分别训练生成各发布站点分别对应的主题识别模型。
本申请实施例提供的文本数据敏感性识别方法,首先对获取的文本数据进行数据清洗,以获取候选文本数据,之后再根据各候选文本数据与敏感词表中各敏感词间的匹配度,从各候选文本数据中获取待处理文本数据,进而根据待处理文本数据的发布站点,确定待处理文本数据的类别,以采用与待处理文本数据的类别对应的主题识别模型,对待处理文本数据进行主题识别。由此,通过对获取的文本数据进行数据清洗及敏感词匹配处理,来进行待处理文本数据的提取,从而减少了主题识别过程中处理的数据量,提高了敏感识别模型的建立速度,并且采用与发布站点对应的主题识别模型,对文本数据进行主题识别,从而使得最终确定的待处理文本数据所属的主题类型准确性更高。
为了实现上述实施例,本申请还提出一种文本数据敏感性识别装置。
图3为本申请实施例提供的一种文本数据敏感性识别装置的结构示意图。
如图3所示,该文本数据敏感性识别装置30,包括:
第一确定模块31,用于对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型。
第二确定模块32,用于根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注,以确定所述待处理文本数据对应的标注标签。
训练模块33,用于利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。
在实际使用时,本申请实施例提供的文本数据敏感性识别装置,可以被配置在任意电子设备中,以执行前述文本数据敏感性识别方法。
本申请实施例提供的文本数据敏感性识别装置,可以对待处理文本数据进行主题识别,确定待处理文本数据对应的第一主题类型,并根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签,进而利用待处理文本数据及待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。由此,通过根据主题类型对待处理文本数据进行分类,之后即可根据与主题类型对应的特征集对待处理文本数据进行数据标注,并利用待处理文本数据及其对应的标注标签构成训练样本集,训练得到敏感识别模型,从而利用敏感识别模型对文本数据进行敏感性识别,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。
在本申请一种可能的实现形式中,上述文本数据敏感性识别装置30,具体用于:
将预设的敏感词表中的各敏感词,分别与各候选文本数据进行匹配处理,以确定各候选文本数据与所述敏感词表中各敏感词间的匹配度;
根据所述各候选文本数据与所述敏感词表中各敏感词间的匹配度,从所述各候选文本数据中获取待处理文本数据。
进一步的,在本申请另一种可能的实现形式中,上述文本数据敏感性识别装置30,还用于:
对获取的文本数据进行数据清洗,以获取所述候选文本数据。
进一步的,在本申请另一种可能的实现形式中,上述文本数据敏感性识别装置30,还用于:
根据所述待处理文本数据的发布站点,确定所述待处理文本数据的类别。
进一步的,在本申请再一种可能的实现形式中,上述第一确定模块31,具体用于:
采用与所述待处理文本数据的类别对应的主题识别模型,对所述待处理文本数据进行主题识别。
进一步的,在本申请再一种可能的实现形式中,上述文本数据敏感性识别装置30,还用于:
对与所述第一主题类型对应的敏感文本数据进行数据处理,确定所述第一主题类型对应的特征集。
进一步的,在本申请又一种可能的实现形式中,上述训练模块33,具体用于:
利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的与所述第一主题类型对应的训练样本集,对识别模型进行训练,得到与所述第一主题类型对应的第一敏感识别模型。
进一步的,在本申请又一种可能的实现形式中,上述文本数据敏感性识别装置30,还用于:
获取目标文本数据;
对所述目标文本数据进行主题识别,以确定所述目标文本数据对应的第二主题类型;
利用与所述第二主题类型对应的第二敏感识别模型,对所述目标文本数据进行识别,以确定所述目标文本数据的敏感标签。
需要说明的是,前述对图1、图2所示的文本数据敏感性识别方法实施例的解释说明也适用于该实施例的文本数据敏感性识别装置30,此处不再赘述。
本申请实施例提供的文本数据敏感性识别装置,可以对待处理文本数据进行主题识别,确定待处理文本数据对应的第一主题类型,并根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签,进而利用待处理文本数据及待处理文本数据对应的标注标签构成的训练样本集,对识别模型进行训练,得到敏感识别模型。由此,通过根据主题类型对待处理文本数据进行分类,之后即可根据与主题类型对应的特征集对待处理文本数据进行数据标注,并利用待处理文本数据及其对应的标注标签构成训练样本集,训练得到敏感识别模型,从而利用敏感识别模型对文本数据进行敏感性识别,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。
为了实现上述实施例,本申请还提出一种电子设备。
图4为本发明一个实施例的电子设备的结构示意图。
如图4所示,上述电子设备400包括:
存储器410及处理器420,连接不同组件(包括存储器410和处理器420)的总线430,存储器410存储有计算机程序,当处理器420执行所述程序时实现本申请实施例所述的文本数据敏感性识别方法。
总线430表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
电子设备400典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备400访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器410还可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)440和/或高速缓存存储器450。电子设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***460可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线430相连。存储器410可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块470的程序/实用工具480,可以存储在例如存储器410中,这样的程序模块470包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块470通常执行本申请所描述的实施例中的功能和/或方法。
电子设备400也可以与一个或多个外部设备490(例如键盘、指向设备、显示器491等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口492进行。并且,电子设备400还可以通过网络适配器493与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器493通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器420通过运行存储在存储器410中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的文本数据敏感性识别方法的解释说明,此处不再赘述。
本申请实施例提供的电子设备,可以执行如前所述的文本数据敏感性识别方法,对待处理文本数据进行主题识别,确定待处理文本数据对应的第一主题类型,并根据与第一主题类型对应的特征集,对待处理文本数据进行数据标注,以确定待处理文本数据对应的标注标签,进而利用待处理文本数据及待处理文本数据对应的标注标签构成的训练样本集,以对识别模型进行训练,得到敏感识别模型。由此,通过根据主题类型对待处理文本数据进行分类,之后即可根据与主题类型对应的特征集对待处理文本数据进行数据标注,并利用待处理文本数据及其对应的标注标签构成训练样本集,训练得到敏感识别模型,从而利用敏感识别模型对文本数据进行敏感性识别,不仅提高了识别的准确性和识别效率,而且由于敏感识别模型的创建过程减少了人工参与,节约了人力成本。
为了实现上述实施例,本申请还提出一种计算机可读存储介质。
其中,该计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现本申请实施例所述的文本数据敏感性识别方法。
为了实现上述实施例,本申请再一方面实施例提供一种计算机程序,该程序被处理器执行时,以实现本申请实施例所述的文本数据敏感性识别方法。
一种可选实现形式中,本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (7)

1.一种文本数据敏感性识别方法,其特征在于,包括:
对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型;
根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注,以确定所述待处理文本数据对应的标注标签;
利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的与所述第一主题类型对应的训练样本集,对识别模型进行训练,得到与所述第一主题类型对应的第一敏感识别模型;
所述得到与所述第一主题类型对应的第一敏感识别模型之后,还包括:
获取目标文本数据;
对所述目标文本数据进行主题识别,以确定所述目标文本数据对应的第二主题类型;
利用与所述第二主题类型对应的第二敏感识别模型,对所述目标文本数据进行识别,以确定所述目标文本数据的敏感标签,其中,所述第二敏感识别模型包含于所述第一敏感识别模型;
所述对待处理文本数据进行主题识别之前,还包括:
根据所述待处理文本数据的发布站点,确定所述待处理文本数据的类别;
所述对待处理文本数据进行主题识别,包括:
采用与所述待处理文本数据的类别对应的主题识别模型,对所述待处理文本数据进行主题识别;
其中,所述主题识别模型的获取方法包括:
从不同的发布站点获取文本数据,将来自同一发布站点的所述文本数据组成训练样本集;
采用所述训练样本集分别训练各发布站点对应的主题识别模型。
2.如权利要求1所述的方法,其特征在于,所述对待处理文本数据进行主题识别之前,还包括:
将预设的敏感词表中的各敏感词,分别与各候选文本数据进行匹配处理,以确定各候选文本数据与所述敏感词表中各敏感词间的匹配度;
根据所述各候选文本数据与所述敏感词表中各敏感词间的匹配度,从所述各候选文本数据中获取待处理文本数据。
3.如权利要求2所述的方法,其特征在于,所述将预设的敏感词表中的各敏感词,分别与各候选文本数据进行匹配处理之前,还包括:
对获取的文本数据进行数据清洗,以获取所述候选文本数据。
4.如权利要求1-3任一所述的方法,其特征在于,所述根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注之前,还包括:
对与所述第一主题类型对应的敏感文本数据进行数据处理,确定所述第一主题类型对应的特征集。
5.一种文本数据敏感性识别装置,其特征在于,包括:
第一确定模块,用于对待处理文本数据进行主题识别,以确定待处理文本数据对应的第一主题类型;
第二确定模块,用于根据与所述第一主题类型对应的特征集,对所述待处理文本数据进行数据标注,以确定所述待处理文本数据对应的标注标签;
训练模块,用于利用所述待处理文本数据及所述待处理文本数据对应的标注标签构成的与所述第一主题类型对应的训练样本集,对识别模型进行训练,得到与所述第一主题类型对应的第一敏感识别模型;
所述装置还用于:
所述得到与所述第一主题类型对应的第一敏感识别模型之后,获取目标文本数据;
对所述目标文本数据进行主题识别,以确定所述目标文本数据对应的第二主题类型;
利用与所述第二主题类型对应的第二敏感识别模型,对所述目标文本数据进行识别,以确定所述目标文本数据的敏感标签,其中,所述第二敏感识别模型包含于所述第一敏感识别模型;
所述第一确定模块还用于,对待处理文本数据进行主题识别之前,根据所述待处理文本数据的发布站点,确定所述待处理文本数据的类别;
所述对待处理文本数据进行主题识别,包括:
采用与所述待处理文本数据的类别对应的主题识别模型,对所述待处理文本数据进行主题识别;
其中,所述主题识别模型的获取方法包括:
从不同的发布站点获取文本数据,将来自同一发布站点的所述文本数据组成训练样本集;
采用所述训练样本集分别训练各发布站点对应的主题识别模型。
6.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的文本数据敏感性识别方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的文本数据敏感性识别方法。
CN201810719136.6A 2018-07-03 2018-07-03 文本数据敏感性识别方法、装置、电子设备及存储介质 Active CN110737770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810719136.6A CN110737770B (zh) 2018-07-03 2018-07-03 文本数据敏感性识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810719136.6A CN110737770B (zh) 2018-07-03 2018-07-03 文本数据敏感性识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110737770A CN110737770A (zh) 2020-01-31
CN110737770B true CN110737770B (zh) 2023-01-20

Family

ID=69234229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810719136.6A Active CN110737770B (zh) 2018-07-03 2018-07-03 文本数据敏感性识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110737770B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434331B (zh) * 2020-11-20 2023-08-18 百度在线网络技术(北京)有限公司 一种数据脱敏方法、装置、设备以及存储介质
CN113128220B (zh) * 2021-04-30 2023-07-18 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN115544240B (zh) * 2022-11-24 2023-04-07 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
WO2024128949A1 (en) * 2022-12-16 2024-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Detection of sensitive information in a text document

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及***
CN107437416A (zh) * 2017-05-23 2017-12-05 阿里巴巴集团控股有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及***
CN107437416A (zh) * 2017-05-23 2017-12-05 阿里巴巴集团控股有限公司 一种基于语音识别的咨询业务处理方法及装置

Also Published As

Publication number Publication date
CN110737770A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN109460551B (zh) 签名信息提取方法及装置
CN107423278B (zh) 评价要素的识别方法、装置及***
CN110909122B (zh) 一种信息处理方法及相关设备
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20090319449A1 (en) Providing context for web articles
CN110427487B (zh) 一种数据标注方法、装置及存储介质
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN111782793A (zh) 智能客服处理方法和***及设备
CN111475651A (zh) 文本分类方法、计算设备及计算机存储介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN110688558B (zh) 网页搜索的方法、装置、电子设备和存储介质
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN115544256A (zh) 一种基于nlp算法模型的自动数据分类分级方法及***
CN110909538B (zh) 问答内容的识别方法、装置、终端设备及介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant