CN108519970B

CN108519970B - 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Info

Publication number: CN108519970B
Application number: CN201810114518.6A
Authority: CN
Inventors: 赵骏; 郑佳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2021-08-31
Anticipated expiration: 2038-02-06
Also published as: CN108519970A; WO2019153605A1

Abstract

本发明涉及一种文本中敏感信息的鉴定方法、电子装置及可读存储介质，该方法包括：在收到待鉴定文本后，利用预设的段落分析规则将所述待鉴定文本分成各个独立段落；对各个独立段落进行分句，并对分得的各个语句进行分词处理；将各个分词与预先建立的敏感词库中的各个敏感词进行匹配，得到与预先建立的敏感词库中敏感词相匹配的分词；根据相匹配的分词所在的段落对应的预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息。本发明能准确有效地判断出所述待鉴定文本中是否包含敏感信息。而且，无需人工进行检测，能自动进行文本中敏感信息的鉴定，有效提高检测效率。

Description

文本中敏感信息的鉴定方法、电子装置及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本中敏感信息的鉴定方法、电子装置及可读存储介质。

背景技术

目前，对于大型互联网金融企业，在各种业务流程中会涉及到大量文本，而文本中有可能会夹杂各种敏感信息(如各种涉及色情、政治敏感、暴力、恐怖等的不良信息)，必须有效鉴定并剔除。传统的文本敏感信息的鉴定方式是由人工对文本进行逐一审核以筛选出包含敏感信息的文本，这种人工检测成本高，且比较耗时，效率较低。

发明内容

本发明的目的在于提供一种文本中敏感信息的鉴定方法、电子装置及可读存储介质，旨在自动有效地识别出包含敏感信息的文本。

为实现上述目的，本发明提供一种电子装置，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本中敏感信息的鉴定***，所述文本中敏感信息的鉴定***被所述处理器执行时实现如下步骤：

在收到待鉴定文本后，利用预设的段落分析规则将所述待鉴定文本分成各个独立段落；

对各个独立段落进行分句，并对分得的各个语句进行分词处理；

将各个分词与预先建立的敏感词库中的各个敏感词进行匹配，得到与预先建立的敏感词库中敏感词相匹配的分词；

根据相匹配的分词所在的段落对应的预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息。

优选地，所述预设的段落分析规则包括：

检测所述待鉴定文本中是否有换行符，若有换行符，则直接将所述待鉴定文本通过检测出的换行符划分成各个独立段落；若没有换行符，则在所述待鉴定文本中句号后存在TAB符号时，进行分段，将TAB符号后的文本划分为新的段落，依次将所述待鉴定文本划分成各个独立段落；

所述对各个独立段落进行分句，并对分得的各个语句进行分词处理的步骤包括：

对各个独立段落按标点符号划分成若干句子，并对分得的各个语句采用二元的Bi-Gram分词方法进行分词处理。

优选地，所述文本中敏感信息的鉴定***被所述处理器执行时，还包括：

为所述待鉴定文本中各个独立段落设置对应的预设段落权重，其中，首段落和/或尾段落的权重高于其他段落的权重；

为所述待鉴定文本中各个语句设置对应的预设语句权重，其中，在一个独立段落内，段首和/或段尾语句的权重高于其他语句的权重。

若各个分词与预先建立的敏感词库中相匹配的敏感词为预设直接禁词，则直接判断所述待鉴定文本中包含敏感信息；

若所述待鉴定文本的分词与预先建立的敏感词库中的预设直接禁词部分相同或包含与所述预设直接禁词的相关同义词的部分，则为该分词利用预设的字符串相似算法计算得到对应的第一预设敏感词匹配权重x，公式如下：

x＝1/3(m/s1+m/s2+1-t/m)

其中，s1、s2为该分词以及对应的预设直接禁词的字符串长度，m为该分词以及对应的预设直接禁词之间相同字符串长度，t为去除差异长度；

若所述待鉴定文本的分词与预先建立的敏感词库中的敏感词相匹配，且相匹配的敏感词符合预设的第一词性，则检测在预先建立的敏感词库中与该第一词性的敏感词相关联的第二词性和/或第三词性的相关敏感词的匹配情况，并根据匹配情况及预设计算规则为该分词设定对应的第二预设敏感词匹配权重。

此外，为实现上述目的，本发明还提供一种文本中敏感信息的鉴定方法，所述文本中敏感信息的鉴定方法包括：

优选地，所述预设的段落分析规则包括：

优选地，该方法还包括：

x＝1/3(m/s1+m/s2+1-t/m)

优选地，所述利用预设规则判断所述待鉴定文本中是否包含敏感信息包括：

按照如下公式计算得到P值：

P＝a1*X1+a2*X2+a3*X3

其中，X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段落权重，X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句权重，X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重； a1、a2、a3为预先为预设段落权重X1，预设语句权重X2，以及预设敏感词匹配权重X3设置的参数权重；

将计算得到的P值与预先设定的预警阈值进行比较，若P值大于预先设定的预警阈值，则判断所述待鉴定文本中包含敏感信息。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有文本中敏感信息的鉴定***，所述文本中敏感信息的鉴定***可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文本中敏感信息的鉴定方法的步骤。

本发明提出的文本中敏感信息的鉴定方法、***及可读存储介质，通过对待鉴定文本进行分段、分句及分词处理后，将分得的各个分词与预先建立的敏感词库中的各个敏感词进行匹配，得到所述待鉴定文本中与预先建立的敏感词库中敏感词相匹配的分词；并根据相匹配的分词所在的段落设置的对应预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息。由于一般敏感信息在文本中出现时在不同位置如不同段落的出现概率不同，本发明能将所述待鉴定文本中的各个分词与预先建立的敏感词库中的各个敏感词进行匹配，根据匹配情况分配对应的预设敏感词匹配权重，并根据相匹配的分词在所述待鉴定文本中的位置即所在的段落设置对应预设段落权重，结合预设敏感词匹配权重以及预设段落权重来进行综合鉴定，能更加准确有效地判断出所述待鉴定文本中是否包含敏感信息。而且，无需人工进行检测，能自动进行文本中敏感信息的鉴定，有效提高检测效率。

附图说明

图1为本发明文本中敏感信息的鉴定***10较佳实施例的运行环境示意图；

图2为本发明文本中敏感信息的鉴定方法一实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提供一种文本中敏感信息的鉴定***。请参阅图1，是本发明文本中敏感信息的鉴定***10较佳实施例的运行环境示意图。

在本实施例中，所述的文本中敏感信息的鉴定***10安装并运行于电子装置1中。该电子装置1可包括，但不仅限于，存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器11为至少一种类型的可读计算机存储介质，所述存储器11 在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1 的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1 的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡 (Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据，例如所述文本中敏感信息的鉴定***10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或处理数据，例如执行所述文本中敏感信息的鉴定***10等。

所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管) 触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面，例如待鉴定文本的分段结果、分词结果、待鉴定文本中与敏感词库中敏感词相匹配的分词(标记)、待鉴定文本中是否包含敏感信息的最终鉴定结果等。所述电子装置1的部件11-13通过***总线相互通信。

文本中敏感信息的鉴定***10包括至少一个存储在所述存储器11中的计算机可读指令，该至少一个计算机可读指令可被所述处理器12执行，以实现本申请各实施例。

其中，上述文本中敏感信息的鉴定***10被所述处理器12执行时实现如下步骤：

步骤S1，在收到待鉴定文本后，利用预设的段落分析规则将所述待鉴定文本分成各个独立段落。

步骤S2，对各个独立段落进行分句，并对分得的各个语句进行分词处理。

本实施例中，文本中敏感信息的鉴定***接收用户发出的包含待鉴定文本的敏感信息鉴定请求，例如，接收用户通过手机、平板电脑、自助终端设备等终端发送的敏感信息鉴定请求，如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的敏感信息鉴定请求，或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器***上发送来的敏感信息鉴定请求。

文本中敏感信息的鉴定***在收到用户发出的敏感信息鉴定请求后，首先对敏感信息鉴定请求中的待鉴定文本进行一系列的处理，以便后续对该待鉴定文本中的敏感信息进行准确地判断。例如，可进行如下处理：

对待鉴定文本进行文字噪音去除等预处理，如对于待鉴定文本中存在畸变字、变体字的情况，先进行校正处理；对于待鉴定文本中存在乱码、多个同类型特殊字符的情况进行去除；还可以进行繁体字转换简体字等处理。

对待鉴定文本完成预处理后，可利用预设的段落分析规则对待鉴定文本进行段落分析，将待鉴定文本分成各个独立的段落。例如，对于有换行符的情况，直接将待鉴定文本通过换行符划分成不同的段落；对于没有换行符，但在句号后存在TAB符号时，可将后续文本作为新段落处理。并为各个段落设置权重X1，根据经验，为了取得博人眼球的宣传作用，文本中的不良信息一般大概率会出现在一个文本的首段落和尾段落中，而出现在大量内容的正文即中间段落的概率较小。因此，本实施例中可将待鉴定文本的首段落和尾段落作为核心段落，相应的，对首段落和尾段落设定的权重高于其他段落的权重。例如，对于首段落和尾段落设置较高的权重90％，对于中间段落设置权重70％。

将待鉴定文本中划分的各个段落进行分句，如将每一段落按标点符号划分成若干句子，并设置各个语句的权重X2。例如，可设置段落核心语句分析，如对于段首的句子可设置较高权重90％，对于中间语句设置权重70％。

对待鉴定文本中的各个分句继续进行分词处理。对各个语句进行分词，以便后续与敏感词库中的各个敏感词进行关键字匹配操作。本实施例中，可采用N元文法统计模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model，简称HMM)、最大熵模型(MaximumEntropy Model)来进行分词，分词算法可包括：正向最大匹配，反向最大匹配，双向最大匹配，最短路径算法。例如，N-gram模型中，假设T是由词序列W1,W2,W3,…Wn组成的，那么有如下公式：

P(T)＝P(W1W2W3…Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn -1)。具体地，在一种可选的实施方式中，采用二元的Bi-Gram分词方法进行分词，采用bigram策略即一个词的出现仅依赖于它前面出现的两个词，公式如下：

P(T)＝P(W1W2W3)＝P(W1)P(W2|W1)P(W3|W1W2)≈ P(W1)P(W2|W1)P(W3|W2)。

步骤S3，将各个分词与预先建立的敏感词库中的各个敏感词进行匹配，得到与预先建立的敏感词库中敏感词相匹配的分词。

本实施例中，预先可建立敏感词库也即敏感关键词消息库，例如，可按不同敏感类型建立敏感关键词消息库，包括：建立包含反动、***等危害社会活动的消息库；建立包含宗教、政治、事件等敏感的消息库；建立包含广告、诈骗等垃圾信息的消息库；建立包含黄赌毒等完全与金融活动无关的消息库。

该敏感关键词消息库中包括直接禁词，即需直接屏蔽掉的禁词。还可按词性将敏感关键词消息库中的敏感关键词划分为一般名词、辅助动词、辅助负面词、辅助褒义词等不同词性，并进行标注。进一步地，还可对敏感关键词定级。如可根据敏感词影响的不同，或出现频率高低，或国家公布、公司规定、***自定义等界定，对敏感关键词进行分级。如可将敏感关键词分为三个等级，一级敏感关键词为最严重的，如直接表达出反动、危害人民安全的敏感信息的，需直接给予过滤；二级敏感关键词为严重，所包含的信息虽然敏感，但不意味着一定会带来直接的危害，对于这类可给予提示预警，并标记信息，供管理员审核和操作；三级敏感关键词，是一些常与敏感信息相关的特殊词汇，如关于政治、军事等的特殊词语，多为指代性的名词，其所表达的意思往往需要根据上下文进行判断,其出现在一段文本中，并不意味着一定会是具有危害性的敏感信息，因此，对于这类信息，也需要进行标记，以供后续根据上下文查看文字所表达的意思是否会带来不良的影响。

在将待鉴定文本进行了文本预处理、段落分析、分词等一系列处理后，可将待鉴定文本的各个分词与建立的敏感关键词消息库中的敏感词进行匹配，并根据匹配的结果分配相应的匹配权重X3。具体地，可以包括以下几种情况：

(1)精确匹配的情况，命中直接禁词，即待鉴定文本的分词中直接包含了敏感关键词消息库中的直接禁词，则赋予匹配权重X3为100％。或者，也可以直接依此命中直接禁词的结果判定待鉴定文本为不良信息文本，并对待鉴定文本中的直接禁词进行标记。

(2)模糊匹配的情况，对于待鉴定文本的分词部分命中禁词或包含与禁词同义相关词的部分，则赋予权重X3＝x，其中x为利用字符串相似算法 Jaro-Winkler Distance计算得到，Jaro-Winkler Distance算法是一种计算两个字符串之间相似度的方法，x为Jaro距离，公式如下：x＝1/3(m/s1+m/s2+1-t/m)，其中，s1，s2为待鉴定文本的分词以及敏感关键词消息库中相似禁词的字符串长度，m为两者之间相同字串长度即匹配的字符数，t为去除差异长度。

(3)多个关键字匹配的情况，若待鉴定文本的分词与敏感关键词消息库中的敏感词相匹配，但该匹配的敏感词符合预设的第一词性，则进一步地还需判定与该第一词性相关联的第二词性或第三词性的相关联敏感词的匹配情况，以综合判定待鉴定文本是否为不良信息文本。例如，当待鉴定文本的分词匹配命中敏感关键词消息库中的一般名词时，需要进一步判断与该一般名词相关联的辅助动词或辅助褒义、负面词情况。通过如下公式：

w＝w1(1+(1-w1)w2*sig1)(1+(1-w1(1+(1-w1)w2*sig))w3*sig2)

来计算最终的敏感词匹配权重X3，w1，w2为辅助动词和辅助褒义/负面词命中权重。即本实施例中，预先按词性划分不同的敏感词，当一个词性的敏感词被命中后，还会进一步地判断该词性的其他关联词性的敏感词，以更准确地进行不良信息的鉴定。

步骤S4，根据相匹配的分词所在的段落对应的预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息。

本实施例中，在利用预设规则判断所述待鉴定文本中是否包含敏感信息时，可按照如下公式计算得到P值：

P＝a1*X1+a2*X2+a3*X3

其中，X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段落权重，X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句权重，X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重；a1、a2、a3为预先为预设段落权重X1，预设语句权重X2，以及预设敏感词匹配权重X3设置的参数权重，例如，可设置a1＝0.2，a2＝0.1，a3＝0.7。

预先设定一预警阈值，将计算得到的P值与预先设定的预警阈值进行比较，若P值大于预先设定的预警阈值，则判断所述待鉴定文本中包含敏感信息，并进行预警。

与现有技术相比，本实施例通过对待鉴定文本进行分段、分句及分词处理后，将分得的各个分词与预先建立的敏感词库中的各个敏感词进行匹配，得到所述待鉴定文本中与预先建立的敏感词库中敏感词相匹配的分词；并根据相匹配的分词所在的段落设置的对应预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息。由于一般敏感信息在文本中出现时在不同位置如不同段落或语句的出现概率不同，本实施例中能将所述待鉴定文本中的各个分词与预先建立的敏感词库中的各个敏感词进行匹配，根据匹配情况分配对应的预设敏感词匹配权重，并根据相匹配的分词在所述待鉴定文本中的位置即所在的段落设置对应预设段落权重及所在语句对应设置预设语句权重，结合预设敏感词匹配权重以及预设段落权重、预设语句权重来进行综合鉴定，能更加准确有效地判断出所述待鉴定文本中是否包含敏感信息。而且，无需人工进行检测，能自动进行文本中敏感信息的鉴定，有效提高检测效率。

在一可选的实施例中，在上述图1的实施例的基础上，所述文本中敏感信息的鉴定***10被所述处理器12执行时，还包括：

对于不同业务***，除了采用公共的敏感关键词消息库进行匹配过滤外，还可采用***自定义关键词库进行针对不同业务特性相关的敏感词库过滤。即针对不同业务***，在进行关键字匹配时，不仅可将待鉴定文本的各个分词与建立的敏感关键词消息库中的敏感关键词进行匹配，还可将待鉴定文本的各个分词与***自定义的针对不同业务特性相关的敏感词库中的敏感关键词进行匹配。后续对于达到公共库预警阈值的即可进行预警，对于未达到公共库阈值但达到***自定义库阈值的也可进行预警，更加灵活实用。

在一可选的实施例中，所述文本中敏感信息的鉴定***10被所述处理器12执行时，还包括：

对敏感关键词消息库实施更新策略，如：将不同消息库在线实时或定时更新同步到敏感关键词消息库中。还可通过数据库导出敏感关键词消息库文件到指定路径，***定期更新指定路径中的敏感关键词消息库数据，能够及时更新最新敏感关键词消息进入敏感关键词消息库。

如图2所示，图2为本发明文本中敏感信息的鉴定方法一实施例的流程示意图，该文本中敏感信息的鉴定方法包括以下步骤：

步骤S10，在收到待鉴定文本后，利用预设的段落分析规则将所述待鉴定文本分成各个独立段落。

步骤S20，对各个独立段落进行分句，并对分得的各个语句进行分词处理。

P(T)＝P(W1W2W3)＝P(W1)P(W2|W1)P(W3|W1W2)≈ P(W1)P(W2|W1)P(W3|W2)。

步骤S30，将各个分词与预先建立的敏感词库中的各个敏感词进行匹配，得到与预先建立的敏感词库中敏感词相匹配的分词。

w＝w1(1+(1-w1)w2*sig1)(1+(1-w1(1+(1-w1)w2*sig))w3*sig2)

步骤S40，根据相匹配的分词所在的段落对应的预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息。

P＝a1*X1+a2*X2+a3*X3

其中，X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段落权重，X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句权重，X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重； a1、a2、a3为预先为预设段落权重X1，预设语句权重X2，以及预设敏感词匹配权重X3设置的参数权重，例如，可设置a1＝0.2，a2＝0.1，a3＝0.7。

在一可选的实施例中，在上述实施例的基础上，该方法还包括：

在一可选的实施例中，该方法还包括：

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有文本中敏感信息的鉴定***，所述文本中敏感信息的鉴定***可被至少一个处理器执行，以使所述至少一个处理器执行如上述实施例中的文本中敏感信息的鉴定方法的步骤，该文本中敏感信息的鉴定方法的步骤S10、 S20、S30等具体实施过程如上文所述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本中敏感信息的鉴定***，所述文本中敏感信息的鉴定***被所述处理器执行时实现如下步骤：

根据相匹配的分词所在的段落对应的预设段落权重，以及相匹配的分词对应的预设敏感词匹配权重，利用预设规则判断所述待鉴定文本中是否包含敏感信息；

所述文本中敏感信息的鉴定***被所述处理器执行时，还包括：

x＝1/3(m/s1+m/s2+1-t/m)

2.如权利要求1所述的电子装置，其特征在于，所述预设的段落分析规则包括：

3.如权利要求1或2所述的电子装置，其特征在于，所述文本中敏感信息的鉴定***被所述处理器执行时，还包括：

4.一种文本中敏感信息的鉴定方法，其特征在于，所述文本中敏感信息的鉴定方法包括：

该方法还包括：

x＝1/3(m/s1+m/s2+1-t/m)

5.如权利要求4所述的文本中敏感信息的鉴定方法，其特征在于，所述预设的段落分析规则包括：

6.如权利要求4或5所述的文本中敏感信息的鉴定方法，其特征在于，该方法还包括：

7.如权利要求4所述的文本中敏感信息的鉴定方法，其特征在于，所述利用预设规则判断所述待鉴定文本中是否包含敏感信息包括：

按照如下公式计算得到P值：

P＝a1*X1+a2*X2+a3*X3

其中，X1为所述待鉴定文本中相匹配的分词所在的段落对应的预设段落权重，X2为所述待鉴定文本中相匹配的分词所在的语句对应的预设语句权重，X3为所述待鉴定文本中相匹配的分词对应的预设敏感词匹配权重；a1、a2、a3为预先为预设段落权重X1，预设语句权重X2，以及预设敏感词匹配权重X3设置的参数权重；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本中敏感信息的鉴定***，所述文本中敏感信息的鉴定***被处理器执行时实现如权利要求4至7中任一项所述的文本中敏感信息的鉴定方法的步骤。