CN102521220A

CN102521220A - 一种网络***遗书的识别方法

Info

Publication number: CN102521220A
Application number: CN201110386606XA
Authority: CN
Inventors: 王泰; 徐薇; 李隆; 刘三女牙
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2012-06-27
Anticipated expiration: 2031-11-29
Also published as: CN102521220B

Abstract

本发明提出了一种自动识别出现在互联网上的***遗书的方法，属于中文文本信息处理与应用心理学技术领域，解决了自动发现网络***遗书的技术问题。该发明采用核心词绑定特征句的识别方法，分为特征提取与特征识别两个阶段。通过提取核心词，然后依据核心词所在分句与其特征句相近程度的最大值等因素来计算待检文本的***倾向值，继而判断待检样本是否为***遗书。本发明能够自动识别网络***遗书，可以对出现心理危机的个体进行早期预警，为心理咨询与辅导等部门实施干预与治疗提供依据。本发明简便易行，规避了分词缺陷的负面影响，对新增样本的兼容性强，识别准确率高，漏检率低。

Description

一种网络***遗书的识别方法

技术领域

本发明属于中文文本信息处理与应用心理学技术领域，具体涉及一种网络***遗书的识别方法。

背景技术

***已经成为我国15-34岁人群死亡的首因，有研究统计，***案例中有28.1％的人留有遗言、遗书。近年来，有网民在***前将其临终遗言张贴在互联网上。因为热心网民与警方的及时干预，最终都避免了悲剧的发生。

由此可见，开发一种自动识别网络***遗书的方法，对于及时挽救具有***意念的生命无疑具有重要的现实意义。

尽管对***遗书的研究已经非常充分，但是这些研究主要集中在通过遗书来回溯导致***的因素等方面。目前，国际上有关***遗书的自动分类的研究还处于起步阶段。首次提出自动识别张贴在互联网上的***遗书的方法则是在2007年才出现，Yen-Pei Huang，Tiong Goh，Chern Li Liew，Hunting SuicideNotes in Web 2.0-Prel iminary Findings，in Proc.of IEEE 9^th Int’1.Symp.On Multimedia 2007，517-521。该方法依照关键词或词组的出现频率给一个待定文本评分，分数越高则疑似***的程度也越高。这种方法尽管非常简单，但是准确率比较低。2008、2009年连续两年在生物自然语言处理学术研讨会上，美国辛辛那提大学儿童医疗中心和波兰尼古拉斯哥白尼大学的学者相继提出用有监督的机器学习方法(序列最小优化法)和无监督的机器学习方法(顺序信息瓶颈法)来识别***遗书，显著提高了准确率。

目前，国内还没有公开文献报道有关中文***遗书的自动分类成果。中文***遗书的自动分类不能简单地移植适用于拉丁语系的***遗书自动分类方法。这是因为：第一，与英文中词与词之间按照空格自然分隔不同的是，在汉语的一个分句中，字与字紧密排列，要把关键词自动地提取出来，且不引发歧义，纵有较为成熟的中文自动分词组件，仍存在一定的困难；第二，中文的表达方法比较含蓄，在遗书中，往往不像英文那样直白地出现“***”，“killedmyself”等字眼，而常使用“死亡”，“离开这个世界”等词语或者短语；第三，如果仅仅采用高频词如“死亡”、“世界”等作为识别依据，那么“中国队男足在南非世界杯预选赛上被分入死亡之组”这条体育新闻也有可能被误判为***遗书。

现有技术的不足之处是没有在机器自动识别的过程中更深入地借鉴人类的阅读规律。一般来说，人类在阅读一篇文本时，先后经历了自底向上和由顶而下两个认识过程，即先理解词而后连词成句(自底向上)，句义比词义要完整、具体一些；在阅读完全篇以后，根据上下文和自身体验，形成对句子重要性的认识，特别是对重要句子中某个词的深刻记忆(由顶而下)。

发明内容

针对现有技术的上述不足，并考虑到***遗书是一类描述了某个固定而具体的意念的文本，本发明提出了一种核心词绑定特征句的网络***遗书识别方法，该方法简便易行，规避了分词缺陷的负面影响，对新增样本的兼容性强，识别准确率较高，漏检率较低。

具体来说，本发明一种网络***遗书的识别方法分为特征提取与特征识别两个阶段。

所述特征提取阶段共分三步，如图1所示。

第一步，从收集到的足够数量的***遗书样本中选出最能体现作者***意念的句子，即如果删去该句，则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄，这些被选出的句子被称为特征句，如果是某个句子中的分句，则只取该分句。

第二步，在这些特征句中，选出最能表达作者***意念的核心词，每个特征句限选一个核心词，然后将核心词相同的特征句归入该核心词的特征句库，核心词A的同义词B也视为核心词，且该同义词B所在的特征句也归入到核心词A的特征句库去。

第三步，选择尽可能少的核心词以覆盖尽可能多的***遗书样本，第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多；以后每轮都把能覆盖最多剩余样本的核心词挑出来，如果这样的核心词超过1个，则选择出现频率最高的那一个；重复上述过程，直到累计覆盖样本数目超过样本总量的95％为止；经过以上过程，获得了“核心词——特征句库”对照表。

特征识别阶段共分两步，如图2所示。

第一步，扫描待检文本，如果没有出现核心词，则判别为非***遗书。如果出现核心词，则进行第二步。

第二步，设待检文本T中出现了N次核心词，且第j次出现的核心词记作W_j，j＝1，2，3，...，N，N为自然数。

将T中W_j所在的分句S_j摘录出来，计算待检句S_j与W_j的每一个特征句C(W_j，i)的语句相似度A(S_j，C(W_j，i))，其中i＝1，2，...，L(W_j)，L(W_j)是“核心词——特征句库”对照表中W_j所对应的特征句的个数。

待检句S_j的***倾向值

M (S_{j}) = \max_{i = 1,2, L (W_{j})} A (S_{j}, C (W_{j}, i)) .

待检样本T的***倾向值

M (T) = \frac{1}{N} Σ_{j = 1}^{N} M (S_{j}) .

然后比较M(T)与设定阈值的大小关系，作出是否为***遗书的判断，若M(T)大于等于该阈值则判断待检文本为***遗书，若M(T)小于该阈值则判断待检文本为非***遗书。

在计算两个语句S₁和S₂相似度A(S₁，S₂)的时候，分别计算“字的匹配度”和“字串的匹配度”，然后采用线性加权，得到语句相似度。“字的匹配度”、“字串的匹配度”、语句相似度的具体计算方法如下所述。

字的匹配度

字串的匹配度，字串即是一串连续的字，中间没有分隔符

语句相似度

语句相似度＝β×字的匹配度+α×字串的匹配度

上述β＝0.5，α＝0.7，阈值取0.425。

在测试过程中，如果发现有漏检的样本存在，则与新收集的其他***遗书样本一道，再一次进入特征提取阶段，以进一步降低该方法在检测新送检样本时的漏检率。

本发明一种网络***遗书的识别方法，通过核心词绑定特征句的方式自动识别网络***遗书，可以对出现心理危机的个体进行早期预警，为心理咨询与辅导等部门实施干预与治疗提供依据。本发明简便易行，规避了分词缺陷的负面影响，对新增样本的兼容性强，识别准确率高，漏检率低。

附图说明

图1是本发明方法中特征提取阶段的步骤流程图。

图2是本发明方法中特征识别阶段的步骤流程图。

具体实施方式

下面结合附图及实施例对本发明作进一步的描述。

首先，从互联网上收集到52篇***遗书，并依据正式出版发行的报刊和具有一定审核机制的知名论坛进行核实，以确定是否真有其事。现选取这些***遗书样本中的25篇，列明出处，如表1所示。

表1部分***遗书样本出处清单

将这52篇***遗书中的33篇作为训练样本，将剩下的19篇和另外29篇情绪低落但并非***遗书的网络文字作为待检测试样本。

进行特征提取阶段，共分三步，如图1所示。

第一步，从33篇***遗书训练样本中选出最能体现作者***意念的句子，即如果删去该句，则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄，这些被选出的句子被称为特征句，如果是某个句子中的分句，则只取该分句。

第三步，选择尽可能少的核心词以覆盖尽可能多的***遗书样本，第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多；以后每轮都把能覆盖最多剩余样本的核心词挑出来，如果这样的核心词超过1个，则选择出现频率最高的那一个；重复上述过程，直到累计覆盖样本数目超过样本总量的95％为止；经过以上过程，从训练样本中获得了的“核心词——特征句库”对照表，如表2所示。

表2核心词——特征句库对照表

该特征提取阶段的第三步实施时可绘制如下表格，如表3所示。

表3特征提取阶段的第三步实施时的状态记录

	离开	疲惫	绝望	对不起	走	死	活	来世
									1	1	1
2			1	1	1
									3					1
4						1
									5					1	1
6				1			1
									7							1
8
									9
10						1	1
									11			1		1
12	1			1	1
									13			1	1
14				1	1
									15			1
16				1
									17					1
18				1
									19			1		1
20	1

该表最上面一行是样本里出现的核心词的候选词，最左边一列是样本编号。行列交叉处的数字“1”表示所对应的候选词在其所对应的某编号样本中出现过。比如第2行第2列出现的数字1表示编号为2的样本中出现了候选词“离开”。在候选词中挑选核心词时，先选择数字“1”出现次数最多的列，挑出这个词作为核心词，去掉包含这个词的样本，在剩下的样本中找到含数字“1”最多的词作为核心词，以此类推。

进行特征识别阶段，共分两步，如图2所示。

第一步，扫描待检测试样本，如果没有出现核心词，则判别为非***遗书。如果出现核心词，则进行第二步。

第二步，设待检测试样本T中出现了N次核心词，且第j次出现的核心词记作W_j，j＝1，2，3，...，N。

待检句S_j的***倾向值

M (S_{j}) = \max_{i = 1,2, L (W_{j})} A (S_{j}, C (W_{j}, i)) .

待检测试样本T的***倾向值

M (T) = \frac{1}{N} Σ_{j = 1}^{N} M (S_{j}) .

字的匹配度

字串的匹配度，字串即是一串连续的字，中间没有分隔符

语句相似度

语句相似度＝β×字的匹配度+α×字串的匹配度

经过反复试验，β＝0.5，α＝0.7，阈值取0.425的时候，针对训练样本的识别率最佳。在将该识别方法运用到测试样本时，如果发现有漏检的样本存在，则与新收集的其他***遗书样本一道，再一次进入特征提取阶段，以进一步降低该方法在检测新送检样本时的漏检率。

Claims

1.一种网络***遗书的识别方法，其特征在于：该方法由特征提取与特征识别两个阶段组成，

所述特征提取阶段，用于获得特征识别阶段所需的“核心词——特征句库”对照表；在该阶段，首先从收集到的足够数量的***遗书样本中选出最能体现作者***意念的分句称为特征句，然后在这些特征句中，选出最能表达作者***意念的核心词，每个特征句限选一个核心词；核心词相同的特征句归入到该核心词的特征句库；核心词A的同义词B也视为核心词，且该同义词B所在的特征句也归入到核心词A的特征句库去；最后，采用启发式的算法选择尽可能少的核心词以覆盖尽可能多的***遗书样本，从而建立了“核心词——特征句库”对照表；

所述特征识别阶段，用于根据“核心词——特征句库”对照表，对待检文本是否为***遗书进行判断；具体过程是如果该文本没有出现核心词，则判别为非***遗书；否则，将所有出现了核心词的分句与“核心词——特征句库”对照表中与该核心词相对应的特征句进行比较，把在比较过程中获得的语句相似度的最大值作为该待检句的***倾向值，所有待检句***倾向值的平均值就是该待检文本的***倾向值，最后，将其***倾向值与设定阈值进行比较，判断其是否为***遗书。

2.根据权利要求1所述的网络***遗书的识别方法，其特征在于：在特征识别阶段中计算两个语句的相似度时，分别计算字的匹配度和字串的匹配度，然后进行线性组合，获得两个语句的相似度。

3.根据权利要求1所述的网络***遗书的识别方法，其特征在于所述特征提取阶段的具体步骤如下：

第一步，从收集到的足够数量的***遗书样本中选出最能体现作者***意念的句子，即如果删去该句，则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄，这些被选出的句子被称为特征句，如果是某个句子中的分句，则只取该分句；

第二步，在这些特征句中，选出最能表达作者***意念的核心词，每个特征句限选一个核心词，然后将核心词相同的特征句归入该核心词的特征句库，核心词A的同义词B也视为核心词，且该同义词B所在的特征句也归入到核心词A的特征句库去；

4.根据权利要求1所述的网络***遗书的识别方法，其特征在于特征识别阶段的具体步骤如下：

第一步，扫描待检文本，如果没有出现核心词，则判别为非***遗书，如果出现核心词，则进行第二步；

第二步，设待检文本T中出现了N次核心词，且第j次出现的核心词记作W_j，j＝1，2，3，...，N，N为自然数；

将T中W_j所在的分句S_j摘录出来，计算待检句S_j与W_j的每一个特征句C(W_j，i)的语句相似度A(S_j，C(W_j，i))，其中i＝1，2，...，L(W_j)，L(W_j)是“核心词——特征句库”对照表中W_j所对应的特征句的个数；

待检句S_j的***倾向值

M (S_{j}) = \max_{i = 1,2, L (W_{j})} A (S_{j}, C (W_{j}, i));

待检样本T的***倾向值

M (T) = \frac{1}{N} Σ_{j = 1}^{N} M (S_{j});

然后比较M(T)与设定阈值的大小关系，作出是否为***遗书的判断，若M(T)大于等于该阈值则判断待检文本为***遗书，若M(T)小于该阈值则判断待检文本为非***遗书；

在计算两个语句S₁和S₂相似度A(S₁，S₂)的时候，分别计算“字的匹配度”和“字串的匹配度”，然后采用线性加权，得到语句相似度；“字的匹配度”、“字串的匹配度”、语句相似度的具体计算方法如下

字的匹配度

字串的匹配度，字串即是一串连续的字，中间没有分隔符

语句相似度

语句相似度＝β×字的匹配度+α×字串的匹配度

上述β＝0.5，α＝0.7，阈值取0.425。