CN102521220A - 一种网络***遗书的识别方法 - Google Patents

一种网络***遗书的识别方法 Download PDF

Info

Publication number
CN102521220A
CN102521220A CN201110386606XA CN201110386606A CN102521220A CN 102521220 A CN102521220 A CN 102521220A CN 201110386606X A CN201110386606X A CN 201110386606XA CN 201110386606 A CN201110386606 A CN 201110386606A CN 102521220 A CN102521220 A CN 102521220A
Authority
CN
China
Prior art keywords
suicide
core word
sentence
word
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110386606XA
Other languages
English (en)
Other versions
CN102521220B (zh
Inventor
王泰
徐薇
李隆
刘三女牙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201110386606.XA priority Critical patent/CN102521220B/zh
Publication of CN102521220A publication Critical patent/CN102521220A/zh
Application granted granted Critical
Publication of CN102521220B publication Critical patent/CN102521220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出了一种自动识别出现在互联网上的***遗书的方法,属于中文文本信息处理与应用心理学技术领域,解决了自动发现网络***遗书的技术问题。该发明采用核心词绑定特征句的识别方法,分为特征提取与特征识别两个阶段。通过提取核心词,然后依据核心词所在分句与其特征句相近程度的最大值等因素来计算待检文本的***倾向值,继而判断待检样本是否为***遗书。本发明能够自动识别网络***遗书,可以对出现心理危机的个体进行早期预警,为心理咨询与辅导等部门实施干预与治疗提供依据。本发明简便易行,规避了分词缺陷的负面影响,对新增样本的兼容性强,识别准确率高,漏检率低。

Description

一种网络***遗书的识别方法
技术领域
本发明属于中文文本信息处理与应用心理学技术领域,具体涉及一种网络***遗书的识别方法。
背景技术
***已经成为我国15-34岁人群死亡的首因,有研究统计,***案例中有28.1%的人留有遗言、遗书。近年来,有网民在***前将其临终遗言张贴在互联网上。因为热心网民与警方的及时干预,最终都避免了悲剧的发生。
由此可见,开发一种自动识别网络***遗书的方法,对于及时挽救具有***意念的生命无疑具有重要的现实意义。
尽管对***遗书的研究已经非常充分,但是这些研究主要集中在通过遗书来回溯导致***的因素等方面。目前,国际上有关***遗书的自动分类的研究还处于起步阶段。首次提出自动识别张贴在互联网上的***遗书的方法则是在2007年才出现,Yen-Pei Huang,Tiong Goh,Chern Li Liew,Hunting SuicideNotes in Web 2.0-Prel iminary Findings,in Proc.of IEEE 9th Int’1.Symp.On Multimedia 2007,517-521。该方法依照关键词或词组的出现频率给一个待定文本评分,分数越高则疑似***的程度也越高。这种方法尽管非常简单,但是准确率比较低。2008、2009年连续两年在生物自然语言处理学术研讨会上,美国辛辛那提大学儿童医疗中心和波兰尼古拉斯哥白尼大学的学者相继提出用有监督的机器学习方法(序列最小优化法)和无监督的机器学习方法(顺序信息瓶颈法)来识别***遗书,显著提高了准确率。
目前,国内还没有公开文献报道有关中文***遗书的自动分类成果。中文***遗书的自动分类不能简单地移植适用于拉丁语系的***遗书自动分类方法。这是因为:第一,与英文中词与词之间按照空格自然分隔不同的是,在汉语的一个分句中,字与字紧密排列,要把关键词自动地提取出来,且不引发歧义,纵有较为成熟的中文自动分词组件,仍存在一定的困难;第二,中文的表达方法比较含蓄,在遗书中,往往不像英文那样直白地出现“***”,“killedmyself”等字眼,而常使用“死亡”,“离开这个世界”等词语或者短语;第三,如果仅仅采用高频词如“死亡”、“世界”等作为识别依据,那么“中国队男足在南非世界杯预选赛上被分入死亡之组”这条体育新闻也有可能被误判为***遗书。
现有技术的不足之处是没有在机器自动识别的过程中更深入地借鉴人类的阅读规律。一般来说,人类在阅读一篇文本时,先后经历了自底向上和由顶而下两个认识过程,即先理解词而后连词成句(自底向上),句义比词义要完整、具体一些;在阅读完全篇以后,根据上下文和自身体验,形成对句子重要性的认识,特别是对重要句子中某个词的深刻记忆(由顶而下)。
发明内容
针对现有技术的上述不足,并考虑到***遗书是一类描述了某个固定而具体的意念的文本,本发明提出了一种核心词绑定特征句的网络***遗书识别方法,该方法简便易行,规避了分词缺陷的负面影响,对新增样本的兼容性强,识别准确率较高,漏检率较低。
具体来说,本发明一种网络***遗书的识别方法分为特征提取与特征识别两个阶段。
所述特征提取阶段共分三步,如图1所示。
第一步,从收集到的足够数量的***遗书样本中选出最能体现作者***意念的句子,即如果删去该句,则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄,这些被选出的句子被称为特征句,如果是某个句子中的分句,则只取该分句。
第二步,在这些特征句中,选出最能表达作者***意念的核心词,每个特征句限选一个核心词,然后将核心词相同的特征句归入该核心词的特征句库,核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去。
第三步,选择尽可能少的核心词以覆盖尽可能多的***遗书样本,第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多;以后每轮都把能覆盖最多剩余样本的核心词挑出来,如果这样的核心词超过1个,则选择出现频率最高的那一个;重复上述过程,直到累计覆盖样本数目超过样本总量的95%为止;经过以上过程,获得了“核心词——特征句库”对照表。
特征识别阶段共分两步,如图2所示。
第一步,扫描待检文本,如果没有出现核心词,则判别为非***遗书。如果出现核心词,则进行第二步。
第二步,设待检文本T中出现了N次核心词,且第j次出现的核心词记作Wj,j=1,2,3,...,N,N为自然数。
将T中Wj所在的分句Sj摘录出来,计算待检句Sj与Wj的每一个特征句C(Wj,i)的语句相似度A(Sj,C(Wj,i)),其中i=1,2,...,L(Wj),L(Wj)是“核心词——特征句库”对照表中Wj所对应的特征句的个数。
待检句Sj的***倾向值 M ( S j ) = max i = 1,2 , L ( W j ) A ( S j , C ( W j , i ) ) .
待检样本T的***倾向值 M ( T ) = 1 N Σ j = 1 N M ( S j ) .
然后比较M(T)与设定阈值的大小关系,作出是否为***遗书的判断,若M(T)大于等于该阈值则判断待检文本为***遗书,若M(T)小于该阈值则判断待检文本为非***遗书。
在计算两个语句S1和S2相似度A(S1,S2)的时候,分别计算“字的匹配度”和“字串的匹配度”,然后采用线性加权,得到语句相似度。“字的匹配度”、“字串的匹配度”、语句相似度的具体计算方法如下所述。
字的匹配度
字串的匹配度,字串即是一串连续的字,中间没有分隔符
Figure BSA00000623756300042
语句相似度
语句相似度=β×字的匹配度+α×字串的匹配度
上述β=0.5,α=0.7,阈值取0.425。
在测试过程中,如果发现有漏检的样本存在,则与新收集的其他***遗书样本一道,再一次进入特征提取阶段,以进一步降低该方法在检测新送检样本时的漏检率。
本发明一种网络***遗书的识别方法,通过核心词绑定特征句的方式自动识别网络***遗书,可以对出现心理危机的个体进行早期预警,为心理咨询与辅导等部门实施干预与治疗提供依据。本发明简便易行,规避了分词缺陷的负面影响,对新增样本的兼容性强,识别准确率高,漏检率低。
附图说明
图1是本发明方法中特征提取阶段的步骤流程图。
图2是本发明方法中特征识别阶段的步骤流程图。
具体实施方式
下面结合附图及实施例对本发明作进一步的描述。
首先,从互联网上收集到52篇***遗书,并依据正式出版发行的报刊和具有一定审核机制的知名论坛进行核实,以确定是否真有其事。现选取这些***遗书样本中的25篇,列明出处,如表1所示。
表1部分***遗书样本出处清单
Figure BSA00000623756300051
将这52篇***遗书中的33篇作为训练样本,将剩下的19篇和另外29篇情绪低落但并非***遗书的网络文字作为待检测试样本。
进行特征提取阶段,共分三步,如图1所示。
第一步,从33篇***遗书训练样本中选出最能体现作者***意念的句子,即如果删去该句,则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄,这些被选出的句子被称为特征句,如果是某个句子中的分句,则只取该分句。
第二步,在这些特征句中,选出最能表达作者***意念的核心词,每个特征句限选一个核心词,然后将核心词相同的特征句归入该核心词的特征句库,核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去。
第三步,选择尽可能少的核心词以覆盖尽可能多的***遗书样本,第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多;以后每轮都把能覆盖最多剩余样本的核心词挑出来,如果这样的核心词超过1个,则选择出现频率最高的那一个;重复上述过程,直到累计覆盖样本数目超过样本总量的95%为止;经过以上过程,从训练样本中获得了的“核心词——特征句库”对照表,如表2所示。
表2核心词——特征句库对照表
Figure BSA00000623756300062
Figure BSA00000623756300071
Figure BSA00000623756300081
该特征提取阶段的第三步实施时可绘制如下表格,如表3所示。
表3特征提取阶段的第三步实施时的状态记录
  离开   疲惫   绝望   对不起   走   死   活   来世
  1   1   1
  2   1   1   1
  3   1
  4   1
  5   1   1
  6   1   1
  7   1
  8
  9
  10   1   1
  11   1   1
  12   1   1   1
  13   1   1
  14   1   1
  15   1
  16   1
  17   1
  18   1
  19   1   1
  20   1
该表最上面一行是样本里出现的核心词的候选词,最左边一列是样本编号。行列交叉处的数字“1”表示所对应的候选词在其所对应的某编号样本中出现过。比如第2行第2列出现的数字1表示编号为2的样本中出现了候选词“离开”。在候选词中挑选核心词时,先选择数字“1”出现次数最多的列,挑出这个词作为核心词,去掉包含这个词的样本,在剩下的样本中找到含数字“1”最多的词作为核心词,以此类推。
进行特征识别阶段,共分两步,如图2所示。
第一步,扫描待检测试样本,如果没有出现核心词,则判别为非***遗书。如果出现核心词,则进行第二步。
第二步,设待检测试样本T中出现了N次核心词,且第j次出现的核心词记作Wj,j=1,2,3,...,N。
将T中Wj所在的分句Sj摘录出来,计算待检句Sj与Wj的每一个特征句C(Wj,i)的语句相似度A(Sj,C(Wj,i)),其中i=1,2,...,L(Wj),L(Wj)是“核心词——特征句库”对照表中Wj所对应的特征句的个数。
待检句Sj的***倾向值 M ( S j ) = max i = 1,2 , L ( W j ) A ( S j , C ( W j , i ) ) .
待检测试样本T的***倾向值 M ( T ) = 1 N Σ j = 1 N M ( S j ) .
然后比较M(T)与设定阈值的大小关系,作出是否为***遗书的判断,若M(T)大于等于该阈值则判断待检文本为***遗书,若M(T)小于该阈值则判断待检文本为非***遗书。
在计算两个语句S1和S2相似度A(S1,S2)的时候,分别计算“字的匹配度”和“字串的匹配度”,然后采用线性加权,得到语句相似度。“字的匹配度”、“字串的匹配度”、语句相似度的具体计算方法如下所述。
字的匹配度
Figure BSA00000623756300103
字串的匹配度,字串即是一串连续的字,中间没有分隔符
Figure BSA00000623756300104
语句相似度
语句相似度=β×字的匹配度+α×字串的匹配度
经过反复试验,β=0.5,α=0.7,阈值取0.425的时候,针对训练样本的识别率最佳。在将该识别方法运用到测试样本时,如果发现有漏检的样本存在,则与新收集的其他***遗书样本一道,再一次进入特征提取阶段,以进一步降低该方法在检测新送检样本时的漏检率。

Claims (4)

1.一种网络***遗书的识别方法,其特征在于:该方法由特征提取与特征识别两个阶段组成,
所述特征提取阶段,用于获得特征识别阶段所需的“核心词——特征句库”对照表;在该阶段,首先从收集到的足够数量的***遗书样本中选出最能体现作者***意念的分句称为特征句,然后在这些特征句中,选出最能表达作者***意念的核心词,每个特征句限选一个核心词;核心词相同的特征句归入到该核心词的特征句库;核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去;最后,采用启发式的算法选择尽可能少的核心词以覆盖尽可能多的***遗书样本,从而建立了“核心词——特征句库”对照表;
所述特征识别阶段,用于根据“核心词——特征句库”对照表,对待检文本是否为***遗书进行判断;具体过程是如果该文本没有出现核心词,则判别为非***遗书;否则,将所有出现了核心词的分句与“核心词——特征句库”对照表中与该核心词相对应的特征句进行比较,把在比较过程中获得的语句相似度的最大值作为该待检句的***倾向值,所有待检句***倾向值的平均值就是该待检文本的***倾向值,最后,将其***倾向值与设定阈值进行比较,判断其是否为***遗书。
2.根据权利要求1所述的网络***遗书的识别方法,其特征在于:在特征识别阶段中计算两个语句的相似度时,分别计算字的匹配度和字串的匹配度,然后进行线性组合,获得两个语句的相似度。
3.根据权利要求1所述的网络***遗书的识别方法,其特征在于所述特征提取阶段的具体步骤如下:
第一步,从收集到的足够数量的***遗书样本中选出最能体现作者***意念的句子,即如果删去该句,则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄,这些被选出的句子被称为特征句,如果是某个句子中的分句,则只取该分句;
第二步,在这些特征句中,选出最能表达作者***意念的核心词,每个特征句限选一个核心词,然后将核心词相同的特征句归入该核心词的特征句库,核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去;
第三步,选择尽可能少的核心词以覆盖尽可能多的***遗书样本,第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多;以后每轮都把能覆盖最多剩余样本的核心词挑出来,如果这样的核心词超过1个,则选择出现频率最高的那一个;重复上述过程,直到累计覆盖样本数目超过样本总量的95%为止;经过以上过程,获得了“核心词——特征句库”对照表。
4.根据权利要求1所述的网络***遗书的识别方法,其特征在于特征识别阶段的具体步骤如下:
第一步,扫描待检文本,如果没有出现核心词,则判别为非***遗书,如果出现核心词,则进行第二步;
第二步,设待检文本T中出现了N次核心词,且第j次出现的核心词记作Wj,j=1,2,3,...,N,N为自然数;
将T中Wj所在的分句Sj摘录出来,计算待检句Sj与Wj的每一个特征句C(Wj,i)的语句相似度A(Sj,C(Wj,i)),其中i=1,2,...,L(Wj),L(Wj)是“核心词——特征句库”对照表中Wj所对应的特征句的个数;
待检句Sj的***倾向值 M ( S j ) = max i = 1,2 , L ( W j ) A ( S j , C ( W j , i ) ) ;
待检样本T的***倾向值 M ( T ) = 1 N Σ j = 1 N M ( S j ) ;
然后比较M(T)与设定阈值的大小关系,作出是否为***遗书的判断,若M(T)大于等于该阈值则判断待检文本为***遗书,若M(T)小于该阈值则判断待检文本为非***遗书;
在计算两个语句S1和S2相似度A(S1,S2)的时候,分别计算“字的匹配度”和“字串的匹配度”,然后采用线性加权,得到语句相似度;“字的匹配度”、“字串的匹配度”、语句相似度的具体计算方法如下
字的匹配度
Figure FSA00000623756200033
字串的匹配度,字串即是一串连续的字,中间没有分隔符
Figure FSA00000623756200034
语句相似度
语句相似度=β×字的匹配度+α×字串的匹配度
上述β=0.5,α=0.7,阈值取0.425。
CN201110386606.XA 2011-11-29 2011-11-29 一种网络***遗书的识别方法 Active CN102521220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110386606.XA CN102521220B (zh) 2011-11-29 2011-11-29 一种网络***遗书的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110386606.XA CN102521220B (zh) 2011-11-29 2011-11-29 一种网络***遗书的识别方法

Publications (2)

Publication Number Publication Date
CN102521220A true CN102521220A (zh) 2012-06-27
CN102521220B CN102521220B (zh) 2014-01-08

Family

ID=46292149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110386606.XA Active CN102521220B (zh) 2011-11-29 2011-11-29 一种网络***遗书的识别方法

Country Status (1)

Country Link
CN (1) CN102521220B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955614A (zh) * 2014-04-29 2014-07-30 北京盛世光明软件股份有限公司 一种心理危机预测方法及***
CN109524106A (zh) * 2018-10-31 2019-03-26 北京指掌易科技有限公司 一种通过聊天内容分析***倾向的心理模型
CN110162636A (zh) * 2019-05-30 2019-08-23 中森云链(成都)科技有限责任公司 基于d-lstm的文本情绪原因识别方法
WO2020007138A1 (zh) * 2018-07-03 2020-01-09 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203774A (zh) * 2008-11-03 2011-09-28 微软公司 使用概括的句子搭配的检索

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203774A (zh) * 2008-11-03 2011-09-28 微软公司 使用概括的句子搭配的检索

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘慧等: "基于词频的权值计算在邮件过滤算法中的应用", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955614A (zh) * 2014-04-29 2014-07-30 北京盛世光明软件股份有限公司 一种心理危机预测方法及***
WO2020007138A1 (zh) * 2018-07-03 2020-01-09 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
US11972213B2 (en) 2018-07-03 2024-04-30 Tencent Technology (Shenzhen) Company Limited Event recognition method and apparatus, model training method and apparatus, and storage medium
CN109524106A (zh) * 2018-10-31 2019-03-26 北京指掌易科技有限公司 一种通过聊天内容分析***倾向的心理模型
CN110162636A (zh) * 2019-05-30 2019-08-23 中森云链(成都)科技有限责任公司 基于d-lstm的文本情绪原因识别方法

Also Published As

Publication number Publication date
CN102521220B (zh) 2014-01-08

Similar Documents

Publication Publication Date Title
CN102693219B (zh) 一种中文事件的抽取方法及***
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN103235772B (zh) 一种文本集人物关系自动提取方法
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN107608999A (zh) 一种适用于自动问答***的问句分类方法
CN106021272A (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN106547733A (zh) 一种面向特定文本的命名实体识别方法
CN103150303B (zh) 汉语语义格分层识别方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN106294396A (zh) 关键词扩展方法和关键词扩展***
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN105224520B (zh) 一种中文专利文献术语自动识别方法
CN109670014A (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN101887415B (zh) 一种文本文档主题词义的自动提取方法
CN102521220B (zh) 一种网络***遗书的识别方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN105335350A (zh) 一种基于集成学习的语种识别方法
Kurniawan et al. Indonesian tweets hate speech target classification using machine learning
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
CN109344233A (zh) 一种中文人名识别方法
CN103034657B (zh) 文档摘要生成方法和装置
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant