CN108038627A - 一种对象评估方法及装置 - Google Patents

一种对象评估方法及装置 Download PDF

Info

Publication number
CN108038627A
CN108038627A CN201711445002.1A CN201711445002A CN108038627A CN 108038627 A CN108038627 A CN 108038627A CN 201711445002 A CN201711445002 A CN 201711445002A CN 108038627 A CN108038627 A CN 108038627A
Authority
CN
China
Prior art keywords
public opinion
opinion information
assessed
data
information data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711445002.1A
Other languages
English (en)
Other versions
CN108038627B (zh
Inventor
李宝善
赵昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711445002.1A priority Critical patent/CN108038627B/zh
Publication of CN108038627A publication Critical patent/CN108038627A/zh
Application granted granted Critical
Publication of CN108038627B publication Critical patent/CN108038627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种对象评估方法及装置,对象评估方法包括:获取与待评估对象及待评估项目关联的信息数据;参考预置的评估属性模板,从信息数据中确定评估属性数据;将评估属性数据输入至预先建立的项目评估模型,得到项目评估模型输出的待评估对象在待评估项目中的评估结果,项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。在本申请中,通过以上方式可以节省人力和时间,进而可以降低成本,提高评估效率。

Description

一种对象评估方法及装置
技术领域
本申请涉及评估技术领域,特别涉及一种对象评估方法及装置。
背景技术
在社会发展的进程中,往往需要对指定对象的生活或工作的某些方面(如,社会危险性、工作优秀度等)进行评估,旨在解决生活或工作的某些方面的需求问题(如,社会危险性评估可以作为逮捕犯罪嫌疑人或被告人的条件)。
目前,常用的评估方式是人工评估,具体可以由相关专业的专家,根据指定对象的相关信息(如,相关资料文件信息),对指定评估项目进行评估。以社会危险性评估项目为例,对人工评估的方式进行介绍,例如,可以由办案人员依据案卷材料对犯罪嫌疑人或被告人的社会危险性进行评估。
然而,人工评估的方式将消耗大量的人力及时间,成本高,效率低。
发明内容
为解决上述技术问题,本申请实施例提供一种对象评估方法及装置,以达到降低成本,提高评估效率的目的,技术方案如下:
一种对象评估方法,包括:
获取与待评估对象及待评估项目关联的信息数据;
参考预置的评估属性模板,从所述信息数据中确定评估属性数据;
将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果,所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
一种对象评估装置,包括:
信息数据获取模块,用于获取与待评估对象及待评估项目关联的信息数据;
评估属性数据确定模块,用于参考预置的评估属性模板,从所述信息数据中确定评估属性数据;
评估结果确定模块,用于将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果,所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
与现有技术相比,本申请的有益效果为:
在本申请中,首先获取与待评估对象及待评估项目关联的信息数据,然后参考预置的评估属性模板,从所述信息数据中确定评估属性数据,最后将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果。本申请采用的项目评估模型自动评估的方式相比于人工评估的方式,可以节省人力和时间,进而可以降低成本,提高评估效率。
进一步的,采用本申请提供的评估方式,相比于人工评估方式,可以减少主观臆断,降低评估随意性,保证评估结果的客观性更强,更准确,增强评估结果的透明度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的对象评估方法的一种流程图;
图2为本发明实施例提供的对初始舆论信息数据进行筛选的一种流程图;
图3为示例了舆论信息文本图的一种结构示意图;
图4为示例了舆论信息关键词图的一种结构示意图;
图5为本发明实施例提供的对象评估方法的另一种流程图;
图6为本发明实施例提供的对象评估装置的一种逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种对象评估方法,首先获取与待评估对象及待评估项目关联的信息数据,然后参考预置的评估属性模板,从所述信息数据中确定评估属性数据,最后将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果。本申请采用的项目评估模型自动评估的方式相比于人工评估的方式,可以节省人力和时间,进而可以降低成本,提高评估效率。
接下来对本申请实施例公开的对象评估方法进行介绍,请参见图1,可以包括:
步骤S100、获取与待评估对象及待评估项目关联的信息数据。
可以理解的是,针对待评估项目,进行待评估对象的评估,首先需要获取与待评估对象及待评估项目关联的信息数据,作为评估的分析数据。
步骤S110、参考预置的评估属性模板,从所述信息数据中确定评估属性数据。
步骤S100获取到的信息数据的信息量大,为了提高评估的效率和准确率,可以对步骤S100获取到的信息数据整理,优选的,可以参考预置的评估属性模板,从步骤S100获取到的信息数据中确定评估属性数据。
可以理解的是,参考预置的评估属性模板,从步骤S100获取到的信息数据中确定评估属性数据,可以缩短确定评估属性数据的时间,提高确定评估属性数据的效率。
评估属性模板可以根据评估对象和评估项目进行灵活设置,不同的评估对象和评估项目对应的评估属性模板可以有所不同。
评估属性数据可以作为所述待评估对象在所述待评估项目中评估的参考数据。
步骤S120、将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果。
利用步骤S110得到的评估属性数据,可以在所述待评估项目中对所述待评估对象进行评估,具体地,可以将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果。
所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
可以理解的是,预先利用标注有评估结果的评估属性训练数据训练项目评估模型,可以保证训练得到的项目评估模型能够准确的评估出待评估对象在待评估项目中的结果,并输出待评估对象在待评估项目中的评估结果。
在本实施例中,在本申请中,首先获取与待评估对象及待评估项目关联的信息数据,然后参考预置的评估属性模板,从所述信息数据中确定评估属性数据,最后将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果。本申请采用的项目评估模型自动评估的方式相比于人工评估的方式,可以节省人力和时间,进而可以降低成本,提高评估效率。
进一步的,采用本申请提供的评估方式,相比于人工评估方式,可以减少主观臆断,降低评估随意性,保证评估结果的客观性更强,更准确,增强评估结果的透明度。
在本申请的另一个实施例中,对前述实施例步骤S100中获取的与待评估对象及待评估项目关联的信息数据进行介绍,具体可以包括:
待评估对象基础信息数据、待评估对象在待评估项目中的专用信息数据,以及与待评估对象和待评估项目关联的初始舆论信息数据。
待评估对象基础信息数据可以理解为与待评估对象本身相关的对象信息数据,当待评估对象为人时,其基础信息数据可以包括:身份情况、就业情况、居住情况、与待评估项目相关的事件记录等。
待评估对象在待评估项目中的专用信息数据可以理解为待评估对象参与待评估项目的项目相关信息。
与待评估对象和待评估项目关联的初始舆论信息数据可以理解为:针对待评估对象和待评估项目,发表的社会舆论信息数据。社会舆论信息数据的发表途径多种多样,如,新闻、微博和朋友圈等。
与待评估对象和待评估项目关联的初始舆论信息数据的获取方式可以包括:以时间范围和/或检索内容作为检索条件,从网络上获取与检索条件对应的舆论信息数据,作为与待评估对象和待评估项目关联的初始舆论信息数据。
需要说明的是,当以时间范围为检索条件时,可以灵活设置时间范围的大小,来缩小初始舆论信息数据的获取量,减少工作量。
需要指出的是,上述以时间范围和/或检索内容作为检索条件,从网络上获取与检索条件对应的舆论信息数据的方式,获取到的舆论信息数据中均可能包含与待评估对象和待评估项目不相关的舆论信息数据,但是不相关的舆论信息数据仍可以在后续步骤中进行选择性筛除,减少不相关的信息数据,提高评估效率。
检索内容可以包括:待评估对象的基本信息(如,身份情况、就读就业情况、居住情况、与待评估项目相关的事件记录)和与待评估项目相关的事件经过(如,待评估项目若为社会危险性评估项目,则与待评估项目相关的事件经过可以理解为:与社会危险性评估项目相关的作案经过(如,时间、地点、工具和经过)。
与本实施例介绍的与待评估对象及待评估项目关联的信息数据的具体内容相对应,所述评估属性模板可以包括:对象属性模板、项目专用属性模板、舆论属性模板。
在上述基础上,前述实施例中步骤S110具体可以包括:
S1、参考所述对象属性模板,从待评估对象基础信息数据中确定对象属性数据。
所述对象属性模板中可以包括与待评估对象相关的对象属性。
相对应的,参考所述对象属性模板,从待评估对象基础信息数据中确定对象属性数据可以理解为:从待评估对象基础信息数据中,确定与待评估对象相关的对象属性对应的数据,作为对象属性数据。
S2、参考所述项目专用属性模板,从所述待评估对象在待评估项目中的专用信息数据中确定项目专用属性数据。
所述项目专用属性模板可以包括与待评估对象和待评估项目相关的项目专用属性。
相对应的,参考所述项目专用属性模板,从所述待评估对象在待评估项目中的专用信息数据中确定项目专用属性数据可以理解为:从所述待评估对象在待评估项目中的专用信息数据中,确定与待评估对象和待评估项目相关的项目专用属性对应的数据,作为项目专用数据。
S3、对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据。
所述初始舆论信息数据中可能包括与待评估对象和待评估项目不相关的舆论信息数据,为了提高评估效率,可以对所述初始舆论信息数据进行筛选,筛除一些与待评估对象和待评估项目不相关的舆论信息数据,得到筛选后的高关联度的舆论信息数据。
高关联度的舆论信息数据可以理解为:与待评估对象和待评估项目的关联度大于关联度阈值的舆论信息数据。其中,关联度阈值可以根据评估专家结合评估经验确定。
可以理解的是,与待评估对象和待评估项目的关联度越高,筛选后的高关联度的舆论信息数据与待评估对象和待评估项目关联越紧密。
S4、参考所述舆论属性模板,从所述高关联度的舆论信息数据中确定舆论属性数据。
所述舆论属性模板可以包括:舆论主题的属性,如,舆论主题的数量、每个舆论主题的评论数量、舆论主题作者的粉丝数和评论人的粉丝数。
参考所述舆论属性模板,从所述高关联度的舆论信息数据中确定舆论信息数据可以理解为:从所述高关联度的舆论信息数据中确定与所述舆论属性模板包括的舆论主题的属性对应的数据,作为舆论属性数据。
可选的,在上述可以通过自动化方式获取到的对象属性数据、项目专用属性数据及舆论属性数据的基础上,本实施例还可以根据具体情况添加不能通过自动化技术获取的属性数据(如,若待评估对象为犯罪嫌疑对象,待评估项目为社会危险性评估项目,不能通过自动化技术获取的属性数据可以包括:性格、品行、犯罪故意、悔罪表现、认罪态度、被害人意见等),以达到更好的评估效果。
添加不能通过自动化技术获取的属性数据具体可以包括:添加人工提供的属性数据。人工提供属性数据具体可以为由相关专家查阅相关资料给出各个人工评估项的结论。
在本申请的另一个实施例中,对上述实施例中S3,对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据的过程进行介绍,请参见图2,具体可以包括:
S200、提取每条初始舆论信息数据的文本特征。
提取每条初始舆论信息数据的文本特征的过程可以参照已有技术中文本特征提取的过程,在此不再赘述。
优选的,本实施例中可以利用概率潜在语义分析(PLSA)模型提取每条初始舆论信息数据的文本特征,以较好的解决同义词和多义词的问题。其中,利用PLSA模型提取每条初始舆论信息数据的文本特征的过程可以参见已有技术中利用PLSA模型提取文本特征的过程,在此不再赘述。
步骤S210、将每条初始舆论信息数据的文本特征输入至预先建立的初始舆论信息筛选模型,得到模型输出的每条初始舆论信息数据是否为初级以上关联度的标注结果。
初级以上关联度的初始舆论信息数据可以是,达到设定的关联度状态的初始舆论信息,这里设定的关联度状态可以参考初始舆论信息筛选模型训练过程,对训练样本的要求。
初始舆论信息筛选模型可以确定并标注每条初始舆论信息数据与待评估对象及待评估项目关联的程度,并输出每条初始舆论信息数据是否为初级以上关联度的标注结果。
所述初始舆论信息筛选模型为利用训练正例样本和训练负例样本进行训练得到,所述训练正例样本与舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件。
可以理解的是,预先利用训练正例样本和训练负例样本训练初始舆论信息筛选模型,可以保证训练得到的初始舆论信息筛选模型能够准确的筛选出与待评估对象及待评估项目不相关的舆论信息数据,保留与待评估对象及待评估项目相关的舆论信息数据。
S220、根据每条初始舆论信息数据的标注结果,剔除掉非初级以上关联度的初始舆论信息数据,得到初筛后的舆论信息数据。
根据每条初始舆论信息数据的标注结果,剔除掉非初级以上关联度的初始舆论信息数据,可以筛除掉一部分与待评估对象及待评估项目不相关或相关度较低的舆论信息数据,保留与待评估对象及待评估项目相关或相关度较高的舆论信息数据,作为初筛后的舆论信息数据,减少舆论信息数据的数据量。
步骤S230、根据预先设定的表征待评估对象及待评估项目的关键信息,从所述初筛后的舆论信息数据中,确定与所述关键信息的匹配度满足设定匹配度条件的舆论信息数据,作为所述高关联度的舆论信息数据。
本实施例可以对步骤S220得到的初筛后的舆论信息数据进行进一步筛选,以得到与待评估对象及待评估项目相关更紧密的舆论信息数据。具体地,可以根据预先设定的表征待评估对象及待评估项目的关键信息,从所述初筛后的舆论信息数据中,确定与所述关键信息的匹配度满足设定匹配度条件的舆论信息数据,作为所述高关联度的舆论信息数据。
需要说明的是,表征待评估对象及待评估项目的关键信息与前述实施例介绍的检索内容可以相互参照,也即,可以将前述实施例介绍的检索内容作为本实施例中的关键信息。
设定匹配度条件可以根据专家经验进行设置,并且可以根据评估需要灵活设置。
在本申请的另一个实施例中,对所述初始舆论信息筛选模型的训练过程进行介绍,具体可以包括:
S1、从训练对象基础信息数据和训练对象在训练项目中的专用信息数据中提取种子词。
种子词可以理解为重要关键词。
可选的,可以根据专家经验从训练对象基础信息数据和训练对象在训练项目中的专用信息数据中提取种子词;或,依据分词结果和词频从训练对象基础信息数据和训练对象在训练项目中的专用信息数据中提取种子词。
S2、将所述种子词、历史训练对象属性数据和历史训练项目专用属性数据中任意一种或多种作为舆论信息筛选参考样本,并根据所述舆论信息筛选参考样本从舆论信息样本库中筛选出训练正例样本和训练负例样本。
所述训练正例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件。
可以理解的是,由于所述种子词、训练对象属性数据和训练项目专用属性数据均为与训练对象及训练项目关联的信息数据,而舆论信息筛选参考样本为所述种子词、训练对象属性数据和训练项目专用属性数据中任意一种或多种,因此舆论信息筛选参考样本同样与训练对象及训练项目关联。
基于所述舆论信息筛选参考样本与训练对象及训练项目关联,所述训练正例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,可以理解为:所述训练正例样本与所述训练对象及训练项目相关。
同理,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件,可以理解为:所述训练负例样本与所述训练对象及训练项目不相关。
另需要说明的是,也可以采用人工标注的方式,确定上述训练正例样本和上述训练负例样本。
S3、分别对所述训练正例样本和所述训练负例样本进行文本特征提取。
可选的,可以使用神经网络对所述训练正例样本和所述训练负例样本进行文本特征提取。具体地,可以使用卷积神经网络,将各个所述训练正例样本的词序列设定窗口做卷积,卷积结果输入最后一层,最后一层最大池化的结果作为所述训练正例样本的文本特征提取结果;同理,可以使用卷积神经网络,将各个所述训练负例样本的词序列设定窗口做卷积,卷积结果输入最后一层,最后一层最大池化的结果作为所述训练负例样本的文本特征提取结果。
S4、将所述训练正例样本的文本特征和所述训练负例样本的文本特征作为训练数据,对初始舆论信息筛选模型进行训练。
将所述训练正例样本的文本特征和所述训练负例样本的文本特征作为训练数据,对初始舆论信息筛选模型进行训练,可以保证训练得到的初始舆论信息筛选模型能够筛除掉一部分与训练对象及训练项目不相关的舆论信息数据,保留与训练对象及训练项目相关的舆论信息数据。
训练得到的初始训练信息筛选模型即为前述实施例的步骤S210中使用的初始舆论信息筛选模型。
在本申请的另一个实施例中,对前述实施例中步骤S220,根据预先设定的表征待评估对象及待评估项目的关键信息,从所述初筛后的舆论信息数据中,确定与所述关键信息的匹配度满足设定匹配度条件的舆论信息数据,作为所述高关联度的舆论信息数据的过程进行介绍,具体可以包括:
S1、对所述初筛后的舆论信息数据进行文本聚类,每一聚类簇中包括至少一篇舆论信息数据。
对所述初筛后的舆论信息数据进行文本聚类,得到聚类簇,聚类簇可以表征舆论信息数据的类别信息,每一聚类簇中包括至少一篇舆论信息数据。
需要说明的是,每一聚类簇中包括的舆论信息数据的类别相同,而不同的聚类簇对应的类别信息不同。
对所述初筛后的舆论信息数据进行文本聚类的方法在本实施例中不进行具体限定,具体可以采用基于划分的方法、基于层次的方法、基于密度的方法等。
当然,由于基于局部密度的聚类方法预先不需要设定簇的数量,适用于舆论信息数据这种较发散或未知内容的数据,因此优选的,可以使用基于局部密度的聚类方法对所述初筛后的舆论信息数据进行文本聚类。
S2、确定每一聚类簇中的每篇舆论信息数据对应的舆论信息关键词图。
舆论信息关键词图可以用于表征每一聚类簇中每篇舆论信息数据中的关键信息。
舆论信息关键词图可以使每一聚类簇中每篇舆论信息数据中的关键信息表征的更直观、更清晰。
S3、确定所述关键信息对应的关键信息关键词图。
关键信息关键词图可以用于表征所述关键信息中的关键信息。
关键信息关键词图可以使所述关键信息中的关键信息表征的更直观、更清晰。
S4、计算每个所述舆论信息关键词图与所述关键信息关键词图的匹配度。
若所述舆论信息关键词图与所述关键信息关键词图的匹配度大于预设匹配度阈值,则执行步骤S5。
S5、确定所述舆论信息关键词图对应的舆论信息数据与所述关键信息的匹配度满足设定匹配条件,并将满足设定匹配条件的舆论信息数据作为所述高关联度的舆论信息数据。
本实施例中,预设匹配度阈值同样可以根据专家经验进行设置,并且可以根据评估需要灵活设置。
将满足设定匹配条件的舆论信息数据作为所述高关联度的舆论信息数据,实现对初筛后的舆论信息数据进行再次筛选,得到与待评估对象及待评估项目相关更紧密的舆论信息数据。
进一步可选的,基于S1、对所述初筛后的舆论信息数据进行文本聚类的结果,若聚类簇中某一篇或设定数目的舆论信息数据对应的舆论信息关键词图与关键信息关键词图的匹配度很高(如匹配度超过预设匹配度高值,该匹配度高值可以等于或大于预设匹配度阈值),则可以确定此聚类簇中的所有舆论信息数据对应的舆论信息关键词图与关键信息关键词图的匹配度均高,可以省略对此聚类簇中其他剩余舆论信息数据进行匹配过程,进而可以将此聚类簇中的所有舆论信息数据均作为高关联度的舆论信息数据;或者,若聚类簇中某一篇或设定数目的舆论信息数据对应的舆论信息关键词图与关键信息关键词图匹配度不高(如匹配度不超过预设匹配度低值,该匹配度低值可以等于或小于预设匹配度阈值),则可以确定此聚类簇中的所有舆论信息数据对应的舆论信息关键词图与关键信息关键词图的匹配度均不高,可以省略对此聚类簇中其他剩余舆论信息数据进行匹配过程,将此聚类簇中的所有舆论信息数据均作为非高关联度的舆论信息数据。在舆论信息数据的数据量大的情况下达到快速匹配的目的。
在本申请的另一个实施例中,对使用基于局部密度的聚类方法对所述初筛后的舆论信息数据进行文本聚类进行介绍,具体可以包括:
S1、计算距离矩阵并确定局部半径。
计算所述初筛后的舆论信息数据之间的距离(或相似度),得到距离矩阵Δij。其中,i,j∈[1,M]。M为所述初筛后的舆论信息数据的数量。
优选的,距离矩阵Δij可以根据对称性和稀疏性进行压缩存储,节省存储空间。
利用公式mdi=minj≠i,j∈[1,M]ij)计算各个所述初筛后的舆论信息数据距离其他初筛后的舆论信息数据的最小距离,mdi表示第i个初筛后的舆论信息数据距离其他初筛后的舆论信息数据的最小距离,min表示取最小值的函数。
在计算出各个所述初筛后的舆论信息数据距离其他初筛后的舆论信息数据的最小距离后,可以对各个mdi进行排序。
本实施例中,可以根据经验值选取局部半径r。优选的,可以参考上述mdi的排序结果,选取局部半径r。
需要说明的是,选取不同的局部半径r,可以导致最终局部密度区域划分不同,进而得到不同的聚类结果。
S2、根据局部半径r或者高斯核函数(Guass kernel)方法,计算各个所述初筛后的舆论信息数据的局部密度,并对各个所述初筛后的舆论信息数据的局部密度进行排序。
根据局部半径r或者高斯核函数(Guass kernel)方法,计算各个所述初筛后的舆论信息数据的局部密度的过程,可以参见已有技术中根据局部半径r或者高斯核函数(Guass kernel)方法计算局部密度的过程,在此不再赘述。
S3、确定类中心点,并为各个所述初筛后的舆论信息数据分配类标签。
确定类中心点,并为各个所述初筛后的舆论信息数据分配类标签的过程具体可以包括:
计算各个所述初筛后的舆论信息数据距离其他更高局部密度的初筛后的舆论信息数据的最小距离,由δ表示,特别的,局部密度最大的初筛后的舆论信息数据的δ等于所有δ中的最大值;
以γ=ρ*δ作为选取类中心点的决策变量,假设γi~N(μ,σ2),若γi>μ+c*σ,则将γi作为类中心点,并将类中心点加入中心点列表,按照γ的大小对中心点列表中的类中心点进行从大到小的排序;
为中心点列表中的每个类中心点分配类标签;
对于除类中心点以外的样本点,按照局部密度高低依次分配类标签。其中,样本点的类标签与该样本点距离最近的更高密度样本点的类标签相同。
在本申请的另一个实施例中,对前述实施例中S2、所述确定每一聚类簇中的每篇舆论信息数据对应的舆论信息关键词图的过程进行介绍,具体可以包括:
S1、利用预设滑动窗口在每一聚类簇中的每篇舆论信息数据中滑动,统计在各个所述预设滑动窗口内共同出现的词对,并确定各个所述共同出现的词对在所属聚类簇中的频数,以及在所有聚类簇中的频数之和。
需要说明的是,在各个所述预设滑动窗口内共同出现的词对可以理解为:在各个所述预设滑动窗口内同时出现的两个词,但是同时出现的两个词不一定是相邻出现,例如,舆论信息数据若为一句话“男子打游戏输钱,盗窃电动车被处刑罚”,在所述预设滑动窗口内出现的一句话为“盗窃电动车被处刑罚”,则在预设滑动窗口内共同出现的词对可以包括:“盗窃-电动车”、“盗窃-刑罚”、“电动车-刑罚”。
各个所述共同出现的词对在所属聚类簇中的频数可以理解为:各个所述共同出现的词对在所属聚类簇中出现的次数。
各个所述共同出现的词对在所有聚类簇中的频数之和可以理解为:各个所述共同出现的词对在所有聚类簇中出现的次数之和。
本实施例中,确定各个所述共同出现的词对在所属聚类簇中的频数的过程可以包括:对不在停用词表且词性不在过滤词性列表中的共同出现的词对进行频数统计。
设置停用词表可以在处理舆论信息数据之前或之后自动过滤某些字或磁,例如,过滤“的”、“吗”、“啊”、“呀”、“哎呀”等一些意义不大的字或词,节省存储空间和提高统计效率。
设置过滤词性列表,可以过滤一些无意义的词,例如,过滤“副词”、“代词”等词性的词。
在确定各个所述共同出现的词对在所属聚类簇中的频数之后,可以比较各个所述共同出现的词对在所属聚类簇中的频数与频数过滤门限,将频数在频数过滤门限之外的共同出现的词对过滤掉。保留未被过滤的共同出现的词对和未被过滤的共同出现的词对的频数,作为最终的统计的共同出现的词对及共同出现的词对的频数。
需要说明的是,设置频数过滤门限可以对出现频率太高或太低的词对进行过滤。
S2、利用各个所述共同出现的词对在所属聚类簇中的频数,以及在所有聚类簇中的频数之和,计算各个所述共同出现的词对的局部频数因子和全局频数因子。
所述局部频数因子为所述共同出现的词对在所属聚类簇中的频数与所属聚类簇中词对的最大频数的比值,所述全局频数因子为所述共同出现的词对在所属聚类簇中的频数与在所有聚类簇中的频数总和的比值。
所述共同出现的词对所属聚类簇中词对的最大频数,可以理解为:所述共同出现的词对所属聚类簇中出现次数最多的共同出现的词对的频数。
S3、将所述共同出现的词对的局部频数因子与所述共同出现的词对的全局频数因子的乘积,作为所述共同出现的词对的权重。
有些高频词对,可能在各个聚类簇中频数都很高,但这样的高频词对往往是无用的,因此应该降低其权重。具体地,可以通过将所述共同出现的词对的局部频数因子与所述共同出现的词对的全局频数因子的乘积,作为所述共同出现的词对的权重,来降低高频词对的权重。
S4、利用所述共同出现的词对的权重,构建舆论信息文本图。
利用所述共同出现的词对的权重,构建的舆论信息文本图可以参见图3,如图3所示,舆论信息文本图中的节点表示关键词即共同出现的词对中的某一个词,节点的大小表示节点的权重,两个节点之间的距离长度表示共同出现的词对的权重,两个节点之间的连接线表示边。
S5、从所述舆论信息文本图中筛选出节点和边的权重均大于预设舆论信息权重阈值的连通子图,作为舆论信息关键词图。
预设舆论信息权重阈值可以根据经验进行设置。
从所述图3示出的舆论信息文本图中筛选出节点和边的权重均大于预设舆论信息权重阈值的连通子图可以参见图4,如图4所示,连通子图中任意两节点之间存在路径,连通子图中节点和边的权重均大于预设舆论信息权重阈值。
在本申请的另一个实施例中,对前述实施例中S4,所述利用所述共同出现的词对的权重,构建舆论信息文本图的过程进行介绍,具体可以包括:
S1、利用所述共同出现的词对的权重,构建舆论信息双向有权图。
利用所述共同出现的词对的权重,构建舆论信息双向有权图的过程具体可以包括:以所述共同出现的词对包括的词为节点,以所述共同出现的词对为边,以所述共同出现的词对的权重作为边的双向权重,构建舆论信息双向有权图。
优选的,可以基于networkx(复杂网络工具包),利用所述共同出现的词对的权重,构建舆论信息双向有权图。基于networkx构建舆论信息双向有权图的过程可以参见已有技术中基于networkx构建双向有权图的过程,在此不再赘述。
需要说明的是,构建舆论信息双向有权图可以方便计算节点的权重。
S2、计算所述舆论信息双向有权图中各个节点的权重。
具体地,可以基于所述舆论信息双向有权图中边的双向权重,计算所述舆论信息双向有权图中各个节点的权重。
优选的,可以基于TextRank算法计算所述舆论信息双向有权图中各个节点的权重。基于TextRank算法计算所述舆论信息双向有权图中各个节点的权重的过程可以参见已有技术中基于TextRank算法计算双向有权图中各个节点的权重的过程,在此不再赘述。
S3、将所述舆论信息双向有权图转换为舆论信息无向图,作为所述舆论信息文本图。
利用所述舆论信息双向有权图中各个节点的权重,将所述舆论信息双向有权图转换为舆论信息无向图,可以降低利用舆论信息无向图进行相关处理的复杂度。
在本申请的另一个实施例中,对前述实施例中S3,所述确定所述关键信息对应的关键信息关键词图的过程进行介绍,具体可以包括:
S1、利用预设滑动窗口在所述关键信息中滑动,统计在各个所述预设滑动窗口内共同出现的词对,并确定各个所述共同出现的词对在所述关键信息中的频数。
S2、利用各个所述共同出现的词对在所述关键信息中的频数,计算各个所述共同出现的词对的频数因子。
所述频数因子为所述共同出现的词对在所述关键信息中的频数与所述关键信息中词对的最大频数的比值。
S3、将所述共同出现的词对的频数因子,作为所述共同出现的词对的权重。
S4、利用所述共同出现的词对的权重,构建关键信息文本图。
S5、从所述关键信息文本图中筛选出节点和边的权重均大于预设关键信息权重阈值的连通子图,作为关键信息关键词图。
本实施例中的步骤S1-S5的详细过程,可以参见介绍确定每一聚类簇中的每篇舆论信息数据对应的舆论信息关键词图的实施例中的具体过程,在此不再赘述。
在本申请的另一个实施例中,对前述实施例中S4,所述利用所述共同出现的词对的权重,构建关键信息文本图的过程进行介绍,具体可以包括:
S1、利用所述共同出现的词对的权重,构建关键信息双向有权图。
S2、计算所述关键信息双向有权图中各个节点的权重。
S3、将所述关键信息双向有权图转换为关键信息无向图,作为所述关键信息文本图。
本实施例中的步骤S1-S3的详细过程,可以参见介绍利用所述共同出现的词对的权重,构建舆论信息文本图的实施例中的具体过程,在此不再赘述。
在本申请的另一个实施例中,对所述计算每个所述舆论信息关键词图与所述关键信息关键词图的匹配度进行介绍,具体可以包括:
根据所述关键信息关键词图中,被所述舆论信息关键词图命中的边的权重及数量,以及被所述舆论信息关键词图命中的关键词的数量,确定所述舆论信息关键词图与所述关键信息关键词图的匹配度,其中,被命中的边的权重越大、数量越多,匹配度越高,被命中的关键词的数量越多,匹配度越高。
可以理解的是,所述舆论信息关键词图与所述关键信息关键词图的匹配度越高,所述舆论信息关键词图对应的舆论信息数据与所述关键信息关键词图对应的关键信息的相似度越大。
需要说明的是,关键信息关键词图中被命中的边权重越大、数量越多(可以理解为:数量所占的比例越大),匹配度越高;关键信息关键词图中被命中的关键词的数量越多(可以理解为:数量所占比例越大),所述舆论信息关键词图与所述关键信息关键词图的匹配度越高。
所述被命中边,可以理解为:两个节点的关键词一致,即节点间的边被命中;所述被命中的关键词,可以理解为:关键词一致,即节点一致。
当然,所述被命中边,也可以理解为:两个节点的关键词相似(如,两个节点的关键词的词义相近),即为节点间的边被命中;所述被命中的关键词,也可以理解为:关键词相似,即节点相似。
可选的,根据所述关键信息关键词图中,被所述舆论信息关键词图命中的边的权重及数量,以及被所述舆论信息关键词图命中的关键词的数量,确定所述舆论信息关键词图与所述关键信息关键词图的匹配度,可以根据如下匹配度关系式进行计算:
其中,kwG表示所述关键信息关键词图,doci表示第i个舆论信息关键词图,AllEdges表示所述kwG的所有边集合,|AllEdges|表示所述kwG的边的数量,HitEdges表示所述kwG被命中边的集合,|HitEdges|表示所述kwG被命中边的数量,we表示边e的权重,|AllWd|表示所述kwG的词总数,|HitWd|表示所述kwG被命中的关键词的个数。
需要说明的是,前述各个实施例中的待评估对象可以包括但不局限于:犯罪嫌疑对象。
与之相对应的,待评估项目可以包括但不局限于:社会危险性评估项目。
在所述待评估对象为犯罪嫌疑对象,待评估项目为社会危险性评估项目的情况下,对象评估方法可以参见图5,可以包括:
步骤S300、获取与犯罪嫌疑对象及社会危险性评估项目关联的信息数据。
步骤S310、参考预置的评估属性模板,从所述信息数据中确定评估属性数据。
步骤S320、将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述犯罪嫌疑对象在所述社会危险性评估项目中的评估结果。
所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
评估结果可以为定性的结果,或者定量的结果。具体地,定性结果可以包括:社会危险性评估等级,如高、中、低三档社会危险性等级;定量的结果可以为评估分数,按照评估分数划分社会危险性等级。
需要说明的是,步骤S300-S320的相关过程可以参见前述各个实施例介绍的对象评估方法的过程,在此不再赘述。
本实施例对与犯罪嫌疑对象及社会危险性评估项目关联的信息数据进行具体介绍,具体可以包括:犯罪嫌疑对象基础信息数据、犯罪嫌疑对象在社会危险性评估项目中的专用信息数据,以及与犯罪嫌疑对象和社会危险性评估项目关联的初始舆论信息数据。
犯罪嫌疑对象基础信息数据可以包括:犯罪嫌疑对象基本信息(如,身份情况、就读就业情况、居住情况、违法记录)及作案经过(如,时间、地点、作案工具、经过)。
犯罪嫌疑对象在社会危险性评估项目中的专用信息数据可以从与犯罪嫌疑对象相关的司法机关数据中获取。
当然,犯罪嫌疑对象基础信息数据及犯罪嫌疑对象在社会危险性评估项目中的专用信息数据中的部分数据均可以直接从与犯罪嫌疑对象相关的司法相关数据中获取,如,身份情况、就读就业情况、居住情况、违法记录、犯罪形态、共同犯罪、作案次数、担保情况等均可以直接从犯罪嫌疑对象相关的司法相关数据中获取。优选的获取方式可以包括:序列标注与正则文法相结合的方法。
但对于不能直接从与犯罪嫌疑对象相关的司法相关数据中获取的犯罪嫌疑对象基础信息数据及犯罪嫌疑对象在社会危险性评估项目中的专用信息数据(如,犯罪类型、犯罪情节、量刑幅度等),可以通过预先构建的分类或回归特征判断模型进行判定。具体判定过程可以包括:将司法相关数据向量化后输入分类或回归特征判断模型,分类或回归特征判断模型输出分类或回归得到的特征取值,作为犯罪类型、犯罪情节、量刑幅度等。
将司法相关数据向量化的过程可以参见已有技术中数据向量化的过程,在此不再赘述。但,优选的,可以采用Word2vector算法将司法相关数据向量化。
分类或回归特征判断模型的具体结构在此不做限定,优选的,可以为:支持向量机模型和神经网络模型。
与犯罪嫌疑对象相关的司法机关数据具体可以包括:公安机关调查待评估对象的全部笔录及案件相关资料、检察院调查待评估对象的相关资料、法院关于待评估对象的记录。
需要说明的是,与犯罪嫌疑对象相关的司法相关数据可以直接从相关部门获取。
基于前述介绍的与犯罪嫌疑对象及社会危险性评估项目关联的信息数据的实施方式,所述参考预置的评估属性模板,从所述信息数据中确定评估属性数据,可以包括:
参考所述对象属性模板,从犯罪嫌疑对象基础信息数据中确定对象属性数据;
参考所述项目专用属性模板,从所述犯罪嫌疑对象在社会危险性评估项目中的专用信息数据中确定项目专用属性数据;
对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据;
参考所述舆论属性模板,从所述高关联度的舆论信息数据中确定舆论属性数据。
基于前述介绍的所述犯罪嫌疑对象在社会危险性评估项目中的专用信息数据的具体内容,对从所述犯罪嫌疑对象在社会危险性评估项目中的专用信息数据中确定的项目专用属性数据进行介绍,具体可以包括:
犯罪类型、犯罪形态、共同犯罪、犯罪情节、作案次数、量刑幅度、担保情况、犯罪动机、被害人身份信息。
下面对本申请实施例提供的对象评估装置进行描述,下文描述的对象评估装置与上文描述的对象评估方法可相互对应参照。
请参见图6,其示出了本申请实施例提供的对象评估装置的一种逻辑结构示意图,对象评估装置包括:信息数据获取模块11、评估属性数据确定模块12和评估结果确定模块13。
信息数据获取模块11,用于获取与待评估对象及待评估项目关联的信息数据。
评估属性数据确定模块12,用于参考预置的评估属性模板,从所述信息数据中确定评估属性数据。
评估结果确定模块13,用于将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果,所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
本实施例中,所述与待评估对象及待评估项目关联的信息数据,可以包括:
待评估对象基础信息数据、待评估对象在待评估项目中的专用信息数据,以及与待评估对象和待评估项目关联的初始舆论信息数据。
相应的,所述评估属性模板可以包括:对象属性模板、项目专用属性模板、舆论属性模板;
所述评估属性数据确定模块12,可以包括:
对象属性数据确定模块,用于参考所述对象属性模板,从待评估对象基础信息数据中确定对象属性数据;
项目专用属性数据确定模块,用于参考所述项目专用属性模板,从所述待评估对象在待评估项目中的专用信息数据中确定项目专用属性数据;
舆论信息数据筛选模块,用于对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据;
舆论属性数据确定模块,用于参考所述舆论属性模板,从所述高关联度的舆论信息数据中确定舆论属性数据。
本实施例中,所述舆论信息数据筛选模块,可以包括:
文本特征提取模块,用于提取每条初始舆论信息数据的文本特征;
关联度标注模块,用于将每条初始舆论信息数据的文本特征输入至预先建立的初始舆论信息筛选模型,得到模型输出的每条初始舆论信息数据是否为初级以上关联度的标注结果;所述初始舆论信息筛选模型为利用训练正例样本和训练负例样本进行训练得到,所述训练正例样本与舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件;
舆论信息数据初筛模块,用于根据每条初始舆论信息数据的标注结果,剔除掉非初级以上关联度的初始舆论信息数据,得到初筛后的舆论信息数据;
舆论信息数据二筛模块,用于根据预先设定的表征待评估对象及待评估项目的关键信息,从所述初筛后的舆论信息数据中,确定与所述关键信息的匹配度满足设定匹配度条件的舆论信息数据,作为所述高关联度的舆论信息数据。
本实施例中,上述对象评估装置还可以包括:初始舆论信息筛选模型训练模块,用于从训练对象基础信息数据和训练对象在训练项目中的专用信息数据中提取种子词;及,
将所述种子词、训练对象属性数据和训练项目专用属性数据中任意一种或多种作为舆论信息筛选参考样本,并根据所述舆论信息筛选参考样本从舆论信息样本库中筛选出训练正例样本和训练负例样本,所述训练正例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件;及,
分别对所述训练正例样本和所述训练负例样本进行文本特征提取;及,
将所述训练正例样本的文本特征和所述训练负例样本的文本特征作为训练数据,对初始舆论信息筛选模型进行训练。
基于上述对象评估装置,所述舆论信息数据二筛模块,可以包括:
文本聚类模块,用于对所述初筛后的舆论信息数据进行文本聚类,每一聚类簇中包括至少一篇舆论信息数据;
舆论信息关键词图确定模块,用于确定每一聚类簇中的每篇舆论信息数据对应的舆论信息关键词图;
关键信息关键词图确定模块,用于确定所述关键信息对应的关键信息关键词图;
匹配度计算模块,用于计算每个所述舆论信息关键词图与所述关键信息关键词图的匹配度;
高关联度的舆论信息数据确定模块,用于若所述舆论信息关键词图与所述关键信息关键词图的匹配度大于预设匹配度阈值,则确定所述舆论信息关键词图对应的舆论信息数据与所述关键信息的匹配度满足设定匹配条件,并将满足设定匹配条件的舆论信息数据作为所述高关联度的舆论信息数据。
本实施例中,上述舆论信息关键词图确定模块,可以包括:
舆论信息词对确定模块,用于利用预设滑动窗口在每一聚类簇中的每篇舆论信息数据中滑动,统计在各个所述预设滑动窗口内共同出现的词对,并确定各个所述共同出现的词对在所属聚类簇中的频数,以及在所有聚类簇中的频数之和;
舆论信息频数因子确定模块,用于利用各个所述共同出现的词对在所属聚类簇中的频数,以及在所有聚类簇中的频数之和,计算各个所述共同出现的词对的局部频数因子和全局频数因子,所述局部频数因子为所述共同出现的词对在所属聚类簇中的频数与所属聚类簇中词对的最大频数的比值,所述全局频数因子为所述共同出现的词对在所属聚类簇中的频数与在所有聚类簇中的频数总和的比值;
舆论信息词对权重确定模块,用于将所述共同出现的词对的局部频数因子与所述共同出现的词对的全局频数因子的乘积,作为所述共同出现的词对的权重;
舆论信息文本图构建模块,用于利用所述共同出现的词对的权重,构建舆论信息文本图;
舆论信息连通子图确定模块,用于从所述舆论信息文本图中筛选出节点和边的权重均大于预设舆论信息权重阈值的连通子图,作为舆论信息关键词图。
上述舆论信息文本图构建模块,可以包括:
舆论信息双向有权图构建模块,用于利用所述共同出现的词对的权重,构建舆论信息双向有权图;
舆论信息节点权重计算模块,用于计算所述舆论信息双向有权图中各个节点的权重;
舆论信息无向图确定模块,用于将所述舆论信息双向有权图转换为舆论信息无向图,作为所述舆论信息文本图。
本实施例中,上述关键信息关键词图确定模块,可以包括:
关键信息词对确定模块,用于利用预设滑动窗口在所述关键信息中滑动,统计在各个所述预设滑动窗口内共同出现的词对,并确定各个所述共同出现的词对在所述关键信息中的频数;
关键信息频数因子确定模块,用于利用各个所述共同出现的词对在所述关键信息中的频数,计算各个所述共同出现的词对的频数因子,所述频数因子为所述共同出现的词对在所述关键信息中的频数与所述关键信息中词对的最大频数的比值;
关键信息词对权重确定模块,用于将所述共同出现的词对的频数因子,作为所述共同出现的词对的权重;
关键信息文本图确定模块,用于利用所述共同出现的词对的权重,构建关键信息文本图;
关键信息连通子图确定模块,用于从所述关键信息文本图中筛选出节点和边的权重均大于预设关键信息权重阈值的连通子图,作为关键信息关键词图。
本实施例中,上述关键信息文本图构建模块,可以包括:
关键信息双向有权图构建模块,用于利用所述共同出现的词对的权重,构建关键信息双向有权图;
关键信息节点权重计算模块,用于计算所述关键信息双向有权图中各个节点的权重;
关键信息无向图确定模块,用于将所述关键信息双向有权图转换为关键信息无向图,作为所述关键信息文本图。
本实施例中,上述匹配度计算模块,可以包括:
匹配度计算子模块,用于根据所述关键信息关键词图中,被所述舆论信息关键词图命中的边的权重及数量,以及被所述舆论信息关键词图命中的关键词的数量,确定所述舆论信息关键词图与所述关键信息关键词图的匹配度,其中,被命中的边的权重越大、数量越多,匹配度越高,被命中的关键词的数量越多,匹配度越高。
基于上述对象评估装置,所述待评估对象可以包括:犯罪嫌疑对象;
所述待评估项目可以包括:社会危险性评估项目。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
以上对本申请所提供的一种对象评估方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种对象评估方法,其特征在于,包括:
获取与待评估对象及待评估项目关联的信息数据;
参考预置的评估属性模板,从所述信息数据中确定评估属性数据;
将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果,所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述与待评估对象及待评估项目关联的信息数据,包括:
待评估对象基础信息数据、待评估对象在待评估项目中的专用信息数据,以及与待评估对象和待评估项目关联的初始舆论信息数据;
所述评估属性模板包括:对象属性模板、项目专用属性模板、舆论属性模板;
所述参考预置的评估属性模板,从所述信息数据中确定评估属性数据,包括:
参考所述对象属性模板,从待评估对象基础信息数据中确定对象属性数据;
参考所述项目专用属性模板,从所述待评估对象在待评估项目中的专用信息数据中确定项目专用属性数据;
对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据;
参考所述舆论属性模板,从所述高关联度的舆论信息数据中确定舆论属性数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据,包括:
提取每条初始舆论信息数据的文本特征;
将每条初始舆论信息数据的文本特征输入至预先建立的初始舆论信息筛选模型,得到模型输出的每条初始舆论信息数据是否为初级以上关联度的标注结果;所述初始舆论信息筛选模型为利用训练正例样本和训练负例样本进行训练得到,所述训练正例样本与舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件;
根据每条初始舆论信息数据的标注结果,剔除掉非初级以上关联度的初始舆论信息数据,得到初筛后的舆论信息数据;
根据预先设定的表征待评估对象及待评估项目的关键信息,从所述初筛后的舆论信息数据中,确定与所述关键信息的匹配度满足设定匹配度条件的舆论信息数据,作为所述高关联度的舆论信息数据。
4.根据权利要求3所述的方法,其特征在于,所述初始舆论信息筛选模型的训练过程,包括:
从训练对象基础信息数据和训练对象在训练项目中的专用信息数据中提取种子词;
将所述种子词、训练对象属性数据和训练项目专用属性数据中任意一种或多种作为舆论信息筛选参考样本,并根据所述舆论信息筛选参考样本从舆论信息样本库中筛选出训练正例样本和训练负例样本,所述训练正例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值满足预设比例条件,所述训练负例样本与所述舆论信息筛选参考样本的相似词的数量与所述舆论信息筛选参考样本的词的总数的比值不满足所述预设比例条件;
分别对所述训练正例样本和所述训练负例样本进行文本特征提取;
将所述训练正例样本的文本特征和所述训练负例样本的文本特征作为训练数据,对初始舆论信息筛选模型进行训练。
5.根据权利要求3所述的方法,其特征在于,所述根据预先设定的表征待评估对象及待评估项目的关键信息,从所述初筛后的舆论信息数据中,确定与所述关键信息的匹配度满足设定匹配度条件的舆论信息数据,作为所述高关联度的舆论信息数据,包括:
对所述初筛后的舆论信息数据进行文本聚类,每一聚类簇中包括至少一篇舆论信息数据;
确定每一聚类簇中的每篇舆论信息数据对应的舆论信息关键词图;
确定所述关键信息对应的关键信息关键词图;
计算每个所述舆论信息关键词图与所述关键信息关键词图的匹配度;
若所述舆论信息关键词图与所述关键信息关键词图的匹配度大于预设匹配度阈值,则确定所述舆论信息关键词图对应的舆论信息数据与所述关键信息的匹配度满足设定匹配条件,并将满足设定匹配条件的舆论信息数据作为所述高关联度的舆论信息数据。
6.根据权利要求5所述的方法,其特征在于,所述确定每一聚类簇中的每篇舆论信息数据对应的舆论信息关键词图,包括:
利用预设滑动窗口在每一聚类簇中的每篇舆论信息数据中滑动,统计在各个所述预设滑动窗口内共同出现的词对,并确定各个所述共同出现的词对在所属聚类簇中的频数,以及在所有聚类簇中的频数之和;
利用各个所述共同出现的词对在所属聚类簇中的频数,以及在所有聚类簇中的频数之和,计算各个所述共同出现的词对的局部频数因子和全局频数因子,所述局部频数因子为所述共同出现的词对在所属聚类簇中的频数与所属聚类簇中词对的最大频数的比值,所述全局频数因子为所述共同出现的词对在所属聚类簇中的频数与在所有聚类簇中的频数总和的比值;
将所述共同出现的词对的局部频数因子与所述共同出现的词对的全局频数因子的乘积,作为所述共同出现的词对的权重;
利用所述共同出现的词对的权重,构建舆论信息文本图;
从所述舆论信息文本图中筛选出节点和边的权重均大于预设舆论信息权重阈值的连通子图,作为舆论信息关键词图。
7.根据权利要求6所述的方法,其特征在于,所述利用所述共同出现的词对的权重,构建舆论信息文本图,包括:
利用所述共同出现的词对的权重,构建舆论信息双向有权图;
计算所述舆论信息双向有权图中各个节点的权重;
将所述舆论信息双向有权图转换为舆论信息无向图,作为所述舆论信息文本图。
8.根据权利要求5所述的方法,其特征在于,所述确定所述关键信息对应的关键信息关键词图,包括:
利用预设滑动窗口在所述关键信息中滑动,统计在各个所述预设滑动窗口内共同出现的词对,并确定各个所述共同出现的词对在所述关键信息中的频数;
利用各个所述共同出现的词对在所述关键信息中的频数,计算各个所述共同出现的词对的频数因子,所述频数因子为所述共同出现的词对在所述关键信息中的频数与所述关键信息中词对的最大频数的比值;
将所述共同出现的词对的频数因子,作为所述共同出现的词对的权重;
利用所述共同出现的词对的权重,构建关键信息文本图;
从所述关键信息文本图中筛选出节点和边的权重均大于预设关键信息权重阈值的连通子图,作为关键信息关键词图。
9.根据权利要求8所述的方法,其特征在于,所述利用所述共同出现的词对的权重,构建关键信息文本图,包括:
利用所述共同出现的词对的权重,构建关键信息双向有权图;
计算所述关键信息双向有权图中各个节点的权重;
将所述关键信息双向有权图转换为关键信息无向图,作为所述关键信息文本图。
10.根据权利要求5所述的方法,其特征在于,所述计算每个所述舆论信息关键词图与所述关键信息关键词图的匹配度,包括:
根据所述关键信息关键词图中,被所述舆论信息关键词图命中的边的权重及数量,以及被所述舆论信息关键词图命中的关键词的数量,确定所述舆论信息关键词图与所述关键信息关键词图的匹配度,其中,被命中的边的权重越大、数量越多,匹配度越高,被命中的关键词的数量越多,匹配度越高。
11.根据权利要求1-10任意一项所述的方法,其特征在于,所述待评估对象包括:犯罪嫌疑对象;
所述待评估项目包括:社会危险性评估项目。
12.一种对象评估装置,其特征在于,包括:
信息数据获取模块,用于获取与待评估对象及待评估项目关联的信息数据;
评估属性数据确定模块,用于参考预置的评估属性模板,从所述信息数据中确定评估属性数据;
评估结果确定模块,用于将所述评估属性数据输入至预先建立的项目评估模型,得到所述项目评估模型输出的所述待评估对象在所述待评估项目中的评估结果,所述项目评估模型为预先利用标注有评估结果的评估属性训练数据进行训练得到。
13.根据权利要求12所述的装置,其特征在于,所述与待评估对象及待评估项目关联的信息数据,包括:
待评估对象基础信息数据、待评估对象在待评估项目中的专用信息数据,以及与待评估对象和待评估项目关联的初始舆论信息数据;
所述评估属性模板包括:对象属性模板、项目专用属性模板、舆论属性模板;
所述评估属性数据确定模块,包括:
对象属性数据确定模块,用于参考所述对象属性模板,从待评估对象基础信息数据中确定对象属性数据;
项目专用属性数据确定模块,用于参考所述项目专用属性模板,从所述待评估对象在待评估项目中的专用信息数据中确定项目专用属性数据;
舆论信息数据筛选模块,用于对所述初始舆论信息数据进行筛选,得到筛选后的高关联度的舆论信息数据;
舆论属性数据确定模块,用于参考所述舆论属性模板,从所述高关联度的舆论信息数据中确定舆论属性数据。
CN201711445002.1A 2017-12-27 2017-12-27 一种对象评估方法及装置 Active CN108038627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711445002.1A CN108038627B (zh) 2017-12-27 2017-12-27 一种对象评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711445002.1A CN108038627B (zh) 2017-12-27 2017-12-27 一种对象评估方法及装置

Publications (2)

Publication Number Publication Date
CN108038627A true CN108038627A (zh) 2018-05-15
CN108038627B CN108038627B (zh) 2022-06-07

Family

ID=62098019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711445002.1A Active CN108038627B (zh) 2017-12-27 2017-12-27 一种对象评估方法及装置

Country Status (1)

Country Link
CN (1) CN108038627B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189828A (zh) * 2018-08-16 2019-01-11 国云科技股份有限公司 一种基于复杂网络的业务部门间数据价值评估的方法
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、***及计算机可读存储介质
CN111126879A (zh) * 2019-12-31 2020-05-08 厦门美契信息技术有限公司 一种绿色金融项目遴选评估方法
CN111144677A (zh) * 2018-11-06 2020-05-12 北京京东振世信息技术有限公司 效率评估方法和效率评估***
CN112052680A (zh) * 2020-10-14 2020-12-08 腾讯科技(深圳)有限公司 问题生成方法、装置、设备及存储介质
CN112732740A (zh) * 2020-12-30 2021-04-30 航天信息股份有限公司 调查对象数据处理方法、装置、存储介质及电子设备
CN113554357A (zh) * 2021-09-22 2021-10-26 北京国研科技咨询有限公司 基于大数据的信息化项目成本评估方法和电子设备
CN115018390A (zh) * 2022-08-05 2022-09-06 广东咏声动漫股份有限公司 一种动画项目文件的制作价值评估方法、装置及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104715139A (zh) * 2015-02-02 2015-06-17 张振声 一种特殊人员风险行为评估方法
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104715139A (zh) * 2015-02-02 2015-06-17 张振声 一种特殊人员风险行为评估方法
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189828A (zh) * 2018-08-16 2019-01-11 国云科技股份有限公司 一种基于复杂网络的业务部门间数据价值评估的方法
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、***及计算机可读存储介质
CN111104798B (zh) * 2018-10-27 2023-04-21 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、***及计算机可读存储介质
CN111144677A (zh) * 2018-11-06 2020-05-12 北京京东振世信息技术有限公司 效率评估方法和效率评估***
CN111144677B (zh) * 2018-11-06 2023-11-07 北京京东振世信息技术有限公司 效率评估方法和效率评估***
CN111126879A (zh) * 2019-12-31 2020-05-08 厦门美契信息技术有限公司 一种绿色金融项目遴选评估方法
CN111126879B (zh) * 2019-12-31 2024-05-31 厦门美契信息技术有限公司 一种绿色金融项目遴选评估方法
CN112052680A (zh) * 2020-10-14 2020-12-08 腾讯科技(深圳)有限公司 问题生成方法、装置、设备及存储介质
CN112732740A (zh) * 2020-12-30 2021-04-30 航天信息股份有限公司 调查对象数据处理方法、装置、存储介质及电子设备
CN113554357A (zh) * 2021-09-22 2021-10-26 北京国研科技咨询有限公司 基于大数据的信息化项目成本评估方法和电子设备
CN115018390A (zh) * 2022-08-05 2022-09-06 广东咏声动漫股份有限公司 一种动画项目文件的制作价值评估方法、装置及***
CN115018390B (zh) * 2022-08-05 2022-12-20 广东咏声动漫股份有限公司 一种动画项目文件的制作价值评估方法、装置及***

Also Published As

Publication number Publication date
CN108038627B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN108038627A (zh) 一种对象评估方法及装置
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN107122790A (zh) 基于混合神经网络和集成学习的非侵入式负荷识别算法
CN106570525A (zh) 一种基于贝叶斯网络的在线商品评价质量评估方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN108345587A (zh) 一种评论的真实性检测方法与***
CN110309308A (zh) 一种文字信息的分类方法、装置及电子设备
CN103324758B (zh) 一种新闻分类方法和***
CN104657574B (zh) 一种医疗诊断模型的建立方法及装置
CN106446070A (zh) 一种基于专利群的信息处理装置及方法
KR20180086084A (ko) 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치
CN112434522B (zh) 一种降低敏感词误警率的文本审核后处理装置及方法
CN108021628A (zh) 一种科技主题的管理***
CN110009224A (zh) 嫌疑人违规概率预测方法、装置、计算机设备及存储介质
CN103699612B (zh) 一种图像检索排序的方法及装置
Recalde et al. Who you should not follow: Extracting word embeddings from tweets to identify groups of interest and hijackers in demonstrations
Ning et al. Calling for response: automatically distinguishing situation-aware tweets during crises
CN109597944B (zh) 一种基于深度信念网络的单分类微博谣言检测模型
Sánchez-Pozo et al. Predicting High School Students' Academic Performance: A Comparative Study of Supervised Machine Learning Techniques
CN109471953A (zh) 一种语音数据检索方法及终端设备
CN108470035A (zh) 一种基于判别混合模型的实体-引文相关性分类方法
CN106779929A (zh) 一种产品推荐方法、装置和计算设备
CN106844765A (zh) 基于卷积神经网络的显著信息检测方法及装置
Harris Searching for Diverse Perspectives in News Articles: Using an LSTM Network to Classify Sentiment.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant