CN102681992A - 一种数据分层方法及*** - Google Patents

一种数据分层方法及*** Download PDF

Info

Publication number
CN102681992A
CN102681992A CN2011100537198A CN201110053719A CN102681992A CN 102681992 A CN102681992 A CN 102681992A CN 2011100537198 A CN2011100537198 A CN 2011100537198A CN 201110053719 A CN201110053719 A CN 201110053719A CN 102681992 A CN102681992 A CN 102681992A
Authority
CN
China
Prior art keywords
data
question
intellectual
answer
answer data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100537198A
Other languages
English (en)
Inventor
薛晔伟
杨月奎
高晓娜
李晓艳
焦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011100537198A priority Critical patent/CN102681992A/zh
Publication of CN102681992A publication Critical patent/CN102681992A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据分层领域,提供了一种数据分层方法及***。所述方法包括以下步骤:获取问答数据的特征信息;将获取的问答数据的特征信息传输至预设的分类器中;根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;输出所述问答数据的判断结果。本发明通过对问答数据进行知识性和非知识性的分层,使得在实际搜索应用中,能够将知识性的回答数据和非知识性的回答数据明确表明,能够有效帮助用户判断搜索结果的可信度。

Description

一种数据分层方法及***
技术领域
本发明属于数据分层领域,尤其涉及一种数据分层方法及***。
背景技术
问答社区是类似搜搜问问、百度知道等用户参与提问和回答,并按照这种问答关系将用户和数据组织起来的互联网产品。
目前对于问答数据的整体质量判断的方法,即分层的方法都是基于简单规则,例如,回答文本的长度、用户的信誉度、非汉字符号占比例等。此类方法既没有全面的衡量对于提问的相应回答数据的可信度(即回答数据是否为知识性数据还是非知识性数据),也没有对回答数据的“高质量”给出明确定义。因此,在实际搜索应用中,得到的搜索结果数据的精确度很差,不管是知识性的回答数据还是非知识性的回答数据都没有明确表明,一般只能通过用户根据一般知识来做有针对性的过滤,从而来得到用户自己认为是知识性的回答数据。
发明内容
本发明提供一种数据分层方法及***,旨在解决现有技术中存在的没有全面的衡量对于提问的相应回答数据的可信度,导致搜索结果数据的精确度较差,不管是知识性的回答数据还是非知识性的回答数据都没有明确表明,需用户自行判断搜索结果的准确性的问题。
本发明是这样实现的,一种数据分层方法,所述方法包括以下步骤:
获取问答数据的特征信息;
将获取的问答数据的特征信息传输至预设的分类器中;
根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;
输出所述问答数据的判断结果。
本发明的另一目的在于提供一种数据分层***,所述***包括:
特征信息获取模块,用于获取问答数据的特征信息;
传输模块,用于将获取的问答数据的特征信息传输至预设的分类器中;
判断模块,用于根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;
输出模块,用于输出所述问答数据的判断结果。
在本发明中,通过对问答数据进行知识性和非知识性的分层,使得在实际搜索应用中,能够将知识性的回答数据和非知识性的回答数据明确表明,能够有效帮助用户判断搜索结果的可信度。
附图说明
图1是本发明第一实施例提供的数据分层方法的实现流程示意图。
图2是本发明第二实施例提供的数据分层方法的实现流程示意图。
图3是本发明实施例提供的数据分层***的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,通过对问答数据进行知识性和非知识性的分层,以解决现有技术中存在的没有全面的衡量对于提问的相应回答数据的可信度,导致在实际搜索应用中,搜索结果数据的精确度很差,不管是知识性的回答数据还是非知识性的回答数据者没有明确表明,需用户自行判断搜索结果的准确性的问题。
请参阅图1,为本发明第一实施例提供的数据分层方法的实现流程,其包括以下步骤:
步骤S101:获取问答数据的特征信息;
步骤S102:将获取的问答数据的特征信息传输至预设的分类器中;
步骤S103:根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;
步骤S104:输出所述问答数据的判断结果。
请参阅图2,为本发明第二实施例提供的数据分层方法的实现流程,其包括以下步骤:
步骤S201:定义问答数据的特征;
步骤S202:将所述特征与知识性数据和非知识性数据建立对应关联的数据模型,生成分类器;
步骤S203:获取问答数据的特征信息;
步骤S204:将获取的问答数据的特征信息传输至预设的分类器中;
步骤S205:根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;
步骤S206:输出所述问答数据的判断结果。
为了让用户更清楚搜索结果中的问答数据的可信度程度,作为本发明一优选实施例,所述方法还包括以下步骤:
根据判断结果,对问答数据进行标识,标识所述问答数据属于知识性数据还是非知识性数据。
为了让用户更加快捷、方便的查看可信度高的问答数据,作为本发明另一优选实施例,所述方法还包括以下步骤:
当搜索问答数据时,搜索引擎根据问答数据的标识信息,将标识为知识性数据的问答数据优先排列在搜索结果前端。
下面详细描述问答数据知识标注规则,以及定义问答数据的特征。
对于问答数据究竟按什么标准进行分层,本发明实施例给出了一个定义:问答数据是否为“知识性数据”。“知识性数据”的标准能够完整的刻画问答数据的质量(即可信度程度)。“知识性数据”指有用且不会过时的信息。在知识社区积累的大量数据上,按照如下的标准判定一个问答数据是否为“知识性数据”,不限于如下问答数据,
问答数据知识标注规则
Figure BDA0000049099680000051
另外,本发明实施例设计了一整套的问答数据的特征来描述一个完整的问答数据。这些特征涵盖了问答数据所涉及的几乎所有信息,包括:问答内容、参与人员、动作行为、反馈信息等方面。具体特征设置如下:
Figure BDA0000049099680000052
Figure BDA0000049099680000061
Figure BDA0000049099680000081
请参阅图3,为本发明实施例提供的数据分层***,为了便于说明,仅示出了与本发明实施例相关的部分。
所述数据分层***包括:特征信息获取模块102、传输模块104、判断模块106、以及输出模块108。
特征信息获取模块102,用于获取问答数据的特征信息。
传输模块104,用于将获取的问答数据的特征信息传输至预设的分类器中。
判断模块106,用于根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据。
输出模块108,用于输出所述问答数据的判断结果。
作为本发明一优选实施例,所述***还包括:标识模块。
所述标识模块,用于根据判断结果,对问答数据进行标识,标识所述问答数据属于知识性数据还是非知识性数据。
作为本发明另一优选实施例,所述***还包括:搜索引擎。
搜索引擎,用于当搜索问答数据时,根据问答数据的标识信息,将标识为知识性数据的问答数据优先排列在搜索结果前端。
在本发明实施例中,所述***还包括:定义模块、关联建立模块、以及生成模块。
定义模块,用于定义问答数据的特征。
生成模块,用于将所述特征与知识性数据和非知识性数据建立对应关联的数据模型,生成分类器。
综上所述,本发明实施例通过对问答数据进行知识性和非知识性的分层,使得在实际搜索应用中,能够将知识性的回答数据和非知识性的回答数据明确表明,能够有效帮助用户判断搜索结果的可信度。本发明实施例还能将知识性的问答数据优先排列在搜索结果最前端,从而使用户更加快捷、方便的查看可信度高的问答数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据分层方法,其特征在于,所述方法包括以下步骤:
获取问答数据的特征信息;
将获取的问答数据的特征信息传输至预设的分类器中;
根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;
输出所述问答数据的判断结果。
2.如权利要求1所述的方法,其特征在于,在所述获取问答数据的特征信息的步骤之前,还包括以下步骤:
定义问答数据的特征;
将所述特征与知识性数据和非知识性数据建立对应关联的数据模型,生成分类器。
3.如权利要求1所述的方法,其特征在于,所述方法还包括以下步骤:
根据判断结果,对问答数据进行标识,标识所述问答数据属于知识性数据还是非知识性数据。
4.如权利要求3所述的方法,其特征在于,所述方法还包括以下步骤:
当搜索问答数据时,搜索引擎根据问答数据的标识信息,将标识为知识性数据的问答数据优先排列在搜索结果前端。
5.一种数据分层***,其特征在于,所述***包括:
特征信息获取模块,用于获取问答数据的特征信息;
传输模块,用于将获取的问答数据的特征信息传输至预设的分类器中;
判断模块,用于根据分类器中预先训练好的数据模型,判断所述问答数据属于知识性数据还是非知识性数据;
输出模块,用于输出所述问答数据的判断结果。
6.如权利要求5所述的***,其特征在于,所述***还包括:
标识模块,用于根据判断结果,对问答数据进行标识,标识所述问答数据属于知识性数据还是非知识性数据。
7.如权利要求6所述的***,其特征在于,所述***还包括:
搜索引擎,用于当搜索问答数据时,根据问答数据的标识信息,将标识为知识性数据的问答数据优先排列在搜索结果前端。
8.如权利要求5所述的***,其特征在于,所述***还包括:
定义模块,用于定义问答数据的特征;
生成模块,用于将所述特征与知识性数据和非知识性数据建立对应关联的数据模型,生成分类器。
CN2011100537198A 2011-03-07 2011-03-07 一种数据分层方法及*** Pending CN102681992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100537198A CN102681992A (zh) 2011-03-07 2011-03-07 一种数据分层方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100537198A CN102681992A (zh) 2011-03-07 2011-03-07 一种数据分层方法及***

Publications (1)

Publication Number Publication Date
CN102681992A true CN102681992A (zh) 2012-09-19

Family

ID=46813944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100537198A Pending CN102681992A (zh) 2011-03-07 2011-03-07 一种数据分层方法及***

Country Status (1)

Country Link
CN (1) CN102681992A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN109309652A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种训练模型的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其***
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答***及其处理方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN101520802A (zh) * 2009-04-13 2009-09-02 腾讯科技(深圳)有限公司 一种问答对的质量评价方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其***
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答***及其处理方法
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN101520802A (zh) * 2009-04-13 2009-09-02 腾讯科技(深圳)有限公司 一种问答对的质量评价方法和***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN109309652A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种训练模型的方法及装置
US10867071B2 (en) 2017-07-28 2020-12-15 Advanced New Technologies Co., Ltd. Data security enhancement by model training
US10929558B2 (en) 2017-07-28 2021-02-23 Advanced New Technologies Co., Ltd. Data secruity enhancement by model training

Similar Documents

Publication Publication Date Title
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
CN103914494B (zh) 一种微博用户身份识别方法及***
CN102567304B (zh) 一种网络不良信息的过滤方法及装置
CN106202028B (zh) 一种地址信息识别方法及装置
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN102289459A (zh) 自动地生成训练数据
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN102999625A (zh) 一种检索请求语义扩展方法
Ilina et al. Social event detection on twitter
CN104317784A (zh) 一种跨平台用户识别方法和***
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类***
CN102567534B (zh) 互动产品用户生成内容拦截***及其拦截方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
WO2010096986A1 (zh) 移动搜索方法及装置
CN103631946A (zh) 一种基于地理位置的内容推送***
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及***
CN115186654A (zh) 一种公文文本摘要生成方法
CN102521713B (zh) 数据处理装置和数据处理方法
CN111488453B (zh) 资源分级方法、装置、设备及存储介质
CN102063497A (zh) 一种开放式知识共享平台及其词条处理方法
CN102939602A (zh) 对网站中的内容按语义排列等级
CN103177084A (zh) 一种考虑数据可信度的数据挖掘方法
CN104572613A (zh) 数据处理装置、数据处理方法和程序
CN110020196A (zh) 一种基于不同数据源的用户分析方法和装置及计算设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131018

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131018

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120919