CN104391904B

CN104391904B - 面向住户调查的用户终端数据快速录入方法及***

Info

Publication number: CN104391904B
Application number: CN201410649463.0A
Authority: CN
Inventors: 杨公白; 丁广告; 孟乾波; 肖尧; 郭冉
Original assignee: BEIJING ZHONGHAIJIYUAN DIGITAL TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2018-10-12
Anticipated expiration: 2034-11-14
Also published as: CN104391904A

Abstract

本发明属于信息输入技术领域，尤其涉及一种面向住户调查的用户终端数据快速录入方法及***。方法包括：采用本体技术构建面向住户调查的领域本体库；根据终端用户身份信息实现词条库的动态加载；面向选择录入的词条模糊检索和基于用户行为属性实现和呈现排序；基于选择的点击录入。***包括：基于互联网的服务器端和用户端两部分；服务器端安装总数据库，存储有住户调查领域本体数据库；客户端为便携式或手持式设备，通过互联网与后端服务器相联，为用户提供快速数据录入的界面和数据汇总上传的功能。通过本发明可以实现住户调查***的终端用户录入数据的方便性、高效性和准确性，极大地提高数据采集模式数据录入速度。

Description

面向住户调查的用户终端数据快速录入方法及***

技术领域

本发明属于信息输入技术领域，尤其涉及一种面向住户调查的用户终端数据快速录入方法及***。

背景技术

随着国家信息化的快速推进，国家***组织的全国城乡住户调查推广应用了智能移动终端记账***，应用现代移动通讯技术和智能终端设备服务于统计工作。

在传统“四位一体”的数据采集模式中，通常采用手机、电脑、平板、账本批量录入多种记账方式，自动汇总到统一后台，以满足调查需求。然而，在“四位一体”的数据采集模式中，最具有挑战性的问题之一就是如何解决用户信息的快捷和便利录入。主要原因为：(1)移动终端的键盘比较小，按键容易按错，字符录入速度比较慢；(2)用户一般使用电脑比较少，键盘操作不是很熟练，键入速度慢；(3)住户记账涉及的信息多，各地使用的词汇比较复杂，如何统一输入标准的信息词汇，这也是录入时需要考虑的关键技术问题。

在这样背景下，我们发明了面向住户调查领域的本体库的设计与构建等关键技术。通过采用标准的本体库，一方面可以解决移动终端快速录入问题，另一方面解决录入信息的统一和标准化问题。

发明内容

为解决上述问题，本发明提出了一种面向住户调查的用户终端数据快速录入方法及***。

一种面向住户调查的用户终端数据快速录入方法，采用词条的模糊检索方法选择录入；具体包括：

步骤1、依照词条的概念意义对与其相对应的词条进行细化分组，并对词条之间的关系进行区分标定，构建面向住户调查领域的知识本体库；

步骤2、使用本体描述语言对本体进行描述，并按照一定的数据结构将本体存储到数据库中；

步骤3、在用户录入信息的过程中，根据用户最先录入的基本身份信息，在服务器端本体库中找到与其信息相联系的其他所有词条来构成临时本体词汇子库并下载到用户端，实现本体词条子库的动态加载；

步骤4、在用户选择的录入项目所对应的词汇库中结合其他用户录入的该项目词汇的频率进行排序后显示可供选择的词汇列表；如果此时用户还不能及时发现自己想要填写的词汇选项，则输入部分欲填信息的首字母或字词，***跟随进行动态匹配，将匹配用户输入的从待选词库中模糊检索出的字词显示到最显眼直接的地方，方便用户快速选择和输入；

步骤5、基于步骤4所提供的待选项中，如果正好有用户需要填写的选项，直接点击即可将数据录入到***，提高录入快速性；

步骤6、将用户所选词汇更新到所在项目词汇库中，并修改词汇出现的频率。

所述步骤1包括：先确定本体的领域和范围为住户收支与生活状况调查，然后围绕住户收支与生活状况调查这一本体，列举本知识领域中与之相关的行为、实物、人员、内容、地域区划的术语和概念，之后根据概念之间的从属、实例、部分、属性、同义的关系，一级一级细化分组，分组后以每条记录包括概念名称、概念拼音首字母、关系类型、关系对象的格式存储到数据库。

所述步骤2包括：将概念分完组后，根据本体描述语言的语法，用表示概念间关系的有向线段连接各个概念，形成一个本体有向图，构成本体的框架，基本的概念之间有四种关系，包括：部分和整体、继承的类别、定义与实体、实体与属性。

所述步骤3包括：根据之前构建的本体，收集住户收支与生活状况调查领域的所有概念词汇，并按照词汇间关系进行分类编组；在本体库实现时，将本体库设计为不同主题的子模块，在子模块的划分上根据用户身份属性来组织子模块的本体内容，并实现单独加载的本体子模块库；

然后，在住户填报项目时，对于有固定选项的项目，***根据选项与住户属性的关系，在本体有向图中找到与之有关系的词汇，向填报人呈现推荐，提高录入效率，通过这种基于用户身份属性和录入行为的分析，实现子本体库的动态加载，减少用户终端的加载数据量，提高传输效率，降低终端硬件资源的消耗；同时也方便用户的快速录入。

所述步骤4包括：针对每个家庭都有自己的消费习惯，依据住户填报过的类目名称的次数来给类目进行排序，填报次数越多的类目的排序会越靠前；该算法根据用户的身份属性和当前的录入行为，以及对同类操作的历史数据统计，计算出当前录入行为相关联的的术语排列顺序，将高概率使用术语优先排列在前面，低概率使用的术语排列在后面；

进行拼音填报时，只需输入物品名称的拼音首字母，***就把词汇库中所有以这些字母开头的物品名称列举出来，供用户选择；除了使用拼音模糊录入技术外，用户填报信息时，对于某些物品的完整名称不是很了解，或是只知道几个关键字，在这种情况下，能根据首字母或关键字找到物品的全名，自动跟随用户的输入，每输入一个字母，都根据当前的输入搜索与之相关的词汇显示在待选行中，提高输入速度。

所述步骤5包括：用户在输入信息的同时，***的提示正好与用户想要填写的内容相同，用户只需简单地点击就能输入信息，省却繁重的后续输入过程。

一种面向住户调查的用户终端数据快速录入***，包括：基于互联网的服务器端和用户端两部分；服务器端安装总数据库，存储有住户调查领域本体数据库，为用户端提供基础数据支撑和上报信息汇总统计服务；客户端为便携式或手持式设备，包括台式电脑、笔记本电脑、平板电脑和智能手机，通过互联网与后端服务器相联，为用户提供快速数据录入的界面和数据汇总上传的功能；

服务器端的功能还包括：

选取全部知识领域中住户调查领域所包含的概念，依照概念的意义对与其相对应的词条进行细化分组，并对词条之间的关系进行区分标定，构建面向住户调查领域的知识本体库；

使用本体描述语言对本体进行描述，并按照一定的数据结构将本体存储到数据库中；

在用户录入信息的过程中，根据用户最先录入的基本身份信息，在服务器端本体库中找到与其信息相联系的其他所有词条来构成临时本体词汇子库并下载到用户端，实现本体词条子库的动态加载；

用户端的功能还包括：

在用户选择的录入项目所对应的词汇库中结合其他用户录入的该项目词汇的频率进行排序后显示可供选择的词汇列表；如果此时用户还不能及时发现自己想要填写的词汇选项，则输入部分欲填信息的首字母或字词，***跟随进行动态匹配，将匹配用户输入的从待选词库中模糊检索出的字词显示到最显眼直接的地方，方便用户快速选择和输入；

如果正好有用户需要填写的选项，直接点击即可将数据录入到***，提高录入快速性；将用户所选词汇更新到所在项目词汇库中，并修改词汇出现的频率，将相关数据返回到服务器端中。

本发明的有益效果在于：通过本发明提出的用户终端的快速录入方法和***，可以实现住户调查***的终端用户录入数据的方便性、高效性和准确性，极大地提高城乡住户调查***中“四位一体”智能终端的数据采集模式数据录入速度。

附图说明

图1为本体概念之间关系图；

图2为分类动态加载的示意图；

图3为基于用户行为属性的词典呈现排序算法流程图；

图4为模糊检索方法的应用实例界面之一；

图5为模糊检索方法的应用实例界面之二；

图6为模糊检索方法的应用实例界面之三。

具体实施方式

下面结合附图和实施例对本发明所提出的方法做进一步的说明。

服务器端的功能还包括：

用户端的功能还包括：

将本发明应用到具体实施例中。具体步骤如下：

(1)建立并实现住户调查领域本体：

本体是指对客观世界存在的实体或***以合乎逻辑和***完整的方式进行的描述说明，定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇的外延的规则”或是“共享概念模型的明确的形式化规范说明”。

本体研究的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇相互关系的明确定义。

领域本体，即专业性的本体，是对学科概念的一种描述，描述的是特定领域中的概念和概念之间的关系，提供的是某个专业学科领域中概念的词表以及概念间的关系，或在该领域里占主导地位的理论。由于知识具有显著的领域特性，所以领域本体能够更为合理而有效地进行知识的表示。这里的“领域”是根据本体构建者的需求来确立的，它可以是一个学科领域，可以是某几个领域的一种结合，也可以是一个领域中的一个小范围。

(1.1)确定本体的领域和范围：

在本发明中，我们将研究的领域本体对象限定为“住户收支与生活状况调查”这一领域。其实与本本体广泛或是并行的本体还有很多，比如“调查”、“经济”就是一个居于“住户收支与生活状况调查”之上位的本体，而“大学生恋爱状况调查”、“城市交通状况调查”则是居于与其并行平等地位的本体。但“住户收支与生活状况调查”这一领域本体在本发明中更加精确、科学。

(1.2)列举知识领域中重要的术语、概念：

围绕“住户收支与生活状况调查”这一本体，首先列举出所有与之相关的行为、实物、人员、内容、地域区划等术语和概念(不考虑重叠及表达方式)。

例如，根据调查的内容，我们可以分为社区基本情况、住户基本情况、现金和实物收支日记账等，其中现金和实物收支日记账又可以细分为农业生产经营、现金收入、现金消费支出、实物产品和服务、非消费性现金支出、其他记账项目等六大类，其中每一类往下还可以再细分，直至栽种的每一种农作物，商店的每一件商品，这就衍生了数量巨大的本体子概念，也即一个巨大的词汇表，这些概念(词汇)都是发明中本体研究的对象。

为使一个领域本体包含该领域的所有知识，在构建的时候应该尽可能多地包含本领域的概念，因此在列举概念时要尽可能全面。为达到这个要求，在列举时大量参考了该领域的书籍，或是向该领域的专家请教，并在后续实践中不断丰富充实。

例如，参考《住户收支与生活状况调查编码手册》，我们可以得到实际调查中涉及到的大部分的物品名称及代码。请教资深调查员，能够得到一些具有地域色彩的物品或是概念的名称。在实际***使用过程中，遇到新的词汇或是物品的方言叫法，都可以随时添加进去。

(1.3)建立本体框架：

在上一步骤得到的大量领域本体概念只是一个没有组织结构的词汇表，需要按照一定的逻辑规则对其进行分组，分组后各组构成不同的下级领域。分组可以采取自顶向下的方式进行，即先从顶层概念“住户收支与生活状况调查”开始，根据概念之间的从属关系，一步一步细化分组，聚类分离。

在本次研究中，根据《住户收支与生活状况调查编码手册》，我们把“住户收支与生活状况调查”作为此本体中最顶层的概念，将记账、数据、报表、样本等概念划为一个概念组，将农业生产经营、现金收入(不含农业生产经营)、现金消费支出、实物产品和服务、非消费性现金支出、其他记账项目等划为一类。而在商店出售的物品里面，将水果、饮料、面包、零食等分为一类。

将所有概念分完组后，需要对各组(相同下级领域)内的概念重要性和相关性进行评估,总结出该下级领域的共同属性，选出能够尽可能准确而精炼地表达出该下级领域的相关知识的关键性术语,形成该下级领域知识的框架***。比如在商品领域内，“粮食”、“水果”、“生活用品”、“五金”等概念都包含了较多的内容，可以集中起来，作为表达“商品”下级领域的关键性术语，形成框架***。

将概念分完组后，根据本体描述语言(OWL)的语法，可以用表示概念间关系的有向线段连接各个概念，形成一个本体有向图，构成本体的框架，如图1。基本的概念之间有四种关系，包括：part-of,kind-of,instance-of,attribute-of。其中part-of表示两个概念间是部分和整体的关系,kind-of表示两个概念间是继承的类别的关系,instance-of表示两个概念是定义与实体的关系,attribute-of表示两个概念之间的实体与属性的关系。根据需要，可以自定义新的关系，例如“红薯”和“地瓜”之间的同义关系，可以定义“same-of”关系来表示。在本体中，一个概念可以向多个其他概念产生关系，比如“价格”可以作为“商品”的属性，也可以作为“劳务服务”的属性，同时作为“价值”的表现形式，产生kind-of关系。一个概念也可以作为多个其他概念产生关系的对象，比如“住房”，有“建筑年份”、“建筑面积”、“住宅外道路情况”等向其发生attribute-of的关系，也有“别墅”、“商品房”、“筒子楼”、“平房”等向其发生instance-of的关系。概念的数目以及相互之间***的数目一般由专家根据语义人工确定。

(2)词典分类组织结构和根据用户属性和行为的分类词汇加载方法：

根据之前构建的本体，收集“住户收支与生活状况调查”领域的所有概念词汇，并按照词汇间关系进行分类编组。在本体结构中，与用户属性和行为相关的词汇与该用户词汇之间的路径距离比较小。在本体库实现时，将本体库设计为不同主题的子模块。在子模块的划分上根据用户身份属性，例如农民、牧民、城市居民等类别，来组织子模块的本体内容，并实现为可以单独加载的本体子模块库。

然后，在住户填报项目时，对于一些有固定选项的，***可以根据选项与住户属性的关系，在本体有向图中找到与之直接***的词汇，向填报人呈现推荐，提高录入效率，如图2。通过这种基于用户身份属性和录入行为的分析，实现子本体库的动态加载，减少用户终端的加载数据量，提高传输效率，降低终端硬件资源的消耗。同时也方便用户的快速录入。

例如，在住户住房基本情况录入过程中，如果住户的居住类型是“普通住宅”，则在后续的“厕所使用情况”项目中可以推荐填报“本住户独用”这一选项，如果住户的居住类型是“集体宿舍和工棚”的话，则在后续的“厕所使用情况”项目中可以推荐填报“几户合用”或“公用厕所”，因为在本体库中“本住户独用”与“普通住宅”***，但不与“集体宿舍和工棚”***。

(3)基于用户行为的词典呈现排序算法以及词汇模糊检索方法：

(3.1)基于用户行为的词典呈现排序算法：

在使用***填报录入数据的时候，可以有选择填报、汉字填报、拼音填报和直接填报等几种录入方式，无论使用哪种填报方式，都有可能出现一种情况：在屏幕上出现多个本体库中检索到多种可能录入的备选术语(词典的词条)供用户点击。

但是，如何将相关的术语在理想的顺序呈现在用户终端的界面上，对用户录入的效率具有非常大的影响。因此，本发明建立了一种基于用户行为的词典呈现排序算法。

针对每个家庭都有自己的消费习惯，依据住户填报过的类目名称的次数来给类目进行排序，填报次数越多的类目的排序会越靠前；因为被住户填报越多的类目说明该类目经常被住户填报，用户填报此种信息的概率最大，所以将填报次数越多的类目排到前面，以方便住户能够快速的选择。

该算法会根据用户的身份属性和当前的录入行为，以及对同类操作的历史数据统计，计算出当前录入行为可能使用的术语排列顺序，将最可能使用的术语优先排列在前面，最不可能使用的排列在后面。这种基于用户行为的词典呈现排列算法，极大了提高用户录入速度。基于用户行为属性的词典呈现排序算法流程如图3所示，应用实例界面在如图4、图5所示。

(3.2)词汇模糊检索方法：

进行拼音填报时，只需输入物品名称的拼音首字母，***就会把词汇库中所有以这些字母开头的物品名称列举出来，供用户选择。比如，要录入大米，输入“dm”，点击搜索，列表中就会出现首字母是“dm”的所有物品，方便快捷。这种基于拼音的词汇模糊录用方法能极大地提高用户的录入速度，降低录入难点，提高了录入效率，方便用户使用。基于拼音的模糊检索的录入方法的应用实例如图6所示。

除了使用拼音模糊录入技术外，本发明还建立了一种词汇模糊检索技术。该技术是在用户填报信息时，可能某些物品的完整名称不是很了解，或是只知道几个关键字，在这种情况下，如果能根据首字母或关键字找到物品的全名，无疑输入速度回提高很多。本***能够跟随用户的输入，每输入一个字母，都根据当前的输入搜索与之相关的词汇显示在待选行中，提高输入速度。

(4)基于选择的点击录入：

用户在输入信息时，在输入的同时***的提示正好与用户想要填写的内容相同，用户只需简单地点击，就可以输入信息，省却繁重的后续输入过程。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种面向住户调查的用户终端数据快速录入方法，其特征在于，采用词条的模糊检索方法选择录入，具体包括：

步骤1、依照词条概念的意义对与其相对应的词条进行细化分组，并对词条之间的关系进行区分标定，构建面向住户调查领域的知识本体库；

所述步骤1包括：先确定本体的领域和范围为住户收支与生活状况调查，然后围绕住户收支与生活状况调查这一本体，列举本知识领域中与之相关的行为、实物、人员、内容、地域区划的术语和概念，之后根据概念之间的从属、实例、部分、属性、同义的关系，一级一级细化分组，分组后以每条记录包括概念名称、概念拼音首字母、关系类型、关系对象的格式存储到数据库；

步骤6、将用户所选词汇更新到所在项目词汇库中，并修改词汇出现的频率；

然后，在住户填报项目时，对于有固定选项的项目，***根据选项与住户属性的关系，在本体有向图中找到与之有关系的词汇，向填报人呈现推荐，提高录入效率，通过这种基于用户身份属性和录入行为的分析，实现子本体库的动态加载；

所述步骤4包括：针对每个家庭都有自己的消费习惯，依据住户填报过的类目名称的次数来给类目进行排序，填报次数越多的类目的排序会越靠前；算法根据用户的身份属性和当前的录入行为，以及对同类操作的历史数据统计，计算出当前录入行为相关联的的术语排列顺序，将高概率使用术语优先排列在前面，低概率使用的术语排列在后面；

2.根据权利要求1所述的方法，其特征在于，所述步骤2包括：将概念分完组后，根据本体描述语言的语法，用表示概念间关系的有向线段连接各个概念，形成一个本体有向图，构成本体的框架，基本的概念之间有四种关系，包括：部分和整体、继承的类别、定义与实体、实体与属性。

3.根据权利要求1所述的方法，其特征在于，所述步骤5包括：用户在输入信息的同时，***的提示正好与用户想要填写的内容相同，用户只需简单地点击就能输入信息，省却繁重的后续输入过程。

4.一种面向住户调查的用户终端数据快速录入***，其特征在于，包括：基于互联网的服务器端和用户端两部分；服务器端安装总数据库，存储有住户调查领域本体数据库，为用户端提供基础数据支撑和上报信息汇总统计服务；客户端为便携式或手持式设备，包括台式电脑、笔记本电脑、平板电脑和智能手机，通过互联网与后端服务器相联，为用户提供快速数据录入的界面和数据汇总上传的功能；

服务器端的功能还包括：

选取全部知识领域中住户调查领域所包含的概念，依照概念的意义对与其相对应的词条进行细化分组，并对词条之间的关系进行区分标定，构建面向住户调查领域的知识本体库；包括：先确定本体的领域和范围为住户收支与生活状况调查，然后围绕住户收支与生活状况调查这一本体，列举本知识领域中与之相关的行为、实物、人员、内容、地域区划的术语和概念，之后根据概念之间的从属、实例、部分、属性、同义的关系，一级一级细化分组，分组后以每条记录包括概念名称、概念拼音首字母、关系类型、关系对象的格式存储到数据库；

根据之前构建的本体，收集住户收支与生活状况调查领域的所有概念词汇，并按照词汇间关系进行分类编组；在本体库实现时，将本体库设计为不同主题的子模块，在子模块的划分上根据用户身份属性来组织子模块的本体内容，并实现单独加载的本体子模块库；然后，在住户填报项目时，对于有固定选项的项目，***根据选项与住户属性的关系，在本体有向图中找到与之有关系的词汇，向填报人呈现推荐，提高录入效率，通过这种基于用户身份属性和录入行为的分析，实现子本体库的动态加载，减少用户终端的加载数据量，提高传输效率，降低终端硬件资源的消耗；同时也方便用户的快速录入；

用户端的功能还包括：

针对每个家庭都有自己的消费习惯，依据住户填报过的类目名称的次数来给类目进行排序，填报次数越多的类目的排序会越靠前；算法根据用户的身份属性和当前的录入行为，以及对同类操作的历史数据统计，计算出当前录入行为相关联的的术语排列顺序，将高概率使用术语优先排列在前面，低概率使用的术语排列在后面；

进行拼音填报时，只需输入物品名称的拼音首字母，***就把词汇库中所有以这些字母开头的物品名称列举出来，供用户选择；除了使用拼音模糊录入技术外，用户填报信息时，对于某些物品的完整名称不是很了解，或是只知道几个关键字，在这种情况下，能根据首字母或关键字找到物品的全名，自动跟随用户的输入，每输入一个字母，都根据当前的输入搜索与之相关的词汇显示在待选行中，提高输入速度；