CN104536957A - 农用土地流转信息检索方法和*** - Google Patents
农用土地流转信息检索方法和*** Download PDFInfo
- Publication number
- CN104536957A CN104536957A CN201410503602.9A CN201410503602A CN104536957A CN 104536957 A CN104536957 A CN 104536957A CN 201410503602 A CN201410503602 A CN 201410503602A CN 104536957 A CN104536957 A CN 104536957A
- Authority
- CN
- China
- Prior art keywords
- information
- agricultural land
- participle
- circulation information
- land circulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种农用土地流转信息检索方法,以解决传统算法对于土地流转供求信息检索效果不佳的问题。其包括如下步骤:服务器接收用户输入的检索条件;服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;服务器查找分词化检索条件中的包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;服务器根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵,本发明还涉及一种农业用土地信息检索***。
Description
技术领域
本发明涉及一种农业用土地流转信息的检索方法,本发明还涉及一种农业用土地信息检索***。
背景技术
目前主流的搜索引擎检索算法是基于关键词匹配的检索算法,常用的排序算法包括词频位置加权排序算法、Direct Hit算法、PageRank算法等。
基于关键词匹配的检索算法中,可以将所有只要包含查询语句中涉及词语中的一个或多个的信息全部检索出来,这种词形匹配方式容易造成检索结果冗余。而且在进行土地流转信息检索时,没有考虑该类信息的地理位置相关性的重要特点,往往得不到理想的结果。
目前,尽管图像、视频等内容的检索技术也有了很好的发展,但是网络上绝大多数的信息为文本信息,因此文本信息检索在信息检索领域仍然占据着主要地位。文本信息检索是传统(文献)检索方式的延续,是指从大量的文本资源集合中自动地找到与用户查询条件相关的各种信息。传统的文本信息检索采用的技术模型主要有布尔模型、向量空间模型和概率模型,使用较多的是向量空间模型。
传统的基于关键词检索的文本信息检索方法存在许多问题:
(1)基于关键词检索方法中较常使用的检索模型是是向量空间模型,此模型可以将任意文档表示成词条向量。当文本数量较多时,该词项-文档矩阵将成为高阶稀疏矩阵,空间维数较高,内存占用空间较大,信息处理速度较慢。
(2)基于关键词检索方法仅仅考虑字形匹配,没有考虑文本信息中词语之间的语义关系,不能处理同义词、近义词的问题,准确率并不理想。
(3)农用土地流转信息中包括很多地理信息,当用户检索一块区域的流转信息时,基于关键字匹配的检索方法没有办法考虑地理位置的空间信息,将包含在该区域内的地块信息全部检索出来。
此外,在针对检索结果进行排序的算法中,词频位置加权排序算法是基于网页信息内容分析的排序算法,其中词语与网页内容的相似度则由它出现的频次和位置决定。Direct Hit是一种注重信息质量和用户行为反馈的排序算法,网页被点击的次数和浏览的时间长度都影响网页与用户查询语句的相似度。PageRank算法是一种链接分析算法。在该算法中,网页的重要性由两部分决定:(1)该页面被多少页面引 用(2)该页面被什么页面引用。针对土地流转信息的特点,应该充分考虑空间关系对地理要素的语义相似度的影响,并将这一部分作为影响文档与查询语句相似度的一个重要因素。
发明内容
针对现有技术中的不足,本发明旨在提供一种基于地名匹配的农用土地流转信息检索方法,以解决传统算法对于土地流转供求信息检索效果不佳的问题。
进一步地,在此基础上,本发明还提供了一种基于地理要素的土地流转信息排序方法,以解决传统算法对于检索出的土地流转供求信息排序效果不佳的问题。
为了解决上述问题,该种农用土地流转信息检索方法,其包括如下步骤:
服务器接收用户输入的检索条件;
服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;
服务器查找分词化检索条件中的包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
服务器根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵;
服务器计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1;
服务器将相似度sim1满足一定阙值的农用土地流转信息发送给用户。
优选地,还包括步骤:
所述服务器得到词汇-文档矩阵后,对该词汇-文档矩阵进行潜语义分析操作,得到去噪后的词汇-文档矩阵,服务器根据该去噪后的词汇-文档矩阵计算分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1。
更优选地,所述对词汇-文档矩阵进行潜语义分析操作包括如下步骤:
奇异值分解操作:该操作根据公式:X0=T0S0D0 T实现,其中:X0表示m×n阶矩阵,T0为m×m阶酉矩阵;S0为半正定m×n阶对角矩阵;D0为n×n阶酉矩阵,D0 T为D0的共轭转置;
选择S0中的前k个元素,取S0中k阶对角矩阵形成矩阵S、取T0中的k列形成矩阵T、取D0 T中相应的k行形成矩阵DT,从而形成优化后的矩阵TSDT,其中:若m>n,1<k<n,若m<n,1<k<m;
对优化后的矩阵进行奇异值逆分解操作:该操作根据公式:实现。
优选地,所述地名匹配算法包括步骤:
a)将所述地名信息在基准行政区划数据库中进行匹配,找到该地名信息所对应的行政区划编码并存储;
b)根据该行政区划编码查找是否包含有下级行政区;
c)若有,则存储该行政区划代码并返回步骤b);
d)将所有存储的行政区划代码转换成对应的区域地名;以及
e)输出该区域地名信息。
优选地,还包括步骤:所述服务器将相似度sim1满足一定阙值的农用土地流转信息进行相似度值排序后,再将该农用土地流转信息发送给用户;
该相似度值根据公式:sim=α×sim1+β×sim2确定,其中α+β=1,sim2为地理要素相似度,其由分段公式:确定,其中,分段函数中的Code1为所述检索条件中的地名信息的行政区划编码,Code2为所述待检索的农用土地流转信息中地名信息的行政区划编码,n为Code1和Code2二者最小共有行政区划的级别数之和。
更优选地,所述α=0.4,β=0.6,所述sim1>0.9。
优选地,所述相似度sim1由余弦值相似度算法获得,其公式定义为:
其中:Di,Ei为文本向量,n为Di,Ei的维数,C为文本相似度。
优选地,还包括步骤:所述服务器预先从网络上获取待检索的农用土地流转信息,并将该信息存储为txt格式或者MySQL数据库格式。
本发明名还涉及一种农用土地流转信息检索方法,其包括如下步骤:
客户端向服务器发送用户输入的检索条件;
服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;
服务器查找分词化检索条件中的包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
服务器将该筛选后的分词化农用土地流转信息发送至客户端;
客户端据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间 模型,得到词汇-文档矩阵;
客户端计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度;
客户端将相似度满足一定阙值的农用土地流转信息显示给客户。
本发明还涉及一种农用土地流转信息检索***,其包括如下模块:
接收模块:用于接收自用户输入的检索条件;
分词处理模块:用于对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;
地名匹配模块:用于查找分词化检索条件中的所包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
信息筛选模块:用于根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
模型创建模块:用于根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵;
相似度计算模块:用于计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度;
信息发送模块:用于将相似度满足一定阙值的农用土地流转信息发送给用户。
本发明的有益效果是:本发明针对当前主流检索算法和排序算法中的关键词匹配、余弦相似度算法等方法在土地流转信息检索上的问题与不足,提出了一种顾及地名匹配和地理要素相似度的方法来对土地流转信息进行检索。本发明提出的方法简洁,检索效果更好。
附图说明
图1为本发明的农用土地流转信息检索方法的流程图;
图2为本发明的地名匹配方法流程图;
图3为我国县级及以上的行政区划代码示意图;
图4为我国县级以下行政区划代码示意图。
具体实施方式
下面结合附图对本发明做进一步地说明。
本发明涉及一种农用土地流转信息的检索方法,在此基础之上,本发明还涉及一种基于该检索方法的农用土地流转信息的排序方法。
如图1所示,该种农用土地流转信息的检索方法,包括如下步骤:
步骤101,服务器预先从网络上获取待检索的农用土地流转信息,并将该信息 存储为txt格式或者MySQL数据库格式。这里检索服务器可以利用网络爬虫从相关网站上抓取网页内容,将页面内容存储为txt或者MySQL数据库格式,保存在本地服务器端,便于维护和管理。本发明优选使用MySQL数据库,MySQL由于其体积小,速度快,成本低,作为最流行的关系型数据库管理***在本发明优选使用。当然检索服务器也可不在本地存储信息,直接根据下文各步骤对网站信息进行处理。
步骤102,服务器接收自用户输入的检索条件。用户通过客户端软件输入检索词或检索要素,客户端将检索词或检索要素生成检索式后发送至服务器。
步骤103,服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息。该分词化处理过程可使用中科院开源的ICTCLAS分词***实现,举个例子来说,如果检索条件为:“重庆长寿土地流转信息”,经过分词后会变成“重庆/ns长寿/ns土地/n流转/vn信息/n”,存储格式和之前一样为txt或者MySQL数据库格式。其中/ns表示地名信息,/n表示一般名词,/vn表示动词。
步骤104,服务器查找分词化检索条件中的所包含的地名信息(例如,上述标记/ns的信息),并根据地名匹配算法找到各地名信息所包含的下级地名信息。
该地名匹配算法如图2所示,地名匹配即将地名与基准行政区划数据库中的地名属性做比较,找到其对应的行政区划编码,根据编码规则判断是否含有下级行政区划。如果含有,则返回下级行政区划名,并根据这些行政区划名排除干扰信息的过程,最后输出所有匹配出的地名信息。若对一组地名进行匹配分析,则找到对应行政区划编码后选取较小行政区域的行政区划编码进行判断。
其中,行政区划代码标准是支我国经济发展和社会发展必不可少的基础标准之一,已经被广泛应用到各个政府部门和企事业单位的信息化工作中。中华人民共和国行政区划代码也称为行政代码,是国家各级行政机关的识别符号。目前描述全国行政区划代码的国家标准有两个,一个是《中华人名共和国行政区划代码》(GB/T 2260),另一个是《县级以下行政区划代码编制规则》(GB/T 10114)。GB/T 2260规定了我国县级及以上的行政区划代码,由中华人名共和国国家***公布,其中前两位代表省(自治区、直辖市、特别行政区),第三、四位代表市(地区、自治州、盟及国家直属市所属市辖区和县的汇总码)、第五六位代表县(市辖区、县级市、旗)。如图3所示。
《GB/T 10114》规定了县级以下行政区代码的编码规则,在规则中规定县级及以下的行政区代码分为两段,由九位***数字构成,前一段使用《GB/T 2260》中规定的六位数字代码,用来表示县级及县级以上的行政区划,后一段的三位***数字表示县级以下的行政区划,其中以“0”开头表示街道或地区,以“1”开头表示镇或民族镇,以“2”或“3”开头表示民族乡、苏木,具体表示为:
001~099表征的是街道(地区)
100~199表征的是镇(民族镇)
200~399表征的是乡、民族乡、苏木
县级以下行政区划代码如图4所示。
县级以下的行政区划代码根据行政从属关系和上面列出的区划类型,经过统一排序后再进行编码。
步骤105,服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息,该筛选后的分词化农用土地流转信息是部分分词化农用土地流转信息。
步骤106,服务器根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵。
步骤107,对该词汇-文档矩阵进行潜语义分析操作,得到去噪后的词汇-文档矩阵。由于关键词算法是词形匹配,不能挖掘词语的内在语义信息,因此本发明加入潜语义分析技术。潜语义分析算法的基本观点是通过奇异值分解(Singular Value Decomposition,简称SVD)方法把用向量空间模型表示的高维词汇-文档矩阵表示到低维的潜在语义空间中。
所述对词汇-文档矩阵进行潜语义分析操作包括如下步骤:
奇异值分解操作,该操作公式:X0=T0S0D0 T实现,其中:X0表示m×n阶矩阵,T0为m×m阶酉矩阵;S0为半正定m×n阶对角矩阵;D0为n×n阶酉矩阵,D0 T,为D0的共轭转置。选择S0中的前k个元素,取S0中k阶对角矩阵形成矩阵S、取T0中的k列形成矩阵T、取D0 T中相应的k行形成矩阵DT,从而形成优化后的矩阵TSDT,其中:若m>n,1<k<n,若m<n,1<k<m。这里表示认为前K个网页是与主题相关性较大,其余网页与主题的相关性较小,作为噪声。最后,对优化后的矩阵进行奇异值逆分解操作,该操作根据公式:实现。奇异值分解就是为了找到相关性较小的页面将其在T0、S0、D0对应的部分舍去,这样逆分解之后得到的X就降低了相关性较小页面的干扰,使得在后面的相似度计算环节相似度降低。
例如有下面4个短文本:
P1:重庆长寿土地出租信息
P2:个人求租长寿及周边荒山荒地2000-20000亩
P3:个人求租长寿大块荒坡荒地
P4:转让长寿重钢附近200亩荒地带房
从这几条信息中提取关键词,用词频构建向量空间模型,其中“土地”一词的向量为[1,0,0,0],“荒地”一词的向量为[0,1,1,1],“周边”一词的向量为如下[0,1,0,0],“转让”一词的向量为[0,0,0,1]。在原始矩阵中,“土地”和“荒地”的相 似度为0,“周边”和“转让”的相似度为0;通过奇异值分解,挖掘潜在的语义关系后,“土地”和“荒地”的相似度为0.9612,“周边”和“转让”的相似度为-0.0938。这样,就达到了提高相关词语之间的相似度的作用。
步骤108,服务器计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1。
文本相似度是用来衡量文本之间相似程度的一个统计量。在向量空间模型中,文本相似度的计算方法有内积法、Diee系数法、Jaccard系数法、余弦法和距离函数法等。其中余弦法是从内容上进行打分,可以解决由于用户的不同而产生的标准不统一的问题。基于以上特点,余弦法更适合于做数据的挖掘工作,简单实用,因此本发明采用此方法,通过计算检索条件和各个文档之间的夹角余弦值判断其相似程度,余弦值越大,则相似度越高。
若有文本向量Di,Dj,则两者的夹角余弦定义如公式所示:
其中:Di,Ei为文本向量,n为Di,Ei的维数,C为文本相似度。一般情况下,相关系数的阈值要大于或等于0.9,但是当语义空间维数大于三维时,可以做适当的调整。
步骤109,服务器将相似度sim1满足一定阙值的农用土地流转信息进行相似度值排序。该相似度值根据公式:sim=α×sim1+β×sim2确定,其中α+β=1,sim2为地理要素相似度,其由分段公式:确定,其中分段函数中的Code1为所述检索条件中的地名信息的行政区划编码,Code2为所述待检索的农用土地流转信息中地名信息的行政区划编码,n为Code1和Code2二者最小共有行政区划的级别数之和。例如code1如果代表的是海淀,code2代表朝阳,那么他们二者共有的最小上级行政区划是北京,不是中国。
本发明在分析土地流转信息的相似度时,重点考虑空间关系对地理要素的相似度的影响,并将这一部分作为影响文档与查询语句相似度的一个重要因素。其中地理要素相似度算法的基本思想是:获取查询语句和文档数据中的地理要素信息,根据行政区划编码判断地理要素间的空间关系,最后根据空间关系计算语义距离。
具体的分类情况和相似度取值如下表所示:
表1 行政区划编码与空间关系及相似度对应表
表2 disjoint关系中编码为同一级别时相似度列表
表3 disjoint关系中编码为不同级别时相似度列表
由于土地流转信息的内容共通性,每条流转信息一般都包括流转土地区域、流转方式、面积、价格、流转年限等多个说明条件,对不同的用户来说每个条件的比重不一样。综合考虑不同用户的关注点,地理位置信息在用户对土地的要求中是最为重要的部分,所占比重最大。在这种地理位置优先的排序模式中,词对网页的相关性与词出现的位置和出现的次数相关。这里,词出现的位置是指该词出现在流转信息的哪个属性说明中。比如,表示流转土地地理位置的字段权重比其它属性(面积、价格、年限等)大。如在“北京市平谷区养殖用地5亩。土地类型:农业用地>>耕地;流转性质:租赁;土地面积:15亩;使用权年限:47年;价格:面议”这条流转信息中,表示土地地理位置的“北京市平谷区”的权值要大于其它属性信息,具体的权值分配要通过大量的统计实验获得。而在每个流转信息属性字段中同一个词出现的次数越多,那么该词对这条信息的重要性越大,这点和原有的词频位置加 权算法原理是一样的。
文档间的综合相似度由两部分组成:文档语义相似度和地理要素相似度。文档语义相似度是指信息总体语义相似度,地理要素相似度是指信息中表示地理位置信息的词语间的空间位置相似度。文档语义相似度和地理要素相似度分别赋予一定的权值,最后文本信息的相似度计算公式如(3)所示:
sim=α×sim1+β×sim2 (3)
其中,α和β分别为文档语义相似度和地理要素相似度的权值,满足α+β=1,具体数值通过实验建模确定。通过收集数据实验得知,α=0.4,β=0.6时检索水平最佳,因此文本信息的相似度计算公式如(4)所示:
sim=0.4×sim1+0.6×sim2 (4)
最后,步骤110,服务器将按照上述相似度值排序的农用土地流转信息发送给用户。
本发明还涉及一种农用土地流转信息检索方法,其包括如下步骤:
客户端向服务器发送用户输入的检索条件;
服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息
服务器查找分词化检索条件中的所包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
服务器将该筛选后的分词化农用土地流转信息发送至客户端;
客户端据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵;
客户端计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1;
客户端将相似度sim1满足一定阙值的农用土地流转信息显示给客户。
该方法中的各步骤与上述方法类似,区别在于服务器将该筛选后的分词化农用土地流转信息发送至客户端,客户端再执行后续操作,该操作过程与上述各步骤类似,这里不再做详细描述。
本发明还涉及一种农用土地流转信息检索***,其如下模块:接收模块:用于接收自用户输入的检索条件。分词处理模块:用于对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息。地名匹配模块:用于查找分词化检索条件中的所包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息。信息筛选模块:用于根据该地名信息以及下 级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息。模型创建模块:用于根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵。相似度计算模块:用于计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1。信息发送模块:用于将相似度sim1满足一定阙值的农用土地流转信息发送给用户。
实施例:
本发明以土地流转行为较多的重庆长寿区信息为例,建立顾及地名匹配和地理要素相似度的土地流转信息检索***。流程包括:
收集土地流转信息,解析并存储到本地数据库中;
建立土地流转信息检索网站,网站中允许用户输入检索条件,本实例以“重庆长寿区土地信息”为例;
利用地名匹配技术和潜语义分析技术筛选信息;
利用地理要素相似度算法和词频位置加权算法计算文档相似度;
采用信息检索的精度评价标准中的查准率(Rprecision)、查准率(Rrecall)和F1调和平均值进行模型验证。
其中,查准率、查准率和F1的计算公式如下:
其中,R表示查全率,P表示查准率,CARL表示被检出相关文献量,TARL表示总文献中相关文献量,TCL表示被检出文献总量。F1值即查全率和查准率权重一样。一般情况下,C值(文本的相关系数)的阈值要大于或等于0.9,即当两个文本之间的C值大于等于0.9时才认为此两个文本是相似关系。但是当语义空间维数k大于三维时,可以做适当的调整。
通过实验,本发明的信息检索技术和传统关键词检索算法的对比结果如下所示:(表中以“/”分隔关键词检索算法和本发明算法)
表4 土地流转信息检索模型实验结果精度对比
样本相关系数 | R | P | F1 |
[0134]
C=0.1 | 0.7667/1.0000 | 0.3538/0.3409 | 0.4842/0.5085 |
C=0.2 | 0.4333/1.0000 | 0.4643/0.3409 | 0.4483/0.5085 |
C=0.3 | 0.2333/1.0000 | 0.5833/0.3409 | 0.3333/0.5085 |
C=0.4 | 0.0333/1.0000 | 1.0000/0.3409 | 0.0645/0.5085 |
C=0.5 | 0.0333/1.0000 | 1.0000/0.3448 | 0.0645/0.5182 |
C=0.6 | 0.0000/1.0000 | 0.0000/0.3797 | -/0.5505 |
C=0.7 | 0.0000/0.9667 | 0.0000/0.4028 | -/0.5686 |
C=0.8 | 0.0000/0.8000 | 0.0000/0.3871 | -/0.5217 |
C=0.9 | 0.0000/0.7000 | 0.0000/0.5250 | -/0.6000 |
表5 土地流转信息检索模型实验结果排序对比
由上述对比数据可知,加入本发明设计的算法后在保证查全率提高的同时,查准率受C值的影响,但是F1指标整体上明显优于关键词检索算法。且用户感兴趣的信息排在检索结果前面部分的数量明显增多,用户体验性更好。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不应将其理解为对本发明技术方案的限定,任何采用本发明的技术方案而仅作局部改变的,仍应落入本发明的保护范围内。
Claims (10)
1.一种农用土地流转信息检索方法,其特征在于包括如下步骤:
服务器接收用户输入的检索条件;
服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;
服务器查找分词化检索条件中的包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
服务器根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵;
服务器计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1;
服务器将相似度sim1满足一定阙值的农用土地流转信息发送给用户。
2.根据权利要求1所述的农用土地流转信息检索方法,其特征在于还包括步骤:
所述服务器得到词汇-文档矩阵后,对该词汇-文档矩阵进行潜语义分析操作,得到去噪后的词汇-文档矩阵,服务器根据该去噪后的词汇-文档矩阵计算分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度sim1。
3.根据权利要求2所述的农用土地流转信息检索方法,其特征在于:所述对词汇-文档矩阵进行潜语义分析操作包括如下步骤:
奇异值分解操作:该操作根据公式:X0=T0S0D0 T实现,其中:X0表示m×n阶矩阵,T0为m×m阶酉矩阵;S0为半正定m×n阶对角矩阵;D0为n×n阶酉矩阵,D0 T为D0的共轭转置;
选择S0中的前k个元素,取S0中k阶对角矩阵形成矩阵S、取T0中的k列形成矩阵T、取D0 T中相应的k行形成矩阵DT,从而形成优化后的矩阵TSDT,其中:若m>n,1<k<n,若m<n,1<k<m;
对优化后的矩阵进行奇异值逆分解操作:该操作根据公式:实现。
4.根据权利要求1所述的农用土地流转信息检索方法,其特征在于:所述地名匹配算法包括步骤:
a)将所述地名信息在基准行政区划数据库中进行匹配,找到该地名信息所对应的行政区划编码并存储;
b)根据该行政区划编码查找是否包含有下级行政区;
c)若有,则存储该行政区划代码并返回步骤b);
d)将所有存储的行政区划代码转换成对应的区域地名;以及
e)输出该区域地名信息。
5.根据权利要求1所述的农用土地流转信息检索方法,其特征在于还包括步骤:所述服务器将相似度sim1满足一定阙值的农用土地流转信息进行相似度值排序后,再将该农用土地流转信息发送给用户;
该相似度值根据公式:sim=α×sim1+β×sim2确定,其中α+β=1,sim2为地理要素相似度,其由分段公式:确定,其中,分段函数中的Code1为所述检索条件中的地名信息的行政区划编码,Code2为所述待检索的农用土地流转信息中地名信息的行政区划编码,n为Code1和Code2二者最小共有行政区划的级别数之和。
6.根据权利要求5所述的农用土地流转信息检索方法,其特征在于:所述α=0.4,β=0.6,所述sim1>0.9。
7.根据权利要求1所述的农用土地流转信息检索方法,其特征在于:所述相似度sim1由余弦值相似度算法获得,其公式定义为:
其中:Di,Ei为文本向量,n为Di,Ei的维数,C为文本相似度。
8.根据权利要求1所述的农用土地流转信息检索方法,其特征在于还包括步骤:所述服务器预先从网络上获取待检索的农用土地流转信息,并将该信息存储为txt格式或者MySQL数据库格式。
9.一种农用土地流转信息检索方法,其特征在于包括如下步骤:
客户端向服务器发送用户输入的检索条件;
服务器对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;
服务器查找分词化检索条件中的包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
服务器根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
服务器将该筛选后的分词化农用土地流转信息发送至客户端;
客户端据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵;
客户端计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度;
客户端将相似度满足一定阙值的农用土地流转信息显示给客户。
10.一种农用土地流转信息检索***,其特征在于包括如下模块:
接收模块:用于接收自用户输入的检索条件;
分词处理模块:用于对检索条件和待检索的农用土地流转信息进行分词处理,得到分词化检索条件和分词化农用土地流转信息;
地名匹配模块:用于查找分词化检索条件中的所包含的地名信息,并根据地名匹配算法找到各地名信息所包含的下级地名信息;
信息筛选模块:用于根据该地名信息以及下级地名信息对所述分词化农用土地流转信息进行筛选,得到筛选后的分词化农用土地流转信息;
模型创建模块:用于根据分词化检索条件和筛选后的分词化农用土地流转信息创建向量空间模型,得到词汇-文档矩阵;
相似度计算模块:用于计算该词汇-文档矩阵中的分词化检索条件与筛选后的分词化农用土地流转信息之间的相似度;
信息发送模块:用于将相似度满足一定阙值的农用土地流转信息发送给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410503602.9A CN104536957B (zh) | 2014-09-26 | 2014-09-26 | 农用土地流转信息检索方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410503602.9A CN104536957B (zh) | 2014-09-26 | 2014-09-26 | 农用土地流转信息检索方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104536957A true CN104536957A (zh) | 2015-04-22 |
CN104536957B CN104536957B (zh) | 2017-11-24 |
Family
ID=52852485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410503602.9A Active CN104536957B (zh) | 2014-09-26 | 2014-09-26 | 农用土地流转信息检索方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104536957B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933205A (zh) * | 2015-07-15 | 2015-09-23 | 太原理工大学 | 土地利用空间数据处理中基于地理本体的属性匹配方法 |
CN107103792A (zh) * | 2016-02-23 | 2017-08-29 | 常熟市灿烂教育科技有限公司 | 一种动画教学方法 |
CN107895285A (zh) * | 2017-11-11 | 2018-04-10 | 北京小子科技有限公司 | 一种互联网广告的流量匹配算法 |
CN108256125A (zh) * | 2018-02-26 | 2018-07-06 | 杭州数梦工场科技有限公司 | 基于行政区划的智能搜索方法、装置和搜索引擎 |
CN113034277A (zh) * | 2021-02-05 | 2021-06-25 | 武汉鑫土流网络科技有限公司 | 一种农用土地流转*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016571A1 (en) * | 2003-09-30 | 2007-01-18 | Behrad Assadian | Information retrieval |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN102156726A (zh) * | 2011-04-01 | 2011-08-17 | 中国测绘科学研究院 | 基于语义相似度的地理要素查询扩展方法 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
-
2014
- 2014-09-26 CN CN201410503602.9A patent/CN104536957B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016571A1 (en) * | 2003-09-30 | 2007-01-18 | Behrad Assadian | Information retrieval |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN102156726A (zh) * | 2011-04-01 | 2011-08-17 | 中国测绘科学研究院 | 基于语义相似度的地理要素查询扩展方法 |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
Non-Patent Citations (1)
Title |
---|
张东: "基于语义相似度的地理信息检索技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933205A (zh) * | 2015-07-15 | 2015-09-23 | 太原理工大学 | 土地利用空间数据处理中基于地理本体的属性匹配方法 |
CN107103792A (zh) * | 2016-02-23 | 2017-08-29 | 常熟市灿烂教育科技有限公司 | 一种动画教学方法 |
CN107895285A (zh) * | 2017-11-11 | 2018-04-10 | 北京小子科技有限公司 | 一种互联网广告的流量匹配算法 |
CN108256125A (zh) * | 2018-02-26 | 2018-07-06 | 杭州数梦工场科技有限公司 | 基于行政区划的智能搜索方法、装置和搜索引擎 |
CN113034277A (zh) * | 2021-02-05 | 2021-06-25 | 武汉鑫土流网络科技有限公司 | 一种农用土地流转*** |
Also Published As
Publication number | Publication date |
---|---|
CN104536957B (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101174273B (zh) | 基于元数据分析的新闻事件检测方法 | |
CN103186612B (zh) | 一种词汇分类的方法、***和实现方法 | |
CN102426610B (zh) | 微博搜索排名方法及微博搜索引擎 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐***及方法 | |
CN101409634B (zh) | 基于信息检索的互联网新闻影响力定量分析工具及方法 | |
CN105718579A (zh) | 一种基于上网日志挖掘和用户活动识别的信息推送方法 | |
CN104536957A (zh) | 农用土地流转信息检索方法和*** | |
CN104008171A (zh) | 一种法律数据库构建方法及法律检索服务方法 | |
CN104750713A (zh) | 一种对搜索结果进行排序的方法及装置 | |
CN103425687A (zh) | 一种基于关键词的检索方法和*** | |
CN104199938B (zh) | 基于rss的农用土地信息发送方法和*** | |
CN101647020A (zh) | 搜索结构化地理数据 | |
CN102880721B (zh) | 垂直搜索引擎的实现方法 | |
CN104008109A (zh) | 基于用户兴趣的Web信息推送服务*** | |
Hauff et al. | Placing images on the world map: a microblog-based enrichment approach | |
CN103268348A (zh) | 一种用户查询意图识别方法 | |
CN102456058A (zh) | 类目信息提供方法及装置 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
Neumaier et al. | Enabling spatio-temporal search in open data | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN104036051A (zh) | 一种基于标签传播的数据库模式摘要生成方法 | |
CN108959580A (zh) | 一种标签数据的优化方法及*** | |
CN100470549C (zh) | 一种表格定位的数据挖掘方法 | |
CN103020083A (zh) | 需求识别模板的自动挖掘方法、需求识别方法及对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |