CN106126719B - 信息处理方法及装置 - Google Patents

信息处理方法及装置 Download PDF

Info

Publication number
CN106126719B
CN106126719B CN201610512385.9A CN201610512385A CN106126719B CN 106126719 B CN106126719 B CN 106126719B CN 201610512385 A CN201610512385 A CN 201610512385A CN 106126719 B CN106126719 B CN 106126719B
Authority
CN
China
Prior art keywords
information
interest point
parameter
point information
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610512385.9A
Other languages
English (en)
Other versions
CN106126719A (zh
Inventor
黄盼华
郑宇�
孙丰岩
刘�东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610512385.9A priority Critical patent/CN106126719B/zh
Publication of CN106126719A publication Critical patent/CN106126719A/zh
Application granted granted Critical
Publication of CN106126719B publication Critical patent/CN106126719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种信息处理方法及装置。所述方法包括:获取待处理的兴趣点信息;所述兴趣点信息中包括名称、地址和电话;根据所述名称、所述地址和所述电话,获取所述兴趣点信息对应的兴趣点信息参数;根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性。通过采用本发明的上述实施例的技术方案,可以自动地对POI信息的真实性进行检测,处理过程较为客观公正,保证了处理结果的准确性;而且一次也可以处理无数条POI信息,处理速度较快,能够极大地提高信息处理的效率。

Description

信息处理方法及装置
【技术领域】
本发明涉及信息处理技术领域,尤其涉及一种信息处理方法及装置。
【背景技术】
随着经济的快速发展,各地面貌日新月异,地图以及各种线上到线下(Online ToOffline;O2O)应用中的兴趣点(Point of Interest;POI)信息的产生、采集、搜索和提交出现了***性的增长,POI信息的管理技术日益成为企业的核心竞争力。其中POI信息可以指的是商铺/店铺的信息,例如可以包括名称、地址、类别和电话信息等等。
为了提高整体的服务水平,及时更新周围环境的POI信息,通常在商户平台中,可以由用户自行上传商铺的一些列POI信息,譬如商铺/店铺的名称、地址、类别和电话信息等。为了提高服务水平,需要人工手动一一对用户提交的POI信息进行审核,否决掉开锁等存在法律风险的用户申请的POI信息,以及名称、地址、类别和电话信息等等中存在信息不一致的非真实POI信息;且也允许用户对未通过审核的信息进行多次编辑和提交。
现有的POI信息的审核方式,采用人工手动一一处理,在人工处理过程中,人工判断POI真实性的标准较为主观,且处理速度较慢,因此现有的POI信息的处理效率较低。
【发明内容】
本发明提供了一种信息处理方法及装置,用于提高POI信息处理效率。
本发明提供一种信息处理方法,所述方法包括:
获取待处理的兴趣点信息;所述兴趣点信息中包括名称、地址和电话;
根据所述名称、所述地址和所述电话,获取所述兴趣点信息对应的兴趣点信息参数;
根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性。
进一步可选地,如上所述的方法中,根据所述名称、所述地址和所述电话,获取所述兴趣点信息对应的兴趣点信息参数,具体包括:
获取所述名称对应的名称信息参数;
对所述地址进行完整性验证处理,对所述电话进行真实性验证处理;
根据所述地址和所述电话的验证处理结果、以及所述名称信息参数,获取所述兴趣点信息对应的所述兴趣点信息参数。
进一步可选地,如上所述的方法中,获取所述名称对应的名称信息参数,具体包括:
对所述名称进行分词处理,得到多个分词;
采用常用词库滤除所述多个分词中的常用词,得到多个非常用分词;
对所述多个非常用分词进行有效性检测,得到至少一个有效性分词;
根据所述至少一个有效性分词,获取所述名称对应的名称信息参数。
进一步可选地,如上所述的方法中,对所述多个非常用分词进行有效性检测,得到至少一个有效性分词,具体包括:
判断所述多个非常用分词中是否存在兴趣点词库中之外的词,当存在时,从所述多个非常用分词中去除所述兴趣点词库中之外的过滤词,剩下至少一个有效性分词;当不存在时,将各所述非常用分词作为所述有效性分词;
进一步地,根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性之后,所述方法还包括:
将所述过滤词加入所述兴趣点词库中。
进一步可选地,如上所述的方法中,根据所述至少一个有效性分词,获取所述名称对应的名称信息参数,具体包括:
根据所述兴趣点词库以及所述至少一个有效性分词中各所述有效性分词在所述兴趣点信息中出现的词频,生成所述兴趣点信息对应的第一信息参数;
将所述第一信息参数进行简化得到第二信息参数;
对所述第二信息参数进行相似度计算,得到所述名称信息参数;
其中所述第一信息参数、第二信息参数以及所述名称信息参数均采用矩阵形式标识。
进一步可选地,如上所述的方法中,对所述地址进行完整性验证处理,对所述电话进行真实性验证处理,具体包括:
判断所述地址中是否包括五级信息,若是,确定所述地址完整;否则所述地址不完整;
判断所述电话号码是否符合预设的格式,若是,确定所述电话真实,否则所述电话不真实。
进一步可选地,如上所述的方法中,根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性之前,还包括:
建立所述预设的模型参数;
进一步地,建立所述预设的模型参数,具体包括:
获取数条已核实的兴趣点信息;所述数条已核实的兴趣点信息中包括真实兴趣点信息和非真实兴趣点信息;
获取所述数条已核实的兴趣点信息对应的综合名称信息参数;
对所述数条已核实的兴趣点信息中的各所述已核实的兴趣点信息的地址和电话进行真实性验证处理;
根据所述地址和所述电话的验证处理结果、以及所述综合名称信息参数,获取所述数条已核实的兴趣点信息对应的综合兴趣点信息参数;
根据所述数条已核实的兴趣点信息对应的综合兴趣点信息参数以及各条所述已核实的兴趣点信息对应核实结果,生成所述预设的模型参数。
本发明提供一种信息处理装置,所述装置包括:
兴趣点信息获取模块,用于获取待处理的兴趣点信息;所述兴趣点信息中包括名称、地址和电话;
兴趣点信息参数获取模块,用于根据所述名称、所述地址和所述电话,获取所述兴趣点信息对应的兴趣点信息参数;
检测模块,用于根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性。
进一步可选地,如上所述的装置中,所述兴趣点信息参数获取模块,包括:
名称信息参数获取单元,用于获取所述名称对应的名称信息参数;
验证处理单元,用于对所述地址进行完整性验证处理,对所述电话进行真实性验证处理;
兴趣点信息参数获取单元,用于根据所述地址和所述电话的验证处理结果、以及所述名称信息参数,获取所述兴趣点信息对应的所述兴趣点信息参数。
进一步可选地,如上所述的装置中,所述名称信息参数获取单元,具体用于:
对所述名称进行分词处理,得到多个分词;
采用常用词库滤除所述多个分词中的常用词,得到多个非常用分词;
对所述多个非常用分词进行有效性检测,得到至少一个有效性分词;
根据所述至少一个有效性分词,获取所述名称对应的名称信息参数。
进一步可选地,如上所述的装置中,所述名称信息参数获取单元,具体用于:
判断所述多个非常用分词中是否存在兴趣点词库中之外的词,当存在时,从所述多个非常用分词中去除所述兴趣点词库中之外的过滤词,剩下至少一个有效性分词;当不存在时,将各所述非常用分词作为所述有效性分词;
进一步地,所述装置还包括:
加入模块,用于将所述过滤词加入所述兴趣点词库中。
进一步可选地,如上所述的装置中,所述名称信息参数获取单元,具体还用于:
根据所述兴趣点词库以及所述至少一个有效性分词中各所述有效性分词在所述兴趣点信息中出现的词频,生成所述兴趣点信息对应的第一信息参数;
将所述第一信息参数进行简化得到第二信息参数;
对所述第二信息参数进行相似度计算,得到所述名称信息参数;
其中所述第一信息参数、第二信息参数以及所述名称信息参数均采用矩阵形式标识。
进一步可选地,如上所述的装置中,所述验证处理单元,具体用于:
判断所述地址中是否包括五级信息,若是,确定所述地址完整;否则所述地址不完整;
判断所述电话号码是否符合预设的格式,若是,确定所述电话真实,否则所述电话不真实。
进一步可选地,如上所述的装置中,所述装置还包括:
建立模块,用于建立所述预设的模型参数;
进一步地,所述建立模块,具体用于:
获取数条已核实的兴趣点信息;所述数条已核实的兴趣点信息中包括真实兴趣点信息和非真实兴趣点信息;
获取所述数条已核实的兴趣点信息对应的综合名称信息参数;
对所述数条已核实的兴趣点信息中的各所述已核实的兴趣点信息的地址和电话进行真实性验证处理;
根据所述地址和所述电话的验证处理结果、以及所述综合名称信息参数,获取所述数条已核实的兴趣点信息对应的综合兴趣点信息参数;
根据所述数条已核实的兴趣点信息对应的综合兴趣点信息参数以及各条所述已核实的兴趣点信息对应核实结果,生成所述预设的模型参数。
本发明的信息处理方法及装置,通过采用上述实施例的技术方案,可以避免现有技术中采用人工手动的方式一一处理,而且处理过程较为主观、处理效率较低的缺陷;因此,采用本发明的技术方案,可以自动地对POI信息的真实性进行检测,处理过程较为客观公正,保证了处理结果的准确性;而且一次也可以处理无数条POI信息,处理速度较快,能够极大地提高信息处理的效率。
【附图说明】
图1为本发明的信息处理方法实施例的流程图。
图2为本发明的信息处理装置实施例一的结构图。
图3本发明的信息处理装置实施例二的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的信息处理方法实施例一的流程图。如图1所示,本实施例的信息处理方法,具体可以包括如下步骤:
100、获取待处理的POI信息;
本实施例中的POI信息中包括名称、地址和电话;例如具体可以为商铺或店铺的名称,所在的地址以及可以联系的电话号码,实际应用中,该POI信息还可以包括其他参数。如服务类别等等,服务类别主要指的是餐饮、KTV或者诊所等等服务的分类。该待处理的POI信息可以为商户通过商户的平台上传的POI信息,该POI信息未经过真实性审核处理。
101、根据名称、地址和电话,获取POI信息对应的POI信息参数;
根据本实施的POI信息的名称、地址和电话,可以获取用于唯一标识该POI的特征信息的POI信息参数,例如该POI信息参数可以为一维矩阵,矩阵的列数可以由待处理的POI信息的名称、地址和电话来共同确定。
102、根据POI信息参数和预设的模型参数,检测POI信息的真实性。
本实施例的预设的模型参数可以通过大量的已核实的POI信息来确定,这样,可以保证预设的模型参数的真实性。由于预设的模型参数是根据已核实的POI信息确定的,因此,该预设的模型参数可以更加客观真实地识别POI信息的真实性。
进一步可选地,本实施例的信息处理方法中,步骤101,具体可以包括如下步骤(a1)-(a3):
(a1)获取名称对应的名称信息参数;
根据本实施例提供的POI信息中的名称,获取名称对应的用于唯一标识名称特性的名称信息参数,例如该名称信息参数可以采用矩阵来表示。
(a2)对地址进行完整性验证处理,对电话进行真实性验证处理;
例如,该步骤具体可以包括如下步骤:
判断地址中是否包括五级信息,若是,确定地址完整;否则地址不完整;
以及判断电话号码是否符合预设的格式,若是,确定电话真实,否则电话不真实。
具体地,实际应用中,如果是直辖市,则对应的地址可以仅包括四级信息,即:市、区(县)、街道(乡镇)、门牌号。如果该地址对应的城市为非直辖市,那么该地址包括的信息必须为五级信息,即:省、市、区(县)、街道(乡镇)、门牌号,这样才可以保证地址的完整度,否则如果缺少其中一级,该兴趣点均由可能都是无法准确定位。当地址对应的城市为直辖市时,地址包括四级信息即认为地址真是,否则地址不完整。而当地址对应的城市为直辖市,地址包括五级信息即认为地址真是,否则地址不完整。为了保证信息的准确性,本实施例的方法的更广的适用性,本实施例中以地址中包括五级信息为例,实际应用中,若是按照城市来区分,对于直辖市对应的处理方式也可以将地址设置成为四级信息。具体地,可以对每一级进行识别,确定每一级信息是否完整。
电话号码预设的格式可以包手机号码格式、座机号码格式以及预设服务电话格式。例如手机预设为11位,座机预设为区号3到4位区号加7-8位电话号码;或者预设的服务电话格式可以为400或者800开头的10位数字组成的电话号码。或者预设的服务电话号码还可以为五位数字构成的特殊的服务电话等等。当判断POI信息中的电话号码符合其中某一个预设的格式,则认为该电话为真实,否则认为该电话为非真实。
(a3)根据地址和电话的验证处理结果、以及名称信息参数,获取POI信息对应的POI信息参数。
进一步可选地,其中的步骤(a1),具体可以包括如下步骤:
(b1)对名称进行分词处理,得到多个分词;
(b2)采用常用词库滤除多个分词中的常用词,得到多个非常用分词;
(b3)对多个非常用分词进行有效性检测,得到至少一个有效性分词;
(b4)根据至少一个有效性分词,获取名称对应的名称信息参数。
本实施例的分词处理,主要针对名称按照词进行拆分,例如下述表1为3条POI信息具体可以为“独一味万州烤鱼(簋街新店)”、“双流滋滋万州烤鱼旗舰店(白依小区)”以及“万州科园路小区KTV”,对3条POI信息的多个分词采用常用词库进行常用词过滤处理。例如本实施的常用词库可以为用户在使用中使用概率非常高的一些词,如“地、的”之类的词以及一些对POI信息的真实性验证没有贡献的地名。如下述表1所示,第一条POI信息的名称“独一味万州烤鱼(簋街新店)”分词以后得到“一味;簋街;新店;烤鱼;万州”,在采用常用词库滤除常用词“簋街以及万州”之后,得到非常用分词为“一味;新店;烤鱼”。对于第二条POI信息的名称“双流滋滋万州烤鱼旗舰店(白依小区)”,分词以后得到“白依;滋滋;烤鱼;小区;旗舰店;万州”,在采用常用词库滤除常用词“万州”之后,得到非常用分词为“白依;滋滋;烤鱼;小区;旗舰店”。对于第三条POI信息的名称“万州科园路小区KTV”,在采用常用词库滤除常用词“万州”之后,得到非常用分词为“科园;小区;KTV”。此处以三条POI信息为例,实际应用可以按照类似的方式处理多条POI信息,且可以定期更新常用词库,将一些非常常见的,且对POI信息的真实性验证没有贡献的词加入常用词库中。
表1
本实施例中,经过前期的POI信息处理,生成包括词的数量较多的POI词库,POI词库中包括对各个测试的POI信息的名称进行分词后,滤除常用词之后剩下的词都放入POI词库中,在检测POI信息的真实性的时候,要利用该POI词库进行处理。例如,其中的步骤(b3),具体可以包括:判断多个非常用分词中是否存在POI词库中之外的词,当存在时,从多个非常用分词中去除POI词库中之外的过滤词,剩下至少一个有效性分词;当不存在时,将各非常用分词作为有效性分词;此时对应地,步骤102之后,还可以包括:将过滤词加入POI词库中。
如果非常用分词不属于POI词库的时候,该非常用分词无法融入名称对应的名称信息参数。因此,判断每一个非常用分词是否属于POI词库,如果不属于,该非常用分词为将作为过滤词,从至少一个非常用分词中过滤掉,得到至少一个有效性分词。并且在根据POI信息参数和预设的模型参数,检测POI信息的真实性之后,再将该过滤词加入该POI词库。
进一步可选地,其中的步骤(b4),具体可以包括:
(c1)根据POI词库以及至少一个有效性分词中各有效性分词在POI信息中出现的词频,生成POI信息对应的第一信息参数;
(c2)将第一信息参数进行简化得到第二信息参数;
(c3)对第二信息参数进行相似度计算,得到名称信息参数;
其中第一信息参数、第二信息参数以及名称信息参数均采用矩阵形式标识。
例如,对于各有效性分词,确定该有效性分词在该POI信息中出现的词频,得到该POI信息对应的第一信息参数A1,该第一信息参数A1为矩阵的形式,A1为1行n列的矩阵,其中n等于POI词库中包括的词的数量。A1元素采用A11j表示,即A11j的的每一列的元素与POI词库中一个词对应,其中1≤j≤n。当前POI信息的有效性分词在POI词库中有对应的词,则在A11j中该词对应的位置有对应的数值,否则该词对应的位置的值为0;当在A11j有对应数值时,A11j的值等于该位置对应的有效性分词以及该有效性分词在该待处理的POI信息中出现的词频,且该有效性分词和词频采用key-Value对的形式存储。例如对于POI信息为“独一味万州烤鱼(簋街新店)”的至少一个有效性分词包括“一味;新店;烤鱼”,当“一味;新店;烤鱼”分别为POI词库中的第5各、第30个和第58个词时,对应的A11,5值可以表示为[一味,1];A11,30可以表示为[新店,1],对应的A11,58值可以表示为[烤鱼,1],其它位置可以均为0;然后将该第一信息参数对应的矩阵A1简化为第二信息参数的矩阵B1,第二信息参数的矩阵B1,具体将第一信息参数对应的矩阵A1中的各个位置的词频抽取出来得出。例如,第二信息参数的矩阵B1中的每一个元素B11j表示对应位置的词W1n的词频f11n,例如,对应上述第一条POI信息以及对应的第一信息参数对应的矩阵A1,得到的第二信息参数对应的矩阵B1中B11,5、B11,30和B11,58均为1,其它位置为0。
然后将待处理的POI信息的名称对应的第二信息矩阵计算相似度值,得到名称信息参数对应的矩阵S1。具体地相似度计算方法可以表示为:
上述实施例中以一条待处理的POI信息为了描述本发明的技术方案,所以对应的第一信息参数对应的矩阵A1、第二信息参数对应的矩阵B1以及名称信息参数对应的矩阵S1,均为一维矩阵。实际应用中,可以同时对多条待处理的POI信息进行处理,此时对应的第一信息参数对应的矩阵A1、第二信息参数对应的矩阵B1以及名称信息参数对应的矩阵S1,均为多维,具体的纬数等于POI信息的条数。
此时对应地,步骤(a3)根据地址和电话的验证处理结果、以及名称信息参数,获取POI信息对应的POI信息参数,具体可以为:根据名称信息参数,以及地址和电话的验证处理结果,生成POI信息对应的POI信息参数。对应的POI信息参数也可以采用对应的矩阵形式。具体地,可以在名称信息参数对应的矩阵中增加地址的验证处理结果标识和电话的验证处理结果标识。具体地,由于地址包括五级,对于每一级进行验证,判断该级是否有信息,若有,将该级设置为1,否则设置为0。本实施例中暂不对五级地址信息的内容进行验证,只要每一级存在内容即可以认为该级信息是完整的、真实的。当电话的验证处理结果为真实时,对应的标识为1,否则对应的标识为0。因此,可以在名称信息参数对应的矩阵之后增加6列,前5列标识地址的完整性标识,第6列为电话的真实性标识。
最后将得到的POI信息参数和预设的模型参数相乘,具体地,预设的模型参数也为矩阵形式,POI信息参数对应的矩阵的列数等于预设的模型参数的对应的矩阵的行数,以使得两个矩阵满足相乘的条件。当POI信息参数和预设的模型参数相乘得到的结果大于或等于预设阈值如0.5时,可以认为该POI信息为真实POI信息;否则当该POI信息参数和预设的模型参数相乘得到的结果小于预设阈值如小于0.5,可以认为该POI信息为非真实POI信息。实际应用中该预设阈值还可以根据实际经验选取其他数值。
进一步可选地,本实施例的信息处理方法,在步骤102之前,本实施例的信息处理方法,具体可以包括:建立预设的模型参数。
进一步可选地,该建立预设的模型参数,具体可以包括:
(d1)获取数条已核实的POI信息;数条已核实的POI信息中包括真实POI信息和非真实POI信息;
(d2)获取数条已核实的POI信息对应的综合名称信息参数;
(d3)对数条已核实的POI信息中的各已核实的POI信息的地址和电话进行真实性验证处理;
(d4)根据地址和电话的验证处理结果、以及综合名称信息参数,获取数条已核实的POI信息对应的综合POI信息参数;
(d5)根据数条已核实的POI信息对应的综合POI信息参数以及各条已核实的POI信息对应核实结果,生成预设的模型参数。
本实施例中的步骤(d1)-(d4)的处理,具体可以参考上述实施例中的步骤(b1)-(b4)以及(c1)-(c3),其实现原理相似,详细可以参考上述实施例的记载。区别在于:在生成预设的模型参数的过程中,参考的已核实的POI信息为多条,而在对待处理的POI信息进行真实性检测处理时,待处理的POI信息为一条。
例如,获取数条已核实的POI信息,具体可以为POI信息集合M,把名称、地址和电话作为基础输入信息;该POI信息集合M可以采用上述表1的形式。然后对POI信息集合中的每一个POI信息的名称进行分词,然后使用常用词库过滤掉分词结果中的常用词;然后还需要对地址进行语义分析,按照省、市、区(县)、街道(乡镇)、门牌号五级,确定地址的完整度,并以1/0标识;最后再对电话信息进行格式检查,按照是否满足预设的号码格式二值化为1/0。
本实施例的POI信息集合M也可以采用上述表1的形式。具体地,把所有POI的分词结果集合N作为输入,得到|M|*|N|维的信息矩阵A,|M|为POI信息集合M所包括的POI信息的条数,|N|为分词结果集合N中所包括的词的数量加1,其中所加的1列用于存放POI信息。分词后的所有词集合W,|W|为分词结果集合W中所包括的词的数量。
信息矩阵的元素Aij(1≤i≤|M|,1≤j≤|N|)保存词和词频信息,然后把信息矩阵A转换为信息矩阵B,矩阵的元素Bik(1≤i≤|M|,1≤k≤|W|)是对应词Wi的词频fik,对所有POI的信息计算相似度值,得到信息矩阵S,Sij(1≤i≤|M|,1≤j≤|W|),相似度计算方法:
结合信息矩阵S和地址、电话的处理结果,得到综合名称信息参数对应的信息矩阵X,矩阵的元素Xij(1≤i≤|M|,1≤j≤|W|+6),其中加6即表示增加了地址的完整性标识和电话的真实性标识。
最后,综合名称信息参数对应的信息矩阵X,按照各条POI信息对应的审核结果是否通过进行1/0二值化处理作为输出向量Y′,建立机器学习的回归模型,得到模型参数P,模型参数P对应的也为一个矩阵。具体地,输出向量Y′(n′×1)中某一行输出为0,表示对应的POI信息为非真实,POI信息为1表示对应的POI信息为真实。即矩阵X*P=Y′,那么综合名称信息参数对应的信息矩阵X和输出向量Y′已知的话,那么可以计算出该模型参数P,即得到预设的模型参数。
进一步地,利用上述的预设的模型参数验证每一条待处理的POI信息的真实性时,如果该POI信息为非真实的,可以根据验证的POI信息的地址的完整性处理结果或者电话的真实性处理结果,输出非真实的原因,以及时指导商户进行修改。
实际应用中,上述实施例中生成的预设的模型参数生成之后也不是一成不变的。可以周期性地对预设的模型参数进行修改。例如经过一段时间使用,将一大批已经审核通过的POI信息来按照上述方式进行处理,以更新预设的模型参数。或者为了提高信息处理效率,还可以将一大批已经审核通过的POI信息和一批未审核通过的POI信息一起来按照上述方式进行处理,在得到综合名称信息参数对应的信息矩阵X之后,从信息矩阵X中筛选出已经有审核结果的POI信息作为输入矩阵X′,此时对应的X′*P=Y′,从而可以根据输入矩阵X′更新预设的模型参数;然后可以直接根据(X-X′)*P=Y′,直接可以根据得到的Y′中的每一行的数值,确定对应的POI信息是否真实,当该数值大于或者等于预设阈值即为真实,否则当该数值小于预设至于即为非真实;其中(X-X′)为信息矩阵X中抽取输入矩阵X′之后剩下的矩阵。
本实施例的信息处理方法,通过采用上述实施例的技术方案,可以避免现有技术中采用人工手动的方式一一处理,而且处理过程较为主观、处理效率较低的缺陷;因此,采用本实施例的信息处理方式,可以自动地对POI信息的真实性进行检测,处理过程较为客观公正,保证了处理结果的准确性;而且一次也可以处理无数条POI信息,处理速度较快,能够极大地提高信息处理的效率。
图2为本发明的信息处理装置实施例一的结构图。如图2所示,本实施例的信息处理装置,具体可以包括:POI信息获取模块10、POI信息参数获取模块11和检测模块12。
其中POI信息获取模块10用于获取待处理的POI信息;POI信息中包括名称、地址和电话;POI信息参数获取模块11用于根据POI信息获取模块10获取的POI信息的名称、地址和电话,获取POI信息对应的POI信息参数;检测模块12用于根据预设的模型参数POI信息参数和获取模块11获取的POI信息参数,检测POI信息的真实性。
本实施例的信息处理装置,通过采用上述模块实现信息处理的实现原理以及技术效果与上述相关方法实施例的相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图3本发明的信息处理装置实施例二的结构图。如图3所示,本实施例的信息处理装置,在上述图2所示实施例的技术方案的技术上,进一步更加详细地介绍本发明的技术方案。
如图3所示,本实施例的POI信息参数获取模块11,包括:名称信息参数获取单元111、验证处理单元112和POI信息参数获取单元113。
其中名称信息参数获取单元111用于根据POI信息获取模块10获取的POI信息,获取POI信息的名称对应的名称信息参数;验证处理单元112用于对POI信息获取模块10获取的POI信息的地址进行完整性验证处理,对电话进行真实性验证处理;POI信息参数获取单元113用于根据验证处理单元112处理的地址和电话的验证处理结果、以及名称信息参数获取单元111获取的名称信息参数,获取POI信息对应的POI信息参数。
进一步可选地,本实施例的信息处理装置中,名称信息参数获取单元111具体用于:
对名称进行分词处理,得到多个分词;
采用常用词库滤除多个分词中的常用词,得到多个非常用分词;
对多个非常用分词进行有效性检测,得到至少一个有效性分词;
根据至少一个有效性分词,获取名称对应的名称信息参数。
进一步可选地,本实施例的信息处理装置中,名称信息参数获取单元111具体用于判断多个非常用分词中是否存在POI词库中之外的词,当存在时,从多个非常用分词中去除POI词库中之外的过滤词,剩下至少一个有效性分词;当不存在时,将各非常用分词作为有效性分词;
进一步可选地,如图3所示,本实施例的信息处理装置还包括:加入模块13。该加入模块13用于将名称信息参数获取单元111处理中得到的过滤词加入POI词库中。
进一步可选地,本实施例的信息处理装置中,名称信息参数获取单元111具体用于:
根据POI词库以及至少一个有效性分词中各有效性分词在POI信息中出现的词频,生成POI信息对应的第一信息参数;
将第一信息参数进行简化得到第二信息参数;
对第二信息参数进行相似度计算,得到名称信息参数;
其中第一信息参数、第二信息参数以及名称信息参数均采用矩阵形式标识。
进一步可选地,本实施例的信息处理装置中,验证处理单元112具体用于:
判断地址中是否包括五级信息,若是,确定地址完整;否则地址不完整;
判断电话号码是否符合预设的格式,若是,确定电话真实,否则电话不真实。
进一步可选地,如图3所示,本实施例的信息处理装置还包括:建立模块14。该建立模块14用于建立预设的模型参数。
进一步可选地,建立模块14具体用于:
获取数条已核实的POI信息;数条已核实的POI信息中包括真实POI信息和非真实POI信息;
获取数条已核实的POI信息对应的综合名称信息参数;
对数条已核实的POI信息中的各已核实的POI信息的地址和电话进行真实性验证处理;
根据地址和电话的验证处理结果、以及综合名称信息参数,获取数条已核实的POI信息对应的综合POI信息参数;
根据数条已核实的POI信息对应的综合POI信息参数以及各条已核实的POI信息对应核实结果,生成预设的模型参数。
此时对应地,检测模块12与建立模块14连接,检测模块12用于根据建立模块14建立的预设的模型参数POI信息参数和获取模块11获取的POI信息参数,检测POI信息的真实性。
本实施例的信息处理装置,通过采用上述模块实现信息处理的实现原理以及技术效果与上述相关方法实施例的相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
获取待处理的兴趣点信息;所述兴趣点信息中包括名称、地址和电话;
对所述名称进行分词处理,得到多个分词;采用常用词库滤除所述多个分词中的常用词,得到多个非常用分词;对所述多个非常用分词进行有效性检测,得到至少一个有效性分词;根据所述至少一个有效性分词,获取所述名称对应的名称信息参数;对所述地址进行完整性验证处理,对所述电话进行真实性验证处理;根据所述地址和所述电话的验证处理结果、以及所述名称信息参数,获取所述兴趣点信息对应的所述兴趣点信息参数;
根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性。
2.根据权利要求1所述的方法,其特征在于,对所述多个非常用分词进行有效性检测,得到至少一个有效性分词,具体包括:
判断所述多个非常用分词中是否存在兴趣点词库中之外的词,当存在时,从所述多个非常用分词中去除所述兴趣点词库中之外的过滤词,剩下至少一个有效性分词;当不存在时,将各所述非常用分词作为所述有效性分词;
进一步地,根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性之后,所述方法还包括:
将所述过滤词加入所述兴趣点词库中。
3.根据权利要求1所述的方法,其特征在于,根据所述至少一个有效性分词,获取所述名称对应的名称信息参数,具体包括:
根据所述兴趣点词库以及所述至少一个有效性分词中各所述有效性分词在所述兴趣点信息中出现的词频,生成所述兴趣点信息对应的第一信息参数;
将所述第一信息参数进行简化得到第二信息参数;
对所述第二信息参数进行相似度计算,得到所述名称信息参数;
其中所述第一信息参数、第二信息参数以及所述名称信息参数均采用矩阵形式标识。
4.根据权利要求1所述的方法,其特征在于,对所述地址进行完整性验证处理,对所述电话进行真实性验证处理,具体包括:
判断所述地址中是否包括五级信息,若是,确定所述地址完整;否则所述地址不完整;
判断所述电话号码是否符合预设的格式,若是,确定所述电话真实,否则所述电话不真实。
5.根据权利要求1-4任一所述的方法,其特征在于,根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性之前,所述方法还包括:
建立所述预设的模型参数;
进一步地,建立所述预设的模型参数,具体包括:
获取数条已核实的兴趣点信息;所述数条已核实的兴趣点信息中包括真实兴趣点信息和非真实兴趣点信息;
获取所述数条已核实的兴趣点信息对应的综合名称信息参数;
对所述数条已核实的兴趣点信息中的各所述已核实的兴趣点信息的地址和电话进行真实性验证处理;
根据所述地址和所述电话的验证处理结果、以及所述综合名称信息参数,获取所述数条已核实的兴趣点信息对应的综合兴趣点信息参数;
根据所述数条已核实的兴趣点信息对应的综合兴趣点信息参数以及各条所述已核实的兴趣点信息对应核实结果,生成所述预设的模型参数。
6.一种信息处理装置,其特征在于,所述装置包括:
兴趣点信息获取模块,用于获取待处理的兴趣点信息;所述兴趣点信息中包括名称、地址和电话;
兴趣点信息参数获取模块,包括名称信息参数获取单元,用于对所述名称进行分词处理,得到多个分词;采用常用词库滤除所述多个分词中的常用词,得到多个非常用分词;对所述多个非常用分词进行有效性检测,得到至少一个有效性分词;根据所述至少一个有效性分词,获取所述名称对应的名称信息参数;验证处理单元,用于对所述地址进行完整性验证处理,对所述电话进行真实性验证处理;兴趣点信息参数获取单元,用于根据所述地址和所述电话的验证处理结果、以及所述名称信息参数,获取所述兴趣点信息对应的所述兴趣点信息参数;
检测模块,用于根据所述兴趣点信息参数和预设的模型参数,检测所述兴趣点信息的真实性。
7.根据权利要求6所述的装置,其特征在于,所述名称信息参数获取单元,具体用于:
判断所述多个非常用分词中是否存在兴趣点词库中之外的词,当存在时,从所述多个非常用分词中去除所述兴趣点词库中之外的过滤词,剩下至少一个有效性分词;当不存在时,将各所述非常用分词作为所述有效性分词;
进一步地,所述装置还包括:
加入模块,用于将所述过滤词加入所述兴趣点词库中。
8.根据权利要求6所述的装置,其特征在于,所述名称信息参数获取单元,具体还用于:
根据所述兴趣点词库以及所述至少一个有效性分词中各所述有效性分词在所述兴趣点信息中出现的词频,生成所述兴趣点信息对应的第一信息参数;
将所述第一信息参数进行简化得到第二信息参数;
对所述第二信息参数进行相似度计算,得到所述名称信息参数;
其中所述第一信息参数、第二信息参数以及所述名称信息参数均采用矩阵形式标识。
9.根据权利要求6所述的装置,其特征在于,所述验证处理单元,具体用于:
判断所述地址中是否包括五级信息,若是,确定所述地址完整;否则所述地址不完整;
判断所述电话号码是否符合预设的格式,若是,确定所述电话真实,否则所述电话不真实。
10.根据权利要求6-9任一所述的装置,其特征在于,所述装置还包括:
建立模块,用于建立所述预设的模型参数;
进一步地,所述建立模块,具体用于:
获取数条已核实的兴趣点信息;所述数条已核实的兴趣点信息中包括真实兴趣点信息和非真实兴趣点信息;
获取所述数条已核实的兴趣点信息对应的综合名称信息参数;
对所述数条已核实的兴趣点信息中的各所述已核实的兴趣点信息的地址和电话进行真实性验证处理;
根据所述地址和所述电话的验证处理结果、以及所述综合名称信息参数,获取所述数条已核实的兴趣点信息对应的综合兴趣点信息参数;
根据所述数条已核实的兴趣点信息对应的综合兴趣点信息参数以及各条所述已核实的兴趣点信息对应核实结果,生成所述预设的模型参数。
CN201610512385.9A 2016-06-30 2016-06-30 信息处理方法及装置 Active CN106126719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610512385.9A CN106126719B (zh) 2016-06-30 2016-06-30 信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610512385.9A CN106126719B (zh) 2016-06-30 2016-06-30 信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN106126719A CN106126719A (zh) 2016-11-16
CN106126719B true CN106126719B (zh) 2019-11-26

Family

ID=57468993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610512385.9A Active CN106126719B (zh) 2016-06-30 2016-06-30 信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN106126719B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304423B (zh) * 2017-03-29 2021-09-28 腾讯科技(深圳)有限公司 一种信息识别方法及装置
CN107766417A (zh) * 2017-09-08 2018-03-06 百度在线网络技术(北京)有限公司 一种用于提交poi数据的方法与设备
CN107704589B (zh) * 2017-09-30 2020-11-20 百度在线网络技术(北京)有限公司 基于运单的兴趣点失效挖掘方法、装置、服务器及介质
CN108182282A (zh) * 2018-01-26 2018-06-19 智慧足迹数据科技有限公司 地址真实性验证方法、装置及电子设备
CN109522335B (zh) * 2018-09-19 2021-10-22 北京明略软件***有限公司 一种信息获取方法、装置及计算机可读存储介质
CN109325091B (zh) * 2018-10-30 2021-02-19 百度在线网络技术(北京)有限公司 兴趣点属性信息的更新方法、装置、设备及介质
CN111382138B (zh) * 2018-12-27 2023-04-07 ***通信集团辽宁有限公司 Poi数据处理方法、装置、设备及介质
CN110990728B (zh) * 2019-12-03 2023-09-12 汉海信息技术(上海)有限公司 兴趣点信息的管理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751396A (zh) * 2008-11-28 2010-06-23 张政 一种兴趣点信息加工处理***
CN104346467A (zh) * 2014-11-14 2015-02-11 北京百度网讯科技有限公司 地理信息校验方法、相关装置及相应的数据库
CN104484790A (zh) * 2014-12-26 2015-04-01 清华大学深圳研究生院 一种物流业务的地址匹配方法及装置
CN105095387A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 基于用户评论信息的poi数据采集方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751396A (zh) * 2008-11-28 2010-06-23 张政 一种兴趣点信息加工处理***
CN104346467A (zh) * 2014-11-14 2015-02-11 北京百度网讯科技有限公司 地理信息校验方法、相关装置及相应的数据库
CN104484790A (zh) * 2014-12-26 2015-04-01 清华大学深圳研究生院 一种物流业务的地址匹配方法及装置
CN105095387A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 基于用户评论信息的poi数据采集方法及装置

Also Published As

Publication number Publication date
CN106126719A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106126719B (zh) 信息处理方法及装置
CN109766872B (zh) 图像识别方法和装置
CN107545245A (zh) 一种年龄估计方法及设备
CN112434742B (zh) 一种识别以太坊上庞氏骗局的方法、***及设备
CN106384282A (zh) 构建决策模型的方法和装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和***
CN106527757A (zh) 一种输入纠错方法及装置
CN112700325A (zh) 一种基于Stacking集成学习的网贷回头客预测的方法
CN110287806A (zh) 一种基于改进ssd网络的交通标志识别方法
CN111709775A (zh) 一种房产价格评估方法、装置、电子设备及存储介质
CN108509939A (zh) 一种基于深度学习的鸟类识别方法
CN115545086B (zh) 一种可迁移的特征自动选取声学诊断方法及***
CN109145108A (zh) 文本层叠分类器训练方法、分类方法、装置及计算机设备
CN107491447A (zh) 建立查询改写判别模型、查询改写判别的方法和对应装置
CN116699096B (zh) 一种基于深度学习的水质检测方法和***
CN107818175B (zh) 一种基于裁判文书的法律类案问题分析方法及装置
CN108229505A (zh) 基于fisher多级字典学习的图像分类方法
CN107766560A (zh) 客服服务流程的评价方法和***
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
Rusak et al. Imagenet-d: A new challenging robustness dataset inspired by domain adaptation
CN106780258A (zh) 一种未成年人犯罪决策树的建立方法及装置
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN113379685A (zh) 一种基于双通道特征比对模型的pcb板缺陷检测方法及装置
CN104978395B (zh) 视觉词典构建及应用方法和装置
CN116579861A (zh) 基于新型特征优化算法的车险诈骗识别方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant