CN106294433B - 设备信息处理方法及装置 - Google Patents
设备信息处理方法及装置 Download PDFInfo
- Publication number
- CN106294433B CN106294433B CN201510276430.0A CN201510276430A CN106294433B CN 106294433 B CN106294433 B CN 106294433B CN 201510276430 A CN201510276430 A CN 201510276430A CN 106294433 B CN106294433 B CN 106294433B
- Authority
- CN
- China
- Prior art keywords
- information
- input text
- information base
- base
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种设备信息处理方法,包括:在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;将所述待处理的设备信息拼接到搜索引擎的URL地址中;通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。本发明还公开一种设备信息处理装置。本发明使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
Description
技术领域
本发明涉及到数据处理技术领域,特别涉及到设备信息处理方法及装置。
背景技术
随着终端技术的不断发展,越来越多的终端进入人们的日常生活和工作中,且伴随着终端的增多,终端的品牌、机型和***也在增多。以Android***为例,Android平台的开放性,使得Android平台在经由刷机、ROOT等人为操作后,终端的硬件参数变得无法获取,或者获取到的是人为修改的信息,五花八门,没有标准。
目前采集终端硬件信息一般通过智能手机API接口,采样收集硬件信息,除样本量不足外,还会因脱离了用户使用的实际场景,无法覆盖到各种实际过程中复杂的真实硬件环境(如刷机、root等),导致收集的硬件数据的准确性和覆盖度都不高;机型获取方式主要是通过采用人工收集和维护机型信息,收集到的机型信息无法与终端采集的信息进行直接匹配使用,也导致可用性极低。
综上,现有方式下获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低。
发明内容
本发明实施例提供一种设备信息处理方法及装置,旨在解决的现有方式下获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低问题。
为实现上述目的,本发明实施例提出一种设备信息处理方法,包括:
在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
将所述待处理的设备信息拼接到搜索引擎的URL地址中;
通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;
在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
为了实现上述目的,本发明实施例还进一步提出一种设备信息处理装置,包括:
读取模块,用于在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
拼接模块,用于将所述待处理的设备信息拼接到搜索引擎的URL地址中;
获取模块,用于通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本;
比对模块,用于将所述输入文本与所述第二信息库的输入文本比对;
关联模块,用于在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
本发明通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
附图说明
图1为本发明实施例设备信息获取装置所涉及的硬件架构示意图;
图2为本发明设备信息获取方法的第一实施例的流程示意图;
图3为本发明将所述输入文本与所述第二信息库的输入文本比对一实施例的流程示意图;
图4为本发明设备信息获取方法的第二实施例的流程示意图;
图5为本发明灯塔机能库一实施例的整体架构图;
图6为本发明数据处理部分一实施例的整体设计框架图;
图7为本发明数据处理部分一实施例的流程示意图;
图8为本发明分词结果处理和优化测试一实施例的示意图;
图9为本发明归类后用作统计的品牌归类结果一实施例的示意图;
图10为本发明归类后用作统计的机型归类结果一实施例的示意图;
图11为本发明设备信息获取装置的第一实施例的功能模块示意图;
图12为图11中比对模块第一实施例的细化功能模块示意图;
图13为本发明设备信息获取装置的第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;将所述待处理的设备信息拼接到搜索引擎的URL地址中;通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。通过将搜索引擎获取的设备信息自动化,词语描述建立起予以转换对应关系,实现品牌、机型字段的语义规整,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
由于现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题。
本发明实施例架构一设备信息获取装置,该设备信息获取装置通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
其中,本实施例设备信息获取装置可以承载于PC端,也可以承载于手机、平板电脑等可以获取和查询设备信息的电子终端。该设备信息获取装置所涉及的硬件架构可以如图1所示。
图1示出了本发明实施例设备信息获取装置所涉及的硬件架构。如图1所示,所述设备信息获取装置所涉及的硬件包括:处理器301,例如CPU,网络接口304,用户接口303,存储器305,通信总线302。其中,通信总线302用于实现该信息推送平台中各组成部件之间的连接通信。用户接口303可以包括显示屏(Display)、键盘(Keyboard)、鼠标等组件,用于接收用户输入的信息,并将接收的信息发送至处理器305进行处理。显示屏可以为LCD显示屏、LED显示屏,也可以为触摸屏,用于显示设备信息获取装置需要显示的数据,例如显示设备信息查询、设备信息获取等操作界面。可选用户接口303还可以包括标准的有线接口、无线接口。网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器305可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器305可选的还可以是独立于前述处理器301的存储装置。如图1所示,作为一种计算机存储介质的存储器305中可以包括操作***、网络通信模块、用户接口模块以及设备信息获取程序。
在图1所示的设备信息获取装置所涉及的硬件中,网络接口304主要用于连接应用平台,与应用平台进行数据通信;用户接口303主要用于连接客户端,与客户端进行数据通信,接收客户端输入的信息和指令;而处理器301可以用于调用存储器305中存储的设备信息获取程序,并执行以下操作:
在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
将所述待处理的设备信息拼接到搜索引擎的URL地址中;
通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;
在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:
将所述输入文本分词得到分词后的输入文本;
从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。
进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:
在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本并保存;
接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。
进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:
接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。
进一步地,在一个实施例中,处理器301调用存储器305中存储的设备信息获取程序可以执行以下操作:
通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。
本实施例根据上述方案,通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
基于上述硬件架构,提出本发明设备信息获取方法实施例。
如图2所示,提出本发明一种设备信息获取方法的第一实施例,所述设备信息获取方法包括:
步骤S10,在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
在本实施例中,提前建立第一信息库和第二信息库,所述第一信息库包括设备信息,所述设备信息包括但不限于设备品牌、机型、RAM、ROM等设备硬件信息,所述第二信息库为设备信息,包括但不限于品牌、机型、是否主键等设备硬件信息。所述构建第一信息库的过程包括:接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。具体的,通过调用智能设备的API接口,通过固定事件rqd_model上报包括品牌、机型、RAM、ROM等设备硬件信息,按照日常经验和实际数据分析发现,一般来说,一个智能设备的品牌+机型+ROM+网络制式就能唯一确认一款机型,其他的参数在这四个参数一致时,其他参数信息均相同(山寨、刷机等特殊情况除外,此信息可用作刷机的判断因素之一)。而网络制式信息,与人们日常使用的场景相关,经分析,可暂时不用作唯一机型的判定的关键KEY值;ROM参数为数值型,规范化整理规则相对简单,因此,在本实施例中,主要用于品牌、机型字段的自动化规范。第一信息库表示实例如表1所示:
表1
创建第二信息库的过程可以包括:通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。所述第三方网站包括主流手机官网、工信部网站、第三方手机信息网站等,通过从上述网站获取设备信息,组成网络机型库数据,通过分词工具将所述获取的设备信息进行分子,作为分词输入文本。第二信息库表示实例如表2所示:
字段名 | 字段含义 | 是否主键 | 字段取值举例 |
Brand | 品牌 | Y | 三星 |
Model | 机型 | Y | GT-I9100 |
…… |
表2
在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息数据,即从所述第一信息库中读取需要“规范化”处理的数据。优选地,所述待处理的设备信息为所述第一信息库中保存的设备信息的关键词信息,按行存入文本文件,作为输入源。
步骤S20,将所述待处理的设备信息拼接到搜索引擎的URL地址中;
在本实施例中,Python提供现成的http协议方法,将输入关键词信息以参数形式拼接到搜索引擎的URL地址中(如:输入“MI2手机”,则拼接成URL地址为:http:m.***.com/s?word=MI+2+%E6%89%B%E6%9C%BA)。
步骤S30,通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;
在将设备信息拼接在URL地址中后,访问该URL,抓取返回的数据包作为分词解析的输入文本。对文本进行分词处理,将所述输入文本与第二信息库中的输入文本比对,以确定所述输入文本与所述第二信息库中的输入文本是否匹配
具体的,参考图3,所述将所述输入文本与所述第二信息库的输入文本比对的过程包括:
步骤S31,将所述输入文本分词得到分词后的输入文本;
步骤S32,从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。
将所述输入文本通过分词工具进行分词,得到分词后的输入文本,所述分词操作利用开源项目jieba分词提供的现成工具进行关键词提取,例如:jieba.analyse.extract_tags(sentence.copk),说明:其中sentence为待提取的输入文本,在本项目中为通过第一信息库关键词搜索返回的文本;topk为返回权重最大的关键词,本项目中优选为返回5个权重最大的关键词;所述topk为手动归类所需要用到的关键词信息。
步骤S40,在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
在所述输入文本与所述第二信息库的输入文本匹配时,即在分词后的输入文本与第二信息库中的分词输入文本匹配时,自动回写数据库,关联匹配的输入文本合并回写数据库。
本实施例通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
进一步地,基于上述设备信息获取方法的第一实施例,提出本发明的第二实施例。如图4所示,所述步骤S30之后,还可以包括:
步骤S50,在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本并保存;
步骤S60,接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。
在本实施例中,所述预设方式为TF-IDF(term frequency–inverse documentfrequency,词频-逆文档频率指数),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被引擎应用,作为文件与用户查询之间相关程度的度量或评级。所述预设数量优选为5个,即选取5个权重值最大的关键词信息,写入到人工归类***中,供人工帅选,手工建立“关系”,即,接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。以上过程,已经通过Python脚本实现自动化,在数据工厂中配置例行调度任务,按天执行。
本实施例中通过在输入文件与所述第二信息库中的输入文本不匹配时,按照预设方式输出部分输入文件,供人工建立关联关系,进一步保证设备信息的准确度。
为了更好的描述本发明设备信息处理过程,以灯塔为例,参考图5,为灯塔机能库的整体架构图,在灯塔机能中一些名词解释,qimei:灯塔项目中解决识别移动终端唯一标识的身份ID,该ID基于移动终端各种固有ID(如IMEI,MAC、IMSI等ID,在实际的复杂场景中均无法有效识别唯一一款终端设备)经过数学方法进行计算,最终达到确认唯一终端设备的目的;
灯塔:基于终端的运营解决方案,功能包括用户分析、终端分析、网络分析、APP质量优化等,为移动APP提供全方位运营服务的平台产品;
灯塔SDK:在灯塔解决方案中,用于嵌入到智能终端APP中,在用户授权范围内,用于采集智能终端相关信息和APP相关信息的软件开发工具套件;
词库:分词过程中,为特定领域的语料提高分词成功率,提供的该领域语料的词库,本文中,指通过网络爬虫获取的信息,整理筛选出智能终端品牌、机型信息的词汇集合,整理成“手机品牌词库”和“手机机型词库”。
灯塔上报:真实的海量用户终端硬件信息,形成灯塔机能库;
工信部、评测门户、厂商官网、业务自身维护的机型库;多种数据源,几乎覆盖市面上全部的品牌、机型信息,形成爬虫网络机型库;
数据处理部分整体设计框架,按信息自动化规划过程分为四个部分,参考图6:
1、构建灯塔机能库和爬虫网络机型库;
2、构建灯塔机能库与爬虫机能库之间关键词的“语义关联关系”;
3、人工干预,查漏补缺;
4、双库信息合并。
详细步骤流程如图7所示:
分词结果处理和优化测试如图8所示:以如下数据为例:XIAOMIMI3@小米,MI3,XIAOMI,秘密,XIAOMIMI3WCDMA。输入的查询关键词为XIAOMIMI3;返回的分词结果为:按词频+逆文频率排序的top5词,将top5返回词语“词库”一一匹配,匹配上,则关系构建成功;匹配不上,进入人工匹配环节。归类后用作统计的计算结果展示如图9,为品牌归类结果;如图10所示,为机型归类结果。本实施例中的爬虫程序可以用不同的语言实现(如perl、ruby等);同时针对不同的场景和用途,可自行建立个性化的“词库”和“语料库”,用来调整分词的准确度和TF-IDF指数;还可以通过不同的搜索引擎来替代,亦可自行建立搜索引擎;分词工具可采用其他类似的工具或者自编写工具;人工关联规则,也有一定的人工痕迹,可根据具体的应用场景不同来制定更适合的关联规则。本发明的应用价值在于,能够利用公开的技术和工具,在有限的人力投入的情况下,构建一套自动的“语义转换关系”的***,大幅提升终端机能库信息的准确性和可读性的同时,降低人工维护成本。
对应地,提出本发明设备信息获取装置的较佳实施例。参考图8,所述设备信息获取装置包括获取模块10、拼接模块20及推送模块30。
所述读取模块10,用于在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
在本实施例中,提前建立第一信息库和第二信息库,所述第一信息库包括设备信息,所述设备信息包括但不限于设备品牌、机型、RAM、ROM等设备硬件信息,所述第二信息库为设备信息,包括但不限于品牌、机型、是否主键等设备硬件信息。所述构建第一信息库的过程包括:接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。具体的,通过调用智能设备的API接口,通过固定事件rqd_model上报包括品牌、机型、RAM、ROM等设备硬件信息,按照日常经验和实际数据分析发现,一般来说,一个智能设备的品牌+机型+ROM+网络制式就能唯一确认一款机型,其他的参数在这四个参数一致时,其他参数信息均相同(山寨、刷机等特殊情况除外,此信息可用作刷机的判断因素之一)。而网络制式信息,与人们日常使用的场景相关,经分析,可暂时不用作唯一机型的判定的关键KEY值;ROM参数为数值型,规范化整理规则相对简单,因此,在本实施例中,主要用于品牌、机型字段的自动化规范。第一信息库表示实例如表1所示:
创建第二信息库的过程可以包括:通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。所述第三方网站包括主流手机官网、工信部网站、第三方手机信息网站等,通过从上述网站获取设备信息,组成网络机型库数据,通过分词工具将所述获取的设备信息进行分子,作为分词输入文本。第二信息库表示实例如表2所示:
在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息数据,即从所述第一信息库中读取需要“规范化”处理的数据。优选地,所述待处理的设备信息为所述第一信息库中保存的设备信息的关键词信息,按行存入文本文件,作为输入源。
所述拼接模块20,用于将所述待处理的设备信息拼接到搜索引擎的URL地址中;
在本实施例中,Python提供现成的http协议方法,将输入关键词信息以参数形式拼接到搜索引擎的URL地址中(如:输入“MI2手机”,则拼接成URL地址为:http:m.***.com/s?word=MI+2+%E6%89%B%E6%9C%BA)。
所述获取模块30,用于通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本;
所述比对模块40,用于将所述输入文本与所述第二信息库的输入文本比对;
在将设备信息拼接在URL地址中后,访问该URL,抓取返回的数据包作为分词解析的输入文本。对文本进行分词处理,将所述输入文本与第二信息库中的输入文本比对,以确定所述输入文本与所述第二信息库中的输入文本是否匹配
具体的,参考图12,所述比对模块40包括分词单元41和比对单元42,
所述分词单元41,用于将所述输入文本分词得到分词后的输入文本;
所述比对单元42,用于从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。
将所述输入文本通过分词工具进行分词,得到分词后的输入文本,所述分词操作利用开源项目jieba分词提供的现成工具进行关键词提取,例如:jieba.analyse.extract_tags(sentence.copk),说明:其中sentence为待提取的输入文本,在本项目中为通过第一信息库关键词搜索返回的文本;topk为返回权重最大的关键词,本项目中优选为返回5个权重最大的关键词;所述topk为手动归类所需要用到的关键词信息。
所述关联模块50,用于在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
在所述输入文本与所述第二信息库的输入文本匹配时,即在分词后的输入文本与第二信息库中的分词输入文本匹配时,自动回写数据库,关联匹配的输入文本合并回写数据库。
本实施例通过将待处理信息拼接到搜索引擎的URL地址中,通过输入文本的比对,关联设备信息,即建立设备信息词语转换关系。有效避免现有设备信息处理方式下存在获取的设备信息(硬件信息、机型信息等)准确性差、易读性差且需要人工采集和维护智能化程度低的问题,使得设备信息读取方便,获取的设备信息准确性高且提高了设备信息采集和维护的智能化程度。
进一步地,基于上述设备信息获取装置的第一实施例,提出本发明设备信息获取装置的第二实施例。如图13所示,所述设备信息获取装置还可以包括:选取模块60、保存模块70和接收模块80,
所述选取模块60,用于在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本;
所述保存模块70,用于将所选取的输入文本保存;
所述接收模块80,用于接收基于所述选取的输入文本的关联指令;
所述关联模块50,还用于将所述关联指令对应的输入文本关联。
在本实施例中,所述预设方式为TF-IDF(term frequency–inverse documentfrequency,词频-逆文档频率指数),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被引擎应用,作为文件与用户查询之间相关程度的度量或评级。所述预设数量优选为5个,即选取5个权重值最大的关键词信息,写入到人工归类***中,供人工帅选,手工建立“关系”,即,接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。以上过程,已经通过Python脚本实现自动化,在数据工厂中配置例行调度任务,按天执行。
本实施例中通过在输入文件与所述第二信息库中的输入文本不匹配时,按照预设方式输出部分输入文件,供人工建立关联关系,进一步保证设备信息的准确度。
为了更好的描述本发明设备信息处理过程,以灯塔为例,参考图5,为灯塔机能库的整体架构图,在灯塔机能中一些名词解释,qimei:灯塔项目中解决识别移动终端唯一标识的身份ID,该ID基于移动终端各种固有ID(如IMEI,MAC、IMSI等ID,在实际的复杂场景中均无法有效识别唯一一款终端设备)经过数学方法进行计算,最终达到确认唯一终端设备的目的;
灯塔:基于终端的运营解决方案,功能包括用户分析、终端分析、网络分析、APP质量优化等,为移动APP提供全方位运营服务的平台产品;
灯塔SDK:在灯塔解决方案中,用于嵌入到智能终端APP中,在用户授权范围内,用于采集智能终端相关信息和APP相关信息的软件开发工具套件;
词库:分词过程中,为特定领域的语料提高分词成功率,提供的该领域语料的词库,本文中,指通过网络爬虫获取的信息,整理筛选出智能终端品牌、机型信息的词汇集合,整理成“手机品牌词库”和“手机机型词库”。
灯塔上报:真实的海量用户终端硬件信息,形成灯塔机能库;
工信部、评测门户、厂商官网、业务自身维护的机型库;多种数据源,几乎覆盖市面上全部的品牌、机型信息,形成爬虫网络机型库;
数据处理部分整体设计框架,按信息自动化规划过程分为四个部分,参考图6:
1、构建灯塔机能库和爬虫网络机型库;
2、构建灯塔机能库与爬虫机能库之间关键词的“语义关联关系”;
3、人工干预,查漏补缺;
4、双库信息合并。
详细步骤流程如图7所示:
分词结果处理和优化测试如图8所示:以如下数据为例:XIAOMIMI3@小米,MI3,XIAOMI,秘密,XIAOMIMI3WCDMA。输入的查询关键词为XIAOMIMI3;返回的分词结果为:按词频+逆文频率排序的top5词,将top5返回词语“词库”一一匹配,匹配上,则关系构建成功;匹配不上,进入人工匹配环节。归类后用作统计的计算结果展示如图9,为品牌归类结果;如图10所示,为机型归类结果。本实施例中的爬虫程序可以用不同的语言实现(如perl、ruby等);同时针对不同的场景和用途,可自行建立个性化的“词库”和“语料库”,用来调整分词的准确度和TF-IDF指数;还可以通过不同的搜索引擎来替代,亦可自行建立搜索引擎;分词工具可采用其他类似的工具或者自编写工具;人工关联规则,也有一定的人工痕迹,可根据具体的应用场景不同来制定更适合的关联规则。本发明的应用价值在于,能够利用公开的技术和工具,在有限的人力投入的情况下,构建一套自动的“语义转换关系”的***,大幅提升终端机能库信息的准确性和可读性的同时,降低人工维护成本。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
Claims (12)
1.一种设备信息处理方法,其特征在于,包括:
在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
将所述待处理的设备信息拼接到搜索引擎的URL地址中;
通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本,并将所述输入文本与所述第二信息库的输入文本比对;
在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
2.如权利要求1所述的设备信息处理方法,其特征在于,所述将所述输入文本与所述第二信息库的输入文本比对的步骤包括:
将所述输入文本分词得到分词后的输入文本;
从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。
3.如权利要求1或2所述的设备信息处理方法,其特征在于,所述将所述输入文本与所述第二信息库的输入文本比对的步骤之后,还包括:
在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本并保存;
接收基于所述选取的输入文本的关联指令,将所述关联指令对应的输入文本关联。
4.如权利要求1或2所述的设备信息处理方法,其特征在于,所述在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息的步骤之前,还包括:
接收通过SDK上报的设备信息,将所述上报的设备信息保存作为第一信息库。
5.如权利要求1或2所述的设备信息处理方法,其特征在于,所述在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息的步骤之前,还包括:
通过第三方网站获取设备信息,并对所述获取的设备信息进行分词作为分词输入文本保存为第二信息库。
6.一种设备信息处理装置,其特征在于,包括:
读取模块,用于在建立第一信息库和第二信息库后,读取第一信息库中待处理的设备信息;
拼接模块,用于将所述待处理的设备信息拼接到搜索引擎的URL地址中;
获取模块,用于通过搜索引擎访问所述URL地址获取所述待处理的设备信息作为输入文本;
比对模块,用于将所述输入文本与所述第二信息库的输入文本比对;
关联模块,用于在所述输入文本与所述第二信息库的输入文本匹配时,关联所述输入文本与所述第二信息库的输入文本。
7.如权利要求6所述的设备信息处理装置,其特征在于,所述比对模块包括:
分词单元,用于将所述输入文本分词得到分词后的输入文本;
比对单元,用于从所述第二信息库中获取分词输入文本,将所述分词后的输入文本与所述分词输入文本比对。
8.如权利要求7所述的设备信息处理装置,其特征在于,所述设备信息处理装置还包括:
选取模块,用于在所述输入文本与所述第二信息库的输入文本不匹配时,按照预设方式从所述输入文本及所述第二信息库的输入文本中选取预设数量的输入文本;
保存模块,用于将所选取的输入文本保存;
接收模块,用于接收基于所述选取的输入文本的关联指令;
所述关联模块,还用于将所述关联指令对应的输入文本关联。
9.如权利要求8所述的设备信息处理装置,其特征在于,所述接收模块,还用于接收通过SDK上报的设备信息;
所述保存模块,还用于将所述上报的设备信息保存作为第一信息库。
10.如权利要求9所述的设备信息处理装置,其特征在于,所述获取模块,还用于通过第三方网站获取设备信息;
所述分词单元,还用于对所述获取的设备信息进行分词;
所述保存模块,还用于对所述获取的设备信息进行分词后的分词输入文本保存为第二信息库。
11.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至5任一项中所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510276430.0A CN106294433B (zh) | 2015-05-26 | 2015-05-26 | 设备信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510276430.0A CN106294433B (zh) | 2015-05-26 | 2015-05-26 | 设备信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294433A CN106294433A (zh) | 2017-01-04 |
CN106294433B true CN106294433B (zh) | 2020-03-03 |
Family
ID=57634887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510276430.0A Active CN106294433B (zh) | 2015-05-26 | 2015-05-26 | 设备信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294433B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284384B (zh) * | 2018-10-10 | 2021-01-01 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN112256862A (zh) * | 2020-09-08 | 2021-01-22 | 山东黄金矿业(莱州)有限公司三山岛金矿 | 一种数据映射关系建立方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591972A (zh) * | 2011-12-31 | 2012-07-18 | 北京百度网讯科技有限公司 | 提供商品搜索结果的方法及设备 |
US8676778B2 (en) * | 1995-12-14 | 2014-03-18 | Graphon Corporation | Method and apparatus for electronically publishing information on a computer network |
CN103678443A (zh) * | 2012-09-19 | 2014-03-26 | 弗里塞恩公司 | 用于提供内容提供者指定的url关键字导航的方法及*** |
US9122730B2 (en) * | 2012-05-30 | 2015-09-01 | International Business Machines Corporation | Free-text search for integrating management of applications |
-
2015
- 2015-05-26 CN CN201510276430.0A patent/CN106294433B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676778B2 (en) * | 1995-12-14 | 2014-03-18 | Graphon Corporation | Method and apparatus for electronically publishing information on a computer network |
CN102591972A (zh) * | 2011-12-31 | 2012-07-18 | 北京百度网讯科技有限公司 | 提供商品搜索结果的方法及设备 |
US9122730B2 (en) * | 2012-05-30 | 2015-09-01 | International Business Machines Corporation | Free-text search for integrating management of applications |
CN103678443A (zh) * | 2012-09-19 | 2014-03-26 | 弗里塞恩公司 | 用于提供内容提供者指定的url关键字导航的方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN106294433A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726103B (zh) | 测试报告的生成方法、装置、设备及存储介质 | |
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及*** | |
CN110019486B (zh) | 数据采集方法、装置、设备及存储介质 | |
CN111666401B (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
US10942733B2 (en) | Open-source-license analyzing method and apparatus | |
CN106919625B (zh) | 一种互联网用户属性识别方法和装置 | |
KR20190026641A (ko) | 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 | |
CN115236260B (zh) | 一种色谱数据储存方法、装置、电子设备及存储介质 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN113051362A (zh) | 数据的查询方法、装置和服务器 | |
CN113868498A (zh) | 数据存储方法、电子装置、装置及可读存储介质 | |
CN111913954A (zh) | 智能数据标准目录生成方法和装置 | |
CN111897528A (zh) | 一种面向企业在线教育的低代码平台 | |
CN105260365A (zh) | 终端信息的处理方法和装置 | |
CN106294433B (zh) | 设备信息处理方法及装置 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN112084111A (zh) | 一种数据处理方法、***和装置 | |
CN114265777B (zh) | 应用程序的测试方法、装置、电子设备及存储介质 | |
CN104376021A (zh) | 文件推荐***及方法 | |
CN108268545B (zh) | 一种分级的用户标签库的创建的方法和装置 | |
CN114550157A (zh) | 弹幕聚集识别方法以及装置 | |
CN114971833A (zh) | 一种税收信息处理方法及相关设备 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN113672497A (zh) | 无埋点事件的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |