CN107818130A

CN107818130A - 一种搜索引擎的建立方法及***

Info

Publication number: CN107818130A
Application number: CN201710832395.5A
Authority: CN
Inventors: 杨家
Original assignee: Shenzhen Dtston Technology Co Ltd
Current assignee: Shenzhen Dtston Technology Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-03-20

Abstract

本发明适用于互联网技术领域，提供了一种数据检索方法，包括：收集部署于不同的网络节点的信息源实时采集的数据；将收集到物联网数据按照预置的标签类别予以标注得到标注数据；根据标注数据构建基于行业分词库的倒排索引；倒排索引包含行业分词库中各分词与标注数据的对应关系且意义相近的分词被索引到相同的文档数据上；根据倒排索引输出用于进行目录检索和全文语义检索的检索接口。通过本发明实施例提供的检索接口，在用户输入任意中文分词时，根据该中文分词展示相匹配的检索结果，该检索结果为物联网相关的实时数据，同时，当用户通过检索接口输入中文分词时，搜索引擎能够给用户提供检索建议，使得用户进行搜索时省时省力。

Description

一种搜索引擎的建立方法及***

技术领域

本发明属于垂直搜索引擎技术领域，尤其涉及一种搜索引擎的建立方法及***。

背景技术

在互联网高速发展的今天，我国制造业面临产能过剩，产能效率低，竞争惨烈等行业难题，所以制造业厂商迫切需要借助物联网(互联网加制造)来实现凤凰涅槃。

目前在物联网领域存在很多垂直行业门户网站，比如慧聪网、千家网、硬蛋等，这些网站大多都是将采集到的数据组织成静态网页内容，为用户提供目录式查找功能和一些站内搜索功能，而且这些网站聚焦的物联网领域有限，比如硬蛋就专注硬件，而传统制造业在向物联网智造的过渡和转型过程中更加关注的是整个过程中涉及的所有领域及相关的问题，同时技术在进步企业也在发展，所以它们也更加需要动态实时的相关信息。

现有物联网的技术领域中，无法提供一个进行实时动态的有效信息的检索方法。

发明内容

本发明所要解决的技术问题在于提供一种搜索引擎的建立方法及***，旨在解决现有物联网的技术领域中无法提供一个进行实时动态的有效信息的检索方法的问题。

本发明是这样实现的，一种搜索引擎的建立方法，包括：

收集各信息源实时采集的数据；所述各信息源部署于不同的网络节点；

将收集到的各信息源的物联网数据按照预置的标签类别予以标注，得到标注数据；

根据所述标注数据构建基于行业分词库的倒排索引；所述倒排索引包含所述行业分词库中各分词与所述标注数据的对应关系，且意义相近的分词被索引到相同的文档数据上；

根据所述倒排索引输出用于进行目录检索和全文语义检索的检索接口。

进一步地，所述预置的标签类别包括地域标签、行业标签和主题标签；所述对收集到的各信息源的数据按照预置的标签类别予以标注，得到标注数据包括：

若初次收集到物联网数据，则采用聚类算法和协同过滤算法为收集到的物联网数据生成地域标签、行业标签和主题标签，将生成的各标签在对应的物联网数据上进行标注，得到标注数据；

若非初次收集到物联网数据，则使用标签标注模型为收集到的物联网数据进行标签标注，得到标注数据；所述标签标注模型采用已生成的标注数据为训练数据，使用监督的文本分类算法进行训练。

进一步地，所述根据所述标注数据构建基于行业分词库的倒排索引包括：

使用深度神经网络中的双向循环神经网络Bi-LSTM和隐马尔科夫模型HMM对所述标注数据进行中文分词；

基于行业分词库，使用词向量模型将意义相近的中文分词索引到相同的文档数据上，实现对所述标注数据构建倒排索引；所述行业分词库利用关键词和关键短语提取方法构建，其中包含有与物联网相关的中文分词。

进一步地，所述使用词向量模型将意义相近的中文分词索引到相同的文档数据上，实现对所述标注数据构建倒排索引之后，还包括：

以生成的倒排索引为主索引；

当检测到新的标注数据时，利用词向量模型为新的标注数据生成增量索引；

判断所述增量索引是否达到预置规模，若达到，则将所述增量索引和所述主索引进行合并，得到新的主索引；

其中，在合并索引完成前若检测到检索服务请求，则由所述增量索引和合并之前的主索引提供检索服务。

本发明还提供了一种搜索引擎的建立***，包括：

分布式数据采集单元，用于收集各信息源实时采集的数据；所述各信息源部署于不同的网络节点；

数据标注单元，用于将收集到的各信息源的数据按照预置的标签类别予以标注，得到标注数据；

索引生成单元，用于根据所述标注数据构建基于行业分词库的倒排索引；所述倒排索引包含所述行业分词库中各分词与所述标注数据的对应关系，且意义相近的分词被索引到相同的文档数据上；

检索接口输出单元，用于根据所述倒排索引输出用于进行目录检索和全文语义检索的检索接口。

进一步地，所述分布式数据采集单元包括主节点和若干从节点；

所述从节点，用于根据所述主节点分配的数据采集任务从所述数据采集任务指向的信息源采集数据，并将采集到的物联网数据发送给所述主节点；

所述主节点，用于：

按照预置收集时间间隔收集数据采集任务；

判断所述数据采集任务是否有效；

若有效，则判断是否存储有所述数据采集任务，若有，则结束收集操作；

若没有，则存储所述数据采集任务；

获取从节点的容量和任务量，根据从节点的容量和任务量分配所述数据采集任务；

接收从节点发送的物联网数据，将所述物联网数据发送给所述数据标注单元。

进一步地，所述主节点还用于：

判断当前有数据采集任务的从节点的任务量是否过饱和；

若从节点的任务量过饱和，则增加从节点，并分配数据采集任务给增加的从节点；

若从节点的任务量不饱和，关闭从节点。

进一步地，所述数据标注单元用于：

将所述物联网数据保存至数据库服务器上；

进一步地，所述索引生成单元具体用于：

以生成的倒排索引为主索引；

其中，在合并索引完成前若检测到检索服务请求，由所述增量索引和合并之前的主索引提供检索服务。

进一步地，所述检索接口输出单元包括：

检索接口输出模块，根据所述倒排索引输出用于进行目录检索和全文语义检索的检索接口；

过滤器，提供若干过滤标签，用于对检索关键词进行过滤，仅展示与所述过滤标签相匹配的内容；

解析模块，用于对检索关键词进行解析，展示与所述检索关键词相对应的中文分词。

本发明与现有技术相比，有益效果在于：本发明实施例通过分布式数据采集方式实时采集物联网数据，并对采集到的物联网数据进行标签标注得到标注数据，根据该标注数据构建基于行业分词库的倒排索引，该倒排索引包含有行业分词库中各分词与该标注数据的对应关系，最后根据该倒排索引输出检索接口，通过该接口进行目录检索和全文检索。通过本发明实施例提供的检索接口，在用户输入任意中文分词时，根据该中文分词展示相匹配的检索结果，该检索结果为物联网相关的实时数据，同时，当用户通过检索接口输入中文分词时，搜索引擎能够给用户提供检索建议，使得用户进行搜索时省时省力。

附图说明

图1是本发明实施例提供的一种搜索引擎的建立方法的流程图；

图2是本发明实施例提供的一种搜索引擎的建立***的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的一种数据检索方法，包括：

S101，收集各信息源实时采集的数据；所述各信息源部署于不同的网络节点。

在本步骤中，可以采用一个分布式数据采集单元采集相关数据，这个分布式数据采集单元为了高效的采集数据，由多个节点的主机组成，包括一个主节点用来分配数据采集任务给从节点，具体地，该分布式数据采集单元采用Docker轻量容器部署成微服务，这些服务的数量可以动态扩展或收缩，同时由于Docker轻量容器方便打包成镜像，可以迁移到任何主机上使得运维也十分方便，动态编排的特性使得分布式数据采集方式能够大幅提高数据的采集速度和处理速度，将数据采集的规则和存储方法利用配置文件来进行设置，即使在爬取过程中也可以改变配置选项达到数据能够快速更新并保证了搜索的实时性。具体地，各信息源部署于不同的网络节点，每一网络节点提供不同的物联网数据，每个信息源从各网络中获取所需要收集的物联网数据，该物联网数据包含有物联网相关的数据，

S102，将收集到的各信息源的物联网数据按照预置的标签类别予以标注，得到标注数据。

在本步骤中，标签包含一些客观概念的标签，比如地域标签，也包括一些主观概念的标签，比如行业标签。客观的地域标签基于数据的地域统计信息生成，标注也是基于条件判断数据属于哪个地域而进行标注，主观的行业标签采用半监督学习的方法，先使用词频逆向文件频率TFIDF(Term Frequency–Inverse Document Frequency)算法和互信息(Mutual Information)来用一部分数据来生成这些主观标签的集合，在生成标签的过程中，用来生成标签的这部分物联网数据就标注上了标签。再利用这部分标注数据作为训练数据使用监督的文本分类算法来训练一个标签标注模型，对于新的数据利用这个标签标注模型来推断其标签并进行标注。

S103，根据所述标注数据构建基于行业分词库的倒排索引；所述倒排索引包含所述行业分词库中各分词与所述标注数据的对应关系，且意义相近的分词被索引到相同的文档数据上。

在本步骤中，分词对应用户通过本实施例提供的搜索引擎中输入的检索关键词，如当用户输入“深圳钢材厂”的检索关键词时，搜索引擎将自动将“深圳钢材厂”进行分词，得到“深圳”、“钢材”、“钢材厂”的分词，然后分别将“深圳”、“钢材”、“钢材厂”索引到对应的文档数据上，文档数据指的是保存在建立***中的标注数据。用步骤S102中经过标签标注的数据来训练词向量模型之后再创建倒排索引。传统的搜索引擎不具备语义搜索功能，本步骤中利用词向量模型将用户可能输入的关键词的意义相近的词求解，在反向文档索引时只要意义相近的词都会索引到对应的文档数据上。同时词向量求解的词的相似度也会作为搜索结果，排序时计算得分的权重信息，从而将按匹配度对搜索结果进行排序的问题转化为按相似度对搜索结果排序的问题，词与词之间的相似度在词向量模型中用两个向量的余弦值表示，这个值越大表示这两个词的语义越相近。这种改进后的倒排索引既可以提供基于关键字的全文检索也可以提供基于语义的搜索，同时标签信息还可以用于提供目录检索的功能，也可以用于对全文检索的结果进行过滤，从而使得本发明实施例能够兼具目录检索和全文检索的功能。

S104，根据所述倒排索引输出用于进行目录检索和全文语义检索的检索接口。在本步骤中，根据输出的检索接口提供一个类似于搜索引擎的用户界面，通过该用户界面可以输入相关检索词，并展示与该检索词相匹配的内容。

下面对本发明提供的数据检索方法进行进一步地阐述：

为了构造一个基础的倒排索引，本发明实施例首先由一个分布式数据采集单元采集相关数据，这个分布式数据采集单元为了高效的采集数据，由多个节点的主机组成，包括一个主节点用来分配数据采集任务给从节点，主节点首先从众多数据来源站点收集数据采集任务，在进行收集工作时，主节点将判断那些数据采集任务是与本次数据收集相关的或者有效的，根据判断结果，主节点只会收集相关的数据采集任务，然后把这些数据采集任务全部存储起来，在存储时会判断这个数据采集任务之前是否已经存储，如果已经存在就跳过，以此保证数据采集任务不会重复。主节点根据下面的从节点的容量和任务量来分配数据采集任务，主节点不但负责分配数据采集任务给从节点，还负责调度从节点，使得数据采集***更加高效。当某个从节点的任务量过饱和时，主节点负责增加从节点并分配任务给新的从节点，当某个从节点任务量不饱和时，主节点负责关掉某些不饱和的从节点来提高资源的利用率。具体地，在本步骤中，主节点从众多数据来源站点收集数据采集任务可以按照预置的时间间隔收集，这样设置可以减少占用计算运存和节约计算空间，主节点也可以在接收到收集任务操作时，进行数据采集任务的收集操作。因此，分布式数据采集单元具有轻量、可按照业务需求动态伸缩、快速部署、动态调度、实时采集的特点。

将采集到物联网数据存放到一个专门的数据库服务器上，然后对这些物联网数据进行进一步处理。根据业务需求，本实施例设计了一系列标签，这些标签有地域标签例，如北京、上海、广州、深圳等，也包含一些行业标签，例如食品业、服装业、饮料业、房地产开发业等等，还有一些主题标签比如公司、产品、供应商、服务、资讯等。对采集到物联网数据实施聚类算法和协同过滤算法来为这些物联网数据生成相应的标签。例如：采集到的物联网数据中有一条是北京某生产监控摄像头的公司参加高交会，并展出其新研发的关爱亲人的监控摄像头的新闻，则在本实施例中，根据条件和算法来判断这条数据的地域标签属于北京(公司是北京的一家公司)，行业标签属于安防监控(生产监控摄像头)，主题的标签有公司(一家北京的摄像头公司)，还有产品(展出了新的监控摄像头)还有资讯(新闻)。

这些物联网数据打上标签，生成的标注数据就有了一定的目录检索和过滤(按标签过滤)的功能，为了让标注数据具有按关键字进行全文检索和语义搜索的功能，本实施例用词向量模型来对标注数据保存形成的文档进行语义索引构建，在处理中文分词时使用了深度神经网络中的双向循环神经网络Bi-LSTM加隐马尔科夫模型HMM(Hidden MarkovModel)来对已标注数据进行中文分词，同时利用关键词、关键短语提取方法定义一个行业分词库，该行业分词库收集了与物联网相关的数千条中文分词，以便提供更加精确的全文检索结果，为了保证用户搜索结果的时效性，本实施例采用了一种动态构建索引的方法，由分布式数据采集单元产生的新文档，根据已训练的词向量模型先形成增量索引，当增量索引达到一定规模时就把它和合并之前的主索引进行合并，在合并索引完成前搜索服务由增量索引和合并之前的主索引一起提供，合并完成后生成新的主索引，当再由新文档形成增量索引时，如此反复动态构建索引，新的数据要么反映在增量索引上，要么反映在合并后的主索引上，这样保证了索引的实时有效从而保证了搜索结果的时效性。增量索引达到一定规模的标准根据索引生成单元的运行内存和任务量设定，当增量索引的增加数量达到索引生成单元的运行内存的设定值时，将判断当前增量索引达到预先设定的规模，进行索引合并的步骤。

最后提供一个检索接口和用户交互，该检索接口类似搜索引擎的网页，在该网页中除了可以输入关键字进行搜索外，还提供了基于标签属性的过滤器，这样对于关键词的搜索就可以只展示与过滤标签匹配的内容。如果把标签看成某种目录结构，这样本实施例提供的接口就兼具了目录检索和兼具语义的关键字全文检索的功能，另外全文检索的结果还可以按标签类别进行二次过滤。二次过滤指的是，当用户在检索接口输入检索词时，展示与该检索词相匹配的内容，当用户使用过滤器对展示的内容进行标签过滤时，如对展示的内容进行地区、生产类型、来源等进行标签过滤，则最终将展示与该过滤标签相匹配的内容。

本发明实施例提供的物联网行业的中文搜索引擎，在实际应用中与传统的垂直信息门户网站相比有更大的价值，首先以往的目录检索方式必然是耗时耗力的，加上目录的结构是静态的所以查找出来的信息的匹配度也差强人意，而本发明实施例提供了基于行业分词库的检索接口，可以在用户输入检索词时提供搜索建议，使得用户进行搜索时省时省力，兼具字符匹配和语义匹配的搜索结果综合排序使得搜索信息的匹配度也较高，同时通过标签提供多维度和全方位的信息核对使得查阅信息更加高效。例如：一个传统的硬件供应链站点的产品分类包括开发板、电子元器件和无线模组三个静态类别，用户可以在一个类别下进行搜索。而本发明实施例无需提前分类再进入检索，用户只需要在检索接口输入“无线”时，搜索引擎的建立***利用行业分词库向用户提示出无线模组、无线通信、无线协议等词汇列表，用户选择“无线模组”就可以限定搜索结果基于“无线模组”这个标签。

在互联网高速发展的今天，我国制造业面临产能过剩、产能效率低、竞争惨烈等行业难题，所以制造业厂商迫切需要借助物联网(互联网加制造)来实现凤凰涅槃，但是物联网行业供应链关系复杂加上传统厂商在这方面经验严重不足，所以迫切需要一个专业的物联网中文搜索引擎来查阅这方面的信息甚至解答厂商面临的困惑。本发明实施例提供的搜索引擎专注于物联网，同时保证了高效和时效，能够为用户在完成智造转型时提供有价值的信息，这些信息涵盖了物联网技术调研、同行业智能化案例、智能模块提供商、技术和方案提供商、服务提供商、行业智能化进展等等信息，方便厂商制定决策和实施智能化产品的研发。

图2示出了本发明实施例提供的一种搜索引擎的建立***，包括：

分布式数据采集单元201，用于收集各信息源实时采集的数据；所述各信息源部署于不同的网络节点；

数据标注单元202，用于将收集到的各信息源的数据按照预置的标签类别予以标注，得到标注数据；

索引生成单元203，用于根据所述标注数据构建基于行业分词库的倒排索引；所述倒排索引包含所述行业分词库中各分词与所述标注数据的对应关系，且意义相近的分词被索引到相同的文档数据上；

检索接口输出单元204，用于根据所述倒排索引输出用于进行目录检索和全文语义检索的检索接口。

进一步地，分布式数据采集单元201包括主节点和若干从节点；

所述主节点，用于：

按照预置收集时间间隔收集数据采集任务；

判断所述数据采集任务是否有效；

若没有，则存储所述数据采集任务；

进一步地，所述主节点还用于：

判断当前有数据采集任务的从节点的任务量是否过饱和；

若从节点的任务量不饱和，关闭从节点。

进一步地，数据标注单元202用于；

将所述物联网数据保存至数据库服务器上；

若初次收集到物联网数据，则采用聚类算法和协同过滤算法为采集到的物联网数据生成地域标签、行业标签和主题标签，将生成的各标签在对应的物联网数据上进行标注，得到标注数据；

进一步地，索引生成单元203具体用于：

使用深度神经网络中的双向循环神经网络Bi-LSTM和隐马尔科夫模型HMM进行中文分词；

以生成的倒排索引为主索引；

当检测到新的标注数据时，为新的标注数据生成增量索引；

进一步地，检索接口输出单元204：

解析模块，用于对检索关键词进行解析，展示与所述检索关键词相对应的中文分词。具体地，在实际应用中，当用户通过搜索引擎输入检索关键词，解析模块将解析该关键词，并根据解析结果展示相应的中文分词，如当用户输入“深圳摄像头”的检索关键词时，搜索引擎除了展示与“深圳”、“摄像”、“摄像头”等中文分词相关的文档数据外，还将展示包括“东莞”、“广州”、“惠州”、“拍照”、“图像采集”等相关的中文分词，该中文分词用于建议用户在当前的检索关键词下，也可以通过上述中文分词进行检索。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索引擎的建立方法，其特征在于，包括：

2.如权利要求1所述的建立方法，其特征在于，所述预置的标签类别包括地域标签、行业标签和主题标签；所述对收集到的各信息源的数据按照预置的标签类别予以标注，得到标注数据包括：

3.如权利要求1所述的建立方法，其特征在于，所述根据所述标注数据构建基于行业分词库的倒排索引包括：

4.如权利要求3所述的建立方法，其特征在于，所述使用词向量模型将意义相近的中文分词索引到相同的文档数据上，实现对所述标注数据构建倒排索引之后，还包括：

以生成的倒排索引为主索引；

5.一种搜索引擎的建立***，其特征在于，包括：

6.如权利要求5所述的建立***，其特征在于，所述分布式数据采集单元包括主节点和若干从节点；

所述主节点，用于：

按照预置收集时间间隔收集数据采集任务；

判断所述数据采集任务是否有效；

若没有，则存储所述数据采集任务；

7.如权利要求6所述的建立***，其特征在于，所述主节点还用于：

判断当前有数据采集任务的从节点的任务量是否过饱和；

若从节点的任务量不饱和，关闭从节点。

8.如权利要求6所述的建立***，其特征在于，所述数据标注单元用于：

将所述物联网数据保存至数据库服务器上；

9.如权利要求6所述的建立***，其特征在于，所述索引生成单元具体用于：

基于行业分词库，使用词向量模型将意义相近的中文分词索引到相同的文档数据上，实现对所述标注数据构建倒排索引；所述行业分词库利用关键词和关键短语提取方法构建，其中包含有与物联网相关的中文分词；

以生成的倒排索引为主索引；

10.如权利要求6所述的建立***，其特征在于，所述检索接口输出单元包括：