CN112800043A - 一种物联网终端信息提取方法、装置、设备和存储介质 - Google Patents
一种物联网终端信息提取方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112800043A CN112800043A CN202110162802.2A CN202110162802A CN112800043A CN 112800043 A CN112800043 A CN 112800043A CN 202110162802 A CN202110162802 A CN 202110162802A CN 112800043 A CN112800043 A CN 112800043A
- Authority
- CN
- China
- Prior art keywords
- information
- internet
- things
- user agent
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000004891 communication Methods 0.000 claims abstract description 10
- 239000003795 chemical substances by application Substances 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 44
- 230000000306 recurrent effect Effects 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000006855 networking Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000288105 Grus Species 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/75—Information technology; Communication
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/20—Analytics; Diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种物联网终端信息提取方法、装置、设备和存储介质,应用于服务器,服务器与客户端通信连接,方法包括:获取客户端对应的用户代理信息;将用户代理信息输入到预设的目标信息提取模型;其中,目标信息提取模型包括编码部分和解码部分;通过编码部分提取用户代理信息中的输出信息和隐藏层信息;当接收到客户端发送的开始标志时,通过解码部分根据开始标志、输出信息和隐藏层信息,生成多个待拼接信息;拼接多个待拼接信息,生成物联网终端信息并返回到客户端。从而更为准确匹配识别物联网终端,利于物联网信息的进一步分析。
Description
技术领域
本发明涉及终端信息提取技术领域,尤其涉及一种物联网终端信息提取方法、装置、设备和存储介质。
背景技术
目前物联网中提取终端信息的方式大多为正则匹配法。正则匹配法通过事先研究终端信息在UA(User Agent,用户代理)中的位置情况,按照位置情况、普遍规律或行业协议,编写正则表达式来匹配终端信息。正则表达式法更适用于终端信息有较为明确规范的Web领域,并针对请求的UA进行终端分析。
但是对于物联网UA存在,无整体上的统一规范、各厂家存在自建规范,但厂家间规范差异很大的情况,或者新厂家或新终端出现,则很有可能需要新增或重写部分正则表达式,维护也非常困难。因此造成ETL(Extract-Transform-Load,数据仓库技术)时终端信息经常匹配不到,无法准确识别终端,阻碍了物联网信息的进一步分析。
发明内容
本发明提供了一种物联网终端信息提取方法、装置、设备和存储介质,解决了现有的针对物联网UA采用正则匹配法所导致的终端信息无法准确匹配,难以准确识别终端,不利于物联网信息的进一步分析的技术问题。
本发明第一方面提供的一种物联网终端信息提取方法,应用于服务器,所述服务器与客户端通信连接,所述方法包括:
获取所述客户端对应的用户代理信息;
将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
可选地,所述编码部分包括数据预处理组件和第一循环神经网络,所述对通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息的步骤,包括:
通过所述数据预处理组件对所述用户代理信息执行数据预处理操作,得到待提取向量;
将所述待提取向量输入到所述第一循环神经网络,得到输出信息和隐藏层信息。
可选地,所述通过所述数据预处理组件对所述用户代理信息执行数据预处理操作,得到待提取向量的步骤,包括:
通过所述数据清洗层对所述用户代理信息执行数据清洗,生成清洗数据;
通过所述词嵌入层将所述清洗数据转换为待提取向量。
可选地,所述解码部分包括注意力组件和第二循环神经网络,所述当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息的步骤,包括:
当接收到所述客户端发送的开始标志时,通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息;
通过所述注意力组件根据所述变换信息和所述输出信息的內积结果,确定与所述用户代理信息对应的注意力信息;
将所述注意力信息输入到所述第二循环神经网络,得到中间信息和循环隐藏层信息;
将所述输出信息和所述开始标志更新为所述中间信息,将所述隐藏层信息更新为所述循环隐藏层信息,跳转执行所述通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息的步骤,直至得到预定数量的所述中间信息;
提取全部所述中间信息,得到多个待拼接信息。
可选地,还包括:
获取训练数据;
采用所述训练数据训练预设的初始信息提取模型,得到目标信息提取模型。
可选地,所述采用所述训练数据训练预设的初始信息提取模型,得到目标信息提取模型的步骤,包括:
将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率;
根据所述提取信息和所述分类概率,构建损失函数并计算损失值;
若所述损失值大于预设阈值,则生成所述目标信息提取模型。
可选地,还包括:
若所述损失函数小于所述预设阈值,则采用梯度下降法调整所述初始信息提取模型的模型参数;
跳转执行所述将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率的步骤,直至所述损失函数大于所述预设阈值,得到所述目标信息提取模型。
本发明第二方面提供了一种物联网终端信息提取装置,应用于服务器,所述服务器与客户端通信连接,所述装置包括:
用户代理信息获取模块,用于获取所述客户端对应的用户代理信息;
信息输入模块,用于将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
信息提取模块,用于通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
信息解码模块,用于当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
信息拼接模块,用于拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
本发明第三方面还提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明第一方面任一项所述的物联网终端信息提取方法的步骤。
本发明第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现如本发明第一方面任一项所述的物联网终端信息提取方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过服务器获取客户端对应的用户代理信息,将用户代理信息输入到预设的目标信息提取模型,以通过其中的编码部分对用户代理信息进行提取,得到输出信息和隐藏层信息;当接收到客户端发送的开始标志后,通过解码部分采用输出信息和隐藏层信息以及开始标志进行信息预测,生成多个待拼接信息;拼接多个待拼接信息,生成物联网终端信息并返回到客户端。从而解决现有的针对物联网UA采用正则匹配法所导致的终端信息无法准确匹配,难以准确识别终端,不利于物联网信息的进一步分析的技术问题,更为准确匹配识别物联网终端。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种物联网终端信息提取方法的步骤流程图;
图2为本发明实施例二提供的一种物联网终端信息提取方法的步骤流程图;
图3为本发明实施例二提供的一种目标信息提取模型的训练过程示意图;
图4为本发明实施例二提供的一种解码过程示意图;
图5为本发明实施例三提供的一种物联网终端信息提取装置的结构框图。
具体实施方式
本发明实施例提供了一种物联网终端信息提取方法、装置、设备和存储介质,用于解决现有的针对物联网UA采用正则匹配法所导致的终端信息无法准确匹配,难以准确识别终端,不利于物联网信息的进一步分析的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一提供的一种物联网终端信息提取方法的步骤流程图。
本发明提供的一种物联网终端信息提取方法,应用于服务器,所述服务器与客户端通信连接,所述方法包括以下步骤:
步骤101,获取所述客户端对应的用户代理信息;
用户代理信息指的是User Agent,简称UA,它是一个特殊字符串头,使得服务器能够识别客户端使用的操作***及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
在本发明实施例中,当用户需要提取客户端的物联网终端信息时,可以通过服务器从客户端获取对应的用户代理信息。
步骤102,将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
当获取到用户代理信息后,将用户代理信息输入到预设的目标信息提取模型,以实现对用户代理信息中的物联网终端信息进行提取,其中目标信息提取模型包括编码部分和解码部分。
步骤103,通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
通过目标信息提取模型中的编码部分对用户代理信息进行信息提取,以得到其中的输出信息和隐藏层信息。
步骤104,当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
当得到编码部分的输出信息和隐藏层信息后,若接收到用户从客户端输入的开始标志,则可以开始对输出信息和隐藏层信息进行解码,通过解码部分根据开始标志、输出信息和隐藏层信息进行进一步的解码预测,已生成多个待拼接信息。
步骤105,拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
在具体实现中,在得到多个待拼接信息后,可以按输出顺序拼接多个待拼接信息,以得到物联网终端信息,并将该物联网终端信息返回到客户端,以便于后续对客户端进行进一步分析。
在本发明实施例中,通过服务器获取客户端对应的用户代理信息,将用户代理信息输入到预设的目标信息提取模型,以通过其中的编码部分对用户代理信息进行提取,得到输出信息和隐藏层信息;当接收到客户端发送的开始标志后,通过解码部分采用输出信息和隐藏层信息以及开始标志进行信息预测,生成多个待拼接信息;拼接多个待拼接信息,生成物联网终端信息并返回到客户端。从而解决现有的针对物联网UA采用正则匹配法所导致的终端信息无法准确匹配,难以准确识别终端,不利于物联网信息的进一步分析的技术问题,更为准确匹配识别物联网终端。
请参阅图2,图2为本发明实施例二提供的一种物联网终端信息提取方法的步骤流程图。
本发明提供的一种物联网终端信息提取方法,应用于服务器,所述服务器与客户端通信连接,所述方法包括以下步骤:
步骤201,获取训练数据;
训练数据指的是通过数据清洗后,通过词嵌入层转换为向量的用户代理信息,其中训练数据在终端名称的开头与结尾进行不同的第一标注[sep]和第二标注[cls],对于不含终端名称的数据标注为第三标注,例如[None];对于一些训练数据存在多个不同厂家的终端或不同型号的终端,认为这些可能存在训练数据造假的问题,标注为[may problem]。
步骤202,采用所述训练数据训练预设的初始信息提取模型,得到目标信息提取模型。
可选地,步骤202可以包括以下子步骤:
将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率;
根据所述提取信息和所述分类概率,构建损失函数并计算损失值;
若所述损失值大于预设阈值,则生成所述目标信息提取模型。
在本发明实施例中,将训练数据输入到预设的初始信息提取模型,采用ASCII码表的编码作为模型的编码码表,将训练数据经词嵌入层转换为向量,将向量输入到循环神经完了GRU进行信息提取,以得到GRU的输出信息和隐藏层信息;将提取信息和隐藏层信息输入到解码器进行解码过程。
在实际训练过程中,刚开始训练时模型并不能在给出开始标记之后预测对下一个字是什么,如果直接采用模型预测的结果传入模型预测下一个字,就和实际数据偏离很大,对模型的训练不利。所以需要在前n个Epoch的训练中采用Teacher Force的方式。即不管模型的预测结果,强制将真实结果输入模型,指导模型的训练,并在训练集95%准确的情况下结束Teacher Force。最后采用NllLoss(Negative Log Likelihood Loss,负对数似然损失)作为损失函数,指导模型的梯度下降过程。NllLoss公式如下:
loss(p,x)=-∑*x*log(p)
其中,x为分类的类别,p为分类为x时的概率。
值得一提的是,还可以输入结束标志,以退出模型的解码循环。
进一步地,步骤202还可以包括以下子步骤:
若所述损失函数小于所述预设阈值,则采用梯度下降法调整所述初始信息提取模型的模型参数;
跳转执行所述将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率的步骤,直至所述损失函数大于所述预设阈值,得到所述目标信息提取模型。
可选地,在得到目标信息提取模型后,还可以输入另外的校验数据,通过目标信息提取模型进行校验数据的信息提取后,得到的物联网终端信息若是与校验数据对应的真实终端信息完全相同,则说明该目标信息提取模型已训练完成;若是存在不同,则继续进行模型训练。
请参阅图3,图3为本发明实施例二提供的一种目标信息提取模型的训练过程示意图。
在本发明实施例中,初始信息提取模型为Encoder-Decoder编码-解码结构,在编码部分Encoder中,接收用户代理信息Input,经词嵌入层Embedding对用户代理信息转换为向量,将向量输入到循环神经网络GRU中,得到输出信息Out和隐藏层信息Hidden并输入到解码部分Decoder;当注意力组件Attention接收到开始标志Start tocken、输出信息Out和隐藏层信息Hidden后,得到注意力信息并输入到循环神经网络GRU,输出隐藏层信息Hidden和中间信息Tocken并再次输入到注意力组件Attention,在预定次数后得到多个中间信息Tocken作为Output,经拼接后得到物联网终端信息Target。
可选地,在前n个Epoch的训练中采用Teacher Force的方式。即不管模型的预测结果,强制将真实结果Target输入到循环神经网络GRU,指导模型的训练,以得到目标信息提取模型。
步骤203,获取所述客户端对应的用户代理信息;
步骤204,将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
在本发明实施例中,步骤203-204的具体实施过程与上述步骤101-102类似,在此不再赘述。
步骤205,通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
在本发明的一个示例中,所述编码部分包括数据预处理组件和第一循环神经网络,步骤205可以包括以下子步骤S11-S12:
S11、通过所述数据预处理组件对所述用户代理信息执行数据预处理操作,得到待提取向量;
进一步地,步骤S11可以包括以下子步骤:
通过所述数据清洗层对所述用户代理信息执行数据清洗,生成清洗数据;
通过所述词嵌入层将所述清洗数据转换为待提取向量。
数据清洗(Data cleaning)指的是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,具体可以包括检查数据一致性,处理无效值和缺失值等过程。
在本发明实施例中,由于用户代理信息中不应该包含ASCII码之外的字符,可以对用户代理信息执行数据清洗,以得到清洗数据,再采用词嵌入层对清洗数据进行转换,以得到待提取向量。
S12、将所述待提取向量输入到所述第一循环神经网络,得到输出信息和隐藏层信息。
步骤206,当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
在本发明的另一个示例中,所述解码部分包括注意力组件和第二循环神经网络,步骤206可以包括以下子步骤:
当接收到所述客户端发送的开始标志时,通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息;
通过所述注意力组件根据所述变换信息和所述输出信息的內积结果,确定与所述用户代理信息对应的注意力信息;
将所述注意力信息输入到所述第二循环神经网络,得到中间信息和循环隐藏层信息;
将所述输出信息和所述开始标志更新为所述中间信息,将所述隐藏层信息更新为所述循环隐藏层信息,跳转执行所述通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息的步骤,直至得到预定数量的所述中间信息;
提取全部所述中间信息,得到多个待拼接信息。
在本发明实施例中,当接收到客户端发送的开始标志时,通过注意力组件拼接开始标志和隐藏层信息,并对拼接后的信息进行线性变换,生成变换信息;对变换信息和输出信息进行內积,得到內积结果,确定与用户代理信息对应的注意力信息;将注意力信息输入到第二循环神经网络,得到中间信息和循环隐藏层信息;将所述输出信息和所述开始标志更新为所述中间信息,将所述隐藏层信息更新为所述循环隐藏层信息,循环上述步骤后得到多个中间信息,将多个中间信息确定为多个待拼接信息。
请参阅图4,图4示出了本发明实施例中的解码过程示意图。
当解码器接收到输出信息和隐藏层信息后,将开始标志和隐藏层信息进行拼接后进行线性变换,将变换后的变换信息与输出信息做內积得到该训练数据内的注意力信息,将注意力信息输入到GRU中进行解码,得到第一个字符H以及第一个字符对应的第一隐藏层信息;以第一个字符和第一隐藏层信息输入到GRU模型进行同样运算,循环预定次数后,得到多个字符H、u、a、W、e和i,将多个字符拼接以得到提取信息HuaWei。
步骤207,拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
在得到多个待拼接信息后,按照待拼接信息的输出顺序,拼接每个待拼接信息,以得到物联网终端信息,将物联网终端信息返回到客户端进行显示,以便于后续对物联网终端信息进行继续处理。
在本发明实施例中,通过服务器获取客户端对应的用户代理信息,将用户代理信息输入到预设的目标信息提取模型,以通过其中的编码部分对用户代理信息进行提取,得到输出信息和隐藏层信息;当接收到客户端发送的开始标志后,通过解码部分采用输出信息和隐藏层信息以及开始标志进行信息预测,生成多个待拼接信息;拼接多个待拼接信息,生成物联网终端信息并返回到客户端。从而解决现有的针对物联网UA采用正则匹配法所导致的终端信息无法准确匹配,难以准确识别终端,不利于物联网信息的进一步分析的技术问题,更为准确匹配识别物联网终端。
请参阅图5,图5为本发明实施例三提供的一种物联网终端信息提取装置的结构框图。
本发明提供的一种物联网终端信息提取装置,应用于服务器,所述服务器与客户端通信连接,所述装置包括:
用户代理信息获取模块501,用于获取所述客户端对应的用户代理信息;
信息输入模块502,用于将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
信息提取模块503,用于通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
信息解码模块504,用于当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
信息拼接模块505,用于拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
可选地,所述编码部分包括数据预处理组件和第一循环神经网络,所述信息提取模块503包括:
待提取向量转换子模块,用于通过所述数据预处理组件对所述用户代理信息执行数据预处理操作,得到待提取向量;
向量输入子模块,用于将所述待提取向量输入到所述第一循环神经网络,得到输出信息和隐藏层信息。
可选地,所述待提取向量转换子模块包括:
数据清洗单元,用于通过所述数据清洗层对所述用户代理信息执行数据清洗,生成清洗数据;
数据转换单元,用于通过所述词嵌入层将所述清洗数据转换为待提取向量。
可选地,所述解码部分包括注意力组件和第二循环神经网络,所述信息解码模块504包括:
变换信息生成子模块,用于当接收到所述客户端发送的开始标志时,通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息;
注意力信息确定子模块,用于通过所述注意力组件根据所述变换信息和所述输出信息的內积结果,确定与所述用户代理信息对应的注意力信息;
注意力信息输入子模块,用于将所述注意力信息输入到所述第二循环神经网络,得到中间信息和循环隐藏层信息;
信息更新子模块,用于将所述输出信息和所述开始标志更新为所述中间信息,将所述隐藏层信息更新为所述循环隐藏层信息,跳转执行所述通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息的步骤,直至得到预定数量的所述中间信息;
中间信息提取子模块,用于提取全部所述中间信息,得到多个待拼接信息。
可选地,还包括:
训练数据获取模块,用于获取训练数据;
训练模块,用于采用所述训练数据训练预设的初始信息提取模型,得到目标信息提取模型。
可选地,所述训练模块包括:
提取信息生成子模块,用于将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率;
损失函数构建子模块,用于根据所述提取信息和所述分类概率,构建损失函数并计算损失值;
第一模型判定子模块,用于若所述损失值大于预设阈值,则生成所述目标信息提取模型。
可选地,所述训练模块还包括:
参数调整子模块,用于若所述损失函数小于所述预设阈值,则采用梯度下降法调整所述初始信息提取模型的模型参数;
第二模型判定子模块,用于跳转执行所述将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率的步骤,直至所述损失函数大于所述预设阈值,得到所述目标信息提取模型。
本发明实施例还提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明任一实施例所述的物联网终端信息提取方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现如本发明任一实施例所述的物联网终端信息提取方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种物联网终端信息提取方法,其特征在于,应用于服务器,所述服务器与客户端通信连接,所述方法包括:
获取所述客户端对应的用户代理信息;
将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
2.根据权利要求1所述的物联网终端信息提取方法,其特征在于,所述编码部分包括数据预处理组件和第一循环神经网络,所述通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息的步骤,包括:
通过所述数据预处理组件对所述用户代理信息执行数据预处理操作,得到待提取向量;
将所述待提取向量输入到所述第一循环神经网络,得到输出信息和隐藏层信息。
3.根据权利要求2所述的物联网终端信息提取方法,其特征在于,所述数据预处理组件包括数据清洗层和词嵌入层,所述通过所述数据预处理组件对所述用户代理信息执行数据预处理操作,得到待提取向量的步骤,包括:
通过所述数据清洗层对所述用户代理信息执行数据清洗,生成清洗数据;
通过所述词嵌入层将所述清洗数据转换为待提取向量。
4.根据权利要求1所述的物联网终端信息提取方法,其特征在于,所述解码部分包括注意力组件和第二循环神经网络,所述当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息的步骤,包括:
当接收到所述客户端发送的开始标志时,通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息;
通过所述注意力组件根据所述变换信息和所述输出信息的內积结果,确定与所述用户代理信息对应的注意力信息;
将所述注意力信息输入到所述第二循环神经网络,得到中间信息和循环隐藏层信息;
将所述输出信息和所述开始标志更新为所述中间信息,将所述隐藏层信息更新为所述循环隐藏层信息,跳转执行所述通过所述注意力组件拼接所述开始标志和所述隐藏层信息并进行线性变换,生成变换信息的步骤,直至得到预定数量的所述中间信息;
提取全部所述中间信息,得到多个待拼接信息。
5.根据权利要求1所述的物联网终端信息提取方法,其特征在于,还包括:
获取训练数据;
采用所述训练数据训练预设的初始信息提取模型,得到目标信息提取模型。
6.根据权利要求5所述的物联网终端信息提取方法,其特征在于,所述采用所述训练数据训练预设的初始信息提取模型,得到目标信息提取模型的步骤,包括:
将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率;
根据所述提取信息和所述分类概率,构建损失函数并计算损失值;
若所述损失值大于预设阈值,则生成所述目标信息提取模型。
7.根据权利要求6所述的物联网终端信息提取方法,其特征在于,还包括:
若所述损失函数小于所述预设阈值,则采用梯度下降法调整所述初始信息提取模型的模型参数;
跳转执行所述将所述训练数据输入到所述预设的初始信息提取模型,得到提取信息及其分类概率的步骤,直至所述损失函数大于所述预设阈值,得到所述目标信息提取模型。
8.一种物联网终端信息提取装置,其特征在于,应用于服务器,所述服务器与客户端通信连接,所述装置包括:
用户代理信息获取模块,用于获取所述客户端对应的用户代理信息;
信息输入模块,用于将所述用户代理信息输入到预设的目标信息提取模型;其中,所述目标信息提取模型包括编码部分和解码部分;
信息提取模块,用于通过所述编码部分提取所述用户代理信息中的输出信息和隐藏层信息;
信息解码模块,用于当接收到所述客户端发送的开始标志时,通过所述解码部分根据所述开始标志、所述输出信息和所述隐藏层信息,生成多个待拼接信息;
信息拼接模块,用于拼接多个所述待拼接信息,生成物联网终端信息并返回到所述客户端。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的物联网终端信息提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的物联网终端信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110162802.2A CN112800043A (zh) | 2021-02-05 | 2021-02-05 | 一种物联网终端信息提取方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110162802.2A CN112800043A (zh) | 2021-02-05 | 2021-02-05 | 一种物联网终端信息提取方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800043A true CN112800043A (zh) | 2021-05-14 |
Family
ID=75814423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110162802.2A Pending CN112800043A (zh) | 2021-02-05 | 2021-02-05 | 一种物联网终端信息提取方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800043A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256436A (zh) * | 2021-07-02 | 2021-08-13 | 平安科技(深圳)有限公司 | 车险赔付预提示方法、装置、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103051672A (zh) * | 2012-11-21 | 2013-04-17 | 中兴通讯股份有限公司 | 一种异构终端环境中的终端信息获取方法及装置 |
CN103678393A (zh) * | 2012-09-20 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 获取信息的方法和装置 |
CN103873477A (zh) * | 2014-03-27 | 2014-06-18 | 江苏物联网研究发展中心 | 农资物联网中基于二维码及非对称加密的访问认证方法 |
CN104079608A (zh) * | 2013-03-29 | 2014-10-01 | 株式会社日立制作所 | 物联网用的代理模块设备及其方法 |
CN104144180A (zh) * | 2013-05-07 | 2014-11-12 | 中兴通讯股份有限公司 | 一种物联网管理方法、物联网客户端及物联网平台 |
CN106230917A (zh) * | 2016-07-26 | 2016-12-14 | 广东凯通科技股份有限公司 | 一种批量数据通信方法、装置和*** |
CN106650256A (zh) * | 2016-12-20 | 2017-05-10 | 安徽安龙基因医学检验所有限公司 | 一种分子诊疗精准医学平台 |
KR20180003665A (ko) * | 2016-06-30 | 2018-01-10 | 전자부품연구원 | IoT 기반의 공장 통합 관리 장치에 의한 웹 서비스 방법 |
WO2018184418A1 (zh) * | 2017-04-06 | 2018-10-11 | 平安科技(深圳)有限公司 | 数据清洗的方法、终端及计算机可读存储介质 |
CN110309407A (zh) * | 2018-03-13 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111797076A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据清理方法、装置、存储介质及电子设备 |
CN111835836A (zh) * | 2020-06-24 | 2020-10-27 | 清科优能(深圳)技术有限公司 | 一种智慧物联网终端数据处理装置及方法 |
CN112217831A (zh) * | 2017-09-18 | 2021-01-12 | 创新先进技术有限公司 | 关于物联网设备的信息交互方法、装置及设备 |
CN112270172A (zh) * | 2020-10-21 | 2021-01-26 | 北京钛氪新媒体科技有限公司 | 一种基于网页标签分布特征的网络数据自动清洗方法和*** |
-
2021
- 2021-02-05 CN CN202110162802.2A patent/CN112800043A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678393A (zh) * | 2012-09-20 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 获取信息的方法和装置 |
CN103051672A (zh) * | 2012-11-21 | 2013-04-17 | 中兴通讯股份有限公司 | 一种异构终端环境中的终端信息获取方法及装置 |
CN104079608A (zh) * | 2013-03-29 | 2014-10-01 | 株式会社日立制作所 | 物联网用的代理模块设备及其方法 |
CN104144180A (zh) * | 2013-05-07 | 2014-11-12 | 中兴通讯股份有限公司 | 一种物联网管理方法、物联网客户端及物联网平台 |
CN103873477A (zh) * | 2014-03-27 | 2014-06-18 | 江苏物联网研究发展中心 | 农资物联网中基于二维码及非对称加密的访问认证方法 |
KR20180003665A (ko) * | 2016-06-30 | 2018-01-10 | 전자부품연구원 | IoT 기반의 공장 통합 관리 장치에 의한 웹 서비스 방법 |
CN106230917A (zh) * | 2016-07-26 | 2016-12-14 | 广东凯通科技股份有限公司 | 一种批量数据通信方法、装置和*** |
CN106650256A (zh) * | 2016-12-20 | 2017-05-10 | 安徽安龙基因医学检验所有限公司 | 一种分子诊疗精准医学平台 |
WO2018184418A1 (zh) * | 2017-04-06 | 2018-10-11 | 平安科技(深圳)有限公司 | 数据清洗的方法、终端及计算机可读存储介质 |
CN112217831A (zh) * | 2017-09-18 | 2021-01-12 | 创新先进技术有限公司 | 关于物联网设备的信息交互方法、装置及设备 |
CN110309407A (zh) * | 2018-03-13 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 观点提取方法及装置 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111797076A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据清理方法、装置、存储介质及电子设备 |
CN111835836A (zh) * | 2020-06-24 | 2020-10-27 | 清科优能(深圳)技术有限公司 | 一种智慧物联网终端数据处理装置及方法 |
CN112270172A (zh) * | 2020-10-21 | 2021-01-26 | 北京钛氪新媒体科技有限公司 | 一种基于网页标签分布特征的网络数据自动清洗方法和*** |
Non-Patent Citations (1)
Title |
---|
常新旭;张杨;杨林;寇金桥;王昕;徐冬冬;: "融合多头自注意力机制的语音增强方法", 西安电子科技大学学报, no. 01, 15 November 2019 (2019-11-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256436A (zh) * | 2021-07-02 | 2021-08-13 | 平安科技(深圳)有限公司 | 车险赔付预提示方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220386A (zh) | 信息推送方法和装置 | |
CN111460807A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN105095444A (zh) | 信息获取方法和装置 | |
CN110705301A (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN110717325A (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN105677931A (zh) | 信息搜索方法和装置 | |
CN115082041B (zh) | 用户信息管理方法、装置、设备及存储介质 | |
CN113011191A (zh) | 一种知识联合抽取模型训练方法 | |
CN112364923A (zh) | 样本数据的处理方法及装置、***、存储介质、电子设备 | |
CN112800043A (zh) | 一种物联网终端信息提取方法、装置、设备和存储介质 | |
CN113343701A (zh) | 一种电力设备故障缺陷文本命名实体的抽取方法及装置 | |
CN113378921A (zh) | 数据筛选方法、装置及电子设备 | |
CN113920497B (zh) | 一种铭牌识别模型的训练、铭牌的识别方法及相关装置 | |
CN113342932B (zh) | 目标词向量的确定方法、装置、存储介质和电子装置 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 | |
CN114969334A (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN112395855A (zh) | 基于评论的评价方法及装置 | |
CN112651449A (zh) | 确定视频的内容特征的方法、装置、电子设备及存储介质 | |
CN113342930B (zh) | 基于串向量的文本表示方法和装置、电子设备、存储介质 | |
CN113255292B (zh) | 基于预训练模型的端到端文本生成方法及相关设备 | |
CN108038230B (zh) | 基于人工智能的信息生成方法和装置 | |
CN117034939A (zh) | 融合字典知识的命名实体识别方法以及相关设备 | |
CN116167872A (zh) | 异常医疗数据检测方法、装置及设备 | |
CN116127920A (zh) | 信息提取模型的训练方法及装置 | |
CN117391713A (zh) | 信息推送方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |