CN112269911A - 设备信息识别方法、模型训练方法、装置、设备及介质 - Google Patents

设备信息识别方法、模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN112269911A
CN112269911A CN202011259310.7A CN202011259310A CN112269911A CN 112269911 A CN112269911 A CN 112269911A CN 202011259310 A CN202011259310 A CN 202011259310A CN 112269911 A CN112269911 A CN 112269911A
Authority
CN
China
Prior art keywords
text data
preset
social
social text
equipment information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011259310.7A
Other languages
English (en)
Inventor
刘宝强
肖云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Skieer Information Technology Co ltd
Original Assignee
Shenzhen Skieer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skieer Information Technology Co ltd filed Critical Shenzhen Skieer Information Technology Co ltd
Priority to CN202011259310.7A priority Critical patent/CN112269911A/zh
Publication of CN112269911A publication Critical patent/CN112269911A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种设备信息识别方法、模型训练方法、装置、设备及介质,涉及计算机数据处理技术领域。其中,该设备信息识别方法包括:获取待识别社交文本数据;提取所述待识别社交文本数据对应的融合特征;将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。其中,通过预设设备信息识别模型能够根据待识别社交文本数据对应的融合特征识别出对应的设备信息,避免了社交文本数据的一词多义问题对设备信息抽取的干扰,提高了设备信息识别的准确性。

Description

设备信息识别方法、模型训练方法、装置、设备及介质
技术领域
本申请涉及计算机数据处理技术领域,具体而言,涉及一种设备信息识别方法、模型训练方法、装置、设备及介质。
背景技术
随着互联网技术的不断发展,越来越多的用户开始在社交媒体上发表自己的感受,例如一件产品的使用感受以及购买体验,以表达自己对该产品的观点。这些观点和感受对于商家以及想要购买该产品的用户而言是非常重要的。商家通过对大量的用户评论进行分析,可以了解用户对该产品的看法,并对用户不满意的点进行改进,以达到对产品性能上的优化。而有意愿购买该产品的用户,可以通过参考已经购买过该产品的用户所发表的使用体验来辅助决策。
目前,用户在固定的平台上,能够轻松的获取评论对应的产品主体。
但是,如果从社交网站抽取设备信息,由于社交媒体平台的开放性,很难知道用户文本内容针对的评价主体,以及该主体对应的竞品,且由于文本数据可能存在一词多义问题,导致现有的抽取方式准确性不高。
发明内容
为了解决现有技术中存在的问题,本申请提供了一种设备信息识别方法、模型训练方法、装置、设备及介质。
本申请第一方面提供一种设备信息识别方法,包括:
获取待识别社交文本数据;
提取所述待识别社交文本数据对应的融合特征;
将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。
可选地,所述提取所述待识别社交文本数据对应的融合特征,包括:
采用预设分词词典,转换处理所述待识别社交文本数据,获取对应的词向量和/或字向量;
对所述词向量和/或字向量进行融合,获取所述融合特征。
可选地,所述对所述词向量和/或字向量进行融合,获取所述融合特征,包括:
对所述词向量、所述字向量进行拼接,获取拼接后的矩阵。
本申请第二方面提供一种设备信息识别模型训练方法,包括:
获取样本文本数据,所述样本文本数据包括标注设备信息的社交文本数据;
根据所述样本文本数据和预设神经网络,训练获取预设设备信息识别模型,所述预设设备信息识别模型用于根据社交文本数据识别获取设备信息。
可选地,所述获取样本文本数据,包括:
获取社交文本数据;
根据预设关键词标注所述社交文本数据,获取标注后的所述样本文本数据。
可选地,所述获取社交文本数据,包括:
通过网络爬取初始社交文本数据;
根据预设文本过滤规则,对所述初始社交文本数据进行数据清洗,获取所述社交文本数据。
可选地,所述根据所述样本文本数据和预设神经网络,训练获取预设设备信息识别模型,包括:
采用预设分词词典,转换处理所述样本文本数据,获取对应的词向量和/或字向量;
对所述词向量和/或字向量进行融合,获取融合特征;
根据所述融合特征和预设神经网络,训练获取预设设备信息识别模型。
可选地,所述设备信息包括下述至少一项:设备品牌、型号、品牌参数。
本申请第三方向提供一种设备信息识别装置,包括:获取单元以及特征融合单元;
所述获取单元,用于获取待识别社交文本数据;
所述特征融合单元,用于提取所述待识别社交文本数据对应的融合特征;
所述获取单元,还用于将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。
可选地,所述特征融合单元,具体用于采用预设分词词典,转换处理所述待识别社交文本数据,获取对应的词向量和/或字向量;
对所述词向量和/或字向量进行融合,获取所述融合特征。
可选地,所述特征融合单元,具体用于对所述词向量、所述字向量进行拼接,获取拼接后的矩阵。
本申请第四方面提供一种设备信息识别模型训练装置,包括:获取单元以及训练单元;
所述获取单元,用于获取样本文本数据,所述样本文本数据包括标注设备信息的社交文本数据;
所述训练单元,用于根据所述样本文本数据和预设神经网络,训练获取预设设备信息识别模型,所述预设设备信息识别模型用于根据社交文本数据识别获取设备信息。
可选地,所述获取单元,具体用于获取社交文本数据;
根据预设关键词标注所述社交文本数据,获取标注后的所述样本文本数据。
可选地,所述获取单元,具体用于通过网络爬取初始社交文本数据;
根据预设文本过滤规则,对所述初始社交文本数据进行数据清洗,获取所述社交文本数据。
可选地,所述训练单元,用于采用预设分词词典,转换处理所述样本文本数据,获取对应的词向量和/或字向量;
对所述词向量和/或字向量进行融合,获取融合特征;
根据所述融合特征和预设神经网络,训练获取预设设备信息识别模型。
可选地,所述设备信息包括下述至少一项:设备品牌、型号、品牌参数。
本申请第五方面提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述第一方面和第二方面所述方法的步骤。
本申请第六方面提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,执行如上述第一方面和第二方面所述方法的步骤。
本申请提供一种设备信息识别方法、模型训练方法、装置、设备及介质。其中,该设备信息识别方法包括:获取待识别社交文本数据;提取所述待识别社交文本数据对应的融合特征;将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。其中,通过预设设备信息识别模型能够根据待识别社交文本数据对应的融合特征识别出对应的设备信息,避免了社交文本数据的一词多义问题对设备信息抽取的干扰,提高了设备信息识别的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的设备信息识别方法的流程示意图;
图2为本申请另一实施例提供的设备信息识别方法的流程示意图;
图3为本申请一实施例提供的设备信息识别模型训练方法的流程示意图;
图4为本申请另一实施例提供的设备信息识别模型训练方法的流程示意图;
图5为本申请另一实施例提供的设备信息识别模型训练方法的流程示意图;
图6为本申请另一实施例提供的设备信息识别模型训练方法的流程示意图;
图7为本申请一实施例提供的设备信息识别装置的示意图;
图8为本申请一实施例提供的设备信息识别模型训练装置的示意图;
图9为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
目前,用户在固定的平台上,能够轻松的获取评论对应的产品主体,例如在购物平台上,针对购买的某款产品进行评论,那么评论主体一定是对应的产品。而由于社交媒体平台的开放性,用户可以针对任何事物进行评论,很难知道用户文本内容针对的评价主体,以及该主体对应的竞品。现有的从社交网站抽取设备信息的方式,由于文本数据可能存在一词多义问题,导致现有的设备信息抽取方式准确性不高。
为了解决上述现有技术中存在的技术问题,本申请提供一种发明构思:将待识别社交文本数据的融合特征输入预先训练的设备信息识别模型,对待识别社交文本数据中的设备信息进行识别。通过预设设备信息识别模型能够根据待识别社交文本数据对应的融合特征对待识别社交文本数据包含的设备信息进行准确识别,避免了社交文本数据的一词多义问题对设备识别信息抽取的干扰,提高了设备信息识别的准确性。
下面通过可能的实现方式对本申请所提供的具体技术方案进行说明。
图1为本申请一实施例提供的一种设备信息识别方法的流程示意图,该方法的执行主体可以是智能移动设备、计算机、服务器等具有处理功能设备。如图1所示,该方法包括:
S101、获取待识别社交文本数据。
在本申请实施例中,待识别社交文本数据可以是从社交网络平台,例如:知乎、微博、小红书等公开的网络社交平台,获取的用户评论信息。
需要说明的是,用户评论信息可以是用户针对某一设备,例如:智能手机、电脑、平板、家用电器等设备发表的使用感受信息。
S102、提取待识别社交文本数据对应的融合特征。
在本申请实施例中,在提取待识别社交文本数据的融合特征之前还可以通过预设算法去除待识别社交文本数据中的噪声信息。需要说明的是,噪声信息可以是待识别社交文本数据中包含的代言人信息、表情符号信息、语气词、营销文本数据等无关信息。
对噪声信息的去除可以通过,预存营销文本、代言人、表情符等相关的关键词、关键字信息,将待识别社交文本数据与预存的关键词、关键字信息进行比对,当待识别社交文本数据中包含预存的关键词、关键字信息时,则将待识别社交文本数据中包含有关键词、关键字的语句进行删除。
此外,对于没有任何标点符号分割的较长文本评论,可以采用文本排序算法,例如:textrank,对文本进行分割,人为添加标点符号进行断句。
进一步地,在去除待识别社交文本数据中的噪声数据之后,需要提取去噪的待识别社交文本数据对应的融合特征。
在第一种可能的实现方式中,可以通过神经网络提取待识别社交文本数据中的融合特征。在另一种可能的实现方式中,可以将待识别社交文本数据进行分词、分字处理,在预先保存所有分词、分字对应的特征向量的基础上,通过查询方式获取待识别社交文本数据对应的融合特征。
S103、将融合特征输入预设设备信息识别模型,得到待识别社交文本数据中的设备信息。
在本申请实施例中,可以将融合特征输入预设设备信息识别模型,得到待识别社交文本数据中包含的设备信息。
可选地,设备信息可以是:设备型号、设备品牌、型号参数等信息中的一种或者多种组合。预设设备信息识别模型通过样本文本数据训练获取,样本文本数据包括标注设备信息的社交文本数据。
本申请提供一种设备信息识别方法,包括:获取待识别社交文本数据;提取所述待识别社交文本数据对应的融合特征;将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。其中,通过预设设备信息识别模型能够根据待识别社交文本数据对应的融合特征识别出对应的设备信息,避免了社交文本数据的一词多义问题对设备信息抽取的干扰,提高了设备信息识别的准确性。
图2为本申请另一实施例提供的一种设备信息识别方法的流程示意图,如图2所示,另一种实现方式中,步骤S102可以包括:
S201、采用预设分词词典,转换处理待识别社交文本数据,获取对应的词向量和/或字向量。
在本申请实施例中,获取对应的词向量和/或字向量之前,还可以通过分词、分字工具或者预设分词、分字方法,对待识别社交文本数据进行分词、分字处理。其中,分词、分字工具例如:结巴分词,但不以此为限。
示例性地,当待识别社交文本数据为,华为手机还不错,通过分字处理,首先分为“华”、“为”、“手”、“机”、“还”、“不”、“错”,然后经过分词处理,分为“华为”,“手机”,“还”,“不错”。
预设分词词典可以是包含有当前所有设备评论信息相关的字、词语以及字、词语对应的词向量、字向量的查询工具。
预设分词词典的获取过程如下:获取设备评论信息相关的所有字以及词语,将所有字以及词语使用向量化表示模型,例如:Word2vec或Glove进行处理,得到所有字以及词语对应的“词向量”以及“字向量”。
将待识别社交文本数据中包含的字、词语通过字典查询方式,查找与预设分词词典中的“词向量”以及“字向量”的对应关系,最终得到待识别文本数据对应的词向量和/或字向量。
S202、对词向量和/或字向量进行融合,获取融合特征。
可选地,在一种可能的实现方式中,可以将字向量和词向量进行特征拼接获取融合特征。
在另一种可能的实现方式中,还可以通过特征叠加的方式将字向量和词向量进行特征融合。
需要说明的是,特征拼接会发生特征通道数的增加,特征叠加不会产生特征通道数的增加。
可选地,当采用特征拼接获取融合特征时,对词向量和/或字向量进行融合,获取融合特征,具体包括:
对词向量、字向量进行拼接,获取拼接后的矩阵。
在本申请实施例中,特征向量可以以特征矩阵的形式存储和表示,对词向量、字向量进行拼接,即是将词向量、字向量对应的特征矩阵进行拼接,获取拼接后的矩阵作为融合特征。
图3为本申请一实施例提供的一种设备信息识别模型训练方法的流程示意图,如图3所示,该方法包括:
S301、获取样本文本数据。
可选地,在本申请实施例中,样本文本数据包括标注设备信息的社交文本数据。
示例性地,可以将当前所有的设备信息作为关键字或者关键词,设备信息可以包括:设备型号、设备品牌、型号参数等信息。依据设备信息对去噪之后的社交文本数据进行标注,获取样本文本数据。
具体的标注规则,可以根据实际需求进行设定,本申请实施例对此不作限定。
S302、根据样本文本数据和预设神经网络,训练获取预设设备信息识别模型,预设设备信息识别模型用于根据社交文本数据识别获取设备信息。
在本申请实施例中,预设神经网络可以是双向循环神经网络和条件随机场,也可以为其他网路模型,本申请实施例对于模型的选取不作限定。
本申请实施例提供了一种设备信息识别模型训练方法,该方法包括:获取样本文本数据,样本文本数据包括标注设备信息的社交文本数据;根据样本文本数据和预设神经网络,训练获取预设设备信息识别模型,预设设备信息识别模型用于根据社交文本数据识别获取设备信息。本方案中,通过预训练得到预设设备信息识别模型,当需要对社交文本数据进行设备信息识别时,可以直接将待识别社交文本数据的融合特征输入预先训练的设备信息识别模型,达到对待识别社交文本数据包含的设备信息的准确识别,避免了社交文本数据的一词多义问题对设备识别信息抽取的干扰,提高了设备信息识别的准确性。
图4为本申请另一实施例提供的一种设备信息识别模型训练方法的流程示意图,如图4所示,步骤S301具体可以包括:
S401、获取社交文本数据。
S402、根据预设关键词标注社交文本数据,获取标注后的样本文本数据。
在本申请实施例中,获取到社交文本数据之后,可以根据序列标注方法,例如:BIESO,同时依据预设关键词标注社交文本数据,获取标注后的样本文本数据。
需要说明的是,预设关键词可以为采集获取的当前所有设备的型号信息、品牌信息、品牌参数等。
示例性地,当利用BIESO进行序列标注时,执行规则如下:B表示实体首部字;I表示实体内部字;E表示实体尾部字;S表示单字实体字;O表示非实体构成字。例如,当社交文本数据为,“小米手机还不错”时,标注完成的数据如下:小B-品牌_小米;米E-品牌_小米;还O;不O;错O。当社交文本数据为,“这个小米粥还不错”时,则标注信息可以是:这O;个O;小B-小米;米I-小米;粥E-小米;还O;不O;错O。当社交文本数据中出现“OPPP R17 PRO”时,标注完成的数据可以是:O B-品牌_OPPO;P I-品牌_OPPO;P I-品牌_OPPO;O E-品牌_OPPO;R B-型号_OPPO;1I-型号_OPPO;7I-型号_OPPO;P I-型号_OPPO;R I-型号_OPPO;O E-型号_OPPO。
图5为本申请另一实施例提供的一种设备信息识别模型训练方法的流程示意图,如图5所示,步骤S401具体还可以包括:
S501、通过网络爬取初始社交文本数据。
S502、根据预设文本过滤规则,对初始社交文本数据进行数据清洗,获取社交文本数据。
可以通过公共社交平台获取一定数量的初始社交文本数据。其中,获取的初始社交文本数据包含了大量的噪声信息,例如:代言人信息、表情符号信息、语气词、营销文本数据等,为了避免噪声数据对设备信息识别时的干扰,同时为了减轻处理器的处理负担,在本申请实施例中通过网络爬虫技术获取到初始社交文本数据之后,还可以根据预设文本过滤规则,对初始社交文本进行数据清洗。
预设文本过滤规则可以为,预存营销文本、代言人、表情符等相关的关键词、关键字信息,将初始社交文本数据与预存的关键词、关键字信息进行比对,当初始社交文本数据中包含预存的关键词、关键字信息时,则将初始社交文本数据中包含有关键词、关键字的语句进行删除。此外,对于没有任何标点符号分割的较长初始社交文本数据,可以采用文本排序算法,例如:textrank,对初始社交文本数据进行分割,人为添加标点符号进行断句。
图6为本申请另一实施例提供的一种设备信息识别模型训练方法的流程示意图,如图6所示,步骤S302具体还可以包括:
S601、采用预设分词词典,转换处理样本文本数据,获取对应的词向量和/或字向量。
S602、对词向量和/或字向量进行融合,获取融合特征。
S603、根据融合特征和预设神经网络,训练获取预设设备信息识别模型。
在本申请实施例中,预设分词词典可以是包含有当前所有设备评论信息相关的字、词语以及字、词语对应的词向量、字向量的查询工具。
可选地,在本申请实施例中,将样本文本数据进行分字、分词处理,并利用预设分词词典,将由上述样本文本数据拆分得到的字、词语转换为对应的词向量和/或字向量。
对获取得到的词向量和/或字向量进行特征融合处理,得到融合特征。可选地,特征融合处理的方式可以为:特征叠加或者特征拼接,对于特征融合的具体方式,本申请实施例不做限定。
将融合特征输入预设神经网络,得到预设设备信息识别模型。
可选地,设备信息包括下述至少一项:设备品牌、型号、品牌参数。
下述对用以执行本申请所提供的设备信息识别装置及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图7为本申请一实施例提供的设备信息识别装置的示意图,如图7所示,该装置可以包括:获取单元701以及特征融合单元702;
获取单元701,用于获取待识别社交文本数据;
特征融合单元702,用于提取待识别社交文本数据对应的融合特征;
获取单元701,还用于将融合特征输入预设设备信息识别模型,得到待识别社交文本数据中的设备信息,其中,预设设备信息识别模型通过样本文本数据训练获取,样本文本数据包括标注设备信息的社交文本数据。
可选地,特征融合单元702,具体用于采用预设分词词典,转换处理待识别社交文本数据,获取对应的词向量和/或字向量;
对词向量和/或字向量进行融合,获取融合特征。
可选地,特征融合单元702,具体用于对词向量、字向量进行拼接,获取拼接后的矩阵。
图8为本申请一实施例提供的一种设备信息识别模型训练装置的示意图,如图8所示,该装置包括:获取单元801以及训练单元802;
获取单元801,用于获取样本文本数据,样本文本数据包括标注设备信息的社交文本数据;
训练单元802,用于根据样本文本数据和预设神经网络,训练获取预设设备信息识别模型,预设设备信息识别模型用于根据社交文本数据识别获取设备信息。
可选地,获取单元801,具体用于获取社交文本数据;
根据预设关键词标注社交文本数据,获取标注后的样本文本数据。
可选地,获取单元801,具体用于通过网络爬取初始社交文本数据;
根据预设文本过滤规则,对初始社交文本数据进行数据清洗,获取社交文本数据。
可选地,训练单元802,用于采用预设分词词典,转换处理样本文本数据,获取对应的词向量和/或字向量;
对词向量和/或字向量进行融合,获取融合特征;
根据融合特征和预设神经网络,训练获取预设设备信息识别模型。
可选地,设备信息包括下述至少一项:设备品牌、型号、品牌参数。
图9为本申请实施例提供的电子设备的结构示意图,包括:处理器710、存储介质720和总线730,存储介质720存储有处理器710可执行的机器可读指令,当电子设备运行时,处理器710与存储介质720之间通过总线730通信,处理器710执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种设备信息识别方法,其特征在于,包括:
获取待识别社交文本数据;
提取所述待识别社交文本数据对应的融合特征;
将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别社交文本数据对应的融合特征,包括:
采用预设分词词典,转换处理所述待识别社交文本数据,获取对应的词向量和/或字向量;
对所述词向量和/或字向量进行融合,获取所述融合特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述词向量和/或字向量进行融合,获取所述融合特征,包括:
对所述词向量、所述字向量进行拼接,获取拼接后的矩阵。
4.一种设备信息识别模型训练方法,其特征在于,包括:
获取样本文本数据,所述样本文本数据包括标注设备信息的社交文本数据;
根据所述样本文本数据和预设神经网络,训练获取预设设备信息识别模型,所述预设设备信息识别模型用于根据社交文本数据识别获取设备信息。
5.根据权利要求4所述的方法,其特征在于,所述获取样本文本数据,包括:
获取社交文本数据;
根据预设关键词标注所述社交文本数据,获取标注后的所述样本文本数据。
6.根据权利要求5所述的方法,其特征在于,所述获取社交文本数据,包括:
通过网络爬取初始社交文本数据;
根据预设文本过滤规则,对所述初始社交文本数据进行数据清洗,获取所述社交文本数据。
7.根据权利要求4-6任一项所述的方法,其特征在于,所述根据所述样本文本数据和预设神经网络,训练获取预设设备信息识别模型,包括:
采用预设分词词典,转换处理所述样本文本数据,获取对应的词向量和/或字向量;
对所述词向量和/或字向量进行融合,获取融合特征;
根据所述融合特征和预设神经网络,训练获取预设设备信息识别模型。
8.一种设备信息识别装置,其特征在于,包括:获取单元以及特征融合单元;
所述获取单元,用于获取待识别社交文本数据;
所述特征融合单元,用于提取所述待识别社交文本数据对应的融合特征;
所述获取单元,还用于将所述融合特征输入预设设备信息识别模型,得到所述待识别社交文本数据中的设备信息,其中,所述预设设备信息识别模型通过样本文本数据训练获取,所述样本文本数据包括标注设备信息的社交文本数据。
9.一种设备信息识别模型训练装置,其特征在于,包括:获取单元以及训练单元;
所述获取单元,用于获取样本文本数据,所述样本文本数据包括标注设备信息的社交文本数据;
所述训练单元,用于根据所述样本文本数据和预设神经网络,训练获取预设设备信息识别模型,所述预设设备信息识别模型用于根据社交文本数据识别获取设备信息。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一项所述方法的步骤。
CN202011259310.7A 2020-11-11 2020-11-11 设备信息识别方法、模型训练方法、装置、设备及介质 Pending CN112269911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011259310.7A CN112269911A (zh) 2020-11-11 2020-11-11 设备信息识别方法、模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011259310.7A CN112269911A (zh) 2020-11-11 2020-11-11 设备信息识别方法、模型训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112269911A true CN112269911A (zh) 2021-01-26

Family

ID=74339022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011259310.7A Pending CN112269911A (zh) 2020-11-11 2020-11-11 设备信息识别方法、模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112269911A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法
CN110516251A (zh) * 2019-08-29 2019-11-29 秒针信息技术有限公司 一种电商实体识别模型的构建方法、构建装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110516251A (zh) * 2019-08-29 2019-11-29 秒针信息技术有限公司 一种电商实体识别模型的构建方法、构建装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王洪亮;: "基于词向量聚类的中文微博产品命名实体识别", 兰州理工大学学报, no. 01, pages 110 - 116 *

Similar Documents

Publication Publication Date Title
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN108304526B (zh) 一种数据处理方法、装置及服务器
CN110852793A (zh) 文案推荐方法及装置、电子设备
CN108305180B (zh) 一种好友推荐方法及装置
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN111241842B (zh) 文本的分析方法、装置和***
CN102789449B (zh) 对评论文本进行评价的方法和装置
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN110688455A (zh) 基于人工智能过滤无效评论的方法、介质及计算机设备
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN114780709A (zh) 文本匹配方法、装置及电子设备
CN108984777B (zh) 客户服务方法、装置和计算机可读存储介质
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
Soliman et al. Utilizing support vector machines in mining online customer reviews
CN111787042B (zh) 用于推送信息的方法和装置
CN112860860A (zh) 一种答复问题的方法和装置
CN112269911A (zh) 设备信息识别方法、模型训练方法、装置、设备及介质
CN114610863A (zh) 对话文本的推送方法及装置、存储介质、终端
CN107729499A (zh) 信息处理方法、介质、***和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518000 1st floor, building 10, new material port, high tech middle first road, science and Technology Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Shukuo Information Technology Co.,Ltd.

Address before: 518000 1st floor, building 10, new material port, high tech middle first road, science and Technology Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210126

RJ01 Rejection of invention patent application after publication