CN106997350B

CN106997350B - 一种数据处理的方法及装置

Info

Publication number: CN106997350B
Application number: CN201610045006.XA
Authority: CN
Inventors: 肖汉平
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2020-11-17
Anticipated expiration: 2036-01-22
Also published as: CN106997350A

Abstract

本申请实施例提供一种数据处理的方法及装置，该方法在获取到对象的描述信息后，可根据服务器中预先保存的各标准词，将描述信息中与各标准词相匹配的各分词作为该对象的各候选词，并通过预设的判别规则，从各候选词中确定出该对象的特征词，进而提取出该特征词所对应的数据，进行该数据的相关处理工作。在上述方法中，即使用户填写的描述信息错误，那么服务器得到的候选词中有可能会出现错误的候选词，但通过一定的判别规则，仍可从各候选词中确定出特征词，因此，与现有技术相比，可有效的提高服务器对特征词进行识别的准确度，进而提高数据处理的准确性。

Description

一种数据处理的方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理的方法及装置。

背景技术

随着计算机技术的飞速发展，服务器对数据信息的处理能力已变得愈加的成熟，使得人们可通过服务器方便完成数据存储、数据调取、数据分型等数据处理工作，极大的提高了人们在进行数据处理工作时的工作效率，节省了工作时间。

在实际应用中，人们有时需要对一些对象的数据信息进行处理，而人们在对数据信息进行处理之前，通常需要通过服务器来对各对象的数据信息进行归一化处理，即，将同一对象在不同使用场景中的各数据信息进行汇总，然后，服务器再根据汇总后得到的数据信息来确定出该对象的分析数据，进而，供人们对其进行处理。

服务器在对各对象的数据信息进行归一化处理时，通常需要从各对象的描述信息(描述对象具体特征的信息)中提取特征词，进而基于特征词，来对同一对象在不同使用场景中的各数据信息进行汇总。

现有技术中基于特征词进行数据处理的方法为，服务器在获取到对象的描述信息后，将该描述信息拆分成若干个分词，并将各个分词与预先建立的特征库中存储的特征词进行匹配，当对象的描述信息中的某个分词与特征库中存储的特征词相匹配时，则将该分词确定为该对象的特征词。通过此种方法，服务器在确定出各对象的特征词后，可将同一特征词对应的数据信息进行汇总，从而确定出各对象的分析数据。

然而，在现有技术中，对象的描述信息通常都是由用户自行填写的，由于受主观因素的影响，用户所填写的各对象的描述信息可能并不准确，这就导致后续服务器不能准确的确定出对象的特征词，进而导致数据处理的准确性较低。

发明内容

本申请实施例提供一种数据处理方法及装置，用以解决现有技术中数据处理准确性较低的问题。

本申请实施例提供的一种数据处理的方法，包括：

服务器获取对象的描述信息；

根据预先保存的各标准词，确定所述描述信息中与标准词相匹配的各分词，作为所述对象的各候选词；

根据预设的判别规则，从各候选词中确定出所述对象的特征词；

根据确定出的所述特征词，提取所述特征词对应的数据，并对提取的数据进行处理。

本申请实施例提供的一种数据处理的装置，包括：

获取模块，用于获取对象的描述信息；

确定分词模块，用于根据预先保存的各标准词，确定所述描述信息中与标准词相匹配的各分词，作为所述对象的各候选词；

确定特征模块，用于根据预设的判别规则，从各候选词中确定出所述对象的特征词；

提取模块，用于根据确定出的所述特征词，提取所述特征词对应的数据，并对提取的数据进行处理。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的数据处理的过程；

图2为本申请实施例提供的数据处理装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的数据处理的过程，具体包括以下步骤：

S101：服务器获取对象的描述信息。

在实际应用中，服务器有时需要对一些对象的数据信息进行汇总，并对汇总后的数据信息进行处理，其中，该对象可以是商品、个人、实验物品等，而服务器在获取这些对象的数据信息之前，需要先确定出该对象的特征词，进而基于该特征词，来对该对象的相关数据进行汇总。通常情况下，各对象的特征词都位于每个对象的描述信息中，因此，服务器在确定出各对象的特征词之前，首先应获取各对象的描述信息，进而通过后续步骤S102～S103，来对该对象的特征词进行提取。

通常情况下，对象的描述信息都是由用户根据实际的情况自行进行填写的，因此，用户在填写完各对象的描述信息后，可将各描述信息发送至服务器中，继而使得服务器可获取到各对象的描述信息，而除此之外，服务器也可自行来获取各对象的描述信息，即，服务器可通过扫描各用户在一些诸如商家店铺、社交网站或科学论坛等场景中所展示的各对象的描述信息，来获取到各对象的描述信息。

S102：根据预先保存的各标准词，确定所述描述信息中与标准词相匹配的各分词，作为所述对象的各候选词。

服务器在获取到各对象的描述信息后，可根据服务器中预先保存的各标准词，判断出各对象的描述信息中，有哪些词可能会是对象的特征词，其中，当描述信息存在与标准词相匹配的分词时，可将该分词作为对象的一个候选词进行提取。

具体的，在实际应用中，服务器在获取到各对象的描述信息后，由于不确定描述信息中哪个词是真正的对象的特征词，则服务器需要先在描述信息中选出最有可能是对象特征词的若干个分词作为对象的候选词，而后再在这些候选词中进一步的确定出对象真正的特征词。因此，服务器可根据预先保存的各标准词，来确定出对象的特征词，其中，各标准词是由服务器预先收集大量样本对象的描述信息中的候选词来得到的，并且，各标准词都是具有一定特征的，服务器在确定对象的候选词时，可将预先保存的各标准词依次与描述信息中的各分词进行匹配，当描述信息中一个或几个分词与服务器预先保存的各标准词中的一个或几个相匹配时，则将这一个或几个分词作为对象的候选词，并对其进行提取。

例如，假设某网络论坛要评选出在自由讨论区中用户最感兴趣的讨论话题时，需要汇总各用户在该网络论坛中的数据信息，因此，服务器需要对用户的描述信息进行提取，来确定出各用户的候选词，其中，用户A的描述信息为姓名XXX、年龄23、兴趣话题Game、账号名称picture001，服务器在将该描述信息与预先保存的各标准词进行匹配时，发现描述信息中的23、Game、picture001这几个分词与保存的标准词相匹配，则服务器可将这几个分词作为该用户A的候选词。

需要说明的是，服务器中也可设置一个专门用于存储各标准词的标准库，使得服务器在获取到各对象的描述信息后，可从该标准库中调取其预先存储的各标准词，再将各标准词与该描述信息中的各分词进行匹配，确定出各候选词，或是服务器在获取到各对象的描述信息后，可将该描述信息在转发至服务器中设置的标准库中，由标准库去对描述信息中的各分词进行匹配，在将匹配得到的各候选词返回给服务器，进而使服务器确定出各候选词。

S103：根据预设的判别规则，从各候选词中确定出所述对象的特征词。

服务器在确定出各候选词后，可按照预先设置的判别规则，依次判别各候选词是否为符合对象特征词的形式，并将符合该形式的候选词作为该对象的特征词。具体的，服务器在确定出各候选词后，需要进一步的确定出在这些候选词中哪个才是真正的对象的特征词，因此，服务器需要根据预先设置的判别规则，来确定出各候选词中真正的特征词，而在此之前，服务器需要先根据提取得到的各候选词以及预设的分类模型，来确定出各候选词所对应的对象是属于哪一对象类别的，因为，在实际应用中，不同类别对象的描述信息都有一定的区别，同时也存在一定的相同点，若不对其进行类别的区分，则服务器最终确定出的对象的特征词可能是多个，并且，可能是不准确的。例如，上例中，假设自由讨论区中，用户所讨论的话题有很多个，而用户的描述信息中都存在与各话题特征词相对应的特征词，则服务器在评选用户最感兴趣的话题时，可根据确定出的用户的特征词来汇总相应的数据信息，在此过程中，倘若，用户A的描述信息中的一个非特征词picture001与图像话题的特征词picture在形式上相近，则服务器将该非特征词picture001从该用户A的描述信息中提取出来作为候选词后发现该候选词picture001符合预设的判别规则，进而将该候选词picture001也确定为用户的特征词，而实际上，用户的特征词其实是Game，并不是picture001，因此，降低了服务器确定用户特征词的准确度。

为了避免上述问题的发生，在本申请实施例中，服务器可先根据提取出的各候选词以及预设的分类模型，确定出各候选词对应对象所属的对象类别，其中，该预设的分类模型可根据服务器预先收集的各对象的描述信息中的各候选词以及各对象的所属对象类别，通过一定的训练模型，得到针对不同对象的各分类模型。例如，服务器通过一定的训练模型训练收集到的对游戏话题感兴趣的用户描述信息后，发现这类用户的描述信息中通常都包含有诸如Game、OL、QTE等候选词，因此，服务器后续再得到与上述候选词相同或相近的各候选词时，可将这些候选词确定为游戏的类别。

由于不同类别的对象的特征词往往都有各自的特征，因此，服务器在确定出各候选词对应对象的所属对象类别后，可从预设的各判别规则中，选择出与该对象类别相符的判别规则来对各候选词进行判别，其中，各判别规则是服务器根据收集到的各类别对象的特征词后，通过一定的模型训练出的针对不同对象类别的各判别规则，例如，服务器在收集到关于游戏用户的各特征词后，可通过训练模型训练得出游戏用户特征词的共有特征，并根据该共有特征，来确定出针对游戏用户的判别规则。

服务器在选择出合适的判别规则后，可将提取得到的各候选词依次通过该判别规则来进行判别，进而确定出各候选词中符合该判别规则的候选词，并将该候选词作为对象的特征词。具体的，对象的特征词往往是具有一定特征的，因此，服务器在确定对象特征词的过程中，可根据选择的判别规则中预设的标准特征词形式，从各候选词中，筛选出符合该标准特征词形式的候选词，并将该候选词作为对象的特征词。

继续沿用上例，假设游戏用户的判别规则中，游戏用户的标准特征词形式为包含有2～5个英文字母，其中，前3位中至少包含一个大写字母，因此，当服务器根据选择出的游戏用户判别规则来对提取到的姓名XXX、年龄23、兴趣话题Game、账号名称picture001这几个候选词进行判别时，发现只有Game、符合游戏用户的标准特征词形式，因此，服务器可将该候选词Game作为用户A的特征词。

S104：根据确定出的所述特征词，提取所述特征词对应的数据，并对提取的数据进行处理。

当服务器确定出对象的特征词后，可基于该特征词来提取相应的数据，并进一步的对这些数据进行处理，得到相应的诸如商品退货率、兴趣话题增长率、实验图表等数据信息，供人们一些分析、参考。

通过上述方法可以看出，服务器在确定对象的特征词时并不只是通过匹配来完成的，而是在确定对象特征词的过程中，通过一定的判别规则，从各候选词中确定出对象的特征词，因此，即时服务器获取到的对象的描述信息有误，服务器也可将该描述信息中对象的型号词准确的识别出来，与现有技术相比，可有效的提高服务器对特征词进行识别的准确度，进而提高数据处理的准确性。

需要说明的是，本申请实施例中的对象可以是用户个人、实验物品等，而上述方法中所描述的确定对象特征词的过程尤其适用于对商品型号词的确定，因此，为了进一步详细说明上述方法，下面将以对象是网购中的商品为场景来进行说明。

在实际应用中，数据分析人员有时需要对网购平台中，各商品的销售信息进行分析，因此，通常需要将各商品的销售信息进行汇总，再通过一定的方式来将汇总后的销售信息进行处理，得到的诸如商品退货量、月销售量、商品价格浮动量等数据，进而可根据得到的各数据来对商品的销售状况进行分析。而在获取各商品销售信息的过程中，倘若各商品的销售信息都是由商家自行向网络平台提供的，由于商家主观因素的影响，商家向网购平台发送各商品的销售信息可能是错误的，进而，网购平台数据分析人员对这些商品的销售信息进行分析后，得出的分析结果也是不准确的。为了避免上述问题的发生，网购平台数据分析人员在获取各商品的销售信息时，通常都是通过服务器根据各商品的特征词来获取相应商品的销售信息，即，服务器可先将商品的一些特征词提取出来，进而根据该特征词，来提取与该特征词相对应的销售信息来作为商品的销售信息，通常情况下，服务器从商品中提取出的特征词为商品的型号词，而商品的型号词通常都存在与商品的描述信息中，因此，服务器首先应获取到各商品的描述信息，在通过后续步骤S102～S103来对商品的型号词进行提取。具体的获取过程与上述步骤S101相同，在此就不进行详细赘述。

服务器在确定商品型号的候选词时，可将预先保存的各标准词依次与描述信息中的各分词进行匹配，当描述信息中的某一个或几个分词与服务器预先保存的各标准词中的一个或几个相匹配时，则将这一个或几个分词作为商品型号的候选词，并对其进行提取。

例如，假设商品A的描述信息为Mvio6Wifi 64GB win88寸平板电脑，服务器在将该描述信息与预先保存的各标准词进行匹配时，发现描述信息中的Mvio6、Wifi、64GB、win8、8寸这几个分词与保存的标准词相匹配，则服务器可将这几个分词作为该商品A的候选词。

服务器在确定出各候选词后，可先根据这些各候选词以及预设的分类模型，确定出各候选词对应商品的商品类别，其中，该预设的分类模型可根据服务器预先收集的各商品的描述信息中的各候选词以及各商品的所属商品类别，通过一定的训练模型，得到针对不同商品的各分类模型。而为了进一步的确定出这些候选词中哪个才是真正的商品的型号词，服务器在确定出各候选词对应商品的所属商品类别后，可从预设的各判别规则中，选择出与该商品类别相符的判别规则来对各候选词进行判别，其中，各判别规则是服务器根据收集到的各类别商品的型号词后，通过一定的模型训练出的针对不同商品类别的各判别规则，例如，服务器在收集到数码商品的各型号词后，可通过训练模型训练得出数码商品型号词的共有特征，并根据该共有特征，来确定出针对数码商品的判别规则。

在实际应用中，商品的型号词往往是具有一定特征的，因此，服务器在确定商品型号词的过程中，可根据选择的判别规则中预设的标准特征词形式，从各候选词中，筛选出符合该标准特征词形式的候选词，并将该候选词作为商品的型号词。

继续沿用上例，假设数码商品的判别规则中，数码商品的标准特征词形式为前4到5位为英文字母，后1到3位为数字，因此，当服务器根据选择出的数码商品判别规则来对提取到的Mvio6、Wifi、64GB、win8、8寸这几个候选词进行判别时，发现只有Mvio6符合数码商品的标准特征词形式，因此，服务器可将该候选词Mvio6作为商品的型号词。

当服务器确定出商品的型号词后，可基于该型号词来提取相应的商品数据，得到该商品型号下的诸如商品退货量、月销售量、商品价格浮动量等销售数据，并可进一步的对这些销售数据进行处理，得到相应的商品退货率、商品价格浮动率等数据信息，供人们一些分析、参考。由于排除了商家主观因素的影响，服务器根据商品型号词来获取的商品销售信息更为准确，进而为网购平台数据分析人员进行商品销售信息分析时提供了良好的依据。

通过上述方法可以看出，服务器在确定商品的型号词时并不只是通过匹配来完成的，而是在确定商品型号词的过程中，通过一定的判别规则，从各候选词中确定出商品的型号词，因此，即时服务器获取到的商品的描述信息有误，服务器也可将该描述信息中商品的型号词准确的识别出来，与现有技术相比，可有效的提高服务器对特征词进行识别的准确度，进而提高数据处理的准确性。

需要说明的是，在上述步骤S102中，服务器在将各对象的描述信息与预先保存的各标准词进行匹配之前，也可根据预设的拆分规则，对描述信息进行拆分，得到各分词，然后，再将各分词与预先保存的各标准词进行匹配，来确定出各候选词。当然，对描述信息的拆分工作也可由服务器中设置的标准库来完成。

由于用户主观因素的影响，服务器最终确定出的商品的型号词可能并不是正确的商品型号词，因此，为了进一步提高了数据处理的准确性，服务器在确定出商品的型号词后，可将该商品型号词进行纠错处理，即，根据确定出的商品型号词的商品类别以及该型号词的头字符，将该型号词与服务器预先存储的同类别以及同头字符的正确型号词进行匹配，并将该型号词替换成与其匹配度最高的正确的型号词。

继续沿用上例，假设服务器确定出的商品型号词Mvio6实际上是商家填错的型号词，因此，服务器可将该型号词Mvio6与服务器中预先存储的数码商品下头字符为M的正确型号词进行匹配，其中，正确的型号词Mvie6与该型号词Mvio6匹配度最高，为80％，则服务器可将该型号词Mvio6替换成正确的型号词Mvie6，并通过后续步骤，对型号词Mvie6的相关数据进行处理。

需要说明的是，在上述说明的纠错处理过程中，由于可能出现确定出的商品型号词的首字符即为错误的情况，因此，服务器也可根据该商品型号词的所属商品类别，将该型号词与预先存储的同类别下的正确的型号词进行匹配，并将匹配度最高的正确的型号词对其进行替换。

在实际应用中，由于网购平台中的商品数量繁多，因此，服务器在存储各标准词之前，所要收集的商品词的数量也通常是十分巨大的，若不对收集到的商品词进行一定的处理，则巨大数量的商品词可能会给服务器带来极大的运行负担，降低服务器的处理效率。为了使服务器能够快速的完成对描述信息与各标准词的匹配工作，服务器在收集到众多的商品词后，可对商品词进行一定的筛选，将重复的商品词过滤掉，再提取商品词中的一些典型的特征，进而得到所要保存的各标准词。

例如，对于数码商品来说，其商品的存储量通常由GB来表示，服务器在收集到各商品词后，可将收集到的诸如32GB、64GB、128GB等商品词都统一由GB来表示，而服务器在将商品的描述信息与GB进行匹配时发现描述信息中的某一分词中包含GB，则可根据一定的提取规则，将GB前几位的数字与GB一并进行提取，得到一个候选词。

以上为本申请实施例提供的数据处理的方法，基于同样的思路，本申请实施例还提供一种数据处理的装置，如图2所示。

图2为本申请实施例提供的数据处理装置的结构示意图，具体包括：

获取模块201，用于获取对象的描述信息；

确定分词模块202，用于根据预先保存的各标准词，确定所述描述信息中与标准词相匹配的各分词，作为所述对象的各候选词；

确定特征模块203，用于根据预设的判别规则，从各候选词中确定出所述对象的特征词；

提取模块204，用于根据确定出的所述特征词，提取所述特征词对应的数据，并对提取的数据进行处理。

所述确定特征模块203具体用于，根据提取出的各候选词以及预设的分类模型，确定所述对象所属的对象类别；从预设的各判别规则中，选择与所述对象类别对应的判别规则；根据选择出的判别规则，从各候选词中确定出所述对象的特征词。

所述确定特征模块203还用于，根据各样本对象的描述信息中的候选词以及各样本对象所属的对象类别，训练得到分类模型。

所述确定特征模块203具体用于，根据预设的标准特征词形式，从各候选词中，筛选出符合所述标准特征词形式的候选词，作为所述对象的特征词。

所述对象包括商品；所述描述信息包括商品的描述信息；所述特征词包括商品型号词；提取所述特征词对应的数据，具体包括：提取所述特征词对应的商品数据。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理的方法，其特征在于，包括：

服务器获取用户填写的对象的描述信息；

根据确定出的所述特征词，提取所述特征词对应的数据，并对提取的数据进行处理；

根据预设的判别规则，从各候选词中确定出所述对象的特征词，具体包括：

根据预设的标准特征词形式，从各候选词中，筛选出符合所述标准特征词形式的候选词，作为所述对象的特征词。

2.如权利要求1所述的方法，其特征在于，根据预设的判别规则，从各候选词中确定出所述对象的特征词，具体包括：

根据提取出的各候选词以及预设的分类模型，确定所述对象所属的对象类别；

从预设的各判别规则中，选择与所述对象类别对应的判别规则；

根据选择出的判别规则，从各候选词中确定出所述对象的特征词。

3.如权利要求2所述的方法，其特征在于，预设分类模型，具体包括：

根据各样本对象的描述信息中的候选词以及各样本对象所属的对象类别，训练得到分类模型。

4.如权利要求1所述的方法，其特征在于，所述对象包括商品；

所述描述信息包括商品的描述信息；

所述特征词包括商品型号词；

提取所述特征词对应的数据，具体包括：

提取所述特征词对应的商品数据。

5.一种数据处理的装置，其特征在于，包括：

获取模块，用于获取用户填写的对象的描述信息；

提取模块，用于根据确定出的所述特征词，提取所述特征词对应的数据，并对提取的数据进行处理；

所述确定特征模块具体用于，根据预设的标准特征词形式，从各候选词中，筛选出符合所述标准特征词形式的候选词，作为所述对象的特征词。

6.如权利要求5所述的装置，其特征在于，所述确定特征模块具体用于，根据提取出的各候选词以及预设的分类模型，确定所述对象所属的对象类别；从预设的各判别规则中，选择与所述对象类别对应的判别规则；根据选择出的判别规则，从各候选词中确定出所述对象的特征词。

7.如权利要求6所述的装置，其特征在于，所述确定特征模块还用于，根据各样本对象的描述信息中的候选词以及各样本对象所属的对象类别，训练得到分类模型。

8.如权利要求5所述的装置，其特征在于，所述对象包括商品；所述描述信息包括商品的描述信息；所述特征词包括商品型号词；提取所述特征词对应的数据，具体包括：提取所述特征词对应的商品数据。