CN110390332B - 一种类别确定方法、装置及设备 - Google Patents
一种类别确定方法、装置及设备 Download PDFInfo
- Publication number
- CN110390332B CN110390332B CN201810344756.6A CN201810344756A CN110390332B CN 110390332 B CN110390332 B CN 110390332B CN 201810344756 A CN201810344756 A CN 201810344756A CN 110390332 B CN110390332 B CN 110390332B
- Authority
- CN
- China
- Prior art keywords
- character
- character set
- determining
- target
- target character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims description 46
- 238000013507 mapping Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 4
- 238000000638 solvent extraction Methods 0.000 claims 3
- 238000005192 partition Methods 0.000 claims 1
- 239000000523 sample Substances 0.000 claims 1
- 239000004568 cement Substances 0.000 description 83
- VEXZGXHMUGYJMC-UHFFFAOYSA-N Hydrochloric acid Chemical compound Cl VEXZGXHMUGYJMC-UHFFFAOYSA-N 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000001035 drying Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 229920006063 Lamide® Polymers 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种类别确定方法、装置及设备,该方法包括:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。通过本申请的技术方案,能够有效确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述尽量归一到相同类别,达到减少类别数量的目的。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种类别确定方法、装置及设备。
背景技术
数据归类是指:确定数据的类别,并获取属于同一类别的所有数据,基于该类别的所有数据进行处理。例如,在税务行业中,***数据的商品名称是关键要素,可以根据商品名称确定***数据的类别,得到该类别的所有***数据,并利用该类别的所有***数据进行宏观分析、进销异常、偷税漏税检测等处理。
但是,应该如何确定数据的类别,目前,缺少有效的实现方式。
例如,***数据中的商品名称可以是用户手工录入的,并没有规范的命名方式,如“水泥”类别的***数据中,商品名称可能包括:水泥208、水泥322、水泥(快干)、水泥PC325-纸袋50KG-红水河牌等,这样,如何将包括这些商品名称的***数据归类到“水泥”类别,目前,还没有有效的实现方式。
发明内容
本申请提供一种类别确定方法,所述方法包括:
利用字符属性将数据的名称信息分割成至少一个字符组;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述数据的类别。
本申请提供一种类别确定方法,所述方法包括:
利用字符属性将数据中的商品名称分割成至少一个字符组;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述商品名称对应的类别;
将所述数据归集到所述商品名称对应的类别。
本申请提供一种类别确定装置,所述装置包括:
分割模块,用于利用字符属性将数据的名称信息分割成至少一个字符组;
选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述数据的类别。
本申请提供一种类别确定装置,所述装置包括:
分割模块,用于利用字符属性将数据中的商品名称分割成至少一个字符组;
选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述商品名称对应的类别;
归集模块,用于将所述数据归集到所述商品名称对应的类别。
本申请提供一种类别确定设备,包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。
基于上述技术方案,本申请实施例中,可以利用字符属性将名称信息分割成至少一个字符组,并利用字符组的字符属性从至少一个字符组中选取目标字符组,然后根据目标字符组确定数据的类别。上述方式能够有效的确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述,尽量归一到相同类别,从而达到减少类别数量的目的。上述方式不需要使用分词器对名称信息进行分词处理,即使分词器的分词词典中没有名称信息,也可以识别类别。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。
图1是本申请一种实施方式中的类别确定方法的流程图;
图2是本申请一种实施方式中的***结构示意图;
图3是本申请一种实施方式中的图结构的示意图;
图4是本申请一种实施方式中的类别确定装置的结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种类别确定方法,该方法可以应用于类别确定设备,如PC(Personal Computer,个人计算机)、笔记本电脑、移动终端、终端设备、智能手机、服务器、数据平台、分析平台等,对此设备类型不做限制。
参见图1所示,为上述类别确定方法的流程示意图,该方法可以包括:
步骤101,利用字符属性将数据的名称信息分割成至少一个字符组。
其中,利用字符属性将数据的名称信息分割成至少一个字符组,可以包括:
方式一、执行如下的至少一种:将该名称信息中具有相同字符属性的相邻字符分割到同一字符组;将该名称信息中具有不同字符属性的字符分割到不同字符组;将该名称信息中具有相同字符属性的不相邻字符分割到不同字符组。
方式二、利用字符属性对该名称信息进行哈希编码,得到至少一个编码值;从该名称信息中确定与编码值对应的字符组,从而得到至少一个字符组。
在方式二中,利用字符属性对该名称信息进行哈希编码,得到至少一个编码值,可以包括但不限于:确定该名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到至少一个编码值。
进一步的,确定该名称信息中每个字符的字符属性对应的编码值,可以包括但不限于:通过字符的字符属性查询映射表,得到与所述字符属性对应的编码值;其中,所述映射表用于记录字符属性与编码值的对应关系。
步骤102,利用字符组的字符属性从至少一个字符组中选取目标字符组。
其中,利用字符组的字符属性从至少一个字符组中选取目标字符组,可以包括但不限于:从至少一个字符组中选取出具有特定字符属性的字符组,并将选取的字符组确定为目标字符组。而且,目标字符组可以为一个或者至少两个。
步骤103,根据该目标字符组确定数据的类别。其中,根据该目标字符组确定数据的类别,可以包括但不限于:若目标字符组为一个,则将该目标字符组确定为数据的类别;或者,若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为数据的类别。
在一个例子中,从至少两个目标字符组中选择一个目标字符组,可以包括但不限于:根据目标字符组的特征信息确定该目标字符组的分数值;然后,可以从上述至少两个目标字符组中选择分数值最高的目标字符组。其中,目标字符组的特征信息可以包括但不限于以下之一或者任意组合:目标字符组对应的总出现次数;使用目标字符组的企业总数量;目标字符组对应的目录数量。
在根据目标字符组的特征信息确定该目标字符组的分数值时,分数值与总出现次数成正比,分数值与企业总数量成正比,分数值与目录数量成反比。
在一个例子中,上述执行顺序只是为了方便描述给出的一个示例,在实际应用中,还可以改变步骤之间的执行顺序,对此执行顺序不做限制。而且,在其它实施例中,并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其它实施例中可能被分解为多个步骤进行描述;本说明书中所描述的多个步骤,在其它实施例也可能被合并为单个步骤进行描述。
在一个例子中,根据该目标字符组确定数据的类别之后,还可以将该目标字符组记录到分词词典中,该分词词典用于进行分词处理。也就是说,分词器可以利用分词词典中的目标字符组分词处理,对此分词处理过程不做限制。
上述字符属性可以包括但不限于以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符。当然,还可以有其它字符属性,对此不做限制。
基于上述技术方案,本申请实施例中,可以利用字符属性将名称信息分割成至少一个字符组,并利用字符组的字符属性从至少一个字符组中选取目标字符组,然后根据目标字符组确定数据的类别。上述方式能够有效的确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述,尽量归一到相同类别,从而达到减少类别数量的目的。上述方式不需要使用分词器对名称信息进行分词处理,即使分词器的分词词典中没有名称信息,也可以识别类别。
基于与上述方法同样的申请构思,本申请实施例中还提出另一种类别确定方法,该方法可以包括:利用字符属性将数据中的商品名称分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据目标字符组确定商品名称对应的类别;将所述数据归集到所述商品名称对应的类别。其中,上述各步骤的实现过程,可以参见图1所示流程,在此不再赘述。
以下结合具体应用场景,对上述技术方案进行详细说明。在本应用场景下,以***数据为例,当然,在实际应用中,还可以为其它类型的数据,对此不做限制。考虑到***数据的商品名称是关键要素,可以根据商品名称确定***数据的类别,因此,上述名称信息可以为***数据的商品名称,当然,该名称信息也可以为***数据的其它信息,对此不做限制,后续以商品名称为例。
其中,由于***数据中的商品名称可以是用户手工录入,并没有规范的命名方式,例如,在针对“水泥”类别的***数据中,商品名称可能包括:水泥208、水泥322、水泥(快干)、水泥PC325-纸袋50KG-红水河牌等,为了将包括这些商品名称的***数据归类到“水泥”类别,则还可以采用图2所示的***结构。
参见图2所示,在得到***数据后,可以将***数据的商品名称输入到数据预处理模块,数据预处理模块对商品名称进行预处理。例如,可以清洗商品名称中的特殊字符、清洗商品名称中的无用词(如kg,千克,公斤等)、将商品名称中的全角转换为半角、将商品名称中的大写字母转换为小写字母等,对此预处理过程不做限制,然后将预处理后的商品名称输出给模式哈希编码模块。
模式哈希编码模块在得到商品名称后,可以利用字符属性将商品名称分割成至少一个字符组,每个字符组可以包括一个或者多个字符。其中,字符属性可以包括:文字字符(如中文字符,例如,水、泥、纸等,其字符属性均是文字字符)、字母字符(如英文字符、法文字符等,对此不做限制,例如,p、c、w、a等,其字符属性均是字母字符)、数字字符(如1、2、3等,其字符属性均是数字字符)、符号类字符(如。!?等,其字符属性均是符号类字符)。
其中,模式哈希编码模块利用字符属性将商品名称分割成至少一个字符组,每个字符组包括一个或者多个字符的过程,可以包括但不限于如下方式:
方式一、模式哈希编码模块可以将商品名称中具有相同字符属性的相邻字符分割到同一字符组,并将商品名称中具有不同字符属性的字符分割到不同字符组,并将商品名称中具有相同字符属性的不相邻字符分割到不同字符组。
例如,针对“水泥208”,由于“水”的字符属性与“泥”的字符属性相同,且“水”和“泥”是相邻字符,因此,可以将“水泥”分割到字符组1。同理,可以将“208”分割到字符组2。由于“泥”的字符属性与“2”的字符属性不同,因此,即使“泥”和“2”是相邻字符,也是将“泥”和“2”分割到不同字符组。又例如,针对“水泥(快干)”,可以将“水泥”分割到字符组1,将“(”分割到字符组2,将“快干”分割到字符组3,将“)”分割到字符组4。又例如,针对“水泥pc325纸袋50红水河牌”,可以将“水泥”分割到字符组1,将“pc”分割到字符组2,将“325”分割到字符组3,将“纸袋”分割到字符组4,将“50”分割到字符组5,将“红水河牌”分割到字符组6。
其中,虽然“水泥”与“纸袋”具有相同的字符属性,但是,由于“水泥”与“纸袋”是不相邻字符,因此,“水泥”与“纸袋”可以是位于不同的字符组。同理,“水泥”与“红水河牌”位于不同的字符组,“纸袋”与“红水河牌”位于不同的字符组。
方式二、模式哈希编码模块利用字符属性对商品名称进行哈希编码,得到至少一个编码值,并从商品名称中确定与每个编码值对应的字符组,得到至少一个字符组。在利用字符属性对商品名称进行哈希编码时,可以确定商品名称中每个字符的字符属性对应的编码值,并对编码值相同的相邻编码值进行合并。
进一步的,模式哈希编码模块在确定商品名称中每个字符的字符属性对应的编码值时,可以通过每个字符的字符属性查询映射表,得到与该字符属性对应的编码值;其中,所述映射表用于记录字符属性与编码值的对应关系。
例如,模式哈希编码模块可以建立表1所示的映射表,对此不做限制。
表1
字符属性 | 编码值 |
文字字符 | A |
字母字符 | B |
数字字符 | C |
符号类字符 | D |
针对“水泥208”,由于“水”的字符属性和“泥”的字符属性均为文字字符,因此,“水”和“泥”的编码值是A,此外,“2”、“0”、“8”的字符属性均为数字字符,因此,“2”、“0”、“8”的编码值是C。基于此,“水泥208”的编码值可以是AACCC,然后,可以将编码值相同的相邻编码值进行合并,即将相邻的两个A合并,将相邻的三个C合并,最终的编码值是AC。由于是将相邻的两个A合并,因此,可以将第一个字符“水”和第二个字符“泥”划分到编码值A对应的字符组1,即字符组1包括“水泥”。同理,可以将“2”、“0”、“8”划分到编码值C对应的字符组2,即字符组2包括“208”。类似的,针对“水泥pc325纸袋50红水河牌”,合并前的编码值可以是AABBCCCAABBAAAA,合并后的编码值可以是ABCABA。进一步的,可以将第一个字符“水”和第二个字符“泥”划分到第一个编码值A对应的字符组1,即字符组1包括“水泥”。同理,字符组2包括“pc”,字符组3包括“325”,字符组4包括“纸袋”,字符组5包括“50”,字符组6包括“红水河牌”。
模式哈希编码模块得到字符组后,可以将字符组输出给数据分层模块。例如,针对“水泥208”,可以将字符组1和字符组2输出给数据分层模块,针对“水泥pc325纸袋50红水河牌”,可以将字符组1-字符组6输出给数据分层模块。
数据分层模块在得到字符组之后,可以利用每个字符组的字符属性从所有字符组中选取目标字符组。例如,数据分层模块可以从所有字符组中选取出具有特定字符属性的字符组,并将选取的字符组确定为目标字符组。在一个例子中,特定字符属性可以为文字字符,也就是说,数据分层模块可以从所有字符组中选取出文字字符的字符组,并将选取的字符组确定为目标字符组。
例如,针对“水泥208”,数据分层模块可以得到字符组1和字符组2,由于字符组1的字符属性是文字字符,而字符组2的字符属性是数字字符,因此,数据分层模块将字符组1确定为目标字符组,而字符组2不是目标字符组。
又例如,针对“水泥pc325纸袋50红水河牌”,数据分层模块可以得到字符组1-字符组6,由于字符组1、字符组4和字符组6的字符属性是文字字符,字符组2的字符属性是字母字符,字符组3和字符组5的字符属性是数字字符,因此,数据分层模块将字符组1、字符组4和字符组6确定为目标字符组。
数据分层模块得到目标字符组后,可以将目标字符组输出给传播归集模块。例如,针对“水泥208”,将字符组1输出给传播归集模块。针对“水泥pc325纸袋50红水河牌”,将字符组1、字符组4和字符组6输出给传播归集模块。
传播归集模块在得到目标字符组后,可以根据目标字符组确定***数据的类别。例如,若目标字符组为一个,则传播归集模块将该目标字符组确定为***数据的类别;若目标字符组为至少两个,则传播归集模块从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为***数据的类别。
例如,针对“水泥208”,传播归集模块只接收到一个目标字符组,如字符组1,因此,可以将字符组1确定为***数据的类别,由于字符组1包括“水泥”,因此,***数据的类别是“水泥”,从而可以对***数据进行正确的归类。
又例如,针对“水泥pc325纸袋50红水河牌”,传播归集模块可以接收到多个目标字符组,如字符组1、字符组4和字符组6,因此,可以从字符组1、字符组4和字符组6中选择一个字符组。假设选择字符组1,则可以将字符组1确定为***数据的类别,由于字符组1包括“水泥”,因此,***数据的类别可以是“水泥”。假设选择字符组4,则可以将字符组4确定为***数据的类别,由于字符组4包括“纸袋”,因此,***数据的类别可以是“纸袋”;以此类推。
其中,传播归集模块从至少两个目标字符组中选择一个目标字符组,可以包括但不限于:从至少两个目标字符组中随机选择一个目标字符组;或者,根据每个目标字符组的特征信息确定该目标字符组的分数值,并从至少两个目标字符组中选择分数值最高的目标字符组。其中,目标字符组的特征信息可以包括:目标字符组对应的总出现次数;使用目标字符组的企业总数量;目标字符组对应的目录数量。而且,在根据特征信息确定分数值时,该分数值与总出现次数成正比,该分数值与企业总数量成正比,该分数值与目录数量成反比。
以下结合图3所示的图结构,对传播归集模块的处理过程进行说明,该图结构可以是面向图计算的计算框架,如可以构建在ODPS(Open Data Processing Service,开放数据处理服务)平台,或者,构建在其它平台,对此不做限制。
例如,参见图3所示,针对“水泥208”,传播归集模块只接收到一个目标字符组,如字符组“水泥”,因此,可以直接确定***数据的类别是“水泥”。
又例如,参见图3所示,针对“水泥pc325纸袋50红水河牌”,传播归集模块接收到三个目标字符组,如字符组“水泥”、字符组“纸袋”、字符组“红水河牌”,因此,可以利用字符组“水泥”对应的总出现次数1、企业总数量1、目录数量1,字符组“纸袋”对应的总出现次数2、企业总数量2、目录数量2,字符组“红水河牌”对应的总出现次数3、企业总数量3、目录数量3,从字符组“水泥”、字符组“纸袋”、字符组“红水河牌”中选择一个字符组,图3中以选择字符组“水泥”为例,因此,可以确定***数据的类别是“水泥”。
又例如,参见图3所示,针对“水泥(快干)”,传播归集模块接收到两个目标字符组,如字符组“水泥”、字符组“快干”,利用字符组“水泥”对应的总出现次数1、企业总数量1、目录数量1,字符组“快干”对应的总出现次数4、企业总数量4、目录数量4,从字符组“水泥”、字符组“快干”中选择一个字符组,以选择字符组“水泥”为例,则确定***数据的类别是“水泥”。
其中,假设特征信息是总出现次数,在从字符组“水泥”、字符组“纸袋”、字符组“红水河牌”中选择一个字符组时,假设总出现次数1大于总出现次数2,总出现次数2大于总出现次数3,则字符组“水泥”的分数值高于字符组“纸袋”的分数值,字符组“纸袋”的分数值高于字符组“红水河牌”的分数值,因此,传播归集模块可以选择分数值最高的字符组“水泥”,即类别可以是“水泥”。
其中,假设特征信息是企业总数量,在从字符组“水泥”、字符组“纸袋”、字符组“红水河牌”中选择一个字符组时,假设企业总数量1大于企业总数量2,企业总数量2大于企业总数量3,则字符组“水泥”的分数值高于字符组“纸袋”的分数值,字符组“纸袋”的分数值高于字符组“红水河牌”的分数值,因此,传播归集模块可以选择分数值最高的字符组“水泥”,即类别可以是“水泥”。
其中,假设特征信息是目录数量,在从字符组“水泥”、字符组“纸袋”、字符组“红水河牌”中选择一个字符组时,假设目录数量1小于目录数量2,目录数量2小于目录数量3,则字符组“水泥”的分数值高于字符组“纸袋”的分数值,字符组“纸袋”的分数值高于字符组“红水河牌”的分数值,因此,传播归集模块可以选择分数值最高的字符组“水泥”,即类别可以是“水泥”。
其中,假设特征信息是总出现次数、企业总数量、目录数量中的至少两个,以特征信息是总出现次数、企业总数量、目录数量为例,则还可以为总出现次数、企业总数量、目录数量配置对应的权重,并根据总出现次数、企业总数量、目录数量确定各字符组的分数值,对此确定方式不做限制,只要分数值与总出现次数成正比,分数值与企业总数量成正比,分数值与目录数量成反比即可。
在上述实施例中,分数值与总出现次数成正比的原因在于:当字符组对应的总出现次数越大时,表示字符组被使用的次数越多,字符组成为类别的概率越大,因此,总出现次数越大时,分数值越大,即分数值与总出现次数成正比。
例如,字符组“水泥”对应的总出现次数为10000,而字符组“红水河牌”对应的总出现次数为20,基于此,表示在所有***数据的所有商品名称中,一共出现10000次字符组“水泥”,一共出现20次字符组“红水河牌”,显然,由于字符组“水泥”的总出现次数远远大于字符组“红水河牌”的总出现次数,因此,字符组“水泥”具有普遍性,字符组“水泥”更应该被确定为类别。
在上述实施例中,分数值与企业总数量成正比的原因在于:当字符组对应的企业总数量越大时,表示使用这个字符组的企业越多,字符组成为类别的概率越大,因此企业总数量越大时,分数值越大,即分数值与企业总数量成正比。
例如,字符组“水泥”对应的企业总数量为300,而字符组“红水河牌”对应的企业总数量为1,基于此,表示在所有***数据的所有商品名称中,一共有300家企业使用字符组“水泥”,一共有1家企业使用字符组“红水河牌”,显然,由于字符组“水泥”的企业总数量远远大于字符组“红水河牌”的企业总数量,因此字符组“水泥”具有普遍性,字符组“水泥”更应该被确定为类别。
在上述实施例中,分数值与目录数量成反比的原因在于:当字符组对应的目录数量越大时,表示字符组越容易出现在各个商品目录中,字符组成为类别的概率越低,因此目录数量越大时,分数值越低,即分数值与目录数量成反比。
例如,字符组“水泥”对应的目录数量为1,而字符组“纸袋”对应的目录数量为20,基于此,表示字符组“水泥”只在1个商品目录中出现,字符组“纸袋”在20个商品目录中出现。字符组“纸袋”在20个商品目录中出现时,就表明字符组“纸袋”无法有效区分不同类别,如果用字符组“纸袋”作为类别,则这个类别将同时属于多个商品目录,显然,无法使用类别有效区分商品目录。
因此,字符组对应的目录数量越大,则字符组成为类别的概率越低,反之,字符组对应的目录数量越小,则字符组成为类别的概率越高。综上所述,由于字符组“水泥”的目录数量远远小于字符组“纸袋”的目录数量,因此字符组“水泥”更能体现商品目录的独特性,字符组“水泥”更应该被确定为类别。
经过上述处理,传播归集模块可以得到***数据的类别“水泥”,并可以输出***数据的类别“水泥”。进一步的,上层应用基于传播归集模块的输出,可以得到类别“水泥”的所有***数据,并利用类别“水泥”的所有***数据进行宏观分析、进销异常、偷税漏税检测等处理,对此处理过程不做限制。
在一个例子中,还可以将目标字符组(如字符组“水泥”、字符组“纸袋”等)记录到分词词典中,以使分词器利用分词词典中的字符组分词处理。
基于上述技术方案,本申请实施例中,可以利用字符属性将商品名称分割成至少一个字符组,并利用字符组的字符属性从至少一个字符组中选取目标字符组,然后根据目标字符组确定数据的类别。上述方式能够有效的确定数据的类别,提高类别确定的准确率,可以将同一类商品的多种描述,尽量归一到相同类别,从而达到减少类别数量的目的。上述方式不需要使用分词器对商品名称进行分词处理,即使分词器的分词词典中没有商品名称,也可以识别类别。
在上述方式中,是利用字符属性将商品名称分割成至少一个字符组,而不是利用分词器将商品名称分割成至少一个字符组,其效果可以包括但不限于:
1、利用分词器将商品名称分割成字符组时,分割效果依赖于分词词典的准确性,如果分词词典中没有商品名称,或者分词词典中的分词不准确,则无法对商品名称进行准确的分割,甚至是分割错误。而本实施例中,不需要使用分词器对商品名称进行分割,而是利用字符属性将商品名称分割成至少一个字符组,其不需要依赖分词词典的准确性,即使分词词典中没有商品名称,或者分词词典中的分词不准确,也可以对商品名称进行准确的分割,提高用户感受。
2、在利用分词器对商品名称进行分割时,可能将一个完整的商品名称分割成多个字符组,导致错误的类别确定结果。例如,以商品名称是“盐酸路米帕明片”为例,分词器可能将“盐酸路米帕明片”分割成“盐酸”、“路米”、“帕明片”,进一步的,可能将该商品名称“盐酸路米帕明片”识别为类别“盐酸”,显然,这是一个错误的识别结果,其类别应该为“盐酸路米帕明片”。
而本实施例中,是利用字符属性将商品名称分割成至少一个字符组,对于商品名称“盐酸路米帕明片”,其分割结果就是“盐酸路米帕明片”,这样,最终确定的类别是“盐酸路米帕明片”,显示,这是一个正确的识别结果。
基于与上述方法同样的申请构思,本申请实施例还提供一种类别确定装置,如图4所示,为所述类别确定装置的结构图,所述装置包括:
分割模块401,用于利用字符属性将数据的名称信息分割成至少一个字符组;选取模块402,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块403,用于根据所述目标字符组确定所述数据的类别。
所述分割模块401利用字符属性将数据的名称信息分割成至少一个字符组时具体用于执行如下至少一种:将所述名称信息中具有相同字符属性的相邻字符分割到同一字符组;将所述名称信息中具有不同字符属性的字符分割到不同字符组;将所述名称信息中具有相同字符属性的不相邻字符分割到不同字符组。
所述分割模块401利用字符属性将数据的名称信息分割成至少一个字符组时具体用于:利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值;从所述名称信息中确定与所述编码值对应的字符组;
所述分割模块401利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值时具体用于:确定所述名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
所述确定模块403根据所述目标字符组确定所述数据的类别时具体用于:
若目标字符组为一个,则将所述目标字符组确定为所述数据的类别;或者,
若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为所述数据的类别。
所述确定模块403从至少两个目标字符组中选择一个目标字符组时具体用于:根据目标字符组的特征信息确定所述目标字符组的分数值;从至少两个目标字符组中选择分数值最高的目标字符组;
其中,所述目标字符组的特征信息包括以下之一或者任意组合:所述目标字符组对应的总出现次数;使用所述目标字符组的企业总数量;所述目标字符组对应的目录数量;所述分数值与所述总出现次数成正比,所述分数值与所述企业总数量成正比,所述分数值与所述目录数量成反比。
基于与上述方法同样的申请构思,本申请实施例还提供一种类别确定设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:利用字符属性将数据的名称信息分割成至少一个字符组;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别。
基于与上述方法同样的申请构思,本申请实施例还提供一种类别确定装置,所述装置包括:分割模块,用于利用字符属性将数据中的商品名称分割成至少一个字符组;选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;确定模块,用于根据所述目标字符组确定所述商品名称对应的类别;归集模块,用于将所述数据归集到所述商品名称对应的类别。
其中,上述各模块的功能可以参见图4所示,在此不再赘述。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种类别确定方法,其特征在于,所述方法包括:
利用字符属性将数据的名称信息分割成至少一个字符组;所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述数据的类别;
其中,所述利用字符属性将数据的名称信息分割成至少一个字符组,包括:利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值;从所述名称信息中确定与所述编码值对应的字符组;
其中,所述利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值,包括:确定所述名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
2.根据权利要求1所述的方法,其特征在于,所述利用字符属性将数据的名称信息分割成至少一个字符组,包括以下方式中的至少一种:
将所述名称信息中具有相同字符属性的相邻字符分割到同一字符组;
将所述名称信息中具有不同字符属性的字符分割到不同字符组;
将所述名称信息中具有相同字符属性的不相邻字符分割到不同字符组。
3.根据权利要求1所述的方法,其特征在于,
所述确定所述名称信息中每个字符的字符属性对应的编码值,包括:
通过字符的字符属性查询映射表,得到与所述字符属性对应的编码值;
其中,所述映射表用于记录字符属性与编码值的对应关系。
4.根据权利要求1所述的方法,其特征在于,
利用字符组的字符属性从所述至少一个字符组中选取目标字符组,包括:
从所述至少一个字符组中选取出具有特定字符属性的字符组;
将选取的字符组确定为所述目标字符组。
5.根据权利要求1所述的方法,其特征在于,
所述根据所述目标字符组确定所述数据的类别,包括:
若目标字符组为一个,则将所述目标字符组确定为所述数据的类别;或,
若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为所述数据的类别。
6.根据权利要求5所述的方法,其特征在于,
所述从至少两个目标字符组中选择一个目标字符组,包括:
根据目标字符组的特征信息确定所述目标字符组的分数值;
从至少两个目标字符组中选择分数值最高的目标字符组。
7.根据权利要求6所述的方法,其特征在于,所述目标字符组的特征信息包括以下之一或者任意组合:所述目标字符组对应的总出现次数;使用所述目标字符组的企业总数量;所述目标字符组对应的目录数量。
8.根据权利要求7所述的方法,其特征在于,所述根据目标字符组的特征信息确定所述目标字符组的分数值时,所述分数值与所述总出现次数成正比,所述分数值与所述企业总数量成正比,所述分数值与所述目录数量成反比。
9.根据权利要求1所述的方法,其特征在于,
所述根据所述目标字符组确定所述数据的类别之后,所述方法还包括:
将所述目标字符组记录到分词词典中,所述分词词典用于进行分词处理。
10.一种类别确定方法,其特征在于,所述方法包括:
利用字符属性将数据中的商品名称分割成至少一个字符组;所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符;
利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
根据所述目标字符组确定所述商品名称对应的类别;
将所述数据归集到所述商品名称对应的类别;
其中,所述利用字符属性将数据中的商品名称分割成至少一个字符组,包括:利用字符属性对所述商品名称进行哈希编码,得到至少一个编码值;从所述商品名称中确定与所述编码值对应的字符组;
其中,所述利用字符属性对所述商品名称进行哈希编码,得到至少一个编码值,包括:确定所述商品名称中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
11.一种类别确定装置,其特征在于,所述装置包括:
分割模块,用于利用字符属性将数据的名称信息分割成至少一个字符组;其中,所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符;
选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
确定模块,用于根据所述目标字符组确定所述数据的类别;
其中,所述分割模块利用字符属性将数据的名称信息分割成至少一个字符组时具体用于:利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值;从所述名称信息中确定与所述编码值对应的字符组;
其中,所述分割模块利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值时具体用于:确定所述名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
12.根据权利要求11所述的装置,其特征在于,所述分割模块利用字符属性将数据的名称信息分割成至少一个字符组时具体用于执行如下至少一种:
将所述名称信息中具有相同字符属性的相邻字符分割到同一字符组;
将所述名称信息中具有不同字符属性的字符分割到不同字符组;
将所述名称信息中具有相同字符属性的不相邻字符分割到不同字符组。
13.根据权利要求11所述的装置,其特征在于,
所述确定模块根据所述目标字符组确定所述数据的类别时具体用于:
若目标字符组为一个,则将所述目标字符组确定为所述数据的类别;或者,
若目标字符组为至少两个,则从至少两个目标字符组中选择一个目标字符组,并将选择的目标字符组确定为所述数据的类别。
14.根据权利要求13所述的装置,其特征在于,所述确定模块从至少两个目标字符组中选择一个目标字符组时具体用于:根据目标字符组的特征信息确定所述目标字符组的分数值;从至少两个目标字符组中选择分数值最高的目标字符组;其中,所述目标字符组的特征信息包括以下之一或者任意组合:所述目标字符组对应的总出现次数;使用所述目标字符组的企业总数量;所述目标字符组对应的目录数量;所述分数值与所述总出现次数成正比,所述分数值与所述企业总数量成正比,所述分数值与所述目录数量成反比。
15.一种类别确定装置,其特征在于,所述装置包括:
分割模块,用于利用字符属性将数据中的商品名称分割成至少一个字符组;其中,所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符;
选取模块,用于利用字符组的字符属性从所述至少一个字符组中选取目标字符组;
确定模块,用于根据所述目标字符组确定所述商品名称对应的类别;
归集模块,用于将所述数据归集到所述商品名称对应的类别;
其中,所述分割模块利用字符属性将数据中的商品名称分割成至少一个字符组时具体用于:利用字符属性对所述商品名称进行哈希编码,得到至少一个编码值;从所述商品名称中确定与所述编码值对应的字符组;
其中,所述分割模块利用字符属性对所述商品名称进行哈希编码,得到至少一个编码值时具体用于:确定所述商品名称中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
16.一种类别确定设备,其特征在于,包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:利用字符属性将数据的名称信息分割成至少一个字符组;所述字符属性包括以下之一或者任意组合:文字字符、字母字符、数字字符、符号类字符;利用字符组的字符属性从所述至少一个字符组中选取目标字符组;根据所述目标字符组确定所述数据的类别;
其中,所述利用字符属性将数据的名称信息分割成至少一个字符组,包括:利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值;从所述名称信息中确定与所述编码值对应的字符组;
其中,所述利用字符属性对所述名称信息进行哈希编码,得到至少一个编码值,包括:确定所述名称信息中每个字符的字符属性对应的编码值;对编码值相同的相邻编码值进行合并,得到所述至少一个编码值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810344756.6A CN110390332B (zh) | 2018-04-17 | 2018-04-17 | 一种类别确定方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810344756.6A CN110390332B (zh) | 2018-04-17 | 2018-04-17 | 一种类别确定方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390332A CN110390332A (zh) | 2019-10-29 |
CN110390332B true CN110390332B (zh) | 2023-12-15 |
Family
ID=68283162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810344756.6A Active CN110390332B (zh) | 2018-04-17 | 2018-04-17 | 一种类别确定方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390332B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103535033A (zh) * | 2011-05-10 | 2014-01-22 | 高通股份有限公司 | 用于样本自适应偏移的偏移类型及系数信令方法 |
US20140143254A1 (en) * | 2012-11-16 | 2014-05-22 | Ritendra Datta | Category and Attribute Specifications for Product Search Queries |
CN104331173A (zh) * | 2012-04-16 | 2015-02-04 | 宗刚 | 字符信息的计算机处理方法和*** |
CN105184052A (zh) * | 2015-08-13 | 2015-12-23 | 易保互联医疗信息科技(北京)有限公司 | 一种药品信息的自动编码方法及*** |
-
2018
- 2018-04-17 CN CN201810344756.6A patent/CN110390332B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103535033A (zh) * | 2011-05-10 | 2014-01-22 | 高通股份有限公司 | 用于样本自适应偏移的偏移类型及系数信令方法 |
CN104331173A (zh) * | 2012-04-16 | 2015-02-04 | 宗刚 | 字符信息的计算机处理方法和*** |
US20140143254A1 (en) * | 2012-11-16 | 2014-05-22 | Ritendra Datta | Category and Attribute Specifications for Product Search Queries |
CN105184052A (zh) * | 2015-08-13 | 2015-12-23 | 易保互联医疗信息科技(北京)有限公司 | 一种药品信息的自动编码方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110390332A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2845743C (en) | Resolving similar entities from a transaction database | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
US20230153870A1 (en) | Unsupervised embeddings disentanglement using a gan for merchant recommendations | |
JP2019502979A (ja) | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 | |
CN108512883B (zh) | 一种信息推送方法、装置及可读介质 | |
US8396935B1 (en) | Discovering spam merchants using product feed similarity | |
CN111241389A (zh) | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN111291571A (zh) | 语义纠错方法、电子设备及存储介质 | |
CN113435202A (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
CN111191652A (zh) | 一种证件图像识别方法、装置、电子设备及存储介质 | |
CN111310011A (zh) | 一种信息推送方法、装置、电子设备及存储介质 | |
CN106933878B (zh) | 一种信息处理方法及装置 | |
CN110825817B (zh) | 一种企业疑似关联关系判定方法及*** | |
CN113591881B (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN106203165A (zh) | 基于可信云计算的信息大数据分析支撑方法 | |
CN109241360B (zh) | 组合字符串的匹配方法及装置和电子设备 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN110427496B (zh) | 用于文本处理的知识图谱扩充方法及装置 | |
CN110390332B (zh) | 一种类别确定方法、装置及设备 | |
CN114840388A (zh) | 数据监控方法、装置、电子设备及存储介质 | |
CN113434660A (zh) | 基于多领域分类的产品推荐方法、装置、设备及存储介质 | |
CN114706899A (zh) | 快递数据的敏感度计算方法、装置、存储介质及设备 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN113343102A (zh) | 基于特征筛选的数据推荐方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |