CN107862046A - 一种基于短文本相似度的税务商品编码分类方法及*** - Google Patents

一种基于短文本相似度的税务商品编码分类方法及*** Download PDF

Info

Publication number
CN107862046A
CN107862046A CN201711085221.3A CN201711085221A CN107862046A CN 107862046 A CN107862046 A CN 107862046A CN 201711085221 A CN201711085221 A CN 201711085221A CN 107862046 A CN107862046 A CN 107862046A
Authority
CN
China
Prior art keywords
word
words
tax
commodity
short text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711085221.3A
Other languages
English (en)
Other versions
CN107862046B (zh
Inventor
庞胜民
王涛
孙科武
林文辉
高哲
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO AISINO Co Ltd
Aisino Corp
Original Assignee
NINGBO AISINO Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO AISINO Co Ltd filed Critical NINGBO AISINO Co Ltd
Priority to CN201711085221.3A priority Critical patent/CN107862046B/zh
Publication of CN107862046A publication Critical patent/CN107862046A/zh
Application granted granted Critical
Publication of CN107862046B publication Critical patent/CN107862046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于短文本相似度的税务商品编码分类方法及***,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。

Description

一种基于短文本相似度的税务商品编码分类方法及***
技术领域
本发明涉及电子商务平台技术领域,尤其涉及一种基于短文本相似度的税务商品编码分类方法及***。
背景技术
随着“互联网+”行动的战略部署,互联网在税务领域也发挥着巨大的作用。应用先进的互联网技术,打造全天候、全方位、全覆盖、全流程、全联通的智能的税务***,是一件惠及企业民生的重要大事。在税务改革过程中,开票是一个关键的环节,据统计数据表明,过去五年中仅天津积累的票务数据达10亿条,达7TB,税务数据的***式增加,一方面带来了信息的积累,给未来的数据分析带来了机遇,一方面也带来了挑战。
2016年国家税务总局提出在开票过程中,必须指定商品类别,并公布了4000余种商品的详细分类。通知要求必须严格按照商品编码分类要求对商品开票,做到商品实际类别与***显示类型一致。由于商品种类规模巨大,如果通过人力对商品的种类进行浏览是不现实的。那么如何高效准确的对商品进行自动分类是一个关键问题,即如何通过商品名称确定其归属的商品类别。通过税务商品名称可知商品名称呈现典型的短文本特质,语义信息稀疏,上下文信息不足导致语义敏感性较大。商品已有的类别信息也是由一些词语构成的稀疏词语集合,通过经典的依赖概率统计的方式是行不通的。
首先是词频问题。这些方法不但依赖待分类文本的词频也依赖已有的训练文本的词频,而商品名称中出现的词频几乎是1,在训练数据中的词频也是有限的,如果待分类文本与已有历史信息没有共同的词,那么他们之间的相似度会非常小,这被称为字典不匹配问题。此外,还有上下文敏感性问题,在以后的历史信息中,一个词通过语义环境指代一个意思,而待分类短文本因为缺少上下文环境提供的意义是有限的,例如“苹果电脑”和“苹果pie”,这两个词虽然存在共同的词,但是实际上意义完全不一样。在使用经典的基于词频的方法上会导致这两个词存在相似性。
发明内容
为解决以上现有技术中存在的问题,本发明着重通过外部知识挖掘商品名称的短文本与类别短文本之间的相似度计算,包括简单的词法分析,词语缩略处理,文本上下文扩展等技术来计算短文本之间的相似度。
本发明探索利用外部信息检索技术计算短文本相似度,提出短文本相似度计算方法的同时,也提供短文本的上下文语义信息扩展及词语的分词、缩略词等词法分析的处理。
具体的,一种基于短文本相似度的税务商品编码分类方法,包括:
步骤一:获取样本数据;
步骤二:对样本数据进行分词;
步骤三:获得扩展词;
步骤四:计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
优选的,所述步骤三中的所述扩展词包括索引词和缩略词。
优选的,所述步骤四中的计算KL差异熵的具体过程如下:
(1)使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示:
其中V是用到的字典,H是信息熵;
W:商品名称经过分词后的词;
C:是经过扩展后的所有类别集合;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc):该词在所有类别数据集中出现的概率;
(2)使用步骤二中分词后获得的本体词来计算P(w|θq),计算过程如公式2所示:
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频;
(3)对公式2进行改进,如公式3所示:
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数。
更优选的,所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤:
(4)计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
更优选的,采用期望交叉熵最小原则进行μ的迭代,具体步骤如下:
(1)给μi赋初始值,假设μi=0.5
(2)计算1-μi和μi的期望
PJM(w|C)是经过平滑处理后的概率;
(3)计算μi+1
(4)若|μii+1|>ε,则执行返回步骤(2),反之,则终止迭代;其中,ε=0.01。
优选的,所述样本数据是待分类的税务商品编码名称。
根据本发明的另一个方面,还提供了一种基于短文本相似度的税务商品编码分类***,包括顺序连接的如下模块:
样本数据获取模块,用于获取样本数据;
分词模块,用于对样本数据进行分词;
扩展模块,用于获得扩展词;
KL差异熵计算模块,用于计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
本发明具有如下优点:本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的基于短文本相似度的税务商品编码分类方法流程图。
附图2示出了根据本发明实施方式的基于短文本相似度的税务商品编码分类***结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明主要包括两个过程,文本生成过程和相似度计算过程,文本生成过程是相似度计算的基础,目的是对短文本进行词语扩展。
本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。
具体的,如图1所示,本发明提供一种基于短文本相似度的税务商品编码分类方法,包括如下步骤:
S1、获得样本数据;所述样本数据就是待分类的税务商品编码名称。
S2、对样本数据进行分词;对样本数据包含的商品名称使用分词技术,即利用***词库对商品名称的短文本进行分析,将商品名称按照其规则划分为不同的词,如“苹果笔记本”分词为“苹果”和“笔记本”,经过分词后得到的词语集合是短文本分类的基础,即本体词,它是未经人工干预过的高质量分类基础,且具有很大的稀疏性。
S3、获得扩展词;所述扩展词包括索引词和缩略词。
索引词是解决商品名称上下文语境确实的问题的一种有效方法。在本发明中,采用web搜索引擎来解决扩展词的问题,该方法是指通过搜索引擎搜索引词,在搜索结果中分析与其同时出现的词,若某些词与该词同时出现的频率非常大,则把这些词作为该词的扩展。
对一些词进行缩略处理是解决词语稀疏的另一种方法,有时候是标准化的一种操作。但有时候缩略词会引起过匹配的问题,本发明有效的利用缩略词这一特性,如苹果笔记本其缩略词为mac,可以有效的去除“苹果”这个词对商品的影响,加大分对的准确率。但是也有可能会产生过匹配的问题,如在商品名称中出现machine air char,缩略词为MAC,在对其进行分类的时候可能会分到电脑配件这类中。
S4、计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。即KL差异度越大,商品与该类别的差异越大,KL差异越小,商品属于该类别的可能性越大。KL的具体计算过程在下面。商品名称是典型的短文本,由国家颁布的商品编码分类标准作为规则集也是短文本构成,已经存在的历史开票数据中的数据存在开票不准确或编码分类空白的情况,只能有一部分作为样本集。
在计算KL差异熵时,本发明采用了相似度技术。具体过程如下:
首先对使用的符合进行简单说明:
W:商品名称经过分词后的词;
C:是经过扩展后的所有类别集合;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc)P(w|C):该词在所有类别数据集中出现的概率;
本发明使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示。
其中V是用到的字典,H是信息熵,使用步骤S2的本体词来计算P(w|θq),计算过程如公式2所示。
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频。由于本体词集合的稀疏性特点,在本发明中增加了扩展词,对公式2进行改进,如公式3所示。
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数,防止在计算过程中导致分母为0造成计算异常,在本发明中取一个极小值。同理计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
本发明中,为了得到平滑效果好的平滑参数μ,采用期望交叉熵最小原则进行μ的迭代,具体步骤如下:
(1)给μi赋初始值,假设μi=0.5
(2)计算1-μi和μi的期望
PJM(w|C)是经过平滑处理后的概率。
(3)计算μi+1
(4)若|μii+1|>ε,则执行返回步骤(2),反之,则终止迭代。
本发明中ε=0.01。
如图2所示,根据本发明的另一个方面,还提供了一种基于短文本相似度的税务商品编码分类***100,包括顺序连接的如下模块:
样本数据获取模块101,用于获取样本数据;
分词模块102,用于对样本数据进行分词;
扩展模块103,用于获得扩展词;
KL差异熵计算模块104,用于计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。
本发明的技术关键点在于:
1、利用外部搜索引擎对短文本进行扩展,将待分类的文本变为本体词和扩展词,缩略词的集合。
2、提出使用KL离散熵的方法来计算词与候选集的差异度,并对该方法基于关键点1进行了改进。
3、加入了平滑参数,抑制了计算过程中的异常。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于短文本相似度的税务商品编码分类方法,其特征在于,包括:
步骤一:获取样本数据;
步骤二:对样本数据进行分词;
步骤三:获得扩展词;
步骤四:计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
2.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,所述步骤三中的所述扩展词包括索引词和缩略词。
3.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,所述步骤四中的计算KL差异熵的具体过程如下:
(1)使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示:
其中V是用到的字典,H是信息熵;
W:商品名称经过分词后的词;
C:是经过扩展后的所有类别集合;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc):该词在所有类别数据集中出现的概率;
(2)使用步骤二中分词后获得的本体词来计算P(w|θq),计算过程如公式2所示:
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频;
(3)对公式2进行改进,如公式3所示:
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数。
4.根据权利要求3所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,
所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤:
(4)根据以下公式4计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
5.根据权利要求3或4所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,采用期望交叉熵最小原则进行μ的迭代,具体步骤如下:
(1)给μi赋初始值,假设μi=0.5
(2)计算1-μi和μi的期望
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>&amp;Sigma;</mo> <mfrac> <mrow> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>P</mi> <mrow> <mi>J</mi> <mi>M</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>&amp;Sigma;</mo> <mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mo>)</mo> <mi>P</mi> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>C</mi> <mo>)</mo> </mrow> <mrow> <msub> <mi>P</mi> <mrow> <mi>J</mi> <mi>M</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,PJM(w|C)是经过平滑处理后的概率;
(3)计算μi+1
<mrow> <msub> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>E</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
(4)若|μii+1|>ε,则执行返回步骤(2),反之,则终止迭代;其中,ε=0.01。
6.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,所述样本数据是待分类的税务商品编码名称。
7.一种基于短文本相似度的税务商品编码分类***,包括顺序连接的如下模块:
样本数据获取模块,用于获取样本数据;
分词模块,用于对样本数据进行分词;
扩展模块,用于获得扩展词;
KL差异熵计算模块,用于计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
8.根据权利要求7所述的一种基于短文本相似度的税务商品编码分类***,其特征在于,所述扩展词包括索引词和缩略词。
9.根据权利要求7所述的一种基于短文本相似度的税务商品编码分类***,其特征在于,所述样本数据是待分类的税务商品编码名称。
CN201711085221.3A 2017-11-07 2017-11-07 一种基于短文本相似度的税务商品编码分类方法及*** Active CN107862046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711085221.3A CN107862046B (zh) 2017-11-07 2017-11-07 一种基于短文本相似度的税务商品编码分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711085221.3A CN107862046B (zh) 2017-11-07 2017-11-07 一种基于短文本相似度的税务商品编码分类方法及***

Publications (2)

Publication Number Publication Date
CN107862046A true CN107862046A (zh) 2018-03-30
CN107862046B CN107862046B (zh) 2019-03-26

Family

ID=61701116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711085221.3A Active CN107862046B (zh) 2017-11-07 2017-11-07 一种基于短文本相似度的税务商品编码分类方法及***

Country Status (1)

Country Link
CN (1) CN107862046B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和***
CN109871861A (zh) * 2018-12-27 2019-06-11 航天信息股份有限公司 一种用于为目标数据提供编码的***及方法
CN110110192A (zh) * 2019-04-16 2019-08-09 北京奇艺世纪科技有限公司 一种query标注方法、装置及电子设备
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及***
CN110209811A (zh) * 2019-04-30 2019-09-06 上海艾瑞市场咨询股份有限公司 一种商品自动分类方法及***
WO2019196228A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 制度信息处理方法、装置、计算机设备和存储介质
CN110851587A (zh) * 2018-07-25 2020-02-28 阿里巴巴集团控股有限公司 商品编码预测模型生成和确定商品编码方法、装置及设备
CN110874407A (zh) * 2018-08-14 2020-03-10 中国软件与技术服务股份有限公司 一种增值税***商品和服务税收分类编码识别及纠错方法
CN110968685A (zh) * 2018-09-26 2020-04-07 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN111275476A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 一种物流仓储服务的报价方法和装置
CN111680158A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 开放领域的短文本分类方法、装置、设备及存储介质
CN113157918A (zh) * 2021-03-23 2021-07-23 浙江工业大学 一种基于注意力机制的商品名称短文本分类方法和***
CN113779933A (zh) * 2021-09-03 2021-12-10 深圳市朗华供应链服务有限公司 商品的编码方法、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139518A (ja) * 2004-11-11 2006-06-01 Nec Corp 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和***
US20130013539A1 (en) * 2011-01-13 2013-01-10 International Business Machines Corporation System and method for domain adaption with partial observation
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139518A (ja) * 2004-11-11 2006-06-01 Nec Corp 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和***
US20130013539A1 (en) * 2011-01-13 2013-01-10 International Business Machines Corporation System and method for domain adaption with partial observation
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KARL-MICHAEL SCHNEIDER: "A New Feature Selection Score for Multinomial Naïve Bayes Text Classification Based on KL-Divergence", 《PROCEEDINGS OF THE ACL 2004 ON INTERACTIVE POSTER AND DEMONSTRATION SESSIONS》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019196228A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 制度信息处理方法、装置、计算机设备和存储介质
CN110851587B (zh) * 2018-07-25 2024-04-05 阿里巴巴集团控股有限公司 商品编码预测模型生成和确定商品编码方法、装置及设备
CN110851587A (zh) * 2018-07-25 2020-02-28 阿里巴巴集团控股有限公司 商品编码预测模型生成和确定商品编码方法、装置及设备
CN110874407A (zh) * 2018-08-14 2020-03-10 中国软件与技术服务股份有限公司 一种增值税***商品和服务税收分类编码识别及纠错方法
CN109213866A (zh) * 2018-09-19 2019-01-15 浙江诺诺网络科技有限公司 一种基于深度学习的税务商品编码分类方法和***
CN110968685B (zh) * 2018-09-26 2023-06-20 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN110968685A (zh) * 2018-09-26 2020-04-07 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN111275476A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 一种物流仓储服务的报价方法和装置
CN111275476B (zh) * 2018-12-05 2023-11-03 北京京东振世信息技术有限公司 一种物流仓储服务的报价方法和装置
CN109871861B (zh) * 2018-12-27 2023-05-23 航天信息股份有限公司 一种用于为目标数据提供编码的***及方法
CN109871861A (zh) * 2018-12-27 2019-06-11 航天信息股份有限公司 一种用于为目标数据提供编码的***及方法
CN110110192A (zh) * 2019-04-16 2019-08-09 北京奇艺世纪科技有限公司 一种query标注方法、装置及电子设备
CN110209811A (zh) * 2019-04-30 2019-09-06 上海艾瑞市场咨询股份有限公司 一种商品自动分类方法及***
CN110209755B (zh) * 2019-06-13 2021-06-18 思必驰科技股份有限公司 Poi导航地址的扩展方法及***
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及***
CN111680158A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 开放领域的短文本分类方法、装置、设备及存储介质
CN113157918A (zh) * 2021-03-23 2021-07-23 浙江工业大学 一种基于注意力机制的商品名称短文本分类方法和***
CN113157918B (zh) * 2021-03-23 2022-07-22 浙江工业大学 一种基于注意力机制的商品名称短文本分类方法和***
CN113779933A (zh) * 2021-09-03 2021-12-10 深圳市朗华供应链服务有限公司 商品的编码方法、电子设备及计算机可读存储介质
CN113779933B (zh) * 2021-09-03 2024-07-09 深圳市朗华供应链服务有限公司 商品的编码方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN107862046B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN107862046A (zh) 一种基于短文本相似度的税务商品编码分类方法及***
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN103699523B (zh) 产品分类方法和装置
US10963685B2 (en) Generating variations of a known shred
US8996524B2 (en) Automatically mining patterns for rule based data standardization systems
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
US20120290293A1 (en) Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
US20080201131A1 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
US20170076152A1 (en) Determining a text string based on visual features of a shred
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与***
CN104850617A (zh) 短文本处理方法及装置
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
EP2707808A2 (en) Exploiting query click logs for domain detection in spoken language understanding
CN111177375A (zh) 一种电子文档分类方法及装置
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN107577738A (zh) 一种通过svm文本挖掘处理数据的fmeca方法
US20220100797A1 (en) System and Method for Clustering Documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180725

Address after: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang

Applicant after: Ningbo Aisino Co., Ltd.

Applicant after: Hangtian Information Co., Ltd.

Address before: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang

Applicant before: Ningbo Aisino Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant