CN113761905A - 一种领域建模词汇表的构建方法和装置 - Google Patents
一种领域建模词汇表的构建方法和装置 Download PDFInfo
- Publication number
- CN113761905A CN113761905A CN202010622894.3A CN202010622894A CN113761905A CN 113761905 A CN113761905 A CN 113761905A CN 202010622894 A CN202010622894 A CN 202010622894A CN 113761905 A CN113761905 A CN 113761905A
- Authority
- CN
- China
- Prior art keywords
- word
- group
- vocabulary
- clustering
- participles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000012216 screening Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000013519 translation Methods 0.000 claims description 14
- 239000013589 supplement Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009193 crawling Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种领域建模词汇表的构建方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;将所述原始词汇表中的各个分词分别转换成词向量;基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。该实施方式能够解决构建词汇表的效率低的技术问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种领域建模词汇表的构建方法和装置。
背景技术
随着微服务架构的风靡,领域驱动设计(简称DDD)因为其领域划分与微服务划分天然契合自然也被各公司竞相追捧,纷纷尝试利用DDD思想指导新应用开发或现有代码重构。
在进行DDD过程中,统一词汇表的构建十分重要。技术人员、领域专家、产品经理、项目经理、业务方等的知识储备以及对应用程序理解各有不同,统一词汇表能够帮助各参与方更顺畅地沟通需求及问题,减少信息丢失。
目前,统一词汇表常用的构建方法是基于领域建模的用例文本(包括某个功能目的、前置条件、入参、基础流程、异常处理流程、校验规则等)构建,首先用文字详细描述出一个个用例,然后由整个团队共同讨论完成分词、关键词提取、词性划分、近义词整合提炼、英文命名(用于编码)补充、词语解释补充。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
分词、语义分析过度依赖人工讨论,并且英文命名、词语解释补充也会耗费大量时间,导致构建词汇表的效率非常低。
发明内容
有鉴于此,本发明实施例提供一种领域建模词汇表的构建方法和装置,以解决构建词汇表的效率低的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种领域建模词汇表的构建方法,包括:
对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;
将所述原始词汇表中的各个分词分别转换成词向量;
基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;
将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
可选地,所述基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇,包括:
聚类步骤:基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇;
筛选步骤:从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词;
对各个所述待定分词重复执行聚类步骤和筛选步骤,直到聚类结果中每个簇内只有一个分词为止。
可选地,在所述基于聚类算法和有效距离对各个所述分词的词向量进行聚类之前,还包括:
利用爬虫程序爬取中文词典中若干组已知近义词组;
分别计算每组所述已知近义词组的组内距离;
计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。
可选地,对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:
计算所述已知近义词组内两两词语的距离;
计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。
可选地,所述对每组近义词组增加补充信息,从而得到领域建模词汇表,包括:
通过调用接口的方式,获取每组近义词组的词义信息和译文信息;
对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。
可选地,所述将所述原始词汇表中的各个分词分别转换成词向量,包括:
采用word2vec模型将所述原始词汇表中的各个分词分别转换成词向量。
可选地,所述聚类算法为k-means算法。
另外,根据本发明实施例的另一个方面,提供了一种领域建模词汇表的构建装置,包括:
分词模块,用于对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;
转换模块,用于将所述原始词汇表中的各个分词分别转换成词向量;
聚类模块,用于基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;
补充模块,用于将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
可选地,所述聚类模块还用于:
聚类步骤:基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇;
筛选步骤:从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词;
对各个所述待定分词重复执行聚类步骤和筛选步骤,直到聚类结果中每个簇内只有一个分词为止。
可选地,所述聚类模块还用于:
基于聚类算法和有效距离对各个所述分词的词向量进行聚类之前,利用爬虫程序爬取中文词典中若干组已知近义词组;
分别计算每组所述已知近义词组的组内距离;
计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。
可选地,所述聚类模块还用于:对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:
计算所述已知近义词组内两两词语的距离;
计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。
可选地,所述补充模块还用于:对每组近义词组增加补充信息,从而得到领域建模词汇表,包括:
通过调用接口的方式,获取每组近义词组的词义信息和译文信息;
对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。
可选地,所述转换模块还用于:
采用word2vec模型将所述原始词汇表中的各个分词分别转换成词向量。
可选地,所述聚类算法为k-means算法。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用基于聚类算法和有效距离对各个分词的词向量进行聚类和筛选,从而得到多个簇,将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表的技术手段,所以克服了现有技术中构建词汇表的效率低的技术问题。本发明实施例通过文本分词、词向量转换、聚类等技术手段的组合,将领域建模中利用用例文本生成统一词汇表这一过程最大限度自动化,减少复杂重复的人工操作,有效提高构建词汇表的效率,还可以避免人为因素的干扰。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的领域建模词汇表的构建方法的主要流程的示意图;
图2是根据本发明实施例的用于领域建模的用例文本的示意图;
图3是根据本发明实施例的聚类结果的示意图;
图4是根据本发明实施例的领域建模词汇表的示意图;
图5是根据本发明一个可参考实施例的领域建模词汇表的构建方法的主要流程的示意图;
图6是根据本发明实施例的领域建模词汇表的构建装置的主要模块的示意图;
图7是本发明实施例可以应用于其中的示例性***架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的领域建模词汇表的构建方法的主要流程的示意图。作为本发明的一个实施例,如图1所示,所述领域建模词汇表的构建方法可以包括:
步骤101,对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表。
首先,采用分词工具对用于领域建模的用例文本进行分词,例如,用于领域建模的用例文本可以如图2所示,然后将分词按照词性分类,保留词性为名词的分词和词性为动词的分词,去除没有实际业务含义的形容词、副词等,从而构建得到原始词汇表。
常用的分词方法有基于字符串匹配的分词、基于理解的分词和基于统计的分词。
基于字符串匹配的分词是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,识别出一个分词。按照扫描方向不同可分为正向匹配和逆向匹配,按照优先匹配字符串长度不同可分为最大匹配和最小匹配,按照是否与词性标注过程相结合可分为单纯分词和词性标注一体化分词。字符串匹配分词的优点是速度快、实现简单,但是对歧义词以及机器词典中没有的词处理效果不佳。
基于理解的分词是通过让计算机模拟人对句子的理解达到识别词语的效果,基本思想是在分词的同时进行句法、语义分析来处理歧义现象,它通常包括分词子***、句法语义子***、总控部分。在总控部分的协调下分词子***可以获得有关词、句等的语义、句法信息来对分词歧义进行处理。这种方法需要大量量化的语言知识和信息,由于汉语语言体系过于复杂,目前尚未有较成熟的基于理解的汉语分词器。
基于统计的分词是在给定大量已经分词的文本的前提下,利用统计机器学习、模型学习等方法学习词语切分规律,这个过程称为训练。随着样本数量以及训练次数增加,从而实现较为准确的对未知文本的分词。常用的统计模型有N元文法模型、隐马尔科夫模型、最大熵模型等。
目前是较为主流成熟的中文分词方为基于统计的分词,本发明实施例也选择该类型的分词工具来对用例文本进行分词。由于领域建模过程产生的统一词汇表通常为具有明确业务含义的动词和名词,所以分词完毕之后还需要按照词性筛选出动词与名词,去掉没有业务含义的形容词、副词等,并且将相同词性的词语放在一起形成原始词汇表。
步骤102,将所述原始词汇表中的各个分词分别转换成词向量。
在该步骤中,可以采用词向量模型对原始词汇表中的各个分词进行词向量计算,比如词向量模型可以是word2vec模型,通过word2vec模型可以将原始词汇表中的各个分词分别转换成对应的词向量。某个分词计算得到的词向量可表示为:
词向量:VEC1=[v11,v12…v1n]
词向量模型需要提前训练好,训练语料可以取自***新闻、***、文学作品、专业文献等。在现有模型的基础上可以收集现有业务***的错误描述作为预料信息加以再次训练,进一步提高模型对于错误信息识别的精度。
步骤103,基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇。
对原始词汇表中的各个分词进行词向量计算后,采用基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而将词义相近的词语进行归类,得到按照词义划分的分类词汇表,便于最终人工介入进行删除、整合。需要指出的是,分类词汇表中词义相近的分词,会由产品经理、业务专家等根据业务场景,保留一个最能表达当前业务语义的分词,删除和整合的最终目的是建立一份统一的词汇表。词汇表作为后续团队沟通的参考依据,需要尽量精炼、准确,若不进行删除整合,则多个近义词在团队间沟通时容易产生信息误导或信息丢失,降低了沟通精确度与效率。
可选地,步骤103可以包括:聚类步骤:基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇;筛选步骤:从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词;对各个所述待定分词重复执行聚类步骤和筛选步骤,直到聚类结果中每个簇内只有一个分词为止。
可选地,所述聚类算法为k-means算法。首先需要选择一个k值,也就是我们希望把数据分成多少类,这里k值的选择对结果的影响很大,选择方法通常有两种:一种是elbowmethod(肘部法则),简单的说就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好;另一种则是根据具体的需求确定。然后需要选择最初的质心,这里的选择一般是随机选择的。接下来需要对原始词汇表中的所有分词都计算与这些质心的距离,把它们分到离它们质心最近的那一类中去。完成后再将每个簇算出平均值,用这个点作为新的质心。反复重复这两步,直到新的质心与老质心完全相同时就得到了最终的结果。此处计算的距离可以理解为两个分词的语义相似度,计算时需要用到分词的词向量,对于语义相似度计算通常采用余弦距离公式:
完成聚类之后,落入某个簇中的分词尚不能确定一定和所在簇的质心分词为近义词,它可能只是与所在簇的质心分词的相似度比与其他质心分词的相似度更高,所以还需要确定一个有效聚类来对聚类结果进行筛选,落入有效距离范围内的分词才可被保留为当前簇的近义词,未落入有效距离范围的分词需要重新进行聚类-筛选过程,直到聚类结果中每个簇只有一个分词方可停止。
如图3所示,假设第一轮聚类完成后所有分词被分为4类,A、B、C、D分别为每个簇的质心分词,以每个质心分词为圆心、以有效距离为半径,可以得到一个有效区间,如图中四个虚线圆圈所示。落入有效距离范围内的分词被保留为质心分词的近义词,如图中的词语1、词语3、词语5、词语7,其他词语(词语2、词语6、词语4和词语8)则进行下一轮的聚类步骤-筛选步骤。
对于有效距离的量化决策,本发明基于已知近义词进行求取。可选地,步骤103之前,还包括:利用爬虫程序爬取中文词典中若干组已知近义词组;分别计算每组所述已知近义词组的组内距离;计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。可选地,对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:计算所述已知近义词组内两两词语的距离;计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。
比如可以采用word2vec模型将已知近义词转换成词向量,然后对每组已知近义词组两两计算相似度,求平均值计算出的结果即为该组的组内距离。
假设一组已知近义词中有m个近义词,则该组的组内距离:
假设一共有n组已知近义词组,则最终有效距离为每组的组内距离求和取平均值:
步骤104,将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
可选地,对每组近义词组增加补充信息,从而得到领域建模词汇表,包括:通过调用接口的方式,获取每组近义词组的词义信息和译文信息;对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。
该步骤主要是对分类词汇表中的分词进行词义解释、英文翻译等信息的自动补充,目前各类中英文词典查询工具已经较为完善,可以写代码直接遍历分类词汇表调用相关接口进行查询、补充。英文翻译是为了在后续代码开发过程中保持命名的统一,同时提高团队中技术人员与非技术人员的沟通效率。
根据上面所述的各种实施例,可以看出本发明实施例通过基于聚类算法和有效距离对各个分词的词向量进行聚类和筛选,从而得到多个簇,将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表的技术手段,解决了现有技术中构建词汇表的效率低的技术问题。本发明实施例通过文本分词、词向量转换、聚类等技术手段的组合,将领域建模中利用用例文本生成统一词汇表这一过程最大限度自动化,减少复杂重复的人工操作,有效提高构建词汇表的效率,还可以避免人为因素的干扰。
图5是根据本发明一个可参考实施例的领域建模词汇表的构建方法的主要流程的示意图。作为本发明的又一个实施例,如图5所示,所述领域建模词汇表的构建方法可以包括:
步骤501,计算已知近义词组的有效距离。
具体地,利用爬虫程序爬取中文词典中若干组已知近义词组;分别计算每组所述已知近义词组的组内距离;计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。
可选地,对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:计算所述已知近义词组内两两词语的距离;计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。
步骤502,对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表。
步骤503,采用word2vec模型将所述原始词汇表中的各个分词分别转换成词向量。
步骤504,基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇。
步骤505,判断聚类结果中是否每个簇内只有一个分词;若是,则执行步骤507;若否,则执行步骤506。
步骤506,从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词。
步骤507,通过调用接口的方式,获取每组近义词组的词义信息和译文信息。
步骤508,对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。
另外,在本发明一个可参考实施例中领域建模词汇表的构建方法的具体实施内容,在上面所述领域建模词汇表的构建方法中已经详细说明了,故在此重复内容不再说明。
图6是根据本发明实施例的领域建模词汇表的构建装置的主要模块的示意图,如图6所示,所述领域建模词汇表的构建装置600包括分词模块601、转换模块602、聚类模块603和补充模块604;其中,分词模块601用于对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;转换模块602用于将所述原始词汇表中的各个分词分别转换成词向量;聚类模块603用于基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;补充模块604用于将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
可选地,所述聚类模块603还用于:
聚类步骤:基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇;
筛选步骤:从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词;
对各个所述待定分词重复执行聚类步骤和筛选步骤,直到聚类结果中每个簇内只有一个分词为止。
可选地,所述聚类模块603还用于:
基于聚类算法和有效距离对各个所述分词的词向量进行聚类之前,利用爬虫程序爬取中文词典中若干组已知近义词组;
分别计算每组所述已知近义词组的组内距离;
计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。
可选地,所述聚类模块603还用于:对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:
计算所述已知近义词组内两两词语的距离;
计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。
可选地,所述补充模块604还用于:对每组近义词组增加补充信息,从而得到领域建模词汇表,包括:
通过调用接口的方式,获取每组近义词组的词义信息和译文信息;
对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。
可选地,所述转换模块602还用于:
采用word2vec模型将所述原始词汇表中的各个分词分别转换成词向量。
可选地,所述聚类算法为k-means算法。
根据上面所述的各种实施例,可以看出本发明实施例通过基于聚类算法和有效距离对各个分词的词向量进行聚类和筛选,从而得到多个簇,将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表的技术手段,解决了现有技术中构建词汇表的效率低的技术问题。本发明实施例通过文本分词、词向量转换、聚类等技术手段的组合,将领域建模中利用用例文本生成统一词汇表这一过程最大限度自动化,减少复杂重复的人工操作,有效提高构建词汇表的效率,还可以避免人为因素的干扰。
需要说明的是,在本发明所述领域建模词汇表的构建装置的具体实施内容,在上面所述领域建模词汇表的构建方法中已经详细说明了,故在此重复内容不再说明。
图7示出了可以应用本发明实施例的领域建模词汇表的构建方法或领域建模词汇表的构建装置的示例性***架构700。
如图7所示,***架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的领域建模词汇表的构建方法一般由服务器705执行,相应地,所述领域建模词汇表的构建装置一般设置在服务器705中。本发明实施例所提供的领域建模词汇表的构建方法也可以由终端设备701、702、703执行,相应地,所述领域建模词汇表的构建装置可以设置在终端设备701、702、703中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机***800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机***800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有***800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分词模块、转换模块、聚类模块和补充模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,该设备实现如下方法:对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;将所述原始词汇表中的各个分词分别转换成词向量;基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
根据本发明实施例的技术方案,因为采用基于聚类算法和有效距离对各个分词的词向量进行聚类和筛选,从而得到多个簇,将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表的技术手段,所以克服了现有技术中构建词汇表的效率低的技术问题。本发明实施例通过文本分词、词向量转换、聚类等技术手段的组合,将领域建模中利用用例文本生成统一词汇表这一过程最大限度自动化,减少复杂重复的人工操作,有效提高构建词汇表的效率,还可以避免人为因素的干扰。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种领域建模词汇表的构建方法,其特征在于,包括:
对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;
将所述原始词汇表中的各个分词分别转换成词向量;
基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;
将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
2.根据权利要求1所述的方法,其特征在于,所述基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇,包括:
聚类步骤:基于聚类算法对各个所述分词的词向量进行聚类,从而得到多个簇;
筛选步骤:从各个所述簇内分别筛选出与质心分词之间的距离大于有效距离的待定分词;
对各个所述待定分词重复执行聚类步骤和筛选步骤,直到聚类结果中每个簇内只有一个分词为止。
3.根据权利要求1所述的方法,其特征在于,在所述基于聚类算法和有效距离对各个所述分词的词向量进行聚类之前,还包括:
利用爬虫程序爬取中文词典中若干组已知近义词组;
分别计算每组所述已知近义词组的组内距离;
计算每组所述已知近义词组的组内距离的算术平均值,从而得到有效距离。
4.根据权利要求3所述的方法,其特征在于,对于每组所述已知近义词组,采用如下方法计算所述已知近义词组的组内距离:
计算所述已知近义词组内两两词语的距离;
计算所述两两词语的距离的算术平均值,从而得到所述已知近义词组的组内距离。
5.根据权利要求1所述的方法,其特征在于,所述对每组近义词组增加补充信息,从而得到领域建模词汇表,包括:
通过调用接口的方式,获取每组近义词组的词义信息和译文信息;
对每组所述近义词组增加所述词义信息和所述译文信息,从而得到领域建模词汇表。
6.根据权利要求1所述的方法,其特征在于,所述将所述原始词汇表中的各个分词分别转换成词向量,包括:
采用word2vec模型将所述原始词汇表中的各个分词分别转换成词向量。
7.根据权利要求1所述的方法,其特征在于,所述聚类算法为k-means算法。
8.一种领域建模词汇表的构建装置,其特征在于,包括:
分词模块,用于对用于领域建模的用例文本进行分词,从分词结果中筛选出词性为动词和/或名词的分词,从而得到原始词汇表;
转换模块,用于将所述原始词汇表中的各个分词分别转换成词向量;
聚类模块,用于基于聚类算法和有效距离对各个所述分词的词向量进行聚类和筛选,从而得到多个簇;
补充模块,用于将每个簇内的分词作为一组近义词组,对每组近义词组增加补充信息,从而得到领域建模词汇表。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010622894.3A CN113761905A (zh) | 2020-07-01 | 2020-07-01 | 一种领域建模词汇表的构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010622894.3A CN113761905A (zh) | 2020-07-01 | 2020-07-01 | 一种领域建模词汇表的构建方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761905A true CN113761905A (zh) | 2021-12-07 |
Family
ID=78785438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010622894.3A Pending CN113761905A (zh) | 2020-07-01 | 2020-07-01 | 一种领域建模词汇表的构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761905A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095204A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
CN105912523A (zh) * | 2016-04-06 | 2016-08-31 | 苏州大学 | 一种词义标注方法和装置 |
CN106126494A (zh) * | 2016-06-16 | 2016-11-16 | 上海智臻智能网络科技股份有限公司 | 同义词发现方法及装置、数据处理方法及装置 |
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN110263336A (zh) * | 2019-06-12 | 2019-09-20 | 东华大学 | 一种构建乳腺超声领域本体的方法 |
CN110362815A (zh) * | 2018-04-11 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 文本向量生成方法和装置 |
CN110442728A (zh) * | 2019-06-28 | 2019-11-12 | 天津大学 | 基于word2vec汽车产品领域的情感词典构建方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN110991168A (zh) * | 2019-12-05 | 2020-04-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN111178096A (zh) * | 2019-12-22 | 2020-05-19 | 同济大学 | 一种基于语义相似度的cameo字典翻译方法 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
-
2020
- 2020-07-01 CN CN202010622894.3A patent/CN113761905A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095204A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
CN105912523A (zh) * | 2016-04-06 | 2016-08-31 | 苏州大学 | 一种词义标注方法和装置 |
CN106126494A (zh) * | 2016-06-16 | 2016-11-16 | 上海智臻智能网络科技股份有限公司 | 同义词发现方法及装置、数据处理方法及装置 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
CN110362815A (zh) * | 2018-04-11 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 文本向量生成方法和装置 |
CN110263336A (zh) * | 2019-06-12 | 2019-09-20 | 东华大学 | 一种构建乳腺超声领域本体的方法 |
CN110442728A (zh) * | 2019-06-28 | 2019-11-12 | 天津大学 | 基于word2vec汽车产品领域的情感词典构建方法 |
CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
CN110991168A (zh) * | 2019-12-05 | 2020-04-10 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
CN111178096A (zh) * | 2019-12-22 | 2020-05-19 | 同济大学 | 一种基于语义相似度的cameo字典翻译方法 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534B (zh) | 信息处理方法和装置 | |
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
US10095690B2 (en) | Automated ontology building | |
KR20220027220A (ko) | 자연어 이해(nlu) 프레임워크에서의 예측 유사도 스코어링 서브시스템 | |
EP3933657A1 (en) | Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
WO2019224629A1 (en) | Training data expansion for natural language classification | |
US11966389B2 (en) | Natural language to structured query generation via paraphrasing | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN113095080A (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
US20220027766A1 (en) | Method for industry text increment and electronic device | |
Yan et al. | Improving semantic similarity retrieval with word embeddings | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN113076744A (zh) | 一种基于卷积神经网络的文物知识关系抽取方法 | |
CN117112727A (zh) | 适用于云计算业务的大语言模型微调指令集构建方法 | |
US20230004715A1 (en) | Method and apparatus for constructing object relationship network, and electronic device | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN111368036B (zh) | 用于搜索信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |