CN110347794A - 一种高速列车设计词库构建方法及构建*** - Google Patents
一种高速列车设计词库构建方法及构建*** Download PDFInfo
- Publication number
- CN110347794A CN110347794A CN201910593391.5A CN201910593391A CN110347794A CN 110347794 A CN110347794 A CN 110347794A CN 201910593391 A CN201910593391 A CN 201910593391A CN 110347794 A CN110347794 A CN 110347794A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- word
- text
- speed train
- train design
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013461 design Methods 0.000 title claims abstract description 53
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000005303 weighing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract description 8
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 239000000725 suspension Substances 0.000 description 14
- 201000008482 osteoarthritis Diseases 0.000 description 6
- 238000007789 sealing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005299 abrasion Methods 0.000 description 4
- 238000013016 damping Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 229910000831 Steel Inorganic materials 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000010959 steel Substances 0.000 description 3
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 239000002775 capsule Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003137 locomotive effect Effects 0.000 description 2
- 230000001050 lubricating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种高速列车设计词库构建方法及构建***,包括以下步骤:步骤1:获取高速列车设计相关语料,统一文本格式;步骤2:对文本进行预处理,得到文本分词结果;步骤3:根据文本分词结果计算每个词的词语权重,权重大于设定阈值的为专业词汇;步骤4:确定专业词汇之间的语义关系;步骤5:若两个词汇之间存在同义关系和等级关系或相关度大于设定阈值,则将该专业词汇、词汇权重和语义关系存储在高速列车设计词库中,遍历文本分词结果中的所有词汇;本发明填补了目前高速列车设计领域内专业词库的空白,有效解决了传统人工构建词库方法效率低准确率低的问题;有利于高速列车设计制造企业的专业词汇组织、利用和更新维护。
Description
技术领域
本发明涉及一种高速列车设计词库构建方法及构建***。
背景技术
高速列车是典型的复杂机电产品,在长时间的发展过程中产生了大量的语言材料,如相关标准、文献书籍、企业的车辆研发文档等。这些语料中包含大量的高速列车设计专业词汇,然而这些专业词汇只是零散的存储于对应的语料文件中,未能形成高速列车设计的词汇体系,因而也没有形成设计词库来支撑基于知识的设计。目前铁道车辆词汇命名标准主要是针对列车结构方面提出的,且这些词汇目前主要是靠工程师的经验进行命名,缺乏对功能、性能、原理等设计知识进行规范,也无法支持高速列车设计专业词汇的统一管理。由于不同企业之间甚至同一企业不同部门之间对专业词汇的命名习惯存在差异,企业间合作或部门间协作的效率常常受到影响。
传统的设计领域词库构建方法主要采用人工方式,具体为:人工收集整理与该领域相关的语料,根据通用分词方法对收集的语料进行分词,然后对分词结果进行人工审核与修正,将符合人工审核条件的词语作为该领域的特征词存储至特征词库中。实际应用中,通用分词方法往往无法准确分出行业的专业词汇,以轨道车辆领域为例,“动车转向架”是本领域内的专用词组,而传统分词方法无法识别,导致后期人工审核与修正的工作非常繁琐。这种人工收集、人工审核及修正的词库构建方法不仅存在费时费力、效率低、准确性差的缺点,而且词库中的专业词汇仍旧孤立的存储在***中,缺乏词汇间的语义关系,不利于企业的专业词汇组织与利用。
发明内容
本发明提供一种实现高速列车设计领域内词汇体系化和规范化,并实现词库的自动构建的一种高速列车设计词库构建方法及构建***。
本发明采用的技术方案是:一种高速列车设计词库构建方法,包括以下步骤:
步骤1:获取高速列车设计相关语料,统一文本格式;
步骤2:对文本进行预处理,得到文本分词结果;
步骤3:根据文本分词结果计算每个词的词语权重,权重大于设定阈值的为专业词汇;
步骤4:确定专业词汇之间的语义关系,任选两个词汇确定其是否存在同义关系和等级关系,若不存在则计算其相关度;
步骤5:若两个词汇之间存在同义关系和等级关系或相关度大于设定阈值,则将该专业词汇、词汇权重和语义关系存储在高速列车设计词库中,遍历文本分词结果中的所有词汇。
进一步的,所述步骤3中词语权重计算过程如下:
S11:统计文本分词结果中每个词在所有语料文本中的词频TF;
S12:统计文本分词结果中每个词在整个语料库中的语料频率DF;
S13:计算词语权重:
式中:TFDFi为词语i的权重,TFi为j文本中出现的词语i在所有文本中的词频,DFi为词语i在整个语料库中出现的频率,fij为词语i在文本j中的词频,ni为词语i的文本频数,N为样本语料中的文本总数,M为j文本中的词语总数。
进一步的,所述步骤4中所述同义关系通过同义词典匹配确定。
进一步的,所述步骤4中等级关系通过等级关联度确定,等级关联度大于设定阈值则两个词汇之间存在等级关系;
等级关联度计算过程如下:
式中:Sim为某两个词汇之间的等级关联度,xsword为两个词汇中含有相同匹配字的个数,ctrlword为两个词汇中被匹配词汇中汉字的总数,keyword为两个词汇中待匹配词汇中汉字的总数,dp为被匹配词与待匹配词字数的比值,c_xsword(i)为匹配词汇中i字在被匹配词汇中所处的位置数,k_xsword(i)为匹配词汇中i字在待匹配词汇中所处的位置数,ctrlword(i)为被匹配词汇中各字的位置数,keyword(i)为待匹配词汇中各字的位置数。
进一步的,所述步骤4中相关度计算方法如下:
式中:D(A,B)为词汇A和B之间的相关度,P(AB)为A和B在文本分词结果中共同出席的频次,P(A)为A在文本分词结果中单独出现的频次,P(B)为B在文本分词结果中单独出现的频次。
进一步的,所述步骤2中的预处理包括以下过程:
S21:对文本通过中文分词Jieba工具进行分词处理;
S22:对步骤S21分词结果进行词性标注,并对其进行过滤,输出分词结果。
一种高速列车设计词库构建***,包括预处理模块、候选词提取模块、语义关系模块和高速列车设计词库;
预处理模块用于对获取得到的统一格式的语料进行预处理;
候选词提取模块用于确定经预处理后的词汇中的专业词汇;
语义关系模块用于确定专业词汇之间的语义关系,包括同义关系、等级关系和相关关系;
高速列车设计词库用于存储高速列车设计专业词汇及词汇权重、词汇间的语义关系。
本发明的有益效果是:
(1)本发明构建得到高速列车设计词库,填补了目前高速列车设计领域内专业词库的空白,有效解决了传统人工构建词库方法效率低准确率低的问题;
(2)本发明能根据轨道车辆语料的更新动态更新,有利于高速列车设计制造企业的专业词汇组织、利用和更新维护;
(3)本发明结合词汇间的语义关系可为设计人员提供具有关联性的知识体系。
附图说明
图1为本发明构建方法流程示意图。
图2为本发明构建***结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种高速列车设计词库构建方法,包括以下步骤:
步骤1:获取高速列车设计相关语料,统一文本格式;
收集高速列车设计相关语料,对文本格式进行文本处理;语料包括相关标准、文献书籍、轨道车辆制造企业的车辆研发文档等,再通过格式转换转置将所有语料转换为txt格式。本实施例中以“某转向架对象介绍图书”、“某型号列车招标条件”及“某型号列车的技术规划书”的部分内容作为语料素材。
步骤2:对文本进行预处理,得到文本分词结果;预处理包括对统一格式的文本进行分词、过滤等操作,输出文本分词结果,分以下两步进行。
S21:对文本通过中文分词Jieba工具进行分词处理;首先,根据铁道车辆词汇标准构建预设字典,结合Jieba的默认字典对语料进行分词,分词模式选择精确模式。
S22:对步骤S21分词结果进行词性标注,并对其进行过滤,输出分词结果。过滤包括去除介词、副词、助词等词性的词汇,并且通过常用停用词表将含义过于宽泛的常用词过滤掉。
步骤3:根据文本分词结果计算每个词的词语权重,权重大于设定阈值的为专业词汇;根据文本分词的词频和语料文本频率,计算候选词权重。
文中所有语料文本为根据搜集的语料(上文中提到的各种文档),假设有10篇原始文档,将其进行分词等处理后形成了十个语料文本。这十篇语料文本组成的集合为语料空间。
词语权重计算过程如下:
S11:针对语料的分词结果中的每个词汇,统计文本分词结果中每个词在所有语料文本中出现频率TF;
假设有10篇语料文本,以“转向架”作为关键词汇,那么转向架在第一篇语料文本中出现的次数称为词汇在该文档中的词频数。由于每个文档的字数存在差异,单纯看词频不能代表词汇在该文档中的重要度,采用该词的词频率进行归一化。第一篇中“转向架”出现的数量与第一篇文档中所有词汇的数量的比值则为“转向架”在第一篇文档中出现的频率。对于整个语料空间来说,“转向架”的词频率则用“转向架”词汇在10篇语料文本中的词频率(一共有10个词频率)的和来表示。TF值从数量占比上反映了词汇的重要度。其计算公式见词语权重计算公式。
S12:根据词汇在所有语料文本中出现的频次及语料空间中包含的文本个数,统计文本分词结果中每个词在整个语料库中出现的频率为语料频率DF;
假设有10个语料文本,出现“转向架”的文本有6个,则该词对于整个语料空间的文本频率为0.6,DF值反映了词汇分布的广度。
S13:针对语料的分词结果中的每个词汇,对所有的词语进行权重计算。将词语的权重看成是词频、语料文本频率的非线性函数。计算词语权重:
式中:TFDFi为词语i的权重,TFi为j文本中出现的词语i在所有文本中的词频,DFi为词语i在整个语料库中出现的频率,fij为词语i在文本j中的词频,ni为词语i的文本频数,指出现了关键词汇的文本数量,如一共10篇语料文本,“转向架”在6篇里出现,则ni=6,N为样本语料中的文本总数,M为j文本中的词语总数。
若词语权重超过设定阈值,可以将该专业词汇选为专业候选词,通过专家审核与调整确定高速列车设计专业词汇。
表1.本实施例部分计算结果
词汇 | TF-DF |
转向架 | 0.2623 |
构架 | 0.0936 |
轮对 | 0.0576 |
使用寿命 | 0.0407 |
牵引 | 0.0379 |
一系悬挂 | 0.0301 |
结构 | 0.0078 |
质量 | 0.0042 |
步骤4:确定专业词汇之间的语义关系,任选两个词汇确定其是否存在同义关系和等级关系,若不存在则计算其相关度;
首先,确定词汇间是否存在同义关系,词汇间的同义关系主要通过两种方法确定,一种是通过同义词典匹配,即利用通用的同义词林进行同义匹配;另一种是通过特定的模式匹配,即根据该词汇的上下文语境特点进行匹配:<Prefix>“词汇”简称/也称/又称<Postfix>左括号+同义词+右括号。例如,“非动力转向架(又称拖车转向架)”。
下面对模式匹配进行举例说明。
词汇由三部分组成:<Prefix>+同义词+<Postfix>
其中<Prefix>是指紧靠同义词的前缀,<Postfix>指紧随同义词的后缀字符串。
一般前缀为:简称/也称/又称为/又叫/亦叫
后缀:句子结束符(一般指标点符号)
下面是来自图书、招标条件、技术规格书的三段内容:
“通常一般动车组转向架可分为动力转向架(也称动车转向架)和非动力转向架(也称拖车转向架),任何铁路机车车辆转向架必须拥有如下功能:承载、牵引、缓冲、导向、制动。其主要组成部分包括:轮对、轴箱、一系悬挂(也称弹簧悬挂装置)、构架、二系悬挂、驱动装置、基础制动装置。
转向架构架、轴箱体等主要结构件(不含橡胶关节部件)的使用寿命应不低于30年。转向架构架能在符合中国铁路维修标准的线路上正常运行30年。且按照投标方维护手册规定的要求,在正常的使用和维护的情况下,无需结构性维修。转向架部件的寿命要求按照18.3.5执行。转向架上的一系弹簧(如使用橡胶)、空气弹簧、一二系止挡、牵引拉杆橡胶关节、齿轮箱吊杆橡胶关节以及齿轮箱橡胶密封件等的使用寿命应不低于12年。其它橡胶密封件的使用寿命应不低于7年。每辆车有两台转向架,每台转向架有两根轴,转向架型式采用轴箱外置式,转向架应具有不少于500,000km的运用考核验证。应尽量减小转向架重量,尤其是簧下重量,重要的不均衡性应满足车辆的基本要求。完整的转向架的最大质量应不超过8t,拖车转向架的重量应不超过6t(不含ATC设备)。固定轴距:2500mm。车轮滚动圆直径:新轮为840mm,磨耗到限时为770mm。轮对内侧距:1353(+2/-0)mm。
转向架采用SD80型转向架,目前应用于北京地铁14号线、16号线、石家庄3号线等车辆。转向架主要包括构架组成、轮对(含车轮降噪阻尼装置)、轴箱装置、一系悬挂、二系悬挂、中央牵引装置、基础制动装置、轮缘润滑装置和排障装置等。动车转向架还包括牵引电机、齿轮箱和连轴节。转向架构架采用钢板焊接H型结构,其侧梁采用箱型结构,横梁采用无缝钢管结构。转向架构架、轴箱体等主要结构件(不含橡胶关节部件)的使用寿命不低于30年。转向架的使用寿命不低于30年或360万公里(两者取较大值)。车轮安装降噪阻尼环。轴箱轴承采用进口双列圆锥滚子轴承,自密封结构,接地装置安装在轴箱上。二系悬挂及牵引装置主要包括大曲囊空气弹簧、抗侧滚扭杆、抗蛇形减振器、弹性无磨耗“Z”字形牵引装置、自动高度调整阀、差压阀、横向油压减振器等。排障器安装在拖车转向架端部。”
通过Jieba工具对上述文件进行分词处理后的结果如下:
“通常一般动车组转向架可分为动力转向架(也称动车转向架)和非动力转向架(也称拖车转向架),任何铁路机车车辆转向架必须拥有如下功能:承载、牵引、缓冲、导向、制动。其主要组成部分包括:、轮对、轴箱、一系悬挂(也称弹簧悬挂装置)、构架、二系悬挂、驱动装置、基础制动装置。
转向架构架、轴箱体等主要结构件(不含橡胶关节部件)的使用寿命应不低于30年。转向架构架能在符合中国铁路维修标准的线路上正常运行30年,且按照投标方维护手册规定的要求,在正常的使用和维护的情况下,无需结构性维修。转向架部件的寿命要求按照18.3.5执行。转向架上的一系弹簧(如使用橡胶)、空气弹簧、一二系止挡、牵引拉杆橡胶关节、齿轮箱吊杆橡胶关节以及齿轮箱橡胶密封件等的使用寿命应不低于12年,其它橡胶密封件的使用寿命应不低于7年。每辆车有两台转向架,每台转向架有两根轴,转向架型式采用轴箱外置式,转向架应具有不少于500,000km的运用考核验证。应尽量减小转向架重量,尤其是簧下重量,重量的不均衡性应满足车辆的基本要求,完整的转向架的最大质量应不超过8t,拖车转向架的重量应不超过6t(不含ATC设备)。固定轴距:2500mm。车轮滚动圆直径:新轮为840mm,磨耗到限时为770mm。轮对内侧距:1353(+2/-0)mm。
转向架采用SDA–80型转向架,目前应用于背景地铁14号线、16号线、石家庄3号线等车辆。转向架结构主要包括构架组成、轮对(含车轮降噪阻尼装置)、轴箱装置、一系悬挂、二系悬挂、中央牵引装置、基础制动装置、轮缘润滑装置和排障装置等,动车转向架还包括牵引电机、齿轮箱和联轴节。转向架构架采用钢板焊接H型结构,其侧梁采用箱型结构,横梁采用无缝钢管结构。转向架构架、轴箱体等主要结构件(不含橡胶关节部件)的使用寿命不低于30年。转向架的使用寿命不低于30年或360万公里(二者取较大值)。车轮安装降噪阻尼环;轴箱轴承采用进口双列圆锥滚子轴承,自密封结构,接地装置安装在轴箱上。二系悬挂及牵引装置主要包括大曲囊空气弹簧、抗侧滚扭杆、抗蛇形减振器、弹性无磨耗“Z”字形牵引装置、自动高度调整阀、、差压阀、横向油压减振器等。排障器安装在拖车转向架端部。”
对于文本中出现的“动力转向架”(也称动车转向架)、一系悬挂(也称弹簧悬挂装置),利用模式匹配的方式能确定“动车转向架”与“动力转向架”为同义词。其余满足预定义规则的(即出现上述前缀标志性词汇)词均可以定义为同义词。
然后,确定词汇间的等级关系。包含相同的词素的两个词汇一般存在某种语义关系,并且根据汉语词汇语义具有重心后移的特点,即汉字位置越靠前,其作用越小,位置越靠后,作用越大。结合相同词素的数量及位置分布计算两个词的等级关联度,计算函数如下:
以“转向架”与“动力转向架”为例进行说明:
xsword=3;ctrlword=3;keyword=5
根据词素的关联规则,可以得出“转向架”与“动力转向架”存在等级关系,且“动力转向架”是“转向架”的子级。
最后确定词汇间的相关关系,相关关系指词汇间除同义关系与等级关系之外的关联关系。结合词汇的频次与词汇与词汇共现的频次计算词与词之间的相关关系,具体计算公式如下:
式中:D(A,B)为词汇A和B之间的相关度,P(AB)为A和B在文本分词结果中共同出席的频次,P(A)为A在文本分词结果中单独出现的频次,P(B)为B在文本分词结果中单独出现的频次。相关关系部分计算结果如表2所示。
表2.词汇间的相关关系计算结果
步骤5:若两个词汇之间存在同义关系和等级关系或相关度大于设定阈值,则将该专业词汇、词汇权重和语义关系存储在高速列车设计词库中,遍历文本分词结果中的所有词汇。
表3为部分高速列车设计词库内容
根据本发明方法形成一种高速列车设计词库构建***,包括预处理模块、候选词提取模块、语义关系模块和高速列车设计词库;如图2所示。
预处理模块用于对获取得到的统一格式的语料进行预处理;对前期的数据源进行初步的语料预处理工作,主要是将收集的语料转换为txt格式。通过结合铁道车辆词汇标准构建预设字典的Jieba分词工具进行分词,并根据词性及停用词表过滤不相关词汇,输出该语料的分词结果。
候选词提取模块用于确定经预处理后的词汇中的专业词汇;针对语料预处理模块输出的分词结果中的每个词汇,统计每个词汇的词频和语料文本频率,计算对应的词汇权重,根据预设的阈值挑选出高速列车设计候选词,作为专业词汇;还可以通过专家审核对其进行调整与修改,审查通过后输出专业词汇。
语义关系模块用于确定专业词汇之间的语义关系,包括同义关系、等级关系和相关关系;采用同义词典匹配与模式匹配方法相结合确定找出某词汇的同义词。考虑两个词汇共有的词素的数量与词素的位置,确定两个词汇是否存在等级关系,若两个词的等级相关度超多预设的阈值,则认为两个词存在等级关系,一般指父类与子类的关系。相关关系中主要分析在词库中除同义与等级关系以外的关系。利用两词汇的出现次数及共现的次数计算两个词的相关度,若两个词的相关度为0,则认为两个词不相关或相互独立;若相关度为1则规定两个词存在同义关系,在[0,1]区间中相关度越大,则说明两个词汇越相关。
高速列车设计词库用于存储高速列车设计专业词汇及词汇权重、词汇间的语义关系。
为了更好的进行管理可以设置高速列车词库管理模块,该模块能根据新的语料对词库中的内容进行增添、修改、删除与更新。
本发明通过收集高速列车设计的相关语料,对语料进行文本预处理、文本分词、候选词选择、语义关系标注等方法与技术。从收集的语料中挖掘出高速列车设计的专业词汇及词间关系,构建了高速列车设计词库,填补了目前高速列车设计领域内专业词库的空白,解决了传统人工构建词库方法效率低、准确率低的问题。同时为了提高方法的准确性,还可以在候选词审查环节中参与;能实现词库的自动构建,根据轨道车辆语料的更新动态更新,有利于高速列车设计制造企业的专业词汇组织与利用,并可以为企业管理车辆研发知识奠定基础。
Claims (7)
1.一种高速列车设计词库构建方法,其特征在于,包括以下步骤:
步骤1:获取高速列车设计相关语料,统一文本格式;
步骤2:对文本进行预处理,得到文本分词结果;
步骤3:根据文本分词结果计算每个词的词语权重,权重大于设定阈值的为专业词汇;
步骤4:确定专业词汇之间的语义关系,任选两个词汇确定其是否存在同义关系和等级关系,若不存在则计算其相关度;
步骤5:若两个词汇之间存在同义关系和等级关系或相关度大于设定阈值,则将该专业词汇、词汇权重和语义关系存储在高速列车设计词库中,遍历文本分词结果中的所有词汇。
2.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤3中词语权重计算过程如下:
S11:统计文本分词结果中每个词在所有语料文本中的词频TF;
S12:统计文本分词结果中每个词在整个语料库中的语料频率DF;
S13:计算词语权重:
式中:TFDFi为词语i的权重,TFi为j文本中出现的词语i在所有文本中的词频,DFi为词语i在整个语料库中出现的频率,fij为词语i在文本j中的词频,ni为词语i的文本频数,N为样本语料中的文本总数,M为j文本中的词语总数。
3.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤4中所述同义关系通过同义词典匹配确定。
4.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤4中等级关系通过等级关联度确定,等级关联度大于设定阈值则两个词汇之间存在等级关系;
等级关联度计算过程如下:
式中:Sim为某两个词汇之间的等级关联度,xsword为两个词汇中含有相同匹配字的个数,ctrlword为两个词汇中被匹配词汇中汉字的总数,keyword为两个词汇中待匹配词汇中汉字的总数,dp为被匹配词与待匹配词字数的比值,c_xsword(i)为匹配词汇中i字在被匹配词汇中所处的位置数,k_xsword(i)为匹配词汇中i字在待匹配词汇中所处的位置数,ctrlword(i)为被匹配词汇中各字的位置数,keyword(i)为待匹配词汇中各字的位置数。
5.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤4中相关度计算方法如下:
式中:D(A,B)为词汇A和B之间的相关度,P(AB)为A和B在文本分词结果中共同出席的频次,P(A)为A在文本分词结果中单独出现的频次,P(B)为B在文本分词结果中单独出现的频次。
6.根据权利要求1所述的一种高速列车设计词库构建方法,其特征在于,所述步骤2中的预处理包括以下过程:
S21:对文本通过中文分词Jieba工具进行分词处理;
S22:对步骤S21分词结果进行词性标注,并对其进行过滤,输出分词结果。
7.采用如权利要求1~6所述任一项方法的高速列车设计词库构建***,其特征在于,包括预处理模块、候选词提取模块、语义关系模块和高速列车设计词库;
预处理模块用于对获取得到的统一格式的语料进行预处理;
候选词提取模块用于确定经预处理后的词汇中的专业词汇;
语义关系模块用于确定专业词汇之间的语义关系,包括同义关系、等级关系和相关关系;
高速列车设计词库用于存储高速列车设计专业词汇及词汇权重、词汇间的语义关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593391.5A CN110347794A (zh) | 2019-07-03 | 2019-07-03 | 一种高速列车设计词库构建方法及构建*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593391.5A CN110347794A (zh) | 2019-07-03 | 2019-07-03 | 一种高速列车设计词库构建方法及构建*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110347794A true CN110347794A (zh) | 2019-10-18 |
Family
ID=68177599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910593391.5A Pending CN110347794A (zh) | 2019-07-03 | 2019-07-03 | 一种高速列车设计词库构建方法及构建*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347794A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118095255A (zh) * | 2023-12-25 | 2024-05-28 | 安徽省公共气象服务中心(安徽省突发公共事件预警信息发布中心) | 基于Jieba分词的气象预警质控白名单制作方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
US20140129350A1 (en) * | 2012-11-02 | 2014-05-08 | Yahoo Japan Corporation | Advertisement distribution apparatus and advertisement distribution method |
CN106294316A (zh) * | 2016-07-29 | 2017-01-04 | 陕西师范大学 | 一种基于词典的文本情感分析方法 |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
-
2019
- 2019-07-03 CN CN201910593391.5A patent/CN110347794A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140129350A1 (en) * | 2012-11-02 | 2014-05-08 | Yahoo Japan Corporation | Advertisement distribution apparatus and advertisement distribution method |
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
CN106294316A (zh) * | 2016-07-29 | 2017-01-04 | 陕西师范大学 | 一种基于词典的文本情感分析方法 |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
Non-Patent Citations (8)
Title |
---|
仲云云等: "电子政务主题词表自动构建研究", 《中国图书馆学报》 * |
刘兴林等: "基于互联网的词汇语义知识库构建框架研究", 《计算机与现代化》 * |
刘华梅等: "基于受控词表互操作的集成词库构建研究", 《中国图书馆学报》 * |
刘鑫磊等: "用于涉军网络舆情情感分析的情感词典构建", 《信息***工程》 * |
安亚巍等: "面向语料的领域主题词表构建算法", 《计算机科学》 * |
杨贺等: "用于计算机辅助文献标引加工***的自然语言词表构建", 《现代图书情报技术》 * |
珠杰等: "藏文停用词选取与自动处理方法研究", 《中文信息学报》 * |
霍林等: "一种结合同义词典和词对共现距离的查询扩展方法", 《广西大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118095255A (zh) * | 2023-12-25 | 2024-05-28 | 安徽省公共气象服务中心(安徽省突发公共事件预警信息发布中心) | 基于Jieba分词的气象预警质控白名单制作方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704637B (zh) | 一种面向突发事件的知识图谱构建方法 | |
Falk et al. | Classifying French verbs using French and English lexical resources | |
Bullock et al. | High-speed Rail--the first three years: taking the pulse of China's emerging program | |
CN110347794A (zh) | 一种高速列车设计词库构建方法及构建*** | |
CN108268440A (zh) | 一种未登录词识别方法 | |
CN102779119B (zh) | 一种抽取关键词的方法及装置 | |
Wang et al. | Fiscal decentralization and high-polluting industry development: city-level evidence from Chinese panel data | |
CN112026857B (zh) | 一种基于ctcs-3列控***的高速铁路列车运行调整方法 | |
CN114417015A (zh) | 一种高速列车可维修性知识图谱构建方法 | |
Enblom | Simulation of Wheel and Rail Profile Evolution: Wear Modelling and Validation | |
Slifkin et al. | The changing metropolitan designation process and rural America | |
CN108981906B (zh) | 一种轨道波磨故障综合诊断方法 | |
CN114647640A (zh) | 一种基于人工智能的动车组转向架业务数据清洗方法 | |
CN110347828A (zh) | 一种地铁乘客需求动态获取方法及其获取*** | |
CN115982309A (zh) | 一种基于大数据的轨道交通数据分析方法 | |
CN109446409A (zh) | 一种疑似传销行为的目标对象的识别方法 | |
Shang et al. | Study of urban rail transit operation costs | |
CN105809196A (zh) | 基于先验主题模型的列控***车载设备智能化故障诊断方法 | |
CN108830509B (zh) | 一种巡游出租车运力规模动态调整方法 | |
Cignarella et al. | " La ministro è incinta": A Twitter Account of Women’s Job Titles in Italian | |
ZHAO et al. | Wear prediction of inter-city EMU wheels in consideration of tread trimmer-wheel and wheel-rail interactions | |
CN108959710A (zh) | 一种基于扰动干涉理论接触网支持悬挂***腕臂的稳健优化设计方法 | |
CN110348133A (zh) | 一种高速列车三维产品结构技术功效图构建***及方法 | |
CN103674586A (zh) | 针对列车行走***的隐患和故障特征提取方法 | |
Grimm | The analysis of congested infrastructure and capacity utilisation at trafikverket |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20191230 Address after: 610031 Chengdu City, Sichuan Province, No. two North Ring Road, Southwest Jiao Tong University, Applicant after: SOUTHWEST JIAOTONG University Applicant after: CRRC CHANGCHUN RAILWAY VEHICLES Co.,Ltd. Address before: 610031 Chengdu City, Sichuan Province, No. two North Ring Road, Southwest Jiao Tong University, Applicant before: Southwest Jiaotong University |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |
|
RJ01 | Rejection of invention patent application after publication |