CN116644157B - 基于桥梁养护非结构化数据构建Embedding数据的方法 - Google Patents

基于桥梁养护非结构化数据构建Embedding数据的方法 Download PDF

Info

Publication number
CN116644157B
CN116644157B CN202310926969.0A CN202310926969A CN116644157B CN 116644157 B CN116644157 B CN 116644157B CN 202310926969 A CN202310926969 A CN 202310926969A CN 116644157 B CN116644157 B CN 116644157B
Authority
CN
China
Prior art keywords
word2vec
training
word2vec model
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310926969.0A
Other languages
English (en)
Other versions
CN116644157A (zh
Inventor
杨雷
韦韩
方宇
刘刚
董振华
宋轶骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of Highway Ministry of Transport
Original Assignee
Research Institute of Highway Ministry of Transport
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of Highway Ministry of Transport filed Critical Research Institute of Highway Ministry of Transport
Priority to CN202310926969.0A priority Critical patent/CN116644157B/zh
Publication of CN116644157A publication Critical patent/CN116644157A/zh
Application granted granted Critical
Publication of CN116644157B publication Critical patent/CN116644157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请中提供的基于桥梁养护非结构化数据构建Embedding数据的方法,其包括:访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据,从而实现将桥梁养护非结构化数据转换成embedding数据。

Description

基于桥梁养护非结构化数据构建Embedding数据的方法
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种基于桥梁养护非结构化数据构建Embedding数据的方法。
背景技术
基于已有的桥梁健康监测理论体系,积累沉淀了大量的桥梁养护相关的理论和实践数据,这些数据可反映出大量的科研理论和实践经验。但是,由于这些数据大多为非结构化文本数据,长期以来没有被有效的提炼出来形成桥梁养护领域的词汇数据。而随着计算机技术、人工智能技术等的发展,桥梁健康监测理论体系也需要不断提升信息化、智能化水平。通过自然语言处理模型处理和利用大量非结构化数据是提升智能化水平的一个重要方法。但是,自然语言处理模型在使用之前,都需要由Embedding数据来驱动以完成训练。因此,亟待提供一种解决方案,以将桥梁养护非结构化数据转换成embedding数据,并在此基础上构建训练数据,来对自然语言处理模型进行训练,以使得桥梁养护行业进一步深入的与人工智能的高效算法相结合,从而实现利用自然语言处理等相关算法打造知识图谱,构建语言模型等相关研究的道路。
发明内容
本申请的目的在于提出一种基于桥梁养护非结构化数据构建Embedding数据的方法,用于解决或者克服现有技术中存在的上述技术问题。
根据本申请实施例的第一方面,提供了一种基于桥梁养护非结构化数据构建Embedding数据的方法,其包括:
访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;
对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;
基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;
访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;
基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据。
可选地,所述基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练,包括:
获取所述Word2Vec模型的训练参数组合,所述训练参数组合包括Embedding维度、词向量上下文距离、模型架构、过滤的最小词频数中至少其一;
基于所述训练参数组合,确定所述Word2Vec模型的训练方向;
基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练。
可选地,所述基于所述训练参数组合,确定所述Word2Vec模型的训练方向,包括:
基于所述训练参数组合中的训练参数,确定出所述Word2Vec模型的对应训练方向;
所述基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练,包括:
基于所述输入数据对所述Word2Vec模型沿着每个所述训练方向进行单独训练,直至得到与所述训练参数组合的数量对等的多个所述Word2Vec模型;
对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:
基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值;
根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,根据如下公式(1),基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值:
其中,表示第i个Word2Vec模型的输出embedding数据,/>表示第j个Word2Vec模型的输出embedding数据,n表示embedding数据的维度,n为大于1的正整数,/>表示第i个Word2Vec模型和第j个Word2Vec模型之间的注意力值,i,j为大于等于1的整数且小于等于所述Word2Vec模型的个数。
可选地,基于如下公式(2),根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
其中,表示第i个Word2Vec模型的注意力权重参数,M表示Word2Vec模型的个数,为大于2的整数,k的取值为1到M,j的取值为1到M。
可选地,基于如下公式(3),根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据。
可选地,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:按照如下公式(4),对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示第i个Word2Vec模型的输出embedding数据,M表示Word2Vec模型的个数,表示训练完成的所述Word2Vec模型的输出embedding数据。
可选地,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:
基于平均值融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的平均值Word2Vec模型;
基于注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的注意力Word2Vec模型;
对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,按照如下公式(5),对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据,/>表示平均值Word2Vec模型的输出embedding数据,/>表示注意力Word2Vec模型的输出embedding数据,/>表示融合权重值,其满足:/>
所述的方法,还包括:基于如下步骤,确定所述融合权重值:
获取输入数据样本;
随机遍历0-1之间的多个值组成备选融合权重值,并从中逐一选取一个作为融合权重值赋值给,以将所述输入数据样本输入到所述训练完成的Word2Vec模型,得到该融合权重值赋值给/>时所述训练完成的所述Word2Vec模型的输出embedding数据;
对所有备选融合权重值赋值给时得到所有所述训练完成的所述Word2Vec模型的输出embedding数据进行聚类分析得到聚类标示值;
从中选取聚类标示值最大时对应的备选融合权重值作为最终的
本申请中提供的基于桥梁养护非结构化数据构建Embedding数据的方法,其包括:访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据,以实现将桥梁养护非结构化数据转换成embedding数据,并组成训练数据源,对自然语言处理模型进行训练,以使得桥梁养护行业进一步深入的与人工智能的高效算法相结合,从而实现利用自然语言处理等相关算法打造知识图谱,构建语言模型等相关研究的道路。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。
附图中:
图1为本申请实施例提供的一种基于桥梁养护非结构化数据构建Embedding数据的方法流程示意图。
图2为本申请实施例提供的一种基于桥梁养护非结构化数据构建Embedding数据的装置结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
本申请中提供的基于桥梁养护非结构化数据构建Embedding数据的方法,其包括:访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型(word to vector,词向量模型)的训练;访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding(又称嵌入)形式表示,以得到对应的embedding数据,从而实现将桥梁养护非结构化数据转换成embedding数据,并组成训练数据源,对自然语言处理模型进行训练,以使得桥梁养护行业进一步深入的与人工智能的高效算法相结合,从而实现利用自然语言处理等相关算法打造知识图谱,构建语言模型等相关研究的道路。
图1为本申请实施例提供的一种基于桥梁养护非结构化数据构建Embedding数据的方法流程示意图。如图1所示,其包括:
S101:访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据。
本实施例中,所述第一桥梁养护非结构化文本数据源比如为任意的数据服务器集群,比如包括至少一台数据服务器。所述第一桥梁养护非结构化文本数据源上存储有第一桥梁养护非结构化文本数据,所述第一桥梁养护非结构化文本数据的存储格式不做限定。
所述数据服务集群可以由局域网内的数据服务器构成,也可以由外网的数据服务器构成,只要是可以允许获取其上存储的第一桥梁养护非结构化文本数据即可。
所述数据服务集群上比如搭建有桥梁信息管理***,该桥梁信息管理***中存储有桥梁检测报告,获取该桥梁检测报告作为第一桥梁养护非结构化文本数据。
本实施例中,通过访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据,从而将实际的第一桥梁养护非结构化文本数据作为训练Word2Vec模型时使用的输入数据的来源,从而提高了模型训练时使用样本数据的客观性,保证了模型能够学习到输入数据的特性。
S102:对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据。
可选地,本实施例中,所述对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据,包括:
对所述第一桥梁养护非结构化文本数据进行分句处理,得到第一桥梁养护非结构化描述语句;
基于构建的桥梁养管专业词汇词典,通过正则匹配,对所述第一桥梁养护非结构化描述语句进行分词处理,得到所述输入数据。
本实施例中,通过进行分句处理,得到若干个第一桥梁养护非结构化描述语句,这些第一桥梁养护非结构化描述语句可以分行的形式进行显示,以便于进行后续分词处理时,以行为单位快速进行定位到处理对象,以进行正则匹配,快速且准确地实现分词处理,避免第一桥梁养护非结构化描述语句之间的串扰。
本实施例中,在进行分词处理之前,还可以根据实体抽取的处理方式构建桥梁养管专业词汇词典,从而使得构建的桥梁养管专业词汇词典包括更加全面的桥梁养管专业词汇,同时提高桥梁养管专业词汇词典的构建效率。
示例性地,比如可以通过如下步骤实施根据实体抽取的处理方式构建桥梁养管专业词汇词典,即根据实体抽取的处理方式构建桥梁养管专业词汇词典包括:
获取带有标注的桥梁养管专业词汇的数据;
使用所述带有标注的桥梁养管专业词汇的数据微调训练完成的GPT(GenerativePre-trained Transformer,生成式预训练)模型;
基于完成微调的GPT模型,从包括有桥梁养管专业词汇的数据中抽取桥梁养管专业词汇,以构建桥梁养管专业词汇词典。
进一步,在上述分词的过程中,还可以使用基于jieba库来加载构建的桥梁养管专业词汇词典,从而提高分词的效果。
可选地,本实施例中,所述对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据,还包括:
调用编写好的Python算法,以基于构建的桥梁养管专业词汇词典,通过正则匹配,对所述第一桥梁养护非结构化描述语句进行分词处理,以得到所述输入数据。
具体地,可以通过编写好的Python算法,基于jieba库来加载构建的桥梁养管专业词汇词典,再通过正则匹配,对所述第一桥梁养护非结构化描述语句进行分词处理,以快速且准确地得到所述输入数据。
示例性地,比如在一具体应用场景中,由于第一桥梁养护非结构化文本数据(桥梁相关文本数据)中存在大量专业术语和习惯用语,专业术语例如“杭州湾特大桥”,此处期待的分词为“杭州湾特大桥”而非“大桥”。习惯用语例如“1#桥台”,即第一桥梁养护非结构化文本数据中存在大量数字字符和中文结合表示的习惯用语。
为此,在进行分词处理时,调用编写好的Python算法,基于构建的桥梁养管专业词汇词典,通过正则匹配,对所述第一桥梁养护非结构化描述语句进行分词处理,得到所述输入数据。比如基于构建的桥梁养管专业词汇词典,通过正则匹配,用[\u4e00-\u9fa5]+(特大桥|大桥|跨海大桥)匹配以“桥”为结尾的桥梁名称,其中 [\u4e00-\u9fa5] 表示所有的中文字符;用(裂缝|断裂|锈蚀)等专业名词匹配相关的桥梁病害情况的相关词汇;针对涉及特殊字符的习惯用语,通过[\d+#\S+]与[\S+#\d+](其中\d表示匹配数字,+表示匹配一个或多个前一个字符,\S表示匹配任意非空白字符)进行匹配。由此可见,基于构建的桥梁养管专业词汇词典,通过正则匹配的方法可以高效的从第一桥梁养护非结构化文本数据提取相关专业词汇和习惯用语。进一步,调用编写好的Python算法将提取出的专业词汇和习惯用语进行文本重加工,以得到Word2Vec模型的输入数据。比如“在基于杭州湾大桥的养护过程中”,正则表达式会匹配出“在基于杭州湾大桥”,通过文本重加工识别出文本中的介词“于”,对其截断后得到“杭州湾大桥”;与此同时,读取第一桥梁养护非结构化文本数据源中的已经结构化的桥梁名称、位置等固定词汇,将其与提取出的专业词汇和习惯用语进行相似度匹配,以提升提取的正确率。比如,如果字符重合度超过设定的重合度阈值(比如90%),则直接将已结构化的固定词汇纳入到桥梁养管专业词汇词典,而不再添加该重合度极高的提取词。由此可见,通过上述重文本加工进一步降低数据词汇提取过程中的错误率。
S103:基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练。
可选地,本实施例中,所述基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练,包括:
获取所述Word2Vec模型的训练参数组合,所述训练参数组合包括Embedding维度、词向量上下文距离、模型架构、过滤的最小词频数中至少其一;
基于所述训练参数组合,确定所述Word2Vec模型的训练方向;
基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练。
本实施例中,通过定义Word2Vec模型的训练参数组合可以设置模型训练的侧重点,基于每个Word2Vec模型的训练参数组合进行训练,会对Word2Vec模型沿着一个指定的方向进行训练,从而提高模型训练的全面性和颗粒度,保证了模型的准确性。
可选地,本实施例中,所述基于所述训练参数组合,确定所述Word2Vec模型的训练方向,包括:
基于所述训练参数组合中的训练参数,确定出所述Word2Vec模型的对应训练方向;
所述基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练,包括:
基于所述输入数据对所述Word2Vec模型沿着每个所述训练方向进行单独训练,直至得到与所述训练参数组合的数量对等的多个所述Word2Vec模型;
对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
比如,在一具体应用场景中,Embedding维度都设置为100;过滤的最小词频数都设置为3;词向量上下文距离(window)分别设置为5或者10;模型架构(method)分别设置CBOW模型(continuous bag of words,连续词袋模型)或者Skip-Gram模型(又称跳字模型)。
进一步通过上述训练参数组合,共训练出4个Word2Vec模型:
modelA[window=5, method=CBOW];
modelB[window=5, method =Skip-Gram];
modelC[window=10, method=CBOW];
modelD[window=10, method =Skip-Gram];
其中,window越大训练时某个词会参考其周围更多的上下文词,可以照顾到与当前词关系较弱的词与当前词的关系,但是过于关注周围词可能会弱化强关联词之间的联系。CBOW的方式是通过周围上下文词预测中心词,Skip-Gram是通过中心词预测周围的上下文词,前者通过一个中心词监督学习多个上下文词,后者通过多个上下文词监督学习一个中心词;因此后者每次对一个中心词的学习更加深入,但是耗时更多。
为此,考虑到上述利弊关系,本申请中,通过对多个所述Word2Vec模型进行融合处理从而实现优劣互补,保证训练完成的Word2Vec模型的学习能力。
可选地,本实施例中,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:
基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值;
根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,根据如下公式(1),基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值:
其中,表示第i个Word2Vec模型的输出embedding数据,/>表示第j个Word2Vec模型的输出embedding数据,n表示embedding数据的维度,n为大于1的正整数,/>表示第i个Word2Vec模型和第j个Word2Vec模型之间的注意力值,i,j为大于等于1的整数且小于等于所述Word2Vec模型的个数。
可选地,基于如下公式(2),根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
其中,表示第i个Word2Vec模型的注意力权重参数,M表示Word2Vec模型的个数,为大于2的整数,k的取值为1到M,j的取值为1到M。
可选地,基于如下公式(3),根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据,比如又可以称之为训练完成的注意力Word2Vec模型,从而从模型之间的相关性角度出发,对模型进行融合,从而提高了模型训练的性能。
可替代地,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:按照如下公式(4),对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示第i个Word2Vec模型的输出embedding数据,M表示Word2Vec模型的个数,表示训练完成的所述Word2Vec模型的输出embedding数据,比如又可以称之为训练完成的平均值Word2Vec模型,相当于实现了模型的加权平均处理,提高了模型融合的效率和速度。
可替代地,还可以基于平均值融合方式和注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,其可以具体包括:
基于平均值融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的平均值Word2Vec模型;比如按照上述公式(4)来实现平均值融合方式;
基于注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的注意力Word2Vec模型;比如按照上述公式(1)-(3)来实现注意力融合方式;
对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,本实施例中,按照如下公式(5),对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据,/>表示平均值Word2Vec模型的输出embedding数据,/>表示注意力Word2Vec模型的输出embedding数据,/>表示融合权重值,其满足:/>
推而广之,在其他实施例中,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:
基于平均值融合方式和/或注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。比如,可以单独使用平均值融合方式,也可以单独使用注意力融合方式,或者平均值融合方式和注意力融合方式结合的方式,具体使用哪种融合方式,可以根据应用场景来选择。
S104:访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据。
本实施例中,所述第二桥梁养护非结构化文本数据源比如为任意的数据服务器集群,比如包括至少一台数据服务器。所述第二桥梁养护非结构化文本数据源上存储有第二桥梁养护非结构化文本数据,所述第二桥梁养护非结构化文本数据的存储格式不做任意限定。
S105:基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据。
本实施例中,步骤S105的执行过程,类似上述训练的过程,在此不再赘述。
可选地,本实施例中,所述的方法,还包括:基于如下步骤,确定所述融合权重值:
获取输入数据样本;
随机遍历0-1之间的多个值组成备选融合权重值,并从中逐一选取一个作为融合权重值赋值给,以将所述输入数据样本输入到所述训练完成的Word2Vec模型,得到该融合权重值赋值给/>时所述训练完成的所述Word2Vec模型的输出embedding数据;
对所有备选融合权重值赋值给时得到所有所述训练完成的所述Word2Vec模型的输出embedding数据进行聚类分析得到聚类标示值;
从中选取聚类标示值最大时对应的备选融合权重值作为最终的
本实施例中,对于输入数据样本来说,针对任意一个备选融合权重值赋值给的情形,可以对对应的所述训练完成的所述Word2Vec模型的输出embedding数据进行聚类分析得到多个聚类簇,统计每个聚类簇中embedding数据与该聚类簇中心的聚类距离并求和,得到聚类距离总和值,使用该聚类距离总和值除以该聚类簇中embedding数据的数量,从而得到该聚类簇中的平均聚类距离;对所有聚类簇中的平均聚类距离进行求和运算,以得到平均聚类距离加和值,将平均聚类距离加和值的倒数作为聚类标示值;或者,得到平均聚类距离加和值再除以聚类簇的数量,将得到的均值作为聚类标示值。
通过随机遍历0-1之间的多个值,依次赋值给,就会得到不同/>情形时的聚类标示值,通过选取其中聚类标示值最大时对应的备选融合权重值作为最终的/>,以参与步骤S105的执行。
本申请上述实施例中,通过Word2Vec模型作为桥梁管养行业领域内Embedding模型,为行业内提供专业化Word2Vec模型,在完成训练后可以保存大量行业内数据,从而为后续人工智能和桥梁管养领域内的深入结合做好铺垫,铺平后续利用自然语言处理等相关算法打造知识图谱、构建语言模型等相关研究的道路。另外,通过上述模型的融合处理,实现了词汇的相关性匹配等扩展功能,达到了调优多个Embedding数据模型的输出embedding数据的目的,为行业内提供了引入自然语言处理模型后的高质量数据源,有利于后续进一步的研究和实践工作的展开,比如可以在此基础上进一步开展利用自然语言处理等相关算法打造知识图谱,构建语言模型等相关研究。
图2为本申请实施例提供的一种基于桥梁养护非结构化数据构建Embedding数据的装置结构示意图。如图2所示,其包括:
第一数据访问单元,用于访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;
数据预处理单元,用于对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;
训练使能单元,用于基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;
第二数据访问单元,用于访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;
预测单元,用于基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据。
可选地,所述训练使能单元包括:
训练参数获取子单元,用于获取所述Word2Vec模型的训练参数组合,所述训练参数组合包括Embedding维度、词向量上下文距离、模型架构、过滤的最小词频数中至少其一;
训练方向确定子单元,用于基于所述训练参数组合,确定所述Word2Vec模型的训练方向;
训练使能子单元,用于基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练。
可选地,所述训练方向确定子单元具体用于基于所述训练参数组合中的训练参数,确定出所述Word2Vec模型的对应训练方向。
所述训练使能子单元包括:
单独训练使能子单元,用于基于所述输入数据对所述Word2Vec模型沿着每个所述训练方向进行单独训练,直至得到与所述训练参数组合的数量对等的多个所述Word2Vec模型;
模型融合子单元,用于对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,所述模型融合子单元包括:
注意力值计算子单元,用于基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值;
注意力权重参数计算子单元,用于根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
多模型融合子单元,用于根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,所述注意力值计算子单元具体用于根据如下公式(1),基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值:
其中,表示第i个Word2Vec模型的输出embedding数据,/>表示第j个Word2Vec模型的输出embedding数据,n表示embedding数据的维度,n为大于1的正整数,/>表示第i个Word2Vec模型和第j个Word2Vec模型之间的注意力值,i,j为大于等于1的整数且小于等于所述Word2Vec模型的个数。
可选地,所述注意力权重参数计算子单元具体用于基于如下公式(2),根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
;/>
其中,表示第i个Word2Vec模型的注意力权重参数,M表示Word2Vec模型的个数,为大于2的整数,k的取值为1到M,j的取值为1到M。
可选地,所述多模型融合子单元具体用于基于如下公式(3),根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据。
可选地,所述多模型融合子单元具体用于按照如下公式(4),对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示第i个Word2Vec模型的输出embedding数据,M表示Word2Vec模型的个数,表示训练完成的所述Word2Vec模型的输出embedding数据。
可选地,所述模型融合子单元具体用于基于平均值融合方式和/或注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,所述模型融合子单元具体用于基于平均值融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的平均值Word2Vec模型;基于注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的注意力Word2Vec模型;以及对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
可选地,所述模型融合子单元具体用于按照如下公式(5),对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据,/>表示平均值Word2Vec模型的输出embedding数据,/>表示注意力Word2Vec模型的输出embedding数据,/>表示融合权重值,其满足:/>
可选地,所述的装置,还包括融合权重值确定子单元,用于基于如下步骤,确定所述融合权重值:获取输入数据样本;随机遍历0-1之间的多个值组成备选融合权重值,并从中逐一选取一个作为融合权重值赋值给,以将所述输入数据样本输入到所述训练完成的Word2Vec模型,得到该融合权重值赋值给/>时所述训练完成的所述Word2Vec模型的输出embedding数据;对所有备选融合权重值赋值给/>时得到所有所述训练完成的所述Word2Vec模型的输出embedding数据进行聚类分析得到聚类标示值;从中选取聚类标示值最大时对应的备选融合权重值作为最终的/>
可选地,所述数据预处理单元具体用于对所述第一桥梁养护非结构化文本数据进行分句处理,得到第一桥梁养护非结构化描述语句;以及基于构建的桥梁养管专业词汇词典,通过正则匹配,对所述第一桥梁养护非结构化描述语句进行分词处理,得到所述输入数据。
可选地,所述数据预处理单元还具体用于调用编写好的Python算法,以基于构建的桥梁养管专业词汇词典,通过正则匹配,对所述第一桥梁养护非结构化描述语句进行分词处理,得到所述输入数据。
本申请还提供一种计算机程序产品,其上存储有计算可执行指令,所述计算机可执行指令被运行时,执行如下步骤:
访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;
对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;
基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;
访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;
基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据。
本申请还提供一种电子设备,其包括存储器和处理器,存储器上存储有计算机可执行指令,所述计算机可执行指令被处理器运行时,执行如下步骤:
访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;
对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;
基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;
访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;
基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据。
本申请实施例还提供一种Word2Vec模型的训练方法,其可以包括:
访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;
对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;
基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练。
上述Word2Vec模型的训练方法中各个步骤的示例性说明可参见上述图1的说明。
本申请实施例还提供一种基于桥梁养护非结构化数据构建Embedding数据的方法,其可以包括:
获取训练完成的Word2Vec模型;
访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;
基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (6)

1.一种基于桥梁养护非结构化数据构建Embedding数据的方法,其特征在于,包括:
访问第一桥梁养护非结构化文本数据源,以获取第一桥梁养护非结构化文本数据;
对所述第一桥梁养护非结构化文本数据进行预处理,以得到Word2Vec模型的输入数据;
基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练;
访问第二桥梁养护非结构化文本数据源,以获取第二桥梁养护非结构化文本数据;
基于训练完成的Word2Vec模型,预测所述第二桥梁养护非结构化文本数据中桥梁养管专业词汇的embedding形式表示,以得到对应的embedding数据;
其中,所述基于所述输入数据对所述Word2Vec模型进行训练,直至完成所述Word2Vec模型的训练,包括:
获取所述Word2Vec模型的训练参数组合,所述训练参数组合包括Embedding维度、词向量上下文距离、模型架构、过滤的最小词频数中至少其一;
基于所述训练参数组合,确定所述Word2Vec模型的训练方向;
基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练;其中,所述基于所述训练参数组合,确定所述Word2Vec模型的训练方向,包括:
基于所述训练参数组合中的训练参数,确定出所述Word2Vec模型的对应训练方向;
所述基于所述输入数据对所述Word2Vec模型沿着所述训练方向进行训练,直至完成所述Word2Vec模型的训练,包括:
基于所述输入数据对所述Word2Vec模型沿着每个所述训练方向进行单独训练,直至得到与所述训练参数组合的数量对等的多个所述Word2Vec模型;
对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型;其中,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:
基于平均值融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的平均值Word2Vec模型;
基于注意力融合方式,对多个所述Word2Vec模型进行融合处理,得到训练完成的注意力Word2Vec模型;
对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型;
其中,按照如下公式(5),对所述平均值Word2Vec模型和所述注意力Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据,/>表示平均值Word2Vec模型的输出embedding数据,/>表示注意力Word2Vec模型的输出embedding数据,/>示融合权重值,其满足:/>
所述的方法,还包括:基于如下步骤,确定所述融合权重值:
获取输入数据样本;
随机遍历0-1之间的多个值组成备选融合权重值,并从中逐一选取一个作为融合权重值赋值给,以将所述输入数据样本输入到所述训练完成的Word2Vec模型,得到该融合权重值赋值给/>时所述训练完成的所述Word2Vec模型的输出embedding数据;
对所有备选融合权重值赋值给时得到所有所述训练完成的所述Word2Vec模型的输出embedding数据进行聚类分析得到聚类标示值;
从中选取聚类标示值最大时对应的备选融合权重值作为最终的
2.根据权利要求1所述的方法,其特征在于,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:
基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值;
根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型。
3.根据权利要求2所述的方法,其特征在于,根据如下公式(1),基于设定注意力计算函数,根据每个所述Word2Vec模型的输出embedding数据,计算多个所述Word2Vec模型之间的注意力值:
其中,表示第i个Word2Vec模型的输出embedding数据,/>表示第j个Word2Vec模型的输出embedding数据,n表示embedding数据的维度,/>表示第i个Word2Vec模型和第j个Word2Vec模型之间的注意力值,i,j为大于等于1的整数且小于等于所述Word2Vec模型的个数。
4.根据权利要求3所述的方法,其特征在于,基于如下公式(2),根据所述注意力值,计算各个所述Word2Vec模型的注意力权重参数;
其中,表示第i个Word2Vec模型的注意力权重参数,M表示Word2Vec模型的个数,为大于2的整数,k的取值为1到M,j的取值为1到M。
5.根据权利要求4所述的方法,其特征在于,基于如下公式(3),根据多个所述Word2Vec模型的注意力权重参数,对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示训练完成的所述Word2Vec模型的输出embedding数据。
6.根据权利要求1所述的方法,其特征在于,所述对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型,包括:按照如下公式(4),对多个所述Word2Vec模型进行融合处理,得到训练完成的所述Word2Vec模型:
表示第i个Word2Vec模型的输出embedding数据,M表示Word2Vec模型的个数,/>表示训练完成的所述Word2Vec模型的输出embedding数据。
CN202310926969.0A 2023-07-27 2023-07-27 基于桥梁养护非结构化数据构建Embedding数据的方法 Active CN116644157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310926969.0A CN116644157B (zh) 2023-07-27 2023-07-27 基于桥梁养护非结构化数据构建Embedding数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310926969.0A CN116644157B (zh) 2023-07-27 2023-07-27 基于桥梁养护非结构化数据构建Embedding数据的方法

Publications (2)

Publication Number Publication Date
CN116644157A CN116644157A (zh) 2023-08-25
CN116644157B true CN116644157B (zh) 2023-10-10

Family

ID=87625204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310926969.0A Active CN116644157B (zh) 2023-07-27 2023-07-27 基于桥梁养护非结构化数据构建Embedding数据的方法

Country Status (1)

Country Link
CN (1) CN116644157B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960726A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN110781333A (zh) * 2019-06-26 2020-02-11 杭州鲁尔物联科技有限公司 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN111027315A (zh) * 2019-11-18 2020-04-17 曲阜师范大学 一种基于Word2Vec模型的WordNet中词语相似度计算方法
CN113392986A (zh) * 2021-02-01 2021-09-14 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护***
CN113868422A (zh) * 2021-10-11 2021-12-31 国家电网有限公司客户服务中心 一种多标签稽查工单问题溯源识别方法及装置
CN116127954A (zh) * 2022-12-29 2023-05-16 扬州大学 一种基于词典的新工科专业中文知识概念抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678830B2 (en) * 2018-05-31 2020-06-09 Fmr Llc Automated computer text classification and routing using artificial intelligence transfer learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960726A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN110781333A (zh) * 2019-06-26 2020-02-11 杭州鲁尔物联科技有限公司 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN111027315A (zh) * 2019-11-18 2020-04-17 曲阜师范大学 一种基于Word2Vec模型的WordNet中词语相似度计算方法
CN113392986A (zh) * 2021-02-01 2021-09-14 重庆交通大学 一种基于大数据的公路桥梁信息抽取方法及管理养护***
CN113868422A (zh) * 2021-10-11 2021-12-31 国家电网有限公司客户服务中心 一种多标签稽查工单问题溯源识别方法及装置
CN116127954A (zh) * 2022-12-29 2023-05-16 扬州大学 一种基于词典的新工科专业中文知识概念抽取方法

Also Published As

Publication number Publication date
CN116644157A (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN108388560B (zh) 基于语言模型的gru-crf会议名称识别方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及***
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN112100398B (zh) 一种专利空白预测方法及***
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN112530584A (zh) 一种医疗诊断辅助方法及***
CN117236335B (zh) 基于提示学习的两阶段命名实体识别方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115457982A (zh) 情感预测模型的预训练优化方法、装置、设备及介质
CN115359321A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN114943233A (zh) 一种基于并行化改进的Transformer-CRF网络的实体命名识别方法
CN111160034A (zh) 一种实体词的标注方法、装置、存储介质及设备
CN113780471A (zh) 数据分类模型的更新及应用方法、设备、存储介质及产品
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN117474507A (zh) 一种基于大数据应用技术的智能招聘匹配方法及***
CN116644157B (zh) 基于桥梁养护非结构化数据构建Embedding数据的方法
CN116630062A (zh) 一种医保欺诈行为检测方法、***、存储介质
CN114386436B (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN113849634B (zh) 用于提升深度模型推荐方案可解释性的方法
CN114003684A (zh) 一种基于开放世界假设的医疗信息关系预测方法及***
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端
CN113762589A (zh) 一种输变电工程变更预测***及方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant