CN113761106B - 一种强化自注意力的债券交易意图识别*** - Google Patents

一种强化自注意力的债券交易意图识别*** Download PDF

Info

Publication number
CN113761106B
CN113761106B CN202111048039.7A CN202111048039A CN113761106B CN 113761106 B CN113761106 B CN 113761106B CN 202111048039 A CN202111048039 A CN 202111048039A CN 113761106 B CN113761106 B CN 113761106B
Authority
CN
China
Prior art keywords
attention
self
word
text
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111048039.7A
Other languages
English (en)
Other versions
CN113761106A (zh
Inventor
毛宇
周靖宇
陈桂敏
袁阳平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuaique Information Technology Co ltd
Original Assignee
Beijing Kuaique Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuaique Information Technology Co ltd filed Critical Beijing Kuaique Information Technology Co ltd
Priority to CN202111048039.7A priority Critical patent/CN113761106B/zh
Publication of CN113761106A publication Critical patent/CN113761106A/zh
Application granted granted Critical
Publication of CN113761106B publication Critical patent/CN113761106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

一种强化自注意力的债券交易意图识别***,它涉及数据处理技术领域。它包括以下具体流程:构建一个知识库模块来存储预处理的关系库;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self‑attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。

Description

一种强化自注意力的债券交易意图识别***
技术领域
本发明涉及数据处理技术领域,具体涉及一种强化自注意力的债券交易意图识别***。
背景技术
文本意图识别在深度学习领域已经是一个成熟的算法技术。它也成功的在各种业务场景应用落地。在金融的债券交易行业中,往往是需要精确且高效的沟通才能完成每笔订单的成交。因此通过文本意图识别的技术,对交易员的文本话术进行理解并解析,可以辅助他们更好更有效的沟通,从而提升他们的业务效率。
现有技术,文本意图识别的算法有很多种类,较为传统的深度学习算法有TextCNN、LSTM、GRU以及他们之间的组合模型等,这些模型通常在语意的深度理解上有一定的局限性。近年来比较流行的算法主要有BERT、GPT等预训练模型,这些算法通过预训练学习了海量的文本信息,能够大大提升模型对句子的表征能力,有效的提高了模型对文本的语义理解,但仍存在以下几点不足:
在金融债券交易等私有领域,有很多约定俗成的隐性逻辑,现有的技术(是按照通用的规范文本数据来训练的;往往不能很好理解和识别这种私有域的文本意图。首先是语法结构问题,交易文本大部分不是标准的含主谓宾结构的常规文本。如质押式回购中的押券信息交易文本:“押XXXX96821 15XXXSCP001 6110W 74%810w”。不带标准的语法结构,基于通用的规范文本训练的模型很难理解这句话的意图。
其次是在意图识别任务中,经常将会出现一句话中,大部分文本为非重要文本,仅少量字符对整句意图起决定性的作用,一个字的差别即改变文本意图。如交易中的文本信息:【隔夜改押:XXX893544 16XX港SCP002】和【隔夜押XXX0893544 16XX港SCP002】。两句话只差一个“改”字,但是两句话是不同的意图,第一句是“改券”意图,第二句是“押券”意图。
现有的深度学习算法和预训练模型,都无法很好地对这种类型的文本进行embedding,也很难学习训练泛化性较好的模型。采用收集大量基于业务领域的文本进行fine-tune训练的方案,则需要相当大的成本。
发明内容
本发明的目的在于针对现有技术中不足与缺点,提供一种强化自注意力的债券交易意图识别***,实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。
为实现上述目的,本发明采用以下技术方案是:一种强化自注意力的债券交易意图识别***,它包括以下具体流程:构建一个知识库模块来存储预处理的关系库,针对债券交易的语料特点,主要存储债券要素和意图的关系信息;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self-attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。
进一步的,所述知识库存储编码模块具体包括以下流程:基于操作人员的梳理,建立关系知识库,包括并不限于[实体—意图]、[实体—类别]的要素关系对,同时构建数据存储装置,存储相应的关系信息;采用word2vec预训练模型对关系对的信息进行编码,转化为固定维度的字和词向量;建立索引信息对,通过字符和词可以直接获取字符和对应意图/类别的向量编码。
进一步的,所述编码层模块具体包括以下流程:采用Bert的预训练模型对文本进行字符的特征编码,转化为固定维度的字向量;同时对文本进行字符和结合金融业务逻辑的分词切割,利用知识库存储编码模块获的索引信息对,获取字符和分词对应的字符/词编码和对应关系编码。
进一步的,所述自注意力层模块:采用已有的self-attention模块,为了模型能够学习token之间的权重分布,在得到文本encoding之后,连接一个self-attention网络,计算公式为:其中Q-K-V的值都为输入的文本编码。
进一步的,所述知识编码和注意力的融合层模块:在没有大量训练数据的情况下,attention对关联词权重的学习能力是有限的;首先将编码层知识库存储编码模块获得的实体的字符和分词编码,得到的结果乘以一个可训练的随机初始化矩阵,得到的结果再与自注意力层attention的结果进行dot+softmax计算,得到一个相关性概率矩阵,用于增强attention对先验知识的训练学习,其次将知识库存储编码模块获得的实体对应关系的分词编码和相关性概率矩阵进行multiply计算,获得蕴含文本先验知识的向量编码。
进一步的,所述输出层:用知识编码和注意力的融合层模块的向量输出与自注意力层模块的attention向量结果进行加权,即得到了包含先验知识的预训练句向量编码,并将结果连接dense层,得到模型意图识别的分类类别。
采用上述技术方案后,本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的模型整体架构图。
具体实施方式
参看图1所示,本具体实施方式采用的技术方案是:它包括以下具体流程:构建一个知识库模块来存储预处理的关系库,针对债券交易的预料特点,主要存储债券要素和意图的关系信息;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self-attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。
进一步的,所述知识库存储编码模块具体包括以下流程:基于操作人员的梳理,建立关系知识库,包括并不限于[实体—意图]、[实体—类别]的要素关系对,同时构建数据存储装置,存储相应的关系信息;采用word2vec预训练模型对关系对的信息进行编码,转化为固定维度的字和词向量;建立索引信息对,通过字符和词可以直接获取字符和对应意图/类别的向量编码。
进一步的,所述编码层模块具体包括以下流程:采用Bert的预训练模型对文本进行字符的特征编码,转化为固定维度的字向量;同时对文本进行字符和结合金融业务逻辑的分词切割,利用知识库存储编码模块获的索引信息对,获取字符和分词对应的字符/词编码和对应关系编码。
进一步的,所述自注意力层模块:采用已有的self-attention模块,为了模型能够学习token之间的权重分布,在得到文本encoding之后,连接一个self-attention网络,计算公式为:其中query-key-value的值相等且都为输入的文本编码。
进一步的,所述知识编码和注意力的融合层模块:在没有大量训练数据的情况下,attention对关联词权重的学习能力是有限的;首先将编码层知识库存储编码模块获得的实体的字符和分词编码,得到的结果乘以一个可训练的随机初始化矩阵,得到的结果再与自注意力层attention的结果进行dot+softmax计算,得到一个相关性概率矩阵,用于增强attention对先验知识的训练学习,其次将知识库存储编码模块获得的实体对应关系的分词编码和相关性概率矩阵进行multiply计算,获得蕴含文本先验知识的向量编码。
进一步的,所述输出层:用知识编码和注意力的融合层模块的向量输出与自注意力层模块的attention向量结果进行加权,即得到了包含先验知识的预训练句向量编码,并将结果连接dense层,得到模型意图识别的分类类别。
注:拓展技术特征及应用场景:
1.本***采用的是bert预训练模型得到文本编码,可采用其他向量化的方式或未来更新的编码技术。
2.当前模型用于金融债券领域的意图识别任务,本方案可以扩展到其他的领域或者类似的实体项目中。
3.本***提供的将经验知识表征为[字符—标签]的形式,并且采用字符编码和标签编码分段融合到attention的机制,能够自动学习文本间的词汇相关性,是基于预训练编码结合先验知识表征的一种联合编码方式,可在其他类似的算法任务上应用。
采用上述技术方案后,本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种强化自注意力的债券交易意图识别***,其特征在于:它包括以下具体流程:
1)构建一个知识库模块来存储预处理的关系库,针对债券交易的预料特点,主要存储债券要素和意图的关系信息;
2)在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self-attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;
3)通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;
4)将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果;
构建一个知识库模块来存储预处理的关系库具体包括以下流程:
1.1)基于操作人员的梳理,建立关系知识库;
1.2)采用word2vec预训练模型对关系对的信息进行编码,转化为固定维度的字和词向量;
1.3)建立索引信息对,通过字符和词可以直接获取字符和对应意图/类别的向量编码;
所述文本初始化编码具体包括以下流程:
2.1)采用Bert的预训练模型对文本进行字符的特征编码,转化为固定维度的字向量;
2.2)同时对文本进行字符和结合金融业务逻辑的分词切割,利用知识库存储编码模块获的索引信息对,获取字符和分词对应的字符/词编码和对应关系编码;
所述将提取的结果分别进行实体部分寻址编码以及标签寻址编码的流程为:在没有大量训练数据的情况下,attention对关联词权重的学习能力是有限的;首先将编码层知识库存储编码模块获得的实体的字符和分词编码,得到的结果乘以一个可训练的随机初始化矩阵,得到的结果再与自注意力层attention的结果进行dot+softmax计算,得到一个相关性概率矩阵,用于增强attention对先验知识的训练学习,其次将知识库存储编码模块获得的实体对应关系的分词编码和相关性概率矩阵进行multiply计算,获得蕴含文本先验知识的向量编码。
2.根据权利要求1所述的一种强化自注意力的债券交易意图识别***,其特征在于:所述自注意力模块:采用已有的self-attention模块,为了模型能够学习token之间的权重分布,在得到文本encoding之后,连接一个self-attention网络,
计算公式为:其中Q-K-V的值相都为输入的文本编码。
3.根据权利要求1所述的一种强化自注意力的债券交易意图识别***,其特征在于:用知识编码和注意力的融合层模块的向量输出与自注意力层模块的attention向量结果进行加权,即得到了包含相关先验知识的预训练句向量编码,并将结果连接dense层,得到模型意图识别的分类类别。
CN202111048039.7A 2021-09-08 2021-09-08 一种强化自注意力的债券交易意图识别*** Active CN113761106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111048039.7A CN113761106B (zh) 2021-09-08 2021-09-08 一种强化自注意力的债券交易意图识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048039.7A CN113761106B (zh) 2021-09-08 2021-09-08 一种强化自注意力的债券交易意图识别***

Publications (2)

Publication Number Publication Date
CN113761106A CN113761106A (zh) 2021-12-07
CN113761106B true CN113761106B (zh) 2024-06-04

Family

ID=78793821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111048039.7A Active CN113761106B (zh) 2021-09-08 2021-09-08 一种强化自注意力的债券交易意图识别***

Country Status (1)

Country Link
CN (1) CN113761106B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168593B (zh) * 2022-09-05 2022-11-29 深圳爱莫科技有限公司 一种可自我学习的智能对话管理方法及处理设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083692A (zh) * 2019-04-22 2019-08-02 齐鲁工业大学 一种金融知识问答的文本交互匹配方法及装置
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及***
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11721335B2 (en) * 2019-07-01 2023-08-08 Koninklijke Philips N.V. Hierarchical self-attention for machine comprehension

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083692A (zh) * 2019-04-22 2019-08-02 齐鲁工业大学 一种金融知识问答的文本交互匹配方法及装置
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及***
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Multi-head Attention和Bi-LSTM的实体关系分类;刘峰;高赛;于碧辉;郭放达;;计算机***应用(第06期);全文 *

Also Published As

Publication number Publication date
CN113761106A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
Sharma et al. Era of deep neural networks: A review
CN110738090B (zh) 使用神经网络进行端到端手写文本识别的***和方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及***
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN111274375B (zh) 一种基于双向gru网络的多轮对话方法及***
CN108717439A (zh) 一种基于注意力机制和特征强化融合的中文文本分类方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
US11908457B2 (en) Orthogonally constrained multi-head attention for speech tasks
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN110349229A (zh) 一种图像描述方法及装置
CN110990555A (zh) 端到端检索式对话方法与***及计算机设备
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114579743A (zh) 基于注意力的文本分类方法、装置及计算机可读介质
CN113761106B (zh) 一种强化自注意力的债券交易意图识别***
Yu et al. A multilayer pyramid network based on learning for vehicle logo recognition
Elleuch et al. The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN.
Zhan et al. DenseNet-CTC: An end-to-end RNN-free architecture for context-free string recognition
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
Malhotra et al. End-to-end historical handwritten ethiopic text recognition using deep learning
CN115482575A (zh) 一种基于标记分布学习的面部表情识别方法
CN113204971B (zh) 一种基于深度学习的场景自适应Attention多意图识别方法
CN114282539A (zh) 一种基于生物医学领域预训练模型的命名实体识别方法
CN114821802A (zh) 基于多线索相互蒸馏和自蒸馏的连续手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 100000 411d, floor 4, No. 31, Fuchengmenwai street, Xicheng District, Beijing

Applicant after: Beijing Kuaique Information Technology Co.,Ltd.

Address before: 201700 2nd floor, building 1, 485 pucang Road, Qingpu District, Shanghai

Applicant before: Shanghai Kuaique Information Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant