CN117852553B - 基于聊天记录提取元器件交易场景信息的语言处理*** - Google Patents
基于聊天记录提取元器件交易场景信息的语言处理*** Download PDFInfo
- Publication number
- CN117852553B CN117852553B CN202410257320.9A CN202410257320A CN117852553B CN 117852553 B CN117852553 B CN 117852553B CN 202410257320 A CN202410257320 A CN 202410257320A CN 117852553 B CN117852553 B CN 117852553B
- Authority
- CN
- China
- Prior art keywords
- transaction
- module
- text data
- task
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 111
- 238000002372 labelling Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000013526 transfer learning Methods 0.000 claims abstract description 10
- 238000000586 desensitisation Methods 0.000 claims abstract description 4
- 230000008451 emotion Effects 0.000 claims description 99
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 238000013508 migration Methods 0.000 claims description 33
- 230000005012 migration Effects 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 22
- 230000008909 emotion recognition Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了基于聊天记录提取元器件交易场景信息的语言处理***,涉及语言处理技术领域,该基于聊天记录提取元器件交易场景信息的语言处理***包括文本数据采集模块、文本数据标注模块、语言抽取模块及隐私保护模块;文本数据采集模块,用于收集并筛选元器件预交易数据,并将筛选后的预交易数据融合生成交易文本数据;文本数据标注模块,用于对交易文本数据进行识别和标注;语言抽取模块,用于构建基于UIE架构的语言抽取模型,并利用语言抽取模型实现对交易文本数据的联合抽取;隐私保护模块,用于制定数据脱敏和加密措施对交易文本数据进行安全存储。本发明通过任务迁移学习,提高了在数据稀缺或新任务相关性较高情况下的学习效率。
Description
技术领域
本发明涉及语言处理技术领域,更具体地,涉及基于聊天记录提取元器件交易场景信息的语言处理***。
背景技术
元器件交易指的是在电子元器件领域进行的买卖和交易活动,这些元器件是构成电子设备的基本部件,在这个过程中,涉及到各种不同的参与者,包括制造商、分销商、零售商以及最终的产品制造商。这些参与者之间需要进行大量的沟通和协商,以确保交易顺利进行,且这种沟通通常以聊天形式记录,包括交流的细节、价格谈判、交货时间等信息,最终形成大量的文本数据。
语言处理***是一种人工智能技术,旨在使计算机能够理解、解释、生成和与人类语言进行交互。它利用自然语言处理(NLP)和机器学习等技术来处理和理解文本数据,语言处理***的发展得益于深度学习和神经网络等技术的进步,使其能够处理更复杂、上下文更丰富的自然语言数据。语言处理***可能涉及自然语言处理和信息抽取技术,用以从大量的聊天记录中提取有用的业务信息,这包括实体抽取、关系抽取、事件抽取和情感分析等联合抽取任务。
在语言处理中,如果每个任务都需要独立进行训练而不能共享一些通用的知识,那么可能需要大量重复的训练过程,导致资源浪费和训练时间的增加,此外,如果各个任务之间存在一些通用的知识和特征,不能进行迁移学习就意味着无法充分利用这些通用性质,且不同任务之间的数据分布和特征可能有所不同,若无法进行迁移学习,容易导致任务执行的波动和不稳定性。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供基于聊天记录提取元器件交易场景信息的语言处理***,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
基于聊天记录提取元器件交易场景信息的语言处理***,该基于聊天记录提取元器件交易场景信息的语言处理***包括文本数据采集模块、文本数据标注模块、语言抽取模块及隐私保护模块;
文本数据采集模块,用于收集并筛选元器件预交易数据,并将筛选后的预交易数据融合生成交易文本数据;
文本数据标注模块,用于对交易文本数据进行识别和标注;
语言抽取模块,用于构建基于UIE架构的语言抽取模型,并利用语言抽取模型实现对交易文本数据的联合抽取;
隐私保护模块,用于制定数据脱敏和加密措施对交易文本数据进行安全存储,并对异常交易行为进行监测。
优选地,文本数据标注模块包括文本数据预处理模块、实体关系分析模块、交易事件提取模块、交易意图分析模块及文本标注模块;
文本数据预处理模块,用于对交易文本数据依次进行数据清洗、数据格式化及去除无关文本数据;
实体关系分析模块,用于识别交易文本数据中的关键实体,并判断关键实体之间的关联度,关键实体至少包括元器件信息、元器件型号、交易用户中的一种;
交易事件提取模块,用于提取交易文本数据中的时间行为并构建交易事件序列,交易事件序列至少包括询价、报价、订购及发货中的一种;
交易意图分析模块,用于分析交易文本数据中用户的交易情感倾向,并基于交易情感倾向预测用户的交易意图;
文本标注模块,利用标注算法分别对交易文本数据中的关键实体、关键实体之间的关联度、交易事件序列及交易意图进行标注。
优选地,实体关系分析模块在识别交易文本数据中的关键实体,并判断关键实体之间的关联度时包括:
利用实体识别算法从交易文本数据中提取关键实体信息,并计算每个关键实体信息的共现频率;
基于关键实体信息构建实体关联矩阵,利用平均坡度算法预测实体关联矩阵中的稀疏关联度;
将稀疏关联度回填至实体关联矩阵中,得到稠密实体关联矩阵;
在稠密实体关联矩阵中基于共现频率判断关键实体之间的关联度,并对所有关联度进行综合排序,生成关联度查询列表。
优选地,交易意图分析模块在分析交易文本数据中用户的交易情感倾向,并基于交易情感倾向预测用户的交易意图时包括:
提取交易文本数据中的全局上下文的初步特征,并基于初步特征提取交易文本数据的特征词;
分别利用词频-逆文档频率算法及图排序算法计算每个特征词的频率值和图排序分数,并分别选取频率值及图排序分数在预设阈值内的特征词作为关键词;
选取通过词频-逆文档频率算法及图排序算法生成的关键词之间的交集与并集,并对关键词合并后去除重复项;
在交易文本数据中抽取与关键词语义相同的相近词,并将关键词与相近词进行融合生成语义词典;
分别构建情感识别分类器和基于注意力机制的交易意图识预测模型,并将语义词典、情感识别分类器及交易意图识预测模型进行互关;
从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图。
优选地,交易文本数据的特征词的提取公式为:
;
式中,W表示提取后的交易文本数据的特征词;表示特征词在交易文本数据中的位置影响权重;N表示交易文本数据的复句个数;L表示布尔值;/>表示复句所处位置的影响因子参数;/>表示特征词的影响因子;F表示特征词在交易文本数据的出现频率;/>表示出现频率的影响因子;j表示第j个特征词。
优选地,从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
从语义词典中提取具有情感倾向的形容词进行权重计算;
将权重计算值作为词频权重,并对情感倾向的形容词进行二次筛选,同时将低权重及具备否定前缀的形容词删除,生成若干情感特征词集;
将双重筛选后的情感形容词生成情感形容词集,并将其与情感特征词集进行比较;
在比较过程中,分别计算各形容词在情感类编码中的情感距离以及在语义类编码中的语义距离;
结合情感距离与语义距离计算情感倾向值,将情感倾向值输送至情感识别分类器中,生成用户的交易情感倾向;
将用户的交易情感倾向输入至意图预测模型中预测用户的交易意图。
优选地,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
将用户的交易情感倾向输入至意图预测模型中计算各交易情感倾向的意图预测值;
将意图预测值与预设阈值进行比较;
若意图预测值大于预设阈值,则表示用户存在交易意图,若意图预测值小于预设阈值,则表示用户不存在交易意图。
优选地,语言抽取模块包括多维度任务集成模块、语言抽取模型构建模块、损失函数设计模块及语言抽取模型优化模块;
多维度任务集成模块,用于集成关键实体任务、关键实体之间的关联度任务、交易事件序列任务及交易意图任务,形成融合任务特征;
语言抽取模型构建模块,用于基于融合任务特征生成UIE架构的语言抽取模型,并引入任务迁移学习及任务批处理机制;
损失函数设计模块,用于引入损失函数衡量语言抽取模型预测与实际结果的偏差;
语言抽取模型优化模块,用于利用部署工具对语言抽取模型实时更新和优化。
优选地,语言抽取模型构建模块包括模型预训练模块、任务特定适应模块、迁移学习引入模块、批任务调度处理模块;
模型预训练模块,用于将预训练的BERT模型作为基础,生成并训练语言抽取模型;
任务特定适应模块,用于添加神经网络结构适应不同任务的抽取;
迁移学***衡机制将其他任务迁移至当前任务;
批任务调度处理模块、用于将批任务调度算法引入语言抽取模型中,优化语言抽取模型的任务处理顺序和方式。
优选地,迁移学***衡机制将其他任务迁移至当前任务时包括:
分别提取关键实体任务、关键实体之间的关联度任务、交易事件序列任务及交易意图任务的任务特征;
基于所提取的任务特征设定临界值,并利用临界值判断任务的迁移时长;
将负载平衡特征和决策因子作为参数,并基于任务的迁移时长计算任务的迁移代价;
将迁移代价最小的任务迁移至当前任务中,并在任务迁移过程中实时记录迁移所需的总时长及任务处理数据量。
本发明的有益效果为:
1、本发明通过利用情感识别分类器对语义词典中提取的具有情感倾向的形容词进行分析,更好地理解用户在交易中表达的情感,这有助于***更全面地理解用户的态度、情感状态,为后续的交易意图分析提供更丰富的信息,将情感识别分类器的输出与交易意图预测模型进行结合,能够更准确地判断用户的交易意图,使得***能够更好地理解用户的购买动机、偏好以及对特定交易的期望,从而提高用户意图识别的准确性。
2、本发明通过识别交易文本中的关键实体,***能够准确提取出产品名称、公司名称、金额等重要信息,这有助于深入理解交易的具体内容,为后续的分析和决策提供基础,并通过判断关键实体之间的关联度使***能够更全面地理解交易场景信息,从而为决策提供更多的信息支持,有效的实体识别和关联度判断能够实现语言处理***的自动化处理,特别是在处理大量交易文本数据时意味着更少的人工干预,进而提高处理效率。
3、本发明采用任务特征融合的UIE架构有助于增加了自定义的结构化信息抽取语言,并构建语言抽取模型及多任务结合实现对实体抽取、关系抽取、事件抽取和情感分析的联合抽取,从而提高了对特定任务的信息抽取准确性,模型具备同时处理多个任务的能力,使得对文本语义信息有更全面的理解,并通过任务迁移学习,提高了在数据稀缺或新任务相关性较高情况下的学习效率,同时降低了新任务标注的成本,并结合任务批处理机制有效处理多个任务的训练数据,进而提高了模型训练效率。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的基于聊天记录提取元器件交易场景信息的语言处理***的原理框图;
图2是根据本发明实施例的基于聊天记录提取元器件交易场景信息的语言处理***中文本数据标注模块的原理框图;
图3是根据本发明实施例的基于聊天记录提取元器件交易场景信息的语言处理***中语言抽取模块的原理框图;
图4是根据本发明实施例的基于聊天记录提取元器件交易场景信息的语言处理***中语言抽取模型构建模块的原理框图。
图中:
1、文本数据采集模块;2、文本数据标注模块;201、文本数据预处理模块;202、实体关系分析模块;203、交易事件提取模块;204、交易意图分析模块;205、文本标注模块;3、语言抽取模块;301、多维度任务集成模块;302、语言抽取模型构建模块;3021、模型预训练模块;3022、任务特定适应模块;3023、迁移学习引入模块;3024、批任务调度处理模块;303、损失函数设计模块;304、语言抽取模型优化模块;4、隐私保护模块。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
正如背景技术所介绍的,现有技术中容易导致任务执行的波动和不稳定性,为了解决如上问题,本发明提出了基于聊天记录提取元器件交易场景信息的语言处理***。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于聊天记录提取元器件交易场景信息的语言处理***,包括该基于聊天记录提取元器件交易场景信息的语言处理***包括文本数据采集模块1、文本数据标注模块2、语言抽取模块3及隐私保护模块4。
文本数据采集模块1,用于收集并筛选元器件预交易数据,并将筛选后的预交易数据融合生成交易文本数据。
需要说明的是,元器件预交易数据包括交易产生的IM聊天记录、电子商城中的电子元器件的技术文档,BOM报价,客户在IM中的聊天询价信息等信息。
文本数据标注模块2,用于对交易文本数据进行识别和标注。
其中,如图2所示,文本数据标注模块2包括文本数据预处理模块201、实体关系分析模块202、交易事件提取模块203、交易意图分析模块204及文本标注模块205。
文本数据预处理模块201,用于对交易文本数据依次进行数据清洗、数据格式化及去除无关文本数据。
需要说明的是,对交易文本数据依次进行数据清洗、数据格式化及去除无关文本数据包括以下步骤:
对原始交易文本数据进行清洗,去除影响分析的噪声和不必要的信息,涉及到去除特殊字符、修复拼写错误、处理缺失数据等,目的是确保数据的一致性和准确性。
将清洗后的文本数据进行格式化,使其符合特定的数据结构或标准,包括将文本转换为结构化数据格式,如表格或JSON格式,以便于后续的处理和分析。
在格式化后,进一步去除与分析目标无关的文本数据,涉及到去除通用的交易模板信息、标准化表达方式,目的是提取出与分析目标相关的关键信息,减少对后续处理步骤的干扰。
实体关系分析模块202,用于识别交易文本数据中的关键实体,并判断关键实体之间的关联度,关键实体至少包括元器件信息、元器件型号、交易用户中的一种。
其中,实体关系分析模块202在识别交易文本数据中的关键实体,并判断关键实体之间的关联度时包括:
利用实体识别算法从交易文本数据中提取关键实体信息,并计算每个关键实体信息的共现频率。
需要说明的是,利用实体识别算法从交易文本数据中提取关键实体信息,并计算每个关键实体信息的共现频率包括以下步骤:
将从文本中提取的关键实体信息组成一个实体列表,该列表包含了在交易文本中出现的所有关键实体。
对实体列表中的每个实体进行配对,并计算它们在文本中的共现频率,共现频率表示两个实体同时出现在同一段文本中的次数。
分析共现频率计算的结果,识别哪些实体之间的共现频率较高,这可以提供有关实体之间关联度的信息,有助于深入理解交易文本中的信息结构。
基于关键实体信息构建实体关联矩阵,利用平均坡度算法预测实体关联矩阵中的稀疏关联度。
需要说明的是,基于关键实体信息构建实体关联矩阵,利用平均坡度算法预测实体关联矩阵中的稀疏关联度包括以下步骤:
提取的关键实体信息,构建一个实体关联矩阵,该矩阵的行和列分别对应不同的关键实体,矩阵元素表示它们之间的关联度;对于每对实体,根据它们在文本中的共现频率或其他相关信息计算关联度;使用平均坡度算法对实体关联矩阵进行迭代更新,该算法的核心思想是通过计算每个实体关联度的坡度(变化率)来调整关联矩阵中的关联度值,迭代过程中,根据坡度调整关联矩阵的值,直至收敛或达到预定的迭代次数;在迭代收敛后,利用平均坡度算法得到的实体关联矩阵来预测实体之间的稀疏关联度,通过矩阵中未被填充的位置来表示,预测的关联度可以提供关于实体之间关系的更全面信息。
将稀疏关联度回填至实体关联矩阵中,得到稠密实体关联矩阵。
在稠密实体关联矩阵中基于共现频率判断关键实体之间的关联度,并对所有关联度进行综合排序,生成关联度查询列表。
交易事件提取模块203,用于提取交易文本数据中的时间行为并构建交易事件序列,交易事件序列至少包括询价、报价、订购及发货中的一种。
交易意图分析模块204,用于分析交易文本数据中用户的交易情感倾向,并基于交易情感倾向预测用户的交易意图。
其中,交易意图分析模块204在分析交易文本数据中用户的交易情感倾向,并基于交易情感倾向预测用户的交易意图时包括:
提取交易文本数据中的全局上下文的初步特征,并基于初步特征提取交易文本数据的特征词。
其中,交易文本数据的特征词的提取公式为:
;
式中,W表示提取后的交易文本数据的特征词;表示特征词在交易文本数据中的位置影响权重;N表示交易文本数据的复句个数;L表示布尔值;/>表示复句所处位置的影响因子参数;/>表示特征词的影响因子;F表示特征词在交易文本数据的出现频率;/>表示出现频率的影响因子;j表示第j个特征词。
需要说明的是,位置影响权重:指特征词在交易文本中的具***置对其重要性的影响程度。
复句个数:表示交易文本中包含的复句的数量,复句的存在影响语境的复杂性和信息的层次结构。
布尔值:通常用二进制表示,表示某种特定条件是否满足,在特征提取中表示某个关键条件的存在或不存在。
复句所处位置的影响因子参数:表示复句在交易文本数据中的位置对特征提取的影响。
特征词的影响因子:表示每个特征词对整体特征的贡献程度。
分别利用词频-逆文档频率算法及图排序算法计算每个特征词的频率值和图排序分数,并分别选取频率值及图排序分数在预设阈值内的特征词作为关键词。
需要说明的是,词频-逆文档频率算法(TF-IDF算法)包括:对于每个特征词,计算它在文本中的词频,即它在文本中出现频率;计算每个特征词的逆文档频率,即它在整个文档集合中出现的文档数的倒数的对数;将词频和逆文档频率相乘,得到每个特征词的TF-IDF值;设定一个阈值,只选择TF-IDF值高于该阈值的特征词。
图排序算法包括:将特征词作为图的节点,根据它们在文本中的共现关系构建一个共现图;使用图排序算法计算每个特征词的排序分数;设定一个阈值,只选择排序分数高于该阈值的特征词;对于TF-IDF算法和图排序算法,分别根据设定的阈值选取频率值和排序分数在预设阈值内的特征词。
选取通过词频-逆文档频率算法及图排序算法生成的关键词之间的交集与并集,并对关键词合并后去除重复项。
在交易文本数据中抽取与关键词语义相同的相近词,并将关键词与相近词进行融合生成语义词典。
分别构建情感识别分类器和基于注意力机制的交易意图识预测模型,并将语义词典、情感识别分类器及交易意图识预测模型进行互关。
从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图。
需要说明的是,从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
收集带有情感标签的交易文本数据,将其分为训练集和测试集;利用词袋模型将文本数据转化为可用于训练的特征向量;使用机器学习或深度学习算法,使用训练集对构建的情感分类模型进行训练,调整模型参数以提高性能。
收集带有交易意图标签的交易文本数据,划分训练集和测试集;利用词嵌入等方法将文本数据转换为可用于训练的特征表示;使用注意力机制,例如Transformer中的自注意力机制,构建交易意图识别预测模型;使用训练集对构建的模型进行训练,调整参数以提高模型性能。
利用集成学习方法将情感识别分类器和交易意图识别预测模型整合,调整模型中的关联参数,使得语义词典、情感分类器和交易意图识别预测模型之间的关系更加准确。
其中,从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
从语义词典中提取具有情感倾向的形容词进行权重计算。
将权重计算值作为词频权重,并对情感倾向的形容词进行二次筛选,同时将低权重及具备否定前缀的形容词删除,生成若干情感特征词集。
将双重筛选后的情感形容词生成情感形容词集,并将其与情感特征词集进行比较。
在比较过程中,分别计算各形容词在情感类编码中的情感距离以及在语义类编码中的语义距离。
需要说明的是,情感类编码中的情感距离包括:使用预训练的词嵌入模型将形容词表示为向量,情感距离可以通过计算形容词向量之间的余弦相似度或欧氏距离来衡量。
语义类编码中的语义距离包括:同样使用词嵌入模型,将形容词表示为向量,语义距离通过计算形容词向量之间的余弦相似度、欧氏距离或曼哈顿距离来衡量;构建一个包含形容词的语义网络,其中节点是词汇,边表示词汇之间的语义关系,语义距离通过在网络上计算形容词之间的最短路径长度或基于路径的相似性度量。
结合情感距离与语义距离计算情感倾向值,将情感倾向值输送至情感识别分类器中,生成用户的交易情感倾向。
将用户的交易情感倾向输入至意图预测模型中预测用户的交易意图。
其中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
将用户的交易情感倾向输入至意图预测模型中计算各交易情感倾向的意图预测值。
将意图预测值与预设阈值进行比较。
若意图预测值大于预设阈值,则表示用户存在交易意图,若意图预测值小于预设阈值,则表示用户不存在交易意图。
文本标注模块205,利用标注算法分别对交易文本数据中的关键实体、关键实体之间的关联度、交易事件序列及交易意图进行标注。
语言抽取模块3,用于构建基于UIE架构的语言抽取模型,并利用语言抽取模型实现对交易文本数据的联合抽取。
其中,如图3所示,语言抽取模块3包括多维度任务集成模块301、语言抽取模型构建模块302、损失函数设计模块303及语言抽取模型优化模块304。
多维度任务集成模块301,用于集成关键实体任务、关键实体之间的关联度任务、交易事件序列任务及交易意图任务,形成融合任务特征。
语言抽取模型构建模块302,用于基于融合任务特征生成UIE架构的语言抽取模型,并引入任务迁移学习及任务批处理机制。
其中,如图4所示,语言抽取模型构建模块302包括模型预训练模块3021、任务特定适应模块3022、迁移学习引入模块3023、批任务调度处理模块3024。
模型预训练模块3021,用于将预训练的BERT模型作为基础,生成并训练语言抽取模型。
需要说明的是,将预训练的BERT模型作为基础,生成并训练语言抽取模型包括以下步骤:收集并标注语言抽取任务所需的数据集,确保数据集包含与任务相关的文本和相应的标注信息,标注信息应指示语言抽取的目标实体或关系;使用已经预训练好的BERT模型,可以是基础的BERT、BERT-based模型(如RoBERTa、BERT-large等),或者领域特定的BERT模型;在BERT模型的基础上构建语言抽取模型,通过在BERT模型的顶部添加适当的层来实现,添加一个适当的输出层,用于预测语言抽取任务的标注信息;设置数据输入的格式,将数据输入模型进行训练,输入数据应该经过与预训练BERT模型相同的预处理步骤,包括分词、添加特殊标记等。
任务特定适应模块3022,用于添加神经网络结构适应不同任务的抽取。
迁移学***衡机制将其他任务迁移至当前任务。
其中,迁移学***衡机制将其他任务迁移至当前任务时包括:
分别提取关键实体任务、关键实体之间的关联度任务、交易事件序列任务及交易意图任务的任务特征。
基于所提取的任务特征设定临界值,并利用临界值判断任务的迁移时长。
将负载平衡特征和决策因子作为参数,并基于任务的迁移时长计算任务的迁移代价。
将迁移代价最小的任务迁移至当前任务中,并在任务迁移过程中实时记录迁移所需的总时长及任务处理数据量。
批任务调度处理模块3024、用于将批任务调度算法引入语言抽取模型中,优化语言抽取模型的任务处理顺序和方式。
需要说明的是,将批任务调度算法引入语言抽取模型中,优化语言抽取模型的任务处理顺序和方式包括以下步骤:将语言抽取中为每个任务设定优先级,考虑任务的重要性和依赖关系;利用最高优先级优先算法以确定每个时间步要处理的任务,并利用并行处理技术,同时处理多个子任务,以提高整体处理速度;某些任务可能依赖于其他任务的输出,因此需要确保在处理某个任务之前,其依赖的任务已经完成;根据任务的复杂性和计算资源的可用性,动态地调整任务的分配和处理顺序;考虑引入异常处理机制,以应对任务执行过程中可能出现的错误或异常情况。
损失函数设计模块303,用于引入损失函数衡量语言抽取模型预测与实际结果的偏差。
语言抽取模型优化模块304,用于利用部署工具对语言抽取模型实时更新和优化。
隐私保护模块4,用于制定数据脱敏和加密措施对交易文本数据进行安全存储,并对异常交易行为进行监测。
综上所述,借助于本发明的上述技术方案,本发明通过利用情感识别分类器对语义词典中提取的具有情感倾向的形容词进行分析,更好地理解用户在交易中表达的情感,这有助于***更全面地理解用户的态度、情感状态,为后续的交易意图分析提供更丰富的信息,将情感识别分类器的输出与交易意图预测模型进行结合,能够更准确地判断用户的交易意图,使得***能够更好地理解用户的购买动机、偏好以及对特定交易的期望,从而提高用户意图识别的准确性;本发明通过识别交易文本中的关键实体,***能够准确提取出产品名称、公司名称、金额等重要信息,这有助于深入理解交易的具体内容,为后续的分析和决策提供基础,并通过判断关键实体之间的关联度使***能够更全面地理解交易场景信息,从而为决策提供更多的信息支持,有效的实体识别和关联度判断能够实现语言处理***的自动化处理,特别是在处理大量交易文本数据时意味着更少的人工干预,进而提高处理效率;本发明采用任务特征融合的UIE架构有助于增加了自定义的结构化信息抽取语言,并构建语言抽取模型及多任务结合实现对实体抽取、关系抽取、事件抽取和情感分析的联合抽取,从而提高了对特定任务的信息抽取准确性,模型具备同时处理多个任务的能力,使得对文本语义信息有更全面的理解,并通过任务迁移学习,提高了在数据稀缺或新任务相关性较高情况下的学习效率,同时降低了新任务标注的成本,并结合任务批处理机制有效处理多个任务的训练数据,进而提高了模型训练效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,该基于聊天记录提取元器件交易场景信息的语言处理***包括文本数据采集模块(1)、文本数据标注模块(2)、语言抽取模块(3)、及隐私保护模块(4);
所述文本数据采集模块(1),用于收集并筛选元器件预交易数据,并将筛选后的预交易数据融合生成交易文本数据;
所述文本数据标注模块(2),用于对交易文本数据进行识别和标注;
所述语言抽取模块(3),用于构建基于UIE架构的语言抽取模型,并利用语言抽取模型实现对交易文本数据的联合抽取;
所述隐私保护模块(4),用于制定数据脱敏和加密措施对交易文本数据进行安全存储,并对异常交易行为进行监测;
所述文本数据标注模块(2)包括文本数据预处理模块(201)、实体关系分析模块(202)、交易事件提取模块(203)、交易意图分析模块(204)及文本标注模块(205);
所述文本数据预处理模块(201),用于对交易文本数据依次进行数据清洗、数据格式化及去除无关文本数据;
所述实体关系分析模块(202),用于识别交易文本数据中的关键实体,并判断关键实体之间的关联度,所述关键实体至少包括元器件信息、元器件型号、交易用户中的一种;
所述交易事件提取模块(203),用于提取交易文本数据中的时间行为并构建交易事件序列,所述交易事件序列至少包括询价、报价、订购及发货中的一种;
所述交易意图分析模块(204),用于分析交易文本数据中用户的交易情感倾向,并基于交易情感倾向预测用户的交易意图;
所述文本标注模块(205),利用标注算法分别对交易文本数据中的关键实体、关键实体之间的关联度、交易事件序列及交易意图进行标注;
所述实体关系分析模块(202)在识别交易文本数据中的关键实体,并判断关键实体之间的关联度时包括:
利用实体识别算法从交易文本数据中提取关键实体信息,并计算每个关键实体信息的共现频率;
基于关键实体信息构建实体关联矩阵,利用平均坡度算法预测实体关联矩阵中的稀疏关联度;
将稀疏关联度回填至实体关联矩阵中,得到稠密实体关联矩阵;
在稠密实体关联矩阵中基于共现频率判断关键实体之间的关联度,并对所有关联度进行综合排序,生成关联度查询列表;
所述交易意图分析模块(204)在分析交易文本数据中用户的交易情感倾向,并基于交易情感倾向预测用户的交易意图时包括:
提取交易文本数据中的全局上下文的初步特征,并基于初步特征提取交易文本数据的特征词;
分别利用词频-逆文档频率算法及图排序算法计算每个特征词的频率值和图排序分数,并分别选取频率值及图排序分数在预设阈值内的特征词作为关键词;
选取通过词频-逆文档频率算法及图排序算法生成的关键词之间的交集与并集,并对关键词合并后去除重复项;
在交易文本数据中抽取与关键词语义相同的相近词,并将关键词与相近词进行融合生成语义词典;
分别构建情感识别分类器和基于注意力机制的交易意图识预测模型,并将语义词典、情感识别分类器及交易意图识预测模型进行互关;
从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图。
2.根据权利要求1所述的基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,所述交易文本数据的特征词的提取公式为:
;
式中,W表示提取后的交易文本数据的特征词;N表示交易文本数据的复句个数;L表示布尔值;表示复句所处位置的影响因子参数;/>表示特征词的影响因子;F表示特征词在交易文本数据的出现频率;/>表示出现频率的影响因子;j表示特征词个数。
3.根据权利要求2所述的基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,所述从语义词典中提取具有情感倾向的形容词输送至情感识别分类器中,生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
从语义词典中提取具有情感倾向的形容词进行权重计算;
将权重计算值作为词频权重,并对情感倾向的形容词进行二次筛选,同时将低权重及具备否定前缀的形容词删除,生成若干情感特征词集;
将双重筛选后的情感形容词生成情感形容词集,并将其与情感特征词集进行比较;
在比较过程中,分别计算各形容词在情感类编码中的情感距离以及在语义类编码中的语义距离;
结合情感距离与语义距离计算情感倾向值,将情感倾向值输送至情感识别分类器中,生成用户的交易情感倾向;
将用户的交易情感倾向输入至意图预测模型中预测用户的交易意图。
4.根据权利要求3所述的基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,所述生成交易情感倾向输入至意图识预测模型中判断用户的交易意图包括以下步骤:
将用户的交易情感倾向输入至意图预测模型中计算各交易情感倾向的意图预测值;
将意图预测值与预设阈值进行比较;
若意图预测值大于预设阈值,则表示用户存在交易意图,若意图预测值小于预设阈值,则表示用户不存在交易意图。
5.根据权利要求4所述的基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,所述语言抽取模块(3)包括多维度任务集成模块(301)、语言抽取模型构建模块(302)、损失函数设计模块(303)及语言抽取模型优化模块(304);
所述多维度任务集成模块(301),用于集成关键实体任务、关键实体之间的关联度任务、交易事件序列任务及交易意图任务,形成融合任务特征;
所述语言抽取模型构建模块(302),用于基于融合任务特征生成UIE架构的语言抽取模型,并引入任务迁移学习及任务批处理机制;
所述损失函数设计模块(303),用于引入损失函数衡量语言抽取模型预测与实际结果的偏差;
所述语言抽取模型优化模块(304),用于利用部署工具对语言抽取模型实时更新和优化。
6.根据权利要求5所述的基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,所述语言抽取模型构建模块(302)包括模型预训练模块(3021)、任务特定适应模块(3022)、迁移学习引入模块(3023)、批任务调度处理模块(3024);
所述模型预训练模块(3021),用于将预训练的BERT模型作为基础,生成并训练语言抽取模型;
所述任务特定适应模块(3022),用于添加神经网络结构适应不同任务的抽取;
所述迁移学***衡机制将其他任务迁移至当前任务;
所述批任务调度处理模块(3024)、用于将批任务调度算法引入语言抽取模型中,优化语言抽取模型的任务处理顺序和方式。
7.根据权利要求6所述的基于聊天记录提取元器件交易场景信息的语言处理***,其特征在于,所述迁移学***衡机制将其他任务迁移至当前任务时包括:
分别提取关键实体任务、关键实体之间的关联度任务、交易事件序列任务及交易意图任务的任务特征;
基于所提取的任务特征设定临界值,并利用临界值判断任务的迁移时长;
将负载平衡特征和决策因子作为参数,并基于任务的迁移时长计算任务的迁移代价;
将迁移代价最小的任务迁移至当前任务中,并在任务迁移过程中实时记录迁移所需的总时长及任务处理数据量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410257320.9A CN117852553B (zh) | 2024-03-07 | 2024-03-07 | 基于聊天记录提取元器件交易场景信息的语言处理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410257320.9A CN117852553B (zh) | 2024-03-07 | 2024-03-07 | 基于聊天记录提取元器件交易场景信息的语言处理*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117852553A CN117852553A (zh) | 2024-04-09 |
CN117852553B true CN117852553B (zh) | 2024-05-10 |
Family
ID=90546837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410257320.9A Active CN117852553B (zh) | 2024-03-07 | 2024-03-07 | 基于聊天记录提取元器件交易场景信息的语言处理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117852553B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982391A (zh) * | 2023-03-17 | 2023-04-18 | 恒生电子股份有限公司 | 信息处理方法及装置 |
CN117291722A (zh) * | 2023-09-14 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 对象管理方法、相关设备及计算机可读介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144542A1 (en) * | 2018-01-26 | 2019-08-01 | Institute Of Software Chinese Academy Of Sciences | Affective interaction systems, devices, and methods based on affective computing user interface |
CN111563208B (zh) * | 2019-01-29 | 2023-06-30 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
-
2024
- 2024-03-07 CN CN202410257320.9A patent/CN117852553B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982391A (zh) * | 2023-03-17 | 2023-04-18 | 恒生电子股份有限公司 | 信息处理方法及装置 |
CN117291722A (zh) * | 2023-09-14 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 对象管理方法、相关设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117852553A (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
US20220100772A1 (en) | Context-sensitive linking of entities to private databases | |
CN112307164A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
CN112836509A (zh) | 一种专家***知识库构建方法及*** | |
Lisena et al. | TOMODAPI: A topic modeling API to train, use and compare topic models | |
Rauf et al. | Using BERT for checking the polarity of movie reviews | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Chauhan et al. | Sentimental analysis of product based reviews using machine learning approaches | |
Tallapragada et al. | Improved Resume Parsing based on Contextual Meaning Extraction using BERT | |
WO2022072237A1 (en) | Lifecycle management for customized natural language processing | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
CN117852553B (zh) | 基于聊天记录提取元器件交易场景信息的语言处理*** | |
Mokadam et al. | Online product review analysis to automate the extraction of customer requirements | |
CN115203570A (zh) | 预测模型的训练方法、专家推荐匹配方法、装置以及介质 | |
CN113326348A (zh) | 一种博客质量评估方法及工具 | |
Tahsin et al. | Combining Natural Language Processing and Federated Learning for Consumer Complaint Analysis: A Case Study on Laptops | |
CN115374108B (zh) | 一种基于知识图谱技术的数据标准生成与自动映射方法 | |
Pichiyan et al. | Web scraping using natural language processing: exploiting unstructured text for data extraction and analysis | |
CN116304058B (zh) | 企业负面信息的识别方法、装置、电子设备及存储介质 | |
Casillo et al. | A Latent Dirichlet Allocation Approach using Mixed Graph of Terms for Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |