CN116821285A

CN116821285A - 基于人工智能的文本处理方法、装置、设备及介质

Info

Publication number: CN116821285A
Application number: CN202310846702.0A
Authority: CN
Inventors: 窦剑文; 周建峰; 季然; 朱运周; 谭启明; 黄杰; 刘卿; 李雄; 王晨; 朱华振; 刘锋; 刘博超; 何博; 汪雅璇
Original assignee: Heimer Pandora Data Technology Shenzhen Co ltd
Current assignee: Heimer Pandora Data Technology Shenzhen Co ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-09-29

Abstract

本发明涉及一种基于人工智能的文本处理方法、装置、设备及介质，通过预设的MyGPTmate模型获取用户输入的第一文本信息；利用MyGPTmate模型上的GPTmate引擎对第一文本信息进行向量化处理，以通过GPTmate引擎基于OPEN‑AI的词嵌入子模型对第一文本信息进行词向量分解，生成若干与第一文本信息匹配的词向量；将若干词向量进行余弦相似性计算，以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息；基于第二文本信息执行对应的用户服务过程，用户服务过程包括问答、数据分析、文生图、文件导出以及检索，让用户在极低的成本下，训练实时的数据，且专属用户的定制化模型，从而为用户的日常工作/学习等提供更加个性化的服务。

Description

基于人工智能的文本处理方法、装置、设备及介质

技术领域

本发明涉及文本数据模型的技术领域，特别涉及一种基于人工智能的文本处理方法、装置、设备及介质。

背景技术

My GPTmate是一个软件***，它可以运行在多种操作***上，包括Windows、Linux、macOS等。具体来说，在不同的操作***上，My GPTmate需要使用相应版本的Python解释器，并安装相关的依赖库和软件包，如NLP、PyTorch、transformers等。此外，MyGPTmate还可能会结合其他工具和框架，如Docker、Kubernetes、JVM等，以实现分布式训练、部署和管理等功能。

GPT（Generative Pre-trained Transformer）模型是由OpenAI团队开发的一种无监督学习语言模型，能够通过大规模文本预训练来提高自然语言处理任务的性能。Transformer则是一种基于注意力机制的神经网络架构，用于处理序列数据，被广泛应用于自然语言处理领域，GPT本身的模型训练成本十分巨大，对于普通用户根本无力承担高额的专属GPT模型训练成本。

发明内容

本发明的主要目的为提供一种基于人工智能的文本处理方法、装置、设备及介质，让用户在极低的成本下，训练实时的数据，且专属用户的定制化模型，从而为用户的日常工作/学习等提供更加个性化的服务。

为实现上述目的，本发明提供了一种基于人工智能的文本处理方法，包括以下步骤：

通过预设的MyGPTmate模型获取用户输入的第一文本信息；

利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理，以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解，生成若干与第一文本信息匹配的词向量；

将若干所述词向量进行余弦相似性计算，以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息；

基于所述第二文本信息执行对应的用户服务过程，所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。

进一步地，通过预设的MyGPTmate模型获取用户输入的第一文本信息的步骤之前，包括：

识别本地预设的GPT模型，所述GPT模型由本地知识库生成得到；

对所述GPT模型进行自回归训练；

采用transformer架构对自回归训练后的GPT模型进行序列数据深度学习；

通过embeddings模型和自然语言处理技术对序列数据深度学习后的GPT模型进行封装，得到GPTmate引擎并架构在所述MyGPTmate模型上。

进一步地，所述余弦相似性计算的算法包括：

cosine_similarity(A, B) = dot_product(A, B) / (norm(A) * norm(B))

式中，A和B是两个词向量，dot_product(A, B)是A和B的点积，norm(A)和norm(B)分别是A和B的欧几里得长度，结果值会在-1到1之间，值越接近1，表示两个词向量的方向越相近；值越接近-1，表示两个词向量的方向越相反；值接近0，表示两个词向量为正交表示没有相似性。

进一步地，所述用户服务过程为问答时，基于所述第二文本信息执行对应的用户服务过程的步骤，包括：

识别所述第二文本信息的GPTmate问题转向量；

通过GPTmate引擎利用本地知识库对所述第二文本信息进行调优；

利用网址爬虫对调优后的第二文本信息进一步链接对应的互联网语料，同时利用GPTmate引擎对调优后的第二文本信息链接本地知识库的本地语料；

通过所述MyGPTmate模型结合互联网语料和本地语料，生成与第二文本信息对应的答案信息。

进一步地，利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理的步骤之前，包括：

采用开源分隔工具对所述第一文本信息进行分词处理，所述开源分隔工具包括但不限于是jieba或HanLP；

对分词处理后的所述第一文本信息进行词性标注；

对词性标注后的所述第一文本信息进行停用词去除；

对去除停用词后的所述第一文本信息进行干扰词去除；

对去除干扰词后的所述第一文本信息进行标号替换，以得到便于所述MyGPTmate模型理解的第一文本信息。

进一步地，所述用户服务过程为问答/检索/数据分析时，基于所述第二文本信息执行对应的用户服务过程的步骤，包括：

采用Elasticsearch分词技术对第二文本信息进行双重加权匹配处理，所述双重加权匹配为采用向量相似度和GPTmate引擎检索，得到双重加权搜索得分，沿最高分往下取top N条，来优化所述第二文本信息。

进一步地，所述MyGPTmate模型包括：

用户管理模块，提供常规的用户管理鉴权能力；

语料管理模块，用于链接互联网语料和本地语料；

问答模块，用于支持长文本上下文记忆的聊天问答；

文生图模块，用于通过聊天的方式生成图片；

GPTmate引擎模块，用于对第一文本信息的向量化处理和存储。

本发明还提出一种基于人工智能的文本处理装置，包括：

获取单元，用于通过预设的MyGPTmate模型获取用户输入的第一文本信息；

引擎单元，用于利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理，以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解，生成若干与第一文本信息匹配的词向量；

计算单元，用于将若干所述词向量进行余弦相似性计算，以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息；

服务单元，用于基于所述第二文本信息执行对应的用户服务过程，所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述基于人工智能的文本处理方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的基于人工智能的文本处理方法的步骤。

本发明提供的基于人工智能的文本处理方法、装置、设备及介质，具有以下有益效果：

语言理解：本发明提出的My GPTmate可以对自然语言文本进行理解，并提取其中的关键信息和语义内容。在语音识别、情感分析、文本分类等任务中，它结合用户喜欢比传统算法表现更好。

语言生成：My GPTmate可以根据输入文本生成符合语法和语义规则的新文本，如生成对话、文章、邮件等。在对话***、自动生成摘要、文本创作等领域中，它也可能会带来显著的效果提升。

多语言交际：My GPTmate可以支持多语言之间的交流和转换，使得用户可以在不同语言环境下进行交流和合作。在跨国企业、国际组织等领域中，它可能会带来更加便利和高效的沟通体验。

语言理解和生成能力强：My GPTmate基于GPT模型和Transformer架构，具有很强的自然语言理解和生成能力，能够适应不同场景和需求。

可扩展性好：My GPTmate可以采用分布式训练和高效的模型压缩技术，以实现模型的可扩展性和运行速度的提升。

应用场景广泛：My GPTmate可以应用于多种自然语言处理任务，如文本分类、机器翻译、对话生成等。

可定制性强：My GPTmate可以根据不同应用场景和需求进行调整和优化，包括使用领域特定的预训练数据、采用不同的模型结构或算法等。My GPTmate 支持通过导入语料/PDF/资料文本等信息，从而达到实时训练用户专属的GPT模型，来弥补基础GPT模型的资料涵盖的不足，让模型更倾向用户的个性化问答需求。

附图说明

图1是本发明一实施例中基于人工智能的文本处理方法步骤示意图；

图2是本发明一实施例中基于人工智能的文本处理方法的MyGPTmate进行文本处理的原理总图；

图3是本发明一实施例中基于人工智能的文本处理方法的用户服务过程时的回答调优过程图；

图4是本发明一实施例中基于人工智能的文本处理方法的文本预处理流程图；

图5是本发明一实施例中基于人工智能的文本处理方法的双重加权匹配的补偿搜索流程图；

图6是本发明一实施例中基于人工智能的文本处理方法的MyGPTmate模型应用总图；

图7是本发明一实施例中基于人工智能的文本处理装置结构框图；

图8是本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1为本发明提出的基于人工智能的文本处理方法，包括以下步骤：

S1，通过预设的MyGPTmate模型获取用户输入的第一文本信息；

S2，利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理，以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解，生成若干与第一文本信息匹配的词向量；

S3，将若干所述词向量进行余弦相似性计算，以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息；

S4，基于所述第二文本信息执行对应的用户服务过程，所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。

在具体实施的过程中，

MyGPTmate模型采用的是基于OPEN-AI的词嵌入(embeddings)子模型对第一文本信息进行处理词嵌入，其中，词嵌入是一种表示文本的方法，其中每个单词或短语被映射到高维空间的一个向量。这些向量捕获词语之间的语义和语法关系。在这个高维空间中，语义相似的单词被映射到相互接近的位置。词嵌入可以用作其他自然语言处理任务的输入，如文本分类、命名实体识别、情感分析等。在这些任务中，输入文本首先被转换成词嵌入，然后被输入到模型中进行训练。而词嵌入的训练词嵌入通常通过无监督的方式从大量文本数据中学习。这些模型试图学习单词和其上下文之间的关系，然后将这些关系编码到高维向量中。嵌入向量的维度嵌入向量的维度通常是可配置的，并且可以根据具体的应用和计算资源进行调整。较高的维度可以捕获更复杂的词语关系，但会增加计算的复杂性和模型的大小。

OpenAI的文本嵌入衡量文本字符串的相关性。嵌入通常用于：

搜索（结果按与查询字符串的相关性排序）、

聚类（其中文本字符串按相似性分组）、

推荐（推荐具有相关文本字符串的项目）、

异常检测（识别出相关性很小的异常值）、

多样性测量（分析相似性分布）、

分类（其中文本字符串按其最相似的标签分类）；

词嵌入在自然语言处理中常常被用于表示文本中的单词或短语，它们通常被映射到一个高维向量空间中。在这个空间中，词义相近的单词往往会被映射到相近的位置。那么而衡量两个词向量的相近程度，需要用到余弦相似性（Cosine Similarity）算法。

余弦相似性是一种衡量两个向量方向相似度的度量方式，它的计算方法是将两个向量的点积除以这两个向量的欧几里得长度的乘积。具体的公式如下：

cosine_similarity(A, B) = dot_product(A, B) / (norm(A) * norm(B))

在这个公式中，A和B是两个向量，dot_product(A, B)是A和B的点积，norm(A)和norm(B)分别是A和B的欧几里得长度。这个公式的结果值会在-1到1之间，值越接近1，表示两个向量的方向越相近；值越接近-1，表示两个向量的方向越相反；值接近0，表示两个向量几乎正交，也就是说他们之间几乎没有相似性。

在词嵌入中，余弦相似性被广泛用于计算两个词向量的相似度。例如，你可以用余弦相似性来找出与一个给定词最相似的词，或者找出在一个词向量集合中最相似的一对词。

在一个实施例中，通过预设的MyGPTmate模型获取用户输入的第一文本信息的步骤之前，包括：

对所述GPT模型进行自回归训练；

参考附图2，My GPTmate基于GPT模型，该GPT模型使用自回归（autoregressive）的方式进行训练，能够对输入的文本序列进行逐词预测，实现语言的生成和理解。GPT模型采用Transformer架构，这是一种主要用于处理序列数据的深度学***台自有创新的核心能力，基于GPT模型的基础上，通过引入向量化技术，重新定义了问答***和向量化检索的能力，增强了GPT大语言模型在长文字问答方面的不足。

在一个实施例中，所述用户服务过程为问答时，基于所述第二文本信息执行对应的用户服务过程的步骤，包括：

识别所述第二文本信息的GPTmate问题转向量；

通过所述MyGPTmate模型结合互联网语料和本地语料，生成与对应的答案信息。

参考附图3，My GPTmate对嵌入词模型做了上层应用的封装，通过gptMate Q&V引擎的文档文本向量化技术，在AI聊天问答的时候，从本地知识库中检索出近似度相近的知识，结合嵌入词技术，提交到大语言模型中，实现了GPT模型无法满足的长文本处理能力。

在一个实施例中，利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理的步骤之前，包括：

对分词处理后的所述第一文本信息进行词性标注；

对词性标注后的所述第一文本信息进行停用词去除；

对去除停用词后的所述第一文本信息进行干扰词去除；

参考附图4，是一项基于NLP技术的文本预处理技术，My GPTmate 在对文本词嵌入之前，需要对文本/文档进行预处理，我们总称为这个过程为文本降噪，以便与词向量模型更好的匹配预测相关信息，减少机器幻觉的产生，My GPTmate使用各种NLP技术，如分词、命名实体识别、语义角色标注等，以对文本进行处理和分析，可以帮助My GPTmate更好地理解和生成自然语言。

具体的，获取文本信息，使用开源工具jieba、HanLP等将句子分割成单个的词语，做分词处理。分词是中文文本预处理的关键步骤，由于中文文本并没有像英文那样明显的单词边界（空格），所以需要用到一些专门的分词工具，如jieba、HanLP等，将句子分割成单个的词语。使用HanLP进行词性标注，词性标注是一个可选的步骤，它可以为每个词语标记其在句子中的语法角色（名词、动词、形容词等）。这在一些任务中可能很有用，比如在实体识别或者关系抽取中，去除停用词与英文类似，中文也有一些高频率出现但不携带太多信息的词，比如"的"、"了"等，通常我们在GptMate中也会将它们去除。去除干扰词对于训练过程中对文本生成产生干扰的词，将会做去除处理。去除常用标点符号加入让gpt模型更好理解的标点，在实现过程中，GPTmate使用了领域特定的预训练数据和微调等手段加入了自有的文本预处理逻辑，以满足不同场景和需求的自然语言处理任务。

在一个实施例中，所述用户服务过程为问答/检索/数据分析时，基于所述第二文本信息执行对应的用户服务过程的步骤，包括：

参考附图5，之前提到采用余弦词嵌入匹配算法对文本进行一次匹配，但向量（词嵌入）匹配更多的是相似度，对于更加精准的场景，比如法律行业，教育行业，这个时候就需要向量结合搜索引擎技术，双重加权匹配文本资料库内容在这个技术点中创新的地方在于，在向量匹配的同时结合Elasticsearch的分词技术和分析器能力，实现更加精准的文本检索匹配算法。结合上面的流程，常规的向量搜索匹配，向量单独匹配不准，得出的搜索分数也会不理想。那么我们将会把向量匹配结合加上补偿搜索，一起得到一个综合得分，然后按综合得分排序取前4条，这就是双重加权匹配的关键。比如我要在匹配用户提问的 "刑法第一百八十条是什么？"，但其实对应刑法来说，一百八十条里的内容可能涵盖了很多内容，比如判刑，定罪，如果单纯用向量去匹配（向量余弦采用的是相似度，侧重讨论的观点）的话，对于这种简短又精准的关键词匹配效果不理想，于是采用向量匹配+搜索引擎，得到一个双重加权搜索得分，再以此从高分往下取top N条，来优化此类效果。

在一个实施例中，参考附图6，MyGPTmate模型包括：

用户管理模块，提供常规的用户管理鉴权能力；

语料管理模块，用于链接互联网语料和本地语料；

问答模块，用于支持长文本上下文记忆的聊天问答；

文生图模块，用于通过聊天的方式生成图片；

GPTmate引擎模块（gptMate Q&V引擎），用于对第一文本信息的向量化处理和存储。

参考附图7，为本发明提出的一种基于人工智能的文本处理装置的结构框图，包括：

获取单元1，用于通过预设的MyGPTmate模型获取用户输入的第一文本信息；

引擎单元2，用于利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理，以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解，生成若干与第一文本信息匹配的词向量；

计算单元3，用于将若干所述词向量进行余弦相似性计算，以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息；

服务单元4，用于基于所述第二文本信息执行对应的用户服务过程，所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。

在本实施例中，上述装置实施例中的各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图8，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储本实施例中对应的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。

S1，通过预设的MyGPTmate模型获取用户输入的第一文本信息；

本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，通过预设的MyGPTmate模型获取用户输入的第一文本信息；利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理，以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解，生成若干与第一文本信息匹配的词向量；将若干所述词向量进行余弦相似性计算，以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息；基于所述第二文本信息执行对应的用户服务过程，所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索，让用户在极低的成本下，训练实时的数据，且专属用户的定制化模型，从而为用户的日常工作/学习等提供更加个性化的服务。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人工智能的文本处理方法，其特征在于，包括以下步骤：

通过预设的MyGPTmate模型获取用户输入的第一文本信息；

2.根据权利要求1所述的基于人工智能的文本处理方法，其特征在于，通过预设的MyGPTmate模型获取用户输入的第一文本信息的步骤之前，包括：

对所述GPT模型进行自回归训练；

3.根据权利要求1所述的基于人工智能的文本处理方法，其特征在于，所述余弦相似性计算的算法包括：

cosine_similarity(A, B) = dot_product(A, B) / (norm(A) * norm(B))

4.根据权利要求1所述的基于人工智能的文本处理方法，其特征在于，所述用户服务过程为问答时，基于所述第二文本信息执行对应的用户服务过程的步骤，包括：

识别所述第二文本信息的GPTmate问题转向量；

5.根据权利要求1所述的基于人工智能的文本处理方法，其特征在于，利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理的步骤之前，包括：

对分词处理后的所述第一文本信息进行词性标注；

对词性标注后的所述第一文本信息进行停用词去除；

对去除停用词后的所述第一文本信息进行干扰词去除；

6.根据权利要求1所述的基于人工智能的文本处理方法，其特征在于，所述用户服务过程为问答/检索/数据分析时，基于所述第二文本信息执行对应的用户服务过程的步骤，包括：

采用Elasticsearch分词技术对第二文本信息进行双重加权匹配处理，所述双重加权匹配为采用向量相似度和GPTmate引擎检索，得到双重加权搜索得分，沿最高分往下取topN条，来优化所述第二文本信息。

7.根据权利要求1所述的基于人工智能的文本处理方法，其特征在于，所述MyGPTmate模型包括：

用户管理模块，提供常规的用户管理鉴权能力；

语料管理模块，用于链接互联网语料和本地语料；

问答模块，用于支持长文本上下文记忆的聊天问答；

文生图模块，用于通过聊天的方式生成图片；

GPTmate引擎模块，用于对第一文本信息的向量化处理和存储。

8.一种基于人工智能的文本处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于人工智能的文本处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于人工智能的文本处理方法的步骤。