CN116821285A - 基于人工智能的文本处理方法、装置、设备及介质 - Google Patents
基于人工智能的文本处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116821285A CN116821285A CN202310846702.0A CN202310846702A CN116821285A CN 116821285 A CN116821285 A CN 116821285A CN 202310846702 A CN202310846702 A CN 202310846702A CN 116821285 A CN116821285 A CN 116821285A
- Authority
- CN
- China
- Prior art keywords
- text information
- model
- text
- word
- gptmate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 17
- 238000003058 natural language processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000007726 management method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于人工智能的文本处理方法、装置、设备及介质,通过预设的MyGPTmate模型获取用户输入的第一文本信息;利用MyGPTmate模型上的GPTmate引擎对第一文本信息进行向量化处理,以通过GPTmate引擎基于OPEN‑AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;将若干词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;基于第二文本信息执行对应的用户服务过程,用户服务过程包括问答、数据分析、文生图、文件导出以及检索,让用户在极低的成本下,训练实时的数据,且专属用户的定制化模型,从而为用户的日常工作/学习等提供更加个性化的服务。
Description
技术领域
本发明涉及文本数据模型的技术领域,特别涉及一种基于人工智能的文本处理方法、装置、设备及介质。
背景技术
My GPTmate是一个软件***,它可以运行在多种操作***上,包括Windows、Linux、macOS等。具体来说,在不同的操作***上,My GPTmate需要使用相应版本的Python解释器,并安装相关的依赖库和软件包,如NLP、PyTorch、transformers等。此外,MyGPTmate还可能会结合其他工具和框架,如Docker、Kubernetes、JVM等,以实现分布式训练、部署和管理等功能。
GPT(Generative Pre-trained Transformer)模型是由OpenAI团队开发的一种无监督学习语言模型,能够通过大规模文本预训练来提高自然语言处理任务的性能。Transformer则是一种基于注意力机制的神经网络架构,用于处理序列数据,被广泛应用于自然语言处理领域,GPT本身的模型训练成本十分巨大,对于普通用户根本无力承担高额的专属GPT模型训练成本。
发明内容
本发明的主要目的为提供一种基于人工智能的文本处理方法、装置、设备及介质,让用户在极低的成本下,训练实时的数据,且专属用户的定制化模型,从而为用户的日常工作/学习等提供更加个性化的服务。
为实现上述目的,本发明提供了一种基于人工智能的文本处理方法,包括以下步骤:
通过预设的MyGPTmate模型获取用户输入的第一文本信息;
利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
进一步地,通过预设的MyGPTmate模型获取用户输入的第一文本信息的步骤之前,包括:
识别本地预设的GPT模型,所述GPT模型由本地知识库生成得到;
对所述GPT模型进行自回归训练;
采用transformer架构对自回归训练后的GPT模型进行序列数据深度学习;
通过embeddings模型和自然语言处理技术对序列数据深度学习后的GPT模型进行封装,得到GPTmate引擎并架构在所述MyGPTmate模型上。
进一步地,所述余弦相似性计算的算法包括:
cosine_similarity(A, B) = dot_product(A, B) / (norm(A) * norm(B))
式中,A和B是两个词向量,dot_product(A, B)是A和B的点积,norm(A)和norm(B)分别是A和B的欧几里得长度,结果值会在-1到1之间,值越接近1,表示两个词向量的方向越相近;值越接近-1,表示两个词向量的方向越相反;值接近0,表示两个词向量为正交表示没有相似性。
进一步地,所述用户服务过程为问答时,基于所述第二文本信息执行对应的用户服务过程的步骤,包括:
识别所述第二文本信息的GPTmate问题转向量;
通过GPTmate引擎利用本地知识库对所述第二文本信息进行调优;
利用网址爬虫对调优后的第二文本信息进一步链接对应的互联网语料,同时利用GPTmate引擎对调优后的第二文本信息链接本地知识库的本地语料;
通过所述MyGPTmate模型结合互联网语料和本地语料,生成与第二文本信息对应的答案信息。
进一步地,利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理的步骤之前,包括:
采用开源分隔工具对所述第一文本信息进行分词处理,所述开源分隔工具包括但不限于是jieba或HanLP;
对分词处理后的所述第一文本信息进行词性标注;
对词性标注后的所述第一文本信息进行停用词去除;
对去除停用词后的所述第一文本信息进行干扰词去除;
对去除干扰词后的所述第一文本信息进行标号替换,以得到便于所述MyGPTmate模型理解的第一文本信息。
进一步地,所述用户服务过程为问答/检索/数据分析时,基于所述第二文本信息执行对应的用户服务过程的步骤,包括:
采用Elasticsearch分词技术对第二文本信息进行双重加权匹配处理,所述双重加权匹配为采用向量相似度和GPTmate引擎检索,得到双重加权搜索得分,沿最高分往下取top N条,来优化所述第二文本信息。
进一步地,所述MyGPTmate模型包括:
用户管理模块,提供常规的用户管理鉴权能力;
语料管理模块,用于链接互联网语料和本地语料;
问答模块,用于支持长文本上下文记忆的聊天问答;
文生图模块,用于通过聊天的方式生成图片;
GPTmate引擎模块,用于对第一文本信息的向量化处理和存储。
本发明还提出一种基于人工智能的文本处理装置,包括:
获取单元,用于通过预设的MyGPTmate模型获取用户输入的第一文本信息;
引擎单元,用于利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
计算单元,用于将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
服务单元,用于基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述基于人工智能的文本处理方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于人工智能的文本处理方法的步骤。
本发明提供的基于人工智能的文本处理方法、装置、设备及介质,具有以下有益效果:
语言理解:本发明提出的My GPTmate可以对自然语言文本进行理解,并提取其中的关键信息和语义内容。在语音识别、情感分析、文本分类等任务中,它结合用户喜欢比传统算法表现更好。
语言生成:My GPTmate可以根据输入文本生成符合语法和语义规则的新文本,如生成对话、文章、邮件等。在对话***、自动生成摘要、文本创作等领域中,它也可能会带来显著的效果提升。
多语言交际:My GPTmate可以支持多语言之间的交流和转换,使得用户可以在不同语言环境下进行交流和合作。在跨国企业、国际组织等领域中,它可能会带来更加便利和高效的沟通体验。
语言理解和生成能力强:My GPTmate基于GPT模型和Transformer架构,具有很强的自然语言理解和生成能力,能够适应不同场景和需求。
可扩展性好:My GPTmate可以采用分布式训练和高效的模型压缩技术,以实现模型的可扩展性和运行速度的提升。
应用场景广泛:My GPTmate可以应用于多种自然语言处理任务,如文本分类、机器翻译、对话生成等。
可定制性强:My GPTmate可以根据不同应用场景和需求进行调整和优化,包括使用领域特定的预训练数据、采用不同的模型结构或算法等。My GPTmate 支持通过导入语料/PDF/资料文本 等信息,从而达到实时训练用户专属的GPT模型,来弥补基础GPT模型的资料涵盖的不足,让模型更倾向用户的个性化问答需求。
附图说明
图1是本发明一实施例中基于人工智能的文本处理方法步骤示意图;
图2是本发明一实施例中基于人工智能的文本处理方法的MyGPTmate进行文本处理的原理总图;
图3是本发明一实施例中基于人工智能的文本处理方法的用户服务过程时的回答调优过程图;
图4是本发明一实施例中基于人工智能的文本处理方法的文本预处理流程图;
图5是本发明一实施例中基于人工智能的文本处理方法的双重加权匹配的补偿搜索流程图;
图6是本发明一实施例中基于人工智能的文本处理方法的MyGPTmate模型应用总图;
图7是本发明一实施例中基于人工智能的文本处理装置结构框图;
图8是本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1为本发明提出的基于人工智能的文本处理方法,包括以下步骤:
S1,通过预设的MyGPTmate模型获取用户输入的第一文本信息;
S2,利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
S3,将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
S4,基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
在具体实施的过程中,
MyGPTmate模型采用的是基于OPEN-AI的词嵌入(embeddings)子模型对第一文本信息进行处理词嵌入,其中,词嵌入是一种表示文本的方法,其中每个单词或短语被映射到高维空间的一个向量。这些向量捕获词语之间的语义和语法关系。在这个高维空间中,语义相似的单词被映射到相互接近的位置。词嵌入可以用作其他自然语言处理任务的输入,如文本分类、命名实体识别、情感分析等。在这些任务中,输入文本首先被转换成词嵌入,然后被输入到模型中进行训练。而词嵌入的训练 词嵌入通常通过无监督的方式从大量文本数据中学习。这些模型试图学习单词和其上下文之间的关系,然后将这些关系编码到高维向量中。嵌入向量的维度 嵌入向量的维度通常是可配置的,并且可以根据具体的应用和计算资源进行调整。较高的维度可以捕获更复杂的词语关系,但会增加计算的复杂性和模型的大小。
OpenAI的文本嵌入衡量文本字符串的相关性。嵌入通常用于:
搜索(结果按与查询字符串的相关性排序)、
聚类(其中文本字符串按相似性分组)、
推荐(推荐具有相关文本字符串的项目)、
异常检测(识别出相关性很小的异常值)、
多样性测量(分析相似性分布)、
分类(其中文本字符串按其最相似的标签分类);
词嵌入在自然语言处理中常常被用于表示文本中的单词或短语,它们通常被映射到一个高维向量空间中。在这个空间中,词义相近的单词往往会被映射到相近的位置。那么而衡量两个词向量的相近程度,需要用到余弦相似性(Cosine Similarity)算法。
余弦相似性是一种衡量两个向量方向相似度的度量方式,它的计算方法是将两个向量的点积除以这两个向量的欧几里得长度的乘积。具体的公式如下:
cosine_similarity(A, B) = dot_product(A, B) / (norm(A) * norm(B))
在这个公式中,A和B是两个向量,dot_product(A, B)是A和B的点积,norm(A)和norm(B)分别是A和B的欧几里得长度。这个公式的结果值会在-1到1之间,值越接近1,表示两个向量的方向越相近;值越接近-1,表示两个向量的方向越相反;值接近0,表示两个向量几乎正交,也就是说他们之间几乎没有相似性。
在词嵌入中,余弦相似性被广泛用于计算两个词向量的相似度。例如,你可以用余弦相似性来找出与一个给定词最相似的词,或者找出在一个词向量集合中最相似的一对词。
在一个实施例中,通过预设的MyGPTmate模型获取用户输入的第一文本信息的步骤之前,包括:
识别本地预设的GPT模型,所述GPT模型由本地知识库生成得到;
对所述GPT模型进行自回归训练;
采用transformer架构对自回归训练后的GPT模型进行序列数据深度学习;
通过embeddings模型和自然语言处理技术对序列数据深度学习后的GPT模型进行封装,得到GPTmate引擎并架构在所述MyGPTmate模型上。
参考附图2,My GPTmate基于GPT模型,该GPT模型使用自回归(autoregressive)的方式进行训练,能够对输入的文本序列进行逐词预测,实现语言的生成和理解。GPT模型采用Transformer架构,这是一种主要用于处理序列数据的深度学***台自有创新的核心能力,基于GPT模型的基础上,通过引入向量化技术,重新定义了问答***和向量化检索的能力,增强了GPT大语言模型在长文字问答方面的不足。
在一个实施例中,所述用户服务过程为问答时,基于所述第二文本信息执行对应的用户服务过程的步骤,包括:
识别所述第二文本信息的GPTmate问题转向量;
通过GPTmate引擎利用本地知识库对所述第二文本信息进行调优;
利用网址爬虫对调优后的第二文本信息进一步链接对应的互联网语料,同时利用GPTmate引擎对调优后的第二文本信息链接本地知识库的本地语料;
通过所述MyGPTmate模型结合互联网语料和本地语料,生成与对应的答案信息。
参考附图3,My GPTmate对嵌入词模型做了上层应用的封装,通过gptMate Q&V引擎的文档文本向量化技术,在AI聊天问答的时候,从本地知识库中检索出近似度相近的知识,结合嵌入词技术,提交到大语言模型中,实现了GPT模型无法满足的长文本处理能力。
在一个实施例中,利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理的步骤之前,包括:
采用开源分隔工具对所述第一文本信息进行分词处理,所述开源分隔工具包括但不限于是jieba或HanLP;
对分词处理后的所述第一文本信息进行词性标注;
对词性标注后的所述第一文本信息进行停用词去除;
对去除停用词后的所述第一文本信息进行干扰词去除;
对去除干扰词后的所述第一文本信息进行标号替换,以得到便于所述MyGPTmate模型理解的第一文本信息。
参考附图4,是一项基于NLP技术的文本预处理技术,My GPTmate 在对文本词嵌入之前,需要对文本/文档进行预处理,我们总称为这个过程为文本降噪,以便与词向量模型更好的匹配预测相关信息,减少机器幻觉的产生,My GPTmate使用各种NLP技术,如分词、命名实体识别、语义角色标注等,以对文本进行处理和分析,可以帮助My GPTmate更好地理解和生成自然语言。
具体的,获取文本信息,使用开源工具jieba、HanLP等将句子分割成单个的词语,做分词处理。分词是中文文本预处理的关键步骤,由于中文文本并没有像英文那样明显的单词边界(空格),所以需要用到一些专门的分词工具,如jieba、HanLP等,将句子分割成单个的词语。使用HanLP进行词性标注,词性标注是一个可选的步骤,它可以为每个词语标记其在句子中的语法角色(名词、动词、形容词等)。这在一些任务中可能很有用,比如在实体识别或者关系抽取中,去除停用词与英文类似,中文也有一些高频率出现但不携带太多信息的词,比如"的"、"了"等,通常我们在GptMate中也会将它们去除。去除干扰词对于训练过程中对文本生成产生干扰的词,将会做去除处理。去除常用标点符号加入让gpt模型更好理解的标点,在实现过程中,GPTmate使用了领域特定的预训练数据和微调等手段加入了自有的文本预处理逻辑,以满足不同场景和需求的自然语言处理任务。
在一个实施例中,所述用户服务过程为问答/检索/数据分析时,基于所述第二文本信息执行对应的用户服务过程的步骤,包括:
采用Elasticsearch分词技术对第二文本信息进行双重加权匹配处理,所述双重加权匹配为采用向量相似度和GPTmate引擎检索,得到双重加权搜索得分,沿最高分往下取top N条,来优化所述第二文本信息。
参考附图5,之前提到采用余弦词嵌入匹配算法对文本进行一次匹配,但向量(词嵌入)匹配更多的是相似度,对于更加精准的场景,比如法律行业,教育行业,这个时候就需要向量结合搜索引擎技术,双重加权匹配文本资料库内容在这个技术点中创新的地方在于,在向量匹配的同时结合Elasticsearch的分词技术和分析器能力,实现更加精准的文本检索匹配算法。结合上面的流程,常规的向量搜索匹配,向量单独匹配不准,得出的搜索分数也会不理想。那么我们将会把向量匹配结合加上补偿搜索,一起得到一个综合得分,然后按综合得分排序取前4条,这就是双重加权匹配的关键。比如我要 在匹配用户提问的 "刑法第一百八十条是什么?", 但其实对应刑法来说,一百八十条里的内容可能涵盖了很多内容,比如判刑,定罪,如果单纯用向量去匹配(向量余弦采用的是相似度,侧重讨论的观点)的话,对于这种简短又精准的关键词匹配效果不理想,于是采用向量匹配+搜索引擎,得到一个双重加权搜索得分,再以此从高分往下取top N条,来优化此类效果。
在一个实施例中,参考附图6,MyGPTmate模型包括:
用户管理模块,提供常规的用户管理鉴权能力;
语料管理模块,用于链接互联网语料和本地语料;
问答模块,用于支持长文本上下文记忆的聊天问答;
文生图模块,用于通过聊天的方式生成图片;
GPTmate引擎模块(gptMate Q&V引擎),用于对第一文本信息的向量化处理和存储。
参考附图7,为本发明提出的一种基于人工智能的文本处理装置的结构框图,包括:
获取单元1,用于通过预设的MyGPTmate模型获取用户输入的第一文本信息;
引擎单元2,用于利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
计算单元3,用于将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
服务单元4,用于基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
在本实施例中,上述装置实施例中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图8,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储本实施例中对应的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。
S1,通过预设的MyGPTmate模型获取用户输入的第一文本信息;
S2,利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
S3,将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
S4,基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,通过预设的MyGPTmate模型获取用户输入的第一文本信息;利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索,让用户在极低的成本下,训练实时的数据,且专属用户的定制化模型,从而为用户的日常工作/学习等提供更加个性化的服务。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于人工智能的文本处理方法,其特征在于,包括以下步骤:
通过预设的MyGPTmate模型获取用户输入的第一文本信息;
利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
2.根据权利要求1所述的基于人工智能的文本处理方法,其特征在于,通过预设的MyGPTmate模型获取用户输入的第一文本信息的步骤之前,包括:
识别本地预设的GPT模型,所述GPT模型由本地知识库生成得到;
对所述GPT模型进行自回归训练;
采用transformer架构对自回归训练后的GPT模型进行序列数据深度学习;
通过embeddings模型和自然语言处理技术对序列数据深度学习后的GPT模型进行封装,得到GPTmate引擎并架构在所述MyGPTmate模型上。
3.根据权利要求1所述的基于人工智能的文本处理方法,其特征在于,所述余弦相似性计算的算法包括:
cosine_similarity(A, B) = dot_product(A, B) / (norm(A) * norm(B))
式中,A和B是两个词向量,dot_product(A, B)是A和B的点积,norm(A)和norm(B)分别是A和B的欧几里得长度,结果值会在-1到1之间,值越接近1,表示两个词向量的方向越相近;值越接近-1,表示两个词向量的方向越相反;值接近0,表示两个词向量为正交表示没有相似性。
4.根据权利要求1所述的基于人工智能的文本处理方法,其特征在于,所述用户服务过程为问答时,基于所述第二文本信息执行对应的用户服务过程的步骤,包括:
识别所述第二文本信息的GPTmate问题转向量;
通过GPTmate引擎利用本地知识库对所述第二文本信息进行调优;
利用网址爬虫对调优后的第二文本信息进一步链接对应的互联网语料,同时利用GPTmate引擎对调优后的第二文本信息链接本地知识库的本地语料;
通过所述MyGPTmate模型结合互联网语料和本地语料,生成与第二文本信息对应的答案信息。
5.根据权利要求1所述的基于人工智能的文本处理方法,其特征在于,利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理的步骤之前,包括:
采用开源分隔工具对所述第一文本信息进行分词处理,所述开源分隔工具包括但不限于是jieba或HanLP;
对分词处理后的所述第一文本信息进行词性标注;
对词性标注后的所述第一文本信息进行停用词去除;
对去除停用词后的所述第一文本信息进行干扰词去除;
对去除干扰词后的所述第一文本信息进行标号替换,以得到便于所述MyGPTmate模型理解的第一文本信息。
6.根据权利要求1所述的基于人工智能的文本处理方法,其特征在于,所述用户服务过程为问答/检索/数据分析时,基于所述第二文本信息执行对应的用户服务过程的步骤,包括:
采用Elasticsearch分词技术对第二文本信息进行双重加权匹配处理,所述双重加权匹配为采用向量相似度和GPTmate引擎检索,得到双重加权搜索得分,沿最高分往下取topN条,来优化所述第二文本信息。
7.根据权利要求1所述的基于人工智能的文本处理方法,其特征在于,所述MyGPTmate模型包括:
用户管理模块,提供常规的用户管理鉴权能力;
语料管理模块,用于链接互联网语料和本地语料;
问答模块,用于支持长文本上下文记忆的聊天问答;
文生图模块,用于通过聊天的方式生成图片;
GPTmate引擎模块,用于对第一文本信息的向量化处理和存储。
8.一种基于人工智能的文本处理装置,其特征在于,包括:
获取单元,用于通过预设的MyGPTmate模型获取用户输入的第一文本信息;
引擎单元,用于利用所述MyGPTmate模型上的GPTmate引擎对所述第一文本信息进行向量化处理,以通过所述GPTmate引擎基于OPEN-AI的词嵌入子模型对第一文本信息进行词向量分解,生成若干与第一文本信息匹配的词向量;
计算单元,用于将若干所述词向量进行余弦相似性计算,以从若干词向量中确定出相似值符合预设阈值的词向量并生成第二文本信息;
服务单元,用于基于所述第二文本信息执行对应的用户服务过程,所述用户服务过程包括问答、数据分析、文生图、文件导出以及检索。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于人工智能的文本处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于人工智能的文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310846702.0A CN116821285A (zh) | 2023-07-11 | 2023-07-11 | 基于人工智能的文本处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310846702.0A CN116821285A (zh) | 2023-07-11 | 2023-07-11 | 基于人工智能的文本处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821285A true CN116821285A (zh) | 2023-09-29 |
Family
ID=88116620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310846702.0A Pending CN116821285A (zh) | 2023-07-11 | 2023-07-11 | 基于人工智能的文本处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821285A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591631A (zh) * | 2023-11-23 | 2024-02-23 | 知学云(北京)科技股份有限公司 | 基于AI PaaS平台的Elasticsearch文本向量化搜索*** |
CN117743548A (zh) * | 2023-12-21 | 2024-03-22 | 北京新数科技有限公司 | 一种基于大模型的本地知识库智能问答方法、***、设备及可读存储介质 |
-
2023
- 2023-07-11 CN CN202310846702.0A patent/CN116821285A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591631A (zh) * | 2023-11-23 | 2024-02-23 | 知学云(北京)科技股份有限公司 | 基于AI PaaS平台的Elasticsearch文本向量化搜索*** |
CN117743548A (zh) * | 2023-12-21 | 2024-03-22 | 北京新数科技有限公司 | 一种基于大模型的本地知识库智能问答方法、***、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11397762B2 (en) | Automatically generating natural language responses to users' questions | |
CN107798140B (zh) | 一种对话***构建方法、语义受控应答方法及装置 | |
CN108549637A (zh) | 基于拼音的语义识别方法、装置以及人机对话*** | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN116821285A (zh) | 基于人工智能的文本处理方法、装置、设备及介质 | |
CN109740158B (zh) | 一种文本语义解析方法及装置 | |
CN111666399A (zh) | 基于知识图谱的智能问答方法、装置和计算机设备 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111259113A (zh) | 文本匹配方法、装置、计算机可读存储介质和计算机设备 | |
CN114722069A (zh) | 语言转换方法和装置、电子设备及存储介质 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN115759071A (zh) | 基于大数据的政务敏感信息识别***和方法 | |
Hafeth et al. | Semantic representations with attention networks for boosting image captioning | |
CN113901838A (zh) | 对话检测方法和装置、电子设备、存储介质 | |
Inbasekaran et al. | Using Transfer Learning to contextually Optimize Optical Character Recognition (OCR) output and perform new Feature Extraction on a digitized cultural and historical dataset | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN117010907A (zh) | 一种基于语音和图像识别的多模态客户服务方法及*** | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114786059B (zh) | 视频生成方法、视频生成装置、电子设备、存储介质 | |
Karpagam et al. | Deep learning approaches for answer selection in question answering system for conversation agents | |
CN115712713A (zh) | 一种文本匹配方法、装置、***以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |