CN117828060A

CN117828060A - 一种基于语义识别的在线问答方法、***和存储介质

Info

Publication number: CN117828060A
Application number: CN202410011779.0A
Authority: CN
Inventors: 钟青兰; 邓诗雨; 熊数; 王恺
Original assignee: Sdic Human Resources Service Co ltd
Current assignee: Sdic Human Resources Service Co ltd
Priority date: 2024-01-03
Filing date: 2024-01-03
Publication date: 2024-04-05
Anticipated expiration: 2044-01-03
Also published as: CN117828060B

Abstract

本发明公开了一种基于语义识别的在线问答方法，该方法包括：采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵；构建实体与答案链接知识库；将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的反馈。随着深度神经网络的兴起,图片识别的需求日益提高。图片文字识别作为其中重要的一部分,并且在现实生活中的应用越来越广泛，为了提高精度。本发明根据脚本算法审核报告基本信息，将信息中的文字及图片内容进行特征提取以及深度学习，结合图像识别算法，在实现图片占用最小空间特征识别的基础上，实现图片信息提取。该研究具有较好的通用性，为文字提取提供高效解决办法。

Description

一种基于语义识别的在线问答方法、***和存储介质

技术领域

本发明涉及一种计算机领域，具体涉及一种基于语义识别的在线问答方法、***和存储介质。

背景技术

随着网络教育的不断发展，智能化学习环境油然而生，智能在线问答***是智能化学习环境中必不可少的要素。智能在线问答***极大的提高了学习效率，提高了人们知识获取的速度，使人们更加方便快捷的获取问题的答案，这是传统学习方法所达不到的。

现有技术中CN201910615990.2《一种语义识别方法及装置》公开了用户先将题目拍照生成图片，智能答疑***在线识别图片中的题目，在题库中找到相应的题目并给出答案。还有的在线问答***语音识别用户描述的问题，然后在题库中检索问题并给出答案技术，但是该方案存在不能很好的识别题目文本中的一义多词和一义多句的问题，导致识别出的题目不够准确。

因此，需要提出一种能够深入到语义分析层次的***，才能更加准确地识别出用户提出的问题。

发明内容

本发明的目的在于提供一种基于语义识别的在线问答方法、***和存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供一种基于语义识别的在线问答方法，该方法包括：步骤1、命名实体识别模型构建：分别设计命名实体识别模型的输入层、特征提取层和输出层，采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵，利用外部实体字典辅助，降低中文词语的歧义性；步骤2、汉语短文本分类模型构建：分别设计汉语短文本分类模型的输入层、特征提取层和输出层，利用文本内部词语的依赖关系，提取局部特征，优化分类效果，最终输入到分类器中完成分类；步骤3、知识库构建：确定问答***相关业务，从总体角度进行结构规划知识图谱，进行企业数据采集和录入，根据先验知识对数据进行标准化和格式化处理，构建实体与答案链接知识库；步骤4、用户提问文本预处理：利用命名实体模型，对用户提问文本进行预处理，针对独立且不同的上下文语境，准确提取文本实体类别；步骤5、用户提问文本分类：利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，进一步缩小在知识库中检索答案的范围；步骤6、答案匹配：将文本分类结果与知识图谱进行匹配，检索知识库中与用户提问文本中最接近的命名实体，进而在知识库中筛选出最相关的答案；步骤7、答案生成反馈：将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的反馈。

本申请还提供了一种基于语义识别的在线问答***，该***包括：模型构建与维护模块，用途是根据企业用户需求搜集原始的问答数据，结合通用预料数据集，分别训练出命名实体识别模型和汉语短文本分类模型各层的参数，从而完成两大模型的构建，并不断搜集新的数据加入训练以完成模型的实时更新；知识库构建与维护模块，用途是根据问答***的具体应用场景搜集相关多源信息，对这些信息进行结构化知识抽取，构建实体与实体相关联，实体与答案相关联的知识库，并不断搜集新的数据进行分析以完成知识库的实时更新；数据标准化处理模块，用途是对搜集的数据进行文本清洗，剔除异常文本，提高进入***的数据质量，并对数据格式进行标准化和结构化；提问处理模块，用途是利用命名实体识别模型对用户提问文本进行预处理，针对独立且不同的上下文语境，准确提取文本实体类别，再利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，进一步缩小在知识库中检索答案的范围；答案匹配模块，将文本分类结果与知识图谱进行匹配，检索知识库中与用户提问文本中最接近的命名实体，进而在知识库中筛选出最相关的答案；答案生成与反馈终端，用途是将知识库中检索到的最匹配的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的回答，必要时提醒***管理员注意本次提问，及时采用人工方式更新知识库；云端信息库，用于存储样本数据、各模型需要的各层参数和知识库数据。

本申请还提供了一种基于语义识别的在线问答存储介质，所述基于语义识别的在线问答存储介质烧录有计算机程序，所述计算机程序在服务器的内存中运行时实现上述方法。

与现有技术相比，本发明的有益效果是：

本申请在现有句义分析规则的基础上，增加了对不常见句式和分析歧义句式的分析规则，降低了中文词语的歧义性，提高了对复句的语义分析的准确度，提高了在线问答***的准确率。

附图说明

图1为本发明的一种基于语义识别的在线问答方法流程图；

图2为本发明的一种基于语义识别的在线问答***示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本申请实施例提供了一种基于语义识别的在线问答方法，如图1所示的一种基于语义识别的在线问答方法流程图，该方法包括：

步骤1、命名实体识别模型构建：分别设计命名实体识别模型的输入层、特征提取层和输出层，采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵。

可选地，利用外部实体字典辅助，尽可能降低中文词语的歧义性。

可选地，所述命名实体识别模型构建，具体处理过程包括以下步骤：

步骤1-1、针对用户需求搜集用户应用场景中常用的文本数据，对搜集的所述文本数据进行文本清洗，建立剔除规则，剔除空白等异常文本以及停顿词等无意义文本。

整理搜集的文本数据，剔除掉文本中的空白文字和异常文字，以便提高文本数据质量。

步骤1-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注，完成文本与实体的匹配，建立最符合用户需求的小型训练数据集。

步骤1-3、针对实际应用场景选择合适的开源大型训练数据集，将步骤1-1建立的小型训练数据集与该数据集融合。

步骤1-4、对文本训练数据的每个词语进行编码，编码后的文本训练数据可以表示为词向量x₁，x₂...x_i...x_n,其中n为文本训练数据的数目，x_i＝[v₁,v₂...v_j,...v_p],v_j代表不同的词语对应的编码，同时将文本训练数据对应的实体数据表示为y＝[y₁，y₂...y_i...y_m],其中m为实体数目，再设置权重参数矩阵W，W的作用是将文本数据输入映射到实体。

步骤1-5、采用深度学习的方法，基于步骤1-3得到的数据集和步骤1-4编码后的数据，计算权重参数矩阵W，在计算过程中选取代价函数为：

上式中，x_i为文本训练数据，v_j代表不同的词语对应的编码，y为文本训练数据对应的实体数据，ln为对数运算，π为圆周率，∑为求和符号，tanh为双曲正切函数。

可选地，调用外部实体字典辅助命名实体识别模型，降低中文词语的歧义性，提高识别概率。

步骤2、汉语短文本分类模型构建：分别设计汉语短文本分类模型的输入层、特征提取层和输出层，提取所述文本的局部特征，根据所述文本的局部特征对所述文本分类。

可选地，充分利用文本内部词语的依赖关系，尽可能的提取局部特征，优化分类效果，最终输入到分类器中完成分类。

步骤4-1、针对用户需求搜集用户应用场景中常用的文本数据，进行文本清洗，建立剔除规则，剔除空白异常文本以及停顿词无意义文本，提高数据质量。

步骤4-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注，完成文本与实体的匹配，建立最符合用户需求的小型训练数据集。

步骤4-3、针对实际应用场景选择合适的开源大型训练数据集，将步骤4-1建立的小型训练数据集与该数据集融合。

步骤4-4、文本训练数据的每个字进行位置编码，编码后的文本训练数据可以表示为词向量x₁，x₂...x_i...x_n,其中n为文本训练数据的数目，x_i＝[v₁,v₂...v_j,...v_p],v_j代表不同位置的字对应的编码，具体编码方式如下：

上述公式中，α为泛化因子，j为字所处的位置，k为模型修正系数，e为自然对数底数，同时将文本训练数据对应的分类结果数据表示为y＝[y₁，y₂...y_i...y_m],其中m为分类数目，再设置权重参数矩阵W，W的作用是将文本数据输入映射到各个类别。

步骤4-5、采用深度学习的方法，基于步骤4-3得到的数据集和步骤4-4位置编码后的数据，计算权重参数矩阵W，在计算过程中选取代价函数为：

上式中，e为自然对数底数，f_s代表Sigmoid函数。

步骤3、知识库构建：确定问答***相关业务，从总体角度进行结构规划知识图谱，对企业进行数据采集和录入，根据先验知识对数据进行标准化和格式化处理，构建实体与答案链接知识库。

可选地，所述知识库构建过程，具体步骤为：

步骤5-1、采用自顶向下的架构，分为线上数据采集和线下人工录入两种搜集数据的方式，将两种方式搜集的数据进行文本清洗和知识融合。

步骤5-2、进行命名实体识别和实体关系分类，在这个过程中消除实体一词多义和多词同义，完成实体结构化和格式化。

可选地，建立一个句义结构模型，使它可以表示各类句子的语义结构，然后根据该模型把问题句和相关句分别映射为一个句义结构式，可以有效解决一词多义和多词同义的问题。

步骤5-3、将分类后的实体与答案以多向图的形式进行链接。

可选地，一个实体还可以与多个答案链接。

步骤4、用户提问文本预处理：利用命名实体模型，对用户提问文本进行预处理，针对独立且不同的上下文语境，准确提取文本实体类别。

对用户提出的问题，首先利用命名实体模型提取命名实体，然后利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，再根据分类结果在知识库中查找最匹配的答案信息。

步骤5、用户提问文本分类：利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，进一步缩小在知识库中检索答案的范围。

步骤6、答案匹配：将文本分类结果与知识图谱进行匹配，检索知识库中与用户提问文本中最接近的命名实体，进而在知识库中筛选出最相关的答案。

步骤7、答案生成反馈：将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的反馈。

所述答案生成反馈，具体生成过程为：将最匹配的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的回答。

所述答案生成反馈，具体反馈过程为：

步骤7-1、根据最匹配答案在知识图谱中的对应实体与用户问句的提取实体计算实体相关系数γ，具体公式为：

γ＝[ρ₁(∑(d_a，i)²)+ρ₂(∑|k_a，j|)]

上式中，d_a，i代表同时出现在答案和问句中的实体匹配度，k_a，j代表只出现在答案中的实体编码系数，ρ₁和ρ₂为不同的鲁棒核函数。

步骤7-2、对训练数据集进行人工标注，确定阈值η。

步骤7-3、若γ>η，则当前知识库中最匹配的答案可能仍无法满足用户，提醒***管理员注意本次提问，及时采用人工方式更新知识库。

本申请实施例提供了一种基于语义识别的在线问答***，如图2所示的一种基于语义识别的在线问答***示意图，该***包括：模型构建与维护模块201，用途是根据企业用户需求搜集原始的问答数据，结合通用预料数据集，分别训练出命名实体识别模型和汉语短文本分类模型各层的参数，从而完成两大模型的构建，并不断搜集新的数据加入训练以完成模型的实时更新；知识库构建与维护模块202，用途是根据问答***的具体应用场景搜集相关多源信息，对这些信息进行结构化知识抽取，构建实体与实体相关联，实体与答案相关联的知识库，并不断搜集新的数据进行分析以完成知识库的实时更新；数据标准化处理模块203，用途是对搜集的数据进行文本清洗，剔除异常文本，提高进入***的数据质量，并对数据格式进行标准化和结构化；提问处理模块204，用途是利用命名实体识别模型对用户提问文本进行预处理，针对独立且不同的上下文语境，准确提取文本实体类别，再利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，进一步缩小在知识库中检索答案的范围；答案匹配模块205，将文本分类结果与知识图谱进行匹配，检索知识库中与用户提问文本中最接近的命名实体，进而在知识库中筛选出最相关的答案；答案生成与反馈终端206，用途是将知识库中检索到的最匹配的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的回答，必要时提醒***管理员注意本次提问，及时采用人工方式更新知识库；云端信息库207，用于存储样本数据、各模型需要的各层参数和知识库数据。

所述基于语义识别的在线问答***中的各个模块执行上述基于语义识别的在线问答方法中的各步骤，在此不再赘述。

本申请实施例还提供了一种基于语义识别的在线问答存储介质，所述基于语义识别的在线问答存储介质烧录有计算机程序，所述计算机程序在服务器的内存中运行时实现上述方法。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于语义识别的在线问答方法，其特征在于,该方法包括：

步骤1、命名实体识别模型构建：分别设计命名实体识别模型的输入层、特征提取层和输出层，采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵，利用外部实体字典辅助，降低中文词语的歧义性；

步骤2、汉语短文本分类模型构建：分别设计汉语短文本分类模型的输入层、特征提取层和输出层，利用文本内部词语的依赖关系，提取局部特征，优化分类效果，最终输入到分类器中完成分类；

步骤3、知识库构建：确定问答***相关业务，从总体角度进行结构规划知识图谱，进行企业数据采集和录入，根据先验知识对数据进行标准化和格式化处理，构建实体与答案链接知识库；

步骤4、用户提问文本预处理：利用命名实体模型，对用户提问文本进行预处理，针对独立且不同的上下文语境，准确提取文本实体类别；

步骤5、用户提问文本分类：利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，进一步缩小在知识库中检索答案的范围；

步骤6、答案匹配：将文本分类结果与知识图谱进行匹配，检索知识库中与用户提问文本中最接近的命名实体，进而在知识库中筛选出最相关的答案；

2.如权利要求1所述的基于语义识别的在线问答方法，其特征在于,所述命名实体识别模型构建，具体处理过程包括以下步骤：

步骤1-1、针对用户需求搜集用户应用场景中常用的文本数据，进行文本清洗，建立剔除规则，剔除空白等异常文本以及停顿词等无意义文本；

步骤1-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注，完成文本与实体的匹配，建立最符合用户需求的小型训练数据集；

步骤1-3、针对实际应用场景选择合适的开源大型训练数据集，将步骤1-1建立的小型训练数据集与该数据集融合；

步骤1-4、对文本训练数据的每个词语进行编码，编码后的文本训练数据可以表示为词向量x₁，x₂...x_i…x_n,其中n为文本训练数据的数目，x_i＝[v₁,v₂...v_j,...v_p],v_j代表不同的词语对应的编码，同时将文本训练数据对应的实体数据表示为y＝[y₁，y₂...y_i…y_m],其中m为实体数目，再设置权重参数矩阵W，W的作用是将文本数据输入映射到实体；

3.如权利要求1所述的基于语义识别的在线问答方法，其特征在于，所述方法还包括：调用外部实体字典辅助命名实体识别模型，降低中文词语的歧义性，提高识别概率。

4.如权利要求1所述的基于语义识别的在线问答方法，其特征在于：所述汉语短文本分类模型构建，具体步骤如下：

步骤4-1、针对用户需求搜集用户应用场景中常用的文本数据，进行文本清洗，建立剔除规则，剔除空白异常文本以及停顿词无意义文本；

步骤4-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注，完成文本与实体的匹配，建立最符合用户需求的小型训练数据集；

步骤4-3、针对实际应用场景选择合适的开源大型训练数据集，将步骤4-1建立的小型训练数据集与该数据集融合；

步骤4-4、文本训练数据的每个字进行位置编码，编码后的文本训练数据可以表示为词向量x₁，x₂...x_i…x_n,其中n为文本训练数据的数目，x_i＝[v₁,v₂...v_j,...v_p],v_j代表不同位置的字对应的编码，具体编码方式如下：

上述公式中，α为泛化因子，j为字所处的位置，k为模型修正系数，e为自然对数底数，同时将文本训练数据对应的分类结果数据表示为y＝[y₁，y₂...y_j…y_m],其中m为分类数目，再设置权重参数矩阵W，W的作用是将文本数据输入映射到各个类别；

上式中，e为自然对数底数，f_s代表激活函数ln为对数运算，∑为求和符号，log为对数运算。

5.如权利要求1所述的基于语义识别的在线问答方法，其特征在于：所述知识库构建过程，具体步骤为：

步骤5-1、采用自顶向下的架构，分为线上数据采集和线下人工录入两种搜集数据的方式，将两种方式搜集的数据进行文本清洗和知识融合；

步骤5-2、进行命名实体识别和实体关系分类，在这个过程中消除实体一词多意和多词同意，完成实体结构化和格式化；

步骤5-3、将分类后的实体与答案以多向图的形式进行链接。

6.如权利要求1所述的基于语义识别的在线问答方法，其特征在于：对用户提出的问题，首先利用命名实体模型提取命名实体，然后利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，再根据分类结果在知识库中查找最匹配的答案信息。

7.如权利要求1所述的基于语义识别的在线问答方法，其特征在于：所述答案生成反馈，具体生成过程为：将最匹配的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的回答。

8.如权利要求1所述的基于语义识别的在线问答方法，其特征在于：所述答案生成反馈，具体反馈过程为：

γ＝[ρ₁(∑(d_a，i)²)+ρ₂(∑|k_a，j|)]

上式中，d_a，i代表同时出现在答案和问句中的实体匹配度，k_a，j代表只出现在答案中的实体编码系数，ρ₁和ρ₂为不同的鲁棒核函数；

步骤7-2、对训练数据集进行人工标注，确定阈值η；

9.一种基于语义识别的在线问答***，其特征在于，该***包括：

模型构建与维护模块，用途是根据企业用户需求搜集原始的问答数据，结合通用预料数据集，分别训练出命名实体识别模型和汉语短文本分类模型各层的参数，从而完成两大模型的构建，并不断搜集新的数据加入训练以完成模型的实时更新；

知识库构建与维护模块，用途是根据问答***的具体应用场景搜集相关多源信息，对这些信息进行结构化知识抽取，构建实体与实体相关联，实体与答案相关联的知识库，并不断搜集新的数据进行分析以完成知识库的实时更新；

数据标准化处理模块，用途是对搜集的数据进行文本清洗，剔除异常文本，提高进入***的数据质量，并对数据格式进行标准化和结构化；

提问处理模块，用途是利用命名实体识别模型对用户提问文本进行预处理，针对独立且不同的上下文语境，准确提取文本实体类别，再利用汉语短文本分类模型，对识别出的文本实体进行进一步分类，进一步缩小在知识库中检索答案的范围；

答案匹配模块，将文本分类结果与知识图谱进行匹配，检索知识库中与用户提问文本中最接近的命名实体，进而在知识库中筛选出最相关的答案；

答案生成与反馈终端，用途是将知识库中检索到的最匹配的答案信息生成为用户可以理解的自然语言语句，显示到可视化界面，实现对用户提问的回答，必要时提醒***管理员注意本次提问，及时采用人工方式更新知识库；

云端信息库，用于存储样本数据、各模型需要的各层参数和知识库数据。

10.一种基于语义识别的在线问答存储介质，其特征在于：所述基于语义识别的在线问答存储介质烧录有计算机程序，所述计算机程序在服务器的内存中运行时实现上述权利要求1-8任一项所述的方法。