CN117828060A - 一种基于语义识别的在线问答方法、***和存储介质 - Google Patents

一种基于语义识别的在线问答方法、***和存储介质 Download PDF

Info

Publication number
CN117828060A
CN117828060A CN202410011779.0A CN202410011779A CN117828060A CN 117828060 A CN117828060 A CN 117828060A CN 202410011779 A CN202410011779 A CN 202410011779A CN 117828060 A CN117828060 A CN 117828060A
Authority
CN
China
Prior art keywords
text
data
question
entity
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410011779.0A
Other languages
English (en)
Other versions
CN117828060B (zh
Inventor
钟青兰
邓诗雨
熊数
王恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sdic Human Resources Service Co ltd
Original Assignee
Sdic Human Resources Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sdic Human Resources Service Co ltd filed Critical Sdic Human Resources Service Co ltd
Priority to CN202410011779.0A priority Critical patent/CN117828060B/zh
Publication of CN117828060A publication Critical patent/CN117828060A/zh
Application granted granted Critical
Publication of CN117828060B publication Critical patent/CN117828060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义识别的在线问答方法,该方法包括:采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵;构建实体与答案链接知识库;将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的反馈。随着深度神经网络的兴起,图片识别的需求日益提高。图片文字识别作为其中重要的一部分,并且在现实生活中的应用越来越广泛,为了提高精度。本发明根据脚本算法审核报告基本信息,将信息中的文字及图片内容进行特征提取以及深度学习,结合图像识别算法,在实现图片占用最小空间特征识别的基础上,实现图片信息提取。该研究具有较好的通用性,为文字提取提供高效解决办法。

Description

一种基于语义识别的在线问答方法、***和存储介质
技术领域
本发明涉及一种计算机领域,具体涉及一种基于语义识别的在线问答方法、***和存储介质。
背景技术
随着网络教育的不断发展,智能化学习环境油然而生,智能在线问答***是智能化学习环境中必不可少的要素。智能在线问答***极大的提高了学习效率,提高了人们知识获取的速度,使人们更加方便快捷的获取问题的答案,这是传统学习方法所达不到的。
现有技术中CN201910615990.2《一种语义识别方法及装置》公开了用户先将题目拍照生成图片,智能答疑***在线识别图片中的题目,在题库中找到相应的题目并给出答案。还有的在线问答***语音识别用户描述的问题,然后在题库中检索问题并给出答案技术,但是该方案存在不能很好的识别题目文本中的一义多词和一义多句的问题,导致识别出的题目不够准确。
因此,需要提出一种能够深入到语义分析层次的***,才能更加准确地识别出用户提出的问题。
发明内容
本发明的目的在于提供一种基于语义识别的在线问答方法、***和存储介质,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种基于语义识别的在线问答方法,该方法包括:步骤1、命名实体识别模型构建:分别设计命名实体识别模型的输入层、特征提取层和输出层,采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵,利用外部实体字典辅助,降低中文词语的歧义性;步骤2、汉语短文本分类模型构建:分别设计汉语短文本分类模型的输入层、特征提取层和输出层,利用文本内部词语的依赖关系,提取局部特征,优化分类效果,最终输入到分类器中完成分类;步骤3、知识库构建:确定问答***相关业务,从总体角度进行结构规划知识图谱,进行企业数据采集和录入,根据先验知识对数据进行标准化和格式化处理,构建实体与答案链接知识库;步骤4、用户提问文本预处理:利用命名实体模型,对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别;步骤5、用户提问文本分类:利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围;步骤6、答案匹配:将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案;步骤7、答案生成反馈:将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的反馈。
本申请还提供了一种基于语义识别的在线问答***,该***包括:模型构建与维护模块,用途是根据企业用户需求搜集原始的问答数据,结合通用预料数据集,分别训练出命名实体识别模型和汉语短文本分类模型各层的参数,从而完成两大模型的构建,并不断搜集新的数据加入训练以完成模型的实时更新;知识库构建与维护模块,用途是根据问答***的具体应用场景搜集相关多源信息,对这些信息进行结构化知识抽取,构建实体与实体相关联,实体与答案相关联的知识库,并不断搜集新的数据进行分析以完成知识库的实时更新;数据标准化处理模块,用途是对搜集的数据进行文本清洗,剔除异常文本,提高进入***的数据质量,并对数据格式进行标准化和结构化;提问处理模块,用途是利用命名实体识别模型对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别,再利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围;答案匹配模块,将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案;答案生成与反馈终端,用途是将知识库中检索到的最匹配的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的回答,必要时提醒***管理员注意本次提问,及时采用人工方式更新知识库;云端信息库,用于存储样本数据、各模型需要的各层参数和知识库数据。
本申请还提供了一种基于语义识别的在线问答存储介质,所述基于语义识别的在线问答存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现上述方法。
与现有技术相比,本发明的有益效果是:
本申请在现有句义分析规则的基础上,增加了对不常见句式和分析歧义句式的分析规则,降低了中文词语的歧义性,提高了对复句的语义分析的准确度,提高了在线问答***的准确率。
附图说明
图1为本发明的一种基于语义识别的在线问答方法流程图;
图2为本发明的一种基于语义识别的在线问答***示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本申请实施例提供了一种基于语义识别的在线问答方法,如图1所示的一种基于语义识别的在线问答方法流程图,该方法包括:
步骤1、命名实体识别模型构建:分别设计命名实体识别模型的输入层、特征提取层和输出层,采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵。
可选地,利用外部实体字典辅助,尽可能降低中文词语的歧义性。
可选地,所述命名实体识别模型构建,具体处理过程包括以下步骤:
步骤1-1、针对用户需求搜集用户应用场景中常用的文本数据,对搜集的所述文本数据进行文本清洗,建立剔除规则,剔除空白等异常文本以及停顿词等无意义文本。
整理搜集的文本数据,剔除掉文本中的空白文字和异常文字,以便提高文本数据质量。
步骤1-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注,完成文本与实体的匹配,建立最符合用户需求的小型训练数据集。
步骤1-3、针对实际应用场景选择合适的开源大型训练数据集,将步骤1-1建立的小型训练数据集与该数据集融合。
步骤1-4、对文本训练数据的每个词语进行编码,编码后的文本训练数据可以表示为词向量x1,x2...xi...xn,其中n为文本训练数据的数目,xi=[v1,v2...vj,...vp],vj代表不同的词语对应的编码,同时将文本训练数据对应的实体数据表示为y=[y1,y2...yi...ym],其中m为实体数目,再设置权重参数矩阵W,W的作用是将文本数据输入映射到实体。
步骤1-5、采用深度学习的方法,基于步骤1-3得到的数据集和步骤1-4编码后的数据,计算权重参数矩阵W,在计算过程中选取代价函数为:
上式中,xi为文本训练数据,vj代表不同的词语对应的编码,y为文本训练数据对应的实体数据,ln为对数运算,π为圆周率,∑为求和符号,tanh为双曲正切函数。
可选地,调用外部实体字典辅助命名实体识别模型,降低中文词语的歧义性,提高识别概率。
步骤2、汉语短文本分类模型构建:分别设计汉语短文本分类模型的输入层、特征提取层和输出层,提取所述文本的局部特征,根据所述文本的局部特征对所述文本分类。
可选地,充分利用文本内部词语的依赖关系,尽可能的提取局部特征,优化分类效果,最终输入到分类器中完成分类。
步骤4-1、针对用户需求搜集用户应用场景中常用的文本数据,进行文本清洗,建立剔除规则,剔除空白异常文本以及停顿词无意义文本,提高数据质量。
步骤4-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注,完成文本与实体的匹配,建立最符合用户需求的小型训练数据集。
步骤4-3、针对实际应用场景选择合适的开源大型训练数据集,将步骤4-1建立的小型训练数据集与该数据集融合。
步骤4-4、文本训练数据的每个字进行位置编码,编码后的文本训练数据可以表示为词向量x1,x2...xi...xn,其中n为文本训练数据的数目,xi=[v1,v2...vj,...vp],vj代表不同位置的字对应的编码,具体编码方式如下:
上述公式中,α为泛化因子,j为字所处的位置,k为模型修正系数,e为自然对数底数,同时将文本训练数据对应的分类结果数据表示为y=[y1,y2...yi...ym],其中m为分类数目,再设置权重参数矩阵W,W的作用是将文本数据输入映射到各个类别。
步骤4-5、采用深度学习的方法,基于步骤4-3得到的数据集和步骤4-4位置编码后的数据,计算权重参数矩阵W,在计算过程中选取代价函数为:
上式中,e为自然对数底数,fs代表Sigmoid函数。
步骤3、知识库构建:确定问答***相关业务,从总体角度进行结构规划知识图谱,对企业进行数据采集和录入,根据先验知识对数据进行标准化和格式化处理,构建实体与答案链接知识库。
可选地,所述知识库构建过程,具体步骤为:
步骤5-1、采用自顶向下的架构,分为线上数据采集和线下人工录入两种搜集数据的方式,将两种方式搜集的数据进行文本清洗和知识融合。
步骤5-2、进行命名实体识别和实体关系分类,在这个过程中消除实体一词多义和多词同义,完成实体结构化和格式化。
可选地,建立一个句义结构模型,使它可以表示各类句子的语义结构,然后根据该模型把问题句和相关句分别映射为一个句义结构式,可以有效解决一词多义和多词同义的问题。
步骤5-3、将分类后的实体与答案以多向图的形式进行链接。
可选地,一个实体还可以与多个答案链接。
步骤4、用户提问文本预处理:利用命名实体模型,对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别。
对用户提出的问题,首先利用命名实体模型提取命名实体,然后利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,再根据分类结果在知识库中查找最匹配的答案信息。
步骤5、用户提问文本分类:利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围。
步骤6、答案匹配:将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案。
步骤7、答案生成反馈:将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的反馈。
所述答案生成反馈,具体生成过程为:将最匹配的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的回答。
所述答案生成反馈,具体反馈过程为:
步骤7-1、根据最匹配答案在知识图谱中的对应实体与用户问句的提取实体计算实体相关系数γ,具体公式为:
γ=[ρ1(∑(da,i)2)+ρ2(∑|ka,j|)]
上式中,da,i代表同时出现在答案和问句中的实体匹配度,ka,j代表只出现在答案中的实体编码系数,ρ1和ρ2为不同的鲁棒核函数。
步骤7-2、对训练数据集进行人工标注,确定阈值η。
步骤7-3、若γ>η,则当前知识库中最匹配的答案可能仍无法满足用户,提醒***管理员注意本次提问,及时采用人工方式更新知识库。
本申请实施例提供了一种基于语义识别的在线问答***,如图2所示的一种基于语义识别的在线问答***示意图,该***包括:模型构建与维护模块201,用途是根据企业用户需求搜集原始的问答数据,结合通用预料数据集,分别训练出命名实体识别模型和汉语短文本分类模型各层的参数,从而完成两大模型的构建,并不断搜集新的数据加入训练以完成模型的实时更新;知识库构建与维护模块202,用途是根据问答***的具体应用场景搜集相关多源信息,对这些信息进行结构化知识抽取,构建实体与实体相关联,实体与答案相关联的知识库,并不断搜集新的数据进行分析以完成知识库的实时更新;数据标准化处理模块203,用途是对搜集的数据进行文本清洗,剔除异常文本,提高进入***的数据质量,并对数据格式进行标准化和结构化;提问处理模块204,用途是利用命名实体识别模型对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别,再利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围;答案匹配模块205,将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案;答案生成与反馈终端206,用途是将知识库中检索到的最匹配的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的回答,必要时提醒***管理员注意本次提问,及时采用人工方式更新知识库;云端信息库207,用于存储样本数据、各模型需要的各层参数和知识库数据。
所述基于语义识别的在线问答***中的各个模块执行上述基于语义识别的在线问答方法中的各步骤,在此不再赘述。
本申请实施例还提供了一种基于语义识别的在线问答存储介质,所述基于语义识别的在线问答存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现上述方法。
本申请在现有句义分析规则的基础上,增加了对不常见句式和分析歧义句式的分析规则,降低了中文词语的歧义性,提高了对复句的语义分析的准确度,提高了在线问答***的准确率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于语义识别的在线问答方法,其特征在于,该方法包括:
步骤1、命名实体识别模型构建:分别设计命名实体识别模型的输入层、特征提取层和输出层,采用深度学习方法训练得到从输入映射到输出的动态权重系数矩阵,利用外部实体字典辅助,降低中文词语的歧义性;
步骤2、汉语短文本分类模型构建:分别设计汉语短文本分类模型的输入层、特征提取层和输出层,利用文本内部词语的依赖关系,提取局部特征,优化分类效果,最终输入到分类器中完成分类;
步骤3、知识库构建:确定问答***相关业务,从总体角度进行结构规划知识图谱,进行企业数据采集和录入,根据先验知识对数据进行标准化和格式化处理,构建实体与答案链接知识库;
步骤4、用户提问文本预处理:利用命名实体模型,对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别;
步骤5、用户提问文本分类:利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围;
步骤6、答案匹配:将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案;
步骤7、答案生成反馈:将知识库中检索到的最相关的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的反馈。
2.如权利要求1所述的基于语义识别的在线问答方法,其特征在于,所述命名实体识别模型构建,具体处理过程包括以下步骤:
步骤1-1、针对用户需求搜集用户应用场景中常用的文本数据,进行文本清洗,建立剔除规则,剔除空白等异常文本以及停顿词等无意义文本;
步骤1-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注,完成文本与实体的匹配,建立最符合用户需求的小型训练数据集;
步骤1-3、针对实际应用场景选择合适的开源大型训练数据集,将步骤1-1建立的小型训练数据集与该数据集融合;
步骤1-4、对文本训练数据的每个词语进行编码,编码后的文本训练数据可以表示为词向量x1,x2...xi…xn,其中n为文本训练数据的数目,xi=[v1,v2...vj,...vp],vj代表不同的词语对应的编码,同时将文本训练数据对应的实体数据表示为y=[y1,y2...yi…ym],其中m为实体数目,再设置权重参数矩阵W,W的作用是将文本数据输入映射到实体;
步骤1-5、采用深度学习的方法,基于步骤1-3得到的数据集和步骤1-4编码后的数据,计算权重参数矩阵W,在计算过程中选取代价函数为:
上式中,xi为文本训练数据,vj代表不同的词语对应的编码,y为文本训练数据对应的实体数据,ln为对数运算,π为圆周率,∑为求和符号,tanh为双曲正切函数。
3.如权利要求1所述的基于语义识别的在线问答方法,其特征在于,所述方法还包括:调用外部实体字典辅助命名实体识别模型,降低中文词语的歧义性,提高识别概率。
4.如权利要求1所述的基于语义识别的在线问答方法,其特征在于:所述汉语短文本分类模型构建,具体步骤如下:
步骤4-1、针对用户需求搜集用户应用场景中常用的文本数据,进行文本清洗,建立剔除规则,剔除空白异常文本以及停顿词无意义文本;
步骤4-2、对文本清洗后的高质量数据进行标准化、统一化和数据标注,完成文本与实体的匹配,建立最符合用户需求的小型训练数据集;
步骤4-3、针对实际应用场景选择合适的开源大型训练数据集,将步骤4-1建立的小型训练数据集与该数据集融合;
步骤4-4、文本训练数据的每个字进行位置编码,编码后的文本训练数据可以表示为词向量x1,x2...xi…xn,其中n为文本训练数据的数目,xi=[v1,v2...vj,...vp],vj代表不同位置的字对应的编码,具体编码方式如下:
上述公式中,α为泛化因子,j为字所处的位置,k为模型修正系数,e为自然对数底数,同时将文本训练数据对应的分类结果数据表示为y=[y1,y2...yj…ym],其中m为分类数目,再设置权重参数矩阵W,W的作用是将文本数据输入映射到各个类别;
步骤4-5、采用深度学习的方法,基于步骤4-3得到的数据集和步骤4-4位置编码后的数据,计算权重参数矩阵W,在计算过程中选取代价函数为:
上式中,e为自然对数底数,fs代表激活函数ln为对数运算,∑为求和符号,log为对数运算。
5.如权利要求1所述的基于语义识别的在线问答方法,其特征在于:所述知识库构建过程,具体步骤为:
步骤5-1、采用自顶向下的架构,分为线上数据采集和线下人工录入两种搜集数据的方式,将两种方式搜集的数据进行文本清洗和知识融合;
步骤5-2、进行命名实体识别和实体关系分类,在这个过程中消除实体一词多意和多词同意,完成实体结构化和格式化;
步骤5-3、将分类后的实体与答案以多向图的形式进行链接。
6.如权利要求1所述的基于语义识别的在线问答方法,其特征在于:对用户提出的问题,首先利用命名实体模型提取命名实体,然后利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,再根据分类结果在知识库中查找最匹配的答案信息。
7.如权利要求1所述的基于语义识别的在线问答方法,其特征在于:所述答案生成反馈,具体生成过程为:将最匹配的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的回答。
8.如权利要求1所述的基于语义识别的在线问答方法,其特征在于:所述答案生成反馈,具体反馈过程为:
步骤7-1、根据最匹配答案在知识图谱中的对应实体与用户问句的提取实体计算实体相关系数γ,具体公式为:
γ=[ρ1(∑(da,i)2)+ρ2(∑|ka,j|)]
上式中,da,i代表同时出现在答案和问句中的实体匹配度,ka,j代表只出现在答案中的实体编码系数,ρ1和ρ2为不同的鲁棒核函数;
步骤7-2、对训练数据集进行人工标注,确定阈值η;
步骤7-3、若γ>η,则当前知识库中最匹配的答案可能仍无法满足用户,提醒***管理员注意本次提问,及时采用人工方式更新知识库。
9.一种基于语义识别的在线问答***,其特征在于,该***包括:
模型构建与维护模块,用途是根据企业用户需求搜集原始的问答数据,结合通用预料数据集,分别训练出命名实体识别模型和汉语短文本分类模型各层的参数,从而完成两大模型的构建,并不断搜集新的数据加入训练以完成模型的实时更新;
知识库构建与维护模块,用途是根据问答***的具体应用场景搜集相关多源信息,对这些信息进行结构化知识抽取,构建实体与实体相关联,实体与答案相关联的知识库,并不断搜集新的数据进行分析以完成知识库的实时更新;
数据标准化处理模块,用途是对搜集的数据进行文本清洗,剔除异常文本,提高进入***的数据质量,并对数据格式进行标准化和结构化;
提问处理模块,用途是利用命名实体识别模型对用户提问文本进行预处理,针对独立且不同的上下文语境,准确提取文本实体类别,再利用汉语短文本分类模型,对识别出的文本实体进行进一步分类,进一步缩小在知识库中检索答案的范围;
答案匹配模块,将文本分类结果与知识图谱进行匹配,检索知识库中与用户提问文本中最接近的命名实体,进而在知识库中筛选出最相关的答案;
答案生成与反馈终端,用途是将知识库中检索到的最匹配的答案信息生成为用户可以理解的自然语言语句,显示到可视化界面,实现对用户提问的回答,必要时提醒***管理员注意本次提问,及时采用人工方式更新知识库;
云端信息库,用于存储样本数据、各模型需要的各层参数和知识库数据。
10.一种基于语义识别的在线问答存储介质,其特征在于:所述基于语义识别的在线问答存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现上述权利要求1-8任一项所述的方法。
CN202410011779.0A 2024-01-03 2024-01-03 一种基于语义识别的在线问答方法、***和存储介质 Active CN117828060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410011779.0A CN117828060B (zh) 2024-01-03 2024-01-03 一种基于语义识别的在线问答方法、***和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410011779.0A CN117828060B (zh) 2024-01-03 2024-01-03 一种基于语义识别的在线问答方法、***和存储介质

Publications (2)

Publication Number Publication Date
CN117828060A true CN117828060A (zh) 2024-04-05
CN117828060B CN117828060B (zh) 2024-06-28

Family

ID=90509382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410011779.0A Active CN117828060B (zh) 2024-01-03 2024-01-03 一种基于语义识别的在线问答方法、***和存储介质

Country Status (1)

Country Link
CN (1) CN117828060B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101662450B1 (ko) * 2015-05-29 2016-10-05 포항공과대학교 산학협력단 다중 소스 하이브리드 질의응답 방법 및 시스템
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答***的构建方法
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及***
CN114417880A (zh) * 2021-12-31 2022-04-29 福建亿榕信息技术有限公司 一种基于电网实训问答知识库的交互式智能问答方法
CN115858758A (zh) * 2022-12-28 2023-03-28 国家电网有限公司信息通信分公司 一种多非结构化数据识别的智慧客服知识图谱***
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101662450B1 (ko) * 2015-05-29 2016-10-05 포항공과대학교 산학협력단 다중 소스 하이브리드 질의응답 방법 및 시스템
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答***的构建方法
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及***
CN114417880A (zh) * 2021-12-31 2022-04-29 福建亿榕信息技术有限公司 一种基于电网实训问答知识库的交互式智能问答方法
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成***及方法
CN115858758A (zh) * 2022-12-28 2023-03-28 国家电网有限公司信息通信分公司 一种多非结构化数据识别的智慧客服知识图谱***

Also Published As

Publication number Publication date
CN117828060B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN114722839B (zh) 人机协同对话交互***及方法
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN108287848B (zh) 用于语义解析的方法和***
CN112836025A (zh) 一种意图识别方法及装置
CN110956044A (zh) 一种基于注意力机制的司法场景用文案输入识别分类方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114579741B (zh) 融合句法信息的gcn-rn方面级情感分析方法和***
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN117807482A (zh) 海关报关单的分类方法、装置、设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN117312577A (zh) 基于多层语义图卷积神经网络交通事件知识图谱构建方法
CN117828060B (zh) 一种基于语义识别的在线问答方法、***和存储介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN114117069B (zh) 一种用于知识图谱智能问答的语义理解方法及***
CN110377706A (zh) 基于深度学习的搜索语句挖掘方法及设备
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant