CN116186232A - 一种标准知识智能问答实现方法、装置、设备和介质 - Google Patents
一种标准知识智能问答实现方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116186232A CN116186232A CN202310463372.7A CN202310463372A CN116186232A CN 116186232 A CN116186232 A CN 116186232A CN 202310463372 A CN202310463372 A CN 202310463372A CN 116186232 A CN116186232 A CN 116186232A
- Authority
- CN
- China
- Prior art keywords
- standard
- user
- knowledge base
- question
- questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims description 32
- 238000005516 engineering process Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000009411 base construction Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000013467 fragmentation Methods 0.000 abstract description 3
- 238000006062 fragmentation reaction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种标准知识智能问答实现方法、装置、设备和介质,涉及计算机技术领域,该方法包括:将标准文档转化为机器可读形式的标准文本,以构建标准知识库,所述标准知识库中的标准知识包括标准题录、标准条款和标准主题词;进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果;基于标准知识库和多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。该方法具有通用性、可扩展性和可维护性等优点,可以有效解决知识碎片化、语义不一致等问题,提高智能问答的准确度和效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种标准知识智能问答实现方法、装置、设备和介质。
背景技术
随着互联网技术和人工智能技术的快速发展,知识智能问答***的应用越来越广泛。智能问答***已经广泛应用于各个领域,如智能客服、搜索引擎、智能家居等。
在标准化领域,标准知识问答***正处于智能化转型升级的关键阶段。标准知识智能问答***通过自然语言理解、知识表示和推理等技术,能够帮助标准用户更快捷地获取所需信息,提高工作效率。
然而,现有的标准智能问答***的效果稳定性和回复准确性仍需进一步优化。
发明内容
有鉴于此,本发明提供一种标准知识智能问答实现方法、装置、设备和介质,至少部分解决现有技术中存在的问题。
第一方面,提供一种标准知识智能问答实现方法,其包括如下步骤:
将标准文档转化为机器可读形式的标准文本,以构建标准知识库,所述标准知识库中的标准知识包括标准题录、标准条款和标准主题词;
进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果;
基于所述标准知识库和所述多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。
进一步地,所述的将标准文档转化为机器可读形式的标准文本,以构建标准知识库,具体包括:
将输入的第一格式的标准文档进行读取拆解,获得第二格式的标准文本;
从所述标准文本中抽取标准题录,将读取拆解后的标准文本与所述标准题录进行配对,并将配对后的信息存储到标准知识库中;
根据预设的标准条款结构,抽取标准条款,将所述标准条款存储到标准知识库中;
基于关键词抽取算法生成标准主题词,将生成后的标准主题词存储到标准知识库中。
进一步地,所述的进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果,具体包括:
基于关键词抽取算法从用户问题中抽取用户关键词;
利用语义分析技术,根据用户关键词对所述用户问题进行分类,以确定所述用户问题是否属于精确的标准相关问题。
进一步地,所述的基于标准知识库和多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案,具体包括:
若用户问题被确定为属于精确的标准相关问题,则通过高精度领域回答方法,联合标准知识库进行知识检索、语义相似度分析,对比用户关键词和标准主题词,抽取相似度最高的标准题录和标准条款形成摘要,直接组织并返回所述摘要给用户作为相应的答案;
若用户问题被确定为不属于精确的标准相关问题,则针对用户问题实施用户关键词抽取,抽取结果重新通过高精度领域回答方法给出最终答案。
第二方面,提供一种标准知识智能问答实现装置,所述装置包括:
标准知识库构建模块,用于将标准文本转化为机器可读形式的文本,以构建标准知识库,所述标准知识库中的标准知识包括标准题录、标准条款和标准主题词;
多模式标准问题分析模块,用于进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果;
问题推理引擎模块,用于基于所述标准知识库和所述多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。
进一步地,所述标准知识库构建模块,具体用于:将输入的第一格式的标准文档进行读取拆解,获得第二格式的标准文本;从所述标准文本中抽取标准题录,将读取拆解后的标准文本与所述标准题录进行配对,并将配对后的信息存储到标准知识库中;根据预设的标准条款结构,抽取标准条款,将所述标准条款存储到标准知识库中;基于关键词抽取算法生成标准主题词,将生成后的标准主题词存储到标准知识库中。
进一步地,所述多模式标准问题分析模块,具体用于:基于关键词抽取算法从用户问题中抽取用户关键词;利用语义分析技术,根据用户关键词对所述用户问题进行分类,以确定所述用户问题是否属于精确的标准相关问题。
进一步地,所述问题推理引擎模块,具体用于:
若所述用户问题被确定为属于精确的标准相关问题,则通过高精度领域回答方法,联合标准知识库进行知识检索、语义相似度分析,对比用户关键词和标准主题词,抽取相似度最高的标准题录和标准条款形成摘要,直接组织并返回所述摘要给用户作为相应的答案;
若所述用户问题被确定为不属于精确的标准相关问题,则针对用户问题实施用户关键词抽取,抽取结果重新通过高精度领域回答方法给出最终答案。
第三方面,提供一种电子设备,其包括:
处理器;
存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如第一方面所述的任意一种标准知识智能问答实现方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的任意一种标准知识智能问答实现方法。
上述技术方案具有如下优点:
本发明实施例提出一种新的智能问答实现方法,即基于标准知识智能问答方法及***。该方法通过将标准知识进行结构化建模和组织,构建一个通用的知识图谱,然后基于该知识图谱进行智能问答。该方法具有通用性、可扩展性和可维护性等优点,可以有效解决知识碎片化、语义不一致等问题,提高智能问答的准确度和效率
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的一种标准知识智能问答实现方法的流程图;
图2为本发明实施例的步骤S110的具体流程图;
图3为本发明实施例的采用表格形式进行标注后***中记录的结果示意图;
图4为本发明实施例的步骤S120的具体流程图;
图5为本发明实施例的一种标准知识智能问答实现装置的功能框图;
图6为本发明实施例的计算机可读存储介质的功能框图;
图7为本发明实施例的电子设备的功能框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
本发明实施例基于自然语言处理技术的智能问答***,可以实现用户通过自然语言进行问题描述,***自动分析和理解问题,然后给出相应的答案。与传统搜索引擎相比,智能问答***可以提供更加准确、高效的答案,并且在一定程度上可以替代人类专家进行问题解答。但是,智能问答***也面临着一些挑战,其中最重要的是如何获取和组织可靠、丰富的知识库。在大多数情况下,智能问答***需要解决的问题涉及多个领域的知识,这些知识分布在多个数据源中,存在着语义差异、格式不一致等问题,因此需要一种统一的知识表示和查询方式。基于此,本发明实施例提出一种新的智能问答实现方法,即基于标准知识智能问答方法及***。该方法通过将标准知识进行结构化建模和组织,构建一个通用的知识图谱,然后基于该知识图谱进行智能问答。该方法具有通用性、可扩展性和可维护性等优点,可以有效解决知识碎片化、语义不一致等问题,提高智能问答的准确度和效率。
本发明实施例提供一种标准知识智能问答实现方法及装置,其主要技术特点包括以下几个方面:
标准知识库构建:本发明实施例提供了一种标准知识库构建方法,并将标准文本转化为机器可读形式。
多模式标准问题分析:本发明实施例提供了一种多模式标准问题分析方法,能够识别不同类型的标准问题,从而为后续的问题回答提供准确的依据。
问题推理引擎:本发明实施例提供了一种问题推理引擎,能够基于标准知识库和多模式标准问题分析结果,自动推理出最佳的答案。
标准用户智能交互界面:本发明实施例提供了一种标准用户智能交互界面,能够提供多种交互方式,包括语音、文字、图像等。
如图1所示,本发明实施例的实施方式包括以下步骤:
步骤S110:将标准文本转化为机器可读形式的文本,以构建标准知识库,标准知识包括标准题录、标准条款和标准主题词。
标准知识库构建是将标准文本进行预处理,将标准文本转化为机器可读的形式,并存储在数据库中,形成标准知识库。
如图2所示,标准知识库构建共包括如下步骤:
步骤S111:将输入的第一格式的标准文档进行读取拆解,获得第二格式的标准文本。
本步骤执行标准文档解析,将标准文档进行读取拆解或者解析,获得标准文本,标准文本的格式为word文本格式;
标准文档是指标准PDF原文,标准文档的来源可以从公开渠道获取。标准文档是构建标准知识库的数据基础,标准知识库是回答用户问题的数据基础。本步骤将由用户输入的PDF格式的标准文档读取拆解为word格式的标准文本。
第1步的解析结果是:将标准文档(标准PDF原文)解析为标准文本数据(word文本)及其在标准文档中对应的位置信息。
步骤S112:从所述标准文本中抽取标准题录,将读取拆解后的标准文本与所述标准题录进行配对,并将配对后的信息存储到标准知识库中。
本步聚执行标准题录抽取,将读取拆解后的标准内容与作为数字化要素的标准题录(包括:标准类型、标准编号、标准名称、发布时间、实施时间和发布单位)进行配对,并将配对后的信息记录在数据库中存储;
这样便于在返回用户答案后,提供答案来源信息,标准题录可作为答案来源的索引。
在本步骤中,将读取拆解后的标准内容与上述六个数字化要素全部进行配对。
配对过程包括:对比解析结果与数字化要素的文本信息与位置信息是否一致,若一致,则在标准知识库中存储。
以“标准名称”这一数字化要素为例,配对即按照规定标准名称的数据格式和位置信息要求,从步骤S111的解析结果中获得标准名称的具体内容。
步骤S113:根据预设的标准条款结构,抽取标准条款,将所述标准条款存储到标准知识库中。
本步骤可以按照国家标准(GB/T 1.1-2020)中规定的标准条款结构,抽取标准条款。
本步骤可以采用表格形式进行标注,第一列是标记,第二列是内容。在标注标准文档时,用标记T、M-B、M-I、M-E表示标题,其中T表示该行本身就是标题,M-B表示标题的开头,M-I 表示标题的中间,M-E表示标题的结尾。如图3所示,如果该行是段落,采用B、I、S、E这些标签来标注。其中,B表示该行是段落的开始,I表示该行是段落的中间,E表示该行是段落的结尾,S表示该行本身是一个段落。
本步骤中,抽取标准条款具体包括:基于标注结果,通过CNN-BILSTM-CRF模型进行抽取标准条款。具体请参阅图3的举例。
步骤S114,基于自然语言处理关键词抽取算法生成标准主题词,将生成后的标准主题词存储到标准知识库中。
标准主题词指将一篇标准中的重要信息以词或短语的方式提取出来,重要信息一般包括:标准化对象、性能指标名称、技术要求名称。标准主题词生成使用NLP(自然语言处理,Natural Language Processing)关键词抽取方法或技术作为实现路径。
步骤S120:进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果。上述不同类型的标准问题包括两类,一类是属于精确的标准相关问题,另一类是不属于精确的标准相关问题。
如图4所示,本步骤对用户提出的问题进行多模式分析,包括用户关键词抽取、采集问题智能分析、问题分类等步骤。
步骤S121:基于关键词抽取算法从用户问题中抽取用户关键词。
用户关键词抽取,指能够抽取用户问题中表达问题文本中心内容的词语,这些词语对用户问题文本内容的理解起着重要的作用。在实际场景,例如客服对话中,较长的顾客问题文本包含较多噪音和冗余信息,这严重影响内容分析、文本挖掘、语义计算等后续工作,关键词抽取可从用户问题中抽取最为关键的信息,能够辅助精确定位用户需求。关键词抽取算法采用TERMBERT模型结构,主要包含输入层、编码层、融合层和CRF(ConditionalRandom Fields,条件随机场)层,模型底层采用Transformer-Encoder-CRF架构,以预训练语言模型为基础,有效提取专业术语,增加词性信息和统计信息,可以更好地区分专业术语和通用词语,提升抽取效果。
TERMBERT模型结构详细描述如下:(1)输入层,用于将句子转换成对应的字符标识ID,并获取其对应的词性和统计信息;(2)编码层,用于获取句子中每个令牌(Token)对应的嵌入(Embedding)表示,包括变换神经网络编码(Transformer-Encoder)、位置编码(POSEmbedding)和统计信息(Statistics-Info);(3)融合层,用于将编码层的信息进行拼接融合,获取综合编码信息;(4)CRF层,用于将融合层输出其作为CRF模型的输入,通过转移矩阵,获取每个令牌对应的标签,最终通过对标签进行解析。
步骤S122:利用语义分析技术,根据用户关键词对用户问题进行分类,以确定用户问题是否属于精确的标准相关问题。
***利用语义分析技术,对用户输入的问题进行解析,分析问题特征。问题特征表示结果作为问题模型的输入数据,构建二分类模型实现对用户问题进行类别的划分,判断是否为精确的领域标准相关问题,结合用户请求的上下文、场景等特征,对用户意图进行理解,在语义层面将用户需求转义为实际查询。
步骤S130:基于标准知识库和多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。
基于标准知识库和多模式标准问题分析结果,使用推理算法(基于用户问题推理引擎)对问题进行推理,并生成答案。推理算法可以采用现代机器学习算法。
若用户问题被确定为精确的标准相关问题,则通过高精度领域回答方法联合标准知识库进行知识检索、语义相似度分析和文本摘要抽取,直接组织并返回所述摘要给用户作为相应的答案。并且,对于一些提问次数较高的问题而言,通过基于字典式查询或返回***缓存回答的方式返回相应答案。
高精度领域回答方法包括以下步骤:标准知识库进行知识检索、语义相似度分析和文本摘要抽取,组织并返回用户答案。文本摘要抽取具体包括:对比用户关键词和标准主题词,抽取相似度最高的标准文本形成摘要。
举例如下,用户问题:如何描述标准文献元数据。
步骤(1),标准知识库进行知识检索:检索“标准文献”、“元数据”、“描述”等关键词。
步骤(2),语义相似度分析:分析步骤(1)的结果中与用户问题的语义相似度。步骤(1)的结果是与这些关键词对应的检索结果。
步骤(3),文本摘要抽取:抽取步骤(2)中相似度高的文本,形成问题答案摘要。
步骤(4),组织并返回用户答案:综合组织步骤(3)中的结果,即上述问题答案摘要,输出回答。
相反地,若用户问题为精确的领域标准相关问题的判断结果为“否”,则需要针对用户问题实施用户关键词抽取,抽取结果重新通过高精度领域回答方法给出最终答案。
进一步地,该方法还可以包括如下步骤:构建标准用户智能交互界面。
标准用户智能交互界面为标准用户提供多种交互方式,包括语音、文字、图像等,支持标准用户可以方便地提出问题并获得回答。
具体实施时,本发明实施例还可以采用以下技术手段来进一步优化***的性能:
自适应学习技术:通过不断地与标准用户交互,***可以逐渐提高回答问题的准确性和速度。
多语言支持技术:本发明实施例的智能交互界面支持多种语言,可以帮助标准用户在跨语言环境下获得准确的回答。
数据挖掘技术:通过对大量的标准用户提问和回答数据进行分析和挖掘,***可以发现潜在的问题和知识点,从而优化知识库和推理算法。
分布式计算技术:对于大规模的知识库和高并发的请求,可以采用分布式计算技术来提高***的性能和可扩展性。
本发明实施例提供了一种标准化的知识智能问答实现方法及装置,能够有效地实现标准知识智能问答,具有广泛的应用前景。本发明实施例采用多种技术手段来优化***性能,包括自适应学习技术、多语言支持技术、数据挖掘技术和分布式计算技术等。在实施案例中,本发明的智能问答***能够快速准确地回答用户的问题,提高了用户体验和满意度。
本发明实施例提供了一种标准化的知识智能问答实现方法及装置,还具有如下优点:
多领域知识库:本发明实施例的智能问答***支持集成多领域的标准知识,能够回答跨领域的问题,提高了***的适用性和灵活性。
多模式问题分析:本发明实施例的智能问答***能够使用多种方式对用户的问题进行分析,包括自然语言处理、图像识别等,能够更准确地理解用户的意图和需求。
推理算法优化:本发明实施例的智能问答***采用传统的基于规则的推理算法和现代的机器学习算法相结合的方式,能够更好地优化推理算法,提高了回答问题的准确性和速度。
智能交互界面:本发明实施例的智能问答***提供了多种交互方式,包括语音、文字、图像等,能够更好地适应不同用户的需求和偏好。
多种技术手段优化:本发明实施例采用多种技术手段来进一步优化***的性能,包括自适应学习技术、多语言支持技术、数据挖掘技术和分布式计算技术等。
如图5所示,本发明实施例提供一种标准知识智能问答实现装置,装置包括:
标准知识库构建模块210,用于将标准文档转化为机器可读形式的标准文本,以构建标准知识库,标准知识库中的标准知识包括标准题录、标准条款和标准主题词;
多模式标准问题分析模块220,用于进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果;
问题推理引擎模块230,用于基于标准知识库和多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。该答案是最佳的答案。
在一些实施例中,标准知识库构建模块210,具体用于:将输入的第一格式的标准文档进行读取拆解,获得第二格式的标准文本;从所述标准文本中抽取标准题录,将读取拆解后的标准文本与所述标准题录进行配对,并将配对后的信息存储到标准知识库中;根据预设的标准条款结构,抽取标准条款,将所述标准条款存储到标准知识库中;基于关键词抽取算法生成标准主题词,将生成后的标准主题词存储到标准知识库中。
在一些实施例中,多模式标准问题分析模块220,具体用于:基于关键词抽取算法从用户问题中抽取用户关键词;利用语义分析技术,根据用户关键词对用户问题进行分类,以确定所述用户问题是否属于精确的标准相关问题。
在一些实施例中,问题推理引擎模块230,具体用于:
若用户问题被确定为属于精确的标准相关问题,则通过高精度领域回答方法,联合标准知识库进行知识检索、语义相似度分析,对比用户关键词和标准主题词,抽取相似度最高的标准题录和标准条款形成摘要,直接组织并返回摘要给用户作为相应的答案;
若用户问题被确定为不属于精确的标准相关问题,则针对用户问题实施用户关键词抽取,抽取结果重新通过高精度领域回答方法给出最终答案。
如图6所示,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序代码,计算机程序代码被处理器执行时实现上述一种标准知识智能问答实现方法的各步骤。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
如图7所示,本发明实施例还提供了一种电子设备,其包括一个或多个处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现上述一种标准知识智能问答实现方法的各步骤。
处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器303可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器303可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器303可包括可移除或不可移除(或固定)的介质。在特定实施例中,存储器303是非易失性固态存储器。在特定实施例中,存储器303包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
通信总线304包括硬件、软件或两者,用于将上述部件彼此耦接在一起。举例来说,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种标准知识智能问答实现方法,其特征在于,包括如下步骤:
将标准文档转化为机器可读形式的标准文本,以构建标准知识库,所述标准知识库中的标准知识包括标准题录、标准条款和标准主题词;
进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果;
基于所述标准知识库和所述多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。
2.根据权利要求1所述的方法,其特征在于,所述的将标准文档转化为机器可读形式的标准文本,以构建标准知识库,具体包括:
将输入的第一格式的标准文档进行读取拆解,获得第二格式的标准文本;
从所述标准文本中抽取标准题录,将读取拆解后的标准文本与所述标准题录进行配对,并将配对后的信息存储到标准知识库中;
根据预设的标准条款结构,抽取标准条款,将所述标准条款存储到标准知识库中;
基于关键词抽取算法生成标准主题词,将生成后的标准主题词存储到标准知识库中。
3.根据权利要求1所述的方法,其特征在于,所述的进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果,具体包括:
基于关键词抽取算法从用户问题中抽取用户关键词;
利用语义分析技术,根据用户关键词对用户问题进行分类,以确定所述用户问题是否属于精确的标准相关问题。
4.根据权利要求1所述的方法,其特征在于,所述的基于标准知识库和多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案,具体包括:
若所述用户问题被确定为属于精确的标准相关问题,则通过高精度领域回答方法联合标准知识库进行知识检索、语义相似度分析,对比用户关键词和标准主题词,抽取相似度最高的标准题录和标准条款形成摘要,直接组织并返回所述摘要给用户作为相应的答案;
若所述用户问题被确定为不属于精确的标准相关问题,则针对用户问题实施用户关键词抽取,抽取结果重新通过高精度领域回答方法给出最终答案。
5.一种标准知识智能问答实现装置,其特征在于,所述装置包括:
标准知识库构建模块,用于将标准文档转化为机器可读形式的标准文本,以构建标准知识库,所述标准知识库中的标准知识包括标准题录、标准条款和标准主题词;
多模式标准问题分析模块,用于进行多模式标准问题分析,识别不同类型的标准问题,得到多模式标准问题分析结果;
问题推理引擎模块,用于基于所述标准知识库和所述多模式标准问题分析结果,使用推理算法对用户问题进行推理以生成答案。
6.根据权利要求5所述的装置,其特征在于,所述标准知识库构建模块,具体用于:将输入的第一格式的标准文档进行读取拆解,获得第二格式的标准文本;从所述标准文本中抽取标准题录,将读取拆解后的标准文本与所述标准题录进行配对,并将配对后的信息存储到标准知识库中;根据预设的标准条款结构,抽取标准条款,将所述标准条款存储到标准知识库中;基于关键词抽取算法生成标准主题词,将生成后的标准主题词存储到标准知识库中。
7.根据权利要求5所述的装置,其特征在于,所述多模式标准问题分析模块,具体用于:基于关键词抽取算法从用户问题中抽取用户关键词;利用语义分析技术,根据用户关键词对所述用户问题进行分类,以确定所述用户问题是否属于精确的标准相关问题。
8.根据权利要求5所述的装置,其特征在于,所述问题推理引擎模块,具体用于:
若所述用户问题被确定为属于精确的标准相关问题,则通过高精度领域回答方法,联合标准知识库进行知识检索、语义相似度分析,对比用户关键词和标准主题词,抽取相似度最高的标准题录和标准条款形成摘要,直接组织并返回所述摘要给用户作为相应的答案;
若所述用户问题被确定为不属于精确的标准相关问题,则针对用户问题实施用户关键词抽取,抽取结果重新通过高精度领域回答方法给出最终答案。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如权利要求1-4中任一项所述的标准知识智能问答实现方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一项所述的标准知识智能问答实现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463372.7A CN116186232A (zh) | 2023-04-26 | 2023-04-26 | 一种标准知识智能问答实现方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463372.7A CN116186232A (zh) | 2023-04-26 | 2023-04-26 | 一种标准知识智能问答实现方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186232A true CN116186232A (zh) | 2023-05-30 |
Family
ID=86433053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310463372.7A Pending CN116186232A (zh) | 2023-04-26 | 2023-04-26 | 一种标准知识智能问答实现方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186232A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349425A (zh) * | 2023-12-04 | 2024-01-05 | 北京仁科互动网络技术有限公司 | 知识条目的生成方法、装置、设备和存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005190100A (ja) * | 2003-12-25 | 2005-07-14 | Toshiba Corp | 質問応答システムおよび方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
WO2016089110A1 (ko) * | 2014-12-02 | 2016-06-09 | 주식회사 솔트룩스 | 엔트리 기반 지식자원 생성 장치 및 방법 |
CN109284363A (zh) * | 2018-12-03 | 2019-01-29 | 北京羽扇智信息科技有限公司 | 一种问答方法、装置、电子设备及存储介质 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN112131393A (zh) * | 2020-08-11 | 2020-12-25 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答***构建方法 |
CN112148851A (zh) * | 2020-09-09 | 2020-12-29 | 常州大学 | 一种基于知识图谱的医药知识问答***的构建方法 |
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及***和可读存储介质 |
CN112784022A (zh) * | 2020-12-31 | 2021-05-11 | 北京智源人工智能研究院 | 一种政务faq知识库自动构建方法、装置和电子设备 |
CN112800032A (zh) * | 2021-02-24 | 2021-05-14 | 北京智源人工智能研究院 | 基于表格数据的faq知识库自动构建方法和装置 |
CN113642327A (zh) * | 2021-10-14 | 2021-11-12 | 中国光大银行股份有限公司 | 一种标准知识库的构建方法及装置 |
CN115757810A (zh) * | 2022-10-22 | 2023-03-07 | 南方电网科学研究院有限责任公司 | 一种知识图谱标准本体构建方法 |
CN115858750A (zh) * | 2022-11-29 | 2023-03-28 | 山东鲁软数字科技有限公司 | 基于自然语言处理的电网技术标准智能问答方法及*** |
CN115934955A (zh) * | 2022-10-26 | 2023-04-07 | 南方电网科学研究院有限责任公司 | 一种电力标准知识图谱构建方法、知识问答***及装置 |
-
2023
- 2023-04-26 CN CN202310463372.7A patent/CN116186232A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005190100A (ja) * | 2003-12-25 | 2005-07-14 | Toshiba Corp | 質問応答システムおよび方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
WO2016089110A1 (ko) * | 2014-12-02 | 2016-06-09 | 주식회사 솔트룩스 | 엔트리 기반 지식자원 생성 장치 및 방법 |
CN109284363A (zh) * | 2018-12-03 | 2019-01-29 | 北京羽扇智信息科技有限公司 | 一种问答方法、装置、电子设备及存储介质 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN112131393A (zh) * | 2020-08-11 | 2020-12-25 | 淮阴工学院 | 一种基于bert和相似度算法的医疗知识图谱问答***构建方法 |
CN112148851A (zh) * | 2020-09-09 | 2020-12-29 | 常州大学 | 一种基于知识图谱的医药知识问答***的构建方法 |
CN112307171A (zh) * | 2020-10-30 | 2021-02-02 | 中国电力科学研究院有限公司 | 一种基于电力知识库的制度标准检索方法及***和可读存储介质 |
CN112784022A (zh) * | 2020-12-31 | 2021-05-11 | 北京智源人工智能研究院 | 一种政务faq知识库自动构建方法、装置和电子设备 |
CN112800032A (zh) * | 2021-02-24 | 2021-05-14 | 北京智源人工智能研究院 | 基于表格数据的faq知识库自动构建方法和装置 |
CN113642327A (zh) * | 2021-10-14 | 2021-11-12 | 中国光大银行股份有限公司 | 一种标准知识库的构建方法及装置 |
CN115757810A (zh) * | 2022-10-22 | 2023-03-07 | 南方电网科学研究院有限责任公司 | 一种知识图谱标准本体构建方法 |
CN115934955A (zh) * | 2022-10-26 | 2023-04-07 | 南方电网科学研究院有限责任公司 | 一种电力标准知识图谱构建方法、知识问答***及装置 |
CN115858750A (zh) * | 2022-11-29 | 2023-03-28 | 山东鲁软数字科技有限公司 | 基于自然语言处理的电网技术标准智能问答方法及*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349425A (zh) * | 2023-12-04 | 2024-01-05 | 北京仁科互动网络技术有限公司 | 知识条目的生成方法、装置、设备和存储介质 |
CN117349425B (zh) * | 2023-12-04 | 2024-03-22 | 北京仁科互动网络技术有限公司 | 知识条目的生成方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
US10713438B2 (en) | Determining off-topic questions in a question answering system using probabilistic language models | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
CN111859858B (zh) | 从文本中提取关系的方法及装置 | |
CN116304748B (zh) | 一种文本相似度计算方法、***、设备及介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及*** | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN116662518A (zh) | 问答方法、装置、电子设备及可读存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
US20220366135A1 (en) | Extended open information extraction system | |
CN116186232A (zh) | 一种标准知识智能问答实现方法、装置、设备和介质 | |
CN112559691B (zh) | 语义相似度的确定方法及确定装置、电子设备 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
CN116719915A (zh) | 智能问答方法、装置、设备及存储介质 | |
US20230136889A1 (en) | Fine-grained concept identification for open information knowledge graph population | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
US11423228B2 (en) | Weakly supervised semantic entity recognition using general and target domain knowledge | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
Thenmozhi et al. | An open information extraction for question answering system | |
CN111401034A (zh) | 文本的语义分析方法、语义分析装置及终端 | |
CN110728148B (zh) | 实体关系抽取方法和装置 | |
Kamal et al. | Improve Academic Query Resolution through BERT-based Question Extraction from Images | |
CN117609419A (zh) | 基于元学习与知识增强的领域检索方法 | |
Wang | Author Identification in Free Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230530 |
|
RJ01 | Rejection of invention patent application after publication |