CN116756347A - 一种基于大数据的语义信息检索方法 - Google Patents
一种基于大数据的语义信息检索方法 Download PDFInfo
- Publication number
- CN116756347A CN116756347A CN202311053567.0A CN202311053567A CN116756347A CN 116756347 A CN116756347 A CN 116756347A CN 202311053567 A CN202311053567 A CN 202311053567A CN 116756347 A CN116756347 A CN 116756347A
- Authority
- CN
- China
- Prior art keywords
- data
- semantic
- subject
- retrieval
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012098 association analyses Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 13
- 238000011161 development Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的语义信息检索方法,包括获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧,根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析,计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果。该方法不仅可以提高语义信息检索的精度,同时具有较好的可解释性,可以直接应用于基于大数据的语义信息检索***中。
Description
技术领域
本发明涉及大数据领域,尤其涉及一种基于大数据的语义信息检索方法。
背景技术
大数据技术在语义信息检索领域的应用越来越广泛,可以帮助语义信息检索管理***的管理者及时、高效地获取语义信息检索,实现语义信息检索管理的调整。目前,语义信息检索具有用户信息量庞大、数据种类多样、信息密度大等特点,语义信息检索方法存在较多的不确定因素,导致语义信息检索方法存在较大的不确定性。虽然已经发明了一些基于大数据的语义信息检索方法,但是仍不能有效解决语义信息检索方法的不确定问题。
发明内容
本发明的目的是要提供一种基于大数据的语义信息检索方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:
A获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧;
B根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析;
C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法,所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配,将所述初始匹配输入第二语义匹配算法获得检索信息;
D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果。
进一步的,在步骤A中所述预处理的方法,包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。
进一步的,提取预处理后的所述历史检索数据主题的方法,包括:
去除预处理后的所述历史检索数据中的副词、组词和形容词,保留名词构成名词词典:
其中名词词典为A,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将词汇与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:
其中稀疏矩阵为B,基矩阵为C,系数矩阵为D,列数为r;基矩阵是主题的集合,系数矩阵是匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:
其中迭代次数为t,任意小实数为;形成稳定的基矩阵、系数矩阵,输出主题词作为提取结果。
进一步的,对所述主题进行词义消歧的方法,包括:
对词典中每个义类中的所有词,收集包含词的上下文的主题作为训练集;对主题进行统计,找出能够有效标示每个义类的主题词,并计算主题词的权重:
其中主题词i的权重为,主题词i出现在训练集中的概率为/>,主题词i出现在义类T中的概率为/>;
使用词向量模型获取词义相似度,根据主题词的权重对词义相似度的进行加权计算,将加权值最高的词义作为消歧结果。
进一步的,根据所述主题的计算相似度的方法,包括:
其中检索数据的第i个主题为,资料库资料的第j个主题为/>,主题/>与主题/>的相似度为/>。
进一步的,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法,包括:
将资料库资料的资料作为节点,历史检索数据和资料库资料属性的关联度视为边,构造特征图表示,隐藏属性激活映射单元捕捉隐藏属性响应矩阵,将隐藏属性响应向量根据余弦相似度法修正主题的相似度,将隐藏属性响应向量和修正的相似度输入语义关联模型,获取主题之间的语义关联程度,将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联,计算所述隐藏属性响应向量:
其中样本第q帧的特征图表示为,样本第q帧的隐藏属性激活图为/>,帧数为N。
进一步的,计算所述语义相似度的公式为:
其中关联分析后的第i个资料库资料的语言表征向量为,语言表征的系数为a,主题表征的系数为b,第i个历史检索数据的语言表征向量为/>,关联分析后的第i个资料库资料的主题表征向量为/>,第i个历史检索数据的主题表征向量为/>,资料库资料的个数为n。
进一步的,所述语义匹配模型基于深度神经网络构建,将所述历史检索数据按照4:1随机划分成训练集和测试集,将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练,不断迭代直到遍历完所有的语义关联分析后的资料库资料,输出语义相似度最小的数据库资料作为检索信息输出,将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。
进一步的,所述第一语义匹配算法获取初始匹配的方法,包括:
从词粒度对所述历史检索数据和所述资料库资料的句子进行编码,捕捉词语在历史检索数据和资料库资料中隐藏的语义信息;描述了全局-局部交叉融合层,进行句间词语交互,从全局和局部的交叉特征中,提取不同语义空间内词语的依赖关系;使用池化提取句子的全局信息和关键信息,预测历史检索数据和资料库资料主题的初始匹配分数:
其中检索数据的第a段句子为,资料库资料的第a段句子为/>,数据进行词向量表征的函数为/>,计算两个数据匹配分数值的匹配方法为/>;
并对初始匹配分数从大到小排序,将初始匹配分数对应的资料库资料输出匹配。
进一步的,将所述初始匹配输入第二语义匹配算法获得检索信息的方法,包括:
将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化,根据词频关系将向量化的初始匹配加权得到主题向量:
其中主题词的词向量为/>,主题数为t,主题词/>的权重为/>,权重为主题词的频次与该主题下所有主题词的总频次比;通过余弦相似度计算初始匹配的相似程度:
其中初始匹配的资料库资料主题向量化后为/>,若资料库资料对于任意主题的相似程度大于等于阈值,则此资料库资料与主题匹配,反之则不匹配,输出匹配的资料库资料为检索信息。
本发明的有益效果是:
本发明是一种基于大数据的语义信息检索方法,与现有技术相比,本发明具有以下技术效果:
本发明通过预处理、提取主题、词义消歧、计算相似度、关联分析和检索匹配步骤,可以提高语义信息检索的准确性,从而提高语义信息检索的精度,将语义信息检索量化,可以大大节省资源和人力成本,提高工作效率,可以实现基于大数据的语义信息检索,实时对基于大数据的语义信息检索进行语义信息检索改进,对基于大数据的语义信息检索具有重要意义,可以适应不同基于大数据的语义信息检索管理***、不同用户的基于大数据的语义信息检索***的语义信息检索需求,具有一定的普适性。
附图说明
图1为本发明一种基于大数据的语义信息检索方法的步骤流程图。
具体实施方式
下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明基于大数据的语义信息检索方法包括以下步骤:
如图1所示,在本实施例中,包括以下步骤:
A获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧;
B根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析;
C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法,所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配,将所述初始匹配输入第二语义匹配算法获得检索信息;
D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果;
在实际评估中,检索信息为“隐性知识与显性知识”,资料库资料为《基于知识管理的隐性知识显性化研究》包括“存在着重显性知识轻隐性知识的研究倾向。这与隐性知识在知识管理中的关键作用是极不相称的。既然隐性知识对于组织核心竞争力起关键作用”、《知识管理与图书馆可持续发展》包括“增加他们相互学***台”为例。
在本实施例中,在步骤A中所述预处理的方法,包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。
在实际评估中,预处理后的检索信息为“隐性知识/显性知识”,预处理后的《基于知识管理的隐性知识显性化研究》为“知识/管理/隐性/显性化/研究”、“显性知识/隐性知识/研究倾向/知识管理/关键作用/组织核心/竞争力/关键作用”,预处理后的《知识管理与图书馆可持续发展》为“知识/管理/图书馆/可持续/发展”、“他们/学***台”。
在本实施例中,提取预处理后的所述历史检索数据主题的方法,包括:
去除预处理后的所述历史检索数据中的副词、组词和形容词,保留名词构成名词词典:
其中名词词典为A,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将词汇与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:
其中稀疏矩阵为B,基矩阵为C,系数矩阵为D,列数为r;基矩阵是主题的集合,系数矩阵是匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:
其中迭代次数为t,任意小实数为;形成稳定的基矩阵、系数矩阵,输出主题词作为提取结果;
在实际评估中,预处理后的检索信息为“隐性知识/显性知识”的主题词为隐性知识、显性知识,预处理后的《基于知识管理的隐性知识显性化研究》为“知识/管理/隐性/显性化/研究”包括“显性知识/隐性知识/研究倾向/知识管理/关键作用/组织核心/竞争力/关键作用”的主题词为隐性知识、显性化、知识管理,预处理后的《知识管理与图书馆可持续发展》为“知识/管理/图书馆/可持续/发展”包括“他们/学***台”的主题词为信息技术、路径选择、培训管理。
在本实施例中,对所述主题进行词义消歧的方法,包括:
对词典中每个义类中的所有词,收集包含词的上下文的主题作为训练集;对主题进行统计,找出能够有效标示每个义类的主题词,并计算主题词的权重:
其中主题词i的权重为,主题词i出现在训练集中的概率为/>,主题词i出现在义类T中的概率为/>;
使用词向量模型获取词义相似度,根据主题词的权重对词义相似度的进行加权计算,将加权值最高的词义作为消歧结果;
在实际评估中,主题词知识管理指如何有效地管理和利用组织内的隐性知识,以实现可持续发展,主题词可持续指可持续发展的概念,即在满足当前需求的同时,不损害未来世代满足其需求的能力,主题词路径选择指在信息技术领域中,选择合适的技术、方法或策略来实现特定目标的过程。
在本实施例中,根据所述主题的计算相似度的方法,包括:
其中检索数据的第i个主题为,资料库资料的第j个主题为/>,主题/>与主题/>的相似度为/>;
在实际评估中,主题词隐性知识、显性化、知识管理与主题词隐性知识、显性知识的相似度分别为1、1、0.496,主题词隐性知识、可持续、知识管理与主题词隐性知识、显性知识的相似度分别为1、0.41、0.62,主题信息技术、路径选择、培训管理与主题词隐性知识、显性知识的相似度分别为0.53、0.45、0.34。
在本实施例中,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法,包括:
将资料库资料的资料作为节点,历史检索数据和资料库资料属性的关联度视为边,构造特征图表示,隐藏属性激活映射单元捕捉隐藏属性响应矩阵,将隐藏属性响应向量根据余弦相似度法修正主题的相似度,将隐藏属性响应向量和修正的相似度输入语义关联模型,获取主题之间的语义关联程度,将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联,计算所述隐藏属性响应向量:
其中样本第q帧的特征图表示为,样本第q帧的隐藏属性激活图为/>,帧数为N;
在实际评估中,主题词隐性知识、显性化、知识管理与主题词隐性知识、显性知识关联,主题词隐性知识、知识管理与主题词隐性知识、显性知识关联,主题信息技术、培训管理与主题词隐性知识、显性知识关联。
进一步的,计算所述语义相似度的公式为:
其中关联分析后的第i个资料库资料的语言表征向量为,语言表征的系数为a,主题表征的系数为b,第i个历史检索数据的语言表征向量为/>,关联分析后的第i个资料库资料的主题表征向量为/>,第i个历史检索数据的主题表征向量为/>,资料库资料的个数为n;
在实际评估中,检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的语义相似度分别为0.784、0.615、0.337,输出《基于知识管理的隐性知识显性化研究》为检索结果。
进一步的,所述语义匹配模型基于深度神经网络构建,将所述历史检索数据按照4:1随机划分成训练集和测试集,将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练,不断迭代直到遍历完所有的语义关联分析后的资料库资料,输出语义相似度最小的数据库资料作为检索信息输出,将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。
在本实施例中,所述第一语义匹配算法获取初始匹配的方法,包括:
从词粒度对所述历史检索数据和所述资料库资料的句子进行编码,捕捉词语在历史检索数据和资料库资料中隐藏的语义信息;描述了全局-局部交叉融合层,进行句间词语交互,从全局和局部的交叉特征中,提取不同语义空间内词语的依赖关系;使用池化提取句子的全局信息和关键信息,预测历史检索数据和资料库资料主题的初始匹配分数:
其中检索数据的第a段句子为,资料库资料的第a段句子为/>,数据进行词向量表征的函数为/>,计算两个数据匹配分数值的匹配方法为/>;
并对初始匹配分数从大到小排序,将初始匹配分数对应的资料库资料输出匹配;
在实际评估中,检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的初始匹配分数分别为0.832、0.697、0.419。
进一步的,将所述初始匹配输入第二语义匹配算法获得检索信息的方法,包括:
将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化,根据词频关系将向量化的初始匹配加权得到主题向量:
其中主题词的词向量为/>,主题数为t,主题词/>的权重为/>,权重为主题词的频次与该主题下所有主题词的总频次比;通过余弦相似度计算初始匹配的相似程度:
其中初始匹配的资料库资料主题向量化后为/>,若资料库资料对于任意主题的相似程度大于等于阈值,则此资料库资料与主题匹配,反之则不匹配,输出匹配的资料库资料为检索信息;
在实际评估中,阈值设置为0.62,检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的相似程度分别为0.796、0.612、0.34,匹配为《基于知识管理的隐性知识显性化研究》。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的语义信息检索方法,其特征在于,包括以下步骤:
A获取历史检索数据和资料库资料的主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据主题,对所述主题进行词义消歧;
B根据所述主题的计算相似度,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析;
C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度,根据所述语义相似度构建语义匹配模型,所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法,所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配,将所述初始匹配输入第二语义匹配算法获得检索信息;
D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型,输出为检索结果。
2.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,在步骤A中所述预处理的方法,包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。
3.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,提取预处理后的所述历史检索数据主题的方法,包括:
去除预处理后的所述历史检索数据中的副词、组词和形容词,保留名词构成名词词典:
;
其中名词词典为A,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将词汇与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:
;
其中稀疏矩阵为B,基矩阵为C,系数矩阵为D,列数为r;基矩阵是主题的集合,系数矩阵是匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:
;
其中迭代次数为t,任意小实数为;输出主题词作为提取结果。
4.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,对所述主题进行词义消歧的方法,包括:
对词典中每个义类中的所有词,收集包含词的上下文的主题作为训练集;对主题进行统计,找出能够有效标示每个义类的主题词,并计算主题词的权重:
;
其中主题词i的权重为,主题词i出现在训练集中的概率为/>,主题词i出现在义类T中的概率为/>;
使用词向量模型获取词义相似度,根据主题词的权重对词义相似度的进行加权计算,将加权值最高的词义作为消歧结果。
5.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,根据所述主题的计算相似度的方法,包括:
;
其中检索数据的第i个主题为,资料库资料的第j个主题为/>,主题/>与主题/>的相似度为/>。
6.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法,包括:
将资料库资料的主题作为节点,历史检索数据和资料库资料属性的关联度视为边,构造特征图表示,隐藏属性激活映射单元捕捉隐藏属性响应矩阵,将隐藏属性响应向量根据余弦相似度法修正主题的相似度,将隐藏属性响应向量和修正的相似度输入语义关联模型,获取主题之间的语义关联程度,将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联,计算所述隐藏属性响应向量:
;
其中样本第q帧的特征图表示为,样本第q帧的隐藏属性激活图为/>,帧数为N。
7.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,计算所述语义相似度的公式为:
;
其中关联分析后的第i个资料库资料的语言表征向量为,语言表征的系数为a,主题表征的系数为b,第i个历史检索数据的语言表征向量为/>,关联分析后的第i个资料库资料的主题表征向量为/>,第i个历史检索数据的主题表征向量为/>,资料库资料的个数为n。
8.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,所述语义匹配模型基于深度神经网络构建,将所述历史检索数据按照4:1随机划分成训练集和测试集,将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练,不断迭代直到遍历完所有的语义关联分析后的资料库资料,输出语义相似度最小的数据库资料作为检索信息输出,将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。
9.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,所述第一语义匹配算法获取初始匹配的方法,包括:
从词粒度对所述历史检索数据和所述资料库资料的句子进行编码,捕捉词语在历史检索数据和资料库资料中隐藏的语义信息;描述了全局-局部交叉融合层,进行句间词语交互,从全局和局部的交叉特征中,提取不同语义空间内词语的依赖关系;使用池化层提取句子的全局信息和关键信息,预测历史检索数据和资料库资料主题的初始匹配分数:
;
其中检索数据的第a段句子的主题为,资料库资料的第a段句子的主题为/>,数据进行词向量表征的函数为/>,计算两个数据匹配分数值的匹配方法为/>;
并对初始匹配分数从大到小排序,将排序对应的资料库资料输出初始匹配。
10.根据权利要求1所述的一种基于大数据的语义信息检索方法,其特征在于,将所述初始匹配输入第二语义匹配算法获得检索信息的方法,包括:
将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化,根据词频关系将向量化的初始匹配加权得到主题向量:
;
其中主题词的词向量为/>,主题数为t,主题词/>的权重为/>,权重为主题词的频次与该主题下所有主题词的总频次比;通过余弦相似度计算初始匹配的相似程度:
;
其中初始匹配的资料库资料主题向量化后为/>,若资料库资料对于任意主题的相似程度大于等于阈值,则此资料库资料与主题匹配,反之则不匹配,输出匹配的资料库资料为检索信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311053567.0A CN116756347B (zh) | 2023-08-21 | 2023-08-21 | 一种基于大数据的语义信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311053567.0A CN116756347B (zh) | 2023-08-21 | 2023-08-21 | 一种基于大数据的语义信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116756347A true CN116756347A (zh) | 2023-09-15 |
CN116756347B CN116756347B (zh) | 2023-10-27 |
Family
ID=87953753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311053567.0A Active CN116756347B (zh) | 2023-08-21 | 2023-08-21 | 一种基于大数据的语义信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756347B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972025A (zh) * | 2024-04-01 | 2024-05-03 | 浙江大学 | 一种基于语义分析的海量文本检索匹配方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索*** |
CN103365974A (zh) * | 2013-06-28 | 2013-10-23 | 百度在线网络技术(北京)有限公司 | 一种基于相关词主题的语义消歧方法和*** |
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
US20170308531A1 (en) * | 2015-01-14 | 2017-10-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, system and storage medium for implementing intelligent question answering |
CN111310475A (zh) * | 2020-02-04 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN114218400A (zh) * | 2021-12-13 | 2022-03-22 | 上海交通大学 | 基于语义的数据湖查询***及方法 |
CN116541480A (zh) * | 2023-07-05 | 2023-08-04 | 中国科学院文献情报中心 | 一种基于多标签驱动的专题数据构建方法及*** |
-
2023
- 2023-08-21 CN CN202311053567.0A patent/CN116756347B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索*** |
CN103365974A (zh) * | 2013-06-28 | 2013-10-23 | 百度在线网络技术(北京)有限公司 | 一种基于相关词主题的语义消歧方法和*** |
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
US20170308531A1 (en) * | 2015-01-14 | 2017-10-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, system and storage medium for implementing intelligent question answering |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN111310475A (zh) * | 2020-02-04 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN114218400A (zh) * | 2021-12-13 | 2022-03-22 | 上海交通大学 | 基于语义的数据湖查询***及方法 |
CN116541480A (zh) * | 2023-07-05 | 2023-08-04 | 中国科学院文献情报中心 | 一种基于多标签驱动的专题数据构建方法及*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972025A (zh) * | 2024-04-01 | 2024-05-03 | 浙江大学 | 一种基于语义分析的海量文本检索匹配方法 |
CN117972025B (zh) * | 2024-04-01 | 2024-06-07 | 浙江大学 | 一种基于语义分析的海量文本检索匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116756347B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及*** | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及*** | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110162630A (zh) | 一种文本去重的方法、装置及设备 | |
CN111325029A (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN107844533A (zh) | 一种智能问答***及分析方法 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN111581379B (zh) | 一种基于作文扣题度的自动作文评分计算方法 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN111930931A (zh) | 一种摘要评价方法及装置 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN116401368A (zh) | 一种基于主题事件分析的意图识别方法和*** | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN113342964B (zh) | 一种基于移动业务的推荐类型确定方法及*** | |
CN112580348B (zh) | 政策文本关联性分析方法及*** | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN113222471A (zh) | 一种基于新媒体数据的资产风控方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |