CN117112736A - 一种基于语义分析模型的信息检索分析方法及*** - Google Patents
一种基于语义分析模型的信息检索分析方法及*** Download PDFInfo
- Publication number
- CN117112736A CN117112736A CN202311382763.2A CN202311382763A CN117112736A CN 117112736 A CN117112736 A CN 117112736A CN 202311382763 A CN202311382763 A CN 202311382763A CN 117112736 A CN117112736 A CN 117112736A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- semantic
- approximate word
- approximate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000012937 correction Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,更具体涉及一种基于语义分析模型的信息检索分析方法及***。该方法包括:步骤S1:文本收集单元接收录入的第一文本信息,并提取第一关键词;步骤S2:基于第一关键词获取与第一关键词语义相似度大于第一阈值的第一近似词;步骤S3:检索单元在通过第一关键词和第一近似词都在目标文档中获取不到检索结果时,基于第一近似词在第一文档中查找语义相似度大于第二阈值且小于第一阈值的第二近似词,并获取检索结果;步骤S4:检索结果按照与第一关键词、第一近似词或者第二近似词的对应关系进行排序显示,还基于用户对检索结果的选择更新语义关系库。本发明解决了语义检索不准确的问题,提高了语义检索的精确性。
Description
技术领域
本发明涉及数据处理技术领域,更具体涉及一种基于语义分析模型的信息检索分析方法及***。
背景技术
在信息技术的不断创新和发展下,语义分析技术逐渐崭露头角,在很多领域得到广泛应用,特别是在信息平台上通过输入一个文本并从文本中提取关键词来检索需要的信息,例如从人员管理平台上查找人员信息,或者从工厂生产管理平台上查找产品的生产信息,取得了很好的检索效果,例如:中国专利CN116737875A,该发明公开了一种技能语义相似度检索方法,包括:建立技能语义文本数据以及生成自定义技能词典;基于所述技能语义文本数据和自定义技能词典训练word2vec技能语义向量模型;通过技能语义向量模型和技能语义文本数据建立ES技能语义数据库;并利用所述ES技能语义数据库进行检索;使用技能语义句向量模型计算语义相似度得分;结合ES技能语义数据库的检索结果和语义相似度得分计算最终得分结果,并对所述最终得分结果进行阈值过滤;该发明有效且高效地提高了检索结果的相关性和准确性。还例如:美国专利US20220027569A1,该发明提供了一种语义检索方法、装置和存储介质。该方法可以包括:接收查询信息,基于预先构建的知识图谱对查询信息进行序列标注,得到序列标注结果,该序列标注结果包括知识图谱的预定信息部分和语义检索。基于知识图谱构造一组与序列标注结果匹配的候选实体;将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配,得到语义相关度高于预设阈值的实体集合。上述两篇专利都是通过录入信息进行语义检索获取查询结果,但是,当录入信息出现错误时不能对检索关键词进行自动校正,同时也没有通过用户对检索结果的选择反过来调整语义关系库中关键词跟近似词之间的语义相似度,从而使得提高语义检索的精度。
发明内容
为了更好的解决上述问题,本发明提供一种基于语义分析模型的信息检索分析方法,所述方法包括如下步骤:
步骤S1:文本收集单元接收录入的第一文本信息,并提取所述第一文本信息中的第一关键词;
步骤S2:基于所述第一关键词在语义关系库中查找与所述第一关键词语义相似度大于第一阈值的第一近似词,在所述语义关系库中查找不到所述第一近似词时,通过语义分析单元计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词;
步骤S3:检索单元基于所述第一关键词和所述第一近似词对目标文档进行检索,在通过所述第一关键词和所述第一近似词都在所述目标文档中获取不到检索结果时,基于所述第一关键词在所述第一文档中查找语义相似度大于第二阈值且小于所述第一阈值的第二近似词,并以所述第二近似词在所述目标文档中检索,并获取检索结果;
步骤S4:所述检索结果按照与所述第一关键词、所述第一近似词或者所述第二近似词的对应关系进行排序显示,同时还基于用户对所述检索结果的选择更新所述语义关系库。
作为本发明一种更优选的技术方案,在所述步骤S2和所述步骤S3中,在通过所述第一关键词在所述第一文档中获取不到所述第一近似词和所述第二近似词时,执行步骤S5:通过校正单元基于校正数据库和历史检索记录对所述第一关键词进行校正,基于校正后的关键词重复所述步骤S2和所述步骤S3的方法获取所述检索结果,并根据所述文本收集单元在预设时间内获取的第二文本信息来更新所述校正数据库。
作为本发明一种更优选的技术方案,所述步骤S2中,通过语义分析单元计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词,包括如下步骤:
步骤S21:通过所述语义分析单元中的语义分析模型将所述第一关键词和至少一个所述第一文档中的词语转换为词向量,通过计算所述第一关键词的词向量和所述第一文档中词语的词向量之间的余弦值分别获取所述第一关键词和所述第一文档中词语之间的语义相似度;
步骤S22:通过所述第一关键词和所述第一文档中词语之间的语义相似度,获取与所述第一关键词相似度大于第一阈值的第一近似词;
步骤S23:在所述第一文档中查找不到所述第一近似词时,通过从网络上获取与所述第一关键词语义相似度大于所述第一阈值的词语作为所述第一近似词。
作为本发明一种更优选的技术方案,所述步骤S5,包括如下步骤:
步骤S51:基于所述第一关键词在所述校正数据库中查找与所述第一关键词对应的校正关键词,在能够获取到所述校正关键词时,将所述校正关键词替换掉所述第一关键词,并基于所述校正关键词,重复执行所述步骤S2-步骤S4,并获取检索结果;否者,执行步骤S52;
步骤S52:在所述校正数据库中,查找不到与所述第一关键词对应的所述校正关键词时,计算所述第一关键词与历史检索记录中文本信息所包含词语进行字音或者字形相似度计算,获取与所述第一关键词字音或者字形相似度大于第三阈值的第二关键词,并基于所述第二关键词重复所述步骤S2和所述步骤S3,重新获取所述检索结果;
步骤S53:在所述步骤S52所述检索结果中任意一项被用户点击查看,并在预设时间内,在所述文本收集单元没有获取第二文本信息或者再次获取的所述第二文本信息中的第三关键词与所述第一关键词的语义相似度小于第四阈值时,将所述第一关键词对应的检索历史信息删除,并将所述第一关键词和所述第二关键词的对应关系存储在校正数据库中;反之,在所述预设时间内,所述文本收集单元重新获取到所述第二文本信息且所述第二文本信息中的所述第三关键词与所述第一关键词的语义相似度大于所述第四阈值时,在重复所述步骤S2-步骤S3也没有获取到检索结果时,提示用户检索结果不存在,并分别删除所述第一关键词和所述第三关键词对应的历史检索记录。
作为本发明一种更优选的技术方案,所述步骤S4包括如下步骤:
步骤S41:在所述检索结果的数量是若干个时,其中通过所述第一关键词获取的所述检索结果最靠前,通过所述第一近似词和所述第二近似词获取的所述检索结果,根据所述第一近似词和所述第二近似词与所述第一关键词的语义相似度进行排序,其中,所述第一近似词和所述第二近似词与所述第一关键词的语义相似度越高,所述第一近似词和所述第二近似词对应的检索结果越靠前;
步骤S42:用户根据排好序的所述检索结果进行选择用户需要的所述检索结果,并根据用户选择的所述检索结果调整所述语义关系库中所述第一关键词和所述第一近似词、第二近似词的语义关系;在所述用户选择的所述检索结果是基于所述第一近似词或者所述第二近似词时,则增加所述第一近似词或者所述第二近似词与所述第一关键词的语义相关度,反之,则不增加所述第一近似词或者所述第二近似词与所述第一关键词的语义相关度。
作为本发明一种更优选的技术方案,所述第一文档是与所述目标文档相关的一个或者若干个文本信息。
本发明还提供一种基于语义分析模型的信息检索分析***,用于实现上述的一种基于语义分析模型的信息检索分析方法,所述***包括:
文本收集单元,用于接收录入的第一文本信息,并提取所述第一文本信息中的第一关键词;
查找单元,用于基于所述第一关键词在语义关系库中查找与所述第一关键词语义相似度大于第一阈值的第一近似词;
第一存储单元,用于存储第一文档;
语义分析单元配置为:在所述语义关系库中查找不到所述第一近似词时,计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词;
检索单元配置为:基于所述第一关键词和所述第一近似词对目标文档进行检索,在通过所述第一关键词和所述第一近似词都在所述目标文档中获取不到检索结果时,基于所述第一关键词在所述第一文档中查找语义相似度大于第二阈值且小于所述第一阈值的第二近似词,并以所述第二近似词在所述目标文档中检索,并获取检索结果;
排序单元,用于将所述检索结果按照与所述第一关键词、所述第一近似词或者所述第二近似词的对应关系进行排序显示;并基于用户对所述检索结果的选择进行更新。
与现有技术相比,本发明的有益效果至少如下所述:
本发明通过文本收集单元从录入的第一文本信息中提取第一关键词,为了使得检索结果更加精准通过语义关系数据库中查找与第一关键词语义相似度大于第一阈值的第一近似词,在查找不到时通过语义分析单元计算第一关键词和第一文档中词语的语义相似度,获取与第一关键词语义相似度大于第一阈值的第一近似词,并通过第一关键词和第一近似词进行检索,在通过第一关键词和第一近似词查找不到检索结果时,有可能是第一关键词和第一近似词不够精准,因此从第一文档中获取相似度大于第二阈值且小于所述第一阈值的第二近似词,并进行检索,从而提高了检索结果的精确性和全面性;在第一关键词、第一近似词及第二近似词都不能从目标文档中获取检索结果时,有可能是第一关键词录入出错,为了获取用户需要的检索结果,可以通过校正单元通过校正数据库和历史检索记录对第一关键词进行自动校正,提高用户的检索效率,还通过将获取的检索结果按照与第一关键词的语义相似度进行排序,并根据用户对检索结果的选择来增加选中检索结果对应第一近似词和第二近似词与第一关键词的语义相似度,并更新至语义关系库中,通过上述技术方案的相互配合,使用户下次通过第一关键词进行检索时,获取更加精准的检索结果,同时也提高了检索效率。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于语义分析模型的信息检索分析方法,包括如下步骤:
步骤S1:文本收集单元接收录入的第一文本信息,并提取第一文本信息中的第一关键词;
具体的,上述文本收集单元接收从录入界面录入用于检索的第一文本信息,并从上述第一文本信息中提取第一关键词,例如:在从员工信息管理平台上查找“A员工工作履历及基本信息”可以从中提取关键词“A”、“履历”、“基本信息”作为检索关键词,其中A为员工姓名,还例如从工厂生产信息管理平台查找“磁感应开关的数量”可以从中提取关键词“磁感应开关”和“数量”作为关键词,通过关键词的提取为进一步检索提供检索方向。
步骤S2:通过语义分析单元计算关键词与存储在第一存储单元中若干个第一文档中的词语之间的相似度,并获取与关键词相似度大于第一阈值的第一近似词;
具体的,通过语义分析单元中的语义分析模型计算上述关键词与上述第一文档所包含词语之间的相似度,其中上述第一文档为从检索环境平台上获取的与目标文档属于相关文件,例如在检索环境为员工信息管理平台时,目标文档为员工信息文档,上述第一文档可以人员任命通知、会议通知或者绩效考核等与员工信息文档相关的文档,还例如在检索环境为工厂生产信息管理平台时,目标文档为产品的生产状态文档,则上述第一文档可以为产品的生产计划文档和生产流程文档等于上述产品生产相关的文档,上述语义分析模型可以选择现有技术中的Glove模型,通过将关键词和第一文档中词语转换成对应的词向量,并通过计算词向量之间的余弦值进而获取关键词和第一文档中词语的语义相似度,其中,上述第一阈值可以根据本技术领域技术人员具体的应用需求进行设置,例如:第一阈值为80%,通过上述技术方案,可以建立关键词和上述第一近似词之间的语义关系,为更加精准的检索奠定基础。
步骤S3:检索单元基于第一关键词和第一近似词对目标文档进行检索,在通过第一关键词和第一相似词都在目标文档中获取不到检索结果时,基于第一关键词在第一文档中查找语义相似度大于第二阈值且小于第一阈值的第二近似词,并基于第二近似词对目标文档进行检索,并获取检索结果;
具体的,通过检索单元在基于上述第一关键词和第一近似词对目标文档进行检索获取检索结果时,在能获取到检索结果的情况下,说明第一关键词或者第一近似词足够的精准能够获取用户需要的检索信息,在不能获取到检索结果的情况下,说明第一关键词和第一近似词不够精准或者与目标文档中对应的词语语义差别较大,因此,可以从上述第一文档中获取与上述第一关键词语义相似度大于第二阈值且小于第一阈值的第二近似词,其中,上述第一阈值和第二阈值可以根据本技术领域技术人员具体的应用需求进行设置,例如:第一阈值为80%,第二阈值为70%,并基于第二近似词对目标文档进行检索,在通过第二近似词能够获得检索结果时,说明上述第二近似词足够精准的获取检索结果,在通过第二近似词不能够获得检索结果时,说明第二近似词不够精准的获取检索结果,造成该问题的原因可能是上述第一文档的样本不够多,不能提供与第一关键词语义相似度较高的第一近似词,或者是第一关键词的录入出现问题,在后续的技术方案中会解决该步骤出现的问题。
步骤S4:检索结果按照与第一关键词、第一近似词或者第二近似词的对应关系进行排序显示,同时还基于用户对检索结果的选择更新语义关系库。
具体的,由于通过上述技术方案获取的检索结果可能会有多条,用户需要的可能只是其中的几条,因此即使检索结果显示出来,也不便于用户快速获取需要的检索结果,因此,通过上述技术方案,通过判断上述检索结果与第一关键词、第一近似词和第二近似词的对应关系进行排序,其中通过第一关键词获取的检索结果是最精准的,因此排序最靠前,通过第一近似词和第二近似词获取的检索结果,根据与第一关键词的语义相似度进行排序,与第一关键词的相似度越大,排序越靠前,从而提高了用户查找检索结果的效率,同时还通过用户对检索结果的选择也反应了检索结果对应第一近似词和第二近似词与第一关键词之间的语义相似度,因此可以通过用户对检索结果的选择增加用户所选择检索结果对应第一近似词和第二近似词与第一关键词之间的语义相似度。
进一步地,在步骤S2和步骤S3中,在通过第一关键词在第一文档中获取不到第一近似词和第二近似词时,执行步骤S5:通过校正单元基于校正数据库和历史检索记录对第一关键词进行校正,基于校正后的关键词重复步骤S2和步骤S3的方法获取检索结果,并根据文本收集单元在预设时间内获取的第二文本信息来更新校正数据库。
具体的,在通过上述第一关键词获取不到上述第一文档中的第一近似词和上述第二近似词时,有可能是录入的第一文本信息出错,从而导致提取的第一关键词出错,因此先通过上述校正单元在上述校正数据库中查找是否有对应上述第一关键词的对应校正关键词,在查找结果为上述校正数据库中存在上述校正关键词时,将校正关键词替换掉上述第一关键词,执行步骤S2-步骤S3获取搜索结果;在上述校正数据库中查找不到上述校正关键词时,通过计算第一关键词与检索记录中的历史检索记录中的文本信息进行读音或者字形相似度计算,获取与第一关键词读音或者字形相似度大于第三阈值的第二关键词,并基于上述第二关键词重新获取检索结果,同时还根据文本收集单元在预设时间内获取的第二文本信息来更新校正数据库,通过上述技术方案,能够在第一文本信息录入出现错误时,通过校正单元自动校正上述第一关键词,从而获取用户需要的检索结果,提高了检索效率和准确性。
进一步地,步骤S2包括:
步骤S21:通过语义分析单元中的语义分析模型将第一关键词和至少一个第一文档中的词语转换为词向量,通过计算第一关键词的词向量和第一文档中词语的词向量之间的余弦值分别获取第一关键词和第一文档中词语之间的语义相似度;
具体的,由于在不同领域中,第一关键词可能有不同的含义,并且第一关键词的近似词不一定只有一种,因此通过上述语义分析模型将上述第一关键词和上述第一文档中的词语转化为可以量化的词向量,并通过计算第一关键词的词向量和上述第一文档中词语的词向量之间的余弦值获取第一关键词和第一文档中词语的语义相似度,并进一步获取与第一关键词语义相似度较高的第一近似词,并基于第一关键词和第一近似词对目标文档进行检索,增加检索的精度和全面性。
步骤S22:通过第一关键词和第一文档中词语之间的语义相似度,获取与第一关键词相似度大于第一阈值的第一近似词;
步骤S23:在第一文档中查找不到第一近似词时,通过从网络上获取与第一关键词语义相似度大于第一阈值的词语作为第一近似词。
具体的,在通过上述第一文档查找不到上述第一近似词时,可能是由于第一文档的样本不够多,由于网络上文件的数量巨大,可以提供较丰富的样本,因此,可以通过网络获取上述第一关键词的第一近似词,为更加准确的检索到用户需要的检索结果奠定基础。
进一步地,步骤S5,包括如下步骤:
步骤S51:基于第一关键词在校正数据库中查找与第一关键词对应的校正关键词,在能够获取到校正关键词时,将校正关键词替换掉第一关键词,并基于校正关键词,重复执行步骤S2-步骤S3,并获取检索结果;否者,执行步骤S52;
具体的,由于文本录入出错导致的第一关键词出错,大部分是由于录入时拼写问题导致的,同一词语录入出错的方式也相同,因此,通过基于上述第一关键词在上述校正数据库中查找第一关键词对应的校正关键词,在能够获取到上述校正关键词时,通过将校正关键词替换掉上述第一关键词,从而获取检索结果,通过上述技术方案,能够自动对校正数据库中出现过的第一关键词进行自动校正,提高检索的精度。
步骤S52:在校正数据库中,查找不到与第一关键词对应的校正关键词时,计算第一关键词与历史检索记录中文本信息所包含词语进行字音或者字形相似度计算,获取与第一关键词字音或者字形相似度大于第三阈值的第二关键词,并基于第二关键词重复步骤S2和步骤S3,重新获取检索结果;
具体的,在通过上述校正数据库查找不到上述第一关键词对应的校正关键词时,计算第一关键词和历史检索记录中文本信息所包含词语进行字音或者字形相似度计算,该字音或者字形相似度可以通过将词语之间的字音或者字形进行对比获取,该技术为现有技术在此不再赘述,并获取第二关键词,并基于上述第二关键词通过步骤S2和步骤S3获取检索结果,同时还根据用户对上述检索结果的点击查看及用户是否重新录入第二文本信息及第二文本信息的查看内容是否与本次查看的第一文本信息相似度,来确认上述第二关键词对上述第一关键词的校正是否正确。
步骤S53:在步骤S52检索结果中任意一项被用户点击查看,并在预设时间内,在文本收集单元没有获取第二文本信息或者再次获取的第二文本信息中的第三关键词与第一关键词的语义相似度小于第四阈值时,将第一关键词对应的检索历史信息删除,并将第一关键词和第二关键词的对应关系存储在校正数据库中;反之,在预设时间内,文本收集单元重新获取到第二文本信息且第二文本信息中的第三关键词与第一关键词的语义相似度大于第四阈值时,在重复步骤S2-步骤S3也没有获取到检索结果时,提示用户检索结果不存在,并分别删除第一关键词和第三关键词对应的历史检索记录。
具体的,在上述步骤S52通过第二关键词对上述第一关键词进行校正后获取的上述检索结果中的任意一项被用户点击查看,说明上述检索结果中有用户需要的检索结果,在预设时间内用户没有通过文本收集单元录入第二文本信息时,说明上述步骤S52检索结果满足了用户的检索需求,不需要再调整第一文本信息作为第二文本信息重新录入文本收集单元进行检索,其中,预设时间为:1分钟之内,第二文本信息和第一文本信息都是用户根据检索需求录入的文字信息;如果在预设时间内用户通过文本收集单元录入了第二文本信息,但是第二文本信息中第三关键词与第一关键词语义相似度小于第四阈值时,其中第四阈值设置为:30%,即用户录入的第二文本信息是为了检索其他的内容信息,此时也说明步骤S52检索结果是用户需要的检索结果,因此上述两种情况都说明步骤S52检索结果满足了用户的检索需求,因此将第一关键词和第二关键词对应关系存储在校正数据库中,在下次需要对第一关键词校正时,直接在校正数据库中查找对应的第二关键词,提高检索效率和检索准确性,反之,在预设时间内,用户重新通过文本收集单元录入了第二文本信息,并且第三关键词与第一关键词的语义相似度大于第四阈值时,即第三关键词与第一关键词的语义相似度较大时,说明用户录入的第一关键词没有出错,如果第一关键词出错,但是基于第三关键词重复步骤S2和步骤S3没有获取检索结果,说明在目标文档中不存在与第一关键词对应的检索结果,需要提示用户检索结果不存在,并将第一关键词和第三关键词对应的历史检索记录删除,由此可见保留的历史记录都有对应的关键词和检索结果,在第一关键词需要校正时,可以参考历史记录中的关键词进行校正。
进一步地,步骤S4包括如下步骤:
步骤S41:在检索结果的数量是若干个时,其中通过第一关键词获取的检索结果最靠前,通过第一近似词和第二近似词获取的检索结果,根据第一近似词和第二近似词与第一关键词的语义相似度进行排序,其中,第一近似词和第二近似词与第一关键词的语义相似度越高,第一近似词和第二近似词对应的检索结果越靠前;
具体的,在上述检索结果为若干个时,为便于用户查看结果,因此可以根据上述关键词的语义相关度进行排序,将用户最希望看到的检索结果排序放在前面,提高用户获取需要的检索结果的效率。
步骤S42:用户根据排好序的检索结果进行选择用户需要的检索结果,并根据用户选择的检索结果调整语义关系库中第一关键词和第一近似词、第二近似词的语义关系;在用户选择的检索结果是基于第一近似词或者第二近似词时,则增加第一近似词或者第二近似词与第一关键词的语义相关度,反之,则不增加第一近似词或者第二近似词与第一关键词的语义相关度。
具体的,还可以通过用户对检索结果的选择,反应出第一关键词和检索结果的关系,在上述检索结果是基于上述第一关键词的第一近似词或者第二近似词获取时,也反应出了上述第一关键词和上述第一近似词和第二近似词之间的语义关系,在用户选中的检索结果是基于第一近似词获取的,则说明第一关键词和第一近似词之间的语义关系更近,因此,在语义关系库中,增加上述第一关键词和上述第一近似词之间的相似度,在用户选中的检索结果是基于第二近似词获取的,则说明第一关键词和第二近似词之间的语义关系更近,因此,在语义关系库中,增加上述第一关键词和上述第二近似词之间的相似度,随着时间的累计第一关键词和第一近似词、第二近似词之间的语义关系更加精准,后续用户通过第一关键词检索需要的内容时,也会更加高效精准。
本发明还提供一种基于语义分析模型的信息检索分析***,用于实现上述的一种基于语义分析模型的信息检索分析方法,***包括:
文本收集单元,用于接收录入的第一文本信息,并提取第一文本信息中的第一关键词;
查找单元,用于基于第一关键词在语义关系库中查找与第一关键词语义相似度大于第一阈值的第一近似词;
第一存储单元,用于存储第一文档;
语义分析单元配置为:在语义关系库中查找不到第一近似词时,计算第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与第一关键词语义相似度大于第一阈值的第一近似词;
检索单元配置为:基于第一关键词和第一近似词对目标文档进行检索,在通过第一关键词和第一近似词都在目标文档中获取不到检索结果时,基于第一关键词在第一文档中查找语义相似度大于第二阈值且小于第一阈值的第二近似词,并以第二近似词在目标文档中检索,并获取检索结果;
排序单元,用于将检索结果按照与第一关键词、第一近似词或者第二近似词的对应关系进行排序显示;并基于用户对检索结果的选择进行更新。
综上,本发明通过文本收集单元从录入的第一文本信息中提取第一关键词,为了使得检索结果更加精准通过语义关系数据库中查找与第一关键词语义相似度大于第一阈值的第一近似词,在查找不到时通过语义分析单元计算第一关键词和第一文档中词语的语义相似度,获取与第一关键词语义相似度大于第一阈值的第一近似词,并通过第一关键词和第一近似词进行检索,在通过第一关键词和第一近似词查找不到检索结果时,有可能是第一关键词和第一近似词不够精准,因此从第一文档中获取相似度大于第二阈值且小于所述第一阈值的第二近似词,并进行检索,从而提高了检索结果的精确性和全面性;在第一关键词、第一近似词及第二近似词都不能从目标文档中获取检索结果时,有可能是第一关键词录入出错,为了获取用户需要的检索结果,可以通过校正单元通过校正数据库和历史检索记录对第一关键词进行自动校正,提高用户的检索效率,还通过将获取的检索结果按照与第一关键词的语义相似度进行排序,并根据用户对检索结果的选择来增加选中检索结果对应第一近似词和第二近似词与第一关键词的语义相似度,并更新至语义关系库中,通过上述技术方案的相互配合,使用户下次通过第一关键词进行检索时,获取更加精准的检索结果,同时也提高了检索效率。
上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于语义分析模型的信息检索分析方法,其特征在于,所述方法包括如下步骤:步骤S1:文本收集单元接收录入的第一文本信息,并提取所述第一文本信息中的第一关键词;
步骤S2:基于所述第一关键词在语义关系库中查找与所述第一关键词语义相似度大于第一阈值的第一近似词,在所述语义关系库中查找不到所述第一近似词时,通过语义分析单元计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词;
步骤S3:检索单元基于所述第一关键词和所述第一近似词对目标文档进行检索,在通过所述第一关键词和所述第一近似词都在所述目标文档中获取不到检索结果时,基于所述第一关键词在所述第一文档中查找语义相似度大于第二阈值且小于所述第一阈值的第二近似词,并基于所述第二近似词在所述目标文档中检索,并获取所述检索结果;
步骤S4:所述检索结果按照与所述第一关键词、所述第一近似词或者所述第二近似词的对应关系进行排序显示,同时还基于用户对所述检索结果的选择更新所述语义关系库。
2.根据权利要求1所述一种基于语义分析模型的信息检索分析方法,其特征在于,在所述步骤S2和所述步骤S3中,在通过所述第一关键词在所述第一文档中获取不到所述第一近似词和所述第二近似词时,执行步骤S5:通过校正单元基于校正数据库和历史检索记录对所述第一关键词进行校正,基于校正后的关键词重复所述步骤S2和所述步骤S3的方法获取所述检索结果,并根据所述文本收集单元在预设时间内录入的第二文本信息来更新所述校正数据库。
3.根据权利要求1所述一种基于语义分析模型的信息检索分析方法,其特征在于,所述步骤S2中,通过语义分析单元计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词,包括如下步骤:
步骤S21:通过所述语义分析单元中的语义分析模型将所述第一关键词和至少一个所述第一文档中的词语转换为词向量,通过计算所述第一关键词的词向量和所述第一文档中词语的词向量之间的余弦值分别获取所述第一关键词和所述第一文档中词语之间的语义相似度;
步骤S22:通过所述第一关键词和所述第一文档中词语之间的所述语义相似度,获取与所述第一关键词相似度大于所述第一阈值的所述第一近似词;
步骤S23:在所述第一文档中查找不到所述第一近似词时,还通过从网络上获取与所述第一关键词语义相似度大于所述第一阈值的词语作为所述第一近似词。
4.根据权利要求2所述一种基于语义分析模型的信息检索分析方法,其特征在于,所述步骤S5,包括如下步骤:
步骤S51:基于所述第一关键词在所述校正数据库中查找与所述第一关键词对应的校正关键词,在能够获取到所述校正关键词时,将所述校正关键词替换掉所述第一关键词,并基于所述校正关键词,重复执行所述步骤S2-步骤S3,并获取检索结果;否则,执行步骤S52;
步骤S52:在所述校正数据库中,查找不到与所述第一关键词对应的所述校正关键词时,计算所述第一关键词与历史检索记录中文本信息所包含词语的字音或者字形相似度,获取与所述第一关键词字音或者字形相似度大于第三阈值的第二关键词,并基于所述第二关键词重复所述步骤S2和所述步骤S3,重新获取所述检索结果;
步骤S53:在所述步骤S52的若干个所述检索结果中任意一项被用户点击查看,并在所述预设时间内,在所述文本收集单元没有获取所述第二文本信息或者再次获取的所述第二文本信息中的第三关键词与所述第一关键词的语义相似度小于第四阈值时,将所述第一关键词对应的检索历史信息删除,并将所述第一关键词和所述第二关键词的对应关系存储在所述校正数据库中;反之,在所述预设时间内,所述文本收集单元重新获取到所述第二文本信息且所述第二文本信息中的所述第三关键词与所述第一关键词的语义相似度大于所述第四阈值时,在重复所述步骤S2-所述步骤S3也没有获取到所述检索结果时,提示用户所述检索结果不存在,并分别删除所述第一关键词和所述第三关键词对应的历史检索记录。
5.根据权利要求1所述一种基于语义分析模型的信息检索分析方法,其特征在于,所述步骤S4包括如下步骤:
步骤S41:在所述检索结果的数量是若干个时,其中通过所述第一关键词获取的所述检索结果最靠前,通过所述第一近似词和所述第二近似词获取的所述检索结果,根据所述第一近似词和所述第二近似词与所述第一关键词的语义相似度进行排序,其中,所述第一近似词和所述第二近似词与所述第一关键词的语义相似度越高,所述第一近似词和所述第二近似词对应的所述检索结果越靠前;
步骤S42:用户根据排好序的所述检索结果选择用户需要的所述检索结果,并根据用户选择的所述检索结果调整所述语义关系库中所述第一关键词和所述第一近似词、所述第二近似词的语义关系;在所述用户选择的所述检索结果是基于所述第一近似词或者所述第二近似词时,则增加所述第一近似词或者所述第二近似词与所述第一关键词的语义相关度,反之,则不增加所述第一近似词或者所述第二近似词与所述第一关键词的语义相关度。
6.根据权利要求1所述一种基于语义分析模型的信息检索分析方法,其特征在于,所述第一文档是与所述目标文档相关的一个或者若干个文本信息。
7.一种基于语义分析模型的信息检索分析***,其特征在于,用于实现如权利要求1至6任意一项所述的一种基于语义分析模型的信息检索分析方法,所述***包括:
文本收集单元,用于接收录入的第一文本信息,并提取所述第一文本信息中的第一关键词;
查找单元,用于基于所述第一关键词在语义关系库中查找与所述第一关键词语义相似度大于第一阈值的第一近似词;
第一存储单元,用于存储第一文档;
语义分析单元配置为:在所述语义关系库中查找不到所述第一近似词时,计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词;
检索单元配置为:基于所述第一关键词和所述第一近似词对目标文档进行检索,在通过所述第一关键词和所述第一近似词都在所述目标文档中获取不到检索结果时,基于所述第一关键词在所述第一文档中查找语义相似度大于第二阈值且小于所述第一阈值的第二近似词,并以所述第二近似词在所述目标文档中检索,并获取检索结果;
排序单元,用于将所述检索结果按照与所述第一关键词、所述第一近似词或者所述第二近似词的对应关系进行排序显示;并基于用户对所述检索结果的选择进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311382763.2A CN117112736B (zh) | 2023-10-24 | 2023-10-24 | 一种基于语义分析模型的信息检索分析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311382763.2A CN117112736B (zh) | 2023-10-24 | 2023-10-24 | 一种基于语义分析模型的信息检索分析方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117112736A true CN117112736A (zh) | 2023-11-24 |
CN117112736B CN117112736B (zh) | 2024-01-05 |
Family
ID=88797021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311382763.2A Active CN117112736B (zh) | 2023-10-24 | 2023-10-24 | 一种基于语义分析模型的信息检索分析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117112736B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853702A (zh) * | 2012-12-06 | 2014-06-11 | 富士通株式会社 | 校正语料中的成语错误的装置和方法 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN107229659A (zh) * | 2016-03-25 | 2017-10-03 | 华为软件技术有限公司 | 一种信息搜索方法及装置 |
CN108255810A (zh) * | 2018-01-10 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 近义词挖掘方法、装置及电子设备 |
CN108427686A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 文本数据查询方法及装置 |
CN109063204A (zh) * | 2018-09-14 | 2018-12-21 | 郑州云海信息技术有限公司 | 基于人工智能的日志查询方法、装置、设备及存储介质 |
CN111460798A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 近义词推送方法、装置、电子设备及介质 |
CN112328738A (zh) * | 2020-10-10 | 2021-02-05 | 中国农业银行股份有限公司河北省分行 | 语音检索方法、终端设备及可读存储介质 |
CN112836029A (zh) * | 2021-01-27 | 2021-05-25 | 润联软件***(深圳)有限公司 | 一种基于图的文档检索方法、***及其相关组件 |
-
2023
- 2023-10-24 CN CN202311382763.2A patent/CN117112736B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853702A (zh) * | 2012-12-06 | 2014-06-11 | 富士通株式会社 | 校正语料中的成语错误的装置和方法 |
CN107229659A (zh) * | 2016-03-25 | 2017-10-03 | 华为软件技术有限公司 | 一种信息搜索方法及装置 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN108427686A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 文本数据查询方法及装置 |
CN108255810A (zh) * | 2018-01-10 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 近义词挖掘方法、装置及电子设备 |
CN109063204A (zh) * | 2018-09-14 | 2018-12-21 | 郑州云海信息技术有限公司 | 基于人工智能的日志查询方法、装置、设备及存储介质 |
CN111460798A (zh) * | 2020-03-02 | 2020-07-28 | 平安科技(深圳)有限公司 | 近义词推送方法、装置、电子设备及介质 |
CN112328738A (zh) * | 2020-10-10 | 2021-02-05 | 中国农业银行股份有限公司河北省分行 | 语音检索方法、终端设备及可读存储介质 |
CN112836029A (zh) * | 2021-01-27 | 2021-05-25 | 润联软件***(深圳)有限公司 | 一种基于图的文档检索方法、***及其相关组件 |
Non-Patent Citations (2)
Title |
---|
ZHEZHANG 等: "Improving online clustering of Chinese technology web news with bag-of-nearsynonyms", 《IEEE ACCESS》, vol. 8, pages 94245 - 94257 * |
刘天宇: "一种基于Lucene的近义词关键字检索***设计", 《中国科技信息》, pages 111 - 114 * |
Also Published As
Publication number | Publication date |
---|---|
CN117112736B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
US8447766B2 (en) | Method and system for searching unstructured textual data for quantitative answers to queries | |
EP1927927A2 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN114911917B (zh) | 资产元信息搜索方法、装置、计算机设备及可读存储介质 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN110866102A (zh) | 检索处理方法 | |
KR20120092756A (ko) | 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템 | |
CN112612875B (zh) | 一种查询词自动扩展方法、装置、设备及存储介质 | |
CN113157869A (zh) | 一种文档精准定位检索方法及*** | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN111753526A (zh) | 一种相似竞品数据分析方法及*** | |
CN112487159B (zh) | 检索方法、检索装置及计算机可读存储介质 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN117216187A (zh) | 一种基于术语构建法律知识图谱的语义智能检索方法 | |
CN117112736B (zh) | 一种基于语义分析模型的信息检索分析方法及*** | |
CN115982316A (zh) | 一种基于多模态的文本检索方法、***及介质 | |
CN116431763A (zh) | 面向领域的科技项目查重方法及*** | |
CN111259145B (zh) | 基于情报数据的文本检索分类方法、***及存储介质 | |
CN114238664A (zh) | 一种海外商标检索方法、设备、介质及产品 | |
CN107577667A (zh) | 一种实体词处理方法和装置 | |
CN113342953A (zh) | 一种基于多模型集成的政务问答方法 | |
CN112965998A (zh) | 一种化合物数据库建立及检索方法及*** | |
KR20190084370A (ko) | 지능형 법률정보 검색 방법 | |
CN112487302B (zh) | 一种基于用户行为的档案资源精准推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |