CN111291168A - 图书检索方法、装置及可读存储介质 - Google Patents

图书检索方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111291168A
CN111291168A CN201811492676.1A CN201811492676A CN111291168A CN 111291168 A CN111291168 A CN 111291168A CN 201811492676 A CN201811492676 A CN 201811492676A CN 111291168 A CN111291168 A CN 111291168A
Authority
CN
China
Prior art keywords
retrieval
book
text
user
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811492676.1A
Other languages
English (en)
Inventor
景少玲
李亚博
谢海华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pku Founder Information Industry Group Co ltd, Peking University Founder Group Co Ltd filed Critical Pku Founder Information Industry Group Co ltd
Priority to CN201811492676.1A priority Critical patent/CN111291168A/zh
Publication of CN111291168A publication Critical patent/CN111291168A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的图书检索方法、装置及可读存储介质,通过对用户录入的检索语音进行文本识别,获得检索文本;对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,从而使得检索得到的结果的准确性得到提高,符合用户真实的检索需求。

Description

图书检索方法、装置及可读存储介质
技术领域
本发明涉及计算机技术,尤其涉及一种图书检索方法、装置及可读存储介质。
背景技术
图书检索是指计算机根据读者输入的信息从图书数据库中自动地检索并返回读者需要的图书信息。
现有的图书检索大多基于关键字匹配的方式实现,例如,对于用户输入的问题:“请帮我查询一些关于评论曹雪芹的书。”,现有的图书检索方法将以“曹雪芹”或“评论曹雪芹”作为检索关键词,并在数据库中进行检索。相应的,其检索返回的结果将包含曹雪芹写的书,也会包含其他人写的评论曹雪芹的书,其中曹雪芹写的书的检索结果明显与用户预期不符。
也就是说,在现有技术中,图书检索仅依赖于关键字实现,这使得检索得到的结果的准确性较差,与用户真实的检索需求不符。
发明内容
针对上述提及的在现有技术中,图书检索仅依赖于关键字实现,这使得检索得到的结果的准确性较差,与用户真实的检索需求不符的问题,本发明提供了一种图书检索方法、装置及可读存储介质。
一方面,本发明提供了一种图书检索方法,包括:
对用户录入的检索语音进行文本识别,获得检索文本;
对所述检索文本进行语义分析,获得语义分词向量;
根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果。
在其中一种可选的实施方式中,所述对所述检索文本进行语义分析,获得语义分词向量,包括:
根据预设的语义词典,对所述检索文本进行分词处理,并将处理后得到的分词转换为语义分词向量;其中,各语义分词用于表示不同语义。
在其中一种可选的实施方式中,所述对用户录入的检索语音进行文本识别,获得检索文本之前,还包括:
采集若干已标注文本,获得训练集和测试集;其中,已标注文本包括文本分词和相应的问题标签;
对各已标注文本进行语义分析,获得各语义分词向量;
利用训练集中的各语义分词向量对贝叶斯分类器进行训练,利用测试集中的各语义分词向量经过训练的贝叶斯分类器进行测试;
获得训练完毕的贝叶斯分类器,训练完毕的贝叶斯分类器为训练完毕的问题模板模型。
在其中一种可选的实施方式中,所述对用户录入的检索语音进行文本识别,获得检索文本之前,还包括:
根据图书库中各图书的图书信息,建立图书图谱;所述图书图谱包括各图书在不同信息类型下的图书信息,以及不同图书信息之间的关联关系。
在其中一种可选的实施方式中,
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,包括:
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;其中所述检索结果包括与所述问题标签相应图书的图书信息,并获得与所述图书关联的其他图书的推送信息。
在其中一种可选的实施方式中,所述向用户反馈检索结果之后,还包括:
根据用户对所述检索结果反馈,对所述图书图谱中的各关联关系进行调整。
在其中一种可选的实施方式中,所述向用户反馈检索结果,包括:
按照检索结果中各图书信息与检索文本的问题标签的相似度进行排序,并根据排序结果向用户展示检索结果。
另一方面,本发明提供了一种图书检索装置,包括:
语音识别模块,用于对用户录入的检索语音进行文本识别,获得检索文本;
文本处理模块,用于对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;
检索模块,用于根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;
显示模块,用于向用户反馈检索结果。
再一方面,本发明提供了一种图书检索装置,包括:语音采集器、显示器、存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述语音采集器用于采集用户的检索语音;
所述处理器运行所述计算机程序时执行前述任一项所述的方法;
所述显示器用于显示检索结果。
最后一方面,本发明提供了一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行前述任一项所述的方法。
本发明提供的图书检索方法、装置及可读存储介质,通过对用户录入的检索语音进行文本识别,获得检索文本;对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,从而使得检索得到的结果的准确性得到提高,符合用户真实的检索需求。
附图说明
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
图1为本发明基于的网络架构示意图;
图2为本发明实施例一提供的一种图书检索方法的流程示意图;
图3为本发明实施例二提供的一种图书检索方法的流程示意图;
图4为本发明实施例三提供的一种图书检索方法的流程示意图;
图5为本发明实施例四提供的一种图书检索装置的结构示意图;
图6为本发明实施例五提供的一种图书检索装置的硬件结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图书检索是指计算机根据读者输入的信息从图书数据库中自动地检索并返回读者需要的图书信息。
现有的图书检索大多基于关键字匹配的方式实现,例如,对于用户输入的问题:“请帮我查询一些关于评论曹雪芹的书。”,现有的图书检索方法将以“曹雪芹”或“评论曹雪芹”作为检索关键词,并在数据库中进行检索。相应的,其检索返回的结果将包含曹雪芹写的书,也会包含其他人写的评论曹雪芹的书,其中曹雪芹写的书的检索结果明显与用户预期不符。
也就是说,在现有技术中,图书检索仅依赖于关键字实现,这使得检索得到的结果的准确性较差,与用户真实的检索需求不符。
针对上述提及的在现有技术中,图书检索仅依赖于关键字实现,这使得检索得到的结果的准确性较差,与用户真实的检索需求不符的问题,本发明提供了一种图书检索方法、装置及可读存储介质。
需要说明的是,本申请提供的图书检索方法、装置及可读存储介质,可运用在各类需要对图书进行检索或查询的场景中,如图书馆或书店的图书检索管理,图书信息检索引擎等等。
图1为本发明基于的网络架构示意图,如图1所示,本发明基于的网络架构至少包括:图书检索装置1、以及数据服务器2。其中图书检索装置科可为台式电脑、平板电脑、智能手机等可用于接收用户语音信息的设备;数据服务器2则可为图书运营商、图书信息管理者等提供的存储有图书信息的服务器集群。该图书检索装置1可通过无线通信或有线通信与数据服务器2取得连接以进行信息交互。此外,图书检索装置1以及数据服务器2中分别加载或安装有可用于实现访问请求的处理方法的插件或程序,这些插件或程序可采用C/C++、Java、Shell或Python等语言编写。
图2为本发明实施例一提供的一种图书检索方法的流程示意图。
如图2所示,该图书检索方法包括:
步骤101、对用户录入的检索语音进行文本识别,获得检索文本。
步骤102、对所述检索文本进行语义分析,获得语义分词向量。
步骤103、根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签。
步骤104、根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果。
需要说明的是,本发明提供的图书检索方法的执行主体具体可为图1所示的图书检索装置1。
由于在现有技术中,图书自动检索是指计算机根据用户输入的信息从图书数据库中自动地检索并返回用户需要的图书信息。传统的图书检索大多以关键字匹配的方式实现,返回的信息存在准确性差、相关信息过多等问题。尤其是对于存在逻辑关系的问题,并不能实现准确的检索。例如对于问题:“请帮我查询一些关于评论曹雪芹的书。”。因此,“曹雪芹”或“评论曹雪芹”会被作为关键词进行检索,检索的结果会包含曹雪芹写的书,也会包含其他人写的评论曹雪芹的书,这样的结果没有准确地满足读者的真实请求,用户仍然需要花费时间在这些结果中进行二次人工判断。针对上述问题,本发明运用语义分析技术,并结合智能模型和基于知识图谱技术的图书图谱,以实现对图书的检索,有效提高了检索结果的准确度,也使得检索结果能够匹配用户需求。
在本实施方式中,首先,图书检索装置将接收到由用户录入的检索语音,并对该检索语音进行文本识别,获得相应的检索文本。例如:“你能帮我查询一下近3年卢德出版的关于经济题材的书吗?”其中的对语音进行文本识别的方式可采用多种现有技术,本实施方式对此不进行限制。此外,在本步骤中,图书检索装置还可直接接收来自用户输入的检索文本,即通过用户手写输入或键盘输入等方式,获取到检索文本。
随后,图书检索装置对所述检索文本进行语义分析,获得语义分词向量。具体来说,图书检索装置根据预设的语义词典,对所述检索文本进行分词处理,并将处理后得到的分词转换为语义分词向量;其中,各语义分词用于表示不同语义。举例来说,针对与前述的“你能帮我查询一下近3年卢德出版的关于经济题材的书吗?”,可以获取到的分词为“近3年”,“卢德”,“经济题材”以及“书”。一般来说,在语义词典里可包括有大量词语以及其相应的语法和含义,利用该语义词典,可提取检索文本中的具备检索意义的语义分词,该语义分词一般为实词。在获得处理后得到的分词转为分语义分词向量,将分词文本转换为分词向量具体可采用现有技术,本实施方式对此不进行限制。
然后,图书检索装置将根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签。具体来说,该训练完毕的问题模板模型可基于机器学习算法实现,其可用于对各语义分词向量进行分类,以得到每一语义分词向量所属的问题标签。
以前述为例获取到的分词为“近3年”,“卢德”,“经济题材”以及“书”为例,经过问题模板模型之后,获得的问题标签为:年份:>=2016年;作者:卢德;主题词标签:经济,中国经济,金融,经济学。
最后,图书检索装置将根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果。具体来说,图书图谱是基于知识图谱技术实现的,知识图谱在图书情报界称为知识域可视化或知识领域映射地图,其可显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
在本实施方式中,预设的图书图谱具体可包括有图书的国际标准书号(International Standard Book Number,简称ISBN),书名,作者列表,作者出版的其它书籍,出版年份,出版商,目录,链接,内容,评分,评论,图书标签等,以及各信息之间的结构关联关系。
因此,在本实施方式中,利用语义分析和经训练完毕的问题模板模型处理所获得的问题标签,以及图书图谱可检索到与用户输入的检索语音匹配度更高的图书信息,有效提高图书检索的准确率。
可选的,在其他可选的实施方式中,所述向用户反馈检索结果,包括:按照检索结果中各图书信息与检索文本的问题标签的相似度进行排序,并根据排序结果向用户展示检索结果。具体的,由于图书图谱的信息量较大,针对于检索结果,可按照相似度从高到低进行排序,并将其中的若干条信息作为检索结果,反馈给用户。
可选的,在其他可选的实施方式中,向用户反馈检索结果之后还可包括询问用户是否需要查看相关的新闻或论文等信息。如果是,则进行相关新闻的搜索;如果否,则停止检索,从而进一步为用户提供更好的图书检索信息。
本发明提供的图书检索方法,通过对用户录入的检索语音进行文本识别,获得检索文本;对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,从而使得检索得到的结果的准确性得到提高,符合用户真实的检索需求。
在实施例一的基础上,为了进一步提高检索准确率,本发明实施例二提供了一种图书检索方法,图3为本发明实施例二提供的一种图书检索方法的流程示意图。
如图3所示,该图书检索方法包括:
步骤201、采集若干已标注文本,获得训练集和测试集;其中,已标注文本包括文本分词和相应的问题标签。
步骤202、对各已标注文本进行语义分析,获得各语义分词向量。
步骤203、利用训练集中的各语义分词向量对贝叶斯分类器进行训练,利用测试集中的各语义分词向量经过训练的贝叶斯分类器进行测试。
步骤204、获得训练完毕的贝叶斯分类器,训练完毕的贝叶斯分类器为训练完毕的问题模板模型。
步骤205、对用户录入的检索语音进行文本识别,获得检索文本。
步骤206、对所述检索文本进行语义分析,获得语义分词向量。
步骤207、根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签。
步骤208、根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果。
在本实施方式中,与前述实施方式不同的是,本实施方式还包括有建立问题模板模型的过程。
首先,图书检索装置可采集获得若干已标注文本,并将该若干已标注文本划分为训练集和测试集;其中,已标注文本包括文本分词和相应的问题标签。需要说明的是,该已标注文本的标注一般是通过人工进行的,当然,其也可采用现有的标注算法实现,本实施方式对此不进行限制。
然后,图书检索装置可采用如实施例一种所述的方式,对各已标注文本进行语义分析,获得各语义分词向量。再后,利用训练集中的各语义分词向量对贝叶斯分类器进行训练,利用测试集中的各语义分词向量经过训练的贝叶斯分类器进行测试,其中的贝叶斯分类器是一种基于计算学习网络模型的能够实现分类的算法模型,在本实施方式中,该贝叶斯分类器可用作本申请中的问题模板模型,以对语义分词向量进行分类。最后,获得训练完毕的贝叶斯分类器,训练完毕的贝叶斯分类器为训练完毕的问题模板模型。
在完成对问题模板模型的训练之后,与实施例一类似的是,图书检索装置将接收到由用户录入的检索语音,并对该检索语音进行文本识别,获得相应的检索文本。例如:“你能帮我查询一下近3年卢德出版的关于经济题材的书吗?”其中的对语音进行文本识别的方式可采用多种现有技术,本实施方式对此不进行限制。此外,在本步骤中,图书检索装置还可直接接收来自用户输入的检索文本,即通过用户手写输入或键盘输入等方式,获取到检索文本。
随后,图书检索装置对所述检索文本进行语义分析,获得语义分词向量。具体来说,图书检索装置根据预设的语义词典,对所述检索文本进行分词处理,并将处理后得到的分词转换为语义分词向量;其中,各语义分词用于表示不同语义。举例来说,针对与前述的“你能帮我查询一下近3年卢德出版的关于经济题材的书吗?”,可以获取到的分词为“近3年”,“卢德”,“经济题材”以及“书”。一般来说,在语义词典里可包括有大量词语以及其相应的语法和含义,利用该语义词典,可提取检索文本中的具备检索意义的语义分词,该语义分词一般为实词。在获得处理后得到的分词转为分语义分词向量,将分词文本转换为分词向量具体可采用现有技术,本实施方式对此不进行限制。
然后,图书检索装置将根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签。具体来说,该训练完毕的问题模板模型可基于机器学习算法实现,其可用于对各语义分词向量进行分类,以得到每一语义分词向量所属的问题标签。
以前述为例获取到的分词为“近3年”,“卢德”,“经济题材”以及“书”为例,经过问题模板模型之后,获得的问题标签为:年份:>=2016年;作者:卢德;主题词标签:经济,中国经济,金融,经济学。
最后,图书检索装置将根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果。具体来说,图书图谱是基于知识图谱技术实现的,知识图谱在图书情报界称为知识域可视化或知识领域映射地图,其可显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
在本实施方式中,预设的图书图谱具体可包括有图书的国际标准书号(International Standard Book Number,简称ISBN),书名,作者列表,作者出版的其它书籍,出版年份,出版商,目录,链接,内容,评分,评论,图书标签等,以及各信息之间的结构关联关系。
因此,在本实施方式中,利用语义分析和经训练完毕的问题模板模型处理所获得的问题标签,以及图书图谱可检索到与用户输入的检索语音匹配度更高的图书信息,有效提高图书检索的准确率。
可选的,在其他可选的实施方式中,所述向用户反馈检索结果,包括:按照检索结果中各图书信息与检索文本的问题标签的相似度进行排序,并根据排序结果向用户展示检索结果。具体的,由于图书图谱的信息量较大,针对于检索结果,可按照相似度从高到低进行排序,并将其中的若干条信息作为检索结果,反馈给用户。
可选的,在其他可选的实施方式中,向用户反馈检索结果之后还可包括询问用户是否需要查看相关的新闻或论文等信息。如果是,则进行相关新闻的搜索;如果否,则停止检索,从而进一步为用户提供更好的图书检索信息。
本发明提供的图书检索方法,通过对用户录入的检索语音进行文本识别,获得检索文本;对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,从而使得检索得到的结果的准确性得到提高,符合用户真实的检索需求。
在上述各实施方式的基础上,本发明实施例三提供了一种图书检索方法,图4为本发明实施例三提供的一种图书检索方法的流程示意图。
如图4所示该图书检索方法包括:
步骤301、对用户录入的检索语音进行文本识别,获得检索文本。
步骤302、对所述检索文本进行语义分析,获得语义分词向量。
步骤303、根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签。
步骤304、根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;其中所述检索结果包括与所述问题标签相应图书的图书信息,并获得与所述图书关联的其他图书的推送信息。
步骤305、根据用户对所述检索结果反馈,对所述图书图谱中的各关联关系进行调整。
需要说明的是,本发明提供的图书检索方法的执行主体具体可为图1所示的图书检索装置1。
与前述实施方式类似的是,首先,图书检索装置将接收到由用户录入的检索语音,并对该检索语音进行文本识别,获得相应的检索文本。例如:“你能帮我查询一下近3年卢德出版的关于经济题材的书吗?”其中的对语音进行文本识别的方式可采用多种现有技术,本实施方式对此不进行限制。此外,在本步骤中,图书检索装置还可直接接收来自用户输入的检索文本,即通过用户手写输入或键盘输入等方式,获取到检索文本。
随后,图书检索装置对所述检索文本进行语义分析,获得语义分词向量。具体来说,图书检索装置根据预设的语义词典,对所述检索文本进行分词处理,并将处理后得到的分词转换为语义分词向量;其中,各语义分词用于表示不同语义。举例来说,针对与前述的“你能帮我查询一下近3年卢德出版的关于经济题材的书吗?”,可以获取到的分词为“近3年”,“卢德”,“经济题材”以及“书”。一般来说,在语义词典里可包括有大量词语以及其相应的语法和含义,利用该语义词典,可提取检索文本中的具备检索意义的语义分词,该语义分词一般为实词。在获得处理后得到的分词转为分语义分词向量,将分词文本转换为分词向量具体可采用现有技术,本实施方式对此不进行限制。
然后,图书检索装置将根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签。具体来说,该训练完毕的问题模板模型可基于机器学习算法实现,其可用于对各语义分词向量进行分类,以得到每一语义分词向量所属的问题标签。
以前述为例获取到的分词为“近3年”,“卢德”,“经济题材”以及“书”为例,经过问题模板模型之后,获得的问题标签为:年份:>=2016年;作者:卢德;主题词标签:经济,中国经济,金融,经济学。
与前述实施方式不同的是,在本实施方式中,图书检索装置可根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;其中所述检索结果包括与所述问题标签相应图书的图书信息,并获得与所述图书关联的其他图书的推送信息。而对于图书图谱来说,其是根据图书库中各图书的图书信息建立的;所述图书图谱包括各图书在不同信息类型下的图书信息,以及不同图书信息之间的关联关系。其中的图书信息包括但不限于,包含作者,出版年份,摘要,目录,全文、图书所述领域等信息。
具体来说,以前述为例,获取到的获得的问题标签为:年份:>=2016年;作者:卢德;主题词标签:经济,中国经济,金融,经济学。针对与这些问题标签,图书检索装置首先获取与这些问题标签一致的图书的图书信息,随后,考虑到由于图书信息之间是有相关性的,例如:投资、经济、金融三者相互相关,国学和中国文化相关。因此,图书检索装置还将利用图书图谱中各图书之间的关联关系,向用户推送关联的图书信息。即,在向用户推送经济相关的图书信息之外,可能推送金融和投资相关的图书信息。
最后,图书检索装置还可根据用户对所述检索结果反馈,对所述图书图谱中的各关联关系进行调整。
统计各用户对检索结果反馈信息的满意程度,以确定在下一次推送时是否需要推送关联图书信息,或确定推送哪些关联图书信息。
可选的,在其他可选的实施方式中,所述向用户反馈检索结果,包括:按照检索结果中各图书信息与检索文本的问题标签的相似度进行排序,并根据排序结果向用户展示检索结果。具体的,由于图书图谱的信息量较大,针对于检索结果,可按照相似度从高到低进行排序,并将其中的若干条信息作为检索结果,反馈给用户。
本发明提供的图书检索方法,通过对用户录入的检索语音进行文本识别,获得检索文本;对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,从而使得检索得到的结果的准确性得到提高,符合用户真实的检索需求。
图5为本发明实施例四提供的一种图书检索装置的结构示意图,如图5所示,该图书检索装置包括:
语音识别模块10,用于对用户录入的检索语音进行文本识别,获得检索文本;
文本处理模块20,用于对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;
检索模块30,用于根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;
显示模块40,用于向用户反馈检索结果。
在其中一种可选的实施方式中,所述文本处理模块20,具体用于:
根据预设的语义词典,对所述检索文本进行分词处理,并将处理后得到的分词转换为语义分词向量;其中,各语义分词用于表示不同语义。
在其中一种可选的实施方式中,还包括训练模块,其具体用于在所述对用户录入的检索语音进行文本识别,获得检索文本之前,还包括:
采集若干已标注文本,获得训练集和测试集;其中,已标注文本包括文本分词和相应的问题标签;
对各已标注文本进行语义分析,获得各语义分词向量;
利用训练集中的各语义分词向量对贝叶斯分类器进行训练,利用测试集中的各语义分词向量经过训练的贝叶斯分类器进行测试;
获得训练完毕的贝叶斯分类器,训练完毕的贝叶斯分类器为训练完毕的问题模板模型。
在其中一种可选的实施方式中,还包括图谱建立模块,用于所述对用户录入的检索语音进行文本识别,获得检索文本之前,用于根据图书库中各图书的图书信息,建立图书图谱;所述图书图谱包括各图书在不同信息类型下的图书信息,以及不同图书信息之间的关联关系。
在其中一种可选的实施方式中,所述检索模块具体用于:
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;其中所述检索结果包括与所述问题标签相应图书的图书信息,并获得与所述图书关联的其他图书的推送信息。
在其中一种可选的实施方式中,所述图谱建立模块还用于在向用户反馈检索结果之后,根据用户对所述检索结果反馈,对所述图书图谱中的各关联关系进行调整。
在其中一种可选的实施方式中,所述显示模块具体用于,按照检索结果中各图书信息与检索文本的问题标签的相似度进行排序,并根据排序结果向用户展示检索结果。
本发明提供的图书检索装置,通过对用户录入的检索语音进行文本识别,获得检索文本;对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,从而使得检索得到的结果的准确性得到提高,符合用户真实的检索需求。
图6为本发明实施例四提供的一种图书检索装置的硬件结构示意图。如图6所示,该图书检索装置包括:语音采集器43、显示器44、存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述实施例一至三任一的方法,所述语音采集器43用于采集用户的检索语音;所述显示器44用于显示检索结果。
本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述实施例一至三任一的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种图书检索方法,其特征在于,包括:
对用户录入的检索语音进行文本识别,获得检索文本;
对所述检索文本进行语义分析,获得语义分词向量;
根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果。
2.根据权利要求1所述的图书检索方法,其特征在于,所述对所述检索文本进行语义分析,获得语义分词向量,包括:
根据预设的语义词典,对所述检索文本进行分词处理,并将处理后得到的分词转换为语义分词向量;其中,各语义分词用于表示不同语义。
3.根据权利要求1所述的图书检索方法,其特征在于,所述对用户录入的检索语音进行文本识别,获得检索文本之前,还包括:
采集若干已标注文本,获得训练集和测试集;其中,已标注文本包括文本分词和相应的问题标签;
对各已标注文本进行语义分析,获得各语义分词向量;
利用训练集中的各语义分词向量对贝叶斯分类器进行训练,利用测试集中的各语义分词向量经过训练的贝叶斯分类器进行测试;
获得训练完毕的贝叶斯分类器,训练完毕的贝叶斯分类器为训练完毕的问题模板模型。
4.根据权利要求1所述的图书检索方法,其特征在于,所述对用户录入的检索语音进行文本识别,获得检索文本之前,还包括:
根据图书库中各图书的图书信息,建立图书图谱;所述图书图谱包括各图书在不同信息类型下的图书信息,以及不同图书信息之间的关联关系。
5.根据权利要求4所述的图书检索方法,其特征在于,
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得并向用户反馈检索结果,包括:
根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;其中所述检索结果包括与所述问题标签相应图书的图书信息,并获得与所述图书关联的其他图书的推送信息。
6.根据权利要求5所述的图书检索方法,其特征在于,所述向用户反馈检索结果之后,还包括:
根据用户对所述检索结果反馈,对所述图书图谱中的各关联关系进行调整。
7.根据权利要求1-6任一项所述的图书检索方法,其特征在于,所述向用户反馈检索结果,包括:
按照检索结果中各图书信息与检索文本的问题标签的相似度进行排序,并根据排序结果向用户展示检索结果。
8.一种图书检索装置,其特征在于,包括:
语音识别模块,用于对用户录入的检索语音进行文本识别,获得检索文本;
文本处理模块,用于对所述检索文本进行语义分析,获得语义分词向量;根据训练完毕的问题模板模型,对所述语义分词向量进行处理获得所述检索文本对应的问题标签;
检索模块,用于根据预设的图书图谱和所述问题标签对所述检索文本进行检索,获得检索结果;
显示模块,用于向用户反馈检索结果。
9.一种图书检索装置,其特征在于,包括:语音采集器、显示器、存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述语音采集器用于采集用户的检索语音;
所述处理器运行所述计算机程序时执行权利要求1-7任一项所述的方法;
所述显示器用于显示检索结果。
10.一种可读存储介质,其特征在于,包括程序,当其在终端上运行时,使得终端执行权利要求1-7任一项所述的方法。
CN201811492676.1A 2018-12-07 2018-12-07 图书检索方法、装置及可读存储介质 Pending CN111291168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811492676.1A CN111291168A (zh) 2018-12-07 2018-12-07 图书检索方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811492676.1A CN111291168A (zh) 2018-12-07 2018-12-07 图书检索方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN111291168A true CN111291168A (zh) 2020-06-16

Family

ID=71022881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811492676.1A Pending CN111291168A (zh) 2018-12-07 2018-12-07 图书检索方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111291168A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933238A (zh) * 2020-08-31 2020-11-13 平安国际智慧城市科技股份有限公司 信息推送方法、装置、电子设备及存储介质
CN112966071A (zh) * 2021-02-03 2021-06-15 北京奥鹏远程教育中心有限公司 一种用户反馈信息分析方法、装置、设备及可读存储介质
CN114676306A (zh) * 2022-03-28 2022-06-28 河南经贸职业学院 一种基于人工智能的计算机信息筛选装置
CN116578689A (zh) * 2023-07-11 2023-08-11 广东拓迪智能科技有限公司 基于ai的书籍检索方法以及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及***
CN104537065A (zh) * 2014-12-29 2015-04-22 北京奇虎科技有限公司 一种搜索结果的推送方法及***
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和***
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN106874467A (zh) * 2017-02-15 2017-06-20 百度在线网络技术(北京)有限公司 用于提供搜索结果的方法和装置
CN106959999A (zh) * 2017-02-06 2017-07-18 广东小天才科技有限公司 一种语音搜索的方法及装置
CN107222757A (zh) * 2017-07-05 2017-09-29 深圳创维数字技术有限公司 一种语音搜索方法、机顶盒、存储介质、服务器和***
CN107704549A (zh) * 2017-09-26 2018-02-16 百度在线网络技术(北京)有限公司 语音搜索方法、装置及计算机设备
CN108009303A (zh) * 2017-12-30 2018-05-08 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN108132952A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 一种基于语音识别的主动型搜索方法和装置
CN108182229A (zh) * 2017-12-27 2018-06-19 上海科大讯飞信息科技有限公司 信息交互方法及装置
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和***

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及***
CN104537065A (zh) * 2014-12-29 2015-04-22 北京奇虎科技有限公司 一种搜索结果的推送方法及***
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和***
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN108132952A (zh) * 2016-12-01 2018-06-08 百度在线网络技术(北京)有限公司 一种基于语音识别的主动型搜索方法和装置
CN106959999A (zh) * 2017-02-06 2017-07-18 广东小天才科技有限公司 一种语音搜索的方法及装置
CN106874467A (zh) * 2017-02-15 2017-06-20 百度在线网络技术(北京)有限公司 用于提供搜索结果的方法和装置
CN107222757A (zh) * 2017-07-05 2017-09-29 深圳创维数字技术有限公司 一种语音搜索方法、机顶盒、存储介质、服务器和***
CN107704549A (zh) * 2017-09-26 2018-02-16 百度在线网络技术(北京)有限公司 语音搜索方法、装置及计算机设备
CN108182229A (zh) * 2017-12-27 2018-06-19 上海科大讯飞信息科技有限公司 信息交互方法及装置
CN108009303A (zh) * 2017-12-30 2018-05-08 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933238A (zh) * 2020-08-31 2020-11-13 平安国际智慧城市科技股份有限公司 信息推送方法、装置、电子设备及存储介质
CN111933238B (zh) * 2020-08-31 2024-04-02 深圳赛安特技术服务有限公司 信息推送方法、装置、电子设备及存储介质
CN112966071A (zh) * 2021-02-03 2021-06-15 北京奥鹏远程教育中心有限公司 一种用户反馈信息分析方法、装置、设备及可读存储介质
CN112966071B (zh) * 2021-02-03 2023-09-08 北京奥鹏远程教育中心有限公司 一种用户反馈信息分析方法、装置、设备及可读存储介质
CN114676306A (zh) * 2022-03-28 2022-06-28 河南经贸职业学院 一种基于人工智能的计算机信息筛选装置
CN116578689A (zh) * 2023-07-11 2023-08-11 广东拓迪智能科技有限公司 基于ai的书籍检索方法以及装置
CN116578689B (zh) * 2023-07-11 2023-10-27 广东拓迪智能科技有限公司 基于ai的书籍检索方法以及装置

Similar Documents

Publication Publication Date Title
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
CN110298033B (zh) 关键词语料标注训练提取***
CN109033374B (zh) 基于贝叶斯分类器的知识图谱检索方法
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN108733778B (zh) 对象的行业类型识别方法和装置
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取***和方法
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及***
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN112417863A (zh) 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN111191022A (zh) 商品短标题生成方法及装置
CN111274371B (zh) 一种基于知识图谱的智能人机对话方法及设备
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
CN110781204A (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN114003709A (zh) 一种基于问句匹配的智能问答***和方法
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN107247709B (zh) 一种百科词条标签的优化方法及***
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
CN109446522B (zh) 一种试题自动分类***及方法
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN110866086A (zh) 一种文章配图***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230705

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240402

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Applicant after: Peking University

Country or region after: China

Address before: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant before: New founder holdings development Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right