CN108363682A - 一种目标文本显示方法及装置 - Google Patents

一种目标文本显示方法及装置 Download PDF

Info

Publication number
CN108363682A
CN108363682A CN201810142223.XA CN201810142223A CN108363682A CN 108363682 A CN108363682 A CN 108363682A CN 201810142223 A CN201810142223 A CN 201810142223A CN 108363682 A CN108363682 A CN 108363682A
Authority
CN
China
Prior art keywords
participle
paragraph
document
abstract
corresponding document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810142223.XA
Other languages
English (en)
Inventor
张晓东
陈利人
翟忠武
苏波
李效云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Digital Science & Technology Co Ltd
Original Assignee
Guangzhou Digital Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Digital Science & Technology Co Ltd filed Critical Guangzhou Digital Science & Technology Co Ltd
Priority to CN201810142223.XA priority Critical patent/CN108363682A/zh
Publication of CN108363682A publication Critical patent/CN108363682A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种目标文本显示方法及装置,用于用户从海量文档中快速获取到所需要文本,该方法包括:预先建立倒排索引,倒排索引包括各个分词对应的文档标识以及段落标识;获取用户输入的查询词,查询词包括第一分词;根据倒排索引,查询第一分词对应的文档标识和/或段落标识,根据第一分词对应的文档标识和/或段落标识确定第一分词对应的文档和/或段落;对第一分词对应的文档和/或段落进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;在获取到针对任一第一分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。

Description

一种目标文本显示方法及装置
技术领域
本申请涉及互联网技术领域,具体涉及一种目标文本显示方法及装置。
背景技术
随着互联网技术的发展,用户会面临大量信息、文档的阅读。通常情况下,用户会按照顺序逐页翻看文档,完成快速扫描阅读。但是,当用户需要阅读文档中某一关注点的内容时,很难快速获得所需要的信息。例如,金融分析师在面对很多几百页的上市公司年度报告时,如逐页翻看各个文档以寻找某一关注点时,会花费大量时间,且极易遗漏相关内容。因此,如何使用户可以从海量文档中快速阅读到所需要的内容是亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种目标文本显示方法及装置,以解决现有技术中用户无法从海量文档中快速获取到所需要文本的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
一种目标文本显示方法,预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识,所述方法包括:
获取用户输入的查询词,所述查询词包括第一分词;
根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;
对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;
在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
可选的,所述方法还包括:
确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;
根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;
对所述第二分词对应的文档和/或段落进行排序;
获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
可选的,所述确定所述查询词对应的相关词,包括:
根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;
计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;
将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。
可选的,所述根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量,包括:
将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。
可选的,所述方法还包括:
根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;
根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;
对所述第三分词对应的文档和/或段落进行排序;
获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
在获取到针对任一所述第三分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
可选的,所述对所述第一分词对应的文档和/或段落进行排序,包括:
根据所述第一分词对应的文档的文档类型、所述第一分词在每篇对应的文档中的出现次数、所述第一分词在每篇对应的文档中的出现比例、所述第一分词在每篇对应的文档中的出现位置、各个所述第一分词在每篇对应的文档中的距离中的一项或多项,对所述第一分词对应的文档进行排序;
和/或,
根据所述第一分词在每个对应的段落中的出现次数、所述第一分词在每个对应的段落中的出现比例、所述第一分词在每个对应的段落中的出现位置、各个所述第一分词在每个对应的段落中的距离中的一项或多项,对所述第一分词对应的段落进行排序。
一种目标文本显示装置,所述装置包括:
建立单元,用于预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识;
第一获取单元,用于获取用户输入的查询词,所述查询词包括第一分词;
第一查询单元,用于根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;
第一排序单元,用于对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;
第一发送单元,用于在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
可选的,所述装置还包括:
第一确定单元,用于确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;
第二查询单元,用于根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;
第二排序单元,用于对所述第二分词对应的文档和/或段落进行排序;
第二获取单元,用于获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
第二发送单元,用于在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
可选的,所述第一确定单元包括:
第一确定子单元,用于根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;
计算子单元,用于计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;
第二确定子单元,用于将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。
可选的,所述第一确定子单元具体用于:
将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。
可选的,所述装置还包括:
第二确定单元,用于根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;
第三查询单元,用于根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;
第三排序单元,用于对所述第三分词对应的文档和/或段落进行排序;
第三获取单元,用于获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
第三发送单元,用于在获取到针对任一所述第三分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
可选的,所述第一排序单元具体用于:
根据所述第一分词对应的文档的文档类型、所述第一分词在每篇对应的文档中的出现次数、所述第一分词在每篇对应的文档中的出现比例、所述第一分词在每篇对应的文档中的出现位置、各个所述第一分词在每篇对应的文档中的距离中的一项或多项,对所述第一分词对应的文档进行排序;
和/或,
根据所述第一分词在每个对应的段落中的出现次数、所述第一分词在每个对应的段落中的出现比例、所述第一分词在每个对应的段落中的出现位置、各个所述第一分词在每个对应的段落中的距离中的一项或多项,对所述第一分词对应的段落进行排序。
由此可见,本申请实施例具有如下有益效果:
本申请实施例可以预先将各个文档中的各个分词所处于文档的文档标识以及所处于段落的段落标识记录下来,建立倒排索引,在用户需要查找某些关注点时,可以输入查询词,该查询词包括有一个或多个第一分词。在获取查询词后,可以根据预先建立的倒排索引,快速查找到第一分词对应的文档标识和/或段落标识,进一步可以获得第一分词对应的文档和/或段落,对第一分词对应的文档和/或段落按照与查询词的关联性进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给用户的终端进行显示,则用户可以触发任一文档摘要或者段落摘要,从而将该文档摘要或者段落摘要对应的文档页面进行显示,实现了用户可以快速浏览多个文档中的某一内容,大量节约了用户的阅读时间,提高了用户的阅读体验。
附图说明
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的一种目标文本显示方法实施例的流程图;
图3为本申请实施例提供的目标文本显示方法的显示结果示意图;
图4为本申请实施例提供的另一种目标文本显示方法实施例的流程图;
图5为本申请实施例提供的又一种目标文本显示方法实施例的流程图;
图6为本申请实施例提供的一种目标文本显示装置实施例的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
参见图1所示,示出了本申请实施例的一示例性应用场景的框架示意图。其中,用户可以使用终端10输入查询词,该查询词中包括第一分词;服务器20可以获取该查询词,根据预先建立的倒排索引,查询第一分词对应的文档标识和/或段落标识,进一步确定第一分词对应的文档和/或段落;然后对第一分词对应的文档和/或段落进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给终端10顺序显示;用户可以通过终端10触发任一显示的文档摘要或者段落摘要,服务器20在获取到针对任一第一分词对应的文档摘要或者段落摘要的显示请求后,可以向终端10发送该文档摘要或者段落摘要对应的文档页面,终端10可以加载显示该文档页面,从而实现用户对查询词对应的文档或者段落的快速阅读。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本发明实施方式的适用范围不受到该框架任何方面的限制。
需要注意的是,本申请实施例中的终端10可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)实现与服务器20交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。还需要注意的是,本申请实施例中服务器20可以是现有的、正在研发的或将来研发的、能够向用户提供信息推荐的应用服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。
以下将结合附图对本申请实施例提供的目标文本显示方法进行详细说明。
参见图2所示,示出了本申请实施例中提供的一种目标文本显示方法实施例的流程图,该方法可以应用于服务器。
在本申请实施例中,在执行目标文本显示方法实施例的各步骤之前,可以预先建立倒排索引,倒排索引包括各个分词对应的文档标识以及段落标识。
在获取海量文档后,首先对各篇文档进行分词,在文档中重复出现的分词可以被认为是一个分词,对每一分词所处文档的文档标识以及所处段落的段落标识进行记录,从而建立包括各个分词对应的文档标识以及段落标识的倒排索引。文档标识可以是文档对应的序号或者其他标识,段落标识可以是段落在所处文档中的序号或者其他标识,本申请实施例对文档标识以及段落标识的形式不进行限定。倒排索引例如,分词1对应于文档001、文档002,分词1对应于文档001中的020段、021段、文档002中的005段、007段等等。
可以理解的是,随着文档的不断更新,倒排索引的内容也随之更新,即建立倒排索引的过程可以包括新建以及更新建立倒排索引。
本实施例提供的目标文本显示方法实施例可以包括以下步骤:
步骤201:获取用户输入的查询词,查询词包括第一分词。
用户通过终端可以输入查询词,该查询词可以包括一个或多个第一分词,第一分词为倒排索引中的一个分词,服务器可以获取到该查询词。当查询词仅包括一个第一分词时,则查询词包括的第一分词即为查询词本身,例如查询词为“专利”,该查询词包括的第一分词为“专利”;当查询词包括多个第一分词时,可以对查询词进行分词,确定出查询词所包括的多个第一分词,例如查询词为“专利撰写”,则对查询词进行分词,可以确定该查询词包括的第一分词为“专利”以及“撰写”。
步骤202:根据倒排索引,查询第一分词对应的文档标识和/或段落标识,根据第一分词对应的文档标识和/或段落标识确定第一分词对应的文档和/或段落。
根据上述说明,在确定第一分词后,可以查询倒排索引得到每一个第一分词所对应的文档标识和/或段落标识,进一步可以确定出第一分词对应的文档和/或段落。即可以在海量文档中查找到第一分词所处的文档和/或第一分词所处的段落。
步骤203:对第一分词对应的文档和/或段落进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示。
由于第一分词对应的文档以及段落的数量可能很多,因此在为用户展现的时候需要先对第一分词对应的文档和/或第一分词对应的段落进行排序,该排序与第一分词与文档或者段落的相关性有关,即第一分词与文档的相关性越高,则该第一分词对应的文档的排序越高,第一分词与段落的相关性越高,则该第一分词对应的段落的排序越高。
可以理解的是,文档与段落包括的文本通常比较多,因此在对第一分词对应的文档和/或段落进行排序后,可以先仅将第一分词对应的文档摘要和/或段落摘要按照排序顺序发送给终端进行显示,以使用户可以先大体了解涉及查询词的文档和/或段落,再挑选感兴趣的内容进一步阅读,大幅减少了用户浏览文档所需要的时间。
文档摘要可以是文档标题、文档摘要内容、文档中某重点段落等,段落摘要可以是段落中预设长度的文本内容、段落中某重点语句,当段落较短时段落摘要也可能是段落内容本身。本申请实施例对文档摘要以及段落摘要的形式不进行限定。
以下再详细说明对第一分词对应的文档和/或段落进行排序的具体实现,可以包括:
根据第一分词对应的文档的文档类型、第一分词在每篇对应的文档中的出现次数、第一分词在每篇对应的文档中的出现比例、第一分词在每篇对应的文档中的出现位置、各个第一分词在每篇对应的文档中的距离中的一项或多项,对第一分词对应的文档进行排序;
和/或,
根据第一分词在每个对应的段落中的出现次数、第一分词在每个对应的段落中的出现比例、第一分词在每个对应的段落中的出现位置、各个第一分词在每个对应的段落中的距离中的一项或多项,对第一分词对应的段落进行排序。
在本申请实施例中,当需要对第一分词对应的文档进行排序时,可以对第一分词对应的各篇文档分别进行与第一分词的相关度评分,按照评分结果对第一分词对应的各篇文档进行排序。
对文档进行评分的规则可以包括但不限于以下各项中的一项或多项:
(1)可以预先为不同类型的文档分别设置不同的加分值,例如科技论文类型的文档设置较高的加分值、网络新闻类型的文档设置较低的加分值等等,则第一分词对应的文档的文档类型可以影响文档的排序。
(2)可以根据第一分词在每篇对应的文档中的出现次数,为文档设置不同的加分值,例如同一第一分词在第一篇文档中的出现次数比在第二篇文档中的出现次数多,则对第一分词对应的第一篇文档的加分值高于第一分词对应的第二篇文档的加分值,代表该第一篇文档与该第一分词更相关。
(3)可以根据第一分词在每篇对应的文档中的出现比例,为文档设置不同的加分值,例如同一第一分词在第一篇文档中的出现次数与在第二篇文档中的出现次数相同,同时第一篇文档的长度远小于第二篇文档的长度,即该第一分词在第一篇文档中的出现比例比在第二篇文档中的出现比例高,则对第一分词对应的第一篇文档的加分值高于第一分词对应的第二篇文档的加分值,代表该第一篇文档与该第一分词更相关。
(4)可以根据第一分词在每篇对应的文档中的出现位置,为文档设置不同的加分值,例如文档中的首段或者尾段更能代表文档内容,如果第一分词出现在文档中的首段或者尾段,可以为该文档设置更高的加分值,第一分词出现在文档中的其他段落,可以为该文档设置较低的加分值。
(5)当查询词包括多个第一分词时,还可以根据多个第一分词在每篇文档之间的距离,为文档设置不同的加分值。例如查询词如果包括两个第一分词,这两个第一分词相连出现在文档中,代表该查询词整体出现在文档中,则文档与查询词相关度较高,可以为该文档设置较高的加分值,如果不同第一分词在文档中距离较远,可以为该文档设置较低的加分值。
类似的,当需要对第一分词对应的段落进行排序时,可以对第一分词对应的各段落分别进行与第一分词的相关度评分,按照评分结果对第一分词对应的各段落进行排序。
对段落进行评分的规则可以包括但不限于以下各项中的一项或多项:
(1)可以根据第一分词在每个对应的段落中的出现次数,为段落设置不同的加分值,例如同一第一分词在第一段落中的出现次数比在第二段落中的出现次数多,则对第一分词对应的第一段落的加分值高于第一分词对应的第二段落的加分值,代表该第一段落与该第一分词更相关。
(2)可以根据第一分词在每个对应的段落中的出现比例,为段落设置不同的加分值,例如同一第一分词在第一段落中的出现次数与在第二段落中的出现次数相同,同时第一段落的长度远小于第二段落的长度,即该第一分词在第一段落中的出现比例比在第二段落中的出现比例高,则对第一分词对应的第一段落的加分值高于第一分词对应的第二段落的加分值,代表该第一段落与该第一分词更相关。
(4)可以根据第一分词在每个对应的段落中的出现位置,为段落设置不同的加分值,例如段落中的首句或者尾句更能代表段落内容,如果第一分词出现在段落中的首句或者尾句,可以为该段落设置更高的加分值,第一分词出现在段落中的其他位置,可以为该段落设置较低的加分值。
(5)当查询词包括多个第一分词时,还可以根据多个第一分词在每个段落之间的距离,为段落设置不同的加分值。例如查询词如果包括两个第一分词,这两个第一分词相连出现在段落中,代表该查询词整体出现在段落中,则段落与查询词相关度较高,可以为该段落设置较高的加分值,如果不同第一分词在段落中距离较远,可以为该段落设置较低的加分值。
通过以上方式对第一分词对应的文档和/或段落进行排序,可以更好地反映出查询词与对应的文档和/或段落之间的相关性,使用户可以优先阅读到与查询词更为相关的内容。
步骤204:在获取到针对任一第一分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。
用户使用终端可以查看第一分词对应的文档摘要和/或段落摘要,如果对某文档摘要或者段落摘要,可以点击该文档摘要或者段落摘要触发针对任一第一分词对应的文档摘要或者段落摘要的显示请求。服务器在在获取到针对任一第一分词对应的文档摘要或者段落摘要的显示请求后,可以向终端发送该文档摘要或者段落摘要对应的文档页面。在本申请实施例中,还可以预先对各个文档进行分页。在获取到针对某一段落摘要的显示请求后,可以得到该段落所处的文档页面发送给终端,使终端仅加载该文档页面进行显示,在该过程中不必加载文档中的其他页面,大幅减少了占用的网络资源,提高了页面加载速度。在获取到针对某一文档摘要的显示请求后,可以将该文档的首页作为首先加载的文档页面发送给终端,之后随着用户的浏览过程,逐页将该文档的各个文档页面发送给终端加载。
这样,本申请实施例可以预先将各个文档中的各个分词所处于文档的文档标识以及所处于段落的段落标识记录下来,建立倒排索引,在用户需要查找某些关注点时,可以输入查询词,该查询词包括有一个或多个第一分词。在获取查询词后,可以根据预先建立的倒排索引,快速查找到第一分词对应的文档标识和/或段落标识,进一步可以获得第一分词对应的文档和/或段落,对第一分词对应的文档和/或段落按照与查询词的关联性进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给用户的终端进行显示,则用户可以触发任一文档摘要或者段落摘要,从而将该文档摘要或者段落摘要对应的文档页面进行显示,实现了用户可以快速浏览多个文档中的某一内容,大量节约了用户的阅读时间,提高了用户的阅读体验。
为了便于理解,参见图3所示,对本申请实施例提供的目标文本显示方法的显示结果进行示例性说明。
如果服务器对第一分词对应的文档以及段落进行排序后,可以将第一分词对应的文档摘要以及段落摘要发送给终端顺序显示。在终端中,可以通过文档摘要显示列301显示文档摘要,例如按照顺序依次显示文档1-5的文档摘要;可以通过段落摘要显示列302显示段落摘要,该段落摘要的显示可以设置为与文档相关,即用户在触发某一文档摘要时,可以在段落摘要显示列302按照排序结果顺序显示对应文档所包括段落的段落摘要,例如当用户触发文档2的文档摘要时,在段落摘要显示列302显示文档2所包括段落的段落摘要;另外段落摘要的显示可以设置为与文档不相关,即不同文档之间的段落按照排序结果顺序显示,同时还可以标识段落与文档之间的关系。例如,用户在触发段落3的锻炼摘要时,可以提示用户该段落3属于文档2。
如果服务器对第一分词对应的文档或者段落进行排序后,也可以仅显示文档摘要显示列301或者段落摘要显示列302。
当用户需要阅读某一文档或者某一段落时,通过触发文档摘要或者段落摘要,可以请求显示对应的文档页面,从而在终端的文档页面显示区域303显示对应的文档页面。
在本申请实施例中,可以使用户通过文档摘要以及段落摘要大体了解查询词对应的内容,如果还需要了解详细的信息,则可以通过点击某一文档摘要或者段落摘要,阅读对应的文档页面,实现了用户更高效率地碎片式浏览阅读。
基于上述实施例,参见图4所示,示出了本申请实施例中提供的另一种目标文本显示方法实施例的流程图,在本实施例中在用户输入了查询词后还可以向用户展示查询词的相关词,并预先计算出相关词对应的文档和/或段落,在用户需要查询相关词时,可以快速将相关内容发送给终端,从而实现用户对目标文本的快速阅读,本实施例可以包括以下步骤:
步骤401:确定查询词对应的相关词,向终端发送相关词进行显示,相关词包括第二分词。
在本申请实施例中,用户在输入查询词后,还可以向用户终端推荐查询词的相关词,类似的,该相关词可以包括一个或多个第二分词,第二分词为倒排索引中的一个分词。例如,用户输入查询词为“人工智能”,则相关词可以为“机器人”、“神经网络”等等。
向用户推荐相关词,一方面可以使用户发现进一步可能查询的内容,另一方面可以免去用户输入的过程,可以使用户直接通过点击相关词完成对相关词的查询,提高了用户的使用体验。
在本申请实施例一些可能的实现方式中,确定查询词对应的相关词的过程可以包括:
根据分词特征模型确定第一分词的特征向量以及其他各个分词的特征向量;计算第一分词的特征向量与其他各个分词的特征向量之间的相似度;将与第一分词的特征向量的相似度满足预设条件的分词确定为相关词。
也即首先可以获取到第一分词的特征向量以及其他各个分词的特征向量,计算第一分词的特征向量与其他各个分词的特征向量之间的相似度。一般来说,特征向量之间的相似度可以用特征向量之间的欧式距离来表征。然后将与第一分词的特征向量的相似度满足预设条件的分词确定为相关词,该预设条件可以为相关度排序在前预设个数之内,或者相关度达到预设阈值等等,预设个数、预设阈值可以根据实际情况设定,本申请对此不进行限定。
在本申请实施例一些可能的实现方式中,根据分词特征模型确定第一分词的特征向量以及其他各个分词的特征向量的具体实现可以包括:
将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为分词特征模型的输入,对分词特征模型进行训练,在分词特征模型达到收敛条件后,得到第一分词的特征向量以及其他各个分词的特征向量,分词特征模型为神经网络模型。
在本申请实施例中,首先大量文档可以作为训练语料,将训练语料进行分词,可以理解文档中各个分词是有语序关系的,例如语料“专利撰写很重要”,可以按分词顺序划分为“专利”、“撰写”、“很”以及“重要”。将语料中的任一分词的初始特征向量作为分词特征模型的输出,例如,将“撰写”这一分词的初始特征向量作为分词特征模型的输出,初始特征向量可以为一随机的特征向量,特征向量可以为n维特征向量,例如为128维特征向量,n为正整数。然后将这一分词先后预设范围内分词的初始特征向量作为分词特征模型的输入,例如,将“专利”、“很”以及“重要”的初始特征向量作为分词特征模型的输入,则得到分词特征模型的一组输入和输出。依次类推,可以从大量文档中确定出分词特征模型的大量输入和输出,实现对分词特征模型进行训练,直到分词特征模型达到收敛条件。对分词特征模型的训练过程即为对分词的特征向量的训练过程。在分词特征模型训练完成后,则可以获得各个分词的特征向量。
分词特征模型可以为深度学习网络DNN(Deep Neural Network)、循环神经网络RNN(Recurrent Neural Networks)、长短时记忆神经网络LSTM(Long Short MemoryNetwork)等神经网络中的一种或者多种的组合;也可以采用浅层神经网络算法模型,比如BP(Back Propagation)神经网络、RBF(Radical Basis Function)神经网络模型等。
本申请实施例训练分词特征模型的过程,无需对训练语料进行标注,即可以获得各个分词的特征向量。
步骤402:根据倒排索引,查询第二分词对应的文档标识和/或段落标识,根据第二分词对应的文档标识和/或段落标识确定第二分词对应的文档和/或段落。
查询第二分词对应的文档标识和/或段落标识,进一步确定第二分词对应的文档和/或段落,与查询第一分词对应的文档标识和/或段落标识,进一步确定第一分词对应的文档和/或段落类似,相关说明可以参见上述实施例,在此不再赘述。
步骤403:对第二分词对应的文档和/或段落进行排序。
在本申请实施例一些可能的实现方式中,对第二分词对应的文档和/或段落进行排序的实现过程可以包括:
根据第二分词对应的文档的文档类型、第二分词在每篇对应的文档中的出现次数、第二分词在每篇对应的文档中的出现比例、第二分词在每篇对应的文档中的出现位置、各个第二分词在每篇对应的文档中的距离中的一项或多项,对第二分词对应的文档进行排序;
和/或,
根据第二分词在每个对应的段落中的出现次数、第二分词在每个对应的段落中的出现比例、第二分词在每个对应的段落中的出现位置、各个第二分词在每个对应的段落中的距离中的一项或多项,对第二分词对应的段落进行排序。
对第二分词对应的文档和/或段落进行排序,与对第一分词对应的文档和/或段落进行排序类似,相关说明可以参见上述实施例,在此不再赘述。
步骤404:获取针对任一相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示。
在终端显示相关词后,用户可以通过触发任一相关词,发起针对该相关词的查询请求,服务器在接收到针对该相关词的查询请求后,可以直接获得已经计算好的排序结果,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示,此时节省了计算排序结果的时间,可以使用户更快地获得需要的文档摘要和/或段落摘要。
步骤405:在获取到针对任一第二分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。
步骤405的实现过程与步骤204的实现过程类似,相关说明可以参见上述实施例,在此不再赘述。
在本实施例中,可以确定出查询词的相关词,并向用户推荐相关词,使用户可以再针对相关词进行查询,同时,在确定相关词后,预先计算好各个相关词对应的文档和/或段落,并将各个相关词对应的文档和/或段落进行排序,在用户针对某个相关词进行查询时,可以快速获取到排序结果,直接将排序结果发送给用户,节约了大量时间,进一步提高了用户在海量文档中阅读相关内容的速度。
基于上述任一实施例,参见图5所示,示出了本申请实施例中提供的又一种目标文本显示方法实施例的流程图,在本实施例中还可以根据各个用户的历史查询词记录,确定出用户在输入查询词之后最可能又输入的查询词,即确定查询词对应的预测查询词,并预先计算出预测查询词对应的文档和/或段落,在用户需要查询预测查询词时,可以快速将相关内容发送给终端,从而实现用户对目标文本的快速阅读,本实施例可以包括以下步骤:
步骤501:根据历史查询词记录,确定查询词对应的预测查询词,预测查询词包括第三分词。
服务器记录有各个用户的查询记录,根据该查询记录可以确定出不同用户输入查询词的顺序,则根据历史查询词记录,可以确定出在输入查询词后最可能再输入的查询词即为预测查询词。例如,通过统计,用户在输入查询“人工智能”后,再输入查询“神经网络”的概率最高,则查询词“人工智能”对应的预测查询词为“神经网络”。类似的,预测查询词可以包括一个或多个第三分词,第三分词为倒排索引中的一个分词。
可以理解的是,预测查询词可以是上述相关词中的一个或多个,也可以与上述相关词不同。
步骤502:根据倒排索引,查询第三分词对应的文档标识和/或段落标识,根据第三分词对应的文档标识和/或段落标识确定第三分词对应的文档和/或段落。
查询第三分词对应的文档标识和/或段落标识,进一步确定第三分词对应的文档和/或段落,与查询第一分词对应的文档标识和/或段落标识,进一步确定第一分词对应的文档和/或段落类似,相关说明可以参见上述实施例,在此不再赘述。
步骤503:对第三分词对应的文档和/或段落进行排序。
在本申请实施例一些可能的实现方式中,对第三分词对应的文档和/或段落进行排序的实现过程可以包括:
根据第三分词对应的文档的文档类型、第三分词在每篇对应的文档中的出现次数、第三分词在每篇对应的文档中的出现比例、第三分词在每篇对应的文档中的出现位置、各个第三分词在每篇对应的文档中的距离中的一项或多项,对第三分词对应的文档进行排序;
和/或,
根据第三分词在每个对应的段落中的出现次数、第三分词在每个对应的段落中的出现比例、第三分词在每个对应的段落中的出现位置、各个第三分词在每个对应的段落中的距离中的一项或多项,对第三分词对应的段落进行排序。
对第三分词对应的文档和/或段落进行排序,与对第一分词对应的文档和/或段落进行排序类似,相关说明可以参见上述实施例,在此不再赘述。
步骤504:获取针对任一预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示。
在用户进一步输入的查询词即为预测查询词时,则服务器可以获取针对该预测查询词的查询请求,此时可以直接获得已经计算好的排序结果,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示,此时节省了计算排序结果的时间,可以使用户更快地获得需要的文档摘要和/或段落摘要。
步骤505:在获取到针对任一第三分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。
步骤505的实现过程与步骤204的实现过程类似,相关说明可以参见上述实施例,在此不再赘述。
在本实施例中,可以确定出查询词对应的预测查询词,预先计算好各个预测查询词对应的文档和/或段落,并将各个预测查询词对应的文档和/或段落进行排序,在用户针对某个预测查询词进行查询时,可以快速获取到排序结果,直接将排序结果发送给用户,节约了大量时间,进一步提高了用户在海量文档中阅读相关内容的速度。
参见图6所示,本申请实施例还提供一种目标文本显示装置实施例,可以包括:
建立单元601,用于预先建立倒排索引,倒排索引包括各个分词对应的文档标识以及段落标识;
第一获取单元602,用于获取用户输入的查询词,查询词包括第一分词;
第一查询单元603,用于根据倒排索引,查询第一分词对应的文档标识和/或段落标识,根据第一分词对应的文档标识和/或段落标识确定第一分词对应的文档和/或段落;
第一排序单元604,用于对第一分词对应的文档和/或段落进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;
第一发送单元605,用于在获取到针对任一第一分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。
在本申请实施例一些可能的实现方式中,该装置还包括:
第一确定单元,用于确定查询词对应的相关词,向终端发送相关词进行显示,相关词包括第二分词;
第二查询单元,用于根据倒排索引,查询第二分词对应的文档标识和/或段落标识,根据第二分词对应的文档标识和/或段落标识确定第二分词对应的文档和/或段落;
第二排序单元,用于对第二分词对应的文档和/或段落进行排序;
第二获取单元,用于获取针对任一相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
第二发送单元,用于在获取到针对任一第二分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。
在本申请实施例一些可能的实现方式中,第一确定单元可以包括:
第一确定子单元,用于根据分词特征模型确定第一分词的特征向量以及其他各个分词的特征向量;
计算子单元,用于计算第一分词的特征向量与其他各个分词的特征向量之间的相似度;
第二确定子单元,用于将与第一分词的特征向量的相似度满足预设条件的分词确定为相关词。
在本申请实施例一些可能的实现方式中,第一确定子单元可以具体用于:
将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为分词特征模型的输入,对分词特征模型进行训练,在分词特征模型达到收敛条件后,得到第一分词的特征向量以及其他各个分词的特征向量,分词特征模型为神经网络模型。
在本申请实施例一些可能的实现方式中,该装置还可以包括:
第二确定单元,用于根据历史查询词记录,确定查询词对应的预测查询词,预测查询词包括第三分词;
第三查询单元,用于根据倒排索引,查询第三分词对应的文档标识和/或段落标识,根据第三分词对应的文档标识和/或段落标识确定第三分词对应的文档和/或段落;
第三排序单元,用于对第三分词对应的文档和/或段落进行排序;
第三获取单元,用于获取针对任一预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
第三发送单元,用于在获取到针对任一第三分词对应的文档摘要或者段落摘要的显示请求,向终端发送该文档摘要或者段落摘要对应的文档页面,以使终端加载显示该文档页面。
在本申请实施例一些可能的实现方式中,第一排序单元可以具体用于:
根据第一分词对应的文档的文档类型、第一分词在每篇对应的文档中的出现次数、第一分词在每篇对应的文档中的出现比例、第一分词在每篇对应的文档中的出现位置、各个第一分词在每篇对应的文档中的距离中的一项或多项,对第一分词对应的文档进行排序;
和/或,
根据第一分词在每个对应的段落中的出现次数、第一分词在每个对应的段落中的出现比例、第一分词在每个对应的段落中的出现位置、各个第一分词在每个对应的段落中的距离中的一项或多项,对第一分词对应的段落进行排序。
在本申请实施例一些可能的实现方式中,第二排序单元可以具体用于:
根据第二分词对应的文档的文档类型、第二分词在每篇对应的文档中的出现次数、第二分词在每篇对应的文档中的出现比例、第二分词在每篇对应的文档中的出现位置、各个第二分词在每篇对应的文档中的距离中的一项或多项,对第二分词对应的文档进行排序;
和/或,
根据第二分词在每个对应的段落中的出现次数、第二分词在每个对应的段落中的出现比例、第二分词在每个对应的段落中的出现位置、各个第二分词在每个对应的段落中的距离中的一项或多项,对第二分词对应的段落进行排序。
在本申请实施例一些可能的实现方式中,第三排序单元可以具体用于:
根据第三分词对应的文档的文档类型、第三分词在每篇对应的文档中的出现次数、第三分词在每篇对应的文档中的出现比例、第三分词在每篇对应的文档中的出现位置、各个第三分词在每篇对应的文档中的距离中的一项或多项,对第三分词对应的文档进行排序;
和/或,
根据第三分词在每个对应的段落中的出现次数、第三分词在每个对应的段落中的出现比例、第三分词在每个对应的段落中的出现位置、各个第三分词在每个对应的段落中的距离中的一项或多项,对第三分词对应的段落进行排序。
本申请实施例可以预先将各个文档中的各个分词所处于文档的文档标识以及所处于段落的段落标识记录下来,建立倒排索引,在用户需要查找某些关注点时,可以输入查询词,该查询词包括有一个或多个第一分词。在获取查询词后,可以根据预先建立的倒排索引,快速查找到第一分词对应的文档标识和/或段落标识,进一步可以获得第一分词对应的文档和/或段落,对第一分词对应的文档和/或段落按照与查询词的关联性进行排序,按照排序结果将第一分词对应的文档摘要和/或段落摘要发送给用户的终端进行显示,则用户可以触发任一文档摘要或者段落摘要,从而将该文档摘要或者段落摘要对应的文档页面进行显示,实现了用户可以快速浏览多个文档中的某一内容,大量节约了用户的阅读时间,提高了用户的阅读体验。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种目标文本显示方法,其特征在于,预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识,所述方法包括:
获取用户输入的查询词,所述查询词包括第一分词;
根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;
对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;
在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;
根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;
对所述第二分词对应的文档和/或段落进行排序;
获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
3.根据权利要求2所述的方法,其特征在于,所述确定所述查询词对应的相关词,包括:
根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;
计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;
将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。
4.根据权利要求3所述的方法,其特征在于,所述根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量,包括:
将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;
根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;
对所述第三分词对应的文档和/或段落进行排序;
获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
在获取到针对任一所述第三分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一分词对应的文档和/或段落进行排序,包括:
根据所述第一分词对应的文档的文档类型、所述第一分词在每篇对应的文档中的出现次数、所述第一分词在每篇对应的文档中的出现比例、所述第一分词在每篇对应的文档中的出现位置、各个所述第一分词在每篇对应的文档中的距离中的一项或多项,对所述第一分词对应的文档进行排序;
和/或,
根据所述第一分词在每个对应的段落中的出现次数、所述第一分词在每个对应的段落中的出现比例、所述第一分词在每个对应的段落中的出现位置、各个所述第一分词在每个对应的段落中的距离中的一项或多项,对所述第一分词对应的段落进行排序。
7.一种目标文本显示装置,其特征在于,所述装置包括:
建立单元,用于预先建立倒排索引,所述倒排索引包括各个分词对应的文档标识以及段落标识;
第一获取单元,用于获取用户输入的查询词,所述查询词包括第一分词;
第一查询单元,用于根据所述倒排索引,查询所述第一分词对应的文档标识和/或段落标识,根据所述第一分词对应的文档标识和/或段落标识确定所述第一分词对应的文档和/或段落;
第一排序单元,用于对所述第一分词对应的文档和/或段落进行排序,按照排序结果将所述第一分词对应的文档摘要和/或段落摘要发送给终端顺序显示;
第一发送单元,用于在获取到针对任一所述第一分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一确定单元,用于确定所述查询词对应的相关词,向所述终端发送所述相关词进行显示,所述相关词包括第二分词;
第二查询单元,用于根据所述倒排索引,查询所述第二分词对应的文档标识和/或段落标识,根据所述第二分词对应的文档标识和/或段落标识确定所述第二分词对应的文档和/或段落;
第二排序单元,用于对所述第二分词对应的文档和/或段落进行排序;
第二获取单元,用于获取针对任一所述相关词的查询请求,将该相关词包括的第二分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
第二发送单元,用于在获取到针对任一所述第二分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
9.根据权利要求8所述的装置,其特征在于,所述第一确定单元包括:
第一确定子单元,用于根据分词特征模型确定所述第一分词的特征向量以及其他各个分词的特征向量;
计算子单元,用于计算所述第一分词的特征向量与其他各个分词的特征向量之间的相似度;
第二确定子单元,用于将与所述第一分词的特征向量的相似度满足预设条件的分词确定为相关词。
10.根据权利要求9所述的装置,其特征在于,所述第一确定子单元具体用于:
将任一分词的初始特征向量作为分词特征模型的输出,按照各个文档中的语序,将该分词先后预设范围内分词的初始特征向量作为所述分词特征模型的输入,对所述分词特征模型进行训练,在所述分词特征模型达到收敛条件后,得到所述第一分词的特征向量以及其他各个分词的特征向量,所述分词特征模型为神经网络模型。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二确定单元,用于根据历史查询词记录,确定所述查询词对应的预测查询词,所述预测查询词包括第三分词;
第三查询单元,用于根据所述倒排索引,查询所述第三分词对应的文档标识和/或段落标识,根据所述第三分词对应的文档标识和/或段落标识确定所述第三分词对应的文档和/或段落;
第三排序单元,用于对所述第三分词对应的文档和/或段落进行排序;
第三获取单元,用于获取针对任一所述预测查询词的查询请求,将该预测查询词包括的第三分词对应的文档摘要和/或段落摘要按照排序结果发送给终端顺序显示;
第三发送单元,用于在获取到针对任一所述第三分词对应的文档摘要或者段落摘要的显示请求,向所述终端发送该文档摘要或者段落摘要对应的文档页面,以使所述终端加载显示该文档页面。
12.根据权利要求7所述的装置,其特征在于,所述第一排序单元具体用于:
根据所述第一分词对应的文档的文档类型、所述第一分词在每篇对应的文档中的出现次数、所述第一分词在每篇对应的文档中的出现比例、所述第一分词在每篇对应的文档中的出现位置、各个所述第一分词在每篇对应的文档中的距离中的一项或多项,对所述第一分词对应的文档进行排序;
和/或,
根据所述第一分词在每个对应的段落中的出现次数、所述第一分词在每个对应的段落中的出现比例、所述第一分词在每个对应的段落中的出现位置、各个所述第一分词在每个对应的段落中的距离中的一项或多项,对所述第一分词对应的段落进行排序。
CN201810142223.XA 2018-02-11 2018-02-11 一种目标文本显示方法及装置 Pending CN108363682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810142223.XA CN108363682A (zh) 2018-02-11 2018-02-11 一种目标文本显示方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810142223.XA CN108363682A (zh) 2018-02-11 2018-02-11 一种目标文本显示方法及装置

Publications (1)

Publication Number Publication Date
CN108363682A true CN108363682A (zh) 2018-08-03

Family

ID=63005884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810142223.XA Pending CN108363682A (zh) 2018-02-11 2018-02-11 一种目标文本显示方法及装置

Country Status (1)

Country Link
CN (1) CN108363682A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710844A (zh) * 2018-12-20 2019-05-03 中国银行业监督管理委员会福建监管局 基于搜索引擎的快速准确定位文件的方法和设备
CN110162617A (zh) * 2018-09-29 2019-08-23 腾讯科技(深圳)有限公司 提取摘要信息的方法、装置、语言处理引擎和介质
CN110795553A (zh) * 2019-09-09 2020-02-14 腾讯科技(深圳)有限公司 一种摘要生成方法及设备
CN113448984A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 文档定位展示方法、装置、服务器及电子设备
CN114722194A (zh) * 2022-03-15 2022-07-08 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149494A1 (en) * 2002-01-16 2005-07-07 Per Lindh Information data retrieval, where the data is organized in terms, documents and document corpora
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索***
CN103617266A (zh) * 2013-12-03 2014-03-05 北京奇虎科技有限公司 个性化扩展搜索方法及装置、***
WO2017131753A1 (en) * 2016-01-29 2017-08-03 Entit Software Llc Text search of database with one-pass indexing including filtering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149494A1 (en) * 2002-01-16 2005-07-07 Per Lindh Information data retrieval, where the data is organized in terms, documents and document corpora
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索***
CN103617266A (zh) * 2013-12-03 2014-03-05 北京奇虎科技有限公司 个性化扩展搜索方法及装置、***
WO2017131753A1 (en) * 2016-01-29 2017-08-03 Entit Software Llc Text search of database with one-pass indexing including filtering

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯贵川: "基于Word2vec的文本建模及分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
杨沛: "单汉字和词索引机制的模式比较", 《集美航海学院学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162617A (zh) * 2018-09-29 2019-08-23 腾讯科技(深圳)有限公司 提取摘要信息的方法、装置、语言处理引擎和介质
CN110162617B (zh) * 2018-09-29 2022-11-04 腾讯科技(深圳)有限公司 提取摘要信息的方法、装置、语言处理引擎和介质
CN109710844A (zh) * 2018-12-20 2019-05-03 中国银行业监督管理委员会福建监管局 基于搜索引擎的快速准确定位文件的方法和设备
CN110795553A (zh) * 2019-09-09 2020-02-14 腾讯科技(深圳)有限公司 一种摘要生成方法及设备
CN110795553B (zh) * 2019-09-09 2024-04-23 腾讯科技(深圳)有限公司 一种摘要生成方法及设备
CN113448984A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 文档定位展示方法、装置、服务器及电子设备
CN113448984B (zh) * 2021-07-15 2024-03-26 中国银行股份有限公司 文档定位展示方法、装置、服务器及电子设备
CN114722194A (zh) * 2022-03-15 2022-07-08 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法
CN114722194B (zh) * 2022-03-15 2023-05-09 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法

Similar Documents

Publication Publication Date Title
CN108363682A (zh) 一种目标文本显示方法及装置
CN109871483A (zh) 一种推荐信息的确定方法及装置
CN101119326B (zh) 一种即时通信会话记录的管理方法及装置
CN101641697B (zh) 对网页的相关搜索查询及其应用
US20160048754A1 (en) Classifying resources using a deep network
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN109241526B (zh) 一种段落分割方法和装置
US20150186938A1 (en) Search service advertisement selection
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN104899322A (zh) 搜索引擎及其实现方法
CN108319627A (zh) 关键词提取方法以及关键词提取装置
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN106874292A (zh) 话题处理方法及装置
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN110727862A (zh) 一种商品搜索的查询策略的生成方法及装置
CN108509499A (zh) 一种搜索方法及装置,电子设备
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN109948140B (zh) 一种词向量嵌入方法及装置
CN110489638A (zh) 一种搜索方法、装置、服务器、***及存储介质
CN113342948A (zh) 一种智能问答方法及装置
CN108694183A (zh) 一种检索方法及装置
US11176209B2 (en) Dynamically augmenting query to search for content not previously known to the user
CN106021615A (zh) 题目搜索优化方法及装置
CN117391824B (zh) 基于大语言模型和搜索引擎推荐物品的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803