CN113761227A - 文本数据的搜索方法和装置 - Google Patents

文本数据的搜索方法和装置 Download PDF

Info

Publication number
CN113761227A
CN113761227A CN202010806630.3A CN202010806630A CN113761227A CN 113761227 A CN113761227 A CN 113761227A CN 202010806630 A CN202010806630 A CN 202010806630A CN 113761227 A CN113761227 A CN 113761227A
Authority
CN
China
Prior art keywords
text
corpus
space
time
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010806630.3A
Other languages
English (en)
Inventor
兰亚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010806630.3A priority Critical patent/CN113761227A/zh
Publication of CN113761227A publication Critical patent/CN113761227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种文本数据的搜索方法和装置,涉及计算机技术领域。该方法包括:利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征;根据时空特征与各语料文本的时空标签的匹配程度,确定与搜索文本数据匹配的语料文本,时空标签用于标注语料文本的时间信息或空间信息中的至少一项。

Description

文本数据的搜索方法和装置
技术领域
本公开涉及计算机技术领域,特别涉及一种文本数据的搜索方法、文本数据的搜索装置和非易失性计算机可读存储介质。
背景技术
由于计算机和网络技术的发展,现今的网络上存储着海量文本,且时刻处于增长中。因此,如何从海量文本中准确地搜索出想要的内容十分重要。
在相关技术中,大都基于关键词内容匹配,实现作为用户获取信息入口的搜索引擎。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:不具备深入挖掘信息内在联系的功能,导致搜索结果的准确性低。
鉴于此,本公开提出了一种文本数据的搜索技术方案,能够提高搜索结果的准确性。
根据本公开的一些实施例,提供了一种文本数据的搜索方法,包括:利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征;根据时空特征与各语料文本的时空标签的匹配程度,确定与搜索文本数据匹配的语料文本,时空标签用于标注语料文本的时间信息或空间信息中的至少一项。
在一些实施例中,时空标签通过如下步骤生成:利用机器学习模型,提取待处理文本中各语句的时间特征或空间特征中的至少一项作为时空特征;根据时空特征,将待处理文本划分为各语料文本,并生成各语料文本的时空标签。
在一些实施例中,根据时空特征与各语料文本的时空标签的匹配程度,确定与搜索文本数据匹配的语料文本包括:根据搜索特征与各语料文本的时空标签的匹配程度,确定第一语料文本;根据第一语料文本的事件标签,确定与第一语料文本属于同类事件的第二语料文本;将第一语料文本和第二语料文本,确定为与搜索文本数据匹配的语料文本。
在一些实施例中,事件标签通过如下步骤生成:根据待处理文本中各语料文本的上下文信息,利用机器学习模型,提取各语料文本的事件特征;为具有同类事件特征的语料文本标注相同的事件标签。
在一些实施例中,与搜索文本数据匹配的语料文本为多个;该方法还包括:根据多个匹配的语料文本的事件标签,确定搜索文本数据的相关事件;根据多个匹配的语料文本的时空标签,生成相关事件的空间轨迹信息或者时间轴信息中的至少一项。
在一些实施例中,该方法还包括下面步骤中的至少一项:根据相关事件的空间轨迹信息,在地图上的相应位置对相关事件进行标注显示;或者根据相关事件的空间轨迹信息,在地图上确定相关区域,并在相关区域上显示根据时间轴信息确定的时间文字信息,或时间轴图形信息。
根据本公开的另一些实施例,提供一种文本数据的搜索装置,包括:提取单元,用于利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征;确定单元,用于根据时空特征与各语料文本的时空标签的匹配程度,确定与搜索文本数据匹配的语料文本,时空标签用于标注语料文本的时间信息或空间信息中的至少一项。
在一些实施例中,时空标签通过如下步骤生成:利用机器学习模型,提取待处理文本中各语句的时间特征或空间特征中的至少一项作为时空特征;根据时空特征,将待处理文本划分为各语料文本,并生成各语料文本的时空标签。
在一些实施例中,确定单元根据搜索特征与各语料文本的时空标签的匹配程度,确定第一语料文本;根据第一语料文本的事件标签,确定与第一语料文本属于同类事件的第二语料文本;将第一语料文本和第二语料文本,确定为与搜索文本数据匹配的语料文本。
在一些实施例中,事件标签通过如下步骤生成:根据待处理文本中各语料文本的上下文信息,利用机器学习模型,提取各语料文本的事件特征;为具有同类事件特征的语料文本标注相同的事件标签。
在一些实施例中,与搜索文本数据匹配的语料文本为多个,确定单元根据多个匹配的语料文本的事件标签,确定搜索文本数据的相关事件;该装置还包括:生成单元,用于根据多个匹配的语料文本的时空标签,生成相关事件的空间轨迹信息或者时间轴信息中的至少一项。
在一些实施例中,该装置还包括显示单元,用于执行如下步骤中的至少一项:根据相关事件的空间轨迹信息,在地图上的相应位置对相关事件进行标注显示;或者根据相关事件的空间轨迹信息,在地图上确定相关区域,并在相关区域上显示根据时间轴信息确定的时间文字信息,或时间轴图形信息。
根据本公开的又一些实施例,提供一种文本数据的搜索装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的文本数据的搜索方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的文本数据的搜索方法。
在上述实施例中,以文本文数据的时空特征为搜索依据,能够深入挖掘文本数据中的关联关系,从而提高搜索结果的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开:
图1示出本公开的文本数据的搜索方法的一些实施例的流程图;
图2示出图1中步骤120的一些实施例的流程图;
图3示出本公开的文本数据的搜索方法的一些实施例的示意图;
图4示出本公开的文本数据的搜索方法的另一些实施例的示意图;
图5示出本公开的文本数据的搜索装置的一些实施例的框图;
图6示出本公开的文本数据的搜索装置的另一些实施例的框图;
图7示出本公开的文本数据的搜索装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述,网络上存储的海量文本包含大量的时间和空间信息,因此众多文本内容之间往往存在着时空关联。利用不具备抽取、组织、关联、检索和分析这些时空信息的搜索方法,使得用户在使用搜索引擎过程中往往面临着搜索结果不准确,或者需要人工筛选检索结果的技术问题。
为了解决上述技术问题,本公开基于自然语言处理技术,智能抽取、计算、推测文本内容中的时间和空间信息。基于时空信息确定的时空场景,将文本内容切割成多个时空事件。时空事件可以具备时间、地点、人物、事件类型等属性。
使用时空事件作为检索和分析的最小处理颗粒,能够提高搜索结果的准确性。结合不同的应用分析模型,还能够进一步挖掘出文本内容中的时空知识和价值。例如,可以通过下面的实施例实现本公开的技术方案。
图1示出本公开的文本数据的搜索方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,提取时空特征;和步骤120,确定匹配的语料文本。
在步骤110中,利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征。
在步骤120中,根据时空特征与各语料文本的时空标签的匹配程度,确定与搜索文本数据匹配的语料文本。时空标签用于标注语料文本的时间信息或空间信息中的至少一项。
在一些实施例中,可以建立语料库,用于存放标注后的各语料文本的集合。例如,每一条语料文本作为一个时空时间,具有一个时空标签。
在一些实施例中,利用机器学习模型,提取待处理文本中各语句的时间特征或空间特征中的至少一项作为时空特征;根据时空特征,将待处理文本划分为各语料文本,并生成各语料文本的时空标签。
在一些实施例中,可以对各语句进行分词处理和词性确定处理。根据处理结果,利用机器学习模型提取各语句的时空特征。例如,可以利用labeled-LDA(Latent DirichletAllocation,潜在狄利克雷分配)模型,提取时空特征并标注时空标签。
在一些实施例中,可以利用n元模型对各语句进行分词。例如,可以通过如下的公式计算语句中的单字ωi对于其前面n个单字的出现概率P(ωii-(n-1),…,ωi-1)为:
Figure BDA0002629360450000061
count()为计算单词组合出现的次数。也就是说,P(ωii-(n-1),…,ωi-1)为单字组合(ωi-(n-1),…,ωi)在文档中的词频,与单字组合(ωi-(n-1),…,ωi-1)在文档中的词频的比值。
根据各ωi的P(ωii-(n-1),…,ωi-1),计算单字组合(ωi-(n-1),…,ωi)的概率分布P(ωi-(n-1),…,ωi)。例如,可以根据各P(ωii-(n-1),…,ωi-1)的乘积,计算P(ωi-(n-1),…,ωi)。在P(ωi-(n-1),…,ωi)大于阈值的情况下,将单字组合(ωi-(n-1),…,ωi)划分为一个词。
在一些实施例中,在对各语句进行分词处理后,可以将词性标注建模为序列标注问题,利用机器学习模型进行词性标注。例如,机器学习模型可以为隐马尔可夫模型、条件随机场模型等。
这样,可以对词典中未出现的词进行划分,并可以根据上下文语境提高分词准确性。
在进行分词和词性标注处理后,可以进一步提取时空特征。这样,可以深入挖掘文本数据中的时空关联作为下面搜索的依据,从而提高搜索准确性。
在一些实施例中,可以通过图2中的实施例实现步骤120。
图2示出图1中步骤120的一些实施例的流程图。
如图2所示,步骤120包括:步骤1210,确定第一语料文本;步骤1220,确定第二语料文本;和步骤1230,确定匹配的语料文本。
在步骤1210中,根据搜索特征与各语料文本的时空标签的匹配程度,确定第一语料文本。
在步骤1220中,根据第一语料文本的事件标签,确定与第一语料文本属于同类事件的第二语料文本。
在一些实施例中,根据待处理文本中所述各语料文本的上下文信息,利用机器学习模型,提取各语料文本的事件特征;为具有同类事件特征的语料文本标注相同的事件标签。
在一些实施例中,可以将属于同一事件的各时空事件归类于同一类时空事件,并将同一类时空事件构建为一个事件集合。一个事件集合中的各时空事件具有相同的事件标签。
这样,可以实现各语料文本的多时空关联分析,将同一事件下的不同时空时间关联在一起。例如,可以根据时空标签,将属于同一事件集合的各时空事件进行事件排序、地理归类,实现一个事件的过程推演。通过这种时空关联,可以提高搜索结果的覆盖范围,进一步提高搜索结果的准确性。
在步骤1230中,将第一语料文本和第二语料文本,确定为与搜索文本数据匹配的语料文本。
在一些实施例中,与搜索文本数据匹配的语料文本为多个。在这种情况下,可以根据多个匹配的语料文本的事件标签,确定搜索文本数据的相关事件;根据多个匹配的语料文本的时空标签,生成相关事件的空间轨迹信息或者时间轴信息中的至少一项。
在一些实施例中,根据相关事件的空间轨迹信息,在地图上的相应位置对相关事件进行标注显示。
在一些实施例中,根据相关事件的空间轨迹信息,在地图上确定相关区域,并在相关区域上显示根据时间轴信息确定的时间文字信息,或时间轴图形信息。
在一些实施例中,可以通过图3中的实施例配置本公开技术方案的服务端。
图3示出本公开的文本数据的搜索方法的一些实施例的示意图。
如图3所示,该方法的服务端(平台)可以包括应用展示层、第一服务层、第二服务层和基础组件层。
在一些实施例中,应用展示层可以包括React+Redux框架、Terria地图框架、Echart(可视化工具)等。
在一些实施例中,第一服务层可以包括Shiro+jwt权限框架、基础服务模块、数据采集模块等。例如,还可以包括算法分析池、时空信息抽取模块、新闻态势分析模型、多时空关联分析模型等。
在一些实施例中,第二服务层可以包括WndShaft、Car.CSS等。
在一些实施例中,基础组件可以包括Citus、postgresql、Zombodb、ES(ElasticSearch,弹性搜索)、Redis(缓存)、MapNik等。
在一些实施例中,鉴于服务端的数据量大,单台数据库难以支撑,可以采用postgresql搭建集群,并采用分库分表来缓解单库、单表的读写压力。
在一些实施例中,该方法的搜索可以包括全文检索。可以采用postgresql专用citus数据库中间件,采用ES服务实现全文检索。例如,可以采用Zombodb插件接入ES服务。这样,Zombodb在不必将数据同步ES服务中的前提下,能够使得postgresql数据库内部支持ES全文索引。
在一些实施例中,基于Redis实现数据缓存服务。采用Mapnik将空间信息渲染为地图。采用kafka实现消息队列。
在一些实施例中,第一服务层响应上层应用和第二服务层的请求,向平台数据库获取数据,以进行业务逻辑处理;向应用层反馈数据。为整个各项功能的实现提供服务支撑。
图4示出本公开的文本数据的搜索方法的另一些实施例的示意图。
如图4所示,文档库用于存放作为搜索范围的文档内容。文档库可以包括文档内容和文件夹(如可以支持子文件夹嵌套)。
例如,删除文件夹将同时删除所包含的文档内容和子文件夹。可以支持重命名和复制移动。文档库可设置为公开或私有。
例如,文档库创建与管理可以默认最多支持用户创建10个文档库,并可以根据需要进行配置。默认用户最大使用文档存储空间可以为200MB,并可以根据需要进行配置。
在一些实施例中,在文档内容的创建、浏览、管理达到用户存储空间阈值之前,可以通过上传文件或提供链接两种方式添加文档内容至指定的文件夹。
在一些实施例中,文档库中的文档内容可以为用户上传的个人文档或这提供的链接原文;也可以是利用网络文档爬虫从互联网网站中爬取后上传。例如,链接可以支持网页正文抽取。
在一些实施例中,需要在上传文档时提供文档的元数据,用于更准确的全文解析。文档的公开或私有设置,取决于所在文档库的公开性。
在一些实施例中,语料库用于存放标注后的语料文本集合用于训练。标注后的语料文本包括标签和分词后的文档内容。
例如,可以默认用户最多支持创建10个语料库,并可以根据需要进行配置。语料库可以不存储文件,仅提取文本内容进行存储。可以默认用户的语料文本最多支持2万个词汇,并可以根据需要进行配置。
例如,语料文本可以支持浏览和编辑。更新语料库后,可以重新训练机器学习模型。
在一些实施例中,语料库中的语料文本可以从文档库转发过来,然后编辑而成;可以由用户直接上传到语料库。例如,可以对文档库中的文档进行时空特征的提取和多时空分析,生成语料文本并转发给语料库存储。
在一些实施例中,每个语料库可以对应一个Labeled-LDA模型用于标注时空标签。例如,Labeled-LDA模型更新后,可以执行更新标签的任务。此时,可以使用Labeled-LDA模型重新生成时空标签。语料库可设置为公开或私有。
在一些实施例中,事件集合可以为用户创建的逻辑分组,用于将同一类时空事件收集在一起。事件集合可以用于后续分析和地图可视化显示。例如,用户可以创建关于某活动的事件集合,用于将所有该活动的时空事件收集在一起。
在一些实施例中,事件集合可设置为公开或私有。公开事件集合不区分来时空事件源于私有文档或公开文档。事件集合一旦公开,来源于私有文档里的时空事件也将公开,但源文档不会公开。
在一些实施例中,可以将某一文档库中文档对应的所有时空事件批量添加到事件集合中。事件集合可以为地图可视化和分析提供数据基础。每个文档库可以建立一个事件集合,用户也可以对默认事件集合进行修改。
在一些实施例中,用户可以通过搜索引擎对搜索文本进行检索查询,检索的处理粒度为时空事件。例如,可以同时支持关键词查询的基本查询和基于时间查询和空间查询的高级查询。
在一些实施例中,可以支持基于标签检索和指定检索范围(如全部公开事件和自己私有的数据、指定事件集)。
在一些实施例中,可以通过分词对时空事件进行训练标注后,以语料库和事件集合的方式存储。当用户通过关键字进行搜索时,可根据事件集合的事件标签或各时空标签作为索引进行展示。
在一些实施例中,可以根据关键字查询、事件查询对应的搜索文本数据中的时间信息,进行时间排序;或者根据空间查询对应的搜索文本数据中空间信息,进行地理归类。根据排序结果、归类结果在事件集合中进行查询。
在一些实施例中,可以将检索结果返回用户。还可以根据检索结果,利用地图服务进行展示以便进行地图可视化分析。
在一些实施例中,地图可视化分析的数据源为指定的事件集合。事件集合与制图方案可以为一对多关系。例如,同一事件集合可创建不同的地图可视化方案(位置轨迹、时间轴、时间信息等)。制图方案可以保存,公开或私有取决于制图用到的事件集合。制图方案可按图名、作者用户名、数据集合名检索。
图5示出本公开的文本数据的搜索装置的一些实施例的框图。
如图5所示,文本数据的搜索装置5包括提取单元51、确定单元52。
提取单元51利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征。
确定单元52根据时空特征与各语料文本的时空标签的匹配程度,确定与搜索文本数据匹配的语料文本。时空标签用于标注语料文本的时间信息或空间信息中的至少一项。
在一些实施例中,时空标签通过如下步骤生成:利用机器学习模型,提取待处理文本中各语句的时间特征或空间特征中的至少一项作为时空特征;根据时空特征,将待处理文本划分为各语料文本,并生成各语料文本的时空标签。
在一些实施例中,确定单元52根据搜索特征与各语料文本的时空标签的匹配程度,确定第一语料文本;根据第一语料文本的事件标签,确定与第一语料文本属于同类事件的第二语料文本;将第一语料文本和第二语料文本,确定为与搜索文本数据匹配的语料文本。
在一些实施例中,事件标签通过如下步骤生成:根据待处理文本中各语料文本的上下文信息,利用机器学习模型,提取各语料文本的事件特征;为具有同类事件特征的语料文本标注相同的事件标签。
在一些实施例中,与搜索文本数据匹配的语料文本为多个。确定单元52根据多个匹配的语料文本的事件标签,确定搜索文本数据的相关事件。
在一些实施例中,搜索装置5还包括生成单元51,用于根据多个匹配的语料文本的时空标签,生成相关事件的空间轨迹信息或者时间轴信息中的至少一项。
在一些实施例中,搜索装置5还包括显示单元52,用于执行如下步骤中的至少一项:根据相关事件的空间轨迹信息,在地图上的相应位置对相关事件进行标注显示;或者根据相关事件的空间轨迹信息,在地图上确定相关区域,并在相关区域上显示根据时间轴信息确定的时间文字信息,或时间轴图形信息。
图6示出本公开的文本数据的搜索装置的另一些实施例的框图。
如图6所示,该实施例的文本数据的搜索装置6包括:存储器61以及耦接至该存储器61的处理器62,处理器62被配置为基于存储在存储器61中的指令,执行本公开中任意一个实施例中的文本数据的搜索方法。
其中,存储器61例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。
图7示出本公开的文本数据的搜索装置的又一些实施例的框图。
如图7所示,该实施例的文本数据的搜索装置7包括:存储器710以及耦接至该存储器710的处理器720,处理器720被配置为基于存储在存储器710中的指令,执行前述任意一个实施例中的文本数据的搜索方法。
存储器710例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序Boot Loader以及其他程序等。
文本数据的搜索装置7还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的文本数据的搜索方法、文本数据的搜索装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (11)

1.一种文本数据的搜索方法,包括:
利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征;
根据所述时空特征与各语料文本的时空标签的匹配程度,确定与所述搜索文本数据匹配的语料文本,所述时空标签用于标注语料文本的时间信息或空间信息中的至少一项。
2.根据权利要求1所述的搜索方法,其中,所述时空标签通过如下步骤生成:
利用机器学习模型,提取待处理文本中各语句的时间特征或空间特征中的至少一项作为时空特征;
根据所述时空特征,将所述待处理文本划分为所述各语料文本,并生成所述各语料文本的时空标签。
3.根据权利要求1所述的搜索方法,其中,所述根据所述时空特征与各语料文本的时空标签的匹配程度,确定与所述搜索文本数据匹配的语料文本包括:
根据所述搜索特征与各语料文本的时空标签的匹配程度,确定第一语料文本;
根据所述第一语料文本的事件标签,确定与所述第一语料文本属于同类事件的第二语料文本;
将所述第一语料文本和所述第二语料文本,确定为与所述搜索文本数据匹配的语料文本。
4.根据权利要求3所述的搜索方法,其中,所述事件标签通过如下步骤生成:
根据待处理文本中所述各语料文本的上下文信息,利用机器学习模型,提取所述各语料文本的事件特征;
为具有同类事件特征的语料文本标注相同的事件标签。
5.根据权利要求1-4任一项所述的搜索方法,其中,
与所述搜索文本数据匹配的语料文本为多个;
还包括:
根据多个匹配的语料文本的事件标签,确定所述搜索文本数据的相关事件;
根据所述多个匹配的语料文本的时空标签,生成所述相关事件的空间轨迹信息或者时间轴信息中的至少一项。
6.根据权利要求5所述的搜索方法,还包括下面步骤中的至少一项:
根据所述相关事件的空间轨迹信息,在地图上的相应位置对所述相关事件进行标注显示;或者
根据所述相关事件的空间轨迹信息,在地图上确定相关区域,并在相关区域上显示根据所述时间轴信息确定的时间文字信息,或时间轴图形信息。
7.一种文本数据的搜索装置,包括:
提取单元,用于利用机器学习模型,提取搜索文本数据的时间特征或空间特征中的至少一项作为时空特征;
确定单元,用于根据所述时空特征与各语料文本的时空标签的匹配程度,确定与所述搜索文本数据匹配的语料文本,所述时空标签用于标注语料文本的时间信息或空间信息中的至少一项。
8.根据权利要求7所述的搜索装置,其中,
与所述搜索文本数据匹配的语料文本为多个,所述确定单元根据多个匹配的语料文本的事件标签,确定所述搜索文本数据的相关事件;
还包括:
生成单元,用于根据所述多个匹配的语料文本的时空标签,生成所述相关事件的空间轨迹信息或者时间轴信息中的至少一项。
9.根据权利要求8所述的搜索装置,还包括显示单元,用于执行如下步骤中的至少一项:
根据所述相关事件的空间轨迹信息,在地图上的相应位置对所述相关事件进行标注显示;或者
根据所述相关事件的空间轨迹信息,在地图上确定相关区域,并在相关区域上显示根据所述时间轴信息确定的时间文字信息,或时间轴图形信息。
10.一种文本数据的搜索装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-6任一项所述的文本数据的搜索方法。
11.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述的文本数据的搜索方法。
CN202010806630.3A 2020-08-12 2020-08-12 文本数据的搜索方法和装置 Pending CN113761227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010806630.3A CN113761227A (zh) 2020-08-12 2020-08-12 文本数据的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010806630.3A CN113761227A (zh) 2020-08-12 2020-08-12 文本数据的搜索方法和装置

Publications (1)

Publication Number Publication Date
CN113761227A true CN113761227A (zh) 2021-12-07

Family

ID=78785654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010806630.3A Pending CN113761227A (zh) 2020-08-12 2020-08-12 文本数据的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN113761227A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060256210A1 (en) * 2005-04-28 2006-11-16 Kathleen Ryall Spatio-temporal graphical user interface for querying videos
JP2010250496A (ja) * 2009-04-14 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> 時空間検索装置及び方法及びプログラム
CN102393900A (zh) * 2011-07-02 2012-03-28 山东大学 基于鲁棒哈希的视频拷贝检测方法
CN103336957A (zh) * 2013-07-18 2013-10-02 中国科学院自动化研究所 一种基于时空特征的网络同源视频检测方法
US20140188847A1 (en) * 2012-12-27 2014-07-03 Industrial Technology Research Institute Interactive object retrieval method and system
CN103927310A (zh) * 2013-01-14 2014-07-16 百度在线网络技术(北京)有限公司 一种地图数据搜索建议生成方法及装置
CN104584010A (zh) * 2012-09-19 2015-04-29 苹果公司 基于语音的媒体搜索
KR20150111336A (ko) * 2015-09-09 2015-10-05 삼성전자주식회사 컨텐츠 검색 방법 및 장치
KR20160112746A (ko) * 2015-03-20 2016-09-28 오병석 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법
TW201804342A (zh) * 2016-07-21 2018-02-01 國立成功大學 基於多條規則的時間空間搜尋方法
CN110472158A (zh) * 2018-05-11 2019-11-19 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060256210A1 (en) * 2005-04-28 2006-11-16 Kathleen Ryall Spatio-temporal graphical user interface for querying videos
JP2010250496A (ja) * 2009-04-14 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> 時空間検索装置及び方法及びプログラム
CN102393900A (zh) * 2011-07-02 2012-03-28 山东大学 基于鲁棒哈希的视频拷贝检测方法
CN104584010A (zh) * 2012-09-19 2015-04-29 苹果公司 基于语音的媒体搜索
US20140188847A1 (en) * 2012-12-27 2014-07-03 Industrial Technology Research Institute Interactive object retrieval method and system
CN103927310A (zh) * 2013-01-14 2014-07-16 百度在线网络技术(北京)有限公司 一种地图数据搜索建议生成方法及装置
CN103336957A (zh) * 2013-07-18 2013-10-02 中国科学院自动化研究所 一种基于时空特征的网络同源视频检测方法
KR20160112746A (ko) * 2015-03-20 2016-09-28 오병석 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법
KR20150111336A (ko) * 2015-09-09 2015-10-05 삼성전자주식회사 컨텐츠 검색 방법 및 장치
TW201804342A (zh) * 2016-07-21 2018-02-01 國立成功大學 基於多條規則的時間空間搜尋方法
CN110472158A (zh) * 2018-05-11 2019-11-19 北京搜狗科技发展有限公司 一种搜索条目的排序方法和装置

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理***及方法
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US20220261427A1 (en) Methods and system for semantic search in large databases
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及***
US10740545B2 (en) Information extraction from open-ended schema-less tables
CN101364239B (zh) 一种分类目录自动构建方法及相关***
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
US20130060769A1 (en) System and method for identifying social media interactions
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN107844493B (zh) 一种文件关联方法及***
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20190266158A1 (en) System and method for optimizing search query to retreive set of documents
CN113297457B (zh) 一种高精准性的信息资源智能推送***及推送方法
US10650191B1 (en) Document term extraction based on multiple metrics
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
US20090327877A1 (en) System and method for disambiguating text labeling content objects
CN110633375A (zh) 一种基于政务工作的媒体信息整合利用的***
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN114706938A (zh) 一种文档标签确定方法、装置、电子设备及存储介质
Liu et al. Event-based cross media question answering
CN111881695A (zh) 一种审计知识的检索方法及装置
US20160085850A1 (en) Knowledge brokering and knowledge campaigns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination