CN107807917A - 文本内容提取方法、装置、***及存储介质 - Google Patents

文本内容提取方法、装置、***及存储介质 Download PDF

Info

Publication number
CN107807917A
CN107807917A CN201710896296.3A CN201710896296A CN107807917A CN 107807917 A CN107807917 A CN 107807917A CN 201710896296 A CN201710896296 A CN 201710896296A CN 107807917 A CN107807917 A CN 107807917A
Authority
CN
China
Prior art keywords
content
text
extraction
books
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710896296.3A
Other languages
English (en)
Inventor
刘克亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wind Change Technology (shenzhen) Co Ltd
Original Assignee
Wind Change Technology (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wind Change Technology (shenzhen) Co Ltd filed Critical Wind Change Technology (shenzhen) Co Ltd
Priority to CN201710896296.3A priority Critical patent/CN107807917A/zh
Publication of CN107807917A publication Critical patent/CN107807917A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本内容提取方法、装置、***及存储介质,所述方法包括:接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。本发明通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。

Description

文本内容提取方法、装置、***及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本内容提取方法、装置、***及存储介质。
背景技术
随着教育平台越来越多,越来越完善,人们也乐意为在线教育付费,而且随着移动终端的快速发展,手机、电脑等成为人们生活中的必需品,在线阅读也成了的人们喜好和***台、阅读器、APP等会很大程度上依靠人工对提供给用户的资源进行筛选和鉴定,以展示最精彩最具有价值的内容。但是在商业化背景下,仅依靠人工全文阅读甚至全文精读来选择书本的精髓内容,准确率虽然较高,但是效率低下,时间成本和人力成本巨大。
发明内容
本发明的一个实施例所要解决的技术问题在于,提供一种文本内容提取方法、装置、***及存储介质,能够实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。
为了解决上述技术问题,本发明的一个实施例提供了一种文本内容提取方法,包括如下步骤:
接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;
接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;
根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
优选地,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:
根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本内容;
对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则;
若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端;
若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。
优选地,所述对待提取书籍的文本内容数据进行语义分析包括:对提取书籍的文本内容数据进行分词和词性标注;对分词的结果进行实体标注;构建数据中各词之间的关联关系;所述实体标注包括人名标注、时间标注以及数字标注。
优选地,所述对分词的结果进行实体标注,具体为:
采用条件随机场的模型,根据经机器学习对书籍的文本内容作出的分词和词性标注,同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度,进一步对书籍的文本内容进行实体标注。
优选地,所述内容提取规则为根据选取的书籍文本内容样本、关键词,以及与关键词相关联的语法关系进行训练分析提取;所述规则库为根据书籍的文本内容和语义分析建立。
本发明的一个实施例还提供了一种文本内容提取装置,包括:
文本内容提取请求接收单元,接收编辑终端发送文本内容提取请求,并发送文本内容提取页面至所述编辑终端;
文本内容提取单元,用于接收编辑终端根据文本内容提取页面发送的书籍信息,并根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端;所述书籍信息包括书籍类别、书籍名称,以及作者。
本发明的一个实施例还提供了一种文本内容提取装置,包括处理器,存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的文本内容提取方法。
本发明的一个实施例还提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的文本内容提取方法。
本发明的一个实施例还提供了一种文本内容提取***,包括编辑终端和服务器;
编辑终端,用于发送文本内容提取请求至服务器;
所述服务器,用于根据所述文本内容提取请求,发送文本内容提取页面至所述编辑终端;
所述编辑终端,还用于获取用户根据文本内容提取页面选取的书籍信息,并发送至服务器;所述书籍信息包括书籍类别、书籍名称,以及作者;
所述服务器,还用于根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
实施本发明实施例,具有如下有益效果:
本发明的文本内容提取方法、装置、***及存储介质,通过接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容,并判断是否对此书目进行精读,本发明通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一个实施例提供的一种文本内容提取方法的流程示意图;
图2是本发明的一个实施例提供的一种文本内容提取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明的一个实施例提供的一种文本内容提取方法的流程示意图。
本发明的一个实施例提供的一种文本内容提取方法可以由服务器执行,且下文均以服务器作为执行主体为例进行说明。
所述文本内容提取方法,包括如下步骤:
S101、接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;
在本发明的一个实施例中,所述编辑终端可为智能手机、个人电脑等智能终端,所述文本内容提取页面为阅读器APP页面或微信小程序页面或微信公众号页面等。以微信公众号为例,编辑终端与服务器的数据交互以微信公众号页面或公众号编辑页面或者其他平台编辑编辑页面为展示层。当责任编辑进入编辑页面之后,点击文本编辑选项,随即编辑终端发送的文本内容提取请求至服务器,服务器响应该请求并返回文本内容提取页面至所述编辑终端。
S102、接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;
在本发明的一个实施例中,责任编辑可以根据服务器返回编辑终端的文本内容提取页面进行文本内容提取操作,如从海量书籍中确定选取需要浏览的书籍的范围或类别信息,如财经类、金融类、投资类等,以及具体的书籍,然后把选中的待提取的书籍的书籍信息,包括书籍类别、书籍名称,以及作者发送至服务器,由服务器进行下一步的提取操作。
S103、根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
在本发明的一个实施例中,优选地,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:
根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本内容;
对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则;
若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端;
若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。
在本发明的一个实施例中,优选地,所述对待提取书籍的文本内容数据进行语义分析包括:对提取书籍的文本内容数据进行分词和词性标注;对分词的结果进行实体标注;构建数据中各词之间的关联关系;所述实体标注包括人名标注、时间标注以及数字标注。
具体的,本发明的一个实施例的处理过程如下,
根据选取的书籍文本内容样本、关键词,以及与关键词相关联的语法关系进行训练分析提取内容提取规则,并根据书籍的文本内容和语义分析建立规则库:
第一步,首先是对书籍的文本内容做分词和词性标注,为后续的实体标注和构建数据中各词之间的关联关系做支撑。该环节需要普通的自然语言处理技术,或者基于统计或者机器学习等模型可以实现文本内容的分词和词性标注。比如对句子“大前研一提出3个能打动人心的要点……”进行分词和词性标注为“大前研一/n,提出/v,3/num,个/uj,能打动/v,人心的/adj,要点/n……”其中/x为词性标注,比如n标识名词,v标识动词等。
第二步,对分词的结果做实体标注,比如人名标注、时间标注、数字标注、动词标注等。其中,时间标注和数字标注相比其他标注更简单些,通过负责一点的正则表达式就可以检测出时间和数字并做实体标注。而人名标注和动词标注则优选地需要采用条件随机场的模型来实现实体标注,具体为:采用条件随机场的模型,根据经机器学习对书籍的文本内容作出的分词和词性标注,同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度对大量的语料做训练,然后根据训练结果对文本内容中的词语做各种实体标注。
需要说明的是,条件随机场,是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。但隐马尔可夫模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。
第三步,接着构建数据中各词之间的关联关系,即文本内容中的每个之间的依存和关联。常用的比较成熟的构建模型有神经网络、最大熵,以及条件随机场。即构建各个词语或关键词之间的满足的语法关系,如动宾关系、修饰关系等。
第四步,根据第三步的语法结果建立各种文本内容提取规则,并保存到规则库中。比如建立文本内容提取规则如下:“大前研一提出3个能打动人心的要点……”中,
“大前研一”关键词为人名标识;“提出”关键词为动词,通过动宾关系关联的数量词为“3个”;“打动人心的”关键词通过修饰关系关联的为名词“要点”……则可以提取句子“大前研一提出3个能打动人心的要点……”以此类推,通过大量的数据样本中提取各种内容提取规则,建立规则库。
优选地,所述内容提取规则为根据选取的书籍文本内容样本、关键词,以及与关键词相关联的语法关系进行训练分析提取;所述规则库为根据书籍的文本内容和语义分析建立。
需要说明的是,在建立规则库之后,则可以对书籍的文本内容进行关键内容的提取。即对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则,若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端。若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。
本发明的一个实施例提供的一种文本内容提取方法,通过接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容,并判断是否对此书目进行精读,本发明通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。
请参阅图2,图2是本发明的一个实施例提供的一种文本内容提取装置的结构示意图。
本发明的一个实施例还提供了一种文本内容提取装置,包括:
文本内容提取请求接收单元201,接收编辑终端发送文本内容提取请求,并发送文本内容提取页面至所述编辑终端;
文本内容提取单元202,用于接收编辑终端根据文本内容提取页面发送的书籍信息,并根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端;所述书籍信息包括书籍类别、书籍名称,以及作者。
本发明的一个实施例提供的一种文本内容提取装置,通过文本内容提取请求接收单元201接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端,然后文本内容提取单元202接收编辑终端根据文本内容提取页面发送的书籍信息,其中所述书籍信息包括书籍类别、书籍名称,以及作者。文本内容提取单元202根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容,并判断是否对此书目进行精读,本发明通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。
本发明的一个实施例还提供了一种文本内容提取装置,包括处理器,存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的文本内容提取方法。
本发明的一个实施例还提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的文本内容提取方法。
本发明的一个实施例还提供了一种文本内容提取***,包括编辑终端和服务器;
编辑终端,用于发送文本内容提取请求至服务器;
所述服务器,用于根据所述文本内容提取请求,发送文本内容提取页面至所述编辑终端;
所述编辑终端,还用于获取用户根据文本内容提取页面选取的书籍信息,并发送至服务器;所述书籍信息包括书籍类别、书籍名称,以及作者;
所述服务器,还用于根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
本发明的一个实施例提供的一种文本内容提取方法***,通过接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。责任编辑可浏览服务器发送至编辑终端的经过初步提取的文本内容,并判断是否对此书目进行精读,本发明通过智能终端和服务器的交互,实现目标文本内容提取的半自动化,在确保所提取的目标文本内容准确的基础上,还提高目标文本内容提取效率,同时节约时间成本和人力成本。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变形,这些改进和变形也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (9)

1.一种文本内容提取方法,其特征在于,包括如下步骤:
接收编辑终端发送的文本内容提取请求,并发送文本内容提取页面至所述编辑终端;
接收编辑终端根据文本内容提取页面发送的书籍信息;所述书籍信息包括书籍类别、书籍名称,以及作者;
根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
2.根据权利要求1所述的一种文本内容提取方法,其特征在于,所述根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端,具体为:
根据书籍的书籍类别、书籍名称,以及作者,查询书籍数据库以获取所述书籍文本内容;
对待提取书籍的文本内容数据进行语义分析,并根据语义分析结果匹配规则库中对应的内容提取规则;
若匹配成功,则使用所述内容提取规则从所述书籍的文本内容中提取目标文本内容,并将提取的所述目标文本内容打包发送至所述编辑终端;
若匹配失败,则记录语义分析结果,并建立新的内容提取规则,并将该新建立的内容提取规则更新至规则库。
3.根据权利要求2所述的一种文本内容提取方法,其特征在于,所述对待提取书籍的文本内容数据进行语义分析包括:对提取书籍的文本内容数据进行分词和词性标注;对分词的结果进行实体标注;构建数据中各词之间的关联关系;所述实体标注包括人名标注、时间标注以及数字标注。
4.根据权利要求3所述的一种文本内容提取方法,其特征在于,所述对分词的结果进行实体标注,具体为:
采用条件随机场的模型,根据经机器学习对书籍的文本内容作出的分词和词性标注,同时利用书籍的文本内容的上下文内容、前后词语的词性以及词语的长度,进一步对书籍的文本内容进行实体标注。
5.根据权利要求1至4任一项所述的一种文本内容提取方法,其特征在于,所述内容提取规则为根据选取的书籍文本内容样本、关键词,以及与关键词相关联的语法关系进行训练分析提取;所述规则库为根据书籍的文本内容和语义分析建立。
6.一种文本内容提取装置,其特征在于,包括:
文本内容提取请求接收单元,接收编辑终端发送文本内容提取请求,并发送文本内容提取页面至所述编辑终端;
文本内容提取单元,用于接收编辑终端根据文本内容提取页面发送的书籍信息,并根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端;所述书籍信息包括书籍类别、书籍名称,以及作者。
7.一种文本内容提取装置,其特征在于,包括处理器,存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至4所述的文本内容提取方法。
8.一种存储介质,其特征在于,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4任意一项所述的文本内容提取方法。
9.一种文本内容提取***,其特征在于,包括编辑终端和服务器;
编辑终端,用于发送文本内容提取请求至服务器;
所述服务器,用于根据所述文本内容提取请求,发送文本内容提取页面至所述编辑终端;
所述编辑终端,还用于获取用户根据文本内容提取页面选取的书籍信息,并发送至服务器;所述书籍信息包括书籍类别、书籍名称,以及作者;
所述服务器,还用于根据所述书籍信息,查询书籍数据库并利用语义分析和预设的内容提取规则提取该书籍的目标文本内容,并打包发送至所述编辑终端。
CN201710896296.3A 2017-09-27 2017-09-27 文本内容提取方法、装置、***及存储介质 Pending CN107807917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710896296.3A CN107807917A (zh) 2017-09-27 2017-09-27 文本内容提取方法、装置、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710896296.3A CN107807917A (zh) 2017-09-27 2017-09-27 文本内容提取方法、装置、***及存储介质

Publications (1)

Publication Number Publication Date
CN107807917A true CN107807917A (zh) 2018-03-16

Family

ID=61584547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710896296.3A Pending CN107807917A (zh) 2017-09-27 2017-09-27 文本内容提取方法、装置、***及存储介质

Country Status (1)

Country Link
CN (1) CN107807917A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN109259733A (zh) * 2018-10-25 2019-01-25 深圳和而泰智能控制股份有限公司 一种睡眠中呼吸暂停检测方法、装置和检测设备
CN112257388A (zh) * 2020-10-19 2021-01-22 深圳市大成天下信息技术有限公司 一种内容展示方法、移动终端及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102456037A (zh) * 2010-10-28 2012-05-16 康佳集团股份有限公司 移动终端中读取电子书的方法及装置
CN104361028A (zh) * 2014-10-23 2015-02-18 明博教育科技有限公司 一种根据书籍目录提取书籍知识点的方法及***
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105302796A (zh) * 2015-11-23 2016-02-03 浪潮软件股份有限公司 一种基于依存树的语义分析方法
CN105630958A (zh) * 2015-12-24 2016-06-01 小米科技有限责任公司 书籍管理方法及装置
US20160371243A1 (en) * 2012-11-16 2016-12-22 International Business Machines Corporation Building and maintaining information extraction rules
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102456037A (zh) * 2010-10-28 2012-05-16 康佳集团股份有限公司 移动终端中读取电子书的方法及装置
US20160371243A1 (en) * 2012-11-16 2016-12-22 International Business Machines Corporation Building and maintaining information extraction rules
CN104361028A (zh) * 2014-10-23 2015-02-18 明博教育科技有限公司 一种根据书籍目录提取书籍知识点的方法及***
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105302796A (zh) * 2015-11-23 2016-02-03 浪潮软件股份有限公司 一种基于依存树的语义分析方法
CN105630958A (zh) * 2015-12-24 2016-06-01 小米科技有限责任公司 书籍管理方法及装置
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈劲: "面向中文网页的信息抽取关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN109259733A (zh) * 2018-10-25 2019-01-25 深圳和而泰智能控制股份有限公司 一种睡眠中呼吸暂停检测方法、装置和检测设备
CN112257388A (zh) * 2020-10-19 2021-01-22 深圳市大成天下信息技术有限公司 一种内容展示方法、移动终端及***

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
US11714839B2 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN110110335B (zh) 一种基于层叠模型的命名实体识别方法
Zhu et al. Multimodal joint attribute prediction and value extraction for e-commerce product
CN109767318A (zh) 贷款产品推荐方法、装置、设备及存储介质
CA3129745A1 (en) Neural network system for text classification
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN107766371A (zh) 一种文本信息分类方法及其装置
WO2021184674A1 (zh) 文本关键词提取方法、电子设备及计算机可读存储介质
CN101004737A (zh) 基于关键词的个性化文档处理***
CN103678269A (zh) 一种信息处理方法和装置
CN107392436A (zh) 一种提取企业关联关系信息的方法和装置
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN110008309A (zh) 一种短语挖掘方法及装置
CN110880142B (zh) 一种风险实体获取方法及装置
CN107807917A (zh) 文本内容提取方法、装置、***及存储介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN109582792A (zh) 一种文本分类的方法及装置
CN111782793A (zh) 智能客服处理方法和***及设备
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN106980667A (zh) 一种给文章标注标签的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180316

RJ01 Rejection of invention patent application after publication