CN110134792A - 文本识别方法、装置、电子设备以及存储介质 - Google Patents

文本识别方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN110134792A
CN110134792A CN201910431256.0A CN201910431256A CN110134792A CN 110134792 A CN110134792 A CN 110134792A CN 201910431256 A CN201910431256 A CN 201910431256A CN 110134792 A CN110134792 A CN 110134792A
Authority
CN
China
Prior art keywords
text
sentence
keyword
distribution
critical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910431256.0A
Other languages
English (en)
Other versions
CN110134792B (zh
Inventor
李长亮
樊骏锋
汪美玲
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Co Ltd
Priority to CN201910431256.0A priority Critical patent/CN110134792B/zh
Publication of CN110134792A publication Critical patent/CN110134792A/zh
Application granted granted Critical
Publication of CN110134792B publication Critical patent/CN110134792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供文本识别方法、装置、电子设备以及存储介质,其中所述文本识别方法包括:获取多个文本的文本集;提取文本集中文本的主题关键词,并获取从文本集中至少一个文本中提取的实际主题关键词;确定主题关键词在文本集中每个文本的第一分布,以及实际主题关键词在文本集中每个文本的第二分布;将携带第一分布和第二分布的文本集中文本输入分类器进行识别,获得文本集中文本的关键句和非关键句;通过文本识别方法,能够快速准确的获取文本的关键句和非关键句,通过对文本的非关键句进行清洗,方便了对文本的关键句进行标注,提高了知识图谱的构建效率,并通过保留文本的关键句,方便了用户在查阅文本时能够快速的了解文本的主要内容。

Description

文本识别方法、装置、电子设备以及存储介质
技术领域
本说明书涉及自然语言处理技术领域,特别涉及一种文本识别方法。本说明书同时涉及一种文本识别装置、一种电子设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,通过网络获取需要的信息是大家经常使用的一种手段,用户在通过网络查询同一领域的信息时,为了方便用户可以在查询信息时,快速的了解每篇文章的主题,通过将每篇文章的主题关键句筛选展示给用户,用户通过查看主题关键句即可了解每篇文章中是否包含需要的信息。
现有技术中,在提取每篇文章的主题关键句时,有多种方法可以实现,可以通过非监督关键词筛选方法,提取每篇文章的主题关键词,根据每篇文章的每段句子中包含的关键词数量的多少确定主题关键句。
然而,由于通过非监督关键词筛选方法提取的主题关键词的准确度不是很高,很大程度上降低了提取每篇文章的主题关键句的准确度,使得用户在查阅文章时,查看的主题关键句不一定是文章的实际主题关键句。
发明内容
有鉴于此,本说明书实施例提供了一种文本识别方法,以解决现有技术中存在的技术缺陷。本说明书实施例同时提供了一种文本识别装置,一种电子设备,以及一种计算机可读存储介质。
根据本说明书实施例的第一方面,提供了一种文本识别方法,包括:
获取多个文本的文本集;
提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
可选的,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
可选的,所述获取从所述文本集中至少一个文本中提取的实际主题关键词,包括:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
可选的,所述确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布,包括:
根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
可选的,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,执行所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤;
所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句,包括:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤执行之后,还包括:
根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
根据所述每个文本的召回率和/或所述准确率优化所述分类器。
可选的,所述计算每个文本的召回率,包括:
统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
可选的,所述计算每个文本的准确率,包括:
统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
可选的,所述获取多个文本的文本集,包括:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。
根据本说明书实施例的第二方面,提供了一种文本识别装置,包括:
获取模块,被配置为获取多个文本的文本集;
提取模块,被配置为提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定模块,被配置为确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
识别模块,被配置为将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述提取模块,包括:
第一分词处理单元,被配置为通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
识别单元,被配置为将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
可选的,所述提取模块,包括:
第二分词处理单元,被配置为通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
第一计算单元,被配置为计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
确定关键词评分单元,被配置为根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
确定主题关键词单元,被配置为将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
可选的,所述提取模块,进一步被配置为:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
可选的,所述确定模块,包括:
生成关键词分布矩阵单元,被配置为根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
生成实际关键词分布矩阵单元,被配置为根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
可选的,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,运行所述识别模块;
所述识别模块,进一步被配置为:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述文本识别装置,还包括:
第二计算单元,被配置为根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
优化单元,被配置为根据所述每个文本的召回率和/或所述准确率优化所述分类器。
可选的,所述第二计算单元,包括:
第一统计子模块,被配置为统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算召回率子模块,被配置为计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
可选的,所述第二计算单元,包括:
第二统计子模块,被配置为统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算准确率子模块,被配置为计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
可选的,所述获取模块进一步被配置为:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。
根据本说明书实施例的第三方面,提供了一种电子设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本识别方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述文本识别方法的步骤。
与现有技术相比,本说明书具有如下优点:
本说明书提供一种文本识别方法,包括:获取多个文本的文本集;提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
本说明书提供的文本识别方法,提取所述文本集中少量文本的实际主题关键词以及所述文本集中大量文本的主题关键词,并确定所述实际主题关键词在所述文本集中每个文本的第一分布,以及所述主题关键词在所述文本集中每个文本的第二分布,将携带所述第一分布以及第二分布的每个文本输入至分类器进行关键句和非关键句识别,确定所述文本集中每个文本的关键句和非关键句,通过对文本的非关键句进行清洗,保留了文本的关键句,方便了对文本的关键句进行标注,在构建知识图谱的过程中提高了构建效率,并通过保留文本的关键句,方便了用户在查阅文本时能够快速的了解文本的主要内容。
附图说明
图1是本说明书一实施例提供的文本识别方法的流程图;
图2是本说明书一实施例提供的文本识别过程的处理流程图;
图3是本说明书一实施例提供的文本识别装置的结构示意图;
图4是本说明书一实施例提供的电子设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
TF-IDF:(Term Frequency-Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术,TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。它是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
LDA:(Latent Dirichlet Allocation,文档主题生成模型),是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。它是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。
关键词:是用于表达科技论文、科技报告、学术论文或文章等文本的文献主题内容的词汇、短语或词组。
实际主题关键词:是通过人工对少量的科技论文、科技报告、学术论文或文章等文本标注出的文献主题内容的词汇、短语或词组;并且人工对科技论文、科技报告、学术论文或文章等文本标注出的实际主题关键词的精准度较高。
主题关键词:是通过TF-IDF或LDA对大量的科技论文、科技报告、学术论文或文章等文本标注出的文献主题内容的词汇、短语或词组,并且通过TF-IDF或LDA对大量的科技论文、科技报告、学术论文或文章等文本的主题关键词的标注效率较快。
在本说明书中,提供了一种文本识别方法。本说明书同时涉及一种文本识别装置、一种电子设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的文本识别方法的流程图,包括步骤102至步骤108。
步骤102:获取多个文本的文本集。
本说明书一实施中所述多个文本的文本集可以是由多篇文章组成的文本集或者多篇新闻报道组成的文本集,其中,不论是多篇文章组成的文本集或多篇新闻报道组成的文本集均属于同一领域的文本集。例如,在搜索引擎中搜索足球,承载搜索引擎的平台会展示关于足球的大量文章、新闻和图片,大量文章、新闻和图片均属于体育足球这一领域。
此处,将以所述文本集为由文章组成的文本集为例,对所述文本识别方法进行描述。基于此,用户在搜索关于某方面的知识的情况下,通常会通过网络搜索相关的文章来进一步的了解,在搜索引擎提供关于某方面知识的文章情况下,为了能够让用户快速了解文章的主要内容,会将该文章的关键句提取出来,向用户优先展示,进而能够让用户准确的了解文章的主要内容是什么,是否为自己需要的文章。
本说明书提供的文本识别方法,为了能够为用户提供准确的关键句,在获取多个文本组成的文本集后,通过将文本集中少量的文本提取出实际主题关键词,将文本集中大量的文本提取关键词,根据实际主题关键词在所述文本集中每个文本的语句中的分布确定第一分布,以及所述关键词在所述文本集中每个文本的语句中的分布确定第二分布,将携带有第一分布与第二分布的所述文本集中的文本输入至分类器进行关键句识别,提高了识别每个文本的关键句的准确性,并将非关键句进行清洗,保留每个文本的关键句作为展示给用户的文章的主要内容,保证了展示给用户的关键句是对应文章的实际主要内容。
除此之外,对篇章级别的事件抽取,是知识图谱构建的重要一环,通过对篇章级别的事件进行提取关键句并将非关键句进行清洗,对于在后续的事件抽取的准确性及效率发挥着重要的作用。通过对文本的非关键句进行清洗,保留了文本的关键句,方便了对文本的关键句进行标注,在构建知识图谱的过程中提高了构建效率。
例如,一篇新闻报道文章,报道了一场车祸事故,该新闻报道文章描述内容有10000字,而某些用户在看新闻报道时,只关注该新闻的主要内容,该新闻的主要内容为发生地点、发生时间、受伤人数等信息,则该新闻的关键句为在2019年4月17日上午八点整在A地点发生一场车祸,无任何人受伤。
本实施例的一个或多个实施方式中,所述获取多个文本的文本集,包括:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。
具体的,在进行后续的文本中关键句识别的过程是对垂直领域内同一类别的文本的关键句进行识别,即获取的所述多个文本的文本集为垂直领域同一类别的多个文本创建的所述文本集。
此处,所述垂直领域可以理解为在一个大的领域下,垂直细分出的多个小领域,细分出的所述小领域均属于所述垂直领域内的小领域。例如,在体育垂直领域内,田径属于体育垂直领域细分出的二级领域,可以将田径确定为体育垂直领域内的一个类别。进一步的,田径二级领域还可以分为更多的三级领域,例如,百米、接力、马拉松均属于田径二级领域细分出的三级领域。
因为在垂直领域的本文集中,关键词的属性是相近的,并且关键词的种类是有限的,在获取垂直领域同一类别的多个文本,并根据所述垂直领域同一类别的多个文本创建文本集,在后续的文本关键句的识别过程中,识别的是同一领域的文本,使得获得的文本的关键句能够更加准确。
步骤104:提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词。
具体的,根据上述获取的文本集,进一步,提取所述文本集中每个文本主题关键词,以及获取所述文本集中至少一个文本的实际主题关键词。其中,所述每个文本的主题关键词为通过设定的算法或者设定的模型提取的,所述实际主题关键词通过人工标注的方式提取的。
例如,由100篇关于足球的文章组成文本集,通过设定的模型对这100篇文章进行提取关键词,确定主题关键词为“足球”、“胜负”和“比分”,通过人工标注的方式对100片文章中的一篇文章进行标注关键词,确定实际主题关键词为“足球”、“胜负”、“比分”、“球队”、“主/客场”、“比赛时间”和“球员”。基于此,可以确定通过人工标注的实际主题关键词中包含的关键词丰富度要大于通过设定的模型提取的主题关键词中包含的关键词丰富度。
在上述获取所述文本集中至少一个文本的实际主题关键词的基础上,进一步,本实施例的一个或多个实施方式中,获取的所述实际主题关键词通过人工提取,具体实现方式如下所述:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
具体的,在获取所述多个文本的文本集的基础上,从所述文本集中随机选取少量的文本进行人工提取实际主题关键词,获取经过人工提取的少量文本的实际主题关键词。
实际应用中,仍以上述一篇文章中的一段话为“花的绽放,花的凋零,并不意味着花的生命在消亡……”为例,对人工提取过程进行描述,根据人工标注确定该段话的关键词包括“花”、“的”、“绽放”、“凋零”、“并”、“不”、“意味”、“着”、“生命”、“在”和“消亡”,通过理解该段话的描述内容确定实际主题关键词为“花”、“绽放”、“凋零”和“消亡”。
通过人工提取少量的文本的实际主题关键词,可以保证提取的文本的实际主题关键词的准确性,可以为后续识别每个文本的关键句提供衡量标准,保证了后续的识别的每个文本的关键句准确性高。
在上述提取所述文本集中每个文本的主题关键词的基础上,进一步,本实施例的一个或多个实施方式中,提取所述文本集中每个文本的主题关键词,具体实现方式如下所述:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
具体的,通过自然语言处理中的分词处理算法对所述文本集中的每个文本进行分词处理,根据分词处理结果确定每个文本的关键词,将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,识别出的关键词即可作为每个文本的主题关键词。
基于此,所述主题生成模型进行主题关键词识别的过程,是通过遍历每个关键词在对应的文本中出现的次数进行确定主题关键词。
例如,在一篇文章中的一段话为“花的绽放,花的凋零,并不意味着花的生命在消亡……”,通过分词处理算法确定该段话的词分别为“花”、“的”、“绽放”、“凋零”、“并”、“不”、“意味”、“着”、“生命”、“在”和“消亡”,将这11个关键词均输入至主题生成模型进行主题关键词识别,获得的该段话的主题关键词为“花”。
在实际应用中,所述主题生成模型在识别主题关键词时,需要大量的样本进行训练,才可以保证主题生成模型识别出的主题关键词更准确,所述主题生成模型的训练过程可以根据实际应用选择合适的样本库进行训练,本书明书在此不做任何限定。
在上述提取所述文本集中每个文本的主题关键词的基础上,进一步,本说明书还提供了另外一种提取所述文本集中每个文本的主题关键词,本实施例的一个或多个实施方式中,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
具体的,通过自然语言处理中的分词处理算法对所述文本集中的每个文本进行分词处理,根据分词处理结果确定每个文本的关键词,计算所述关键词在对应的文本中出现的频次,以及所述关键词在对应的文本中的逆向关键词频率,将所述逆向关键词频率以及频次进行乘积确定为每个关键词的关键词评分,将所述关键词评分与关键词评分阈值进行比较,若所述关键词评分大于关键词评分阈值,则将关键词评分大于关键词评分阈值的关键词作为所述主题关键词,若所述关键词评分小于等于关键词评分阈值,则不对关键词评分小于等于关键词评分阈值的关键词做任何处理。
具体实施时,所述关键词在所述每个文本中的逆向关键词频率可以通过如下方式计算:确定所述每个文本中每个关键词的权重,通过权重确定每个关键词相对于对应的文本的逆向关键词频率;此处,所述每个关键词的权重可以通过将每个关键词与预设关键词库中的关键词进行匹配,所述关键词库中的关键词均具有对应的权重,将与关键词库中匹配的关键词赋予关键词库中记录的权重,即可根据每个关键词的权重确定每个关键词在所述文本集中每个文本的逆向关键词频率。
或者所述关键词在所述每个文本中的逆向关键词频率还可以通过如下方式计算:以对数函数的方式确定每个关键词的逆向关键词频率,例如,在一千万篇文章中,“中国”这个词在一千篇文章中出现过,通过对数函数确定“中国”这个关键词在这一千万篇文章中的逆向关键词频率为lg(10000000/1000)=4。
实际应用中,仍以上述一段话为“花的绽放,花的凋零,并不意味着花的生命在消亡……”为例,对提取所述文本集中每个文本的主题关键词的另一种方法进行描述,通过分词处理算法确定该段话的词分别为“花”、“的”、“绽放”、“凋零”、“并”、“不”、“意味”、“着”、“生命”、“在”和“消亡”,每个关键词的匹配频次为“花”匹配频次为3,“的”匹配频次为3,“绽放”、“凋零”、“并”、“不”、“意味”、“着”、“生命”、“在”和“消亡”匹配频次均为1,根据计算确定“花”的逆向关键词频率为0.7,“的”的逆向关键词频率为0.1,“绽放”、“凋零”、“意味”、“生命”和“消亡”的逆向关键词频率为0.5,“并”、“不”和“在”的逆向关键词频率为0.2,根据计算确定“花”的关键词评分为2.1,“的”的关键词评分为0.3,“绽放”、“凋零”、“意味”、“生命”和“消亡”的关键词评分为0.5,“并”、“不”和“在”的关键词为0.3,关键词评分阈值为1,则关键词“花”确定为该段话的主题关键词。
除此之外,在提取每个文本主题关键词还可以通过TF-IDF统计方法或者LDA文档主题生成模型进行提取,本书明书在此不再赘述。
在对主题关键词进行提取的过程中,通过上述两种方法实现对所述每个文本的主题关键词进行提取,保证了提取的主题关键词的准确性,以及提取主题关键词的提取效率,为后续的更准确的识别每个文本的关键句奠定了重要的基础。
步骤106:确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布。
具体的,上述通过对每个文本进行提取主题关键词,以及提取至少一个文本的实际主题关键词,基于此,根据所述主题关键词在每个文本中的分布确定所述第一分布,根据实际主题关键词在每个文本中的分布确定第二分布。
具体实施时,所述主题关键词在每个文本中的第一分布为主题关键词在每个文本中每个语句中的分布情况确定为第一分布;所述实际主题关键词在每个文本中的第二分布为实际主题关键词在每个文本中每个语句中的分布情况确定为第二分布。
在上述确定所述第一分布以及所述第二分布的基础上,进一步,本实施例的一个或多个实施方式中,所述第一分布以及所述第二分布的生成过程,具体实现方式如下所述:
根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
具体的,根据每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,将主题关键词在每个文本中语句层面的分布矩阵确定为所述第一分布,根据每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,将实际主题关键词在每个文本中语句层面的分布矩阵确定为所述第二分布。
实际应用中,以两篇文本doc1和doc2为例,对确定所述第一分布和所述第二分布过程进行描述,其中,doc1:我喜欢踢足球;doc2:我喜欢打网球;提取主题关键词为“我”和“喜欢”,实际主题关键词为“足球”和“网球”,关键词矩阵以及实际关键词矩阵中元素值代表词频;根据主题关键词在两篇文本中的分布确定关键词矩阵为:
其中,A11、A12、A21和A22均为1,表示“我”和“喜欢”在两篇文本doc1和doc2中出现的频次均为1;
根据实际主题关键词在两篇文本中的分布确定实际关键词矩阵为:
其中,B11与B22为1,B12与B21为0,表示“足球”在文本doc1中出现的频次为1,在文本doc2中出现的频次为0,“网球”在文本doc中出现的频次为0,在文本doc2中出现的频次为1。
通过确定所述主题关键词在每个文本的语句层面的分布确定关键词分布矩阵,将关键词分布矩阵作为所述主题关键词的第一分布,确定实际主题关键词在每个文本的语句层面的分布确定实际关键词分布矩阵,将实际关键词分布矩阵作为所述实际主题关键词的第二分布,通过以矩阵的方式作为所述第一分布和所述第二分布,能够更直观的确定主题关键词以及实际主题关键词在每个文本中分布情况。
步骤108:将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
具体的,根据上述确定的所述主题关键词在每个文本中的第一分布,以及所述实际主题关键词在每个文本中的第二分布,基于此,将所述携带所述第一分布和所述第二分布的文本集中文本输入至所述分类器进行关键句和非关键句识别,获得文本集中文本的关键句和非关键句。
具体实施时,通过分类器对携带所述第一分布和所述第二分布的文本进行识别,获得的每个文本关键句和非关键句。分类器的识别过程是通过将携带有所述第一分布和所述第二分布的文本中的语句均进行计算关键句概率,所述分类器输出的文本中会存在每个语句的关键句概率,将概率大于等于预设阈值的语句作为关键句,将概率小于所述预设阈值的语句作为非关键句,并可以将输出的关键句以文本为单位创建两个集合,一个集合为与文本对应的关键句集合,另一个集合为与文本对应的非关键句集合。
具体实施时,分类器输出的文本中,可以对每个文本的关键句和非关键句分别进行不同的标注,可以对关键句以高亮的方式进行标注,将非关键句不进行标注,易于快速识别出每个文本的关键句和非关键句;所述分类器输出的每个文本中至少存在一种标注,是对文本中的关键句进行标注的。
例如,一篇文章中的一段语句为:“今天阳光明媚,我要去公园散步”,将该段话输入至分类器进行关键句和非关键句识别,获得对应的语句为“今天阳光明媚,我要去公园散步”,其中,“我要去公园散步”为关键句通过以文字线条加粗的方式标注为关键句。
在上述所述分类器识别关键句和非关键句的基础上,进一步,本实施例的一个或多个实施方式中,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,执行所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤;
所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句,包括:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
具体的,通过为每个文本中的语句赋予权重、预设分类规则以及根据上述第一分布对应的关键词分布矩阵与每个文本中包含的语句的关联关系构建所述分类器,其中,所述每个文本中包含语句的对应权重通过所述每个语句中包含的关键词的逆向关键词频率进行设定。
基于此,在通过所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器后,相应的,通过所述分类器对所述多个文本的文本集进行关键句和非关键句的识别。
具体实施时,所述预设分类规则可以为:包含关键词的语句定义为关键句、将关键句和非关键句分为两个集合和/或以文本为单位将关键句和非关键句进行整合等分类规则,在实际应用中,所述预设分类规则可以根据应用场景进行设定,本说明书在此不做任何限定。
通过采用分类器对所述每个文本的关键句和非关键句进行识别,相对于深度学习的方法,在不需要大量标注数据的情况下,即可对所述每个文本的关键句和非关键句进行识别,节省了在深度学习的方法中标注数据的成本。
在上述通过所述分类器对每个文本的关键句和非关键句识别的基础上,进一步,本实施例的一个或多个实施方式中,对所述分类器进行优化,具体优化所述分类器的过程如下所述:
根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
根据所述每个文本的召回率和/或所述准确率优化所述分类器。
具体的,根据所述分类器输出的每个文本的关键句数目和非关键句数目,计算每个文本的召回率和/或准确率,通过每个文本的召回率和/或准确率对所述分类器中的每个文本对应的语句的权重进行调整,在调整每个文本对应的语句的权重过程中,通过反向传播算法对每个文本对应的语句的权重进行调整,根据每次调整后的权重计算每个文本的召回率和/或准确率是否趋近于1,若否,则继续通过反向传播算法进行迭代,不断的调整每个文本对应的语句的权重,直至使得所述召回率和/或准确率趋近于1,再通过随机抽取少量的文本样本经过人工标注的方式对少量的文本进行标注,对分类器进行训练,使得获得的所述分类器的识别关键句和非关键句的准确性将更高。
除此之外,根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的F1参数,根据每个文本的F1参数优化所述分类器。F1参数是根据所述召回率以及准确率进行确定的,可以理解为综合所述召回率以及准确率的标准确定的一个综合标准。
例如,有1400篇文章,关于足球的文章有300篇,关于篮球的文章有300篇,关于田径的文章有800篇,现在以检索田径文章为目的进行检索这1400篇文章,获取到200篇关于足球的文章、100篇关于篮球的文章以及100篇关于田径的文章,则本次检查的准确率为200/(200+100+100)=50%,召回率为200/300=66.7%,F1参数为50%*66.7%*2/(50%+66.7%)=57.1%。
在上述对所述分类器进行优化的基础上,进一步,本实施例的一个或多个实施方式中,所述召回率的计算过程如下所述:
统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
具体的,所述召回率=实际关键句数目/关键句总数目,所述召回率用于衡量所述分类器识别的关键句的准确性,若召回率越高,则说明分类器识别关键句的准确性越高,反之,若召回率越低,则说明分类器识别关键句的准确性越低。
在上述对所述分类器进行优化的基础上,进一步,本实施例的一个或多个实施方式中,所述准确率的计算过程如下所述:
统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
具体的,所述准确率=实际关键句数目/关键句数目,所述准确率用于衡量所述分类器识别的关键句的准确性,若准确率越高,则说明分类器识别关键句的准确性越高,反之,若准确率越低,则说明分类器识别关键句的准确性越低。
在对所述分类器进行优化的过程中,所述召回率以及所述准确率均应用到,为了能够使得所述分类器识别关键句和非关键句的识别更准确,还可以根据所述召回率以及准确率进行融合确定一个度量值,这个度量值为F1参数,通过F1参数对所述分类器进行进一步的优化,使得所述分类器的识别准确性变得更高。
本说明书提供的所述文本识别方法,通过采用统计算法或主题生成模型获取每个文本集中的主题关键词,以及通过人工提取的方法提取少量文本的实际主题关键词,很大程度上降低了人工提取关键词的高成本问题,进一步根据提取的所述主题关键词以及所述实际主题关键词确定在每个文本中的分布,确定第一分布以及第二分布,所述第一分布以及所述第二分布均为矩阵分布形式,能够更直观确定所述实际主题关键词与所述主题关键词在每个文本中的分布情况,通过将所述第一分布以及所述第二分布输出至所述分类器进行每个文本的关键句和非关键句识别,同时通过所述准确率和/或召回率对所述分类器进行优化,保证了所述分类器识别每个文本的关键句和非关键句的准确性,并提高了关键句和非关键句的识别效率,本说明书提供的所述文本识别方法,通过对文本的非关键句进行清洗,保留了文本的关键句,方便了对文本的关键句进行标注,在构建知识图谱的过程中提高了构建效率。
下述结合附图2,以本说明书提供的文本识别方法对体育新闻相关文章的识别的应用为例,对所述文本识别方法进行进一步说明。其中,具体步骤包括步骤202至步骤218。
步骤202:获取大量体育新闻文章组成的体育文本集。
具体的,体育新闻文章为同一领域的同一类别的体育新闻文章。
步骤204:提取每篇体育新闻文章的主题关键词。
具体的,通过LDA或者TF-IDF对每篇体育新闻文章进行主题关键词提取。
步骤206:获取少量体育新闻文章中的实际主题关键词。
具体的,通过在大量体育新闻文章中随机选取少量的体育新闻文章进行人工提取少量的体育新闻文章的实际主题关键词。
步骤208:根据主题关键词在每篇文章中语句层面的分布确定关键词分布矩阵。
步骤210:根据实际主题关键词在每篇文章中语句层面的分布确定实际关键词分布矩阵。
其中所述步骤204和步骤206并列执行,所述步骤208和步骤210并列执行。
步骤212:将关键词分布矩阵和实际关键词分布矩阵输入至分类器进行关键句和非关键句识别。
步骤214:获得每篇体育新闻文章的关键句和非关键句。
步骤216:根据每篇体育新闻文章的关键句和非关键句的数目,计算准确率。
步骤218:根据准确率调整分类器中每篇体育新闻文章中包含的语句的权重。
具体的,通过准确率调整分类器中每篇体育新闻文章中包含的语句的权重,使得分类器识别关键句和非关键句的准确度更高。
本说明书提供的所述文本识别方法,通过采用统计算法或主题生成模型获取每个体育新闻文章的主题关键词,以及通过人工提取的方法提取少量文本的实际主题关键词,很大程度上降低了人工提取的高成本问题,进一步根据提取的主题关键词以及实际主题关键词确定在每个体育新闻文章中的分布,确定关键词分布矩阵和实际关键词分布矩阵,能够更直观确定实际主题关键词与主题关键词在每个体育新闻文章中的分布情况,通过将关键词分布矩阵以及实际关键词分布矩阵输出至分类器进行每个体育新闻文章的关键句和非关键句识别,同时通过准确率对分类器进行优化,保证了分类器识别每个体育新闻文章的关键句和非关键句的准确性,并提高了关键句和非关键句的识别效率。
与上述方法实施例相对应,本说明书还提供了文本识别装置实施例,图3示出了本说明书一实施例的文本识别装置的结构示意图。如图3所示,该装置包括:
获取模块302,被配置为获取多个文本的文本集;
提取模块304,被配置为提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定模块306,被配置为确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
识别模块308,被配置为将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
一个可选的实施例中,所述提取模块304,包括:
第一分词处理单元,被配置为通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
识别单元,被配置为将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
一个可选的实施例中,所述提取模块304,包括:
第二分词处理单元,被配置为通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
第一计算单元,被配置为计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
确定关键词评分单元,被配置为根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
确定主题关键词单元,被配置为将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
一个可选的实施例中,所述提取模块304,进一步被配置为:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
一个可选的实施例中,所述确定模块306,包括:
生成关键词分布矩阵单元,被配置为根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
生成实际关键词分布矩阵单元,被配置为根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
一个可选的实施例中,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,运行所述识别模块308;
所述识别模块308,进一步被配置为:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
一个可选的实施例中,所述文本识别装置,还包括:
第二计算单元,被配置为根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
优化单元,被配置为根据所述每个文本的召回率和/或所述准确率优化所述分类器。
一个可选的实施例中,所述第二计算单元,包括:
第一统计子模块,被配置为统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算召回率子模块,被配置为计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
一个可选的实施例中,所述第二计算单元,包括:
第二统计子模块,被配置为统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算准确率子模块,被配置为计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
一个可选的实施例中,所述获取模块302进一步被配置为:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。
本说明书提供的文本识别装置,通过采用统计算法或主题生成模型获取每个文本集中的主题关键词,以及通过人工提取的方法提取少量文本的实际主题关键词,很大程度上降低了人工提取关键词的高成本问题,进一步根据提取的所述主题关键词以及所述实际主题关键词确定在每个文本中的分布,确定第一分布以及第二分布,所述第一分布以及所述第二分布均为矩阵分布形式,能够更直观确定所述实际主题关键词与所述主题关键词在每个文本中的分布情况,通过将所述第一分布以及所述第二分布输出至所述分类器进行每个文本的关键句和非关键句识别,同时通过所述准确率和/或召回率对所述分类器进行优化,保证了所述分类器识别每个文本的关键句和非关键句的准确性,并提高了关键句和非关键句的识别效率,本说明书提供的所述文本识别方法,通过对文本的非关键句进行清洗,保留了文本的关键句,方便了对文本的关键句进行标注,在构建知识图谱的过程中提高了构建效率。
上述为本实施例的一种文本识别装置的示意性方案。需要说明的是,该文本识别装置的技术方案与上述的文本识别方法的技术方案属于同一构思,文本识别装置的技术方案未详细描述的细节内容,均可以参见上述文本识别方法的技术方案的描述。
图4示出了根据本说明书一实施例的电子设备400的结构框图。该电子设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
电子设备400还包括接入设备440,接入设备440使得电子设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,电子设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的电子设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
电子设备400可以是任何类型的静止或移动电子设备,包括移动计算机或移动电子设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的电子设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止电子设备。电子设备400还可以是移动式或静止式的服务器。
其中,处理器420用于执行如下计算机可执行指令:
获取多个文本的文本集;
提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
可选的,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
可选的,所述获取从所述文本集中至少一个文本中提取的实际主题关键词,包括:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
可选的,所述确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布,包括:
根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
可选的,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,执行所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤;
所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句,包括:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤执行之后,还包括:
根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
根据所述每个文本的召回率和/或所述准确率优化所述分类器。
可选的,所述计算每个文本的召回率,包括:
统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
可选的,所述计算每个文本的准确率,包括:
统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
可选的,所述获取多个文本的文本集,包括:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。上述为本实施例的一种电子设备的示意性方案。需要说明的是,该电子设备的技术方案与上述的文本识别方法的技术方案属于同一构思,电子设备的技术方案未详细描述的细节内容,均可以参见上述文本识别方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本识别方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (22)

1.一种文本识别方法,其特征在于,包括:
获取多个文本的文本集;
提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
2.根据权利要求1所述的文本识别方法,其特征在于,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
3.根据权利要求1所述的文本识别方法,其特征在于,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
4.根据权利要求1所述的文本识别方法,其特征在于,所述获取从所述文本集中至少一个文本中提取的实际主题关键词,包括:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
5.根据权利要求1所述的文本识别方法,其特征在于,所述确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布,包括:
根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
6.根据权利要求5所述的文本识别方法,其特征在于,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,执行所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤;
所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句,包括:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
7.根据权利要求1所述的文本识别方法,其特征在于,所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤执行之后,还包括:
根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
根据所述每个文本的召回率和/或所述准确率优化所述分类器。
8.根据权利要求7所述的文本识别方法,其特征在于,所述计算每个文本的召回率,包括:
统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
9.根据权利要求7所述的文本识别方法,其特征在于,所述计算每个文本的准确率,包括:
统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
10.根据权利要求1所述的文本识别方法,其特征在于,所述获取多个文本的文本集,包括:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。
11.一种文本识别装置,其特征在于,包括:
获取模块,被配置为获取多个文本的文本集;
提取模块,被配置为提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定模块,被配置为确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
识别模块,被配置为将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
12.根据权利要求11所述的文本识别装置,其特征在于,所述提取模块,包括:
第一分词处理单元,被配置为通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
识别单元,被配置为将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
13.根据权利要求11所述的文本识别装置,其特征在于,所述提取模块,包括:
第二分词处理单元,被配置为通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
第一计算单元,被配置为计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
确定关键词评分单元,被配置为根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
确定主题关键词单元,被配置为将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
14.根据权利要求11所述的文本识别装置,其特征在于,所述提取模块,进一步被配置为:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
15.根据权利要求11所述的文本识别装置,其特征在于,所述确定模块,包括:
生成关键词分布矩阵单元,被配置为根据所述每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述第一分布;
生成实际关键词分布矩阵单元,被配置为根据所述每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述第二分布。
16.根据权利要求15所述的文本识别装置,其特征在于,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,运行所述识别模块;
所述识别模块,进一步被配置为:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
17.根据权利要求11所述的文本识别装置,其特征在于,所述文本识别装置,还包括:
第二计算单元,被配置为根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
优化单元,被配置为根据所述每个文本的召回率和/或所述准确率优化所述分类器。
18.根据权利要求17所述的文本识别装置,其特征在于,所述第二计算单元,包括:
第一统计子模块,被配置为统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算召回率子模块,被配置为计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
19.根据权利要求17所述的文本识别装置,其特征在于,所述第二计算单元,包括:
第二统计子模块,被配置为统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算准确率子模块,被配置为计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
20.根据权利要求11所述的文本识别装置,其特征在于,所述获取模块进一步被配置为:
获取垂直领域内同一类别的多个文本,根据所述多个文本创建所述文本集。
21.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至10任意一项所述文本识别方法的步骤。
22.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10任意一项所述文本识别方法的步骤。
CN201910431256.0A 2019-05-22 2019-05-22 文本识别方法、装置、电子设备以及存储介质 Active CN110134792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910431256.0A CN110134792B (zh) 2019-05-22 2019-05-22 文本识别方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910431256.0A CN110134792B (zh) 2019-05-22 2019-05-22 文本识别方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN110134792A true CN110134792A (zh) 2019-08-16
CN110134792B CN110134792B (zh) 2022-03-08

Family

ID=67572514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910431256.0A Active CN110134792B (zh) 2019-05-22 2019-05-22 文本识别方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN110134792B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598211A (zh) * 2019-09-02 2019-12-20 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
CN110728143A (zh) * 2019-09-23 2020-01-24 上海蜜度信息技术有限公司 用于文档关键语句识别的方法与设备
CN110781299A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN110851598A (zh) * 2019-10-30 2020-02-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN111291186A (zh) * 2020-01-21 2020-06-16 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、***和计算机设备
US11410408B2 (en) * 2019-10-24 2022-08-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140114978A1 (en) * 2012-10-24 2014-04-24 Metavana, Inc. Method and system for social media burst classifications
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140114978A1 (en) * 2012-10-24 2014-04-24 Metavana, Inc. Method and system for social media burst classifications
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598211A (zh) * 2019-09-02 2019-12-20 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
CN110598211B (zh) * 2019-09-02 2023-09-26 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
CN110781299A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN110781299B (zh) * 2019-09-18 2024-03-19 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN110728143A (zh) * 2019-09-23 2020-01-24 上海蜜度信息技术有限公司 用于文档关键语句识别的方法与设备
US11410408B2 (en) * 2019-10-24 2022-08-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program
CN110851598A (zh) * 2019-10-30 2020-02-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN110851598B (zh) * 2019-10-30 2023-04-07 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN111291186A (zh) * 2020-01-21 2020-06-16 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111291186B (zh) * 2020-01-21 2024-01-09 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、***和计算机设备

Also Published As

Publication number Publication date
CN110134792B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN109492157A (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
CN107315738B (zh) 一种文本信息的创新度评估方法
CN108763213A (zh) 主题特征文本关键词提取方法
CN104866557B (zh) 一种基于建构学习理论的个性化即时学习支持***与方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103577462B (zh) 一种文档分类方法及装置
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及***
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN108334610A (zh) 一种新闻文本分类方法、装置及服务器
CN110502640A (zh) 一种基于建构的概念词义发展脉络的提取方法
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN102708164B (zh) 电影期望值的计算方法及***
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN106815310A (zh) 一种对海量文档集的层次聚类方法及***
CN109670014A (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及***
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN108090223A (zh) 一种基于互联网信息的开放学者画像方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN110196910A (zh) 一种语料分类的方法及装置
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant