CN106547736B - 基于人工智能的文本信息术语重要度生成方法以及装置 - Google Patents

基于人工智能的文本信息术语重要度生成方法以及装置 Download PDF

Info

Publication number
CN106547736B
CN106547736B CN201610942891.1A CN201610942891A CN106547736B CN 106547736 B CN106547736 B CN 106547736B CN 201610942891 A CN201610942891 A CN 201610942891A CN 106547736 B CN106547736 B CN 106547736B
Authority
CN
China
Prior art keywords
importance
term
text information
feature
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610942891.1A
Other languages
English (en)
Other versions
CN106547736A (zh
Inventor
姚树杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610942891.1A priority Critical patent/CN106547736B/zh
Publication of CN106547736A publication Critical patent/CN106547736A/zh
Application granted granted Critical
Publication of CN106547736B publication Critical patent/CN106547736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能的文本信息术语重要度生成方法以及装置。其中,方法包括:获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语;获取每个术语的领域相关重要度特征,并获取每个术语的基础特征;基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。该方法综合考虑了术语的领域、全局、局部、长度等方面对术语的重要度进行分析,并具备对不同领域的区分和定制能力,大大提高了术语在文本信息中的重要度的计算精度,可以提升语义解析的效果。

Description

基于人工智能的文本信息术语重要度生成方法以及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的文本信息术语重要度生成方法以及装置。
背景技术
人工智能(Artificial Intelligence,英文缩写为AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
大量研究成果表明,术语在许多文本信息中是客观存在的,术语之间有着紧密的联系,不同的术语在不同文本信息中有不同的重要度。获取文本信息中的术语的重要度,是文本信息处理的重要基础部分,该术语重要度的准确率对语义解析、意图识别等均有重要意义。因此,如何提高文本信息中术语重要度的计算精度以提升语义解析的效果,已经成为亟待解决的问题。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的文本信息术语重要度生成方法。该方法综合考虑了术语的领域、全局、局部、长度等方面对术语的重要度进行分析,并具备对不同领域的区分和定制能力,大大提高了术语在文本信息中的重要度的计算精度,可以提升语义解析的效果。
本发明的第二个目的在于提出一种基于人工智能的文本信息术语重要度生成装置。
本发明的第三个目的在于提出一种存储介质。
本发明的第四个目的在于提出一种计算机程序产品。
为达到上述目的,本发明第一方面实施例提出的基于人工智能的文本信息术语重要度生成方法,包括:获取文本信息,并对所述文本信息进行预处理以获取所述文本信息中的至少一个术语;获取每个术语的领域相关重要度特征,并获取所述每个术语的基础特征;基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数。
本发明实施例的基于人工智能的文本信息术语重要度生成方法,获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语,并获取每个术语的领域相关重要度特征,并获取每个术语的基础特征,之后,基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。即采用排序学习算法作为术语的重要度等级和重要度分数的计算框架,并综合考虑术语的领域、全局、局部、长度等方面对术语的重要度进行分析,并具备对不同领域的区分和定制能力,大大提高了术语在文本信息中的重要度的计算精度,可以提升语义解析的效果。
为达到上述目的,本发明第二方面实施例提出的基于人工智能的文本信息术语重要度生成装置,包括:预处理模块,用于获取文本信息,并对所述文本信息进行预处理以获取所述文本信息中的至少一个术语;第一获取模块,用于获取每个术语的领域相关重要度特征;第二获取模块,用于获取所述每个术语的基础特征;生成模块,用于基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数。
本发明实施例的基于人工智能的文本信息术语重要度生成装置,获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语,并获取每个术语的领域相关重要度特征,并获取每个术语的基础特征,之后,基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。即采用排序学习算法作为术语的重要度等级和重要度分数的计算框架,并综合考虑术语的领域、全局、局部、长度等方面对术语的重要度进行分析,并具备对不同领域的区分和定制能力,大大提高了术语在文本信息中的重要度的计算精度,可以提升语义解析的效果。
为达到上述目的,本发明第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器被执行时,使得电子设备能够执行一种基于人工智能的文本信息术语重要度生成方法,所述方法包括:获取文本信息,并对所述文本信息进行预处理以获取所述文本信息中的至少一个术语;获取每个术语的领域相关重要度特征,并获取所述每个术语的基础特征;基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数。
为达到上述目的,本发明第四方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的文本信息术语重要度生成方法,所述方法包括:获取文本信息,并对所述文本信息进行预处理以获取所述文本信息中的至少一个术语;获取每个术语的领域相关重要度特征,并获取所述每个术语的基础特征;基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于人工智能的文本信息术语重要度生成方法的流程图;
图2是根据本发明一个实施例的基于人工智能的文本信息术语重要度生成方法的示例图;
图3是根据本发明另一个实施例的基于人工智能的文本信息术语重要度生成方法的流程图;
图4是根据本发明一个实施例的基于人工智能的文本信息术语重要度生成装置的结构示意图;
图5是根据本发明一个具体实施例的基于人工智能的文本信息术语重要度生成装置的结构示意图;
图6是根据本发明另一个具体实施例的基于人工智能的文本信息术语重要度生成装置的结构示意图;
图7是根据本发明又一个具体实施例的基于人工智能的文本信息术语重要度生成装置的结构示意图;
图8是根据本发明又一个实施例的基于人工智能的文本信息术语重要度生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的文本信息术语重要度生成方法以及装置。
图1是根据本发明一个实施例的基于人工智能的文本信息术语重要度生成方法的流程图。需要说明的是,本发明实施例的基于人工智能的文本信息术语重要度生成方法可应用于本发明实施例的基于人工智能的文本信息术语重要度生成装置。可以理解,本发明实施例的基于人工智能的文本信息术语重要度生成方法可适用于语义解析。意图识别等场景中。
如图1所示,该基于人工智能的文本信息术语重要度生成方法可以包括:
S110,获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语。
具体地,可接收待处理的文本信息,该文本信息可以是用户输入的文本内容(如Query等),还可以是从某网页中所截取的文本内容等,之后,可对该文本信息进行切分处理以得到多个分词,并确定这些分词的词性,并根据该词性确定该文本内容所包含的实体,最后,可根据该实体来确定该文本内容中所包含的术语。其中,“至少一个”可理解为一个或多个,“多个”的含义是至少两个,例如两个,三个等。
S120,获取每个术语的领域相关重要度特征,并获取每个术语的基础特征。
具体而言,在本发明的一个实施例中,可根据预设的分类模型判定文本信息的所属领域,并计算每个术语在所属领域中的权重,并将每个术语在所属领域中的权重作为术语的领域相关重要度特征。其中,该预设的分类模型可为朴素贝叶斯模型。
可以理解,对于同一个术语在不同领域中该术语的重要度可能是不同的,应有所区分,为此,本发明正是利用该特性,引入了术语的领域相关重要度特征。更具体地,可通过预设的分类模型判定该文本信息的所属领域,以及术语在该文本信息所属领域中的权重。例如,以该分类模型为朴素贝叶斯模型为例,可通过该朴素贝叶斯模型对该文本信息中的各个术语进行训练,以得到各个术语在该文本信息所属领域的条件概率p(t|c)作为术语t在相应领域c的重要度,该重要度即为术语t的领域相关重要度特征。
举例而言,以文本信息1“我想看刘德华演的电影”、文本信息2“请告诉我刘德华是谁”为例,可通过分类模型对这两个文本信息进行分类,以得到文本信息1的所属领域为“movie领域”,文本信息2的所属领域为“person领域”,可以看出,同样的术语“刘德华”,在文本信息2中相对更重要些,即与文本信息1的所属领域“movie领域”相比,该术语“刘德华”在文本信息2的所属领域为“movie领域”的重要度更高些。
在获取术语的领域相关重要度特征时,还可获取该术语的基础特征。作为一种示例,该基础特征包括基本表意特征、实体类型的全局重要度特征、词性的全局重要度特征、实体类型的局部相对重要度特征和词性的局部相对重要度特征。可以理解,该基础特征还可包括其他特征,如左右互信息特征、信息增益特征等,可以根据实际需求进行相应的限定。上述仅是给出了一种示例,而并不能将其作为对本发明的具体限定。
在本示例中,上述获取每个术语的基础特征的具体实现过程可如下:
121)基于预设的迭代模型,对文本信息进行统计训练以获取文本信息中每个术语的基本表意特征;
其中,在本发明的实施例中,该预设的迭代模型可为:
Figure BDA0001138086880000051
其中,BT表示术语T的基本表意特征,N表示包含了术语T的文本信息的个数,Mi表示包含了术语T的第i个文本信息中所包含的术语的个数,
Figure BDA0001138086880000052
表示包含了术语T的第i个文本信息中的第j个术语Tij的基本表意特征,Tmpi表示术语T在包含术语T的第i个文本信息中的基本表意特征占比。
可以理解,对于任意一个术语(term)T,不妨设有N个文本信息Q1到QN均包含了该术语T,对于任意的1≤i≤N,不妨设包含术语T的第i个文本信息Qi中由Mi个术语T组成,而术语T的基本表意特征表示为术语T在包含它的所有文本信息上表意特征占比的调和平均,计算的迭代关系则由上述公式(1)表示。
具体地,可通过该迭代模型对该文本信息进行统计训练,得出文本信息中术语的表意能力,即上述的基本表意特征。
122)确定每个术语在文本信息中所对应的实体类型,并获取实体类型的全局重要度特征,其中,实体类型的全局重要度特征用于指示实体类型在训练数据上统计的平均重要度值;
需要说明的是,可预先构建训练数据,该训练数据可以是由大量的样本文本信息(query)、该样本文本信息所包含的术语、以及该术语的重要度等级等组成。例如,为区分构成样本文本信息的术语的重要度程度,在构建训练数据时,可对切分的样本文本信息所含术语的重要度划分为3(或4)个等级进行标注,划分标准说明可如下面表1所示:
表1
Figure BDA0001138086880000053
Figure BDA0001138086880000061
可以理解,在构建训练数据的过程中,还可确定术语在样本文本信息中所对应的实体类型,并对该实体类型进行相应的重要度标注。这样,在实际应用中,在确定出术语在文本信息中所对应的实体类型之后,可获取该术语在文本信息中所对应的实体类型在上述训练数据上统计的平均重要度值,该平均重要度值即为上述实体类型的全局重要度特征。
123)确定每个术语对应的词性,并获取词性的全局重要度特征,其中,词性的全局重要度特征,其中,词性的全局重要度特征用于指示词性在训练数据上统计的平均重要度值;
可以理解,在构建训练数据的过程中,还可确定术语对应的词性,并对该词性进行相应的重要度标注。这样,在实际应用中,在确定术语对应的词性之后,可根据该术语对应的词性获取从训练数据上统计得到的该词性的平均重要度值,该平均重要度值即为上述词性的全局重要度特征。
124)将每个术语的实体类型的全局重要度特征与文本信息中其他术语的实体类型的全局重要度特征之间的差值进行累加,以获取每个术语的实体类型的局部相对重要度特征;
具体地,针对每个术语,可将当前术语的实体类型的全局重要度特征与其他术语的实体类型的全局重要度特征之间的差值进行累加,得到该当前术语的实体类型的局部相对重要度特征。
125)将每个术语的词性的全局重要度特征与文本信息中其他术语的词性的全局重要度特征之间的差值进行累加,以获取每个术语的词性的局部相对重要度特征。
具体地,针对每个术语,可将当前术语的词性的全局重要度特征与其他术语的词性的全局重要度特征之间的差值进行累加,得到该当前术语的词性的局部相对重要度特征。
S130,基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。
具体而言,在本发明的实施例中,可分别确定领域相关重要度特征的第一权重和基础特征的第二权重,并基于排序学习算法,根据领域相关重要度特征、第一权重、基础特征以及第二权重计算每个术语在文本信息中的重要度分数,并根据每个术语的重要度分数生成每个术语在文本信息中的重要度分数。
作为一种示例,该排序学习算法可为Prank算法。例如,可采用Prank算法的模型,根据该术语的领域相关重要度特征和基础特征预测该术语的重要度等级,并计算出该术语的重要度分数。
举例而言,可将术语的领域相关重要度特征、该术语的基本表意特征、实体类型的全局重要度特征、词性的全局重要度特征、实体类型的局部相对重要度特征和词性的局部相对重要度特征等基本特征,代入如下公式(2)中,以计算出该术语的重要度分数和重要度等级。
Figure BDA0001138086880000071
其中,scorei为第i术语的重要度分数,fi0为第i术语的领域相关重要度特征,fi1、fin分别为第i术语的基础特征,该fi1、fin分别为不同的特征,w0、w1、wn分别为fi0、fi1、fin的权重,ri为术语的重要度等级rank值,br为术语的重要度等级rank r的分数最大阈值。
为了使得本领域技术人员能够更加清楚地了解本发明,下面将举例说明。
举例而言,如图2所示,可先对文本信息(Query)进行切分处理以得到多个分词,并确定这些分词的词性,并根据该词性确定该文本内容所包含的实体,并可根据该实体来确定该文本内容中所包含的术语。之后,可基于分类模型,获取术语的领域相关重要度特征,并获取该术语的基础特征,如基本表意特征、实体类型的全局重要度特征、词性的全局重要度特征、实体类型的局部相对重要度特征和词性的局部相对重要度特征等。在得到上述特征之后,可基于排序学习算法的模型,将上述特征代入该模型中,以训练得到该术语在文本信息中的重要度分析结果,该重要度分析结果包括如重要度等级和重要度分数。
为了提高本发明的可用性以及可行性,进一步地,在本发明的一个实施例中,如图3所示,在如图1所示的基础上,该基于人工智能的文本信息术语重要度生成方法还可包括:
S310,根据每个术语在文本信息中的重要度等级,利用预设的归一化模型对每个术语在文本信息中的重要度分数进行归一化处理。
具体地,可从该文本信息的各个术语的重要度等级中,确定重要度等级最低的术语,之后,可根据该最低的重要度等级,利用该预设的归一化模型对术语的重要度分数进行归一化处理,使得构成该文本信息的各术语的重要度分数之和为1。其中,在本发明的实施例中,该预设的归一化模型可如下:
Figure BDA0001138086880000072
Figure BDA0001138086880000073
其中,scorei 1为归一化处理后的第i术语的重要度分数,scorei为第i术语的重要度分数,
Figure BDA0001138086880000081
为术语的重要度等级rank值min-1的分数上限阈值,其中min为各术语的最小rank值,
Figure BDA0001138086880000082
为文本信息中所有术语的重要度分数之和。
本发明实施例的基于人工智能的文本信息术语重要度生成方法,获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语,并获取每个术语的领域相关重要度特征,并获取每个术语的基础特征,之后,基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。即采用排序学习算法作为术语的重要度等级和重要度分数的计算框架,并综合考虑术语的领域、全局、局部、长度等方面对术语的重要度进行分析,并具备对不同领域的区分和定制能力,大大提高了术语在文本信息中的重要度的计算精度,可以提升语义解析的效果。
与上述几种实施例提供的基于人工智能的文本信息术语重要度生成方法相对应,本发明的一种实施例还提供一种基于人工智能的文本信息术语重要度生成装置,由于本发明实施例提供的基于人工智能的文本信息术语重要度生成装置与上述几种实施例提供的基于人工智能的文本信息术语重要度生成方法相对应,因此在前述基于人工智能的文本信息术语重要度生成方法的实施方式也适用于本实施例提供的基于人工智能的文本信息术语重要度生成装置,在本实施例中不再详细描述。图4是根据本发明一个实施例的基于人工智能的文本信息术语重要度生成装置的结构示意图。如图4所示,该基于人工智能的文本信息术语重要度生成装置可以包括:预处理模块410、第一获取模块420、第二获取模块430和生成模块440。
具体地,预处理模块410可用于获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语。
第一获取模块420可用于获取每个术语的领域相关重要度特征。作为一种示例,如图5所示,该第一获取模块420可以包括:判定单元421和获取单元422。其中,判定单元421用于根据预设的分类模型判定文本信息的所属领域,并计算每个术语在所属领域中的权重。获取单元422用于将每个术语在所属领域中的权重作为术语的领域相关重要度特征。
第二获取模块430可用于获取每个术语的基础特征。作为一种示例,该基础特征包括基本表意特征、实体类型的全局重要度特征、词性的全局重要度特征、实体类型的局部相对重要度特征和词性的局部相对重要度特征。在本示例中,如图6所示,在如图5所示的基础上,该第二获取模块430可包括:第一获取单元431、第二获取单元432、第三获取单元433、第四获取单元434和第五获取单元435。
其中,第一获取单元431用于基于预设的迭代模型,对文本信息进行统计训练以获取文本信息中每个术语的基本表意特征。
其中,在本发明的实施例中,该预设的迭代模型可为:
Figure BDA0001138086880000091
其中,BT表示术语T的基本表意特征,N表示包含了术语T的文本信息的个数,Mi表示包含了术语T的第i个文本信息中所包含的术语的个数,
Figure BDA0001138086880000092
表示包含了术语T的第i个文本信息中的第j个术语Tij的基本表意特征,Tmpi表示术语T在包含术语T的第i个文本信息中的基本表意特征占比。
第二获取单元432用于确定每个术语在文本信息中所对应的实体类型,并获取实体类型的全局重要度特征,其中,实体类型的全局重要度特征用于指示实体类型在训练数据上统计的平均重要度值。
第三获取单元433用于确定每个术语对应的词性,并获取词性的全局重要度特征,其中,词性的全局重要度特征,其中,词性的全局重要度特征用于指示词性在训练数据上统计的平均重要度值。
第四获取单元434用于将每个术语的实体类型的全局重要度特征与文本信息中其他术语的实体类型的全局重要度特征之间的差值进行累加,以获取每个术语的实体类型的局部相对重要度特征。
第五获取单元435用于将每个术语的词性的全局重要度特征与文本信息中其他术语的词性的全局重要度特征之间的差值进行累加,以获取每个术语的词性的局部相对重要度特征。
生成模块440可用于基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。
作为一种示例,如图7所示,该生成模块440可包括:确定单元441、计算单元442和生成单元443。其中,确定单元441用于分别确定领域相关重要度特征的第一权重和基础特征的第二权重。计算单元442用于基于排序学习算法,根据领域相关重要度特征、第一权重、基础特征以及第二权重计算每个术语在文本信息中的重要度分数。生成单元443用于根据每个术语的重要度分数生成每个术语在文本信息中的重要度分数。
为了提高本发明的可用性以及可行性,进一步地,在本发明的一个实施例中,如图8所示,该基于人工智能的文本信息术语重要度生成装置还可包括:归一化处理模块450。其中,归一化处理模块450可用于根据每个术语在文本信息中的重要度等级,利用预设的归一化模型对每个术语在文本信息中的重要度分数进行归一化处理。
本发明实施例的基于人工智能的文本信息术语重要度生成装置,获取文本信息,并对文本信息进行预处理以获取文本信息中的至少一个术语,并获取每个术语的领域相关重要度特征,并获取每个术语的基础特征,之后,基于排序学习算法,根据领域相关重要度特征和基础特征生成每个术语在文本信息中的重要度等级和重要度分数。即采用排序学习算法作为术语的重要度等级和重要度分数的计算框架,并综合考虑术语的领域、全局、局部、长度等方面对术语的重要度进行分析,并具备对不同领域的区分和定制能力,大大提高了术语在文本信息中的重要度的计算精度,可以提升语义解析的效果。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于人工智能的文本信息术语重要度生成方法,其特征在于,包括以下步骤:
获取文本信息,并对所述文本信息进行预处理以获取所述文本信息中的至少一个术语;
获取每个术语的领域相关重要度特征,并获取所述每个术语的基础特征;其中,所述基础特征包括基本表意特征、实体类型的全局重要度特征、词性的全局重要度特征、实体类型的局部相对重要度特征和词性的局部相对重要度特征;其中,所述基本表意特征为术语在包含其的所有文本信息上表意特征占比的调和平均;所述实体类型的全局重要度特征用于指示所述实体类型在训练数据上统计的平均重要度值;所述词性的全局重要度特征用于指示所述词性在所述训练数据上统计的平均重要度值;所述实体类型的局部相对重要度特征是由所述每个术语的实体类型的全局重要度特征与所述文本信息中其他术语的实体类型的全局重要度特征之间的差值进行累加而得到的;所述词性的局部相对重要度特征是由所述每个术语的词性的全局重要度特征与所述文本信息中其他术语的词性的全局重要度特征之间的差值进行累加而得到的;
基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数。
2.如权利要求1所述的方法,其特征在于,所述获取每个术语的领域相关重要度特征,包括:
根据预设的分类模型判定所述文本信息的所属领域,并计算所述每个术语在所述所属领域中的权重;
将所述每个术语在所述所属领域中的权重作为所述术语的领域相关重要度特征。
3.如权利要求1所述的方法,其特征在于,所述获取所述每个术语的基础特征,包括:
基于预设的迭代模型,对所述文本信息进行统计训练以获取所述文本信息中所述每个术语的基本表意特征;
确定所述每个术语在所述文本信息中所对应的实体类型,并获取所述实体类型的全局重要度特征;
确定所述每个术语对应的词性,并获取所述词性的全局重要度特征;
将所述每个术语的实体类型的全局重要度特征与所述文本信息中其他术语的实体类型的全局重要度特征之间的差值进行累加,以获取所述每个术语的实体类型的局部相对重要度特征;
将所述每个术语的词性的全局重要度特征与所述文本信息中其他术语的词性的全局重要度特征之间的差值进行累加,以获取所述每个术语的词性的局部相对重要度特征。
4.如权利要求1所述的方法,其特征在于,所述基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数,包括:
分别确定所述领域相关重要度特征的第一权重和所述基础特征的第二权重;
基于排序学习算法,根据所述领域相关重要度特征、第一权重、基础特征以及第二权重计算所述每个术语在所述文本信息中的重要度分数;
根据所述每个术语的重要度分数生成所述每个术语在所述文本信息中的重要度分数。
5.如权利要求1所述的方法,其特征在于,还包括:
根据所述每个术语在所述文本信息中的重要度等级,利用预设的归一化模型对所述每个术语在所述文本信息中的重要度分数进行归一化处理。
6.一种基于人工智能的文本信息术语重要度生成装置,其特征在于,包括:
预处理模块,用于获取文本信息,并对所述文本信息进行预处理以获取所述文本信息中的至少一个术语;
第一获取模块,用于获取每个术语的领域相关重要度特征;
第二获取模块,用于获取所述每个术语的基础特征;其中,所述基础特征包括基本表意特征、实体类型的全局重要度特征、词性的全局重要度特征、实体类型的局部相对重要度特征和词性的局部相对重要度特征;其中,所述基本表意特征为术语在包含其的所有文本信息上表意特征占比的调和平均;所述实体类型的全局重要度特征用于指示所述实体类型在训练数据上统计的平均重要度值;所述词性的全局重要度特征用于指示所述词性在所述训练数据上统计的平均重要度值;所述实体类型的局部相对重要度特征是由所述每个术语的实体类型的全局重要度特征与所述文本信息中其他术语的实体类型的全局重要度特征之间的差值进行累加而得到的;所述词性的局部相对重要度特征是由所述每个术语的词性的全局重要度特征与所述文本信息中其他术语的词性的全局重要度特征之间的差值进行累加而得到的;
生成模块,用于基于排序学习算法,根据所述领域相关重要度特征和所述基础特征生成所述每个术语在所述文本信息中的重要度等级和重要度分数。
7.如权利要求6所述的装置,其特征在于,所述第一获取模块包括:
判定单元,用于根据预设的分类模型判定所述文本信息的所属领域,并计算所述每个术语在所述所属领域中的权重;
获取单元,用于将所述每个术语在所述所属领域中的权重作为所述术语的领域相关重要度特征。
8.如权利要求6所述的装置,其特征在于,所述第二获取模块包括:
第一获取单元,用于基于预设的迭代模型,对所述文本信息进行统计训练以获取所述文本信息中所述每个术语的基本表意特征;
第二获取单元,用于确定所述每个术语在所述文本信息中所对应的实体类型,并获取所述实体类型的全局重要度特征;
第三获取单元,用于确定所述每个术语对应的词性,并获取所述词性的全局重要度特征;
第四获取单元,用于将所述每个术语的实体类型的全局重要度特征与所述文本信息中其他术语的实体类型的全局重要度特征之间的差值进行累加,以获取所述每个术语的实体类型的局部相对重要度特征;
第五获取单元,用于将所述每个术语的词性的全局重要度特征与所述文本信息中其他术语的词性的全局重要度特征之间的差值进行累加,以获取所述每个术语的词性的局部相对重要度特征。
9.如权利要求6所述的装置,其特征在于,所述生成模块包括:
确定单元,用于分别确定所述领域相关重要度特征的第一权重和所述基础特征的第二权重;
计算单元,用于基于排序学习算法,根据所述领域相关重要度特征、第一权重、基础特征以及第二权重计算所述每个术语在所述文本信息中的重要度分数;
生成单元,用于根据所述每个术语的重要度分数生成所述每个术语在所述文本信息中的重要度分数。
10.如权利要求6所述的装置,其特征在于,还包括:
归一化处理模块,用于根据所述每个术语在所述文本信息中的重要度等级,利用预设的归一化模型对所述每个术语在所述文本信息中的重要度分数进行归一化处理。
CN201610942891.1A 2016-10-31 2016-10-31 基于人工智能的文本信息术语重要度生成方法以及装置 Active CN106547736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610942891.1A CN106547736B (zh) 2016-10-31 2016-10-31 基于人工智能的文本信息术语重要度生成方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610942891.1A CN106547736B (zh) 2016-10-31 2016-10-31 基于人工智能的文本信息术语重要度生成方法以及装置

Publications (2)

Publication Number Publication Date
CN106547736A CN106547736A (zh) 2017-03-29
CN106547736B true CN106547736B (zh) 2020-01-10

Family

ID=58392399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610942891.1A Active CN106547736B (zh) 2016-10-31 2016-10-31 基于人工智能的文本信息术语重要度生成方法以及装置

Country Status (1)

Country Link
CN (1) CN106547736B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052503B (zh) * 2017-12-26 2021-04-27 北京奇艺世纪科技有限公司 一种置信度的计算方法及装置
CN109062912B (zh) * 2018-08-08 2023-07-28 科大讯飞股份有限公司 一种翻译质量评价方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的***
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及***
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN105653738A (zh) * 2016-03-01 2016-06-08 北京百度网讯科技有限公司 基于人工智能的搜索结果播报方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10431214B2 (en) * 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的***
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及***
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***
CN105653738A (zh) * 2016-03-01 2016-06-08 北京百度网讯科技有限公司 基于人工智能的搜索结果播报方法和装置

Also Published As

Publication number Publication date
CN106547736A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
Talpur et al. Cyberbullying severity detection: A machine learning approach
US10762992B2 (en) Synthetic ground truth expansion
US20180096219A1 (en) Neural network combined image and text evaluator and classifier
CN111539197B (zh) 文本匹配方法和装置以及计算机***和可读存储介质
US20130024457A1 (en) Automatic Frequently Asked Question Compilation From Community-Based Question Answering Archive
CN111143569B (zh) 一种数据处理方法、装置及计算机可读存储介质
US20120259801A1 (en) Transfer of learning for query classification
CN106469192B (zh) 一种文本相关性的确定方法及装置
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN109948160B (zh) 短文本分类方法及装置
CN109685104B (zh) 一种识别模型的确定方法和装置
US11275787B2 (en) Entity viewpoint determinations
CN112052318A (zh) 一种语义识别方法、装置、计算机设备和存储介质
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN113392640A (zh) 一种标题确定方法、装置、设备及存储介质
CN106547736B (zh) 基于人工智能的文本信息术语重要度生成方法以及装置
CN117351336A (zh) 图像审核方法和相关设备
CN111046655B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
Lattner et al. Probabilistic segmentation of musical sequences using restricted Boltzmann machines
JP2015153381A (ja) クラスタリング装置、方法及びプログラム
Guo et al. A latent topic model for linked documents
Giorgi et al. Correcting sociodemographic selection biases for accurate population prediction from social media
CN108595564B (zh) 媒体友好度评估方法、装置及计算机可读存储介质
Madsen et al. Learning combinations of multiple feature representations for music emotion prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant