CN114416998A - 文本标签的识别方法、装置、电子设备及存储介质 - Google Patents

文本标签的识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114416998A
CN114416998A CN202210082518.9A CN202210082518A CN114416998A CN 114416998 A CN114416998 A CN 114416998A CN 202210082518 A CN202210082518 A CN 202210082518A CN 114416998 A CN114416998 A CN 114416998A
Authority
CN
China
Prior art keywords
text
entity
geographic
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210082518.9A
Other languages
English (en)
Inventor
宋威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202210082518.9A priority Critical patent/CN114416998A/zh
Publication of CN114416998A publication Critical patent/CN114416998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于大数据技术领域,提供了一种文本标签的识别方法、装置、电子设备及存储介质,方法包括:响应于目标文本的标签配置请求,通过预设的实体识别模型确定目标文本包含的候选地理关键词;基于目标文本对应的文本交互记录以及候选地理关键词在目标文本内的出现位置,生成候选地理关键词对应的特征向量;根据候选地理关键词对应的特征向量,计算候选地理关键词的文本标签概率;基于各个候选地理关键词对应的文本标签概率,从所有候选地理关键中确定目标文本对应的地理区域标签。采用上述方法,能够大大提高了文本标签识别的效率,降低了人力成本。

Description

文本标签的识别方法、装置、电子设备及存储介质
技术领域
本申请属于大数据技术领域,尤其涉及文本标签的识别方法、装置、电子设备及存储介质。
背景技术
随着网络技术的不断发展,每个用户或团体均可以在网络上发表文章,因而网络上发布的文本数据已几何级的数量增加。在对网络上的文本进行整理以及分析时,往往需要为文本添加相应的标签,以实现对文本进行快速分类。在部分的应用场景下,为了确定某一地理区域的情况,可以根据地理标签对文本进行分类,因此,如何能够准确地识别文本内容所描述的地理区域,则成为了亟需解决的问题。
现有的文本标签的识别技术,由于一个文本内可能会出现多个不同的与地理区域相关的关键词,因而在需要确定文本所描述的地理区域,以确定文本的地理标签时,往往需要通过人工进行标签配置,从而大大降低了标签配置的效率,并且在文本数量以几何级增长的场景下,往往需要耗费大量的人力进行文本分类,也进一步增加了人力成本。
发明内容
本申请实施例提供了一种文本标签的识别方法、装置、电子设备及存储介质,可以解决现有的文本标签的识别技术,在确定文本标签内容所描述的地理区域时,往往采用的是人工配置的方式进行分类,从而大大增加了文本标签配置的人力成本,以及识别效率较低的问题。
第一方面,本申请实施例提供了一种文本标签的识别方法,包括:
响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词;
基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量;
根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率;
基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签。
在第一方面的一种可能的实现方式中,所述基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量,包括:
基于所述出现位置确定所述候选关键词的文本特征参数组;
确定所述候选地理关键词的地理别名,基于所有所述地理别名在所述目标文本的出现次数,确定别名特征参数;
识别所述目标文本内与所述候选地理关键词存在关联关系的实体个数,确定实体特征参数;
获取所述目标文本的词云集合,基于所述候选地理关键词与所述词云集合之间的包含关系,确定语义特征参数;
识别所述目标文本的发布信息,并基于所述发布信息与所述候选关键词之间的第一关联度,确定发布特征参数组;
根据各个所述文本交互记录,确定交互特征参数组;
基于所述文本特征参数组、所述别名特征参数、所述实体特征参数、所述语义特征参数、所述发布特征参数组以及所述交互特征参数组,生成所述特征向量。
在第一方面的一种可能的实现方式中,所述识别所述目标文本的发布信息,并基于所述发布信息与所述候选关键词之间的第一关联度,确定发布特征参数组,包括:
确定所述目标文本的发布对象,并基于所述发布对象关联的第一地理位置与所述候选关键词对应的目标地理位置之间的第一距离值,计算第一发布特征值;
确定所述目标文本的文本作者,获取所述文本作者关联的多个已发布文本;
基于各个已发布文本的已有地理标签对应的第二地理位置与所述目标地理位置之间的第二距离值,计算第二发布特征值;其中,所述第二发布特征值具体为:
Figure BDA0003486470030000021
其中,Publish2为所述第二发布特征值;Distance(HisTexti,AddressKey)为第i个所述已发布文本的所述第二地理位置与所述目标地理位置之间的第二距离值;CurrentTime为所述目标文本的发布时间;Timei为所述第i个所述已发布文本的发布时间;Num([HisTexti])为所述已发布文本的总数;Max{Distance(HisTexti,AddressKey)}为最大值选取函数;
根据所述第一发布特征值以及所述第二发布特征值,确定所述发布特征参数组。
在第一方面的一种可能的实现方式中,所述文本交互记录包括文本浏览记录以及文本评论记录;
所述根据各个所述文本交互记录,确定交互特征参数组,包括:
确定各个所述文本浏览记录的浏览对象的第一用户信息,根据所述第一用户信息以及所述候选关键词确定所述第二关联度;
确定各个所述文本评论记录的评论对象的评论内容,基于所述评论内容与所述候选关键词,确定第三关联度;
根据所述第二关联度以及所述第三关联度,生成所述交互特征参数组。
在第一方面的一种可能的实现方式中,所述根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率,包括:
确定所述特征向量内各个特征值对应的特征基准值,并根据所述特征基准对分别对各个所述特征值进行归一化处理;
基于归一化后的特征值得到归一化后的特征向量;
将所述归一化后的特征向量导入到预设的预测模块内,生成全局特性向量;
将所述全局特征向量导入到预设的趋势评估模块,计算得到所述文本标签概率。
在第一方面的一种可能的实现方式中,所述响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词,包括:
响应于目标文本的标签配置请求,将所述目标文本导入实体识别模型,确定所述目标文本对应的实体关键词;
识别在所述目标文本中存在共现关系的实体关键词,确定实体关键词之间的关联关系;
基于各个所述实体关键词之间的所述关联关系,生成知识图谱;
计算任意两个实体关键词之间的第四关联度;所述第四关联度为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)maxsimentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述两个实体关键词之间的所述第四关联度;Context(E1)为实体关键词E1在所述知识图谱中存在所述关联关系的关联实体;Context(E2)为所述实体关键词E2在所述知识图谱中存在所述关联关系的关联实体;ei为所述实体关键词E1的所述关联关系内第i个关联实体;ej为所述实体关键词E2的所述关联关系内第j个所述关联实体;Prop(ei)为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型;Prop(ej)为所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型;ωp为实体关键词的实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型的参数值;
若所述第四关联度大于预设的关联阈值,则将所述任意两个实体关键词识别为存在别名关系的实体关键词;
将存在别名关系的实体关键词聚类为一个所述地理关键词。
在第一方面的一种可能的实现方式中,所述基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签,包括:
选取所述文本标识概率最大的所述候选地理关键词作为所述目标文本的地理区域标签;
在所述基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签之后,还包括:
基于所述地理区域标签对所有所述目标文本进行分类,得到多个区域文本组;每个所述区域文本组内的所述目标文本的所述地理区域标签相同。
第二方面,本申请实施例提供了一种文本标签的识别装置,包括:
候选地理关键词确定单元,用于响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词;
特征向量确定单元,用于基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量;
文本标签概率计算单元,用于根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率;
地理区域标签识别单元,用于基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
本申请实施例与现有技术相比存在的有益效果是:在需要识别目标文本对应的地理区域标签时,将通过实体识别模型对目标文本进行识别,得到该目标文本包含的候选地理关键词,可以从候选地理关键词中选取出目标文本的地理区域标签;为了确定具体哪一候选地理关键词能够更能代表目标文本的内容,需要根据每个候选地理关键词在目标文本内对应的出现位置以及该目标文本的文本交互记录,确定每个候选地理关键词的特征向量,并基于该特征向量得到每个候选地理关键词对应的文本标签概率,继而从候选地理关键词中选取出地理区域标签,实现了自动识别文本地理区域标签的目的。与现有的文本标签的识别技术相比,本实施例提供的方法无需人工对地理区域标签进行配置,从而大大提高了文本标签识别的效率,降低了人力成本。另一方面,本申请实施例在确定各个候选地理关键词的特征向量时,不仅考虑了候选地理关键词在目标文本的出现位置,通过出现位置确定候选地理关键词对于文本内容表征的重要程度,还通过目标文本的交互记录,确定与目标文本进行交互的对象与候选地理关键词之间的关联性,从而提高了特征向量所包含信息的丰富程度,进而提高了后续识别地理区域标签的准确性,进一步提高了文本管理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种文本标签的识别方法的实现流程图;
图2是本申请一实施例提供的一种文本标签的识别方法的S102的一种实现方式示意图;
图3是本申请一实施例提供的一种文本标签的识别方法的S1025的一种实现方式示意图;
图4是本申请一实施例提供的一种文本标签的识别方法的S1026的一种实现方式示意图;
图5是本申请一实施例提供的一种文本标签的识别方法的S103一种实现方式示意图;
图6是本申请一实施例提供的计算文本标签概率的网络的示意图;
图7是本申请一实施例提供的一种文本标签的识别方法的S101一种实现方式示意图;
图8是本申请一实施例提供的一种文本标签的识别方法的一种实现方式示意图;
图9是本申请实施例提供的文本标签的识别方法装置的结构示意图;
图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供的文本标签的识别方法可以应用于智能手机、服务器、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本等电子设备上。本申请实施例对电子设备的具体类型不作任何限制。特别地,该电子设备还可以为一个基于大数据的文本服务器,该文本服务器内存储有大量文本数据,并分别为每个文本数据配置的标签,上述标签包括但不限于文本数据的内容标签、人物标签等,特别地,上述标签包括地理区域标签,用于确定文本数据的内容具体描述的地理区域。
示例性地,以疫情分析场景为例进行说明,网络上包含有大量报道不同地区疫情情况的文章,在确定了解某一地区,甚至某一区域的疫情情况时,则需要确定上述文章的内容,确定所描述的地区或区域,并为文章添加对应的地理区域标签,并基于地理区域标签对网络上的文章进行分类,以方便了解不同地区、不同区域的疫情情况。基于此,如何能够准确高效地对大量的文本数据进行地理区域标签的识别,直接影响了疫情管控的效率。当然,上述地理区域标签的添加以对文本数据进行分类,还可以应用于确定舆情情况的领域,以及其他用于确认不同地区情况的领域。
请参阅图1,图1示出了本申请实施例提供的一种文本标签的识别方法的实现流程图,该方法包括如下步骤:
在S101中,响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词。
在本实施例中,电子设备配置有文本数据库,该文本数据库内存储大量的文本数据。上述文本数据包含有添加了标签的文本数据,以及待添加标签的目标文本。电子设备在接收到关于某一目标文本的标签配置请求时,则执行S101的操作。上述标签配置请求可以基于用户操作生成的,还可以是自动生成的。
在一种可能的实现方式中,用户终端可以将携带有目标文件的标签配置请求发送给电子设备,电子设备在接收到上述标签配置请求后,会提取其中携带有的目标文本,并为该目标文本添加地理区域标签。
在一种可能的实现方式中,上述标签配置请求可以携带有文本标识。电子设备基于该文本标识从预设的文本数据库中提取对应的目标文本,并进行地理区域标签的识别操作。
在一种可能的实现方式中,电子设备会以预设的周期从互联网上下载文本数据,并在得到上述文本数据后对其进行标签识别的操作。例如,电子设备可以配置有对应的文本关键词,将包含该文本关键词的文本数据从互联网上进行下载。
在本实施例中,电子设备配置有实体识别模型,该实体识别模型具体用于识别目标文本中包含的与地理位置相关的实体关键词,如“湖南”、“深圳科技大厦”等,将识别得到的与实体关键词作为该目标文本对应的候选地理关键词。其中,该实体识别模型具体可以是通过大量标注数据训练后生成的,标注方式采用基本输入输出***(Basic InputOutput System,BIOS)标注,训练的模型采用基于BiLSTM网络与CRF网络合并的方式进行训练,训练完成之后使用命名实体识别的模型进行预测,以得到上述的实体识别模型。
在一种可能的实现方式中,电子设备可以存储有多个训练文本,各个训练文本中标记有与地理相关的实体关键词,并基于标注后的训练文本对已有的识别模型进行训练学习,并设置对应的损失函数,在检测到损失函数的损失值小于或等于预设的损失阈值时,则识别上述识别模型已经训练完毕,即得到上述的实体识别模型。
在S102中,基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量。
在本实施例中,电子设备可以分别确定不同的候选地理关键词对应的特征向量。该特征向量用于确定候选地理关键词对于目标文本的内容的概括程度。其中,上述特征向量除了与在文本中出现的位置,以及根据出现位置的统计候选地理关键词次数等文本属性相关外,还与该文本对应的交互记录相关,例如浏览文本的用户信息、评论该文本的用户信息以及撰写该文本对应的作者信息等,交互操作包括但不限于:分享、点赞、评论以及收藏等操作,上述交互信息也能一定程度上确定关注该目标文本的受众,往往对于文本关注度较高的受众是与文本内容所关联的地理区域具有强关联关系的用户,因此通过文本交互记录,能够一定程度确定该目标文本的内容所表征的地理区域。
在一种可能的实现方式中,电子设备可以将标记了候选地理关键词的目标文本,导入到预设的位置特征数据的转换模型,计算得到基于出现位置确定的位置特征数据;电子设备可以在各个文本交互记录识别是否包含上述候选地理关键词,并基于出现了候选地理关键词的文本交互记录,计算得到交互特征数据,根据交互特征数据以及位置特征数据,得到上述的特征向量。
在S103中,根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率。
在本实施例中,电子设备在确定了候选地理关键词的特征向量后,可以将特征向量导入到预设的标签概率识别网络,计算得到候选地理关键词对应的文本标签概率。其中,若该文本标签概率的数值越大,则表示与目标文本的内容关联性越大;反之,若文本标签概率的数值越小,则表示与目标文本的内容关联性越小。
在一种可能的实现方式中,电子设备配置有一文本标签的识别网络。该文本标签的识别网络包含两个模块,分别为特征提取模块以及全连接模块。其中,该特征提取模块具体可以为一基于多重卷积核构成的模块,通过多重卷积核对上述特征向量进行卷积处理,从而提取该候选关键词对应的特征值,并基于该特征值导入到上述的全连接模块内,从而计算得到为目标文本的文本标签的概率,即上述的文本标签概率。上述识别网络可以是通过大数据人工智能的学习的方式训练得到的。
需要说明的是,电子设备会为每个候选地理关键词确定特征向量,并分别计算每个候选地理关键词对应的文本标签概率。
在S104中,基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签。
在本实施例中,电子设备在计算得到各个地理关键词的文本标签概率后,可以基于文本标签概率,识别得到该目标文本的地理区域标签。
在一种可能的实现方式中,电子设备可以选取文本标签概率最大的一个候选地理关键词作为上述地理区域标签。
在一种可能的实现方式中,电子设备可以配置有对应的概率阈值,将文本标签概率大于上述概率阈值的候选地理关键词均作为上述地理区域标签。
在一种可能的实现方式中,确定的地理区域标签的个数可以为一个,也可以为多个。若该地理区域标签的个数为多个,则每个地理区域标签之间可以为相互级联的关系。举例性地,识别得到的多个地理区域标签可以为:广东、深圳、福田区、莲花街道,上述各个地理区域标签之间是具有级联关系的,莲花街道属于福田区内的一个街道,而福田区则属于深圳市的一个区域,而深圳市则属于广东省内的一个地级市,相互之间是存在地域级联的关系,对应不同的划分粒度,从而能够响应不同粒度的文本划分操作。
以上可以看出,本申请实施例提供的一种文本标签的识别方法在需要识别目标文本对应的地理区域标签时,将通过实体识别模型对目标文本进行识别,得到该目标文本包含的候选地理关键词,可以从候选地理关键词中选取出目标文本的地理区域标签;为了确定具体哪一候选地理关键词能够更能代表目标文本的内容,需要根据每个候选地理关键词在目标文本内对应的出现位置以及该目标文本的文本交互记录,确定每个候选地理关键词的特征向量,并基于该特征向量得到每个候选地理关键词对应的文本标签概率,继而从候选地理关键词中选取出地理区域标签,实现了自动识别文本地理区域标签的目的。与现有的文本标签的识别技术相比,本实施例提供的方法无需人工对地理区域标签进行配置,从而大大提高了文本标签识别的效率,降低了人力成本。另一方面,本申请实施例在确定各个候选地理关键词的特征向量时,不仅考虑了候选地理关键词在目标文本的出现位置,通过出现位置确定候选地理关键词对于文本内容表征的重要程度,还通过目标文本的交互记录,确定与目标文本进行交互的对象与候选地理关键词之间的关联性,从而提高了特征向量所包含信息的丰富程度,进而提高了后续识别地理区域标签的准确性,进一步提高了文本管理效率。
图2示出了本发明第二实施例提供的一种文本标签的识别方法S102的具体实现流程图。参见图2,相对于图1所述实施例,本实施例提供的一种文本标签的识别方法中S102包括:S1021~S1027,具体详述如下:
进一步地,所述基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量,包括:
在S1021中,基于所述出现位置确定所述候选关键词的文本特征参数组。
在本实施例中,文本往往可以划分为不同的区域,如标题区域、副标题区域、摘要区域、正文区域以及引用区域等等,不同区域对于文本内容的概括程度不同,例如标题区域是概括文本内容的程度较高;而正文区域由于包含大量文字,属于对于展开内容描述的区域,因此概括文本内容的程度较低。基于此,若某一地理区域关键词出现在标题区域,则所表征文本内容的信息密度较高;若某一地理区域关键词出现在正文区域,则所表征文本内容的信息密度较低,因此可以根据候选地理关键词在目标文本内的出现位置,生成阈值对应的文本特征参数组。该文本特征参数组内可以包含一个特征参数;也可以包含多个特征参数,具体根据实际情况确定。举例性地,若某一候选地理关键词在目标文本内出现了多次,则上述文本特征参数组的参数个数也可以与出现次数相一致,即每一个出现位置对应一个文本特征参数,从而将所有文本特征参数构成该候选地理关键词的文本特征参数组。
在一种可能的实现方式中,上述文本特征参数组包括以下四种特征参数值,分别为:
1.确定候选地理关键词在目标文本中的出现次数,基于出现次数确定第一文本特征参数。
在本实施例中,一个候选地理关键词可以在文本中多次出现,电子设备可以统计某一个候选地理关键词在目标文本中的出现次数,并基于该出现次数计算得到第一文本特征参数。需要说明的是,若该候选地理关键词存在一个或多个别名,则别名出现的次数也可以统计入该候选地理关键词的出现次数中,从而得到对应的第一文本特征参数。
2.识别候选地理关键词是否在目标文本的标题区域内出现,确定第二文本特征参数。
3.识别候选地理关键词是否在目标文本正文区域的首段或末段内出现,确定第三文本特征参数。
4.识别候选地理关键词是否在摘要内出现,确定第四文本特征参数。
在本实施例中,根据文本内容的重要程度,可以得到三种重要程度较高的区域,分别为标题区域、摘要区域,以及正文区域中的首段或末段。上述各个区域的文字往往能够高度概括文本的内容,因此若候选地理关键词出现在上述区域内,则表示对于文本内容的较为重要,因此,可以是否出现在上述区域,以确定与之对应的文本特征参数。若出现在上述区域,则对应的文本特征参数为第一位值;反之,若未出现在上述区域,则对应的文本特征参数为第二位值。
例如,若某一候选地理关键词出现在标题区域,则该候选地理关键词的第二文本特征参数为1(即第一位值),若上述候选地理关键词未出现在摘要区域,则该候选地理关键词的第四文本特征参数为0(即第二位值),以此类推。
在S1022中,确定所述候选地理关键词的地理别名,基于所有所述地理别名在所述目标文本的出现次数,确定别名特征参数。
在本实施例中,电子设备可以根据预设的知识图谱或预存的别名字典得到每个候选地理关键词的别名,判断每个候选地理关键词的别名在目标文本内是否出现过,以及出现的次数,通过分析可以得到两个特征参数,将上述两个特征参数进行封装,得到上述别名特征参数。
在S1023中,识别所述目标文本内与所述候选地理关键词存在关联关系的实体个数,确定实体特征参数。
在本实施例中,电子设备可以统计目标文本中是否存在与候选地理关键词相关联的地点名称,而地点名称可能并非已识别的候选地理关键词,而是与地点相关度较高的实体,例如武汉市包含黄鹤楼、武汉长江大桥、武汉大学、昙华林等,根据与候选地理关键词关联的实体的出现次数,得到上述的实体特征参数。
在S1024中,获取所述目标文本的词云集合,基于所述候选地理关键词与所述词云集合之间的包含关系,确定语义特征参数。
在本实施例中,上述词云集合是对目标文本进行语义分析后,提取得到的能够体现目标文本的主体内容的关键词集合。若候选地理关键词出现在词云内,则表示该候选地理关键词对于目标文本的文本内容具有较高的代表性,因此可以基于词云集合是否包含上述候选地理关键词,以确定对应的语义特征参数。
在S1025中,识别所述目标文本的发布信息,并基于所述发布信息与所述候选关键词之间的第一关联度,确定发布特征参数组。
在本实施例中,电子设备可以获取目标文本对应的发布信息,例如发布者以及发布地点,由于发布信息往往与文本所描述内容的地理位置具有较强的相关性,例如“广州日报”这一发布对象,往往报道的是广州本土的新闻,因此,可以通过确定候选地理关键词与发布信息之间的第一关联度,间接推断该候选第一关键词与地理区域标签之间的相关度,并基于上述第一关联度确定发布特征参数组。
在S1026中,根据各个所述文本交互记录,确定交互特征参数组。
在本实施例中,电子设备可以根据该目标文本的所有文本交互记录与候选地理关键词之间的关联度,生成对应的交互特征参数组。例如判断文本交互记录的交互内容是否包含候选地理关键词,或候选地理关键词关联的实体,从而得到对应的交互特征参数。
在S1027中,基于所述文本特征参数组、所述别名特征参数、所述实体特征参数、所述语义特征参数、所述发布特征参数组以及所述交互特征参数组,生成所述特征向量。
在本实施例中,电子设备可以将上述多个计算得到特征参数进行封装,从而生成关于候选地理关键词的特征向量。
在本申请实施例中,通过多个维度确定候选地理关键词的特征参数,从而生成候选地理关键词的特征向量,能够从多个维度评判候选地理关键词与文本内容的关联程度,大大提高了后续地理区域标签的识别准确性。
图3示出了本发明第三实施例提供的一种文本标签的识别方法S1025的具体实现流程图。参见图3,相对于图2所述实施例,本实施例提供的一种文本标签的识别方法中S1025包括:S301~S304,具体详述如下:
在S301中,确定所述目标文本的发布对象,并基于所述发布对象关联的第一地理位置与所述候选关键词对应的目标地理位置之间的第一距离值,计算第一发布特征值。
在本实施例中,上述发布信息包含有发布对象以及文本作者。其中,发布对象可以为一企业,集团、团体、个人等,如深圳日报、广州日报或广州公安的公众号等,当然,若文本作者为目标文本的发布对象,则发布对象与文本作者可以相同。每个发布对象可以关联有对应的注册位置,即上述的第一地理位置,电子设备可以根据候选关键词对应的目标地理位置与发布对象所关联的第一地理位置之间的第一距离值,得到第一发布特征值。若该第一距离值越小,则对应的第一发布特征值的数值越大。
在S302中,确定所述目标文本的文本作者,获取所述文本作者关联的多个已发布文本。
在本实施例中,电子设备可以根据目标文本关联的文本作者,获取该文本作者已发布的所有文本,即已发布文本。
在S1033中,基于各个已发布文本的已有地理标签对应的第二地理位置与所述目标地理位置之间的第二距离值,计算第二发布特征值;其中,所述第二发布特征值具体为:
Figure BDA0003486470030000111
其中,Publish2为所述第二发布特征值;Distance(HisTexti,AddressKey)为第i个所述已发布文本的所述第二地理位置与所述目标地理位置之间的第二距离值;CurrentTime为所述目标文本的发布时间;Timei为所述第i个所述已发布文本的发布时间;Num([HisTexti])为所述已发布文本的总数;Max{Distance(HisTexti,AddressKey)}为最大值选取函数。
在本实施例中,各个已发布文本为已经配置了地理区域标签的文本,因此可以通过获取各个已发布文本对应的已有地理标签,确定对应的第二地理位置,并计算第二地理位置与候选关键词对应的目标地理位置之间的距离值,即第二距离值,从而计算得到与发布相关的第二发布特征值。其中,电子设备可以基于各个已发布文本与目标文本之间发布时间的差异,确定与之对应的权重,若与目标文本之间的发布时间越接近,则对应权重越高。
在S1034中,根据所述第一发布特征值以及所述第二发布特征值,确定所述发布特征参数组。
在本实施例中,电子设备将第一发布特征值与第二特征值进行封装,从而得到关于候选地理关键词的发布特征参数组。
在本申请实施例中,通过确定发布对象以及文本作者的已发布文本,分别确定与发布相关的第一发布特征值以及第二发布特征值,能够提高发布特征的全面性,提高了后续计算文本标签概率的准确性。
图4示出了本发明第四实施例提供的一种文本标签的识别方法S1026的具体实现流程图。参见图4,相对于图2所述实施例,本实施例提供的一种文本标签的识别方法中S1026包括:S401~S404,具体详述如下:
进一步地,所述文本交互记录包括文本浏览记录以及文本评论记录;所述根据各个所述文本交互记录,确定交互特征参数组,包括:
在S401中,确定各个所述文本浏览记录的浏览对象的第一用户信息,根据所述第一用户信息以及所述候选关键词确定所述第二关联度。
在S402中,确定各个所述文本评论记录的评论对象的评论内容,基于所述评论内容与所述候选关键词,确定第三关联度。
在S403中,根据所述第二关联度以及所述第三关联度,生成所述交互特征参数组。
在本实施例中,电子设备可以获取查看目标文本的用户的第一用户信息,从第一用户信息中提取网络地址,并通过网络地址确定浏览该目标文本的用户所在地,通过计算该用户所在地与候选地理关键词对应的目标地理位置之间的距离,确定上述第二关联度。
在一种可能的实现方式中,电子设备在确定了各个文本浏览记录的第一用户信息后,可以统计浏览目标文本的用户所在地的比例,选取前N个的观看人数所在地最多的地点作为浏览代表地,并基于浏览代表第与候选地理关键词对应的目标地理位置间的距离值,计算得到上述的第二关联度。
在本实施例中,与确定第二关联度相似,电子设备可以根据文本评论记录中确定评论了目标文本的各个用户对应的用户所在地,并计算评论用户所在地与候选地理关键词对应的目标地理位置之间的距离,确定上述第三关联度。具体描述可以参见上述第二关联度的描述,在此不再赘述。
在本实施例中,电子设备可以将第二关联度与第三关联度进行封装,从而得到与交互行为相关的交互特征参数组。
在本申请实施例中,通过确定交互对象的地理位置与候选地理关键词之间的关联度,确定交互特征参数组,能够通过交互对象来确定候选地理关键词是否与目标文本的地理区域相关,继而提高了特征向量的信息丰富度,进而提高后续文本标签概率的准确性。
图5示出了本发明第五实施例提供的一种文本标签的识别方法S103的具体实现流程图。参见图5,相对于图1所述实施例,本实施例提供的一种文本标签的识别方法中S103包括:S1031~S1034,具体详述如下:
在S1051中,确定所述特征向量内各个特征值对应的特征基准值,并根据所述特征基准对分别对各个所述特征值进行归一化处理。
在S1052中,基于归一化后的特征值得到归一化后的特征向量。
在S1053中,将所述归一化后的特征向量导入到预设的预测模块内,生成全局特性向量。
在S1054中,将所述全局特征向量导入到预设的趋势评估模块,计算得到所述文本标签概率。
在本实施例中,电子设备可以对特征向量内各个特征值进行归一化处理,从而可也消除不同特征量纲对结果的影响,具体的归一化规则可以根据对应特征值的物理特性进行确定,即确定特征向量内各个特征值的特征基准值,例如可以采用softmax函数对上述特征向量进行归一化处理,以得到归一化后的特征向量。
在一种可能的实现方式中,电子设备在输入到预测模块以及趋势评估模块构成的网络之前,可以对上述两个模块进行训练,具体为:电子设备通过训练数据导入到网络中,然后通过对训练数据的特征提取以及数据压缩,生成与之对应的决策树,该决策树包可以的输出与预测模块向量,继而预测模块的输出再反馈给趋势评估模块,从而计算得到对应的全局向量,处理训练数据外,还配置有对应的验证数据,基于预测模块输出验证数据对应的验证分值,通过验证分值以及全局向量,对上述框架内的各模块参数进行调整,从而得到训练后的网络,即预测模块以及趋势评估模块,示例性地,图6示出了本申请一实施例提供的计算文本标签概率的网络的示意图。参见图6所示,该网络包含有预测模块以及趋势评估模块,可以通过训练数据进行训练,并在训练后对特征向量进行转换,得到文本标签概率。
在本申请实施例中,在计算文本标签概率之前,先对特征向量内的各个特征值进行归一化处理,能够消除因量纲而带来的影响,从而进一步提高后续计算的准确性。
图7示出了本发明第六实施例提供的一种文本标签的识别方法的S101具体实现流程图。参见图7,相对于图1-5任一项所述实施例,本实施例提供的一种文本标签的识别方法S101包括:S1011~S1016,具体详述如下:
在S1011中,响应于目标文本的标签配置请求,将所述目标文本导入实体识别模型,确定所述目标文本对应的实体关键词。
在S1012中,识别在所述目标文本中存在共现关系的实体关键词,确定实体关键词之间的关联关系。
在S1013中,基于各个所述实体关键词之间的所述关联关系,生成知识图谱。
在S1014中,计算任意两个实体关键词之间的第四关联度;所述第四关联度为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)maxsimentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述两个实体关键词之间的所述第四关联度;Context(E1)为实体关键词E1在所述知识图谱中存在所述关联关系的关联实体;Context(E2)为所述实体关键词E2在所述知识图谱中存在所述关联关系的关联实体;ei为所述实体关键词E1的所述关联关系内第i个关联实体;ej为所述实体关键词E2的所述关联关系内第j个所述关联实体;Prop(ei)为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型;Prop(ej)为所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型;ωp为实体关键词的实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型的参数值。
在S1015中,若所述第四关联度大于预设的关联阈值,则将所述任意两个实体关键词识别为存在别名关系的实体关键词。
在S1016中,将存在别名关系的实体关键词聚类为一个所述地理关键词。
在本实施例中,电子设备通过实体识别模型确定目标文本内包含实体关键词,并为每个实体关键词在预设的知识图谱内添加对应的节点。若两个实体关键词在同一句子内,或同一语段内,则识别上述两个实体关键词存在共现关系,或者根据两个实体关键词之间的连接词为预设的有效连接词,则确定两个实体关键词存在共现关系,若两个存在共现关系的实体关键词,则可以在知识图谱中连接两个实体关键词对应的节点,即上述两个实体关键词存在关联关系,从而连接各个孤立的节点,生成基于所有实体关键词的知识图谱。电子设备可以对该知识图谱可以计算各个实体关键词之间的第四关联度,若两个实体关联词之间第四关联度大于预设的关联阈值,则识别上述两个实体关键词之间存在别名关系,可以将上述两个实体关键词进行聚类为一个关键词,作为一个候选关键词。
在本申请实施例中,通过在识别目标文本与地理相关的实体关键词后,进行别名识别,并对具有别名关系的实体关键词进行聚类,得到候选地理关键词,能够避免指代同一对象的不同关键词分别进行文本标签概率的计算,对关键词的重要程度进行稀释,继而提高后续识别地理区域标签的识别准确性。
图8示出了本发明第六实施例提供的一种文本标签的识别方法的具体实现流程图。参见图8,相对于图1-5任一项所述实施例,本实施例提供的一种文本标签的识别方法S104包括:S801,在S104之后还包括S802,具体详述如下:
在S801中,选取所述文本标识概率最大的所述候选地理关键词作为所述目标文本的地理区域标签。
在S802中,基于所述地理区域标签对所有所述目标文本进行分类,得到多个区域文本组;每个所述区域文本组内的所述目标文本的所述地理区域标签相同。
在本实施例中,电子设备可以选取文本标识概率最大的一个候选地理关键词作为该目标文本的地理区域标签,然后可以基于该地理区域标签对所有目标文本进行分类,将属于相同的地理区域标签的所有目标文本划分至一个区域文本组内,方便用户通过该区域文本组了解某一地理区域的情况,如疫情情况、舆论情况以及发生的热点事件等。
在本申请实施例中,通过地理区域标签对文本进行分类,方便用户了解特定区域的情况,提高了文本搜索的效率。
图9示出了本发明一实施例提供的一种文本标签的识别方法装置的结构框图,该电子设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图9,所述文本标签的识别方法装置包括:
候选地理关键词确定单元91,用于响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词;
特征向量确定单元92,用于基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量;
文本标签概率计算单元93,用于根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率;
地理区域标签识别单元94,用于基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签。
可选地,所述特征向量确定单元92,包括:
文本特征参数组确定单元,用于基于所述出现位置确定所述候选关键词的文本特征参数组;
别名特征参数确定单元,用于确定所述候选地理关键词的地理别名,基于所有所述地理别名在所述目标文本的出现次数,确定别名特征参数;
实体特征参数确定单元,用于识别所述目标文本内与所述候选地理关键词存在关联关系的实体个数,确定实体特征参数;
语义特征参数确定单元,用于获取所述目标文本的词云集合,基于所述候选地理关键词与所述词云集合之间的包含关系,确定语义特征参数;
发布特征参数组确定单元,用于识别所述目标文本的发布信息,并基于所述发布信息与所述候选关键词之间的第一关联度,确定发布特征参数组;
交互特征参数组确定单元,用于根据各个所述文本交互记录,确定交互特征参数组;
参数封装单元,用于基于所述文本特征参数组、所述别名特征参数、所述实体特征参数、所述语义特征参数、所述发布特征参数组以及所述交互特征参数组,生成所述特征向量。
可选地,所述发布特征参数组确定单元包括:
第一发布特征值确定单元,用于确定所述目标文本的发布对象,并基于所述发布对象关联的第一地理位置与所述候选关键词对应的目标地理位置之间的第一距离值,计算第一发布特征值;
已发布文本获取单元,用于确定所述目标文本的文本作者,获取所述文本作者关联的多个已发布文本;
第二发布特征值确定单元,用于基于各个已发布文本的已有地理标签对应的第二地理位置与所述目标地理位置之间的第二距离值,计算第二发布特征值;其中,所述第二发布特征值具体为:
Figure BDA0003486470030000151
其中,Publish2为所述第二发布特征值;Distance(HisTexti,AddressKey)为第i个所述已发布文本的所述第二地理位置与所述目标地理位置之间的第二距离值;CurrentTime为所述目标文本的发布时间;Timei为所述第i个所述已发布文本的发布时间;Num([HisTexti])为所述已发布文本的总数;Max{Distance(HisTexti,AddressKey)}为最大值选取函数;
发布特征值封装单元,用于根据所述第一发布特征值以及所述第二发布特征值,确定所述发布特征参数组。
可选地,所述文本交互记录包括文本浏览记录以及文本评论记录;
所述交互特征参数组确定单元包括:
第二关联度确定单元,用于确定各个所述文本浏览记录的浏览对象的第一用户信息,根据所述第一用户信息以及所述候选关键词确定所述第二关联度;
第三关联度确定单元,用于确定各个所述文本评论记录的评论对象的评论内容,基于所述评论内容与所述候选关键词,确定第三关联度;
关联度封装单元,用于根据所述第二关联度以及所述第三关联度,生成所述交互特征参数组。
可选地,所述文本标签概率计算单元93包括:
归一化处理单元,用于确定所述特征向量内各个特征值对应的特征基准值,并根据所述特征基准对分别对各个所述特征值进行归一化处理;
归一化向量生成单元,用于基于归一化后的特征值得到归一化后的特征向量;
全局特性向量确定单元,用于将所述归一化后的特征向量导入到预设的预测模块内,生成全局特性向量;
文本标签概率转换单元,用于将所述全局特征向量导入到预设的趋势评估模块,计算得到所述文本标签概率。
可选地,所述候选地理关键词确定单元91包括:
实体关键词识别单元,用于响应于目标文本的标签配置请求,将所述目标文本导入实体识别模型,确定所述目标文本对应的实体关键词;
关联关系识别单元,用于识别在所述目标文本中存在共现关系的实体关键词,确定实体关键词之间的关联关系;
知识图谱生成单元,用于基于各个所述实体关键词之间的所述关联关系,生成知识图谱;
第四关联度计算单元,用于计算任意两个实体关键词之间的第四关联度;所述第四关联度为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)maxsimentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述两个实体关键词之间的所述第四关联度;Context(E1)为实体关键词E1在所述知识图谱中存在所述关联关系的关联实体;Context(E2)为所述实体关键词E2在所述知识图谱中存在所述关联关系的关联实体;ei为所述实体关键词E1的所述关联关系内第i个关联实体;ej为所述实体关键词E2的所述关联关系内第j个所述关联实体;Prop(ei)为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型;Prop(ej)为所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型;ωp为实体关键词的实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型的参数值;
别名关系识别单元,用于若所述第四关联度大于预设的关联阈值,则将所述任意两个实体关键词识别为存在别名关系的实体关键词;
实体关键词聚类单元,用于将存在别名关系的实体关键词聚类为一个所述地理关键词。
可选地,所述地理区域标签识别单元94包括:
文本标识概率最大选取单元,用于选取所述文本标识概率最大的所述候选地理关键词作为所述目标文本的地理区域标签;
所述文本标签的识别装置还包括:
文本分类单元,用于基于所述地理区域标签对所有所述目标文本进行分类,得到多个区域文本组;每个所述区域文本组内的所述目标文本的所述地理区域标签相同。
因此,本发明实施例提供的文本标签的识别方法装置同样可以无需人工对地理区域标签进行配置,从而大大提高了文本标签识别的效率,降低了人力成本。另一方面,本申请实施例在确定各个候选地理关键词的特征向量时,不仅考虑了候选地理关键词在目标文本的出现位置,通过出现位置确定候选地理关键词对于文本内容表征的重要程度,还通过目标文本的交互记录,确定与目标文本进行交互的对象与候选地理关键词之间的关联性,从而提高了特征向量所包含信息的丰富程度,进而提高了后续识别地理区域标签的准确性,进一步提高了文本管理效率。
应当理解的是,图9示出的文本标签的识别方法装置的结构框图中,各模块用于执行图1至图8对应的实施例中的各步骤,而对于图1至图8对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图8以及图1至图8所对应的实施例中的相关描述,此处不再赘述。
图10是本申请另一实施例提供的一种电子设备的结构框图。如图10所示,该实施例的电子设备1000包括:处理器1010、存储器1020以及存储在存储器1020中并可在处理器1010运行的计算机程序1030,例如文本标签的识别方法的程序。处理器1010执行计算机程序1030时实现上述各个文本标签的识别方法各实施例中的步骤,例如图1所示的S101至S105。或者,处理器1010执行计算机程序1030时实现上述图10对应的实施例中各模块的功能,例如,图9所示的单元91至94的功能,具体请参阅图9对应的实施例中的相关描述。
示例性的,计算机程序1030可以被分割成一个或多个模块,一个或者多个模块被存储在存储器1020中,并由处理器1010执行,以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序1030在电子设备1000中的执行过程。例如,计算机程序1030可以被分割成各个单元模块,各模块具体功能如上。
电子设备1000可包括,但不仅限于,处理器1010、存储器1020。本领域技术人员可以理解,图10仅仅是电子设备1000的示例,并不构成对电子设备1000的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器1010可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器1020可以是电子设备1000的内部存储单元,例如电子设备1000的硬盘或内存。存储器1020也可以是电子设备1000的外部存储设备,例如电子设备1000上配备的插接式硬盘,智能存储卡,闪存卡等。进一步地,存储器1020还可以既包括电子设备1000的内部存储单元也包括外部存储设备。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本标签的识别方法,其特征在于,包括:
响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词;
基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量;
根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率;
基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签。
2.根据权利要求1所述的识别方法,其特征在于,所述基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量,包括:
基于所述出现位置确定所述候选关键词的文本特征参数组;
确定所述候选地理关键词的地理别名,基于所有所述地理别名在所述目标文本的出现次数,确定别名特征参数;
识别所述目标文本内与所述候选地理关键词存在关联关系的实体个数,确定实体特征参数;
获取所述目标文本的词云集合,基于所述候选地理关键词与所述词云集合之间的包含关系,确定语义特征参数;
识别所述目标文本的发布信息,并基于所述发布信息与所述候选关键词之间的第一关联度,确定发布特征参数组;
根据各个所述文本交互记录,确定交互特征参数组;
基于所述文本特征参数组、所述别名特征参数、所述实体特征参数、所述语义特征参数、所述发布特征参数组以及所述交互特征参数组,生成所述特征向量。
3.根据权利要求2所述的识别方法,其特征在于,所述识别所述目标文本的发布信息,并基于所述发布信息与所述候选关键词之间的第一关联度,确定发布特征参数组,包括:
确定所述目标文本的发布对象,并基于所述发布对象关联的第一地理位置与所述候选关键词对应的目标地理位置之间的第一距离值,计算第一发布特征值;
确定所述目标文本的文本作者,获取所述文本作者关联的多个已发布文本;
基于各个已发布文本的已有地理标签对应的第二地理位置与所述目标地理位置之间的第二距离值,计算第二发布特征值;其中,所述第二发布特征值具体为:
Figure FDA0003486470020000021
其中,Publish2为所述第二发布特征值;Distance(HisTexti,AddressKey)为第i个所述已发布文本的所述第二地理位置与所述目标地理位置之间的第二距离值;CurrentTime为所述目标文本的发布时间;Timei为所述第i个所述已发布文本的发布时间;Num([HisTexti])为所述已发布文本的总数;Max{Distance(HisTexti,AddressKey)}为最大值选取函数;
根据所述第一发布特征值以及所述第二发布特征值,确定所述发布特征参数组。
4.根据权利要求2所述的识别方法,其特征在于,所述文本交互记录包括文本浏览记录以及文本评论记录;
所述根据各个所述文本交互记录,确定交互特征参数组,包括:
确定各个所述文本浏览记录的浏览对象的第一用户信息,根据所述第一用户信息以及所述候选关键词确定第二关联度;
确定各个所述文本评论记录的评论对象的评论内容,基于所述评论内容与所述候选关键词,确定第三关联度;
根据所述第二关联度以及所述第三关联度,生成所述交互特征参数组。
5.根据权利要求1所述的识别方法,其特征在于,所述根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率,包括:
确定所述特征向量内各个特征值对应的特征基准值,并根据所述特征基准对分别对各个所述特征值进行归一化处理;
基于归一化后的特征值得到归一化后的特征向量;
将所述归一化后的特征向量导入到预设的预测模块内,生成全局特性向量;
将所述全局特征向量导入到预设的趋势评估模块,计算得到所述文本标签概率。
6.根据权利要求1-5任一项所述的识别方法,其特征在于,所述响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词,包括:
响应于目标文本的标签配置请求,将所述目标文本导入实体识别模型,确定所述目标文本对应的实体关键词;
识别在所述目标文本中存在共现关系的实体关键词,确定实体关键词之间的关联关系;
基于各个所述实体关键词之间的所述关联关系,生成知识图谱;
计算任意两个实体关键词之间的第四关联度;所述第四关联度为:
Sim(E1,E2)=∑ei∈Context(E1),ej∈Context(E2)maxsimentity(ei,ej);
simentity(ei,ej)=∑p∈Prop(ei)∩Prop(ej)ωpSimlaritytype(p)(ei[p],ej[p])
其中,Sim(E1,E2)为所述两个实体关键词之间的所述第四关联度;Context(E1)为实体关键词E1在所述知识图谱中存在所述关联关系的关联实体;Context(E2)为所述实体关键词E2在所述知识图谱中存在所述关联关系的关联实体;ei为所述实体关键词E1的所述关联关系内第i个关联实体;ej为所述实体关键词E2的所述关联关系内第j个所述关联实体;Prop(ei)为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型;Prop(ej)为所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型;ωp为实体关键词的实体类型对应的权重值;Simlaritytype(p)(ei[p],ej[p])为所述实体类型对应的匹配度函数;ei[p]为所述实体关键词E1的所述关联关系内第i个关联实体的实体类型的参数值;ej[p]为所述第j个所述实体关键词E2的所述关联关系内第j个所述关联实体的实体类型的参数值;
若所述第四关联度大于预设的关联阈值,则将所述任意两个实体关键词识别为存在别名关系的实体关键词;
将存在别名关系的实体关键词聚类为一个所述地理关键词。
7.根据权利要求1-5任一项所述的识别方法,其特征在于,所述基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签,包括:
选取所述文本标识概率最大的所述候选地理关键词作为所述目标文本的地理区域标签;
在所述基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签之后,还包括:
基于所述地理区域标签对所有所述目标文本进行分类,得到多个区域文本组;每个所述区域文本组内的所述目标文本的所述地理区域标签相同。
8.一种文本标签的识别设备,其特征在于,包括:
候选地理关键词确定单元,用于响应于目标文本的标签配置请求,通过预设的实体识别模型确定所述目标文本包含的候选地理关键词;
特征向量确定单元,用于基于所述目标文本对应的文本交互记录以及所述候选地理关键词在所述目标文本内的出现位置,生成所述候选地理关键词对应的特征向量;
文本标签概率计算单元,用于根据所述候选地理关键词对应的特征向量,计算所述候选地理关键词的文本标签概率;
地理区域标签识别单元,用于基于各个所述候选地理关键词对应的所述文本标签概率,从所有所述候选地理关键中确定所述目标文本对应的地理区域标签。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202210082518.9A 2022-01-24 2022-01-24 文本标签的识别方法、装置、电子设备及存储介质 Pending CN114416998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210082518.9A CN114416998A (zh) 2022-01-24 2022-01-24 文本标签的识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210082518.9A CN114416998A (zh) 2022-01-24 2022-01-24 文本标签的识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114416998A true CN114416998A (zh) 2022-04-29

Family

ID=81277793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210082518.9A Pending CN114416998A (zh) 2022-01-24 2022-01-24 文本标签的识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114416998A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170040A (zh) * 2022-09-08 2022-10-11 南方电网数字电网研究院有限公司 一种资产目录动态更新方法及***
CN115248837A (zh) * 2022-09-21 2022-10-28 中科雨辰科技有限公司 一种获取文本的地理实体的数据处理***
CN115757565A (zh) * 2023-01-09 2023-03-07 无锡容智技术有限公司 一种文本数据的地理位置定位方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170040A (zh) * 2022-09-08 2022-10-11 南方电网数字电网研究院有限公司 一种资产目录动态更新方法及***
CN115248837A (zh) * 2022-09-21 2022-10-28 中科雨辰科技有限公司 一种获取文本的地理实体的数据处理***
CN115248837B (zh) * 2022-09-21 2022-12-23 中科雨辰科技有限公司 一种获取文本的地理实体的数据处理***
CN115757565A (zh) * 2023-01-09 2023-03-07 无锡容智技术有限公司 一种文本数据的地理位置定位方法和装置

Similar Documents

Publication Publication Date Title
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN110162695B (zh) 一种信息推送的方法及设备
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN110390044B (zh) 一种相似网络页面的搜索方法及设备
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
US20130060769A1 (en) System and method for identifying social media interactions
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
CN108090216B (zh) 一种标签预测方法、装置及存储介质
CN111460153A (zh) 热点话题提取方法、装置、终端设备及存储介质
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN109947903B (zh) 一种成语查询方法及装置
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN110968686A (zh) 意图识别方法、装置、设备及计算机可读介质
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN113792131B (zh) 一种关键词的提取方法、装置、电子设备及存储介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220922

Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.

TA01 Transfer of patent application right