CN108959255B - 实体标注数据集构建方法、装置及设备 - Google Patents

实体标注数据集构建方法、装置及设备 Download PDF

Info

Publication number
CN108959255B
CN108959255B CN201810706128.8A CN201810706128A CN108959255B CN 108959255 B CN108959255 B CN 108959255B CN 201810706128 A CN201810706128 A CN 201810706128A CN 108959255 B CN108959255 B CN 108959255B
Authority
CN
China
Prior art keywords
entity
short text
short
text
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810706128.8A
Other languages
English (en)
Other versions
CN108959255A (zh
Inventor
王述
冯知凡
汪琦
陆超
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810706128.8A priority Critical patent/CN108959255B/zh
Publication of CN108959255A publication Critical patent/CN108959255A/zh
Application granted granted Critical
Publication of CN108959255B publication Critical patent/CN108959255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种实体标注数据集构建方法、装置及设备,该方法包括:获取实体集合,实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;在用户在预设时段内浏览的网页数据中获取实体集合对应的短文本集合,短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本;获取短文本集合中每一个短文本中的实体;接收用户输入的每个短文本中的实体对应的实体链接,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。

Description

实体标注数据集构建方法、装置及设备
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种实体标注数据集构建方法、装置及设备。
背景技术
在搜索引擎、问答***、广告***等人工智能领域中,在用户进行搜索时,在用户输入的查询文本中提取多个实体,并根据提取得到的多个实体和预设的实体标注数据集,向用户推荐精确的服务。
为了保证向用户推荐服务的精确性,需要依赖完善的实体标注数据集。实体标注数据集中包括多组数据,每组数据中包括一个短文本、该短文本中的实体、每个实体的实体标识。在现有技术中,通常由人工构建实体标注数据集,例如,人工选取特定领域的多个文本预料,人工标注出该多个文本预料中实体、及实体的实体标识。然而,人工构建实体标注数据集的效率太低,很难构建完善的实体标注数据集,导致现有的实体标注数据集的完善性较差。
发明内容
本发明实施例提供一种实体标注数据集构建方法、装置及设备,在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。
第一方面,本发明实施例提供一种实体标注数据集构建方法,包括:
获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
获取所述短文本集合中每一个短文本中的实体;
接收用户输入的每个短文本中的实体对应的实体链接,并根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。
在一种可能的实施方式中,所述在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,包括:
获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
在所述网页集合中的每个网页中提取短文本,得到多个短文本;
获取所述多个短文本的质量值;
将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
在另一种可能的实施方式中,所述获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合,包括:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
在另一种可能的实施方式中,所述在所述网页集合中的每个网页中提取短文本,得到多个短文本,包括:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
将所述标题数据集合中、除预设类型的标题数据之外的标题数据确定为所述多个短文本,所述预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
在另一种可能的实施方式中,所述获取所述多个短文本的质量值,包括:
通过预设模型对所述多个短文本进行实体标注;
获取所述预设模型对所述多个短文本进行实体标注的准确率;
根据所述预设模型对所述多个短文本进行实体标注的准确率,确定所述多个短文本的质量值。
在另一种可能的实施方式中,针对所述短文本集合中的任意一个第一短文本,获取所述第一短文本中的实体,包括:
通过预设识别算法对所述第一短文本进行实体识别,得到多个第一实体;
接收用户对所述第一实体输入的修订操作,所述修订操作用于确认所述第一实体或者修改所述第一实体;
根据所述第一实体和所述修订操作,确定所述第一短文本中的实体。
在另一种可能的实施方式中,所述根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集,包括:
获取所述实体链接对应的实体标识;
根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
在另一种可能的实施方式中,所述获取实体集合,包括:
获取预设数据库中的每个实体的实体标识;
将所述预设数据库中实体标识的个数大于1的实体确定为所述实体集合中的实体。
第二方面,本发明实施例提供一种实体标注数据集构建装置,包括第一获取模块、第二获取模块、第三获取模块、接收模块和生成模块,其中,
所述第一获取模块用于,获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
所述第二获取模块用于,在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
所述第三获取模块用于,获取所述短文本集合中每一个短文本中的实体;
所述接收模块用于,接收用户输入的每个短文本中的实体对应的实体链接;
所述生成模块用于,根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。
在一种可能的实施方式中,所述第二获取模块包括第一获取单元、提取单元、第二获取单元和确定单元,其中,
所述第一获取单元用于,获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
所述提取单元用于,在所述网页集合中的每个网页中提取短文本,得到多个短文本;
所述第二获取单元用于,获取所述多个短文本的质量值;
所述确定单元用于,将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
在另一种可能的实施方式中,所述第一获取单元具体用于:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
在另一种可能的实施方式中,所述提取单元具体用于:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
将所述标题数据集合中、除预设类型的标题数据之外的标题数据确定为所述多个短文本,所述预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
在另一种可能的实施方式中,所述第二获取单元具体用于:
通过预设模型对所述多个短文本进行实体标注;
获取所述预设模型对所述多个短文本进行实体标注的准确率;
根据所述预设模型对所述多个短文本进行实体标注的准确率,确定所述多个短文本的质量值。
在另一种可能的实施方式中,针对所述短文本集合中的任意一个第一短文本,所述第三获取模块具体用于:
通过预设识别算法对所述第一短文本进行实体识别,得到多个第一实体;
接收用户对所述第一实体输入的修订操作,所述修订操作用于确认所述第一实体或者修改所述第一实体;
根据所述第一实体和所述修订操作,确定所述第一短文本中的实体。
在另一种可能的实施方式中,所述生成模块具体用于:
获取所述实体链接对应的实体标识;
根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
在另一种可能的实施方式中,所述第一获取模块具体用于:
获取预设数据库中的每个实体的实体标识;
将所述预设数据库中实体标识的个数大于1的实体确定为所述实体集合中的实体。
第三方面,本发明实施例提供一种终端设备,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述第一方面任一项所述的方法。
第四方面,本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述第一方面任意一项所述的方法被执行。
本发明实施例提供实体标注数据集构建方法、装置及设备,先获取实体集合,实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;在用户在预设时段内浏览的网页数据中获取实体集合对应的短文本集合,获取短文本集合中每一个短文本中的实体,接收用户输入的每个短文本中的实体对应的实体链接,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。在上述过程中,由于实体集合中包括多个具有歧义的实体及每个实体对应的实体别名,且具有歧义的实体为需要重点标注的实体,使得根据该实体集合获取得到的短文本集合中包括的短文本的质量较高,通过在用户在预设时段内浏览的网页数据中获取短文本集合,不但可以使得获取得到的短文本集合中的短文本更加贴合用户的实际使用情况,还可以使得获取得到的短文本集合中包括的短文本更加全面。又由于构建短文本集合、在短文本中识别实体的过程均由计算机执行,因此,在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实体标注数据集构建的架构图;
图2为本发明实施例提供的实体标注数据集构建方法的流程示意图;
图3为本发明实施例提供的获取短文本集合方法的流程示意图;
图4为本发明实施例提供的实体标注数据集构建装置的结构示意图一;
图5为本发明实施例提供的实体标注数据集构建装置的结构示意图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的实体标注数据集构建的架构图。请参见图1,在生成实体标注数据集的过程中,先获取实体集合,再获取实体集合对应的短文本集合,然后根据预设算法对短文本集合中的短文本进行自动实体识别。然后,人工对预设算法识别得到的实体进行审核,并添加实体链接,进而生成实体标注数据集。
在本申请中,获取得到的实体集合中包括多个具有歧义的实体及每个实体对应的实体别名,且具有歧义的实体为需要重点标注的实体,使得根据该实体集合获取得到的短文本集合中包括的短文本的质量较高,通过在用户在预设时段内浏览的网页数据中获取短文本集合,不但可以使得获取得到的短文本集合中的短文本更加贴合用户的实际使用情况,还可以使得获取得到的短文本集合中包括的短文本更加全面。又由于构建短文本集合、在短文本中识别实体的过程均由计算机执行,因此,在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的实体标注数据集构建方法的流程示意图。请参见图2,该方法可以包括:
S201、获取实体集合,实体集合中包括多个具有歧义的实体及每个实体对应的实体别名。
本发明实施例的执行主体可以为终端设备,也可以为设置在终端设备中的实体标注数据集构建装置。可选的,实体标注数据集构建装置可以通过软件实现,也可以通过软件和硬件的结合实现。
在本发明实施例中,一个实体是指一个名词性的实例。
例如,实体可以为“中国”、“刘德华”、“日历”、“天气”等。
可选的,具有歧义的实体是指具有至少两种含义的实体。
例如,对于实体“算账”,至少具有如下两种含义:报仇、计算账目。
可选的,实体的实体别名是指该实体的其它名字。
例如,实体“土豆”的实体别名可以包括“马铃薯”、“洋芋”等。实体“刘德华”的实体别名可以包括“Andy Lau”。
可选的,可以通过如下可行的实现方式获取实体集合:获取预设数据库中的每个实体的实体标识,将预设数据库中实体标识的个数大于1的实体确定为实体集合中的实体。
可选的,预设数据库可以为百度百科数据库,相应的,实体标识为百度百科标识(Identification,简称ID)。
在百度百科数据库中,一个百度百科词条可以对一个实体进行一种含义解释,当一个实体具有歧义(两种或两种以上的含义)时,可以通过多个百度百科词条对不同的含义进行解释,其中,不同的百度百科词条对应的百度百科ID不同。因此,当一个实体的实体标识的个数大于1时,可以确定该实体为具有歧义的实体。
例如,对于实体“包袱”,其中一个百度百科词条将其解释成“用布包起来的衣物包裹”,另一个百度百科词条将其解释成“相声的术语,是指经过细密阻值、铺垫,达到的喜剧效果”,由此可知,实体“包袱”对应两个百度百科ID,因此,可以确定“包袱”具有歧义。
S202、获取实体集合对应的短文本集合。
其中,短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,实体对应的短文本中包括实体,实体别名对应的短文本中包括实体别名。
在本发明实施例中,当一段文本的字数在预设范围内时,则将该一段文本称为短文本。
例如,预设范围可以为5-30。
当然,在实际应用过程中,可以根据实际需要设置该预设范围,本发明实施例对此不作具体限定。
可选的,针对实体集合中的任意一个实体,可以获取该实体对应的多个短文本,针对实体集合中的任意一个实体别名,也可以获取该实体别名对应的多个短文本。
例如,假设实体为“刘德华”,则该实体“刘德华”对应多个短文本中均包括“刘德华”。例如,“刘德华”对应的短文本可以包括“刘德华女儿正面神似爸爸”、“天王刘德华最新力作”、“刘德华参加女儿毕业礼被网友偶遇”等等。
可选的,可以先获取用户在预设时段内以该实体集合中的实体或实体别名为检索关键字检索到的网页集合,并在得到的网页集合中提取短文本集合。需要说明的是,在图3所示的实施例中,对该种可行的实现方式进行详细说明,此处不再进行赘述。
在上述过程中,由于实体集合中实体为具有歧义的实体或具有歧义实体的实体别名,因此,构建的短文本集合中包括的是具有歧义的实体对应的短文本以及具有歧义实体的实体别名对应的短文本。其中,具有歧义的实体及具有歧义实体的实体别名为实际应用过程中需重点标注的实体,因此,通过S201-S202构造得到的短文本集合中可以包括数据量较少、且质量较高的短文本,这样,不但可以降低实体标注的工作量,还可以提高实体标注数据集的质量。
S203、获取短文本集合中每一个短文本中的实体。
在实际应用过程中,获取短文本集合中每一个短文本中的实体的过程相同,下面,以获取短文本集合中的第一短文本中的实体的过程为例进行说明:
可选的,可以通过预设识别算法对第一短文本进行实体识别,得到多个第一实体,接收用户对第一实体输入的修订操作,修订操作用于确认第一实体或者修改第一实体,根据第一实体和修订操作,确定第一短文本中的实体。
在上述过程中,先通过预设识别算法对第一短文本进行实体识别,得到多个第一实体,并将第一短文本和识别得到的第一实体展示给用户,由用户对预设识别算法识别得到的实体进行检查。
若用户发现预设识别算法识别得到的实体正确,则用户可以输入确认操作。若用户发现预设识别算法识别得到的实体有误,则用户可以对识别错误的实体进行修正。
在上述过程中,先由预设识别算法进行实体识别,再由人工进行检查识别结果,这样,不但可以降低用户的工作量,还可以保证识别结果的准确率。
例如,假设第一短文本为“南京长江大桥是中国东部地区交通的关键节点”,通过预设识别算法对该第一短文本进行识别,得到如下多个实体:“南京”、“长江大桥”、“中国”、“东部地区”、“交通”、“关键节点”,并向用户展示该第一短文本和识别得到的多个实体,用户确认预设识别算法对第一短文本识别得到的多个实体正确,则用户可以输入确认操作。
例如,假设第一短文本为“雷神3什么时间上映”,通过预设识别算法对该第一短文本进行识别,得到如下多个实体:“雷神”、“3”、“时间”、“上映”,并向用户展示该第一短文本和识别得到的多个实体,用户发现预设识别算法对第一短文本识别得到的多个实体错误,则用户可以对第一短文本中的实体进行修改,用户将第一短文本对应的实体修改为:“雷神3”、“时间”、“上映”。
可选的,预设识别算法以及人工检查时,均可以采用预设识别规则。例如,预设识别规则可以包括如下多种:
第一识别规则:多个词揉和在一起、包含多层语义的要分开标注。例如,对于短文本“命中注定我爱你泰剧主题曲名字”,正确的实体识别结果为:“命中注定我爱你”、“泰剧”、“主题曲”、“名字”。
第二识别规则:复合型专名的要进行嵌套提取。例如,对于短文本“湖北省武汉市市长万勇”,正确的实体识别结果为:“湖北省武汉市市长万勇”、“湖北省武汉市市长”、“万勇”。
第三识别规则:对于地理类实体,首先按最大粒度进行标注,然后按组成地址的各部分单独标出来。例如,对于短文本“湖北省武汉市青山区”,正确的实体识别结果为:“湖北省武汉市青山区”、“湖北省”、“武汉市”、“青山区”。
第四识别规则:对于时间、节日,只将节日实体标出,时间不需要标注。例如,对于短文本“10月1号国庆节”,正确的实体识别结果为“国庆节”。
需要说明的是,上述只是以示例的形式示意实体识别规则,并非对实体识别规则的限定,在实际应用过程中,可以根据实际需要设置实体识别规则,本发明实施例对此不作具体限定。
可选的,为了保证实体识别结果的正确性,在通过预设识别算法对第一短文本进行实体识别得到多个第一实体之后,可以将第一短文本和多个第一实体发送给多个用户,由多个用户对该识别结果进行检查反馈,在接收到多个用户输入的修订操作之后,可以根据多个第一实体和多个用户输入的修订操作,确定第一短文本中的实体。例如,可以通过投票的方式确定最终的实体标注结果。
S204、接收用户输入的每个短文本中的实体对应的实体链接,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。
可选的,当预设数据库为百度百科数据库时,实体对应的实体链接可以为用于解释该实体的百度百科词条的统一资源定位符(Uniform Resource Locator,简称URL)。
需要说明的是,由于具有歧义的实体对应的实体链接可能为多个,在本申请中,由用户输入实体对应的实体链接,可以避免歧义。
需要说明的是,若用户获取不到实体对应的实体链接,则可以将实体对应的实体链接确定为空,或者将实体对应的实体链接确定为预设标识(例如NIL)。
可选的,在生成实体标注数据集时,可以获取实体链接对应的实体标识,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
可选的,当预设数据库为百度百科数据库时,实体标识为百度百科标识。
可选的,实体标注数据集中包括多个短文本、每个短文本中的实体、每个短文本中的实体对应的实体标识。
例如,假设以表格的形式表示实体标注数据集,则实体标注数据集可以如表1所示:
表1
需要说明的是,表1只是以示例的形式标识实体标注数据集,并非对实体标注数据集的格式及包括的内容的限定,在实际应用过程中,可以根据实际需要设置实体标注数据集的格式及包括的内容,本发明实施例对此不作具体限定。
本发明实施例提供实体标注数据集构建方法,先获取实体集合,实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;在用户在预设时段内浏览的网页数据中获取实体集合对应的短文本集合,获取短文本集合中每一个短文本中的实体,接收用户输入的每个短文本中的实体对应的实体链接,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。在上述过程中,由于实体集合中包括多个具有歧义的实体及每个实体对应的实体别名,且具有歧义的实体为需要重点标注的实体,使得根据该实体集合获取得到的短文本集合中包括的短文本的质量较高,通过在用户在预设时段内浏览的网页数据中获取短文本集合,不但可以使得获取得到的短文本集合中的短文本更加贴合用户的实际使用情况,还可以使得获取得到的短文本集合中包括的短文本更加全面。又由于构建短文本集合、在短文本中识别实体的过程均由计算机执行,因此,在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。
在上述任意一个实施例的基础上,可选的,可以通过如下可行的实现方式获取实体集合对应的短文本集合,具体的,请参见图3所示的实施例。
图3为本发明实施例提供的获取短文本集合方法的流程示意图。请参见图3,该方法可以包括:
S301、获取用户在预设时段内、以实体集合中的实体或实体别名为检索关键字检索到的网页集合。
可选的,预设时段可以为当前时刻之前的半年,或者,预设时段可以为当前时刻之前的三个月等。
当然,在实际应用过程中,可以根据实际需要设置该预设时段,本发明实施例对此不作具体限定。
可选的,可以通过如下可行的实现方式确定网页集合:获取用户在预设时段内、以实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;在第一网址集合中删除网页首页对应的网址,得到第二网址集合;将第二网址集合对应的网页确定为网页集合。
可选的,网页首页对应的网址通常具有预设格式,相应的,可以在第一网址集合中删除预设格式的网址,得到第二网址集合。
在上述过程中,由于网页首页中通常不包括任何实质内容,使得在网页首页中无法提取得到高质量的短文本。因此,通过S301可以使得确定得到的网页集合为高质量的网页集合。
S302、在网页集合中的每个网页中提取短文本,得到多个短文本。
可选的,可以通过如下可行的实现方式得到多个短文本:在网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;将标题数据集合中、除预设类型的标题数据之外的标题数据确定为多个短文本。预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
可选的,标题数据是指网页中title格式的数据(或者称为title数据)。
可选的,预设类型还可以包括字数小于第一阈值的文本类型,或者字数大于第二阈值的文本类型。
例如,第一阈值可以为5,第二阈值可以为30。当然,在实际应用过程中,可以根据实际需要设置该第一阈值和第二阈值,本发明实施例对此不作具体限定。
需要说明的是,预设类型还可以包括其它,在实际应用过程中,可以根据实际需要设置预设类型,本发明实施例对此不作具体限定。
在上述过程中,预设类型的标题数据为低质量的文本,因此,通过在网页的标题数据中剔除预设类型的标题数据,使得确定得到的短文本具有较高的质量。
S303、获取多个短文本的质量值。
可选的,可以通过如下可行的实现方式获取短文本的质量值:通过预设模型对多个短文本进行实体标注;获取预设模型对多个短文本进行实体标注的准确率;根据预设模型对多个短文本进行实体标注的准确率,确定多个短文本的质量值。
在实际应用过程中,有的短文本适合进行实体标注,有的短文本不适合进行实体标注(例如,古诗词、诗歌类型的短文本不适合标注)。合适进行实体标注的短文本的质量值较高,不适合进行实体标注的短文本的质量值较低。
可选的,可以通过深度神经网络对多组样本进行学习得到预设模型,其中,每组样本可以包括一个短文本和人工在短文本中提取的实体。在训练预设模型的过程中,可以将质量值在预设中间范围的短文进行人工标注,然后输入预设模型进行重新训练,重复上述流程,直至预设模型收敛。例如,假设质量值为0-10,则预设中间范围可以为5-6。当然,在实际应用过程中,可以根据实际需要设置该预设中间范围,本发明实施例对此不作具体限定。
例如,可以采用Uncertainty Sampling算法对多组样本进行学习,以得到预设模型,该预设模型可以采用Xgboost模型。
在学习得到预设模型之后,可以将没有进行人工标注的短文本输入到模型中,由预设模型对短文本进行标注,并确定标注的准确率。若对短文本进行实体标注的准确率在预设中间范围,短文本的质量值越高,若对短文本进行实体标注的准确性太高、或者太低,则短文本的质量值较低。
S304、将多个短文本中质量值大于预设阈值的短文本确定为短文本集合中的短文本。
通过过滤掉质量值小于预设阈值的短文本,可以提高短文本集合中的短文本的质量。
在图3所示的实施例中,通过S301-S302得到的短文本为贴合用户实际使用的短文本,使得得到的短文本更加真实。通过S303-S304可以实现在短文本中剔除质量较低的短文本,进而保证短文本集合中的短文本的质量较高。
图4为本发明实施例提供的实体标注数据集构建装置的结构示意图一。请参见图4,该装置可以包括第一获取模块11、第二获取模块12、第三获取模块13、接收模块14和生成模块15,其中,
所述第一获取模块11用于,获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
所述第二获取模块12用于,在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
所述第三获取模块13用于,获取所述短文本集合中每一个短文本中的实体;
所述接收模块14用于,接收用户输入的每个短文本中的实体对应的实体链接;
所述生成模块15用于,根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。
本发明实施例提供的实体标注数据集构建装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图5为本发明实施例提供的实体标注数据集构建装置的结构示意图二。在图4所示实施例的基础上,请参见图5,所述第二获取模块12包括第一获取单元121、提取单元122、第二获取单元123和确定单元124,其中,
所述第一获取单元121用于,获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
所述提取单元122用于,在所述网页集合中的每个网页中提取短文本,得到多个短文本;
所述第二获取单元123用于,获取所述多个短文本的质量值;
所述确定单元124用于,将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
在一种可能的实施方式中,所述第一获取单元121具体用于:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
在另一种可能的实施方式中,所述提取单元122具体用于:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
将所述标题数据集合中、除预设类型的标题数据之外的标题数据确定为所述多个短文本,所述预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
在另一种可能的实施方式中,所述第二获取单元123具体用于:
通过预设模型对所述多个短文本进行实体标注;
获取所述预设模型对所述多个短文本进行实体标注的准确率;
根据所述预设模型对所述多个短文本进行实体标注的准确率,确定所述多个短文本的质量值。
在另一种可能的实施方式中,针对所述短文本集合中的任意一个第一短文本,所述第三获取模块13具体用于:
通过预设识别算法对所述第一短文本进行实体识别,得到多个第一实体;
接收用户对所述第一实体输入的修订操作,所述修订操作用于确认所述第一实体或者修改所述第一实体;
根据所述第一实体和所述修订操作,确定所述第一短文本中的实体。
在另一种可能的实施方式中,所述生成模块15具体用于:
获取所述实体链接对应的实体标识;
根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
在另一种可能的实施方式中,所述第一获取模块11具体用于:
获取预设数据库中的每个实体的实体标识;
将所述预设数据库中实体标识的个数大于1的实体确定为所述实体集合中的实体。
本发明实施例提供的实体标注数据集构建装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本发明实施例提供一种终端设备,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述任意方法实施例所述的方法。
本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述任意方法实施例所述的方法被执行。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims (16)

1.一种实体标注数据集构建方法,其特征在于,包括:
获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
获取所述短文本集合中每一个短文本中的实体;
接收用户输入的每个短文本中的实体对应的实体链接,并根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集;
所述在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,包括:
获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
在所述网页集合中的每个网页中提取短文本,得到多个短文本;
获取所述多个短文本进行实体标注的质量值;
将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
2.根据权利要求1所述的方法,其特征在于,所述获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合,包括:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
3.根据权利要求1所述的方法,其特征在于,所述在所述网页集合中的每个网页中提取短文本,得到多个短文本,包括:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
将所述标题数据集合中、除预设类型的标题数据之外的标题数据确定为所述多个短文本,所述预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述获取所述多个短文本进行实体标注的质量值,包括:
通过预设模型对所述多个短文本进行实体标注;
获取所述预设模型对所述多个短文本进行实体标注的准确率;
根据所述预设模型对所述多个短文本进行实体标注的准确率,确定所述多个短文本进行实体标注的质量值。
5.根据权利要求1-4任一项所述的方法,其特征在于,针对所述短文本集合中的任意一个第一短文本,获取所述第一短文本中的实体,包括:
通过预设识别算法对所述第一短文本进行实体识别,得到多个第一实体;
接收用户对所述第一实体输入的修订操作,所述修订操作用于确认所述第一实体或者修改所述第一实体;
根据所述第一实体和所述修订操作,确定所述第一短文本中的实体。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集,包括:
获取所述实体链接对应的实体标识;
根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述获取实体集合,包括:
获取预设数据库中的每个实体的实体标识;
将所述预设数据库中实体标识的个数大于1的实体确定为所述实体集合中的实体。
8.一种实体标注数据集构建装置,其特征在于,包括第一获取模块、第二获取模块、第三获取模块、接收模块和生成模块,其中,
所述第一获取模块用于,获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
所述第二获取模块用于,在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
所述第三获取模块用于,获取所述短文本集合中每一个短文本中的实体;
所述接收模块用于,接收用户输入的每个短文本中的实体对应的实体链接;
所述生成模块用于,根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集;
所述第二获取模块包括第一获取单元、提取单元、第二获取单元和确定单元,其中,
所述第一获取单元用于,获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
所述提取单元用于,在所述网页集合中的每个网页中提取短文本,得到多个短文本;
所述第二获取单元用于,获取所述多个短文本进行实体标注的质量值;
所述确定单元用于,将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
9.根据权利要求8所述的装置,其特征在于,所述第一获取单元具体用于:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
10.根据权利要求8所述的装置,其特征在于,所述提取单元具体用于:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
将所述标题数据集合中、除预设类型的标题数据之外的标题数据确定为所述多个短文本,所述预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
11.根据权利要求8所述的装置,其特征在于,所述第二获取单元具体用于:
通过预设模型对所述多个短文本进行实体标注;
获取所述预设模型对所述多个短文本进行实体标注的准确率;
根据所述预设模型对所述多个短文本进行实体标注的准确率,确定所述多个短文本进行实体标注的质量值。
12.根据权利要求8-11任一项所述的装置,其特征在于,针对所述短文本集合中的任意一个第一短文本,所述第三获取模块具体用于:
通过预设识别算法对所述第一短文本进行实体识别,得到多个第一实体;
接收用户对所述第一实体输入的修订操作,所述修订操作用于确认所述第一实体或者修改所述第一实体;
根据所述第一实体和所述修订操作,确定所述第一短文本中的实体。
13.根据权利要求8-11任一项所述的装置,其特征在于,所述生成模块具体用于:
获取所述实体链接对应的实体标识;
根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
14.根据权利要求8-11任一项所述的装置,其特征在于,所述第一获取模块具体用于:
获取预设数据库中的每个实体的实体标识;
将所述预设数据库中实体标识的个数大于1的实体确定为所述实体集合中的实体。
15.一种终端设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行权利要求1-7任一项所述的方法。
16.一种可读存储介质,其特征在于,包括程序或指令,当所述程序或指令在计算机上运行时,权利要求1-7任一项所述的方法被执行。
CN201810706128.8A 2018-06-28 2018-06-28 实体标注数据集构建方法、装置及设备 Active CN108959255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810706128.8A CN108959255B (zh) 2018-06-28 2018-06-28 实体标注数据集构建方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810706128.8A CN108959255B (zh) 2018-06-28 2018-06-28 实体标注数据集构建方法、装置及设备

Publications (2)

Publication Number Publication Date
CN108959255A CN108959255A (zh) 2018-12-07
CN108959255B true CN108959255B (zh) 2019-09-10

Family

ID=64484809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810706128.8A Active CN108959255B (zh) 2018-06-28 2018-06-28 实体标注数据集构建方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108959255B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516252B (zh) 2019-08-30 2022-12-09 京东方科技集团股份有限公司 数据标注方法、装置、计算机设备和存储介质
CN111178078A (zh) * 2019-12-31 2020-05-19 厦门快商通科技股份有限公司 一种实体标注的质检方法和装置以及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899843B2 (en) * 2003-09-19 2011-03-01 International Business Machines Corporation Expanding the scope of an annotation to an entity level
CN102629246B (zh) * 2012-02-10 2017-06-27 百纳(武汉)信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN103853710B (zh) * 2013-11-21 2016-06-08 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN104484374B (zh) * 2014-12-08 2018-11-16 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841920A (zh) * 2012-06-30 2012-12-26 北京百度网讯科技有限公司 一种页面信息提取方法及装置

Also Published As

Publication number Publication date
CN108959255A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN107766371A (zh) 一种文本信息分类方法及其装置
CN105868317B (zh) 一种数字教育资源推荐方法及***
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN104809117B (zh) 视频数据聚合处理方法、聚合***及视频搜索平台
CN101299217B (zh) 一种地图信息处理的方法、装置和***
CN110134871B (zh) 一种基于课程和学习者网络结构的动态课程推荐方法
CN102651719B (zh) 用于在消息交互环境中跟踪消息话题的方法和设备
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN104573094A (zh) 网络账号识别匹配方法
CN104317784A (zh) 一种跨平台用户识别方法和***
CN108959255B (zh) 实体标注数据集构建方法、装置及设备
CN104765729A (zh) 一种跨平台微博社区账户匹配方法
CN101727464A (zh) 获取别称匹配对的方法及装置
CN107515934A (zh) 一种基于大数据的电影语义个性化标签优化方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN103268330A (zh) 基于图片内容的用户兴趣提取方法
CN105631018A (zh) 基于主题模型的文章特征抽取方法
CN104598632A (zh) 热点事件检测方法和装置
CN105608075A (zh) 一种相关知识点的获取方法及***
Xu et al. Different data, different modalities! reinforced data splitting for effective multimodal information extraction from social media posts
CN110516240A (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN105488471B (zh) 一种字形识别方法及装置
CN115438169A (zh) 一种文本与视频的互检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant