CN113705163A - 实体提取方法、装置、设备及计算机可读存储介质 - Google Patents

实体提取方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113705163A
CN113705163A CN202110308162.1A CN202110308162A CN113705163A CN 113705163 A CN113705163 A CN 113705163A CN 202110308162 A CN202110308162 A CN 202110308162A CN 113705163 A CN113705163 A CN 113705163A
Authority
CN
China
Prior art keywords
vector
entity
character
text
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110308162.1A
Other languages
English (en)
Inventor
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110308162.1A priority Critical patent/CN113705163A/zh
Publication of CN113705163A publication Critical patent/CN113705163A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种实体提取方法、装置、设备及计算机可读存储介质;方法包括:获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;至少一个扩展词向量包含至少一个预设实体向量;至少一个预设实体向量为待提取文本在预设实体字典中对应的实体的向量信息;基于至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到待提取文本对应的至少一个目标实体;至少一个目标实体用于实现对待提取文本的自然语言处理。通过本申请,能够在保证实体提取准确性的基础上,提高实体提取的效率。

Description

实体提取方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种实体提取方法、装置、设备及计算机可读存储介质。
背景技术
目前,随着基于自注意力机制的Transformer技术的兴起,使得训练的过程可以并行化,基于Transformer的双向编码器表征(Bidirectional Encoder Representationsfrom Transformers,BERT)模型逐渐替代了之前的长短期记忆网络(Long Short-TermMemory,LSTM),在自然语言处理(Nature Language processing,NLP)任务中被大量使用。BERT模型基于超大语料集做预训练,在对文本进行实体提取时,从文本中提取语义环境的上下文场景相关的词向量信息,进而采用12层网络对词向量信息进行Transformer编码-解码,输出文本中的实体。由于BERT模型的结构较复杂,导致在模型训练阶段以及模型应用阶段中,训练时长以及针对真实用户交互语句的在线推断(inference)的耗时均较长,从而降低了实体提取的效率。
发明内容
本申请实施例提供一种实体提取方法、装置、设备及计算机可读存储介质,能够在保证实体提取准确性的基础上,提高实体提取的效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种实体提取方法,包括:
获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;所述至少一个扩展词向量包含至少一个预设实体向量;所述至少一个预设实体向量为所述待提取文本在预设实体字典中对应的实体的向量信息;
基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体;所述至少一个目标实体用于实现对所述待提取文本的自然语言处理。
本申请实施例提供一种实体提取装置,包括:
获取模块,用于获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;所述至少一个扩展词向量包含至少一个预设实体向量;所述至少一个预设实体向量为所述待提取文本在预设实体字典中对应的实体的向量信息;
编解码变换模块,用于基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体;所述至少一个目标实体用于实现对所述待提取文本的自然语言处理。
上述装置中,所述至少一个扩展词向量还包括:至少一个分词向量,所述获取模块,还用于在待提取文本中包含的至少一个字符中,根据每个单个字符的向量信息,得到所述至少一个字符向量;对所述待提取文本进行分词处理,得到所述至少一个分词向量;使用所述待提取文本在所述预设实体字典中进行关联度匹配,得到所述待提取文本匹配的至少一个预设实体信息;所述至少一个预设实体信息中的每个预设实体信息包含预设实体与预设实体别名中的至少一个;将所述至少一个预设实体信息对应的向量作为所述至少一个预设实体向量。
上述装置中,所述编解码变换模块,还用于对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第一实体;将所述至少一个第一实体作为所述至少一个目标实体;或者,在所述至少一个字符向量以及所述至少一个扩展词向量中,获取每个字符向量与每个扩展词向量各自对应的边界信息;结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;将所述至少一个第二实体作为所述至少一个目标实体。
上述装置中,所述边界信息包括:所述每个扩展词向量对应的第一边界信息以及所述每个字符向量对应的第二边界信息;所述获取模块,还用于根据所述每个扩展词向量中的首尾字符位置,得到所述第一边界信息;将所述每个字符向量的位置作为所述第二边界信息。
上述装置中,所述编解码模块,还用于对所述至少一个字符向量以及所述至少一个扩展词向量进行注意力编码,得到第一注意力编码向量集;对所述第一注意力编码向量集进行解码预测,得到第一位置预测序列;所述第一位置预测序列用于在所述至少一个字符向量中指示出属于所述至少一个第一实体的字符的位置;根据所述第一位置预测序列,得到所述至少一个第一实体。
上述装置中,所述编解码模块,还用于分别对所述至少一个字符向量以及所述至少一个扩展词向量进行标识,得到至少一个编码标识;根据所述第一边界信息与所述第二边界信息,得到所述至少一个编码标识中每个编码标识对应的待编码向量长度;结合所述待编码向量长度,对所述每个编码标识对应的字符向量或扩展词向量进行注意力编码,得到第二注意力编码向量集;根据所述待提取文本中请求语句的语句长度,对所述第二注意力编码向量集进行截取,得到截取编码向量;对所述截取编码向量进行解码预测,得到第二位置预测序列;所述第二位置预测序列为至少一个第二位置预测标签组成的序列;所述至少一个第二位置预测标签用于在所述至少一个字符向量中指示出属于所述至少一个第二实体的字符的位置;连接所述至少一个第二位置预测标签在各个位置上指示出的字符向量,得到所述至少一个第二实体。
上述装置中,所述实体提取装置还包括注意力编解码变换模型,所述注意力编解码变换模型,用于结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;所述注意力编解码变换模型是通过对真实交互日志进行数据挖掘处理得到训练样本集,并使用所述训练样本集对初始注意力编解码变换模型进行模型训练得到的;其中,所述数据挖掘处理包括日志数据挖掘、标注替换处理和辅助近义词替换处理中的至少一种。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。
本申请实施例具有以下有益效果:
本申请实施例中,通过将至少一个扩展词向量与至少一个字符向量融合在一起进行编解码变换,可以在编码过程中引入更多待提取文本中潜在的词向量信息,进而利用潜在的词向量信息增加实体提取的准确性,从而达到了可以通过更少的网络层数以及处理过程,实现从待提取文本中提取出至少一个目标实体,并同时保证实体提取的准确度。本申请实施例中的方法能够降低网络训练和网络计算的工作量,减少网络训练和网络计算的耗时,实现准确度和效率的平衡,能够保证在实体提取准确性的基础上,提高实体提取的效率。
附图说明
图1是目前CRF++特征工程的训练语料组织方式的示意图;
图2是目前通过BERT模型进行实体提取的过程示意图;
图3是本申请实施例提供的基于实体提取的语音交互***100的一个可选的架构示意图;
图4是本申请实施例提供的服务器200的一个可选的结构示意图;
图5是本申请实施例提供的实体提取方法的一个可选的流程示意图;
图6是本申请实施例提供的实体提取方法的一个可选的流程示意图;
图7是本申请实施例提供的实体提取方法的一个可选的流程示意图;
图8是本申请实施例提供的实体提取方法的一个可选的流程示意图;
图9是本申请实施例提供的实体提取方法的一个处理过程示意图;
图10是本申请实施例提供的预设实体字典的配置界面的一种可选的效果示意图;
图11是本申请实施例提供的编解码变换模型的网络结构以及应用处理流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3)请求语句:智能助手中用户输入的一个短文本请求(query),通常只包含用户的一个意图期望。例如:“来一首歌手1的歌曲2”;“我想看电影3”等等。
4)实体:自然语言处理领域中的基本概念,通常是某个领域的基本词汇。在任务型对话***中,用于表述用户输入query中的重要信息。如“来一首歌手1的歌曲2”这样的query中,query本身是表示用户想听歌曲的意图期望(music.play),同时还会设计“sys.music.singer=歌手1”,“sys.music.song=歌曲2”这样的实体用于表示这个query里面的具体重要信息,以便后续服务能够使用语义理解得到的结构化信息来对用户query作出反馈。实体允许具有别名,比如“刘某某”是音乐领域下的一个实体,代表歌手的名字,“某某哥”、“Andy Liu”以及“刘某某”对应的拼音字符串等都可以是它的别名。一个实体有可能属于多个领域,因此,“刘某某”同时也可以是一个影视领域的实体,代表演员的名字。
5)技能(skill),类似于APP,是指可以通过语音交互为用户提供一个或多个特定的功能和服务。不同的技能提供了不同的服务。比如,音乐、天气、笑话、新闻等技能,可以为用户提供听歌、查天气、讲笑话的功能。为了能够进行语音交互和理解,技能需要构建所需的对话模型。为了提供特定的服务,技能需要进行相关的服务获取和配置。
6)媒资类实体:类似以上实体的定义,如music技能里的sys.music.song实体,video技能里的sys.video.film&sys.video.tvseries&sys.video.cartoon等实体,fm技能里的sys.fm.album实体,都可以是表示媒体资讯类的实体。媒体资讯类的实体彼此之间具有一定的相似性,而且实体内容还存在交集,用户问法也类似,可定义为媒资类实体。
7)实体字典:对于任务型对话的领域设计专家而言,当设计一个新的技能意图时,一般都会提供一批实体实例,告知新技能涉及的实体集合的边界以及规则。这对于实体的抽取是非常重要的预定义特征信息。相同特性的实体实例可以组成实体库,比如歌手库、演员库等。实体字典中可以包含至少一个实体库。
8)BERT算法:2018年由Google提出的预训练语言模型,基于Transformers技术实现,且考虑上下文语境信息,经常应用于通用的NLP任务中。在实体提取的场景,通常使用BERT的预训练结果作为特征抽取部分,以优化命名实体识别(Named Entity Recognition,NER)模型的效果。
9)条件随机场(Conditional Random Field,CRF)算法:2001年由John Lafferty提出,常用于NLP中的分词、实体抽取等场景,
10)语料。为了表达清楚意图,用户会说一些常用的问法,比如,用户说“今天天气咋样”、“明天深圳温度多少”、“今天空气指数多少”,这些句子的背后都是想表达某个意图。这些句子称之为语料。
11)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
目前,自然语言处理中的实体提取技术的一种实现方式为人工通过手动构建CRF++特征工程,采用C++语言实现的CRF算法,以实现实体提取。CRF++方法的执行流程为:将训练语料组织为图1中所示的实例形式,其中第一列为字特征,第二列为双字(bi-gram)特征,第三列为词性特征,第四列为实体信息特征,第五列为CRF++特征工程根据前四列数据预测出的l预测标签,采用BIO标签体系标注,其中,B代表begin,I代表inter,O代表other。
目前,实体提取技术的另一种实现方式,即BERT模型的实现方式可以如图2所示。图2中,最底层的是BERT的特征抽取层20,其输入端tok1、tok2、tokn分别为当前请求语句(query)的每一个字ID,[cls]为预设专用的token,用于标记句子开始。这里,在实体识别的场景,BERT的特征抽取层20通常包含6层编码层与6层解码层,用于对每个token的词向量,也即每个单字的向量信息进行层层递进处理,输出每个token的词向量768维度信息与[cls]部分的768维度信息。接着,通过中间层21,在特征抽取层20输出的768维度信息基础上,拼接40维度的每个token的自定义词典信息(对应图1的第4列特征,比如“忘情水”三个字存在于song类型的实体字典当中,那么分别针对“忘”“情”“水”三个字,就存在B-字典&I-字典的特征,相应的就可以转化为3个40维度的向量),从而完成BERT输出与自定义字典特征的拼接过程,将拼接后的每个token输入CRF解码层。通过CRF解码层,同时考虑各个token的向量信息与各个预测标签(label)的转移矩阵信息,给每个token进行概率标注,预测每个token为最终所要提取的实体中的哪个字符的概率。进而根据每个token的概率标注得到最终所要提取出的实体。
可以看出,目前主流的技术方案中的CRF++特征工程的方法,其特点是无法自动构造特征工程,或者自动捕获特征的能力有局限,需要用户通过多次试验的结果,手工构造特征工程来决定具体使用哪些特征。而在模型开发调优的过程中,特征工程是非常耗时且对模型调优者有一定门槛需求的事情,因此通过CRF++特征工程进行实体提取的效率较低。对于在CRF算法中引入BERT模型的方法,虽然可以简化特征工程的工作量,但是由于BERT是对单个字符进行处理,主要考察token之间的关系,从而失去了词序之间的关系,所以只能靠增加层数来保证准确性。然而,过多的层数会导致训练和预测的效率都比较低,所以整个BERT模型网络计算比较耗时,实体提取的效率较低。综上所述,目前的实体提取方法的效率都比较低,不易在真实的高并发大流量的场景全面铺开使用。
本申请实施例提供一种实体提取方法、装置、设备和计算机可读存储介质,能够在保证实体提取准确性的基础上,提高实体提取的效率,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备),智能家居设备(例如,智能电视、智能音箱、智能灯泡、智能空调等),智能穿戴,车载,机器人等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
参见图3,图3是本申请实施例提供的基于实体提取的语音交互***100的一个可选的架构示意图,为实现支撑一个语音交互应用,终端,如智能音箱400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在通过语音指示智能音箱播放相应歌曲的应用场景下,用户可以通过智能音箱400发起语音命令或语音请求“放首歌手1的歌曲”,智能音箱400收到请求语句后转发给服务器200。服务器200对请求语句进行语音到文本的转换,得到待提取文本,进而获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;至少一个扩展词向量包含至少一个预设实体向量;至少一个预设实体向量为待提取文本在预设实体字典中对应的实体的向量信息;基于至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到待提取文本对应的至少一个目标实体。在一些实施例中,至少一个目标实体中可以包含技能类型实体与意图类型实体,服务器200可以根据至少一个目标实体中的技能类型实体与意图类型实体,识别出是音乐(music)技能的播放歌曲(play)意图,并从至少一个目标实体中的歌手类型实体提取到歌手信息为“歌手1”,从而实现基于至少一个目标实体对请求语句的解析。服务器200根据识别出的至少一个目标实体,从音乐数据库500中获取对应的目标歌曲音频和目标歌曲信息,其中,目标歌曲信息可以包括歌曲图片、所在专辑、歌词、歌曲播放地址等信息。服务器200可以将目标歌曲信息重新组织转化为可以在有屏的智能音箱上播放的流媒体卡片,或转化为适合无屏的智能音箱播放的自然人机交互的答复语,最终将歌曲音频和歌曲信息反馈到智能音箱400上提供给用户。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图4,图4是本申请实施例提供的服务器200的结构示意图,图4所示的服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器200中的各个组件通过总线***440耦合在一起。可理解,总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线***440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***451,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图4示出了存储在存储器450中的实体提取装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551和编码模块4552,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的实体提取方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的实体提取方法。
参见图5,图5是本申请实施例提供的实体提取方法的一个可选的流程示意图,将结合图5示出的步骤进行说明。
S101、获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;至少一个扩展词向量包含至少一个预设实体向量;至少一个预设实体向量为待提取文本在预设实体字典中对应的实体的向量信息。
本申请实施例提供的实体提取方法可应用于语音交互、语音合成、物联互动、***反馈、语音唤醒、远场语音识别等基于人工智能的自然语言处理场景,具体的根据实际情况进行选择,本申请实施例不做限定。
本申请实施例中,待提取文本可以是用户以文本输入的方式输入电子设备的文本信息,也可以是语音文本转换***对用户语音进行文本识别所得到的文本。待提取文本中包含有至少一个字符。
本申请实施例中,实体提取装置可以对待提取文本进行分词处理,并且,使用待提取文本在预设实体字典中进行关联度匹配,将分词得到的字符或分词以及待提取文本在预设实体字典中匹配的至少一个预设实体所对应的向量信息,如语义表现的embedding信息,作为至少一个字符向量以及至少一个扩展词向量。其中,至少一个扩展词向量包含至少一个预设实体向量。
本申请实施例中,预设实体字典中包含有至少一个预设实体,在一些实施例中,至少一个预设实体可以是语言学专家针对各种自然语言处理场景,根据具体场景下的统计信息,设计的关键字、指示词和方向词、位置词(如尾字)、中心词等字符串。示例性地,预设实体字典中可以包含常用的数量词、日期、时间、地区等各种技能都能直接使用的通用的预设实体;也可以包含具体技能对应的预设实体向量,如“电话号码库”、“房间名”、“好友列表”等。至少一个预设实体向量为待提取文本在预设实体字典中对应的实体的向量信息。
S102、基于至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到待提取文本对应的至少一个目标实体;至少一个目标实体用于实现对待提取文本的自然语言处理。
本申请实施例中,电子设备可以基于至少一个字符向量以及至少一个扩展词向量的文本内容,进行编解码变换,得到待提取文本对应的至少一个目标实体。
在一些实施例中,通过至少一个扩展词向量,可以在编解码过程中引入待提取文本中包含的潜在词组与潜在的预设实体。这样,实体提取设备在对至少一个字符向量以及至少一个扩展词向量进行编解码变换时,如基于多头自注意力机制的transformer编解码变换时,可以使得编码的输入信息更加丰富和全面,使得编解码过程中可以根据输入的待提取文本中各自潜在的可分词词组以及在预设实体字典中对应的预设实体向量,更加准确的识别每个字符之间的关联,使得编解码变换后提取的至少一个目标实体更加准确,而不需通过多层网络进行堆叠处理的方式来保证实体提取的准确性。
在一些实施例中,为了进一步提高准确性,并避免多层编解码处理的资源消耗,实体提取装置也可以从至少一个字符向量以及至少一个扩展词向量中获取每个字符向量与每个扩展词向量的边界信息。在对至少一个字符向量以及至少一个扩展词向量进行编解码变换时,可以根据每个字符向量与每个扩展词向量对应的边界信息得到对应字符向量与扩展词向量的长度,从而能够给通过更加丰富的输入信息来提高编解码变换的准确性,通过更少的处理过程实现准确的实体提取,得到至少一个目标实体。
在一些实施例中,边界信息可以是每个字符向量所在的位置,以及每个扩展词向量中的首字符与尾字符的位置所指示的向量的边界信息。
本申请实施例中,至少一个目标实体中可以包含不同技能类型的实体,电子设备或实体提取的下游设备可以通过至少一个目标实体,实现对待提取文本的自然语言处理过程。
在一些实施例中,针对一些有明确任务的需求场景,在需求对话中带有明显的意图,期望返回具体的服务,比如“我想要XXX”、“给我XXX”等,至少一个目标实体中可以包含任务型技能的实体,进而即可基于任务型技能的实体实现具体的需求任务,例如,提醒、闹钟、打车、订机票、订酒店、音乐播放、媒体控制等。
在一些实施例中,针对一些问答类场景,即在需求对话中没有明显的意图倾向,需求者主要是想咨询一些问题,期望返回答案的场景,比如世界之最知识问答:“世界上最高的山是什么”,或者自建的个性化问答:“你的老家在哪里”、“你妈妈叫什么名字”,至少一个目标实体中可以包含任务型技能的实体。自然语言处理方法可以利用任务型技能的实体实现问答类场景下的语音交互。
在一些实施例中,对于内容,如听书场景、听故事场景、或新闻播报场景,至少一个目标实体中可以包含专门为内容定制的内容简报型技能的实体。
在一些实施例中,针对智能家居场景,通过语音对话控制家庭设备、调节设备模式等。例如,针对智能灯泡,可以说打开客厅的灯、亮度调高点、打开睡眠模式等,至少一个目标实体中可以包含智能家居型技能的实体。
可以理解的是,本申请实施例中,通过将至少一个扩展词向量与至少一个字符向量融合在一起进行编解码变换,可以在编码过程中引入更多待提取文本中潜在的词向量信息,进而利用潜在的词向量信息增加实体提取的准确性,从而达到了可以通过更少的网络层数以及处理过程,实现从待提取文本中提取出至少一个目标实体,并同时保证实体提取的准确度。本申请实施例中的方法能够降低网络训练和网络计算的工作量,减少网络训练和网络计算的耗时,实现准确度和效率的平衡,能够保证在实体提取准确性的基础上,提高实体提取的效率,并且在真实的大流量应用场景中也更具有实用价值。
在一些实施例中,参见图6,图6是本申请实施例提供的实体提取方法的一个可选的流程示意图,至少一个扩展词向量还包括:至少一个分词向量,图5示出的S101可以通过S1011-S1014实现,将结合各步骤进行说明。
S1011、在待提取文本中包含的至少一个字符中,根据每个单个字符的向量信息,得到至少一个字符向量。
在一些实施例中,实体提取装置可以对待提取文本进行单个字符的划分,根据每个字符得到一个字符向量,从而得到至少一个字符向量。
示例性地,字符提取装置将“我爱中国”分词为“我”、“爱”、“中”、“国”四个单个的字符向量(unigram),作为至少一个字符向量。
S1012、对待提取文本进行分词处理,得到至少一个分词向量。
本申请实施例中,实体提取装置也可以对待提取文本进行分词处理,如二元分词,把待提取文本中的句子从头到尾每两个字组成一个双字词语(bigram),得到至少一个分词向量;或者,把待提取文本中的句子从头到尾每三个字组成一个词语(trigram),得到至少一个分词向量。本申请实施例对分词处理的具体划分方式与划分层次不作限定。
S1013、使用待提取文本在预设实体字典中进行关联度匹配,得到待提取文本匹配的至少一个预设实体信息;至少一个预设实体信息中的每个预设实体信息包含预设实体与预设实体别名中的至少一个。
本申请实施例中,实体提取装置可以使用待处理文本在预设实体字典中包含的至少一个预设实体中进行关联度匹配,以确定待处理文本中是否包含了潜在的预设实体,进而得到待提取文本匹配的至少一个预设实体信息。其中,至少一个预设实体信息中的每个预设实体信息包含预设实体与预设实体别名中的至少一个。
在一些实施例中,关联度匹配的方法可以是后缀数字典匹配法,也可以是正向最大匹配等,具体的根据实际情况进行选择,本申请实施例不作限定。
S1014、将至少一个预设实体信息对应的向量作为至少一个预设实体向量。
本申请实施例中,实体提取装置将预设实体字典中,与待提取文本相匹配的至少一个预设实体信息所对应的向量信息,作为至少一个预设实体向量。
可以理解的是,本申请实施例中,通过分词处理与预设实体字典关联度匹配,实体提取装置可以获取并充分利用待提取文本中潜在的分词词组以及潜在的预设实体,从而使得编解码过程的输入信息更加丰富和全面,在保证实体提取准确性的基础上简化了目前的多层处理流程,使得计算耗时减少,提高了实体提取的效率。
在一些实施例中,参见图7,图7是本申请实施例提供的实体提取方法的一个可选的流程示意图,图5或图6示出的S102可以通过执行S201-S202或者S301-S303中的任意一种方法流程来实现,将结合各步骤进行说明。
S201、对至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到至少一个第一实体。
本申请实施例中,实体提取装置可以对至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到至少一个第一实体。
在一些实施例中,S201可以通过执行S2011-S2013的过程来实现,将结合各步骤进行说明。
S2011、对至少一个字符向量以及至少一个扩展词向量进行注意力编码,得到第一注意力编码向量集。
本申请实施例中,实体提取装置可以将至少一个字符向量以及至少一个扩展词向量组织成矩阵形式的特征向量矩阵,并对特征向量矩阵进行线性变换处理,分别生成请求矩阵Q(query)、键矩阵K(key)、值矩阵V(Value)三个矩阵,然后根据请求矩阵Q与键矩阵K,得到注意力矩阵。这里,注意力矩阵表征了注意力权重的概率分布,示例性地,注意力矩阵每一行指的是行数所对应的字符向量或扩展词向量与其他各个字符向量或扩展词向量的相关性概率。实体提取装置进而可以使用注意力矩阵中包含的各个注意力权重,对值矩阵V进行加权,再对加权结果进行softmax归一化,使得每个字符向量或扩展词向量与其他各个字符向量或扩展词向量的注意力权重的和为1,得到第一注意力编码向量集。
这里,值矩阵V的每一行代表着每个字符向量或每个扩展词向量的数学表达,用注意力权重进行这些数学表达的加权线性组合,可以使每个字符向量或每个扩展词向量都含有待提取文本中当前句子内所有字符向量与扩展词向量的信息。
在一些实施例中,在使用注意力矩阵对值矩阵V进行加权之前,实体提取装置还可以对注意力矩阵进行标准正态分布处理,以使softmax归一化之后的结果更加稳定。
S2012、对第一注意力编码向量集进行解码预测,得到第一位置预测序列;第一位置预测序列用于在至少一个字符向量中指示出属于至少一个第一实体的字符的位置。
本申请实施例中,实体提取装置可以对注意力编码向量集进行解码预测,在待提取文本包含的至少一个字符向量中,预测出每个字符向量属于至少一个第一实体中的某个位置上的字符的概率,并根据每个字符向量对应的概率得到第一位置预测序列。
本申请实施例中,第一位置预测序列为第一位置预测标签组成的序列,用于在至少一个字符向量中指示出属于至少一个第一实体的字符的位置。在一些实施例中,在使用BIO标签体系进行标注时,第一位置预测序列可以包含至少一个开始标签(B-lable),用于标记至少一个第一实体中的每个第一实体的开始字符;第一位置预测序列还可以包含至少一个结束标签(E-lable),用于标记至少一个第一实体中的每个第一实体的结束字符,或者,第一位置预测序列还可以包含中间标签(I-lable),用于标记至少一个第一实体中的每个第一实体的中间字符。
在一些实施例中,实体提取装置可以通过CRF解码的方法对第一注意力编码向量集进行解码预测,得到第一位置预测序列,也可以使用其他解码方法,具体的根据实际情况进行选择,本申请实施例不作限定。
S2013、根据第一位置预测序列,得到至少一个第一实体。
S202、将至少一个第一实体作为至少一个目标实体。
本申请实施例中,实体提取装置可以根据第一位置预测序列中每个第一位置预测标签所标记的字符向量以及位置顺序进行字符向量组合,得到至少一个第一实体,并将至少一个第一实体作为至少一个目标实体。
可以理解的是,本申请实施例中,在引入了至少一个扩展词向量后,实体提取装置可以通过更少的处理流程从至少一个字符向量中提取出至少一个目标实体,无需经过多层编解码转换,从而提高了实体提取的准确性。
S301、在至少一个字符向量以及至少一个扩展词向量中,获取每个字符向量与每个扩展词向量各自对应的边界信息。
本申请实施例中,实体提取装置可以获取每个字符向量与每个扩展词向量各自对应的边界信息,对于单个的字符向量来说,边界信息可以是该字符向量出现的位置,对于包含多个字符的扩展词向量来说,边界信息可以是第一个字符,即首字符,以及最后一个字符,即尾字符各自出现的位置所限定的扩展词向量的边界。
在一些实施例中,实体提取装置可以根据每个扩展词向量中的首尾字符位置,得到第一边界信息;并将每个字符向量的位置作为第二边界信息。
S302、结合边界信息,对至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到至少一个第二实体。
本申请实施例中,实体提取装置可以结合边界信息,进一步丰富编解码变换的输入信息,对至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到至少一个第二实体。
在一些实施例中,参见图8,图8是本申请实施例提供的实体提取方法的一个可选的流程示意图,图7示出的S302可以通过执行S3021-S3026的过程来实现,将结合各步骤进行说明。
S3021、分别对至少一个字符向量以及至少一个扩展词向量进行标识,得到至少一个编码标识。
本申请实施例中,实体提取装置可以ID或token的方式来标识每个扩展词向量与每个字符向量,进而得到至少一个字符向量以及至少一个扩展词向量对应的至少一个编码标识,并根据至少一个编码标识进行下一步的编解码变换处理。
S3022、根据第一边界信息与第二边界信息,得到至少一个编码标识中每个编码标识对应的待编码向量长度。
本申请实施例中,为了在编解码变换过程中利用每个ID或token对应的向量长度,实体提取装置可以根据第一边界信息与第二边界信息,得到每个编码标识对应的待编码向量长度。
示例性地,当编码标识对应第一边界信息,即边界信息中包含的首尾位置相同时,该编码标识对应的待编码向量长度为1。当编码标识对应第二边界信息时,实体提取装置可以根据首尾字符所界定出的总字符个数,得到该编码标识对应的待编码向量长度。示例性地,当第二边界信息为[3,5]时,待编码向量长度为3。
S3023、结合待编码向量长度,对每个编码标识对应的字符向量或扩展词向量进行注意力编码,得到第二注意力编码向量集。
本申请实施例中,在编码过程中,实体提取装置可以结合待编码向量长度,在编码过程中充分识别并体现出词序之间的关系,进而对每个编码标识对应的字符向量或扩展词向量进行注意力编码,得到第二注意力编码向量集。
在一些实施例中,实体提取装置可以将作为每个编码标识对应的字符向量或扩展词向量及其对应的第一边界信息或第二边界信息作为一列数据,进而形成输入向量矩阵,对输入向量矩阵进行注意力编码,得到第二注意力编码向量集。
S3024、根据待提取文本中请求语句的语句长度,对第二注意力编码向量集进行截取,得到截取编码向量。
本申请实施例中,在语音指令交互场景下,待提取文本通常包含一个请求语句,实体提取装置可以根据请求语句的语句长度,对第二注意力编码向量集进行截取,得到截取编码向量。
本申请实施例中,对于待提取文本中更包含多个请求语句的情况,实体提取装置可以对多个请求语句进行多次处理,在每次处理过程中,根据当前请求语句的语句长度,对第二注意力编码向量集进行截取,得到截取编码向量。
S3025、对截取编码向量进行解码预测,得到第二位置预测序列;第二位置预测序列为至少一个第二位置预测标签组成的序列;至少一个第二位置预测标签用于在至少一个字符向量中指示出属于至少一个第二实体的字符的位置。
本申请实施例中,实体提取装置对截取编码向量进行解码预测,得到其中每个字符属于第二实体中每个位置的概率,根据其中每个字符的预测概率进行预测标签标注,得到第二位置预测序列。
这里,第二位置预测序列为至少一个第二位置预测标签组成的序列,用于在至少一个字符向量中指示出属于至少一个第二实体的字符的位置。
S3026、连接至少一个第二位置预测标签在各个位置上指示出的字符向量。
本申请实施例中,由于至少一个第二位置预测标签已经在至少一个字符向量中指示出了属于至少一个第二实体的字符的位置,实体提取装置可以连接至少一个第二位置预测标签在各个位置上指示出的字符向量,得到至少一个第二实体。
在一些实施例中,参见图9,图9是本申请实施例提供的实体提取方法的一个处理过程示意图,对于“重庆人和药店”,目前的BERT模型在进行编解码变换时只会用到“重”、“庆”、“人”、“和”、“药”、“店”这六个单字的信息,而本申请实施例中的实体提取装置可以通过引入至少一个扩展词向量,引入例如“重庆”、“人和药店”、“药店”等“重庆人和药店”可能出现的更多词组,以及每个字符向量与扩展词向量的英文别名。进一步的,本申请实施例还引入了每个字符向量与扩展词向量对应的位置信息,示例性地,对于“重庆人和药店”这一句请求语句来说,字符向量“人”所在的位置为3,则字符向量“人”对应的第一边界信息为[3,3];扩展词向量“重庆”中,首字符“重”所在的位置为1,尾字符“庆”所在的位置为2,则扩展词向量“重庆”对应的第二边界信息为[1,2]。实体提取装置对每个字符向量及其对应的第一边界信息与每个扩展词向量及其对应的第二边界信息进行编解码变换,得到如图9所示的第二位置预测序列。B-LOC、I-LOC与E-LOC为第二位置预测标签,其中,B-LOC用于指示一个第二实体的起始字符,在B-LOC之后的E-LOC用于指示该第二实体的结束字符,I-LOC用于指示第二实体中的中间字符。根据图9示出的第二位置预测序列,实体提取装置可以提取到“重庆”、“人和药店”两个第二实体。
S303、将至少一个第二实体作为至少一个目标实体。
本申请实施例中,实体提取装置可以将引入边界信息得到至少一个第二实体作为至少一个目标实体。
可以理解的是,本申请实施例中,通过引入边界信息,可以使得编解码过程中的自注意机制更好地捕获到词序之间的关系,从而在保证编解码处理准确性的基础上,可以减少多层的处理过程,提高实体提取的效率。
在一些实施例中,S302的执行过程可以利用注意力编解码变换模型来实现,其中,注意力编解码变换模型可以通过使用从真实交互日志挖掘出的训练样本集,对初始注意力编解码变换模型进行模型训练得到。
在一些实施例中,针对深度学习需要大量训练样本的场景,数据挖掘处理的方法可以包括日志数据挖掘、标注替换处理和辅助近义词替换处理中的至少一种。其中,日志数据挖掘可以基于对真实交互日志的分析和统计处理,从中提取出具有代表性的交互数据作为训练样本;标注替换处理可以对训练样本中实体标注部分可以相互替换,以得到更多的训练样本;辅助近义词替换处理可以对实体标注之外的语料(corpus)部分采用辅助近义词替换,如将“电视剧”替换为近义词“剧集”、“连续剧”等等方法,得到更多的训练样本。实体提取装置可以通过上述至少一种数据挖掘处理方法得到包含真实大量数据的训练样本集,以进一步优化通过训练样本集训练出的编解码变换模型的效果。并且,通过自动收集和数据挖掘得到训练样本集,可以进一步减少样本收集的工作量,提高对编解码变换模型进行训练的效率。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些实施例中,当预设实体字典的设计者,如技能专家设计实际应用场景下的技能意图时,可以通过如图10所示的预设实体字典的配置界面,对预设实体字典进行创建和更新。图10示出了在预设实体字典中的video领域涉及的动画片实体类型sys.video.cartoon中添加实体样例的界面示意图。技能专家可以根据实际的需求,通过配置界面10上的控件12导入或通过控件11手动添加相关的技能意图涉及的预设实体集合,同时可以通过控件13设置预设实体包含的字符,并通过控件14对预设实体设置对应的别名,以满足实体表述的多样性。
在一些实施例中,本申请实施例提供的编解码变换模型的网络结构以及应用处理流程可以如图11所示。在一些实施例中,可以将pytorch框架实现的,包含一层transformer编码层21与一层CRF解码层22的网络模型作为初始编解码变换模型。实体提取装置可以使用收集的实体语料作为训练语料,并使用真实用户的日志数据作为测试语料,然后对训练语料与测试语料进行数据标注,分别得到用于对初始编解码变换模型进行训练的训练样本集与测试样本集。示例性地,训练语料和测试语料的数量分布可以如表1所示,如下:
表1
实体名称 训练语料 测试语料
<u>fm.album.txt</u> <u>36692</u> <u>528</u>
<u>music.song.txt</u> <u>207001</u> <u>4623</u>
<u>video.cartoon.txt</u> <u>13239</u> <u>2349</u>
<u>video.film.txt</u> <u>26186</u> <u>874</u>
<u>video.tvseries.txt</u> <u>21733</u> <u>1619</u>
实体提取装置通过训练样本集与测试样本集,对初始编解码变换模型进行离线训练,在每次训练过程中,对于训练样本集中每个训练样本,获取每个训练样本包含至少一个训练字符向量以及至少一个训练扩展词向量,其中,至少一个扩展词向量包含对训练样本进行分词得到的至少一个训练分词向量,以及将训练文本在上述预设实体字典中进行相关性匹配得到的至少一个预设实体向量。实体提取装置进一步获取至少一个训练字符向量以及至少一个训练扩展词向量中每个训练字符向量与每个训练扩展词向量对应的边界信息,与其对应的训练字符向量或训练扩展词向量共同输入编码层21进行注意力编码,并通过解码层22对注意力编码结果进行解码预测,得到训练预测位置序列。实体提取装置可以根据训练预测位置序列得到至少一个预测实体,将至少一个预测实体与每个训练样本的实体标注进行对比,根据对比结果得到训练损失,进而根据训练损失对初始编解码变换模型的网络参数进行调整,如此使用训练样本集进行迭代训练,直至达到预设训练截止条件时,使用测试样本集对最后一次训练得到的候选编解码变换模型的实体提取结果进行验证,当满足各项预设验证指标时,结束训练,得到编解码变换模型20。
在一些实施例中,实体提取装置可以离线进行上述网络训练过程。在得到编解码变换模型后,实体提取装置可以将编解码变换模型转化为适合线上部署的脚本模式,进而将脚本模式的编解码变换模型部署并加载至真实场景下的自然语言处理***中,以对真实场景下的待提取文本进行解析与处理,实现本申请实施例中实体提取的方法。
这里,本申请实施例提供的上述实体提取方法与Base1模型如CRF++特征工程、以及Base2模型如BERT模型实体提取效果的各项指标对比可以如表2所示,如下:
表2
Figure BDA0002988424020000231
Figure BDA0002988424020000241
其中,一个epoch就是将所有训练样本训练一次的过程。P值为实体提取结果的准确度,R值为实体提取结果的召回率,F值为综合P值与R值之后的调和平均值,在一些实施例中,F值可以通过计算公式F=P*R*2/(P+R)来得到。
可以理解的是,本申请实施例中的方法相较于CRF++而言,其整体的F值提升较为明显,而且其在线解析耗时也较少,从而提高了实体提取的效率,在实际的工程上便于大面积铺开;而相较BERT而言,在线解析耗时有了巨大的提升,从而实现了效果与耗时之间的平衡,能够在保证效果的前提下,很好的控制了在线解析耗时,在工程实现上有了实际意义,另外本方法离线训练的时间也较短。本申请实施例中的实体提取方法可以面向真实场景下的大流量交互数据全面放开,更具有工程实用价值。
下面继续说明本申请实施例提供的实体提取装置455的实施为软件模块的示例性结构,在一些实施例中,如图4所示,存储在存储器450的实体提取装置455中的软件模块可以包括:
获取模块4551,用于获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;所述至少一个扩展词向量包含至少一个预设实体向量;所述至少一个预设实体向量为所述待提取文本在预设实体字典中对应的实体的向量信息;
编解码变换模块4552,用于基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体;所述至少一个目标实体用于实现对所述待提取文本的自然语言处理。
在一些实施例中,所述至少一个扩展词向量还包括:至少一个分词向量,所述获取模块4551,还用于在待提取文本中包含的至少一个字符中,根据每个单个字符的向量信息,得到所述至少一个字符向量;对所述待提取文本进行分词处理,得到所述至少一个分词向量;使用所述待提取文本在所述预设实体字典中进行关联度匹配,得到所述待提取文本匹配的至少一个预设实体信息;所述至少一个预设实体信息中的每个预设实体信息包含预设实体与预设实体别名中的至少一个;将所述至少一个预设实体信息对应的向量作为所述至少一个预设实体向量。
在一些实施例中,所述编解码变换模块4552,还用于对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第一实体;将所述至少一个第一实体作为所述至少一个目标实体;或者,在所述至少一个字符向量以及所述至少一个扩展词向量中,获取每个字符向量与每个扩展词向量各自对应的边界信息;结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;将所述至少一个第二实体作为所述至少一个目标实体。
在一些实施例中,所述边界信息包括:所述每个扩展词向量对应的第一边界信息以及所述每个字符向量对应的第二边界信息;所述获取模块4551,还用于根据所述每个扩展词向量中的首尾字符位置,得到所述第一边界信息;将所述每个字符向量的位置作为所述第二边界信息。
在一些实施例中,所述编解码模块4552,还用于对所述至少一个字符向量以及所述至少一个扩展词向量进行注意力编码,得到第一注意力编码向量集;对所述第一注意力编码向量集进行解码预测,得到第一位置预测序列;所述第一位置预测序列用于在所述至少一个字符向量中指示出属于所述至少一个第一实体的字符的位置;根据所述第一位置预测序列,得到所述至少一个第一实体。
在一些实施例中,所述编解码模块4552,还用于分别对所述至少一个字符向量以及所述至少一个扩展词向量进行标识,得到至少一个编码标识;根据所述第一边界信息与所述第二边界信息,得到所述至少一个编码标识中每个编码标识对应的待编码向量长度;结合所述待编码向量长度,对所述每个编码标识对应的字符向量或扩展词向量进行注意力编码,得到第二注意力编码向量集;根据所述待提取文本中请求语句的语句长度,对所述第二注意力编码向量集进行截取,得到截取编码向量;对所述截取编码向量进行解码预测,得到第二位置预测序列;所述第二位置预测序列为至少一个第二位置预测标签组成的序列;所述至少一个第二位置预测标签用于在所述至少一个字符向量中指示出属于所述至少一个第二实体的字符的位置;连接所述至少一个第二位置预测标签在各个位置上指示出的字符向量,得到所述至少一个第二实体。
在一些实施例中,所述实体提取装置还包括注意力编解码变换模型,所述注意力编解码变换模型,用于结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;所述注意力编解码变换模型是通过对真实交互日志进行数据挖掘处理得到训练样本集,并使用所述训练样本集对初始注意力编解码变换模型进行模型训练得到的;
其中,所述数据挖掘处理包括日志数据挖掘、标注替换处理和辅助近义词替换处理中的至少一种。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的实体提取方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图5-8示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本申请实施例中,通过将至少一个扩展词向量与至少一个字符向量融合在一起进行编解码变换,可以在编码过程中引入更多待提取文本中潜在的词向量信息,进而利用潜在的词向量信息增加实体提取的准确性,从而达到了可以通过更少的网络层数以及处理过程,实现从待提取文本中提取出至少一个目标实体,并同时保证实体提取的准确度。本申请实施例中的方法能够降低网络训练和网络计算的工作量,减少网络训练和网络计算的耗时,实现准确度和效率的平衡,能够保证在实体提取准确性的基础上,提高实体提取的效率。本申请实施例中的方法相较于CRF++而言,其整体的F值提升较为明显,而且其在线解析耗时也较少,从而提高了实体提取的效率,在实际的工程上便于大面积铺开;而相较BERT而言,在线解析耗时有了巨大的提升,从而实现了效果与耗时之间的平衡,能够在保证效果的前提下,很好的控制了在线解析耗时,在工程实现上有了实际意义,另外本方法离线训练的时间也较短。本申请实施例中的实体提取方法可以面向真实场景下的大流量交互数据全面放开,更具有工程实用价值。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (10)

1.一种实体提取方法,其特征在于,包括:
获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;所述至少一个扩展词向量包含至少一个预设实体向量;所述至少一个预设实体向量为所述待提取文本在预设实体字典中对应的实体的向量信息;
基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体;所述至少一个目标实体用于实现对所述待提取文本的自然语言处理。
2.根据权利要求1所述的方法,其特征在于,所述至少一个扩展词向量还包括:至少一个分词向量,所述获取待提取文本包含的至少一个字符向量以及至少一个扩展词向量,包括:
在待提取文本中包含的至少一个字符中,根据每个单个字符的向量信息,得到所述至少一个字符向量;
对所述待提取文本进行分词处理,得到所述至少一个分词向量;
使用所述待提取文本在所述预设实体字典中进行关联度匹配,得到所述待提取文本匹配的至少一个预设实体信息;所述至少一个预设实体信息中的每个预设实体信息包含预设实体与预设实体别名中的至少一个;
将所述至少一个预设实体信息对应的向量作为所述至少一个预设实体向量。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体,包括以下任意一种:
对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第一实体;以及将所述至少一个第一实体作为所述至少一个目标实体;
在所述至少一个字符向量以及所述至少一个扩展词向量中,获取每个字符向量与每个扩展词向量各自对应的边界信息;以及结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;以及将所述至少一个第二实体作为所述至少一个目标实体。
4.根据权利要求3所述的方法,其特征在于,所述边界信息包括:所述每个扩展词向量对应的第一边界信息以及所述每个字符向量对应的第二边界信息;所述获取每个字符向量与每个扩展词向量各自对应的边界信息,包括:
根据所述每个扩展词向量中的首尾字符位置,得到所述第一边界信息;
将所述每个字符向量的位置作为所述第二边界信息。
5.根据权利要求3所述的方法,所述对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第一实体,包括:
对所述至少一个字符向量以及所述至少一个扩展词向量进行注意力编码,得到第一注意力编码向量集;
对所述第一注意力编码向量集进行解码预测,得到第一位置预测序列;所述第一位置预测序列用于在所述至少一个字符向量中指示出属于所述至少一个第一实体的字符的位置;
根据所述第一位置预测序列,得到所述至少一个第一实体。
6.根据权利要求4所述的方法,其特征在于,所述结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体,包括:
分别对所述至少一个字符向量以及所述至少一个扩展词向量进行标识,得到至少一个编码标识;
根据所述第一边界信息与所述第二边界信息,得到所述至少一个编码标识中每个编码标识对应的待编码向量长度;
结合所述待编码向量长度,对所述每个编码标识对应的字符向量或扩展词向量进行注意力编码,得到第二注意力编码向量集;
根据所述待提取文本中请求语句的语句长度,对所述第二注意力编码向量集进行截取,得到截取编码向量;
对所述截取编码向量进行解码预测,得到第二位置预测序列;所述第二位置预测序列为至少一个第二位置预测标签组成的序列;所述至少一个第二位置预测标签用于在所述至少一个字符向量中指示出属于所述至少一个第二实体的字符的位置;
连接所述至少一个第二位置预测标签在各个位置上指示出的字符向量,得到所述至少一个第二实体。
7.根据权利要求6所述的方法,所述结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体,包括:
利用注意力编解码变换模型,结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;所述注意力编解码变换模型是通过对真实交互日志进行数据挖掘处理得到训练样本集,并使用所述训练样本集对初始注意力编解码变换模型进行模型训练得到的;
其中,所述数据挖掘处理包括日志数据挖掘、标注替换处理和辅助近义词替换处理中的至少一种。
8.一种实体提取装置,其特征在于,包括:
获取模块,用于获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;所述至少一个扩展词向量包含至少一个预设实体向量;所述至少一个预设实体向量为所述待提取文本在预设实体字典中对应的实体的向量信息;
编解码变换模块,用于基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体;所述至少一个目标实体用于实现对所述待提取文本的自然语言处理。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的方法。
CN202110308162.1A 2021-03-23 2021-03-23 实体提取方法、装置、设备及计算机可读存储介质 Pending CN113705163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308162.1A CN113705163A (zh) 2021-03-23 2021-03-23 实体提取方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308162.1A CN113705163A (zh) 2021-03-23 2021-03-23 实体提取方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113705163A true CN113705163A (zh) 2021-11-26

Family

ID=78647842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308162.1A Pending CN113705163A (zh) 2021-03-23 2021-03-23 实体提取方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113705163A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330328A (zh) * 2021-12-13 2022-04-12 电子科技大学 基于Transformer-CRF的藏文分词方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330328A (zh) * 2021-12-13 2022-04-12 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114330328B (zh) * 2021-12-13 2023-10-10 电子科技大学 基于Transformer-CRF的藏文分词方法

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
Hirschberg et al. Advances in natural language processing
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
CN111695345A (zh) 文本中实体识别方法、以及装置
Du et al. Deep scaled dot-product attention based domain adaptation model for biomedical question answering
KR20180055680A (ko) 사용자 대화 의도 추출 기능 구비 채트봇을 활용한 헬스케어 지침 제공 방법 및 이를 위한 장치
CN110222225A (zh) Gru编解码器训练方法、音频的摘要生成方法及装置
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
Ramati et al. Uniform multilingualism: A media genealogy of Google Translate
CN116244344A (zh) 基于用户需求的检索方法、装置以及电子设备
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN115394321A (zh) 音频情感识别方法、装置、设备、存储介质及产品
Hu [Retracted] Music Emotion Research Based on Reinforcement Learning and Multimodal Information
Wołk et al. Survey on dialogue systems including slavic languages
CN113705163A (zh) 实体提取方法、装置、设备及计算机可读存储介质
CN110516109B (zh) 音乐标签的关联方法、装置及存储介质
CN117453925A (zh) 知识迁移方法、装置、设备、可读存储介质及程序产品
Kuhn et al. Coral: Corpus access in controlled language
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
Trivedi Fundamentals of Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination