CN114491318B - 目标信息的确定方法、装置、设备以及存储介质 - Google Patents

目标信息的确定方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114491318B
CN114491318B CN202111547303.1A CN202111547303A CN114491318B CN 114491318 B CN114491318 B CN 114491318B CN 202111547303 A CN202111547303 A CN 202111547303A CN 114491318 B CN114491318 B CN 114491318B
Authority
CN
China
Prior art keywords
information
matched
candidate information
text
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111547303.1A
Other languages
English (en)
Other versions
CN114491318A (zh
Inventor
顾杰
史亚冰
蒋烨
柴春光
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111547303.1A priority Critical patent/CN114491318B/zh
Publication of CN114491318A publication Critical patent/CN114491318A/zh
Application granted granted Critical
Publication of CN114491318B publication Critical patent/CN114491318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了目标信息的确定方法、装置、设备以及存储介质,计算机技术领域,尤其涉及深度学习、知识图谱等人工智能技术领域。具体实现方案为:根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;将待匹配信息分别与每个候选信息组成匹配对;在每个匹配对中,分别将待匹配信息、候选信息中的内容按照预定规则进行排序,得到匹配对中的两组排序结果;根据每个匹配对中的两组排序结果,对每个匹配对中的待匹配信息和候选信息进行比较,根据比较的结果,在候选信息中确定目标信息。具有较好的消歧效果。

Description

目标信息的确定方法、装置、设备以及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及深度学习、知识图谱等人工智能技术领域。特别涉及一种目标信息的确定方法、装置、设备以及存储介质。
背景技术
在进行目标信息的查阅或更新过程中,需要将输入信息与已存储的目标信息进行关联。常规技术在关联过程中存在着关联数量过多或关联错误等情况,导致召回率较差。
发明内容
本公开提供了一种目标信息的确定方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种目标信息的确定方法,该方法可以包括以下步骤:
根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;
将待匹配信息分别与每个候选信息组成匹配对;
在每个匹配对中,分别将待匹配信息、候选信息中的内容按照预定规则进行排序,得到匹配对中的两组排序结果;
根据每个匹配对中的两组排序结果,对每个匹配对中的待匹配信息和候选信息进行比较,根据比较的结果,在候选信息中确定目标信息。
根据本公开的另一方面,提供了一种目标信息的确定装置,该装置可以包括:
候选信息确定模块,用于根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;
匹配对组建模块,用于将待匹配信息分别与每个候选信息组成匹配对;
排序模块,用于在每个匹配对中,分别将待匹配信息、候选信息中的内容按照预定规则进行排序,得到匹配对中的两组排序结果;
目标信息确定模块,用于根据每个匹配对中的两组排序结果,对每个匹配对中的待匹配信息和候选信息进行比较,根据比较的结果,在候选信息中确定目标信息。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。
根据本公开的技术可以克服泛化性、通用性较差的缺陷。复用于不同对象之间的比较,并且具有较好的消歧效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开目标信息的确定方法的流程图;
图2是根据本公开目标关键词的确定方式的流程图;
图3是根据本公开比较过程的流程图;
图4是根据本公开得到特征确定结果的流程图之一;
图5是根据本公开得到第一文本特征的示意图;
图6是根据本公开得到特征确定结果的流程图之二;
图7是根据本公开得到特征确定结果的示意图;
图8是根据本公开目标信息的确定装置的示意图;
图9是用来实现本公开实施例的目标信息的确定方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本公开涉及一种目标信息的确定方法,该方法可以包括以下步骤:
S101:根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;
S102:将待匹配信息分别与每个候选信息组成匹配对;
S103:在每个匹配对中,分别将待匹配信息、候选信息中的内容按照预定规则进行排序,得到匹配对中的两组排序结果;
S104:根据每个匹配对中的两组排序结果,对每个匹配对中的待匹配信息和候选信息进行比较,根据比较的结果,在候选信息中确定目标信息。
本公开的上述方案的执行主体可以是用于执行信息匹配消歧的设备。例如智能手机、平板电脑或服务器等。
待匹配信息可以包括查询信息。以查询电影或电视剧为示例,待匹配信息中可以包括片名,例如“2021年上映的电影《电影XXX》”、“电视剧《电视剧XX》”或“片名XX”等。待匹配信息也可以包括演员或导演的姓名等。或者,待匹配信息还可以包括故事梗概等。另外,待匹配信息还可以是电影或电视剧的海报等。
待匹配信息的表现形式可以是文字、声音、图像等。以文字为例,待匹配信息可以是结构化文字或非结构化文字。
待匹配信息中的目标关键词可以是根据预定规则确定出来的。例如,在待匹配信息中包含电影或电视剧的名称的情况下,可以将名称作为目标关键词。或者,在待匹配信息中包含演员或导演的姓名的情况下,可以将导演以及主要演员的姓名作为目标关键词。其中,主要演员可以包括男一号、女一号或近一段时间内热度高的演员等。即,目标关键词的确定方式可以包括多种,具体根据使用需求灵活变化。
仍以前述查询电影或电视剧为示例,数据库可以是电影或电视剧相关数据库。数据库中的电影或电视剧信息包括但不限于片名、上映时间、上映平台、导演信息、主要演员信息、编剧信息、时长信息(集数、每集时长、电影时长)、发行公司、故事梗概等。数据库中的内容可以为知识图谱的形式。
利用待匹配信息中的目标关键词,可以得到数据库中与目标关键词相关的候选信息。示例性地,可以采用分布式搜索以提高搜索效率。分布搜索可以包括Elasticsearch。
将待匹配信息分别与每个搜索出的候选信息组成匹配对。即,若检索出M个候选信息,则匹配对的数量为M。第i个匹配对中包含待匹配信息和第i个候选信息。其中,M不小于1为正整数,1≤i≤M。
对于每个匹配对,可以将匹配对中的内容按照预定规则进行排序。示例性地,预定规则可以是根据重要性进行排序。例如,根据重要性,可以按照名称、主要演员信息、导演信息、上映时间等顺序依次排序。
按照预定规则进行排序的目的在于,保证重要信息的完整性。例如,由于存储限制、模型计算能力限制等,会对待匹配信息和候选信息中的内容进行删减。例如,仅保留前200个字符等。因此,通过将匹配对中的内容按照预定规则进行排序,可以避免在删减过程中将重要信息删掉而影响消歧的准确性。
根据每个匹配对中的两组排序结果,对每个匹配对中的待匹配信息和候选信息进行比较。比较可以是相似性比较、差异性比较等。通过对比每个匹配对的比较结果,可以在多个候选信息中确定目标信息。
通过上述过程,可以克服泛化性、通用性较差的缺陷。复用于不同对象之间的比较,并且具有较好的消歧效果。
如图2所示,在一种实施方式中,步骤S101中涉及的目标关键词的确定方式,可以包括以下过程:
S201:对接收到的待匹配信息进行预处理,得到预处理结果,预处理结果用于以自然语言的形式展示待匹配信息;
S202:利用预先设定的关键词确定规则,在预处理结果中确定出目标关键词。
在一种场景中,接收到的待匹配信息可能是结构化信息。仍以前述查询电影或电视剧为示例。例如,针对片名为《电影XXX》的剧集的“上映时间”,结构化信息可以表示为“<电影XXX,datePublished,2015-9-19>”。对接收到的待匹配信息进行预处理,可以是将结构化信息转换为自然语言信息。对应的,在结构化信息可以表示为“<电影XXX,datePublished,2015-9-19>”的情况下,自然语言信息可以表示为“电影XXX的上映时间是2015年9月19日”。
预先设定的关键词确定规则可以是依照内容的重要性、内容的查看热度等。例如,对于影片而言,片名的重要性最高、主要演员的查看热度最高等。通过利用预先设定的关键词确定规则,在预处理结果中确定出目标关键词可以确定出不同类型的目标关键词。
通过上述过程,可以采用不同的预先设定的关键词确定规则,根据搜索目的进行候选信息的查询。
在一种实施方式中,步骤S103可以具体包括以下过程:
在待匹配信息和候选信息中的至少一种存在信息长度超过对应长度阈值的情况下,将超过对应长度阈值的待匹配信息和/或候选信息按照预定规则进行排序。
长度阈值可以是根据对比的精度需求、对比的速度需求、对比模型的计算能力等元素确定的。在待匹配信息和/或候选信息中的信息长度超过对应长度阈值的情况下,可能出现将待匹配信息和/或候选信息中的信息进行截取。为了满足在截取时可以保留重要信息,因此存在信息长度超过对应长度阈值的情况下,将超过对应长度阈值的待匹配信息和/或候选信息按照预定规则进行排序。
例如,长度阈值为L。在待匹配信息和候选信息中的至少一种存在信息长度超过L的情况下,将超过信息长度超过L的待匹配信息和/或候选信息中的内容进行重新排序。
重新排序可以按照预定规则进行。例如,预定规则可以是内容的重要性、内容的查看热度或者是内容的最后一次更新日期等。示例性地,在预定规则是内容的重要性的情况下,可以按照名称、主演、导演、故事梗概等顺序进行重新排序。
通过上述过程,可以克服在信息截取时丢失重要信息的缺陷,满足在比对过程中可以按照需求,保留对应的重要信息。
如图3所示,在一种实施方式中,步骤S104可以包括以下过程:
S301:根据数据处理能力,将匹配对中的每组排序结果进行拆分,得到N个拆分结果;N为不小于1的正整数;
S302:对于每个拆分结果,进行特征确定,得到特征确定结果;
S303:利用特征确定结果,对匹配对中的待匹配信息和候选信息进行比较。
数据处理能力可以是对于消歧过程中单次所能处理的文字数量。根据数据处理能力,将匹配对中的每组排序结果进行拆分,以得到N个拆分结果。通常情况下,N可以设置为2。即,在第i个匹配对中,将排序后的待匹配信息拆分为2组,将排序后第i个候选信息拆分为2组。对于文本的特征确定,通常单次所能处理的文字数量约为512个字符。将N设置为2即可满足长度1000字符内的输入文本之间的相似度比较。由此可以满足大部分消歧需求。另外,在匹配对中任意组的排序结果对应的字符数量小于前述单次处理能力的情况下,可以设置N=1,即拆分结果为1,无需进行拆分。反之,若N=2仍然无法满足单次处理能力,可以根据实际情况调整N的数值。
对于每个拆分结果,进行特征确定。即,在每个拆分结果中,分别提取待匹配信息的特征,以及候选信息的特征,得到对应拆分结果的特征确定结果。
利用每个拆分结果的特征确定结果,对匹配对中的待匹配信息和候选信息进行比较,比较的结果可以是相似度值或差异度值等。
在N不小于2的情况下,可以将每次拆分结果的特征提取结果进行组合,以得到最终的特征提取结果。
通过上述过程,可以实现对每个匹配对中的待匹配信息和候选信息的比较。通过比较结果,可以实现消歧。
如图4所示,在一种实施方式中,步骤S302可以包括以下过程:
S401:利用知识增强语义表示模型(ERNIE),确定每个拆分结果的第一文本特征;
S402:利用字符串匹配模型(Pattern),确定每个拆分结果的第二文本特征;
S403:将第一文本特征和第二文本特征,作为每个拆分结果的特征确定结果。
结合图5所示为利用ERNIE模型,确定每个拆分结果的第一文本特征的示意图。图5中以任意一个匹配对(第i个匹配对),该匹配对中的拆分结果为N=1为示例。Query A可以表示第i个匹配对中待匹配信息的自然语言字符串,Query B可以表示第i个匹配对中候选信息的自然语言字符串。以对Query A的处理为示例,对Query A进行分词处理,得到D个分词结果(token),分别对应A_part_1至A_part_D。ERNIE模型的原理包括利用下层的文本编码器(T-Encoder)从输入的token中捕获词汇和语义信息。上层的知识编码器(K-Encoder)负责将外部token导向的知识信息整合进下层输出的文本信息中,由此可以得到拆分结果的特征确定结果。其中,外部token可以是从第三方获取到的信息,包含不同的实体信息之间的关联性。实体一般指可以用名字标识的现实中的事物,如人名、作品名、组织机构名等,广义的命名实体还包括时间表达式、数字表达式、地址等。
文本编码器中可以包括多层的transformer单元,首层的每一个transformer单元依次对应输入的token,同一层内的transformer单元不互相连接,不同层之间的transformer单元两两连接。末层的transformer单元的输出结果,经过求平均计算(图5中所示的Avg-Pooling),可以得到与各token对应的平均值结果U_1至U_D。对平均值结果(U_1至U_D)进行拼接,可以得到拆分结果的第一文本特征。以上是以N=1为例进行说明,在N>1的情况下,可以将每个拆分结果进行拼接,以得到每个匹配对中待匹配信息(Query A)的最终的第一文本特征U。
同理,可以得到每个匹配对中候选信息(Query B)的最终的第一文本特征V。
对于每个匹配对中,待匹配信息和候选信息的第一文本特征的向量差均值可以表示为|U-V|。
另外,对于第i个匹配对中的待匹配信息和候选信息,还可以利用字符串匹配模型(Pattern)进行特征确定,以确定每个拆分结果的第二文本特征。Pattern是用于解决简单消歧和深度学习文本匹配模型难以解决的消歧问题,Pattern所用的特征由特殊属***互比较算子计算得出。利用Pattern确定出每个拆分结果的第二文本特征,可以对第一文本特征进行有效的补充。
最终,可以将第一文本特征和第二文本特征,作为每个拆分结果的特征确定结果。
通过上述过程,可以从不同维度提取出待匹配信息和候选信息的特征,从而可以为消歧提供底层数据支持。
如图6所示,在一种实施方式中,在待匹配信息和候选信息中包含非文字信息的情况下,还可以包括以下步骤:
S601:分别确定匹配对中的待匹配信息中非文字信息的特征,以及候选信息中非文字信息的特征;
S602:将匹配对中的待匹配信息中非文字信息的特征以及候选信息中非文字信息的特征,作为特征确定结果。
非文字信息可以包括图像信息等。对于图像信息,可以依赖于图像特征确定模型计算得出待匹配信息中非文字信息的特征以及候选信息中非文字信息的特征,以此作为特征确定结果。或者,结合图7所示,也可以利用图像特征确定模型(mobilenet)计算匹配对中的待匹配信息和候选信息中非文字信息的余弦相似度,计算结果在图7中表示为“非文字信息特征相似度W”。
另外,非文字信息还可以包括语音信息、(***)数字信息等。对于上述非文字信息,处理方式可以包括先进行文字转换,进而按照前述文字信息的处理过程进行后续处理。对于语音信息而言,还可以包括识别朗读者的过程。例如,待匹配信息为电视剧或电影中的对白,则可以通过对语音识别结果增加朗读者标签。朗读者标签可以是角色1、角色2,也可以是角色男、角色女。对于颗粒度更细的识别,还可以识别出朗读者的名字,例如演员A、演员B等。从而对消歧提供更丰富的数据支持。
结合前述每个匹配对中,待匹配信息和候选信息的第一文本特征的向量差均值|U-V|,可以得到每个匹配对中待匹配信息和候选信息的多模态信息。
利用二分类模型(Softmax)可以得到每个匹配对中,待匹配信息和候选信息的相似情况。例如,根据二分类模型输出的结果,第i个匹配对中的待匹配信息和候选信息的相似度最高,或者差异性最小,则可以将第i个匹配对中的候选信息确定为目标信息。
在一种实施方式中,候选信息包括知识图谱中的实体信息。
示例性地,待匹配信息可以是多模态实体,候选信息包括知识图谱中的实体信息。最终,本申请的目的是将接收到的多模态实体与知识图谱中实体进行关联,以进行实体收录和知识图谱的应用。
实体消歧技术在知识图谱构建和应用场景下发挥着重要作用。例如,知识图谱的收录、基于知识图谱的智能问答和智能客服等。通过本申请的上述过程,实体消歧任务可以取得很高的准确率与召回率。
如图8所示,本公开涉及一种目标信息的确定装置,该装置可以包括:
候选信息确定模块801,用于根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;
匹配对组建模块802,用于将待匹配信息分别与每个候选信息组成匹配对;
排序模块803,用于在每个匹配对中,分别将待匹配信息、候选信息中的内容按照预定规则进行排序,得到匹配对中的两组排序结果;
目标信息确定模块804,用于根据每个匹配对中的两组排序结果,对每个匹配对中的待匹配信息和候选信息进行比较,根据比较的结果,在候选信息中确定目标信息。
在一种实施方式中,候选信息确定模块801可以包括:
预处理子模块,用于对接收到的待匹配信息进行预处理,得到预处理结果,预处理结果用于以自然语言的形式展示待匹配信息;
目标关键词确定子模块,用于利用预先设定的关键词确定规则,在预处理结果中确定出目标关键词。
在一种实施方式中,排序模块803具体用于:
在待匹配信息和候选信息中的至少一种存在信息长度超过对应长度阈值的情况下,将超过对应长度阈值的待匹配信息和/或候选信息按照预定规则进行排序。
在一种实施方式中,目标信息确定模块804可以包括:
拆分子模块,用于根据数据处理能力,将匹配对中的每组排序结果进行拆分,得到N个拆分结果;N为不小于1的正整数;
特征确定子模块,用于对于每个拆分结果,进行特征确定,得到特征确定结果;
比较子模块,用于利用特征确定结果,对匹配对中的待匹配信息和候选信息进行比较。
在一种实施方式中,特征确定子模块,可以包括:
第一文本特征确定单元,用于利用知识增强语义表示模型(ERNIE),确定每个拆分结果的第一文本特征;
第二文本特征确定单元,用于利用字符串匹配模型(Pattern),确定每个拆分结果的第二文本特征;
特征确定执行单元,用于将第一文本特征和第二文本特征,作为每个拆分结果的特征确定结果。
在一种实施方式中,在待匹配信息和候选信息中包含非文字信息的情况下,目标信息确定模块804还可以包括:
分别确定待匹配信息中非文字信息的特征,以及候选信息中非文字信息的特征;
将待匹配信息中非文字信息的特征以及候选信息中非文字信息的特征,作为特征确定结果。
在一种实施方式中,候选信息包括知识图谱中的实体信息。
本公开的技术方案中所涉及的用户个人信息的获取存储和应用等均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元910,其可以根据存储在只读存储器(ROM)920中的计算机程序或者从存储单元980加载到随机访问存储器(RAM)930中的计算机程序,来执行各种适当的动作和处理。在RAM 930中,还可存储设备900操作所需的各种程序和数据。计算单元910、ROM 920以及RAM 930通过总线940彼此相连。输入/输出(I/O)接口950也连接至总线940。
设备900中的多个部件连接至I/O接口950,包括:输入单元960,例如键盘、鼠标等;输出单元970,例如各种类型的显示器、扬声器等;存储单元980,例如磁盘、光盘等;以及通信单元990,例如网卡、调制解调器、无线通信收发机等。通信单元990允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元910可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元910的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元910执行上文所描述的各个方法和处理,例如目标信息的确定方法。例如,在一些实施例中,目标信息的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元980。在一些实施例中,计算机程序的部分或者全部可以经由ROM 920和/或通信单元990而被载入和/或安装到设备900上。当计算机程序加载到RAM 930并由计算单元910执行时,可以执行上文描述的目标信息的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元910可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标信息的确定方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种目标信息的确定方法,包括:
根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;
将所述待匹配信息分别与每个所述候选信息组成匹配对;
在每个所述匹配对中,分别将待匹配信息、候选信息中的内容进行分词,得到多个分词结果;并在待匹配信息和候选信息存在信息长度超过对应长度阈值的情况下,分别将超过对应长度阈值的待匹配信息和候选信息的分词结果按照预定规则进行排序,得到所述匹配对中的两组排序结果;所述预定规则包括内容的重要性、内容的查看热度和内容的最后一次更新日期中的至少之一;
根据每个所述匹配对中的两组排序结果,对每个所述匹配对中的待匹配信息和候选信息进行比较,根据所述比较的结果,在所述候选信息中确定目标信息。
2.根据权利要求1所述的方法,其中,所述目标关键词的确定方式,包括:
对接收到的所述待匹配信息进行预处理,得到预处理结果,所述预处理结果用于以自然语言的形式展示所述待匹配信息;
利用预先设定的关键词确定规则,在所述预处理结果中确定出所述目标关键词。
3.根据权利要求1所述的方法,其中,所述根据每个所述匹配对中的两组排序结果,对每个所述匹配对中的待匹配信息和候选信息进行比较,包括:
根据数据处理能力,将所述匹配对中的每组所述排序结果进行拆分,得到N个拆分结果;N为不小于1的正整数;
对于每个所述拆分结果,进行特征确定,得到特征确定结果;
利用所述特征确定结果,对所述匹配对中的待匹配信息和候选信息进行比较。
4.根据权利要求3所述的方法,其中,所述对于每个所述拆分结果,进行特征确定,包括:
利用知识增强语义表示模型ERNIE,确定每个所述拆分结果的第一文本特征;
利用字符串匹配模型,确定每个所述拆分结果的第二文本特征;
将所述第一文本特征和所述第二文本特征,作为每个所述拆分结果的特征确定结果。
5.根据权利要求3所述的方法,在所述待匹配信息和所述候选信息中包含非文字信息的情况下,所述对每个所述匹配对中的待匹配信息和候选信息进行比较,还包括:
分别确定所述匹配对中的待匹配信息中非文字信息的特征,以及候选信息中非文字信息的特征;
将所述匹配对中的待匹配信息中非文字信息的特征以及候选信息中非文字信息的特征,作为所述特征确定结果。
6.根据权利要求1至5任一所述的方法,其中,所述候选信息包括知识图谱中的实体信息。
7.一种目标信息的确定装置,包括:
候选信息确定模块,用于根据接收到的待匹配信息中所包含的目标关键词,在数据库中确定出候选信息;
匹配对组建模块,用于将所述待匹配信息分别与每个所述候选信息组成匹配对;
排序模块,用于在每个所述匹配对中,分别将待匹配信息、候选信息中的内容进行分词,得到多个分词结果;并在待匹配信息和候选信息存在信息长度超过对应长度阈值的情况下,分别将超过对应长度阈值的待匹配信息和候选信息的分词结果按照预定规则进行排序,得到所述匹配对中的两组排序结果;所述预定规则包括内容的重要性、内容的查看热度和内容的最后一次更新日期中的至少之一;
目标信息确定模块,用于根据每个所述匹配对中的两组排序结果,对每个所述匹配对中的待匹配信息和候选信息进行比较,根据所述比较的结果,在所述候选信息中确定目标信息。
8.根据权利要求7所述的装置,其中,所述候选信息确定模块,包括:
预处理子模块,用于对接收到的所述待匹配信息进行预处理,得到预处理结果,所述预处理结果用于以自然语言的形式展示所述待匹配信息;
目标关键词确定子模块,用于利用预先设定的关键词确定规则,在所述预处理结果中确定出所述目标关键词。
9.根据权利要求7所述的装置,其中,所述目标信息确定模块,包括:
拆分子模块,用于根据数据处理能力,将所述匹配对中的每组所述排序结果进行拆分,得到N个拆分结果;N为不小于1的正整数;
特征确定子模块,用于对于每个所述拆分结果,进行特征确定,得到特征确定结果;
比较子模块,用于利用所述特征确定结果,对所述匹配对中的待匹配信息和候选信息进行比较。
10.根据权利要求9所述的装置,其中,所述特征确定子模块,包括:
第一文本特征确定单元,用于利用知识增强语义表示模型ERNIE,确定每个所述拆分结果的第一文本特征;
第二文本特征确定单元,用于利用字符串匹配模型,确定每个所述拆分结果的第二文本特征;
特征确定执行单元,用于将所述第一文本特征和所述第二文本特征,作为每个所述拆分结果的特征确定结果。
11.根据权利要求9所述的装置,在所述待匹配信息和所述候选信息中包含非文字信息的情况下,所述目标信息确定模块,还包括:
分别确定所述匹配对中的待匹配信息中非文字信息的特征,以及候选信息中非文字信息的特征;
将所述匹配对中的待匹配信息中非文字信息的特征以及候选信息中非文字信息的特征,作为所述特征确定结果。
12.根据权利要求7至11任一所述的装置,其中,所述候选信息包括知识图谱中的实体信息。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的方法。
CN202111547303.1A 2021-12-16 2021-12-16 目标信息的确定方法、装置、设备以及存储介质 Active CN114491318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111547303.1A CN114491318B (zh) 2021-12-16 2021-12-16 目标信息的确定方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111547303.1A CN114491318B (zh) 2021-12-16 2021-12-16 目标信息的确定方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114491318A CN114491318A (zh) 2022-05-13
CN114491318B true CN114491318B (zh) 2023-09-01

Family

ID=81493694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111547303.1A Active CN114491318B (zh) 2021-12-16 2021-12-16 目标信息的确定方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114491318B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556704B1 (en) * 1999-08-25 2003-04-29 Eastman Kodak Company Method for forming a depth image from digital image data
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN111126071A (zh) * 2019-12-02 2020-05-08 支付宝(杭州)信息技术有限公司 提问文本数据的确定方法、装置和客服群的数据处理方法
CN111181912A (zh) * 2019-08-27 2020-05-19 腾讯科技(深圳)有限公司 浏览器标识的处理方法、装置、电子设备及存储介质
CN111488464A (zh) * 2020-04-14 2020-08-04 腾讯科技(深圳)有限公司 实体属性处理方法、装置、设备及介质
CN111538908A (zh) * 2020-06-22 2020-08-14 腾讯科技(深圳)有限公司 搜索排序方法、装置、计算机设备和存储介质
CN112925882A (zh) * 2021-02-18 2021-06-08 联想(北京)有限公司 一种信息处理方法及装置
CN113010752A (zh) * 2021-03-09 2021-06-22 北京百度网讯科技有限公司 召回内容的确定方法、装置、设备以及存储介质
CN113032516A (zh) * 2021-05-27 2021-06-25 中国科学院自动化研究所 基于近似本体匹配的知识图谱融合方法
CN113257383A (zh) * 2021-06-16 2021-08-13 腾讯科技(深圳)有限公司 匹配信息确定方法、显示方法、装置、设备及存储介质
WO2021179897A1 (zh) * 2020-03-12 2021-09-16 京东方科技集团股份有限公司 实体链接方法及装置
CN113536156A (zh) * 2020-04-13 2021-10-22 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9978025B2 (en) * 2013-03-20 2018-05-22 Cisco Technology, Inc. Ordered-element naming for name-based packet forwarding
US10909571B2 (en) * 2015-08-11 2021-02-02 Adobe Inc. Visitor identification based on feature selection
US11036802B2 (en) * 2019-08-05 2021-06-15 Morgan Stanley Services Group Inc. Classification rules engine and API generator
CN111737382A (zh) * 2020-05-15 2020-10-02 百度在线网络技术(北京)有限公司 地理位置点的排序方法、训练排序模型的方法及对应装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556704B1 (en) * 1999-08-25 2003-04-29 Eastman Kodak Company Method for forming a depth image from digital image data
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
CN111181912A (zh) * 2019-08-27 2020-05-19 腾讯科技(深圳)有限公司 浏览器标识的处理方法、装置、电子设备及存储介质
CN111126071A (zh) * 2019-12-02 2020-05-08 支付宝(杭州)信息技术有限公司 提问文本数据的确定方法、装置和客服群的数据处理方法
WO2021179897A1 (zh) * 2020-03-12 2021-09-16 京东方科技集团股份有限公司 实体链接方法及装置
CN113536156A (zh) * 2020-04-13 2021-10-22 百度在线网络技术(北京)有限公司 搜索结果排序方法、模型构建方法、装置、设备和介质
CN111488464A (zh) * 2020-04-14 2020-08-04 腾讯科技(深圳)有限公司 实体属性处理方法、装置、设备及介质
CN111538908A (zh) * 2020-06-22 2020-08-14 腾讯科技(深圳)有限公司 搜索排序方法、装置、计算机设备和存储介质
CN112925882A (zh) * 2021-02-18 2021-06-08 联想(北京)有限公司 一种信息处理方法及装置
CN113010752A (zh) * 2021-03-09 2021-06-22 北京百度网讯科技有限公司 召回内容的确定方法、装置、设备以及存储介质
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113032516A (zh) * 2021-05-27 2021-06-25 中国科学院自动化研究所 基于近似本体匹配的知识图谱融合方法
CN113257383A (zh) * 2021-06-16 2021-08-13 腾讯科技(深圳)有限公司 匹配信息确定方法、显示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114491318A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN112749344B (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN114549874B (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN113660541B (zh) 新闻视频的摘要生成方法及装置
CN114091472B (zh) 多标签分类模型的训练方法
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN114782719B (zh) 一种特征提取模型的训练方法、对象检索方法以及装置
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN111538817A (zh) 人机交互方法和装置
CN116246287B (zh) 目标对象识别方法、训练方法、装置以及存储介质
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN114491318B (zh) 目标信息的确定方法、装置、设备以及存储介质
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN114647739A (zh) 实体链指方法、装置、电子设备及存储介质
CN114254642A (zh) 实体信息处理方法、装置、电子设备和介质
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN115794984B (zh) 数据存储方法、数据检索方法、装置、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant