CN113127645B - 大规模知识图谱本体自动抽取方法、终端设备及存储介质 - Google Patents

大规模知识图谱本体自动抽取方法、终端设备及存储介质 Download PDF

Info

Publication number
CN113127645B
CN113127645B CN202110380611.3A CN202110380611A CN113127645B CN 113127645 B CN113127645 B CN 113127645B CN 202110380611 A CN202110380611 A CN 202110380611A CN 113127645 B CN113127645 B CN 113127645B
Authority
CN
China
Prior art keywords
entity
entities
knowledge graph
automatic extraction
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110380611.3A
Other languages
English (en)
Other versions
CN113127645A (zh
Inventor
洪万福
张林娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202110380611.3A priority Critical patent/CN113127645B/zh
Publication of CN113127645A publication Critical patent/CN113127645A/zh
Application granted granted Critical
Publication of CN113127645B publication Critical patent/CN113127645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及大规模知识图谱本体自动抽取方法、终端设备及存储介质,该方法中包括:S1:从知识图谱中获取实体;S2:采用规则匹配算法对提取的实体进行初步分类;S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。本发明创新性地融合多种技术手段,有效的实现了工业界大规模知识图谱的本体自动抽取工作,在无任何人工标注数据的情况下,仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取。

Description

大规模知识图谱本体自动抽取方法、终端设备及存储介质
技术领域
本发明涉及知识图谱领域,尤其涉及一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。
背景技术
知识图谱(Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。
知识图谱有自顶向下和自底向上两种构建方式。所述自顶向下构建为:先定义好本体,再将实体加入到知识库中;所述自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出实体,选择其中置信度较高的,加入到知识库中。目前,主流方式是采用自底向上构建的方式,这就需要在图谱构建后进行本体的抽取构建工作。本体构建方法按照人工介入的程度,可分为手动构建、半自动构建、自动构建,但目前尚未有成熟的技术体系。
发明内容
为了解决上述问题,本发明提出了一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。
具体方案如下:
一种大规模知识图谱本体自动抽取方法,包括以下步骤:
S1:从知识图谱中获取实体;
S2:采用规则匹配算法对提取的实体进行初步分类;
S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;
S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;
S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。
进一步的,步骤S1还包括对获取的实体进行预处理,预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。
进一步的,步骤S4聚类算法采用Kmeans聚类算法。
进一步的,步骤S4采用聚类算法进行分类的具体过程如下:
S401:针对每个待分类实体,从知识图谱中提取其属性、标签和关系中的一种或多种后,与实体名称进行拼接,使用自然语言处理词向量技术,获取拼接后的字符串中的每个字的向量表示,将所有字的向量表示的平均值作为待分类实体的词向量;
S402:将待分类实体的词向量,输入到Kmeans模型中,使用手肘法确认聚类个数k;
S403:将待分类实体的词向量表示与聚类个数k同时输入到Kmeans模型中,得到聚类结果。
进一步的,步骤S401中采用的自然语言处理词向量技术为在102种语言的语料上进行训练的bert-base-multilingual-uncased模型。
进一步的,如果最终的分类结果中某种类别的实体数量大于预设的数量阈值,则对该种类别的实体重新执行步骤S2~S5进行进一步分类。
一种大规模知识图谱本体自动抽取终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,并具有以下有益效果:
1.适用性强:不同领域的知识图谱都可以使用本发明。
2.效果好:创新地进行多技术手段融合,保证了本体抽取的效果;使用规则匹配,进行初步分类,分类质量高;接着使用命名实体识别模型,可选地使用开源命名实体识别模型或自训练命名实体识别模型,无论是开源命名实体识别模型还是自训练命名实体识别模型,都基于大规模带标注的文本语料训练生成,具有很好的文本识别分类效果;创新地使用实体名称拼接实体属性、标签、关系,使用自然语言处理词向量技术获得文本向量表示,比单一使用实体名称提取到更多的特征,大大提升了后续Kmeans模型的学习效果。
3.速度快:其一,使用规则匹配分类和命名实体识别模型识别分类,处理速度快。其二由于先行使用规则匹配分类和命名实体识别模型识别分类,减少了待分类样本数,从而大大减少了后续转换词向量的时间和Kmeans模型训练、预测的时间。
4.实施快:命名实体识别模型和自然语言处理词向量模型均可选,可以使用开源模型,初版项目实施快,可快速看到效果。
5.扩展性强:根据预期可循环迭代操作,结果具有极强的扩展性。
附图说明
图1所示为本发明实施例一的流程图。
图2所示为该实施例中折线图的示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种大规模知识图谱本体自动抽取方法,如图1所示,其为本发明实施例所述的大规模知识图谱本体自动抽取方法的流程图,所述方法包括以下步骤:
S1:从知识图谱中获取实体。
该实施例中使用cypher查询语句,从知识图谱中获得40W实体。
进一步的,由于获取的实体格式不统一,且有一些无用数据,因此还需要对其进行预处理,该实施例中预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母等,在其他实施例中也可以采用其他处理方式,在此不做限制。
S2:采用规则匹配算法对提取的实体进行初步分类。
该实施例中采用了以下规则:
a.以“舰”、“艇”、“炮”、“雷达”、“坦克”等为结尾的实体,类别为“装备”;
b.以“军”、“旅”、“团”、“师”、“战区”等为结尾的实体,类别为“组织”。
上述仅为该实施例中采用的示例规则,在其他实施例中本领域技术人员可以根据需求设定其他规则,在此不做限制。
经过本步骤,可以完成部分实体的分类,且分类的质量很高。
S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型。
命名实体识别模型可以为开源模型,如Hanlp、Ltp等,也可以为自训练模型。其中开源的Hanlp或Ltp可以识别的类别有:人名、地名、机构名等。自训练命名实体识别模型可识别的类别,为在训练命名实体识别模型的时候自定义。命名实体识别模型的训练不在本发明的保护范围之内,在此不再赘述。在本实施例中,使用的是自训练的命名实体识别模型,将步骤S2的未分类的实体输入到命名实体识别模型中,部分实体被识别并得到分类结果。如:“德怀特艾森豪威尔”输入到命名实体识别模型,识别分类为“人物”。
S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类。
该实施例中采用Kmeans聚类算法进行分类,具体分类过程如下:
S401:针对每个待分类实体,从知识图谱中提取其属性、标签和关系中的一种或多种后,与实体名称进行拼接,使用自然语言处理词向量技术,获取拼接后的字符串中的每个字的向量表示,将所有字的向量表示的平均值作为待分类实体的词向量。
自然语言处理词向量技术有Bert(Bidirectional Encoder Representationsfrom Transformers),Fasttext,Word2vec等。
由于知识图谱中可能含有外文实体,因此该实施例中优选采用在102种语言的语料上进行训练的bert-base-multilingual-uncased模型来获取拼接字符串中每个字的向量表示。
S402:将待分类实体的词向量,输入到Kmeans模型中,使用手肘法确认聚类个数k。
手肘法的具体过程为:k值预设一个起止范围与间隔数,将待分类实体的词向量输入到Kmeans模型后,将不同k值下的SSE保存起来,绘制折线图,取折线图中的拐点作为最后的聚类个数k。
在本实施例中,k值的起始与终止数值设为2与20,间隔2,绘制的折线图如图2所示,折线图中拐点为4,则聚类个数k值为4。
S403:将待分类实体的词向量表示与聚类个数k同时输入到Kmeans模型中,得到聚类结果。
该实施例中,得到的聚类结果为:“装备”、“组织”、“文献”、“地点”、“人物”。
S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。
该实施例中,本轮最终分类结果为:“装备”、“组织”、“人物”、“地点”、“文献”。
进一步的,如果最终的分类结果中某种类别的实体数量大于预设的数量阈值时,若希望本体类别区分的更细,则可以对该种类别的实体重新执行步骤S2~S5进行进一步分类。
该实施例中,属于装备类别的实体数量为15W,属于组织类别的实体数量为4W,属于人物类别的实体数量为7W,属于地点类别的实体数量为6W,属于文献类别的实体数量为8W。装备类别数量大于数量阈值,因此需要进一步细分。
对属于装备类别的15W实体,实施步骤S4的Kmeans聚类算法进行分类,聚类分类结果为“陆上装备”,“水上装备”,“空中装备”。对分类结果进行合并与调整,本轮最终分类结果为:“陆上装备”(实体数量7W)、“水上装备”(实体数量4W)、“空中装备”(实体数量4W)、“组织”(实体数量4W),“人物”(实体数量7W)、“地点”(实体数量6W)、“文献”(实体数量8W)。进一步的分类后的数量小于数量阈值,因此满足工程项目需求,无需进一步细分,本体抽取结束。
数量阈值本领域技术人员可以根据实际需求进行设定,在此不做限制。
本发明实施例一创新性地融合使用了规则匹配、命名实体识别、自然语言处理词向量技术、Kmeans聚类多种技术手段,有效的实现了工业界大规模知识图谱的本体自动抽取工作,在无任何人工标注数据的情况下,仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取;若有部分实体标注数据,则本发明可以起到更好的效果。
单独使用实体名称,其蕴含的特征不足,Kmeans学习的过于简单,容易欠拟合。知识图谱的实体节点不仅有实体名称,一般还有实体属性、实体标签、实体关系。本实施例创新性地将实体属性、实体标签、实体关系从图谱中提取出来,与实体名称进行字符串拼接,有利于Kmeans学习到实体更丰富的特征。
实施例二:
本发明还提供一种大规模知识图谱本体自动抽取终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述大规模知识图谱本体自动抽取终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述大规模知识图谱本体自动抽取终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述大规模知识图谱本体自动抽取终端设备的组成结构仅仅是大规模知识图谱本体自动抽取终端设备的示例,并不构成对大规模知识图谱本体自动抽取终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述大规模知识图谱本体自动抽取终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述大规模知识图谱本体自动抽取终端设备的控制中心,利用各种接口和线路连接整个大规模知识图谱本体自动抽取终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述大规模知识图谱本体自动抽取终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述大规模知识图谱本体自动抽取终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (6)

1.一种大规模知识图谱本体自动抽取方法,其特征在于,包括以下步骤:
S1:从知识图谱中获取实体;
S2:采用规则匹配算法对提取的实体进行初步分类;
S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;所述类型包括:人名、地名或机构名;
S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;聚类算法采用Kmeans聚类算法;采用聚类算法进行分类的具体过程如下:
S401:针对每个待分类实体,从知识图谱中提取其属性、标签和关系中的一种或多种后,与实体名称进行拼接,使用自然语言处理词向量技术,获取拼接后的字符串中的每个字的向量表示,将所有字的向量表示的平均值作为待分类实体的词向量;
S402:将待分类实体的词向量,输入到Kmeans模型中,使用手肘法确认聚类个数k;
S403:将待分类实体的词向量表示与聚类个数k同时输入到Kmeans模型中,得到聚类结果;
S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。
2.根据权利要求1所述的大规模知识图谱本体自动抽取方法,其特征在于:步骤S1还包括对获取的实体进行预处理,预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。
3.根据权利要求1所述的大规模知识图谱本体自动抽取方法,其特征在于:步骤S401中采用的自然语言处理词向量技术为在102种语言的语料上进行训练的bert-base-multilingual-uncased 模型。
4.根据权利要求1所述的大规模知识图谱本体自动抽取方法,其特征在于:如果最终的分类结果中某种类别的实体数量大于预设的数量阈值,则对该种类别的实体重新执行步骤S2~S5进行进一步分类。
5.一种大规模知识图谱本体自动抽取终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~4中任一所述方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~4中任一所述方法的步骤。
CN202110380611.3A 2021-04-09 2021-04-09 大规模知识图谱本体自动抽取方法、终端设备及存储介质 Active CN113127645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110380611.3A CN113127645B (zh) 2021-04-09 2021-04-09 大规模知识图谱本体自动抽取方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110380611.3A CN113127645B (zh) 2021-04-09 2021-04-09 大规模知识图谱本体自动抽取方法、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113127645A CN113127645A (zh) 2021-07-16
CN113127645B true CN113127645B (zh) 2022-09-13

Family

ID=76775510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110380611.3A Active CN113127645B (zh) 2021-04-09 2021-04-09 大规模知识图谱本体自动抽取方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113127645B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138923B (zh) * 2021-12-03 2024-06-07 吉林大学 一种构建地质图知识图谱的方法
CN114691889B (zh) * 2022-04-15 2024-04-12 中北大学 一种道岔转辙机故障诊断知识图谱构建方法
CN115309906B (zh) * 2022-09-19 2023-06-13 北京三维天地科技股份有限公司 一种基于知识图谱技术的数据智能分类方法
US12028224B1 (en) 2023-02-17 2024-07-02 International Business Machines Corporation Converting an architecture document to infrastructure as code

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569405A (zh) * 2019-08-26 2019-12-13 中电科大数据研究院有限公司 一种基于bert的政务公文本体概念抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558754B2 (en) * 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
CN107330011B (zh) * 2017-06-14 2019-03-26 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
US10853576B2 (en) * 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569405A (zh) * 2019-08-26 2019-12-13 中电科大数据研究院有限公司 一种基于bert的政务公文本体概念抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于非分类关系提取技术的知识图谱构建;韦韬等;《工业技术创新》;20200425(第02期);第23-28页 *

Also Published As

Publication number Publication date
CN113127645A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113127645B (zh) 大规模知识图谱本体自动抽取方法、终端设备及存储介质
CN107451126B (zh) 一种近义词筛选方法及***
US20190073416A1 (en) Method and device for processing question clustering in automatic question and answering system
CN111222305B (zh) 一种信息结构化方法和装置
CN109446885B (zh) 一种基于文本的元器件识别方法、***、装置和存储介质
CN111428485B (zh) 司法文书段落分类方法、装置、计算机设备及存储介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112347760A (zh) 意图识别模型的训练方法及装置、意图识别方法及装置
CN112131881A (zh) 信息抽取方法及装置、电子设备、存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、***和存储介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN117197904A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN113282729A (zh) 基于知识图谱的问答方法及装置
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN111625636B (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN109947932B (zh) 一种推送信息分类方法及***
CN114722153A (zh) 一种意图分类的方法和装置
CN114154637A (zh) 一种知识点自动标注建模方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant