CN110210017A - 一种自动命名方法、装置、计算机设备及存储介质 - Google Patents

一种自动命名方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110210017A
CN110210017A CN201910354891.3A CN201910354891A CN110210017A CN 110210017 A CN110210017 A CN 110210017A CN 201910354891 A CN201910354891 A CN 201910354891A CN 110210017 A CN110210017 A CN 110210017A
Authority
CN
China
Prior art keywords
text
alternative
entity
font size
artistic conception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910354891.3A
Other languages
English (en)
Inventor
张宇航
封洁轩
沈丁概
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yipin Weike Network Technology Co Ltd
Original Assignee
Xiamen Yipin Weike Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yipin Weike Network Technology Co Ltd filed Critical Xiamen Yipin Weike Network Technology Co Ltd
Priority to CN201910354891.3A priority Critical patent/CN110210017A/zh
Publication of CN110210017A publication Critical patent/CN110210017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种自动命名方法、装置、计算机设备及存储介质,该方法包括:对预设备选字号进行分词处理,得到多个备选文字;对备选文字分别进行意境分析,得到每个备选文字对应的意境描述信息;基于预设映射关系表,获取与备选文字具有相同或相近意境描述信息的实体文字,其中,预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,实体文字用于构建目标文本中出现的命名实体;基于预设组合规则,通过实体文字构建不同于预设备选字号的目标字号。就此,可以基于表征为目标文本中出现的实体文字与意境描述信息的映射关系的预设映射关系表,对预设备选字号进行修改,以得到具有目标文件风格的多个目标字号。

Description

一种自动命名方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,属于互联网技术领域,尤其涉及一种自动命名方法、装置、计算机设备及存储介质。
背景技术
众所周知,在建立经营团体、或有新的家庭成员加入时,都会涉及起名的问题。但是,目前都是人为为公司或成员进行命名,由于经历、及见识有限,无法提供足够数量、及具有特色的名称以供选择。
发明内容
本发明的主要目的在于提出一种自动命名方法、装置、计算机设备及存储介质,其克服了以上技术问题。
根据本发明的第一个方面,提供了一种自动命名方法,所述方法包括:对预设备选字号进行分词处理,得到多个备选文字;对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字,其中,所述预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,所述实体文字用于构建所述目标文本中出现的命名实体;基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
可选的,所述预设映射关系表的构建方法包括:识别所述目标文本中的命名实体,并对识别出的所述命名实体进行分词处理,得到对应的多个实体文字;对所述多个实体文字分别进行意境分析,得到所述实体文字对应的意境描述信息;建立所述实体文字与对应的意境描述信息的映射关系,以构建所述预设映射关系表,其中,每个所述实体文字映射一个或至少两个对应的意境描述信息。
可选的,所述识别目标文本中的命名实体,包括:基于预设识别模型,获取所述目标文本的字符向量和词向量;对所述字符向量和词向量进行加权求和,得到求和结果;将所述求和结果输入预设处理模型中进行处理,得到文本特征信息;将所述文本特征信息输入至预设识别模型中进行处理,得到所述目标文本的命名实体。
可选的,所述预设处理模型包括:目标双向长短期记忆LSTM模型。
可选的,所述预设识别模型包括:目标条件随机场CRF模型。
可选的,所述基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号,包括:基于预设组合规则,通过所述实体文字构建待选字号;判断所述待选字号是否与所述预设备选字号相同;若不同,则将所述待选字号确定为所述目标字号。
可选的,该命名实体为目标文本中具有特定意义的实体,其包括但不限于以下一种或多种:所述目标文本中出现的人名、地名、机构名、短语、专有名词、或注释。
根据本发明的第二个方面,提供了一种自动命名装置,所述装置包括:备选分词处理模块,用于对预设备选字号进行分词处理,得到多个备选文字;备选分析模块,用于对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;映射获取模块,用于基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字,其中,所述预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,所述实体文字用于构建所述目标文本中出现的命名实体;字号构建模块,用于基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
可选的,所述装置还包括:命名实体识别模块,用于识别所述目标文本中的命名实体,并对识别出的所述命名实体进行分词处理,得到对应的多个实体文字;文字分析模块,用于对所述多个实体文字分别进行意境分析,得到所述实体文字对应的意境描述信息;映射建立模块,用于建立所述实体文字与对应的意境描述信息的映射关系,以构建所述预设映射关系表,其中,每个所述实体文字映射一个或至少两个对应的意境描述信息。
可选的,所述命名实体识别模块,包括:向量获取单元,用于基于预设识别模型,获取所述目标文本的字符向量和词向量;求和单元,用于对所述字符向量和词向量进行加权求和,得到求和结果;第一处理单元,用于将所述求和结果输入预设处理模型中进行处理,得到文本特征信息;第二处理单元,用于将所述文本特征信息输入至预设识别模型中进行处理,得到所述目标文本的命名实体。
可选的,所述预设处理模型包括:目标双向长短期记忆LSTM模型。
可选的,所述预设识别模型包括:目标条件随机场CRF模型。
可选的,所述字号构建模块,包括:待选字号构建单元,用于基于预设组合规则,通过所述实体文字构建待选字号;判断单元,用于判断所述待选字号是否与所述预设备选字号相同;若不同,则将所述待选字号确定为所述目标字号。
可选的,所述命名实体包括以下一种或多种:所述目标文本中出现的人名、地名、机构名、短语、专有名词、或注释。
根据本发明的第三个方面,提供了一种计算机设备,包括处理器和存储器;所述存储器用于存储计算机指令,所述处理器用于运行所述存储器存储的计算机指令,以实现上述的一种自动命名方法、装置、计算机设备及存储介质。
根据本发明的第四个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的一种自动命名方法、装置、计算机设备及存储介质。
本发明有益效果如下:可以基于表征为目标文本中出现的实体文字与意境描述信息的映射关系的预设映射关系表,对预设备选字号进行修改,以得到具有目标文件风格的多个目标字号。
附图说明
图1为本发明第一实施例一种自动命名方法的流程框图;
图2为本发明中构建预设映射关系的流程框图;
图3为本发明中识别目标文本中命名实体的流程框图;
图4为本发明中构建目标字号的流程框图;
图5为本发明第二实施例一种自动命名装置的结构示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以包含有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
为了便于理解本发明实施例,下面通过几个具体实施例对本发明的实施过程进行详细的阐述。
本发明第一实施例提供一种自动命名方法,该方法包括:对预设备选字号进行分词处理,得到多个备选文字;对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字,其中,所述预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,所述实体文字用于构建所述目标文本中出现的命名实体;基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
就此,可以基于表征为目标文本中出现的实体文字与意境描述信息的映射关系的预设映射关系表,对预设备选字号进行修改,以得到具有目标文件风格的多个目标字号。
图1为本发明第一实施例一种自动命名方法的流程框图。根据图1所示,本发明第一实施例提供了一种自动命名方法,该方法可应用于终端或服务器,而且,在本实施例中,该方法不仅可用于给企业命名,也可以给自然人命名,当然,也可以给所有需要命名的主体进行命名,值得注意的是,在本实施例中,并不对该需要命名的主体进行限定。具体的,该方法包括:
S11:对预设备选字号进行分词处理,得到多个备选文字;
将预设备选字号拆分为单个备选文字。为方便理解,在此进行举例说明:在备选字号为企业字号时,如:备选字号为“方圆”,则经过该S11步骤,得到备选文字:“方”、及“圆”;再如:在备选字号为人名时,如:备选字号为“任正非”,则经过该S11步骤,得到备选文字:“任”、“正”、及“非”。
当然,在另一实施例中,在备选字号为人名时,如:备选字号为“任正非”,则经过该S11步骤,只得到备选文字:“正”、及“非”,即备选文字不包括该人名的姓氏。
当然,在备选字号为地名时,如:备选字号为“芷若”,则经过该S11步骤,得到备选文字:“芷”、及“若”。
其中,该预设备选字号可以是预存的、用户预先输入的、***预先生成的,在本实施例中,并不对该预设备选字号的来源及生成方式进行限定,只需其满足本实施例的要求即可。
S12:对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;
在本实施例中,并不对该分析手段进行限定,只需其满足本实施例的要求即可,如:预先构建字典数据模型,然后将备选文字输入该字典数据模型,即可得到各备选文字对应的意境描述信息,其中,该意境描述信息包括但不限于一种或多种:文字的拼音、偏旁、及含义。
为方便理解,在此以意境描述信息为文字的含义为例进行说明,如:备选文字为:“方”、及“圆”,则“方”包括以下11个示范性意境描述信息:(1)表征为各边相同的图形、(2)正直、(3)方向、(4)办法、(5)地点、(6)治病的药单、(7)工程上的量词、(8)数学上自乘的积、(9)副词、(10)表示响度级的单位、及(11)姓氏。则“圆”包括以下9个示范性意境描述信息:(1)图形、(2)姓氏、(3)圆通及灵活、(4)圆满及完整、(5)丰满及周全、(6)婉转及圆润、(7)天、(8)滚动、及(9)月亮。
在此以意境描述信息为文字的偏旁为例进行说明,如:备选文字为:“芷”、及“若”,则“芷”包括以下4个示范性意境描述信息:(1)草、(2)、蓉、(3)菲、(4)芒。则“若”包括以下5个示范性意境描述信息:(1)莉、(2)蕊、(3)花、(4)莲、及(5)茉。
S13:基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字;
基于预设映射关系表,通过备选文字的意境描述信息查找出与备选文字的意境描述信息相同或相近的意境描述信息的实体文字。如:为备选文字“方”查找到对应的实体文字“方”、“正”、“南”、及“北”;为备选文字“圆”查找到对应的实体文字“圆”、“滚”、及“环”。
其中,该预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,该实体文字用于构建所述目标文本中出现的命名实体。
而且,在本实施例中,并不对该目标文本进行限定,其包括但不限于以下一种或多种:小说文献、科学论文、使用说明、及医学诊断。
S14:基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
即:将根据不同备选文字获得的实体文字进行组合,以构建不同于预设备选字号的目标字号。
经过上述步骤S11至步骤S13,即可得到实体文字,如:预设备选字号为“方正”,则基于预设组合规则,即可至少组成以下不同于预设备选字号“方圆”的目标字号:“方滚”、“滚方”、“正环”、及“环北”。再如:预设备选字号为“芷若”,则基于预设组合规则,即可至少组成以下不同于预设备选字号“芷若”的目标字号:“菲蕊”、“菲花”、“芒莲”、及“芒茉”。
当然,如果目标文件为金庸先生的小说,则预设备选字号可为“紫竹”、“清华”、及“芷若”,且意境描述信息包括但不限于以下多种:文字的拼音、偏旁、及含义。则生成的具有金庸小说风格的目标字号可以以下表1为例进行示范性展示:
表1
图2为本发明中构建预设映射关系的流程框图。具体的,根据图2所示,在另一实施例中,针对预设映射关系表的构建方法,其包括:
S21:识别所述目标文本中的命名实体,并对识别出的所述命名实体进行分词处理,得到对应的多个实体文字;
需要先识别并提取目标文本中的命名实体,然后,对识别出的命名实体进行分词处理,从而,得到各个命名实体对应的多个实体文字。
针对该识别目标文本的命名实体的具体技术方案,在本实施例中,对此并不做限定,只需其满足本实施例的要求即可。如:采用CRF(Conditional Random Field,条件随机场算法)或单向RNN(Recurrent neural Network、循环神经网络)等模型对目标文本中的命名实体进行识别。
可选的,该命名实体为目标文本中具有特定意义的实体,其包括但不限于以下一种或多种:所述目标文本中出现的人名、地名、机构名、短语、专有名词、或注释。
S22:对所述多个实体文字分别进行意境分析,得到所述实体文字对应的意境描述信息;
在得到各个命名实体对应的多个实体文字的情况下,就对每个实体文字分别进行意境分析。具体的意境分析所涉及的名词及实现原理具体可以参照本发明第一实施例的步骤S12,在此不再赘述。
S23:建立所述实体文字与对应的意境描述信息的映射关系,以构建所述预设映射关系表,其中,每个所述实体文字映射一个或至少两个对应的意境描述信息。
在得到每个实体文字的意境描述信息后,即可基于实体文字、及其对应的意境描述信息,构建上述的预设映射关系表。当然,每个实体文字映射一个或至少两个对应的意境描述信息,而且,每个意境描述信息也映射一个或至少两个对应的意境描述信息。
图3为本发明中识别目标文本中命名实体的流程框图。根据图3所示,在另一实施例中,针对识别所述目标文本中的命名实体,其包括:
S31:基于预设识别模型,获取所述目标文本的字符向量和词向量;
在本实施例中,以执行主体为终端为例,通过该终端获取目标文本,例如:可以针对金庸先生的《天龙八部》的小说文本进行命名实体识别,根据用户的选择操作,当用户选择小说文本中的一段内容或全文后,获取命名实体识别指令,根据该命名实体识别指令触发将小说文本中被选择的内容作为获取到的待识别文本。
然后通过预设识别模型获取该待识别文本的词向量和字符向量。在本实施例中,并不对该预设识别模型进行限定,只需可以通过该预设识别模型获取目标文本中的字符向量和词向量即可。如:将待识别文本输入至目标卷积神经网络CNN模型中,得到所述待识别文本的字符向量;通过目标word2vec模型或目标glove模型获取所述待识别文本的词向量。
当然,在本实施例中,并不对字符向量和词向量的获取顺序进行限定,只需其满足本实施例的要求即可。如:既可以先获取该待识别文本的字符向量,再获取待识别文本的词向量;也可以先获取待识别文本的词向量,再获取待识别文本的字符向量;当然,还可以同时获取待识别文本的字符向量和词向量。
S32:对所述字符向量和词向量进行加权求和,得到求和结果;
具体的,该S32的一种实现方式包括:可以为字符向量和词向量分别设置对应的权重,然后将字符向量及词向量分别按照对应的权重进行处理。接着,将处理后的字符向量与处理后的词向量进行求和,从而得到加权求和结果。
当然,在本实施例中,并不对该对字符向量机词向量进行加权求和的具体方式进行限定,只需其满足本实施例的要求即可。如:通过attention模型词向量和字符向量进行数据加权变换。
S33:将所述求和结果输入预设处理模型中进行处理,得到文本特征信息;
针对该预设处理模型,其包括但不限于:目标双向长短期记忆LSTM模型。其中,该LSTM(Long Short-Term Memory,长短期记忆)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,其可有效解决传统循环神经网络长路径依赖的问题。
S34:将所述文本特征信息输入至预设识别模型中进行处理,得到所述目标文本的命名实体。
针对该预设识别模型,其包括但不限于:目标条件随机场CRF模型。其中,该CRF:是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
就此,通过CNN训练得到字符char的向量,以及通过word2vec训练出的词向量,而且,还利用attention进行动态的叠加拼接,即加权求和,然后将加权求和结果输入到双向LSTM中,以动态的利用词向量和字符char向量,从而可以更有效的利用深度网络的隐层信息。而且,根据CNN+Bi-LSTM+Attention的模型输出,接着利用CRF层,给输入序列求预测输出序列最大化的最优序列,然后去预测输出每个词的标签,即可实现对目标文本的命名实体进行识别及获取。
图4为本发明中构建目标字号的流程框图。根据图4所示,在另一实施例中,针对上述S14,其一种实现方式包括:
S141:基于预设组合规则,通过所述实体文字构建待选字号;
S142:判断所述待选字号是否与所述预设备选字号相同;若相同,则执行以下步骤S143,否则,则执行以下步骤S144;
S143:删除该待选字号;
S144:将所述待选字号确定为所述目标字号。
就此,可以基于预设组合规则,通过获取到的实体文字构建待选字号,然后基于预设备选字号对构建的待选字号进行查重处理,以便删除与预设备选字号相同的待选字号、及将剩余的待选字号确定为目标字号。
图5为本发明第二实施例一种自动命名装置的结构示意图。本发明第二实施例提供了一种自动命名装置,所述装置包括:备选分词处理模块110,用于对预设备选字号进行分词处理,得到多个备选文字;备选分析模块120,用于对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;映射获取模块130,用于基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字,其中,所述预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,所述实体文字用于构建所述目标文本中出现的命名实体;字号构建模块140,用于基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
可选的,所述装置还包括:命名实体识别模块,用于识别所述目标文本中的命名实体,并对识别出的所述命名实体进行分词处理,得到对应的多个实体文字;文字分析模块,用于对所述多个实体文字分别进行意境分析,得到所述实体文字对应的意境描述信息;映射建立模块,用于建立所述实体文字与对应的意境描述信息的映射关系,以构建所述预设映射关系表,其中,每个所述实体文字映射一个或至少两个对应的意境描述信息。
可选的,所述命名实体识别模块,包括:向量获取单元,用于基于预设识别模型,获取所述目标文本的字符向量和词向量;求和单元,用于对所述字符向量和词向量进行加权求和,得到求和结果;第一处理单元,用于将所述求和结果输入预设处理模型中进行处理,得到文本特征信息;第二处理单元,用于将所述文本特征信息输入至预设识别模型中进行处理,得到所述目标文本的命名实体。
可选的,所述预设处理模型包括:目标双向长短期记忆LSTM模型。
可选的,所述预设识别模型包括:目标条件随机场CRF模型。
可选的,所述字号构建模块140,包括:待选字号构建单元,用于基于预设组合规则,通过所述实体文字构建待选字号;判断单元,用于判断所述待选字号是否与所述预设备选字号相同;若不同,则将所述待选字号确定为所述目标字号。
可选的,该命名实体为目标文本中具有特定意义的实体,其包括但不限于以下一种或多种:所述目标文本中出现的人名、地名、机构名、短语、专有名词、或注释。
本发明第三实施例提供了一种计算机设备,包括处理器和存储器;所述存储器用于存储计算机指令,所述处理器用于运行所述存储器存储的计算机指令,以实现上述的一种自动命名方法。
本发明第三实施例中的一种计算机设备所涉及的名词及实现原理具体可以参照本发明实施例中的第一实施例的一种自动命名方法,在此不再赘述。
本发明第四实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个模块,所述一个或者多个模块可被一个或者多个处理器执行,以实现上述的一种自动命名方法。
本发明第四实施例中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本发明实施例中的第一实施例的一种自动命名方法,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种自动命名方法,其特征在于,所述方法包括:
对预设备选字号进行分词处理,得到多个备选文字;
对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;
基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字,其中,所述预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,所述实体文字用于构建所述目标文本中出现的命名实体;
基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
2.根据权利要求1所述的方法,其特征在于,所述预设映射关系表的构建方法包括:
识别所述目标文本中的命名实体,并对识别出的所述命名实体进行分词处理,得到对应的多个实体文字;
对所述多个实体文字分别进行意境分析,得到所述实体文字对应的意境描述信息;
建立所述实体文字与对应的意境描述信息的映射关系,以构建所述预设映射关系表,其中,每个所述实体文字映射一个或至少两个对应的意境描述信息。
3.根据权利要求2所述的方法,其特征在于,所述识别目标文本中的命名实体,包括:
基于预设识别模型,获取所述目标文本的字符向量和词向量;
对所述字符向量和词向量进行加权求和,得到求和结果;
将所述求和结果输入预设处理模型中进行处理,得到文本特征信息;
将所述文本特征信息输入至预设识别模型中进行处理,得到所述目标文本的命名实体。
4.根据权利要求3所述的方法,其特征在于,所述预设处理模型包括:目标双向长短期记忆LSTM模型。
5.根据权利要求3所述的方法,其特征在于,所述预设识别模型包括:目标条件随机场CRF模型。
6.根据权利要求1所述的方法,其特征在于,所述基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号,包括:
基于预设组合规则,通过所述实体文字构建待选字号;
判断所述待选字号是否与所述预设备选字号相同;
若不同,则将所述待选字号确定为所述目标字号。
7.根据权利要求1所述的方法,其特征在于,所述命名实体包括以下一种或多种:所述目标文本中出现的人名、地名、机构名、短语、专有名词、或注释。
8.一种自动命名装置,其特征在于,所述装置包括:
备选分词处理模块,用于对预设备选字号进行分词处理,得到多个备选文字;
备选分析模块,用于对所述备选文字分别进行意境分析,得到每个所述备选文字对应的意境描述信息;
映射获取模块,用于基于预设映射关系表,通过所述备选文字对应的意境描述信息,获取与所述备选文字具有相同或相近意境描述信息的实体文字,其中,所述预设映射关系表表征为目标文本中出现的实体文字与意境描述信息的映射关系,而且,所述实体文字用于构建所述目标文本中出现的命名实体;
字号构建模块,用于基于预设组合规则,通过所述实体文字构建不同于所述预设备选字号的目标字号。
9.一种计算机设备,其特征在于,包括处理器和存储器;
所述存储器用于存储计算机指令,所述处理器用于运行所述存储器存储的计算机指令,以实现权利要求1至7中任一项所述的一种自动命名方法、装置、计算机设备及存储介质。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的一种自动命名方法、装置、计算机设备及存储介质。
CN201910354891.3A 2019-04-29 2019-04-29 一种自动命名方法、装置、计算机设备及存储介质 Pending CN110210017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354891.3A CN110210017A (zh) 2019-04-29 2019-04-29 一种自动命名方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354891.3A CN110210017A (zh) 2019-04-29 2019-04-29 一种自动命名方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110210017A true CN110210017A (zh) 2019-09-06

Family

ID=67786654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354891.3A Pending CN110210017A (zh) 2019-04-29 2019-04-29 一种自动命名方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110210017A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291024A (zh) * 2020-02-19 2020-06-16 京东方科技集团股份有限公司 数据处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122848A1 (en) * 2002-12-19 2004-06-24 Toivonen Hannu T.T. System and method for generating descriptive link names
CN101556574A (zh) * 2008-04-09 2009-10-14 北京美名腾网络技术有限公司 基于用户意愿的计算机智能起名
CN101620611A (zh) * 2008-06-30 2010-01-06 威知资讯股份有限公司 概念性标题产生方法
CN107391491A (zh) * 2017-08-04 2017-11-24 王强 文字选择方法及装置
CN107577655A (zh) * 2016-07-05 2018-01-12 北京国双科技有限公司 名称获取方法和装置
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122848A1 (en) * 2002-12-19 2004-06-24 Toivonen Hannu T.T. System and method for generating descriptive link names
CN101556574A (zh) * 2008-04-09 2009-10-14 北京美名腾网络技术有限公司 基于用户意愿的计算机智能起名
CN101620611A (zh) * 2008-06-30 2010-01-06 威知资讯股份有限公司 概念性标题产生方法
CN107577655A (zh) * 2016-07-05 2018-01-12 北京国双科技有限公司 名称获取方法和装置
CN107391491A (zh) * 2017-08-04 2017-11-24 王强 文字选择方法及装置
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291024A (zh) * 2020-02-19 2020-06-16 京东方科技集团股份有限公司 数据处理方法、装置、电子设备及存储介质
CN111291024B (zh) * 2020-02-19 2023-11-24 京东方科技集团股份有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
AU2018214675B2 (en) Systems and methods for automatic semantic token tagging
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN109522556A (zh) 一种意图识别方法及装置
CN100595762C (zh) 文本集合可视化***
CN109299976A (zh) 点击率预测方法、电子装置及计算机可读存储介质
US20210042476A1 (en) Intelligent Routing Services and Systems
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN107368515A (zh) 应用程序页面推荐方法及***
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN106980650A (zh) 一种面向Twitter观点分类的情感增强词嵌入学习方法
CN105243083B (zh) 文档主题挖掘方法及装置
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
CN116521906B (zh) 元描述生成方法及其装置、设备、介质
CN103927177A (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN109344246A (zh) 一种电子问卷生成方法、计算机可读存储介质及终端设备
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN105095271B (zh) 微博检索方法和微博检索装置
CN115935983A (zh) 事件抽取方法、装置、电子设备及存储介质
Eshmawi et al. Design of Automated Opinion Mining Model Using Optimized Fuzzy Neural Network.
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN110210017A (zh) 一种自动命名方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906

RJ01 Rejection of invention patent application after publication