CN111860549B - 信息识别装置、方法、计算机设备及存储介质 - Google Patents
信息识别装置、方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111860549B CN111860549B CN201910277264.4A CN201910277264A CN111860549B CN 111860549 B CN111860549 B CN 111860549B CN 201910277264 A CN201910277264 A CN 201910277264A CN 111860549 B CN111860549 B CN 111860549B
- Authority
- CN
- China
- Prior art keywords
- information
- characteristic information
- characteristic
- feature
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000002884 skin cream Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种信息识别装置、方法、计算机设备及存储介质,该信息识别装置包括:接收模块,用于在接收到待识别信息后,确定待识别信息中包含的第一特征信息集;提取模块,用于在预存信息库中,提取至少一条与第一特征信息匹配的候选信息,组成候选信息集;第一确定模块,用于根据第一特征信息集的特征信息个数、第二特征信息集的特征信息个数、特征信息个数少的特征信息集中的每个特征信息分别在第一特征信息集和第二特征信息集中的位置,确定待识别信息与候选信息集中每个候选信息的相似度;第二确定模块根据确定的相似度和候选信息在预存信息库中的属性标签,确定待识别信息对应的属性标签,本申请提高了对目标对象的属性标签的识别效率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种信息识别装置、方法、计算机设备及存储介质。
背景技术
目前,各种场景都需要对目标对象的属性标签进行识别,比如网上商店可以根据用户输入的文本特征信息对该用户的属性标签进行识别,这样通过确定用户的类型,可以更好的为用户进行服务,再比如在安全监控领域,可以对用户的人脸图像进行识别,从而确定用户身份标签。
在进行目标对象识别时,一般是先将目标对象关联的信息,比如文本或者图像和预先建立的信息库中的所有信息进行比对,从而确定其和文本库中的信息的相似度,进而确定目标对象的属性标签,当预先建立的信息库中信息量较大时,比对过程较为繁琐,存在信息识别效率低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种信息识别装置、方法、计算机设备及存储介质,以提高对目标对象的属性标签识别效率。
第一方面,本申请实施例提供了一种信息识别装置,包括:
接收模块,用于在接收到待识别信息后,确定所述待识别信息中包含的第一特征信息集,所述第一特征信息集包含至少一个第一特征信息,并将所述第一特征信息集传输至提取模块和第一确定模块;
所述提取模块,用于在预存信息库中,提取至少一条与所述第一特征信息匹配的候选信息,组成候选信息集,其中,每条所述候选信息包括至少一个第二特征信息组成的第二特征信息集,并将所述候选信息集传输至所述第一确定模块;
第一确定模块,用于根据所述第一特征信息集的第一特征信息个数、所述第二特征信息集的第二特征信息个数、在所述第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在所述第一特征信息集和所述第二特征信息集中的位置信息,确定所述待识别信息与所述候选信息集中每个候选信息的相似度,并将所述相似度传输至第二确定模块;
第二确定模块,用于根据确定的相似度和所述候选信息在所述预存信息库中的属性标签,确定所述待识别信息对应的属性标签。
在一些实施方式中,所述待识别信息包括待识别文本,所述第一特征信息包括特征词,所述接收模块,具体用于:
接收到目标对象输入的待识别文本后,对所述待识别文本进行分词处理得到多个词单元;
基于预设常用词对多个所述词单元进行过滤,得到所述特征词,按照所述待识别文本中各个特征词出现的位置关系,将各个特征词进行排列后构成所述待识别文本的第一特征信息集。
在一些实施方式中,所述待识别信息包括待识别图像,所述第一特征信息包括灰度值;所述接收模块,具体用于:
接收到所述待识别图像后,若所述待识别图像为彩色图像,将所述彩色图像转换为灰度图像;
按照设定行和列对所述灰度图像进行分割,得到多个灰度子图像,并确定每个灰度子图像的灰度值;
按照每个灰度子图像在所述灰度图像中的位置信息,对各个灰度子图像的灰度值进行排列后,构成所述第一特征信息集。
在一些实施方式中,所述提取模块,具体用于:
从所述第一特征信息集中的任一第一特征信息开始遍历,在所述预存信息库中查找是否存在包含与当前遍历到的该第一特征信息匹配的特征信息;
若存在,提取存在的所述特征信息所在的候选信息,依据提取的各候选信息组成所述候选信息集;
若遍历结束后,在所述预存信息库中未查找到与所述第一特征信息匹配的特征信息,输出用于指示未查找到候选信息的提示信息。
在一些实施方式中,所述第一确定模块,具体用于:
针对每个候选信息,基于所述第一特征信息个数和所述候选信息的第二特征信息个数,选择所述待识别信息和所述候选信息中对应的特征信息个数少的作为第一比较信息,选择所述待识别信息和所述候选信息中对应的特征信息个数多的作为第二比较信息;
从所述第一比较信息对应的第三特征信息集中任一第三特征信息开始依次遍历,若从所述第二比较信息对应的第四特征信息集中,存在与连续遍历的第三特征信息组成的特征信息串匹配的特征信息,确定由至少一个所述所述特征信息串组成的特征信息串集;
针对每一特征信息串,根据该特征信息串的首个第三特征信息在所述第三特征信息集中的位置、与所述首个第三特征信息相匹配的特征信息在所述第四特征信息集中的位置、最后一个第三特征信息在所述第三特征信息集中的位置、所述第三特征信息集的第三特征信息个数以及所述第四特征信息集的第四特征信息个数,确定该特征信息串与第四特征信息集的相似度;
在所述特征信息串集中每一特征信息串与第四特征信息集的相似度中,选择最大相似度作为所述待识别信息与所述候选信息的相似度。
在一些实施方式中,所述第一确定模块,具体用于:
从所述第一比较信息对应的第三特征信息集中的任一第三特征信息开始依次遍历;
判断在所述第四特征信息集中是否连续存在与遍历到的第三特征信息匹配的特征信息;
若是,在所述第三特征信息集中,提取连续的第三特征信息作为所述特征信息串,该连续的第三特征信息所匹配的特征信息包含在所述第四特征信息集中。
在一些实施方式中,所述第二确定模块,具体用于:
在所述候选信息集中,判断是否存在与所述待识别信息的相似度大于预设阈值的第一候选信息;
若存在,基于各第一候选信息与所述待识别信息的相似度的大小顺序对所述第一候选信息进行排序;按照预设属性标签配置策略、排序后的第一候选信息以及各第一候选信息的属性标签,确定所述待识别信息对应的属性标签;
若不存在,输出用于指示未查找到所述第一候选信息的提示信息。
第二方面,本申请实施例提供了一种信息识别方法,包括:
在接收到待识别信息后,确定所述待识别信息中包含的第一特征信息集,所述第一特征信息集中包含至少一个第一特征信息;
在预存信息库中,提取至少一条与所述第一特征信息匹配的候选信息,组成候选信息集;其中,每条所述候选信息包括至少一个第二特征信息组成的第二特征信息集;
根据所述第一特征信息集的第一特征信息个数、所述第二特征信息集的第二特征信息个数、在所述第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在所述第一特征信息集和所述第二特征信息集中的位置信息,确定所述待识别信息与所述候选信息集中每个候选信息的相似度;
根据确定的相似度和所述候选信息在所述预存信息库中的属性标签,确定所述待识别信息对应的属性标签。
第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第二方面所述信息识别方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第二方面所述信息识别方法的步骤。
本申请实施例中,首先根据第一特征信息先在预存信息库中挑选出候选信息集,然后待识别信息仅仅与候选信息集中的候选信息比较相似度即可,大大缩短了比较时间,其次,本申请实施例在确定相似度时,仅仅通过根据待识别信息的第一特征信息个数、候选信息的第二特征信息个数、以及特征信息个数少的特征信息集中每个特征信息在第一特征信息集和第二特征信息集中的位置,来确定待识别信息和候选信息的相似度,这样在相似度确定过程中,只需要通过定位较少的特征信息在特征信息集中的位置,并结合相似度比较的两个特征信息集的特征信息个数,即可以快速地确定待识别信息和候选信息的相似度,从而更快地确定待识别信息对应的属性标签,即提高信息识别效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种信息识别方法流程图;
图2示出了本申请实施例提供的一种确定第一特征信息集以及第一特征信息集的第一特征信息个数的方法流程图;
图3示出了本申请实施例提供的另一种确定第一特征信息集以及第一特征信息集的第一特征信息个数的方法流程图;
图4示出了本申请实施例提供的一种得到候选信息集的方法流程图;
图5示出了本申请实施例提供的一种确定待识别信息与候选信息集中每个候选信息的相似度的方法流程图;
图6示出了本申请实施例提供的一种得到特征信息串集的方法流程图;
图7示出了本申请实施例提供的一种确定待识别信息对应的属性标签的方法流程图;
图8示出了本申请实施例提供的一种信息识别装置结构示意图;
图9示出了本申请实施例提供的一种计算机设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“目标对象的属性标签识别”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕目标对象的属性标签识别进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
针对现有技术中在基于相似度对目标对象的属性标签进行识别时,存在识别效率低的问题,本申请实施例提供一种信息识别方法,以提高识别效率。
本申请实施例提供了一种信息识别方法,如图1所示,包括以下流程S101~S104:
S101,接收到待识别信息后,确定待识别信息中包含的第一特征信息集,第一特征信息集中包含至少一个第一特征信息。
这里的待识别信息在不同应用场景中,可以表示不同的内容,比如,可以为待识别文本,即可以通过接收用户输入的待识别文本,对该待识别文本进行识别,从而确定待识别文本关联的用户的属性标签,此时目标对象为用户;或者,这里的待识别信息还可以是图像,比如这里的图像为目标对象的图像,则可以根据识别该图像,确定目标对象的属性标签,此时目标对象可以为用户或者物品。
这里的属性标签可以为目标对象的类型,比如若目标对象为用户,可以识别该用户是什么类型的用户,比如可以是价格敏感性用户、高需求用户、购物爱好者用户或者旅游爱好者用户,这里的价格敏感性、产品高需求、购物爱好者和旅游爱好者即为要识别的属性标签。
在一种实施方式中,当待识别信息为待识别文本时,第一特征信息包括特征词,步骤S101中,在接收到目标对象关联的待识别信息后,确定待识别信息中包含的第一特征信息集,如图2所示,包括以下具体流程S201~S203:
S201,接收到目标对象输入的待识别文本后,对待识别文本进行分词处理得到多个词单元;
S202,基于预设常用词对多个词单元进行过滤,得到特征词,按照所述待识别文本中各个特征词出现的位置关系,将各个特征词进行排列后构成待识别文本的第一特征信息集。
这里的目标对象即可以为待进行属性标签识别的用户,比如用户在网站上输入的待识别文本为“在上海的A商场或B商场购买商品C产品”,首先可以通过分词器对该待识别文本进行分词处理,得到“在”、“上海”、“的”、“A商场”、“或”、“B商场”、“购买”、“商品C”、“产品”这几个词单元,这里的“商品C”可以为某种具有某种特征的商品,比如价格昂贵的商品。
然后基于常用词字典对这些词单元进行过滤,比如去除掉“在”、“的”、“或”和“产品”这样的没有实际意义的常用词后,得到五个特征词,分别为:“上海”、“A商场”、“B商场”、“购买”和“商品C”,然后按照待识别文本“在上海的A商场或B商场购买商品C产品”中这五个特征词出现的位置关系,将这五个特征词进行排列后构成该待识别文本的第一特征信息集,即“上海、A商场、B商场、购买、商品C”。
另外,这里在得到第一特征信息集后,还可以提取第一特征信息集“上海、A商场、B商场、购买、商品C”中特征词的数量,该数量为5,即确定这里第一特征信息集的第一特征信息个数为5。
在另一种实施方式中,当待识别信息包括待识别图像时,第一特征信息包括灰度值,步骤S101中,在接收到待识别信息后,确定待识别信息中包含的第一特征信息集,如图3所示,包括以下流程S301~S303:
S301,接收到待识别图像后,若待识别图像为彩色图像,将彩色图像转换为灰度图像;
S302,按照设定行和列对灰度图像进行分割,得到多个灰度子图像,并确定每个灰度子图像的灰度值;
S303,按照每个灰度子图像在灰度图像中的位置信息,对各个灰度子图像的灰度值进行排列后,构成第一特征信息集。
这里的待识别图像可以为人物图像也可以为物品图像,若接收到的待识别图像为彩色图像,首先对将该彩色图像转换为灰度图像,若接收到的待识别图像为灰度图像,步骤S301不需要执行。
这里按照设定行和列对灰度图像进行分割,是指将该灰度图像分割成大小相同的灰度子图像,且每个灰度子图像的尺寸与预存信息库中的存储的图像中各个灰度值对应的灰度子图像的尺寸相同,比如,若预存信息库中存储的某个图像的每个灰度值为尺寸为16*16的灰度子图像的灰度值,则这里的设定行和列即是将灰度图像分割成多个尺寸为16*16的灰度子图像。
比如,某一灰度图像的尺寸为256*256,若预存信息库中存储的各个图像中各个灰度值对应的灰度子图像的尺寸为16*16,则可以将接收到灰度图像分割成16行16列,即得到的每个灰度子图像的尺寸也为16*16,即得到256个灰度子图像,每个灰度子图像包括256个像素点,针对每个灰度子图像,根据计算该灰度子图像中像素点的平均灰度值,确定每个灰度子图像的灰度值,比如其中一个灰度子图像中所有像素点的平均灰度值为225,则该灰度子图像的灰度值即为225。
然后按照每个灰度子图像在灰度图像中的位置信息,对各个灰度子图像的灰度值进行排列,比如将接收到灰度图像分割成M行N列后,灰度图像变成M行N列的灰度子图像,从第二行开始,将每行的灰度子图像中的第一个灰度连接与上一行灰度子图像中的最后一个灰度子图像连接,按照这样排列成一行M*N列的灰度子图像,这里的每个灰度子图像在灰度图像中的位置信息即可以是在灰度图像中的坐标信息,比如,某个灰度子图像的位置为第二行第二列,即其位置信息可以表示为(2,2),则该灰度子图像的后一个灰度子图像的位置信息为(3,2)。
按照上述方式,若灰度图像共有16*16个灰度值,将这些灰度值进行排列,比如上述灰度图像分割成16行16列后,从第2行开始,依次将每行的灰度子图像中的第一个灰度连接与上一行灰度子图像中的最后一个灰度子图像连接,即得到一个1行256列的灰度子图像,对应地,将16*16个灰度值也照样与灰度子图像的排列顺序进行排列,即得到第一特征信息集。
另外,这里在得到第一特征信息集后,还可以提取第一特征信息集的灰度值个数,比如该第一特征信息集中包含256个灰度值,则这里的第一特征信息个数即为256。
S102,在预存信息库中,提取至少一条与第一特征信息匹配的候选信息,组成候选信息集;其中,每条候选信息中包括至少一个第二特征信息组成的第二特征信息集。
这里的预存信息库即为预先建立的信息库,该信息库中存储有多条信息,每条信息均包括至少一个特征信息,这里的特征信息可以为特征词或者灰度值,而且每条信息信息均对应一个属性标签,这里的每条信息对应的属性标签是提前根据该条信息中的特征信息确定并存储的。
这里第一特征信息匹配的候选信息,可以是候选信息中包括至少一个第一特征信息匹配的特征信息,这里第一特征信息匹配的特征信息可以与第一特征信息完全相同,也可以和第一特征信息的类型相同,比如若第一特征信息集中的一个第一特征信息为“C商品”,则第一特征信息匹配的候选信息是指对应的第二特征信息集中包含“C商品”或者包含与“C商品”属于同一类型的商品,比如C商品若为价格高的脸部护肤霜,则与“C商品”属于同一类型的商品还可以是与C商品的价格属于同一价格区间的另一种脸部护肤霜,不一定必须是C商品。
具体地,当待识别信息为待识别文本时,在确定该待识别信息的第一特征信息集后,可以对该第一特征信息集进行向量化,这种情况下预存信息库中的候选信息的第二特征信息集也通过向量形式保存在预存信息库中,这样,因为属于同一类的特征信息对应的特征值可以相同,则在提取候选信息集时,就增加了候选信息集的个数。
具体地,步骤S102中,在预存信息库中,提取至少一条与第一特征信息匹配的候选信息,组成候选信息集,如图4所示,包括以下流程S401~S403:
S401,从第一特征信息集中的任一第一特征信息开始遍历,在预存信息库中查找是否存在包含与当前遍历到的该第一特征信息匹配的特征信息;
S402,若存在,提取存在的特征信息所在的候选信息;
S403,依据提取的各候选信息组成候选信息集。
这里可以从第一特征信息集中的首个第一特征信息开始依次遍历,也可以从第一特征信息集中的最后一个特征信息开始依次遍历,或者从第一特征信息集中的中间任何一个第一特征信息开始按照顺时针遍历或者逆时针遍历,比如针对上述第一特征信息集“上海、A商场、B商场、购买、商品C”,可以从“上海”开始向后依次遍历,也可以从“商品C”向前开始依次遍历,比如从商品C开始,在预存信息库中查找是否存在包含“商品C”匹配的特征信息,若存在,提取该特征信息所在的该候选信息,比如这里“商场C”匹配的特征信息也为“商场C”,则提取“商场C”所在的该候选信息,然后在预存信息库中查找是否存在包含与“购买”匹配的特征信息,这样依次进行,即最终提取出与各个第一特征信息匹配的候选信息,比如按照该方法,“商品C”匹配的候选信息为10条,“购买”匹配的候选信息为15条,“A商场”匹配的候选信息为20条,“B商场”匹配候选信息为15条,“上海”匹配的候选信息为10条,则得到的候选信息集中的候选信息总共包括70条。
另外,若遍历结束后,在预存信息库中未查找到与第一特征信息匹配的特征信息,输出用于指示未查找到候选信息的提示信息。
比如在预存信息库中未找到“上海”、“A商场”、“B商场”、“购买”或“商品C”匹配的特征信息,则说明预存信息库中未存储与该待识别信息相关的信息,此时可以输出用于指示未查找到候选信息的提示信息,比如可以进行语音提示或者进行通过显示屏进行显示,然后由工作人员进行后续处理。
S103,根据第一特征信息集的第一特征信息个数、第二特征信息集的第二特征信息个数、在第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在第一特征信息集和第二特征信息集中的位置信息,确定待识别信息与候选信息集中每个候选信息的相似度。
当待识别信息为待识别文本时,针对候选信息集中的任一候选信息,在确定待识别信息与该任一候选信息的相似度时,先比较该待识别信息对应的第一特征信息集中特征词的数量和该任一候选信息对应的第二特征信息集中特征词的数量,若第一特征信息集中特征词的数量少于第二特征信息集中特征词的数量,则根据第一特征信息集中每个特征信息分别在第一特征信息集和第二特征信息集中的位置信息、第一特征信息集中特征词的数量和第二特征信息集中特征词的数量,确定待识别信息与候选信息集中每个候选信息的相似度。
若第二特征信息集中特征词的数量少于第一特征信息集中特征词的数量,则根据第二特征信息集中每个特征信息分别在第一特征信息集和第二特征信息集中的位置信息、第一特征信息集中特征词的数量和第二特征信息集中特征词的数量,确定待识别信息与候选信息集中每个候选信息的相似度。
具体地,步骤S103中,根据第一特征信息集的第一特征信息个数、第二特征信息集的第二特征信息个数、在第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在第一特征信息集和第二特征信息集中的位置信息,确定待识别信息与候选信息集中每个候选信息的相似度,如图5所示,具体包括以下流程S501~S504:
S501,针对每个候选信息,基于第一特征信息个数和候选信息的第二特征信息个数,选择待识别信息和候选信息中对应的特征信息个数少的作为第一比较信息,选择待识别信息和候选信息中对应的特征信息个数多的作为第二比较信息。
比如候选信息集中包括70条候选信息,以候选信息为第1条候选信息为例,若待识别信息为待识别文本,这里的第1条候选信息中的第二特征信息集的第二特征信息个数即为第二特征信息集中特征词的数量,若待识别信息为图像,这里的第1条候选信息中的第二特征信息集的第二特征信息个数即为第二特征信息集中灰度值的数量。
这里的第一特征信息个数即为第一特征信息集中特征词的数量,若这里第一特征信息集中特征词的数量少于第二特征信息集中特征词的数量,则将第一比较信息即为待识别信息,第二比较信息即第1条候选信息;若这里第二特征信息集中特征词的数量少于第一特征信息集中特征词的数量,则将第一比较信息即为第1条候选信息,第二比较信息即待识别信息。
S502,从第一比较信息对应的第三特征信息集中任一第三特征信息开始依次遍历,若从第二比较信息对应的第四特征信息集中,存在与连续遍历的第三特征信息组成的特征信息串相匹配的特征信息,确定由至少一个特征信息组成的特征信息串集。
若这里的第一比较信息为待识别信息,则这里的第三特征信息集就是上述提到的第一特征信息集,这里的第二比较信息对应的第四特征信息集即为上述提到的第二特征信息集。
比如,第一特征信息集即上述提到的“上海、A商场、B商场、购买、商品C”时,若从“上海”开始正向开始依次遍历,且从第二特征信息集中,能够连续找到“上海”和“A商场”各自匹配的特征信息,但是未找到“B商场”匹配的特征信息,而又能够连续找到“购买”和“商品C”各自匹配的特征信息,则该第一特征信息集包括两个特征信息串,分别是“上海、A商场”和“购买、商品C”,即得到的特征信息串集包括“上海、A商场”和“购买、商品C”。
具体地,如图6所示,可以根据以下步骤获取特征信息串,具体包括S601~S603:
S601,从第一比较信息对应的第三特征信息集中的任一第三特征信息开始依次遍历;
S602,判断在第四特征信息集中是否连续存在与遍历到的第三特征信息匹配的特征信息;
S603,若是,在第三特征信息集中,提取连续的第三特征信息作为特征信息串,该连续的第三特征信息所匹配的特征信息包含在第四特征信息集中。
这里若第一比较信息为待识别信息时,以第三特征信息集为“上海、A商场、B商场、购买、商品C”进行举例,若任一第三特征信息为“上海”。
判断第四特征信息集中是否包含“上海”匹配的特征信息,若是,继续判断第四特征信息集中是否包含“A商场”匹配的特征信息,然后继续判断第四特征信息集中是否包含“B商场”、“购买”和“商品C”,比如第四特征信息集中连续存在“B商场”、“购买”和“商品C”,则在第三特征信息集中,将连续的第三特征信息“B商场、购买、商品C”作为特征信息串。
再比如,在对第三特征信息集的第三特征信息进行依次遍历过程中,确定第四特征信息集中包含“上海”、“A商场”匹配的特征信息、不包含“B商场”匹配的特征信息,则得到第一个特征信息串为“上海、A商场”,同样若第四特征信息集包含“购买”、“商品C”匹配的特征信息,即得到第二个特征信息串“购买、商品C”。
S503,针对每一特征信息串,根据该特征信息串的首个第三特征信息在第三特征信息集中的位置、与首个第三特征信息相匹配的特征信息在第四特征信息集中的位置、最后一个第三特征信息在第三特征信息集中的位置、第三特征信息集的第三特征信息个数以及第四特征信息集的第四特征信息个数,确定该特征信息串与第四特征信息集的相似度。
具体地,这里特征信息串的首个第三特征信息在第三特征信息集中的位置可以该第三特征信息在第三特征信息集中的遍历位置,比如从第三特征信息集中的第1个第三特征信息开始进行依次遍历,若某个特征信息串的首个第三特征信息是第三特征信息集中第3个遍历到的第三特征信息,则这里的“位置”即为3,其中特征信息串的最后一个第三特征信息在第三特征信息集中的位置中的“位置”同样可以是该第三特征信息在第三特征信息集中的遍历位置;特征信息串的首个第三特征信息相匹配的特征信息在第四特征信息集中的位置也可以是该首个第三特征信息相匹配的特征信息在第四特征信息集中的遍历位置。
特别地,第三特征信息集的遍历顺序应与第四特征信息集中的遍历顺序一致,即同为顺序或倒序。
具体地,可以按照以下公式(1)确定特征信息串集中,每个特征信息串与第四特征信息集的相似度:
其中,si表示特征信息串集中第i个特征信息串与第四特征信息集的相似度;posB(i)表示第i个特征信息串中首个第三特征信息在第三特征信息集中的遍历位置;posA(i)表示第i个特征信息串中与首个第三特征信息相匹配的特征信息在第四特征信息集中的位置;endpoint(i)表示第i个特征信息串中最后一个第三特征信息在第三特征信息集中的位置;LB表示第三特征信息集的第三特征信息个数,LA表示第四特征信息集的第四特征信息个数。
比如在确定待识别信息和其中一条候选信息的相似度时,若待识别信息对应的第一特征信息集的第一特征信息个数小于该候选信息的第二特征信息个数时,若根据上述步骤S601~S603确定出第一特征信息集的特征信息串集包括5条特征信息串,针对上述公式(1)即可以求出s1~s5,下面针对s1的求解过程进行说明,即第1条特征信息串与第四特征信息集(第二特征信息集)的相似度的求解过程:
若第1条特征信息串中包括6个第三特征信息(第一特征信息),则endpoint(1)表示该第1特征信息串中第6个第三特征信息在第三特征信息集中的位置,posB(1)表示该第1特征信息串中第1个第三特征信息在第三特征信息集中的位置,posA(1)表示该第1特征信息串中第1个第三特征信息在第四特征信息集中的位置,这里posA(1)的值可能包括不止1个,比如当第1特征信息串中第1个第三特征信息为“上海”,若该第三特征信息“上海”在第四特征信息集中出现两次,则posA(1)的值包括两个,对应的s1也包括两个,这样上述特征信息串集与第四特征信息集的相似度个数则至少包括6个,若其他特征信息串中第1个第三特征信息在第四特征信息集中也出现多次,则上述特征信息串集与第四特征信息集的相似度个数对应增加。
S504,在特征信息串集中每一特征信息串与第四特征信息集的相似度中,选择最大相似度作为待识别信息与候选信息的相似度。
如上述提到的若特征信息串集包括6个特征信息串时,且每条特征信息串中的第1个第三特征信息在第四特征信息集中只出现1次时,相似度集中包括6个相似度。
比如候选信息为候选信息集中的第1个候选信息,若待识别信息与第1个候选信息进行相似度计算过程中,待识别信息的第一特征信息个数小于第1个候选信息的第二特征信息个数,且得到的相似度集si={s1,s2,s3,s4,s5,s6}中的6个相似度中第3个相似度s3最大,则待识别信息与第1个候选信息的相似度为s3,按照这样的方法,可以得到待识别信息与其他候选信息的相似度,若候选信息集中包括10条候选信息,则可以得到待识别信息分别与这10条候选信息的相似度。
可见,本申请实施例在确定待识别信息与候选信息的相似度时,只需要简单的判断第四特征信息集中是否包含特征信息数量少的第三特征信息集中的第三特征信息,得到特征信息串,然后根据特征信息串中首个第三特征信息和最后一个第三特征信息分别在第三特征信息集中的位置、首个第三特征信息在第四特征信息集中的位置、第三特征信息集中第三特征信息的个数以及第四特征信息集中第四特征信息集的个数,即可以根据上述公式(1)确定第三特征信息集和第四特征信息集的相似度,提高了相似度的确定效率。
S104,根据确定的相似度和候选信息在预存信息库中的属性标签,确定待识别信息对应的属性标签。
在预存信息库中,每条候选信息均有其对应的属性标签,比如有的候选信息的属性标签为价格敏感性、有的候选信息的属性标签为产品高需求、有的候选信息的属性标签为购物爱好者、有的候选信息的属性标签为旅游爱好者,则可以根据确定的待识别信息与候选信息的相似度,以及候选信息在预选信息库中的属性标签,确定出待识别信息对应的属性标签。
具体地,步骤S104中,根据确定的相似度和候选信息在预存信息库中的属性标签,确定待识别信息对应的属性标签,如图7所示,具体包括以下流程S701~S704:
S701,在候选信息集中,判断是否存在与待识别信息的相似度大于预设阈值的第一候选信息;
S702,若存在,基于各第一候选信息与待识别信息的相似度的大小顺序对第一候选信息进行排序,并执行步骤S704。
S703,若不存在,输出用于指示未查找到第一候选信息的提示信息。
S704,按照预设属性标签配置策略、排序后的第一候选信息以及各第一候选信息的属性标签,确定待识别信息对应的属性标签。
这里的预设阈值可以是根据提前要求的精确度设置的,比如可以0.8,在上述例子中,若候选信息集中包括10条候选信息,则可以得到待识别信息与这10条候选信息的相似度中,判断是否有大于0.8的相似度。
若有8个相似度大于0.8,则可以将这8个相似度按照大小顺序进行排序,即得到8条与待识别信息的相似度大于0.8的第一候选信息,且得到的8条与待识别信息的相似度大于0.8的第一候选信息的属性标签可能包括多种。
若这里的预设属性标签策略为确定该待识别信息最符合的1个属性标签,则选择与待识别信息的相似度最高的第一候选信息的属性标签作为该待识别信息的属性标签,若待识别信息为用户输入的待识别文本,当该第一候选信息的属性标签为产品高需求时,则可以确定待识别信息对应的属性标签为产品高需求,即输入该待识别信息的用户为对产品有高需求的用户。
若待识别信息为用户输入的图像时,当该候选信息的属性标签为编号1001,比如应用于某小区的安保管理中,若该候选信息的属性标签为“1001”,则可以确定待识别文本对应的属性标签为“1001”。
若上述的预设属性标签策略为确定该待识别信息最符合的三类属性标签,则可以在每种属性标签对应的第一候选信息中,选择与待识别信息的相似度最高的第一候选信息,然后再在这些与待识别信息的相似度最高的第一候选信息中,选择相似度排序前三的第一候选信息的属性标签作为该待识别信息的属性标签,比如这三类属性标签分别为价格敏感性、高品质需求和购物爱好者,则可以确定该待识别信息对应的用户的属性标签为价格敏感性、高品质需求和购物爱好者。
上述根据确定的相似度和候选信息在预存信息库中的属性标签,确定待识别信息对应的属性标签的过程,因为相似度的确定效率提高了,故相应地也提高了确定识别信息对应的属性标签的效率。
基于同一申请构思,本申请实施例中还提供了与信息识别方法对应的信息识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述信息识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本申请实施例提供了一种信息识别装置800,如图8所示,包括:
接收模块801,用于在接收到待识别信息后,确定待识别信息中包含的第一特征信息集,第一特征信息集包含至少一个第一特征信息,并将第一特征信息集传输至提取模块和第一确定模块;
提取模块802,用于在预存信息库中,提取至少一条与所述第一特征信息匹配的候选信息,组成候选信息集,其中,每条候选信息中包括至少一个第二特征信息组成的第二特征信息集,并将候选信息集传输至第一确定模块;
第一确定模块803,用于根据第一特征信息集的第一特征信息个数、第二特征信息集的第二特征信息个数、在第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在第一特征信息集和第二特征信息集中的位置信息,确定待识别信息与所述候选信息集中每个候选信息的相似度,并将相似度传输至第二确定模块;
第二确定模块804,用于根据确定的相似度和候选信息在预存信息库中的属性标签,确定待识别信息对应的属性标签。
在一些实施方式中,待识别信息包括待识别文本,第一特征信息包括特征词,接收模块801,具体用于:
接收到目标对象输入的待识别文本后,对待识别文本进行分词处理得到多个词单元;
基于预设常用词对多个词单元进行过滤,得到特征词,按照所述待识别文本中各个特征词出现的位置关系,将各个特征词进行排列后构成待识别文本的第一特征信息集。
在一些实施方式中,待识别信息包括待识别图像,第一特征信息包括灰度值,接收模块801,具体用于:
接收到待识别图像后,若待识别图像为彩色图像,将彩色图像转换为灰度图像;
按照设定行和列对灰度图像进行分割,得到多个灰度子图像,并确定每个灰度子图像的灰度值;
按照每个灰度子图像在灰度图像中的位置信息,对各个灰度子图像的灰度值进行排列后,构成第一特征信息集。
在一些实施方式中,提取模块802,具体用于:
从第一特征信息集中的任一第一特征信息开始遍历,在预存信息库中查找是否存在包含与当前遍历到的该第一特征信息匹配的特征信息;
若存在,提取存在的特征信息所在的候选信息,依据提取的各候选信息组成候选信息集;
若遍历结束后,在所述预测信息库中未查找到与第一特征信息匹配的特征信息,输出用于指示未查找到候选信息的提示信息。
在一些实施方式中,第一确定模块803,具体用于:
针对每个候选信息,基于第一特征信息个数和候选信息的第二特征信息个数,选择待识别信息和候选信息中对应的特征信息个数少作为第一比较信息,选择待识别信息和候选信息中对应的特征信息个数多的作为第二比较信息;
从第一比较信息对应的第三特征信息集中任一第三特征信息开始依次遍历,若从第二比较信息对应的第四特征信息集中,存在与连续遍历的第三特征信息组成的特征信息串相匹配的特征信息,确定由至少一个特征信息串组成的特征信息串集;
针对每一特征信息串,根据该特征信息串的首个第三特征信息在第三特征信息集中的位置、与首个第三特征信息相匹配的特征信息在第四特征信息集中的位置、最后一个第三特征信息在第三特征信息集中的位置、第三特征信息集的特征信息个数以及第四特征信息集的特征信息个数,确定该特征信息串与第四特征信息集的相似度;
在特征信息串集中每一特征信息串与第四特征信息集的相似度中,选择最大相似度作为待识别信息与候选信息的相似度。
在一些实施方式中,第一确定模块803,具体用于:
从第一比较信息对应的第三特征信息集中的任一第三特征信息开始依次遍历;
判断在第四特征信息集中是否连续存在与遍历到的第三特征信息匹配的特征信息;
若是,在第三特征信息集中,提取连续的第三特征信息作为特征信息串,该连续的第三特征信息所匹配的特征信息包含在所述第四特征信息集中。
在一些实施方式中,第一确定模块803,具体按照以下公式确定特征信息串集中,每个特征信息串与第四特征信息集的相似度:
其中,si表示特征信息串集中第i个特征信息串与第四特征信息集的相似度;posB(i)表示第i个特征信息串中首个第三特征信息在第三特征信息集中的位置;posA(i)表示第i个特征信息串中与首个第三特征信息相匹配的特征信息在第四特征信息集中的位置;endpoint(i)表示第i个特征信息串中最后一个第三特征信息在第三特征信息集中的位置;LB表示第三特征信息集的第三特征信息个数,LA第四特征信息集的第四特征信息个数。
在一些实施方式中,第二确定模块804,具体用于:
在候选信息集中,判断是否存在与待识别信息的相似度大于预设阈值的第一候选信息;
若存在,基于各第一候选信息与待识别信息的相似度的大小顺序对第一候选信息进行排序;按照预设属性标签配置策略、排序后的第一候选信息以及各第一候选信息的属性标签,确定待识别信息对应的属性标签;
若不存在,输出用于指示未查找到所述第一候选信息的提示信息。
本申请实施例还提供了一种计算机设备9,如图9所示,为本申请实施例提供的计算机设备900结构示意图,包括:处理器901、存储器902和总线903。存储器902存储有所述处理器901可执行的机器可读指令(比如,图8中的信息识别装置中接收模块801、提取模块802、第一确定模块803和第二确定模块804对应的执行指令等),当计算机设备900运行时,处理器901与存储器902之间通过总线903通信,机器可读指令被处理器901执行时执行如下处理:
在接收到待识别信息后,确定待识别信息中包含的第一特征信息集,第一特征信息集包含至少一个第一特征信息;
在预存信息库中,提取至少一条与第一特征信息匹配的候选信息,组成候选信息集;其中,每条候选信息中包括至少一个第二特征信息组成的第二特征信息集;
根据第一特征信息集的第一特征信息个数、第二特征信息集的第二特征信息个数、在第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在第一特征信息集和第二特征信息集中的位置信息,确定待识别信息与候选信息集中每个候选信息的相似度;
根据确定的相似度和候选信息在预存信息库中的属性标签,确定待识别信息对应的属性标签。
一种可能的实施方式中,待识别信息包括待识别文本,第一特征信息包括特征词,处理器901执行的指令中,具体包括:
接收到目标对象输入的待识别文本后,对待识别文本进行分词处理得到多个词单元;
基于预设常用词对多个词单元进行过滤,得到特征词,按照所述待识别文本中各个特征词出现的位置关系,将各个特征词进行排列后构成待识别文本的第一特征信息集。
一种可能的实施方式中,待识别信息包括待识别图像,第一特征信息包括灰度值,处理器901执行的指令中,具体包括:
接收到待识别图像后,若待识别图像为彩色图像,将彩色图像转换为灰度图像;
按照设定行和列对灰度图像进行分割,得到多个灰度子图像,并确定每个灰度子图像的灰度值;
按照每个灰度子图像在所述灰度图像中的位置信息,对各个灰度子图像的灰度值进行排列后,构成所述第一特征信息集。
一种可能的实施方式中,处理器901执行的指令中,具体包括:
从第一特征信息集中的任一第一特征信息开始遍历,在预存信息库中查找是否存在包含与当前遍历到的该第一特征信息匹配的特征信息;
若存在,提取存在的特征信息所在的候选信息;
依据提取的各候选信息组成候选信息集。
一种可能的实施方式中,处理器901执行的指令中,还包括:
若遍历结束后,在预存信息库中未查找到包含第一特征信息匹配的特征信息,输出用于指示未查找到候选信息的提示信息。
一种可能的实施方式中,处理器901执行的指令中,具体包括:
针对每个候选信息,基于第一特征信息个数和候选信息的第二特征信息个数,选择待识别信息和候选信息中对应的特征信息个数少的作为第一比较信息,选择待识别信息和所述候选信息中对应的特征信息个数多的作为第二比较信息;
从第一比较信息对应的第三特征信息集中任一第三特征信息开始依次遍历,若从第二比较信息对应的第四特征信息集中,存在与连续遍历的第三特征信息组成的特征信息串相匹配的特征信息,确定由至少一个特征信息串组成的特征信息串集;
针对每一特征信息串,根据该特征信息串的首个第三特征信息在第三特征信息集中的位置、与首个第三特征信息相匹配的特征信息在第四特征信息集中的位置、最后一个第三特征信息在第三特征信息集中的位置、第三特征信息集的第三特征信息个数以及第四特征信息集的第四特征信息个数,确定该特征信息串与第四特征信息集的相似度;
在特征信息串集中每一特征信息串与第四特征信息集的相似度中,选择最大相似度作为待识别信息与候选信息的相似度。
一种可能的实施方式中,处理器901执行的指令中,具体包括:
从第一比较信息对应的第三特征信息集中的任一第三特征信息开始依次遍历;
判断在第四特征信息集中是否连续存在与遍历到的第三特征信息匹配的特征信息;
若是,在第三特征信息集中,提取连续的第三特征信息作为特征信息串,该连续的第三特征信息所匹配的特征信息包含在第四特征信息集中。
一种可能的实施方式中,处理器901执行的指令中,按照以下公式确定特征信息串集中,每个特征信息串与第四特征信息集的相似度:
其中,si表示特征信息串集中第i个特征信息串与第四特征信息集的相似度;posB(i)表示第i个特征信息串中首个第三特征信息在第三特征信息集中的位置;posA(i)表示第i个特征信息串中与首个第三特征信息相匹配的特征信息在第四特征信息集中的位置;endpoint(i)表示第i个特征信息串中最后一个第三特征信息在第三特征信息集中的位置;LB表示第三特征信息集的第三特征信息个数,LA第四特征信息集的第四特征信息个数。
一种可能的实施方式中,处理器901执行的指令中,具体包括:
在候选信息集中,判断是否存在与待识别信息的相似度大于预设阈值的第一候选信息;
若存在,提取各第一候选信息与待识别信息的相似度的大小顺序对第一候选信息进行排序;
按照预设属性标签配置策略、排序后的第一候选信息以及各第一候选信息的属性标签,确定待识别信息对应的属性标签。
一种可能的实施方式中,处理器901执行的指令中,还包括:
在候选信息集中,若不存在与待识别信息的相似度大于预设阈值的第一候选信息,输出用于指示未查找到所述第一候选信息的提示信息。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述信息识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述信息识别方法,从而解决现有技术中在基于相似度对目标用户进行识别时,存在识别效率低的问题,进而达到提高对目标对象的属性标签的识别效率的效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理,即可以位于一个地方,或者也可以分布到多个网络上。可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能可以集成在一个处理中,也可以是各个单独物理存在,也可以两个或两个以上集成在一个中。
所述功能如果以软件功能的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种信息识别装置,其特征在于,包括:
接收模块,用于在接收到待识别信息后,确定所述待识别信息中包含的第一特征信息集,所述第一特征信息集包含至少一个第一特征信息,并将所述第一特征信息集传输至提取模块和第一确定模块;
所述提取模块,用于在预存信息库中,提取至少一条与所述第一特征信息匹配的候选信息,组成候选信息集,其中,每条所述候选信息包括至少一个第二特征信息组成的第二特征信息集,并将所述候选信息集传输至所述第一确定模块;
第一确定模块,用于根据所述第一特征信息集的第一特征信息个数、所述第二特征信息集的第二特征信息个数、在所述第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在所述第一特征信息集和所述第二特征信息集中的位置信息,确定所述待识别信息与所述候选信息集中每个候选信息的相似度,并将所述相似度传输至第二确定模块;
第二确定模块,用于根据确定的相似度和所述候选信息在所述预存信息库中的属性标签,确定所述待识别信息对应的属性标签。
2.根据权利要求1所述的信息识别装置,其特征在于,所述待识别信息包括待识别文本,所述第一特征信息包括特征词,所述接收模块,具体用于:
接收到目标对象输入的待识别文本后,对所述待识别文本进行分词处理得到多个词单元;
基于预设常用词对多个所述词单元进行过滤,得到所述特征词,按照所述待识别文本中各个特征词出现的位置关系,将各个特征词进行排列后构成所述待识别文本的第一特征信息集。
3.根据权利要求1所述的信息识别装置,其特征在于,所述待识别信息包括待识别图像,所述第一特征信息包括灰度值;所述接收模块,具体用于:
接收到所述待识别图像后,若所述待识别图像为彩色图像,将所述彩色图像转换为灰度图像;
按照设定行和列对所述灰度图像进行分割,得到多个灰度子图像,并确定每个灰度子图像的灰度值;
按照每个灰度子图像在所述灰度图像中的位置信息,对各个灰度子图像的灰度值进行排列后,构成所述第一特征信息集。
4.根据权利要求1所述的信息识别装置,其特征在于,所述提取模块,具体用于:
从所述第一特征信息集中的任一第一特征信息开始遍历,在所述预存信息库中查找是否存在包含与当前遍历到的该第一特征信息匹配的特征信息;
若存在,提取存在的所述特征信息所在的候选信息,依据提取的各候选信息组成所述候选信息集;
若遍历结束后,在所述预存信息库中未查找到与所述第一特征信息匹配的特征信息,输出用于指示未查找到候选信息的提示信息。
5.根据权利要求1所述的信息识别装置,其特征在于,所述第一确定模块,具体用于:
针对每个候选信息,基于所述第一特征信息个数和所述候选信息的第二特征信息个数,选择所述待识别信息和所述候选信息中对应的特征信息个数少的作为第一比较信息,选择所述待识别信息和所述候选信息中对应的特征信息个数多的作为第二比较信息;
从所述第一比较信息对应的第三特征信息集中任一第三特征信息开始依次遍历,若从所述第二比较信息对应的第四特征信息集中,存在与连续遍历的第三特征信息组成的特征信息串匹配的特征信息,确定由至少一个所述特征信息串组成的特征信息串集;
针对每一特征信息串,根据该特征信息串的首个第三特征信息在所述第三特征信息集中的位置、与所述首个第三特征信息相匹配的特征信息在所述第四特征信息集中的位置、最后一个第三特征信息在所述第三特征信息集中的位置、所述第三特征信息集的第三特征信息个数以及所述第四特征信息集的第四特征信息个数,确定该特征信息串与第四特征信息集的相似度;
在所述特征信息串集中每一特征信息串与第四特征信息集的相似度中,选择最大相似度作为所述待识别信息与所述候选信息的相似度。
6.根据权利要求5所述的信息识别装置,其特征在于,所述第一确定模块,具体用于:
从所述第一比较信息对应的第三特征信息集中的任一第三特征信息开始依次遍历;
判断在所述第四特征信息集中是否连续存在与遍历到的第三特征信息匹配的特征信息;
若是,在所述第三特征信息集中,提取连续的第三特征信息作为所述特征信息串,该连续的第三特征信息所匹配的特征信息包含在所述第四特征信息集中。
7.根据权利要求1所述的信息识别装置,其特征在于,所述第二确定模块,具体用于:
在所述候选信息集中,判断是否存在与所述待识别信息的相似度大于预设阈值的第一候选信息;
若存在,基于各第一候选信息与所述待识别信息的相似度的大小顺序对所述第一候选信息进行排序;按照预设属性标签配置策略、排序后的第一候选信息以及各第一候选信息的属性标签,确定所述待识别信息对应的属性标签;
若不存在,输出用于指示未查找到所述第一候选信息的提示信息。
8.一种信息识别方法,其特征在于,包括:
在接收到待识别信息后,确定所述待识别信息中包含的第一特征信息集,所述第一特征信息集包含至少一个第一特征信息;
在预存信息库中,提取至少一条与所述第一特征信息匹配的候选信息,组成候选信息集;其中,每条所述候选信息包括至少一个第二特征信息组成的第二特征信息集;
根据所述第一特征信息集的第一特征信息个数、所述第二特征信息集的第二特征信息个数、在所述第一特征信息集和第二特征信息集中,特征信息个数少的特征信息集中的每个特征信息分别在所述第一特征信息集和所述第二特征信息集中的位置信息,确定所述待识别信息与所述候选信息集中每个候选信息的相似度;
根据确定的相似度和所述候选信息在所述预存信息库中的属性标签,确定所述待识别信息对应的属性标签。
9.一种计算机设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求8所述信息识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求8所述信息识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910277264.4A CN111860549B (zh) | 2019-04-08 | 2019-04-08 | 信息识别装置、方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910277264.4A CN111860549B (zh) | 2019-04-08 | 2019-04-08 | 信息识别装置、方法、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860549A CN111860549A (zh) | 2020-10-30 |
CN111860549B true CN111860549B (zh) | 2024-02-20 |
Family
ID=72951965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910277264.4A Active CN111860549B (zh) | 2019-04-08 | 2019-04-08 | 信息识别装置、方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860549B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815226A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 文本匹配方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4808736B2 (ja) * | 2006-02-01 | 2011-11-02 | パナソニック株式会社 | 情報分類装置および情報検索装置 |
CN103077714B (zh) * | 2013-01-29 | 2015-07-08 | 华为终端有限公司 | 信息的识别方法和装置 |
-
2019
- 2019-04-08 CN CN201910277264.4A patent/CN111860549B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815226A (zh) * | 2015-11-27 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 文本匹配方法和装置 |
Non-Patent Citations (1)
Title |
---|
一种基于新型标签识别的购物导航***;丁伟利;李勇;高晓阳;朱波;;光电工程(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860549A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472090B (zh) | 基于语义标签的图像检索方法以及相关装置、存储介质 | |
US10692133B2 (en) | Color estimation device, color estimation method, and color estimation program | |
Perez et al. | Gender classification from face images using mutual information and feature fusion | |
CN107784321B (zh) | 数字绘本快速识别方法、***及计算机可读存储介质 | |
CN111461164B (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN113449725B (zh) | 对象分类方法、装置、设备及存储介质 | |
KR101896404B1 (ko) | 컴퓨터 비전을 이용한 상품 추천 시스템 | |
CN104252628B (zh) | 人脸图像标注方法和*** | |
US10635942B2 (en) | Method and apparatus for identifying a product | |
US10706658B2 (en) | Vending machine recognition apparatus, vending machine recognition method, and recording medium | |
CN113223013B (zh) | 一种肺血管分段定位的方法、装置、设备及存储介质 | |
CN103678460B (zh) | 用于识别适于在多语言环境中进行通信的非文本元素的方法和*** | |
CN112330383A (zh) | 用于基于可视元素的物品推荐的设备及方法 | |
CN109389115A (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
CN115293332A (zh) | 一种图神经网络的训练方法、装置、设备及存储介质 | |
CN113935774A (zh) | 图像处理方法、装置、电子设备及计算机存储介质 | |
CN111614959B (zh) | 一种视频打码方法、装置以及电子设备 | |
CN113569070B (zh) | 图像检测方法和装置、电子设备、存储介质 | |
CN102855635A (zh) | 确定人体动作周期及识别人体动作的方法和装置 | |
CN109635810B (zh) | 一种确定文本信息的方法、装置、设备及存储介质 | |
WO2021169207A1 (zh) | 基于机器学习的物品识别方法及装置 | |
CN111860549B (zh) | 信息识别装置、方法、计算机设备及存储介质 | |
CN113110782B (zh) | 图像的识别方法、装置、计算机设备及存储介质 | |
US20230177251A1 (en) | Method, device, and system for analyzing unstructured document | |
US8423552B2 (en) | Method of calculating connectivity of N-dimensional space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |