CN109299439B - 数字提取方法和装置、存储介质及电子装置 - Google Patents
数字提取方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN109299439B CN109299439B CN201810961840.2A CN201810961840A CN109299439B CN 109299439 B CN109299439 B CN 109299439B CN 201810961840 A CN201810961840 A CN 201810961840A CN 109299439 B CN109299439 B CN 109299439B
- Authority
- CN
- China
- Prior art keywords
- instruction
- target
- word segmentation
- participle
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种数字提取方法和装置、存储介质及电子装置。其中,该方法包括:获取与输入的查询指令相匹配的指令文本;对指令文本执行分词标注处理,得到指令分词集合,其中,指令分词集合中的每一个指令分词分别配置有词性标签;根据词性标签从指令分词集合中确定出目标指令分词,其中,目标指令分词中包含有效数字信息;根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字,其中,目标数字为允许机器识别的数字。本发明解决了相关技术中数字提取准确性低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种数字提取方法和装置、存储介质及电子装置。
背景技术
在用户向硬件设备输入的指令中,常常会携带一些数字信息,如包含用于表示货币、时间、长度、距离等数字词语的信息。为了方便硬件设备对上述数字信息中所携带的数字执行相应的机器处理操作,往往需要先从指令中提取出上述数字。
目前,硬件设备在获取到指令对应的指令文本之后,常用的提取方式为:利用正则匹配公式对指令文本进行简单匹配,以提取出指令文本中数字信息所携带的数字。然而,在指令文本中常常会出现特殊数字,如无意义的汉字数字或汉字数字和***数字被混合使用的复合数字。针对上述特殊数字,若继续采用相关技术所采用的数字提取方法,将导致数字提取的准确性低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数字提取方法和装置、存储介质及电子装置,以至少解决相关技术中数字提取准确性低的技术问题。
根据本发明实施例的一个方面,提供了一种数字提取方法,包括:获取与输入的查询指令相匹配的指令文本;对上述指令文本执行分词标注处理,得到指令分词集合,其中,上述指令分词集合中的每一个指令分词分别配置有词性标签;根据上述词性标签从上述指令分词集合中确定出目标指令分词,其中,上述目标指令分词中包含有效数字信息;根据上述指令分词集合中所包含的上述目标指令分词之间的位置关系,从上述指令文本中提取出与上述有效数字信息匹配的目标数字,其中,上述目标数字为允许机器识别的数字。
根据本发明实施例的另一方面,还提供了一种数字提取装置,包括:获取单元,用于获取与输入的查询指令相匹配的指令文本;处理单元,用于对上述指令文本执行分词标注处理,得到指令分词集合,其中,上述指令分词集合中的每一个指令分词分别配置有词性标签;确定单元,用于根据上述词性标签从上述指令分词集合中确定出目标指令分词,其中,上述目标指令分词中包含有效数字信息;提取单元,用于根据上述指令分词集合中所包含的上述目标指令分词之间的位置关系,从上述指令文本中提取出与上述有效数字信息匹配的目标数字,其中,上述目标数字为允许机器识别的数字。
作为一种可选的示例,上述提取单元包括:第三提取模块,用于在上述获取上述有效数字信息中所携带的数字的数字格式之后,在上述数字格式均为***数字的情况下,提取上述有效数字信息所携带的数字,作为上述目标数字。
作为一种可选的示例,上述确定单元包括:第三获取模块,用于从上述指令分词集合中,获取上述词性标签指示为数词的指令分词,作为上述目标指令分词,其中,上述词性标签指示为数词的指令分词中包含上述有效数字信息。
作为一种可选的示例,上述获取单元包括以下至少之一:第四获取模块,用于获取语音输入的上述查询指令;识别上述查询指令中所携带的指令信息;根据上述指令信息生成上述指令文本;第五获取模块,用于获取通过输入设备输入的上述查询指令;解析上述查询指令,得到上述指令文本。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数字提取方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的数字提取方法。
在本发明实施例中,采用了获取与输入的查询指令相匹配的指令文本;对指令文本执行分词标注处理,得到指令分词集合;其中,指令分词集合中的每一个指令分词分别配置有词性标签;根据词性标签从指令分词集合中确定出目标指令分词根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字的方法。在上述方法中,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。进而解决了相关技术中数字提取准确性低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数字提取方法的应用环境的示意图;
图2是根据本发明实施例的一种数字提取方法的流程示意图;
图3是根据本发明实施例的一种数字提取方法的示意图;
图4是根据本发明实施例的另一种数字提取方法的示意图;
图5是根据本发明实施例的又一种数字提取方法的示意图;
图6是根据本发明实施例的又一种数字提取方法的示意图;
图7是根据本发明实施例的又一种数字提取方法的示意图;
图8是根据本发明实施例的又一种数字提取方法的示意图;
图9是根据本发明实施例的一种数字提取装置的结构示意图;
图10是根据本发明实施例的一种电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种数字提取方法,可选地,作为一种可选的实施方式,上述数字提取方法可以但不限于应用于如图1所示的环境中。
用户102与用户设备104之间可以进行人机交互。用户设备104包含有存储器106与处理器108。用户设备104可以获取用户输入的查询指令,并根据上述查询指令,获取与上述查询指令匹配的指令文本。在获取到上述指令文本后,用户设备104通过网络将上述指令文本发送给服务器112。服务器112中包含有索引数据库114,分词引擎116与提取引擎118。在服务器112获取到上述指令文本后,可以将上述指令文本存储到索引数据库114中。然后,使用分词引擎116对上述指令文本进行分词,得到分词集合。提取引擎118根据分词集合中的目标指令分词之间的位置关系,提取出目标数字。服务器112返回目标数字给用户设备104。
需要说明的是,相关技术中,由于文本中往往存在无意义的汉字或者复合数字,从而在获取文本中的数字时,所获取到的结果准确度不高。而本实施例中,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。
可选地,上述数字提取方法可以但不限于应用于可以计算数据的终端上,例如、笔记本电脑、PC机、智能手机、智能音箱、智能家居、头戴式设备等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
可选地,作为一种可选的实施方式,如图2所示,上述数字提取方法包括:
S202,获取与输入的查询指令相匹配的指令文本;
S204,对指令文本执行分词标注处理,得到指令分词集合,其中,指令分词集合中的每一个指令分词分别配置有词性标签;
S206,根据词性标签从指令分词集合中确定出目标指令分词,其中,目标指令分词中包含有效数字信息;
S208,根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字,其中,目标数字为允许机器识别的数字。
可选地,作为一种可选的实施方式,上述数字提取方法可以但不限于应用于统计财务报告的过程中,或者应用于土地面积评估的过程中,或者应用于人口普查的过程中。
采用上述方法,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。
可选地,上述获取与输入的查询指令相匹配的指令文本可以但不限于通过以下方式:
(1)在终端的显示界面上显示有输入框,在接收到输入框输入的内容时,将接收到的上述内容作为上述指令文本。
例如,在终端的显示界面上显示有输入框,接收到输入框中输入了“占地面积1000亩”的字样后,将上述“占地面积1000亩”作为指令文本。
(2)接收到携带有指令文本的图片,从上述图片中识别出文字信息,并将识别出的文字信息作为指令文本。
例如,终端接收到携带有“占地面积1000亩”字样的图片,先对图片进行识别,识别出“占地面积1000亩”的字样,并采集上述文字,将采集到的“占地面积1000亩”作为指令文本。
(3)在接收到选定指令后,将被选定的文本作为指令文本。
可选地,上述接收到选定指令可以但不限于为终端的显示界面的按钮被按下,接收到用户输入的语音指令等。
例如,终端的显示界面上可以显示有一个按钮与文字内容。在接收到上述按钮被按下时,将用户选定的文字内容作为指令文本,并执行后续的数字提取过程。
(4)获取到语音输入信息,将获取到的语音输入信息作为指令文本。
例如,接收用户输入的语音输入信息,如“占地面积1000亩”,则将上述获取到的语音信息转换为文本信息,并作为指令文本。
可选地,上述对指令文本执行分词标注处理可以但不限于为将获取到的指令文本拆分成多个单独的字段,并为每一个字段添加词性标签。
可选地,上述为每一个字段添加词性标签可以但不限于为判断每一个字段的词性。在上述词性为名词词性的情况下,为上述字段添加名词词性标签;在上述词性为数词词性的情况下,为上述字段添加数词词性标签;在上述词性为动词词性的情况下,为上述字段添加动词词性标签;在上述词性为形容词词性的情况下,为上述字段添加形容词词性标签;在上述词性为副词词性的情况下,为上述字段添加副词词性标签。在上述词性为字符的情况下,为上述字段添加字符标签。
可选地,每一个字段可以对应一个或者多个词性标签。
可选地,以上述指令文本为“报名考生1千万,录取考生200万。”为例,图3为一种可能的分词结果。在获取到上述指令文本后,对上述指令文本进行分词,得到“报名”、“考生”、“1”、“千万”、“,”、“录取”、“考”、“生”、“200”、“万”、“。”等多个字段。其中,千万包含两个词性标签,为数词或者副词,生同样存在两个词性标签,为动词或者形容词。为上述每个字段添加词性标签,从而可以对上述多个字段进行区分。
可选地,上述根据词性标签从指令分词集合中确定出目标指令分词可以但不限于为:从指令分词集合中,获取词性标签指示为数词的指令分词,作为目标指令分词,其中,词性标签指示为数词的指令分词中包含数字信息。其中,所述数字信息包含有效数字信息与无效数字信息,上述有效数字信息为具有数学意义的数字,例如表示数量的数字,如100万、7000等数字;或者表示年份的数字,如“1998年”中的“1998”,或者用于表示距离的数字,如50公里中的“50”等等。上述无效数字信息用于表示没有数学意义的数字。例如“七上八下”中的“七”和“八”,并没有数学意义。
可选地,上述获取词性标签指示为数词的指令分词,作为目标指令分词可以但不限于在至少一个词性标签为数词词性的情况下,获取与该数词词性对应的指令分词,作为目标指令分词。
例如,继续结合上述指令文本为“报名考生1千万,录取考生200万。”的情况进行说明。在经过如图3所示的分词后,可以得到“1”、“千万”、“200”、“万”四个指令分词,将上述四个指令分词作为目标指令分词并从上述目标指令分词中获取目标数字。
可选地,根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字包括:获取指令分词集合中所包含的全部有效数字信息中所携带的数字的数字格式;在数字格式包含汉字数字的情况下,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式;按照提取模式提取出目标数字。
例如,以指令文本为“万一发生故障,损失将超过1000万元”为例。在将上述指令文本分词并标注词性后,“万一”为无意义的词,不需要提取,而1000后的“万”为有意义的词,需要提取。因此,需要根据目标指令分词之间的位置关系,确定上述汉字数字的提取模式。
可选地,从指令文本中提取出与有效数字信息匹配的目标数字可以采用如下方法:
(1)在指令分词集合中至少两个目标指令分词所在的位置为连续位置,且至少两个目标指令分词中所包含的有效数字信息的数据类型均为整数类型的情况下,确定至少两个目标指令分词的提取模式为组合提取模式;按照组合提取模式,组合至少两个目标指令分词,得到组合指令字段;提取与组合指令字段相匹配的目标数字。
例如,继续以上述指令文本为“若发生故障,损失将超过1000万元”为例。在对上述指令文本进行分词并标注词性后,检测到“1000”、“万”两个目标指令分词的位置为连续位置,则将上述“1000”、“万”组合为“1000万”,并提取,得到目标数字。
(2)在指令分词集合中目标指令分词所在的位置均为离散位置的情况下,确定提取模式为离散提取模式;按照离散提取模式,分别提取指令分词集合中目标指令分词包含的有效数字信息所携带的数字,作为目标数字。
(3)在数字格式均为***数字的情况下,提取有效数字信息所携带的数字,作为目标数字。
可选地,在根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式之前,还包括:获取在指令分词集合中的第一关键分词及第二关键分词,其中,第一关键分词与目标指令分词相邻且位于目标指令分词之前,第二关键分词与目标指令分词相邻且位于目标指令分词之后;将第一关键分词、目标指令分词及第二关键分词组合得到候选字段;调用复合数字模板与候选字段进行比对;在候选字段与复合数字模板匹配的情况下,按照复合数字模板提取目标数字。
可选地,上述符合数字模板可以但不限于为分数模板、百分数模板、小数模板、负数模板等。
以下对上述数字提取方法进行整体说明。如图4所示,图4为一种可选的终端的显示界面的示意图。在终端的显示界面上显示有两个按钮,一个按钮为输入指令文本的输入按钮,在输入按钮被按下后,将采集语音输入信息,并转换为文本信息显示。另一个按钮为提取按钮,在提取按钮被按下后,会将采集到的语音输入信息作为指令文本,并提取指令文本中的目标数字。可选地,在获取指令文本时,可以接收选择指令。将选择的语音输入信息作为指令文本。如图5所示,图5中带有下划线的语音输入信息为被选择的语音输入信息。在检测到提取按钮被按下后,将“盈利超过500万,同比增长百分之十”作为指令文本。
在获取到指令文本后,对上述指令文本进行分词并标注,得到“500”、“万”、“百”、“十”等数字信息,由于“500”、“万”两个数字信息位置相连,因此,将“500”、“万”组合为“500万”并提取,作为目标数字保存。或者将“500万”提取为目标数字后,转换为“5000000”并保存。而百分之十同样为需要提取的目标数字。因此,将百分之十与预先设置的复合数字模板进行比对。预先设置符合数字模板为“**分之**”。与上述百分之十进行比对后,提取上述百分之十作为目标数字。可选地,在提取出上述百分之十之后,可以但不限于进行格式转换,例如转换成小数0.1并进行保存。
通过本实施例,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。
作为一种可选的实施方案,根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字包括:
S1,获取指令分词集合中所包含的全部有效数字信息中所携带的数字的数字格式;
S2,在数字格式包含汉字数字的情况下,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式;
S3,按照提取模式提取出目标数字。
例如,以指令文本为“万一发生故障,损失将超过1000万元”为例,如图6所示,图6为一种可能的对上述指令文本分词并标注的情况。可见,“万”、“一”、“1000”、“万”都被标注为数词。而“万一”并不是有意义的数词,因此,在提取时,并不提取“万一”。
通过本实施例,在指令分词集合中包含汉字数字的情况下,根据指令分词集合中目标指令分词之间的位置关系,确定汉字数字的提取模式,从而提高了提取目标数字的灵活性与准确性。
作为一种可选的实施方案,
S1,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式包括:在指令分词集合中至少两个目标指令分词所在的位置为连续位置,且至少两个目标指令分词中所包含的有效数字信息的数据类型均为整数类型的情况下,确定至少两个目标指令分词的提取模式为组合提取模式;
S2,按照提取模式提取出目标数字包括:按照组合提取模式,组合至少两个目标指令分词,得到组合指令字段;提取与组合指令字段相匹配的目标数字。
例如,继续结合上述指令文本为“万一发生故障,损失将超过1000万元”为例,在对上述指令文本进行分词并标注后,如图7所示,对“1000”、“万”进行提取,并将提取到的“1000”、“万”进行组合,组合得到“1000万”,将“1000万”作为目标数字。
通过本实施例,通过按照组合提取模式,提取指令分词集合中的目标数字,从而可以根据实际情况准确高效地提取指令分词结合中的目标数字,提高了提取目标数字的效率。
作为一种可选的实施方案,
S1,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式包括:在指令分词集合中目标指令分词所在的位置均为离散位置的情况下,确定提取模式为离散提取模式;
S2,按照提取模式提取出目标数字包括:按照离散提取模式,分别提取指令分词集合中目标指令分词包含的有效数字信息所携带的数字,作为目标数字。
例如,以指令为本为“盈利二十点三万元”。由于上述指令文本中的“二十”、“三万”之间并不连续,因此,需要以离散提取模式进行提取,得到目标数据“20.3万”。
通过本实施例,通过按照离散提取模式,提取指令分词集合中的目标数字,从而可以根据实际情况准确高效地提取指令分词结合中的目标数字,提高了提取目标数字的效率。
作为一种可选的实施方案,在根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式之前,还包括:
S1,获取在指令分词集合中的第一关键分词及第二关键分词,其中,第一关键分词与目标指令分词相邻且位于目标指令分词之前,第二关键分词与目标指令分词相邻且位于目标指令分词之后;
S2,将第一关键分词、目标指令分词及第二关键分词组合得到候选字段;
S3,调用复合数字模板与候选字段进行比对;
S4,在候选字段与复合数字模板匹配的情况下,按照复合数字模板提取目标数字。
可选地,上述第一关键词与第二关键词可以但不限于为一些标志性词。例如,可以为用于表示分数、小数、负数等数字的词。
例如,以指令文本为“八分之一的商品被卖出”为例,图8为几种可选的复合数字模板的示意图。将八分之一与上述符合数字模板进行匹配之后,使用“**分之**”的模板提取目标数字,得到八分之一。在得到上述八分之一后,可以将上述八分之一转换为其他格式。
通过本实施例,通过调用符合数字模板提取目标数字,从而可以提取出复杂情况的数字信息,提高了提取目标数字的灵活性与准确性。
作为一种可选的实施方案,在获取有效数字信息中所携带的数字的数字格式之后,还包括:
S1,在数字格式均为***数字的情况下,提取有效数字信息所携带的数字,作为目标数字。
例如,以指令文本为“北纬23度,东经67度”为例,在获取到上述指令文本后,由于上述指令文本中的数字格式均为***数字,因此,可以直接对上述指令文本中的***数字进行提取,得到目标数字。
通过本实施例,通过直接提取***数字,从而可以在数字格式为***数字的情况下,准确高效地提取出目标数字,提高了提取目标数字的效率。
作为一种可选的实施方案,根据词性标签从指令分词集合中确定出目标指令分词包括:
S1,从指令分词集合中,获取词性标签指示为数词的指令分词,作为目标指令分词,其中,词性标签指示为数词的指令分词中包含有效数字信息。
例如,继续结合上述指令文本为“北纬23度,东经67度”的情况进行说明。在对上述“北纬23度,东经67度”进行分词并标注后,得到“23”、“67”的词性为数词。则将上述词性为数词的“23”、“67”提取出来,作为目标数字。
通过本实施例,通过从指令分词集合中获取词性标签为数词的指令分词,作为目标指令分词,从而可以从指令分词集合中提取出目标指令分词,提高了获取目标指令分词的灵活性。
作为一种可选的实施方案,获取与输入的查询指令相匹配的指令文本包括以下至少之一:
(1)获取语音输入的查询指令;识别查询指令中所携带的指令信息;根据指令信息生成指令文本;
(2)获取通过输入设备输入的查询指令;解析查询指令,得到指令文本。
例如,如图4所示,图4为一种可选的终端的显示界面的示意图。在终端的显示界面上显示有两个按钮,一个按钮为输入指令文本的输入按钮,在输入按钮被按下后,将采集语音输入信息,并转换为文本信息显示。另一个按钮为提取按钮,在提取按钮被按下后,会将采集到的语音输入信息作为指令文本,并提取指令文本中的目标数字。可选地,在获取指令文本时,可以接收选择指令。将选择的语音输入信息作为指令文本。如图5所示,图5中带有下划线的语音输入信息为被选择的语音输入信息。在检测到提取按钮被按下后,将“盈利超过500万,同比增长百分之十”作为指令文本。
通过本实施例,通过上述方法任意之一获取指令文本,从而提高了获取指令文本的灵活性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述数字提取方法的数字提取装置。如图9所示,该装置包括:
(1)获取单元902,用于获取与输入的查询指令相匹配的指令文本;
(2)处理单元904,用于对指令文本执行分词标注处理,得到指令分词集合,其中,指令分词集合中的每一个指令分词分别配置有词性标签;
(3)确定单元906,用于根据词性标签从指令分词集合中确定出目标指令分词,其中,目标指令分词中包含有效数字信息;
(4)提取单元908,用于根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字,其中,目标数字为允许机器识别的数字。
可选地,上述数字提取装置可以但不限于应用于统计财务报告的过程中,或者应用于土地面积评估的过程中,或者应用于人口普查的过程中。
可选地,上述数字提取装置可以但不限于应用于智能终端上,例如,应用于手机上。
采用上述装置,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。
可选地,上述获取与输入的查询指令相匹配的指令文本可以但不限于通过以下方式:
(1)在终端的显示界面上显示有输入框,在接收到输入框输入的内容时,将接收到的上述内容作为上述指令文本。
例如,在终端的显示界面上显示有输入框,接收到输入框中输入了“占地面积1000亩”的字样后,将上述“占地面积1000亩”作为指令文本。
(2)接收到携带有指令文本的图片,从上述图片中识别出文字信息,并将识别出的文字信息作为指令文本。
例如,终端接收到携带有“占地面积1000亩”字样的图片,先对图片进行识别,识别出“占地面积1000亩”的字样,并采集上述文字,将采集到的“占地面积1000亩”作为指令文本。
(3)在接收到选定指令后,将被选定的文本作为指令文本。
可选地,上述接收到选定指令可以但不限于为终端的显示界面的按钮被按下,接收到用户输入的语音指令等。
例如,终端的显示界面上可以显示有一个按钮与文字内容。在接收到上述按钮被按下时,将用户选定的文字内容作为指令文本,并执行后续的数字提取过程。
(4)获取到语音输入信息,将获取到的语音输入信息作为指令文本。
例如,接收用户输入的语音输入信息,如“占地面积1000亩”,则将上述获取到的语音信息转换为文本信息,并作为指令文本。
可选地,上述对指令文本执行分词标注处理可以但不限于为将获取到的指令文本拆分成多个单独的字段,并为每一个字段添加词性标签。
可选地,上述为每一个字段添加词性标签可以但不限于为判断每一个字段的词性。在上述词性为名词词性的情况下,为上述字段添加名词词性标签;在上述词性为数词词性的情况下,为上述字段添加数词词性标签;在上述词性为动词词性的情况下,为上述字段添加动词词性标签;在上述词性为形容词词性的情况下,为上述字段添加形容词词性标签;在上述词性为副词词性的情况下,为上述字段添加副词词性标签。在上述词性为字符的情况下,为上述字段添加字符标签。
可选地,每一个字段可以对应一个或者多个词性标签。
可选地,以上述指令文本为“报名考生1千万,录取考生200万。”为例,图3为一种可能的分词结果。在获取到上述指令文本后,对上述指令文本进行分词,得到“报名”、“考生”、“1”、“千万”、“,”、“录取”、“考”、“生”、“200”、“万”、“。”等多个字段。其中,千万包含两个词性标签,为数词或者副词,生同样存在两个词性标签,为动词或者形容词。为上述每个字段添加词性标签,从而可以对上述多个字段进行区分。
可选地,上述根据词性标签从指令分词集合中确定出目标指令分词可以但不限于为:从指令分词集合中,获取词性标签指示为数词的指令分词,作为目标指令分词,其中,词性标签指示为数词的指令分词中包含数字信息。其中,所述数字信息包含有效数字信息与无效数字信息,上述有效数字信息为具有数学意义的数字,例如表示数量的数字,如100万、7000等数字;或者表示年份的数字,如“1998年”中的“1998”,或者用于表示距离的数字,如50公里中的“50”等等。上述无效数字信息用于表示没有数学意义的数字。例如“七上八下”中的“七”和“八”,并没有数学意义。
可选地,上述获取词性标签指示为数词的指令分词,作为目标指令分词可以但不限于在至少一个词性标签为数词词性的情况下,获取与该数词词性对应的指令分词,作为目标指令分词。
例如,继续结合上述指令文本为“报名考生1千万,录取考生200万。”的情况进行说明。在经过如图3所示的分词后,可以得到“1”、“千万”、“200”、“万”四个指令分词,将上述四个指令分词作为目标指令分词并从上述目标指令分词中获取目标数字。
可选地,根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字包括:获取指令分词集合中所包含的全部有效数字信息中所携带的数字的数字格式;在数字格式包含汉字数字的情况下,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式;按照提取模式提取出目标数字。
例如,以指令文本为“万一发生故障,损失将超过1000万元”为例。在将上述指令文本分词并标注词性后,“万一”为无意义的词,不需要提取,而1000后的“万”为有意义的词,需要提取。因此,需要根据目标指令分词之间的位置关系,确定上述汉字数字的提取模式。
可选地,从指令文本中提取出与有效数字信息匹配的目标数字可以采用如下方法:
(1)在指令分词集合中至少两个目标指令分词所在的位置为连续位置,且至少两个目标指令分词中所包含的有效数字信息的数据类型均为整数类型的情况下,确定至少两个目标指令分词的提取模式为组合提取模式;按照组合提取模式,组合至少两个目标指令分词,得到组合指令字段;提取与组合指令字段相匹配的目标数字。
例如,继续以上述指令文本为“若发生故障,损失将超过1000万元”为例。在对上述指令文本进行分词并标注词性后,检测到“1000”、“万”两个目标指令分词的位置为连续位置,则将上述“1000”、“万”组合为“1000万”,并提取,得到目标数字。
(2)在指令分词集合中目标指令分词所在的位置均为离散位置的情况下,确定提取模式为离散提取模式;按照离散提取模式,分别提取指令分词集合中目标指令分词包含的有效数字信息所携带的数字,作为目标数字。
(3)在数字格式均为***数字的情况下,提取有效数字信息所携带的数字,作为目标数字。
可选地,在根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式之前,还包括:获取在指令分词集合中的第一关键分词及第二关键分词,其中,第一关键分词与目标指令分词相邻且位于目标指令分词之前,第二关键分词与目标指令分词相邻且位于目标指令分词之后;将第一关键分词、目标指令分词及第二关键分词组合得到候选字段;调用复合数字模板与候选字段进行比对;在候选字段与复合数字模板匹配的情况下,按照复合数字模板提取目标数字。
可选地,上述符合数字模板可以但不限于为分数模板、百分数模板、小数模板、负数模板等。
以下对上述数字提取方法进行整体说明。如图4所示,图4为一种可选的终端的显示界面的示意图。在终端的显示界面上显示有两个按钮,一个按钮为输入指令文本的输入按钮,在输入按钮被按下后,将采集语音输入信息,并转换为文本信息显示。另一个按钮为提取按钮,在提取按钮被按下后,会将采集到的语音输入信息作为指令文本,并提取指令文本中的目标数字。可选地,在获取指令文本时,可以接收选择指令。将选择的语音输入信息作为指令文本。如图5所示,图5中带有下划线的语音输入信息为被选择的语音输入信息。在检测到提取按钮被按下后,将“盈利超过500万,同比增长百分之十”作为指令文本。
在获取到指令文本后,对上述指令文本进行分词并标注,得到“500”、“万”、“百”、“十”等数字信息,由于“500”、“万”两个数字信息位置相连,因此,将“500”、“万”组合为“500万”并提取,作为目标数字保存。或者将“500万”提取为目标数字后,转换为“5000000”并保存。而百分之十同样为需要提取的目标数字。因此,将百分之十与预先设置的复合数字模板进行比对。预先设置符合数字模板为“**分之**”。与上述百分之十进行比对后,提取上述百分之十作为目标数字。可选地,在提取出上述百分之十之后,可以但不限于进行格式转换,例如转换成小数0.1并进行保存。
通过本实施例,在提取目标数字的过程中,由于先对指令文本进行了分词标注处理,得到指令分词集合,并在指令分词集合中给每个指令分词配置有词性标签,从而可以在提取目标数字时,根据词性标签提取出目标指令分词,并根据目标指令分词之间的位置关系提取出目标数字,从而可以对目标数字进行准确高效的提取,提高了提取目标数字的准确性。
作为一种可选的实施方案,上述提取单元包括:
(1)第一获取模块,用于获取指令分词集合中所包含的全部有效数字信息中所携带的数字的数字格式;
(2)确定模块,用于在数字格式包含汉字数字的情况下,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式;
(3)第一提取模块,用于按照提取模式提取出目标数字。
例如,以指令文本为“万一发生故障,损失将超过1000万元”为例,如图6所示,图6为一种可能的对上述指令文本分词并标注的情况。可见,“万”、“一”、“1000”、“万”都被标注为数词。而“万一”并不是有意义的数词,因此,在提取时,并不提取“万一”。
通过本实施例,在指令分词集合中包含汉字数字的情况下,根据指令分词集合中目标指令分词之间的位置关系,确定汉字数字的提取模式,从而提高了提取目标数字的灵活性与准确性。
作为一种可选的实施方案,
(1)上述确定模块包括:第一确定子模块,用于在指令分词集合中至少两个目标指令分词所在的位置为连续位置,且至少两个目标指令分词中所包含的有效数字信息的数据类型均为整数类型的情况下,确定至少两个目标指令分词的提取模式为组合提取模式;
(2)上述第一提取模块包括:第一提取子模块,用于按照组合提取模式,组合至少两个目标指令分词,得到组合指令字段;提取与组合指令字段相匹配的目标数字。
例如,继续结合上述指令文本为“万一发生故障,损失将超过1000万元”为例,在对上述指令文本进行分词并标注后,如图7所示,对“1000”、“万”进行提取,并将提取到的“1000”、“万”进行组合,组合得到“1000万”,将“1000万”作为目标数字。
通过本实施例,通过按照组合提取模式,提取指令分词集合中的目标数字,从而可以根据实际情况准确高效地提取指令分词结合中的目标数字,提高了提取目标数字的效率。
作为一种可选的实施方案,
(1)上述确定模块包括:第二确定子模块,用于在指令分词集合中目标指令分词所在的位置均为离散位置的情况下,确定提取模式为离散提取模式;
(2)上述第一提取模块包括:第二提取子模块,用于按照离散提取模式,分别提取指令分词集合中目标指令分词包含的有效数字信息所携带的数字,作为目标数字。
例如,以指令为本为“盈利二十点三万元”。由于上述指令文本中的“二十”、“三万”之间并不连续,因此,需要以离散提取模式进行提取,得到目标数据“20.3万”。
通过本实施例,通过按照离散提取模式,提取指令分词集合中的目标数字,从而可以根据实际情况准确高效地提取指令分词结合中的目标数字,提高了提取目标数字的效率。
作为一种可选的实施方案,上述提取单元还包括:
(1)第二获取模块,用于在根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式之前,获取在指令分词集合中的第一关键分词及第二关键分词,其中,第一关键分词与目标指令分词相邻且位于目标指令分词之前,第二关键分词与目标指令分词相邻且位于目标指令分词之后;
(2)组合模块,用于将第一关键分词、目标指令分词及第二关键分词组合得到候选字段;
(3)比对模块,用于调用复合数字模板与候选字段进行比对;
(4)第二提取模块,用于在候选字段与复合数字模板匹配的情况下,按照复合数字模板提取目标数字。
可选地,上述第一关键词与第二关键词可以但不限于为一些标志性词。例如,可以为用于表示分数、小数、负数等数字的词。
例如,以指令文本为“八分之一的商品被卖出”为例,图8为几种可选的复合数字模板的示意图。将八分之一与上述符合数字模板进行匹配之后,使用“**分之**”的模板提取目标数字,得到八分之一。在得到上述八分之一后,可以将上述八分之一转换为其他格式。
通过本实施例,通过调用符合数字模板提取目标数字,从而可以提取出复杂情况的数字信息,提高了提取目标数字的灵活性与准确性。
作为一种可选的实施方案,上述提取单元还包括:
(1)第三提取模块,用于在获取有效数字信息中所携带的数字的数字格式之后,在数字格式均为***数字的情况下,提取有效数字信息所携带的数字,作为目标数字。
例如,以指令文本为“北纬23度,东经67度”为例,在获取到上述指令文本后,由于上述指令文本中的数字格式均为***数字,因此,可以直接对上述指令文本中的***数字进行提取,得到目标数字。
通过本实施例,通过直接提取***数字,从而可以在数字格式为***数字的情况下,准确高效地提取出目标数字,提高了提取目标数字的效率。
作为一种可选的实施方案,上述确定单元包括:
(1)第三获取模块,用于从指令分词集合中,获取词性标签指示为数词的指令分词,作为目标指令分词,其中,词性标签指示为数词的指令分词中包含有效数字信息。
例如,继续结合上述指令文本为“北纬23度,东经67度”的情况进行说明。在对上述“北纬23度,东经67度”进行分词并标注后,得到“23”、“67”的词性为数词。则将上述词性为数词的“23”、“67”提取出来,作为目标数字。
通过本实施例,通过从指令分词集合中获取词性标签为数词的指令分词,作为目标指令分词,从而可以从指令分词集合中提取出目标指令分词,提高了获取目标指令分词的灵活性。
作为一种可选的实施方案,上述获取单元包括以下至少之一:
(1)第四获取模块,用于获取语音输入的查询指令;识别查询指令中所携带的指令信息;根据指令信息生成指令文本;
(2)第五获取模块,用于获取通过输入设备输入的查询指令;解析查询指令,得到指令文本。
例如,如图4所示,图4为一种可选的终端的显示界面的示意图。在终端的显示界面上显示有两个按钮,一个按钮为输入指令文本的输入按钮,在输入按钮被按下后,将采集语音输入信息,并转换为文本信息显示。另一个按钮为提取按钮,在提取按钮被按下后,会将采集到的语音输入信息作为指令文本,并提取指令文本中的目标数字。可选地,在获取指令文本时,可以接收选择指令。将选择的语音输入信息作为指令文本。如图5所示,图5中带有下划线的语音输入信息为被选择的语音输入信息。在检测到提取按钮被按下后,将“盈利超过500万,同比增长百分之十”作为指令文本。
通过本实施例,通过上述方法任意之一获取指令文本,从而提高了获取指令文本的灵活性。
根据本发明实施例的又一个方面,还提供了一种用于实施上述数字提取方法的电子装置,如图10所示,该电子装置包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取与输入的查询指令相匹配的指令文本;
S2,对指令文本执行分词标注处理,得到指令分词集合,其中,指令分词集合中的每一个指令分词分别配置有词性标签;
S3,根据词性标签从指令分词集合中确定出目标指令分词,其中,目标指令分词中包含有效数字信息;
S4,根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字,其中,目标数字为允许机器识别的数字。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的数字提取方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数字提取方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储指令文本、目标数据等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述数字提取装置中的获取单元902、处理单元904、确定单元906及提取单元908。此外,还可以包括但不限于上述数字提取装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1008,用于显示目标数字等内容;和连接总线1010,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取与输入的查询指令相匹配的指令文本;
S2,对指令文本执行分词标注处理,得到指令分词集合,其中,指令分词集合中的每一个指令分词分别配置有词性标签;
S3,根据词性标签从指令分词集合中确定出目标指令分词,其中,目标指令分词中包含有效数字信息;
S4,根据指令分词集合中所包含的目标指令分词之间的位置关系,从指令文本中提取出与有效数字信息匹配的目标数字,其中,目标数字为允许机器识别的数字。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取指令分词集合中所包含的全部有效数字信息中所携带的数字的数字格式;
S2,在数字格式包含汉字数字的情况下,根据指令分词集合中所包含的目标指令分词之间的位置关系,确定汉字数字的提取模式;
S3,按照提取模式提取出目标数字。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在指令分词集合中至少两个目标指令分词所在的位置为连续位置,且至少两个目标指令分词中所包含的有效数字信息的数据类型均为整数类型的情况下,确定至少两个目标指令分词的提取模式为组合提取模式;
S2,按照组合提取模式,组合至少两个目标指令分词,得到组合指令字段;提取与组合指令字段相匹配的目标数字。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在指令分词集合中目标指令分词所在的位置均为离散位置的情况下,确定提取模式为离散提取模式;
S2,按照离散提取模式,分别提取指令分词集合中目标指令分词包含的有效数字信息所携带的数字,作为目标数字。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取在指令分词集合中的第一关键分词及第二关键分词,其中,第一关键分词与目标指令分词相邻且位于目标指令分词之前,第二关键分词与目标指令分词相邻且位于目标指令分词之后;
S2,将第一关键分词、目标指令分词及第二关键分词组合得到候选字段;
S3,调用复合数字模板与候选字段进行比对;
S4,在候选字段与复合数字模板匹配的情况下,按照复合数字模板提取目标数字。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在数字格式均为***数字的情况下,提取有效数字信息所携带的数字,作为目标数字。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从指令分词集合中,获取词性标签指示为数词的指令分词,作为目标指令分词,其中,词性标签指示为数词的指令分词中包含有效数字信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
(1)获取语音输入的查询指令;识别查询指令中所携带的指令信息;根据指令信息生成指令文本;
(2)获取通过输入设备输入的查询指令;解析查询指令,得到指令文本。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种数字提取方法,其特征在于,包括:
获取与输入的查询指令相匹配的指令文本;
对所述指令文本执行分词标注处理,得到指令分词集合,其中,所述指令分词集合中的每一个指令分词分别配置有词性标签;
根据所述词性标签从所述指令分词集合中确定出目标指令分词,其中,所述目标指令分词中包含有效数字信息;
其中,所述根据所述词性标签从所述指令分词集合中确定出目标指令分词,包括:从所述指令分词集合中,获取所述词性标签指示为数词的指令分词,作为所述目标指令分词,其中,所述词性标签指示为数词的指令分词中包含数字信息;在所述数字信息包含有效数字信息与无效数字信息的情况下,获取包含所述有效数字信息的指令分词,作为所述目标指令分词,所述有效数字信息为具有数学意义的数字,所述无效数字信息用于表示没有数学意义的数字;
根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,其中,所述目标数字为允许机器识别的数字;
所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,包括:
获取在所述指令分词集合中的第一关键分词及第二关键分词,其中,所述第一关键分词与所述目标指令分词相邻且位于所述目标指令分词之前,所述第二关键分词与所述目标指令分词相邻且位于所述目标指令分词之后,其中,所述第一关键分词以及所述第二关键分词为用于表示数字的词;
将所述第一关键分词、所述目标指令分词及所述第二关键分词组合得到候选字段;
调用复合数字模板与所述候选字段进行比对;
在所述候选字段与所述复合数字模板匹配的情况下,按照所述复合数字模板提取所述目标数字。
2.根据权利要求1所述的方法,其特征在于,所述根据指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字包括:
获取所述指令分词集合中所包含的全部所述有效数字信息中所携带的数字的数字格式;
在所述数字格式包含汉字数字的情况下,根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式;
按照所述提取模式提取出所述目标数字。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式包括:在所述指令分词集合中至少两个所述目标指令分词所在的位置为连续位置,且所述至少两个所述目标指令分词中所包含的所述有效数字信息的数据类型均为整数类型的情况下,确定所述至少两个所述目标指令分词的所述提取模式为组合提取模式;
所述按照所述提取模式提取出所述目标数字包括:按照所述组合提取模式,组合所述至少两个所述目标指令分词,得到组合指令字段;提取与所述组合指令字段相匹配的所述目标数字。
4.根据权利要求2所述的方法,其特征在于,
所述根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式包括:在所述指令分词集合中所述目标指令分词所在的位置均为离散位置的情况下,确定所述提取模式为离散提取模式;
所述按照所述提取模式提取出所述目标数字包括:按照所述离散提取模式,分别提取所述指令分词集合中所述目标指令分词包含的所述有效数字信息所携带的数字,作为所述目标数字。
5.根据权利要求2所述的方法,其特征在于,在所述获取所述有效数字信息中所携带的数字的数字格式之后,还包括:
在所述数字格式均为***数字的情况下,提取所述有效数字信息所携带的数字,作为所述目标数字。
6.根据权利要求1至5中任一项所述的方法,所述根据所述词性标签从所述指令分词集合中确定出目标指令分词包括:
从所述指令分词集合中,获取所述词性标签指示为数词的指令分词,作为所述目标指令分词,其中,所述词性标签指示为数词的指令分词中包含所述有效数字信息。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取与输入的查询指令相匹配的指令文本包括以下至少之一:
获取语音输入的所述查询指令;识别所述查询指令中所携带的指令信息;根据所述指令信息生成所述指令文本;
获取通过输入设备输入的所述查询指令;解析所述查询指令,得到所述指令文本。
8.一种数字提取装置,其特征在于,包括:
获取单元,用于获取与输入的查询指令相匹配的指令文本;
处理单元,用于对所述指令文本执行分词标注处理,得到指令分词集合,其中,所述指令分词集合中的每一个指令分词分别配置有词性标签;
确定单元,用于根据所述词性标签从所述指令分词集合中确定出目标指令分词,其中,所述目标指令分词中包含有效数字信息;
提取单元,用于根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,从所述指令文本中提取出与所述有效数字信息匹配的目标数字,其中,所述目标数字为允许机器识别的数字;
其中,所述确定单元用于通过如下方式根据所述词性标签从所述指令分词集合中确定出目标指令分词:从所述指令分词集合中,获取所述词性标签指示为数词的指令分词,作为所述目标指令分词,其中,所述词性标签指示为数词的指令分词中包含数字信息;在所述数字信息包含有效数字信息与无效数字信息的情况下,获取包含所述有效数字信息的指令分词,作为所述目标指令分词,所述有效数字信息为具有数学意义的数字,所述无效数字信息用于表示没有数学意义的数字;
所述提取单元还包括:
第二获取模块,用于获取在所述指令分词集合中的第一关键分词及第二关键分词,其中,所述第一关键分词与所述目标指令分词相邻且位于所述目标指令分词之前,所述第二关键分词与所述目标指令分词相邻且位于所述目标指令分词之后,其中,所述第一关键分词以及所述第二关键分词为用于表示数字的词;
组合模块,用于将所述第一关键分词、所述目标指令分词及所述第二关键分词组合得到候选字段;
比对模块,用于调用复合数字模板与所述候选字段进行比对;
第二提取模块,用于在所述候选字段与所述复合数字模板匹配的情况下,按照所述复合数字模板提取所述目标数字。
9.根据权利要求8所述的装置,其特征在于,所述提取单元包括:
第一获取模块,用于获取所述指令分词集合中所包含的全部所述有效数字信息中所携带的数字的数字格式;
确定模块,用于在所述数字格式包含汉字数字的情况下,根据所述指令分词集合中所包含的所述目标指令分词之间的位置关系,确定所述汉字数字的提取模式;
第一提取模块,用于按照所述提取模式提取出所述目标数字。
10.根据权利要求9所述的装置,其特征在于,
所述确定模块包括:第一确定子模块,用于在所述指令分词集合中至少两个所述目标指令分词所在的位置为连续位置,且所述至少两个所述目标指令分词中所包含的所述有效数字信息的数据类型均为整数类型的情况下,确定所述至少两个所述目标指令分词的所述提取模式为组合提取模式;
所述第一提取模块包括:第一提取子模块,用于按照所述组合提取模式,组合所述至少两个所述目标指令分词,得到组合指令字段;提取与所述组合指令字段相匹配的所述目标数字。
11.根据权利要求9所述的装置,其特征在于,
所述确定模块包括:第二确定子模块,用于在所述指令分词集合中所述目标指令分词所在的位置均为离散位置的情况下,确定所述提取模式为离散提取模式;
所述第一提取模块包括:第二提取子模块,用于按照所述离散提取模式,分别提取所述指令分词集合中所述目标指令分词包含的所述有效数字信息所携带的数字,作为所述目标数字。
12.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810961840.2A CN109299439B (zh) | 2018-08-22 | 2018-08-22 | 数字提取方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810961840.2A CN109299439B (zh) | 2018-08-22 | 2018-08-22 | 数字提取方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299439A CN109299439A (zh) | 2019-02-01 |
CN109299439B true CN109299439B (zh) | 2021-05-11 |
Family
ID=65165415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810961840.2A Active CN109299439B (zh) | 2018-08-22 | 2018-08-22 | 数字提取方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299439B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330243A (zh) * | 2021-12-31 | 2022-04-12 | 北京执象科技发展有限公司 | 口算结果识别方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915313A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 网络搜索中的纠错关系生成方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100568225C (zh) * | 2006-12-08 | 2009-12-09 | 富士通株式会社 | 文本中数字和特殊符号串的文字符号化处理方法及*** |
US7836061B1 (en) * | 2007-12-29 | 2010-11-16 | Kaspersky Lab, Zao | Method and system for classifying electronic text messages and spam messages |
CN102184167B (zh) * | 2011-05-25 | 2013-01-02 | 安徽科大讯飞信息科技股份有限公司 | 一种文本数据处理方法和装置 |
CN107368466A (zh) * | 2017-06-27 | 2017-11-21 | 成都准星云学科技有限公司 | 一种面向初等数学领域的命名识别方法及其*** |
-
2018
- 2018-08-22 CN CN201810961840.2A patent/CN109299439B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915313A (zh) * | 2011-08-05 | 2013-02-06 | 腾讯科技(深圳)有限公司 | 网络搜索中的纠错关系生成方法及*** |
Non-Patent Citations (1)
Title |
---|
基于关键词共现的教育信息化工程发展初探;李烯;《电化教育研究》;20100201(第2期);第22-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109299439A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334533B (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
CN109190119B (zh) | 时间提取方法和装置、存储介质及电子装置 | |
WO2019062081A1 (zh) | 业务员画像形成方法、电子装置及计算机可读存储介质 | |
CN110110213B (zh) | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 | |
CN107741972A (zh) | 一种图片的搜索方法、终端设备及存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN112732893A (zh) | 文本信息的提取方法和装置、存储介质和电子设备 | |
CN109299439B (zh) | 数字提取方法和装置、存储介质及电子装置 | |
CN111274813A (zh) | 语言序列标注方法、装置存储介质及计算机设备 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN114564938A (zh) | 文档的解析方法及装置、存储介质和处理器 | |
CN110543457A (zh) | 轨迹类文档处理方法和装置、存储介质及电子装置 | |
CN110895555B (zh) | 数据检索方法和装置、存储介质及电子装置 | |
CN111091452A (zh) | 导购协助方法、装置、***及存储介质 | |
CN110929519B (zh) | 实体属性抽取方法及装置 | |
CN114842982B (zh) | 一种面向医疗信息***的知识表达方法、装置及*** | |
CN115659375A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN114595760A (zh) | 数据分类方法及装置 | |
CN112015773A (zh) | 知识库的检索方法、装置、电子设备以及存储介质 | |
CN111737288A (zh) | 搜索控制方法、装置、终端设备、服务器及存储介质 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN113536751B (zh) | 表格数据的处理方法、装置、电子设备和存储介质 | |
CN109684417A (zh) | 数据展示方法及装置、存储介质和处理器 | |
CN107967300A (zh) | 机构名称的检索方法、装置、设备及存储介质 | |
CN111985565B (zh) | 图片分析方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |