CN115759035A - 文本处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115759035A
CN115759035A CN202211583805.4A CN202211583805A CN115759035A CN 115759035 A CN115759035 A CN 115759035A CN 202211583805 A CN202211583805 A CN 202211583805A CN 115759035 A CN115759035 A CN 115759035A
Authority
CN
China
Prior art keywords
text
processed
preset
words
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211583805.4A
Other languages
English (en)
Inventor
周相进
肖雪松
严骊
韩威俊
罗桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Minto Technology Co ltd
Original Assignee
Chengdu Minto Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Minto Technology Co ltd filed Critical Chengdu Minto Technology Co ltd
Priority to CN202211583805.4A priority Critical patent/CN115759035A/zh
Publication of CN115759035A publication Critical patent/CN115759035A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种文本处理方法、装置、电子设备及计算机可读存储介质。该方法包括:获取待处理文本,所述待处理文本包括项目相关信息;通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,所述预设意图包括目标、计划、执行、检查和处理中的至少一项。通过该方式,能使用户直接查看提取出的词句。且因提取出的词句表征目标、计划、执行、检查和处理中的至少一项,即该词句能表征待处理文本对应的项目的不同阶段的核心思想,故用户通过查看词句能更准确的理解到待处理文本所要表达的意思,从而能使各用户更好、更准确地执行待处理文本对应的操作,进而能产生较好的操作的结果。

Description

文本处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,针对项目、生产等有关的文本,需要用户自行查看、理解,再落实到执行。但是,各用户对相同文本的理解可能不相同。因此,可能会造成用户对相同文本的理解出现偏差,从而在各用户执行该文本对应的操作时,造成执行偏差,从而产生不好的结果。
发明内容
本申请实施例的目的在于提供一种文本处理方法、装置、电子设备及计算机可读存储介质,以使各用户能更好的理解文本,并基于该文本进行相应的操作,进而能产生较好的操作的结果。
本发明是这样实现的:
第一方面,本申请实施例提供一种文本处理方法,包括:获取待处理文本,所述待处理文本包括项目相关信息;通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,所述预设意图包括目标、计划、执行、检查和处理中的至少一项。
在本申请实施例中,在获取到待处理文本之后,通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句,能使用户直接查看提取出的词句。并且,因提取出的词句表征目标、计划、执行、检查和处理中的至少一项,即该词句能表征待处理文本对应的项目的不同阶段的核心思想,故用户通过查看词句能更准确的理解到待处理文本所要表达的意思,从而能使各用户更好、更准确地执行待处理文本对应的操作,进而能产生较好的操作的结果。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句之后,所述方法还包括:将所述词句填入预设表格,并显示所述预设表格。
在本申请实施例中,通过将提取出的词句填入预设表格,并显示预设表格,能使用户更直观的查看提取出的各词句,以及能更直观的看到待处理文本对应的项目的不同阶段对应的信息,从而能便于用户理解该项目。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句之后,所述方法还包括:基于所述词句,生成结构化文档,所述结构化文档为按照所述预设意图对应的框架形成的文件。
在本申请实施例中,基于词句,生成结构化文档,且因结构化文档为按照预设意图对应的框架形成的文件,故能使用户更直观的查看提取出的各词句,以及能更直观的看到待处理文本对应的项目的不同阶段对应的信息,从而能便于用户理解该项目。此外,通过生成结构化文档,还能方便用户直接使用该结构化文档。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述基于所述词句,生成结构化文档,包括:基于所述词句,生成目标数据包;将所述目标数据包传输到目标管理***;基于所述目标数据包和所述目标管理***,生成结构化文档。
在本申请实施例中,基于词句生成目标数据包,将目标数据传输至目标管理***,并基于目标数据包和目标管理***,生成结构化文档,能使不同用户从目标管理***中查看到结构化文档,能实现结构化文档的共享。此外,通过该方式,还能方便用户查看该结构化文档。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述待处理文本为农业种植技术文本或任务专报文本。
在本申请实施例中,农业种植技术文本往往包括种植某类植物的相关知识,比如:在不同阶段,对于该类植物需要不同种植操作,以及不同阶段的目标等。这些知识通常较为复杂,因此,各用户在直接阅读该相关知识时,往往理解各不相同,且容易遗漏某些要点。那么,若待处理文本为农业种植技术文本,则可将该农业种植技术文本中的表征目标、计划、执行、检查和处理中的至少一项的词句提取出,比如:若农业种植技术文本中包括种植土豆所要达到的目标、计划、执行过程,则可将该目标、计划、执行从该农业种植技术文本中直接提取出来,从而方便用户查看和理解,进而便于用户执行,并达到较好的种植效果。此外,任务专报文本往往包括某个任务的相关要求,比如:该任务的目标是什么,应该怎么落实(即具体执行)等。这些相关要求通常较多,故各用户在直接阅读该相关要求时,往往理解各不相同,且容易遗漏某些要点。那么,若待处理文本为任务专报文本,则可将该任务专报文本中的表征目标、计划、执行、检查和处理中的至少一项的词句提取出,从而方便用户查看和理解进而便于用户执行,并达到较好的任务效果。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述提取模型包括BiLSTM层和CRF层,所述BiLSTM层与所述CRF层连接,且所述BiLSTM层包括依次连接的词嵌入层、双向LSTM层和全连接层,所述全连接层与所述CRF层连接;所述通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,包括:通过所述BiLSTM层对所述待处理文本进行处理,得到所述待处理文本中各词句对应的各类别分数;通过所述CRF层对所述各词句对应的各类别分数进行处理,得到所述词句。
在本申请实施例中,通过将提取模型设置为上述结构,使得提取模型能够准确的从待处理文本中提取到表征预设意图的词句,从而能使用户基于提取出的词句对待处理文本对应的项目进行更准确的理解,进而更准确地执行待处理文本对应的操作。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述CRF层的损失函数由真实路径的分数和所有路径的总分数构成,所述真实路径的分数为所有路径中的最高分数。
第二方面,本申请实施例提供一种文本处理装置,包括:获取模块,用于获取待处理文本,所述待处理文本包括项目相关信息;处理模块,用于通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,所述预设意图包括目标、计划、执行、检查和处理中的至少一项。
第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种提取模型的构建方法的步骤流程图。
图2为本申请实施例提供的一种文本处理方法的步骤流程图。
图3为本申请实施例提供的一种结构化文档的示意图。
图4为本申请实施例提供的一种文本处理装置的模块框图。
图5为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
鉴于各用户对相同文本的理解可能不相同,故可能会造成用户对相同文本的理解出现偏差,从而在各用户执行该文本对应的操作时,造成执行偏差,从而产生不好的结果。本申请发明人经过研究探索,提出以下实施例以解决上述问题。
请参阅图1,本申请实施例提供一种提取模型的构建方法,可应用于各类电子设备,比如:计算器、平板电脑等。以下对一种提取模型的训练方法的具体流程及步骤进行描述。
需要说明的是,本申请实施例提供的提取模型的构建方法不以以下所示的顺序为限值。
步骤S101:构建初始提取模型。
其中,初始提取模型包括相连接的BiLSTM层和CRF层,该BiLSTM层包括依次连接的词嵌入层、双向LSTM层和全连接层,且全连接层与所述CRF层。
步骤S102:获取训练集,该训练集包括包含项目相关信息且已进行预设意图标记的文本。
其中,上述项目相关信息可为做某一件事情或项目的过程、目的等信息,比如:针对小龙虾养殖技术的文本,该文本中的项目相关信息可为小龙虾养殖的目标、计划、具体执行操作、针对该操作的检查以及对该检查的结果的处理措施;又比如:针对建造A楼房的项目管理,该文本中的项目相关信息可为建造A楼房的目标、计划、具体执行操作、针对该操作的检查以及对该检查的结果的处理措施。
上述预设意图(GPDCA)包括目标(Goal)、计划(Plan)、执行(Do)、检查(Check)和处理(Action)中的至少一项。其中,目标表示这个项目对应的目标是什么,比如:针对小龙虾养殖进行病虫害管理。计划表示为了达成目标,对应的措施,比如:针对小龙虾养殖进行病虫害管理的计划是执行预防病虫害的方法,以及在出现病虫害后,执行对应的治疗方法。执行表示针对计划的具体执行操作,比如:针对执行预防虫害的方法,具体措施为:更换池水,及时清除残饵和池内腐败物,定期对小龙虾池进行消毒。检查表示对于目标、各操作的检查,比如:针对小龙虾养殖进行病虫害管理,其检查可为:每天巡查小龙虾的养殖质量。处理表示对于检查结果的处理,比如:针对小龙虾养殖进行病虫害管理,在每天巡查小龙虾的养殖质量之后,可根据检查意见,采取整改措施。
需要说明的是,还可对预设意图中的各项意图进行细分,比如:目标可包括一级目标、二级目标等细分意图,执行可包括任务名称、任务要求等细分意图。
可以理解的是,获取训练集可具体包括:获取多个包含项目相关信息的初始文本;对初始文本进行预设意图标记,各标记后的初始文本构成训练集。
其中,上述初始文本可为农业种植技术文本,比如:番茄种植技术文本、水稻种植技术文本、小麦种植技术文本等。该文本还可为任务专报文件,比如:建造某建筑物的文本、某会议针对某一区域的规划文本等。且可采用自动捕获的方式进行获取初始文本,该自动捕获为在已有的业务***中,捕获沉淀的业务数据,通过该方式,能保证获取到的初始文本的完整性,且能提高获取初始文本的效率。此外,在无法自动捕获的情况下,也可以人工获取初始文本,比如:在网络中,收集包含项目相关信息的各类非结构化数据文本。
在对初始文本进行预设意图标记时,可通过现有技术中的各类工具或平台进行标记,比如:使用构建好的标记平台,在选择需要标记的各类实体类别之后,将各初始文本输入该标记平台,以通过该标记平台对各初始文本进行标记。需要说明的是,各实体类别与预设意图中的一项意图对应,或者各实体类别与预设意图中的一项意图的细分意图对应。
此外,还可通过人工进行标记。
还需要说明的是,完成标记后的数据可为JSON格式,且其包括标记词句、各标记词句对应的标签和各标记词句在初始文本中出现的具***置,比如:标记出一个词语为“纤毛虫病预防”,该“纤毛虫病预防”对应的标签为“目标”,且对应的格式可为:“目标”:{“纤毛虫病预防”:[11,16]},其中,[11,16]表示“纤毛虫病预防”这一词语在初始文本中出现的具***置,即“纤毛虫病预防”在初始文本中的第11个字到第16个字的位置。
可以理解的是,构建初始提取模型(步骤S101)和获取训练集(步骤S102)可同时进行,也可有先后顺序的进行。具体的,可同时构建初始提取模型和获取训练集;也可先构建初始提取模型,在构建好初始提取模型之后,再获取训练集;还可先获取训练集,在获取到训练集后,再构建初始提取模型。
在构建好提取模型和获取到训练集之后,本方法可继续进行步骤S103。
步骤S103:利用训练集对初始提取模型进行训练,得到提取模型。
具体的,可将训练集随机分为训练数据集和验证数据集,且两者的数量比例可为4:1。将训练数据集输入至初始提取模型,按照预设的训练轮次、学习率等参数进行训练,当训练次数达到训练轮次时,停止训练,且训练后的模型为提取模型;或者,在每一次训练结束后,计算模型的损失值,当损失值达到预设范围内时,停止训练,且训练后的模型为提取模型,其中,CRF层的损失函数由真实路径的分数和所有路径的总分数构成,真实路径的分数为所有路径中的最高分数。
在根据上述构建方法得到提取模型之后,可将该提取模型用于对包括项目相关信息的待处理文本进行处理,从而得到表征预设意图的词句。
以下结合图2对一种文本处理方法的具体流程及步骤进行描述。本申请实施例提供一种文本处理方法,可应用于各类电子设备。
需要说明的是,本申请实施例提供的文本处理方法不以图2及以下所示的顺序为限制。
步骤S201:获取待处理文本。
其中,待处理文本为需要用户阅读的文本,且该待处理文本包括项目相关信息。需要说明的是,针对该项目相关信息的说明可参考前述实施例中的项目相关信息的说明,避免赘述,此处不再说明。
此外,待处理文本可为农业种植技术文本,比如:番茄种植技术文本、水稻种植技术文本、小麦种植技术文本等。因农业种植技术文本往往包括种植某类植物的相关知识,比如:在不同阶段,对于该类植物需要不同种植操作,以及不同阶段的目标等。这些知识通常较为复杂,因此,各用户在直接阅读该相关知识时,往往理解各不相同,且容易遗漏某些要点。那么,若待处理文本为农业种植技术文本,则在后续可将该农业种植技术文本中的表征目标、计划、执行、检查和处理中的至少一项的词句提取出,比如:若农业种植技术文本中包括种植土豆所要达到的目标、计划、执行过程,则可将该目标、计划、执行从该农业种植技术文本中直接提取出来,从而方便用户查看和理解,进而便于用户执行,并达到较好的种植效果。
待处理文本还可为任务专报文件,比如:建造某建筑物的文本、某会议针对某一区域的规划文本等。任务专报文本往往包括某个任务的相关要求,比如:该任务的目标是什么,应该怎么落实(即具体执行)等。这些相关要求通常较多,故各用户在直接阅读该相关要求时,往往理解各不相同,且容易遗漏某些要点。那么,若待处理文本为任务专报文本,则在后续可将该任务专报文本中的表征目标、计划、执行、检查和处理中的至少一项的词句提取出,从而方便用户查看和理解进而便于用户执行,并达到较好的任务效果。
在获取到待处理文本之后,本方法可继续进行步骤S202。
步骤S202:通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句。
其中,预设意图包括目标、计划、执行、检查和处理中的至少一项。需要说明的是,针对该预设意图的说明可参考前述实施例中的预设意图的说明,避免赘述,此处不再说明。
上述词句为词语或者句子,且该词句可为JSON格式的数据,比如:{“id”:1,”label”:{“目标”:{“软壳病预防”:[21,25]}}}、{“id”:2,”label”:{“计划”:{“预防方法”:[30,35]}}}等,其中,id是指提取出的词句的序号,label后面为该词句的标签,即该词句属于目标、计划、执行、检查和处理中的哪一项,标签之后为词句,词句之后为词句在文本中的具***置。
在本申请实施例中,在获取到待处理文本之后,通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句,能使用户直接查看提取出的词句。并且,因提取出的词句表征目标、计划、执行、检查和处理中的至少一项,即该词句能表征待处理文本对应的项目的不同阶段的核心思想,故用户通过查看词句能更准确的理解到待处理文本所要表达的意思,从而能使各用户更好、更准确地执行待处理文本对应的操作,进而能产生较好的操作的结果。
进一步,上述提取模型包括BiLSTM层和CRF层,BiLSTM层与CRF层连接,且BiLSTM层包括依次连接的词嵌入层、双向LSTM层和全连接层,全连接层与CRF层连接。相应的,上述通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句可具体包括:通过BiLSTM层对待处理文本进行处理,得到待处理文本中各词句对应的各类别分数;通过CRF层对各词句对应的各类别分数进行处理,得到词句。
在本申请实施例中,通过将提取模型设置为上述结构,使得提取模型能够准确的从待处理文本中提取到表征预设意图的词句,从而能使用户基于提取出的词句对待处理文本对应的项目进行更准确的理解,进而更准确地执行待处理文本对应的操作。
需要说明的是,上述词嵌入层用于将输入的待处理文本的各单词映射为词向量,且可使用CBOW(Continuous Bag Of Words,连续词袋模型)、Skip-gram或者GloVe模型实现。该CBOW、Skip-gram或者GloVe模型的具体原理可参考现有技术中的原理,避免赘述,此处不再说明。双向LSTM层为多个RNN(Recurrent Neural Network,循环神经网络)构成的一种重复循环神经网络模块的链式结构,词嵌入层的输出结果进入到双向LSTM层,通过学习上下文的信息,可输出每个单词对应于每个标签的得分概率。全连接层中每个神经元与其前一层的所有神经元进行全连接,且最后一层全连接层的输出值被传递给Sigmoid函数进行分类,再将分类结果输入至CRF层。因token-level采用多标签(label)分类,故将sigmoid函数用于多标签问题,选取多个标签作为正确答案,并将任意值归一化为[0-1]之间,能更好得解决不同概率之间的简单关联精度差的问题。
进一步,CRF层的损失函数由真实路径的分数和所有路径的总分数构成,该真实路径的分数为所有路径中的最高分数。
可选的,在通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句之后,上述文本处理方法还可包括:将词句填入预设表格,并显示预设表格。
在得到表征预设意图的词句,可依据每个词句的标签,将每个词句分别填入预设表格的对应项中。
示例性的,请参阅表1,表1为本申请实施例提供的一种预设表格。
目标 计划 执行 检查 处理
当预设表格为表1,且提取出的某一词句为{“id”:1,”label”:{“目标”:{“软壳病预防”:[21,25]}}}时,可根据该目标标签,将“软壳病预防”填入表1中的目标项下面。相应的,当提取出的词句的标签为其他标签时,可直接将该词句填入表1中对应的标签下。
可以理解的是,当提取出的所有词句中都不存在某一标签对应的词句,则预设表格中的该标签列可空着,即不进行填写。
此外,当提取模型能够输出某一意图的细分意图时,预设表可相应的进行改变,即在对应的意图下增加与其对应的细分意图项,再将该细分意图项对应的词句填入该项对应的位置处即可。
在本申请实施例中,通过将提取出的词句填入预设表格,并显示预设表格,能使用户更直观的查看提取出的各词句,以及能更直观的看到待处理文本对应的项目的不同阶段对应的信息,从而能便于用户理解该项目。
作为另一种可选的实施方式,在通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句之后,上述文本处理方法还可包括:基于词句,生成结构化文档,该结构化文档为按照预设意图对应的框架形成的文件。
其中,请参阅图3,结构化文档可为word格式的、具有项目的不同阶段(即目标、计划、执行、检查和处理)的文档。可以理解的是,图3中的目标管理为预设意图中的目标,任务管理为预设意图中的计划。
在本申请实施例中,基于词句,生成结构化文档,且因结构化文档为按照预设意图对应的框架形成的文件,故能使用户更直观的查看提取出的各词句,以及能更直观的看到待处理文本对应的项目的不同阶段对应的信息,从而能便于用户理解该项目。此外,通过生成结构化文档,还能方便用户直接使用该结构化文档。
进一步,在基于词句,生成结构化文档可具体包括:基于词句,生成目标数据包;将目标数据包传输到目标管理***;基于目标数据包和目标管理***,生成结构化文档。
其中,目标数据包为基于词句生成适用于目标管理***的数据包,且其包括各词句和与各词句对应的标签。需要说明的是,基于词句生成目标数据包的具体原理可参考现有技术中的原理,避免赘述,此处不再说明。
目标管理***中存在多个元数据,该元数据用于表征目标管理***中的各对象,且目标数据包中的各标签均与一个元数据对应。上述将目标数据包传输到目标管理***可具体包括:将各词句上传至与该词句的标签对应的元数据处。
还需要说明的是,基于目标数据包和目标管理***,生成结构化文档的具体原理可参考现有技术中的原理,避免赘述,此处不再说明。
在本申请实施例中,基于词句生成目标数据包,将目标数据传输至目标管理***,并基于目标数据包和目标管理***,生成结构化文档,能使不同用户从目标管理***中查看到结构化文档,能实现结构化文档的共享。此外,通过该方式,还能方便用户查看该结构化文档。
此外,在将目标数据包传输到目标管理***之后,与目标管理***相连的其他***可使用目标管理***中的各元数据和各元素数据对应的词句,比如:其他***可基于目标管理***的各元素与各元素对应的词句,生成对应的结构化文档。
请参阅图4,基于同一发明构思,本申请实施例还提供一种文本处理装置100,该装置100包括:获取模块101和处理模块102。
获取模块101,用于获取待处理文本,待处理文本包括项目相关信息。
处理模块102,用于通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句,预设意图包括目标、计划、执行、检查和处理中的至少一项。
可选的,在通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句之后,处理模块102还用于将词句填入预设表格,并显示预设表格。
可选的,在通过预设的提取模型对待处理文本进行处理,得到表征预设意图的词句之后,处理模块102还用于基于词句,生成结构化文档,结构化文档为按照预设意图对应的框架形成的文件。
可选的,处理模块102具体用于基于词句,生成目标数据包;将目标数据包传输到目标管理***;基于目标数据包和目标管理***,生成结构化文档。
可选的,提取模型包括BiLSTM层和CRF层,BiLSTM层与CRF层连接,且BiLSTM层包括依次连接的词嵌入层、双向LSTM层和全连接层,全连接层与CRF层连接;相应的,处理模块102具体用于通过BiLSTM层对待处理文本进行处理,得到待处理文本中各词句对应的各类别分数;通过CRF层对各词句对应的各类别分数进行处理,得到词句。
请参阅图5,基于同一发明构思,本申请实施例提供的一种电子设备200的示意性结构框图,该电子设备200可用于实施上述的一种文本处理方法。本申请实施例中,电子设备200可以是,但不限于个人计算机(Personal Computer,PC)、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(Mobile Internet Device,MID)等。在结构上,电子设备200可以包括处理器210和存储器220。
处理器210与存储器220直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。其中,处理器210可以是一种集成电路芯片,具有信号处理能力。处理器210也可以是通用处理器,例如,可以是中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器220用于存储程序,处理器210在接收到执行指令后,执行该程序。
应当理解,图5所示的结构仅为示意,本申请实施例提供的电子设备200还可以具有比图5更少或更多的组件,或是具有与图5所示不同的配置。此外,图5所示的各组件可以通过软件、硬件或其组合实现。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本,所述待处理文本包括项目相关信息;
通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,所述预设意图包括目标、计划、执行、检查和处理中的至少一项。
2.根据权利要求1所述的方法,其特征在于,在所述通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句之后,所述方法还包括:
将所述词句填入预设表格,并显示所述预设表格。
3.根据权利要求1所述的方法,其特征在于,在所述通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句之后,所述方法还包括:
基于所述词句,生成结构化文档,所述结构化文档为按照所述预设意图对应的框架形成的文件。
4.根据权利要求3所述的方法,其特征在于,在所述基于所述词句,生成结构化文档,包括:
基于所述词句,生成目标数据包;
将所述目标数据包传输到目标管理***;
基于所述目标数据包和所述目标管理***,生成结构化文档。
5.根据权利要求1所述的方法,其特征在于,所述待处理文本为农业种植技术文本或任务专报文本。
6.根据权利要求1所述的方法,其特征在于,所述提取模型包括BiLSTM层和CRF层,所述BiLSTM层与所述CRF层连接,且所述BiLSTM层包括依次连接的词嵌入层、双向LSTM层和全连接层,所述全连接层与所述CRF层连接;
所述通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,包括:
通过所述BiLSTM层对所述待处理文本进行处理,得到所述待处理文本中各词句对应的各类别分数;
通过所述CRF层对所述各词句对应的各类别分数进行处理,得到所述词句。
7.根据权利要求6所述的方法,其特征在于,所述CRF层的损失函数由真实路径的分数和所有路径的总分数构成,所述真实路径的分数为所有路径中的最高分数。
8.一种文本处理装置,其特征在于,包括:
获取模块,用于获取待处理文本,所述待处理文本包括项目相关信息;
处理模块,用于通过预设的提取模型对所述待处理文本进行处理,得到表征预设意图的词句,所述预设意图包括目标、计划、执行、检查和处理中的至少一项。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-7中任一项所述的方法。
CN202211583805.4A 2022-12-09 2022-12-09 文本处理方法、装置、电子设备及计算机可读存储介质 Pending CN115759035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211583805.4A CN115759035A (zh) 2022-12-09 2022-12-09 文本处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211583805.4A CN115759035A (zh) 2022-12-09 2022-12-09 文本处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115759035A true CN115759035A (zh) 2023-03-07

Family

ID=85345211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211583805.4A Pending CN115759035A (zh) 2022-12-09 2022-12-09 文本处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115759035A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750801A (zh) * 2015-03-24 2015-07-01 华迪计算机集团有限公司 一种结构化文档的生成方法和***
CN113435582A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113792818A (zh) * 2021-10-18 2021-12-14 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN114171147A (zh) * 2021-11-30 2022-03-11 中国医学科学院北京协和医院 一种新型医疗文本预处理***
CN114648029A (zh) * 2022-03-31 2022-06-21 河海大学 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750801A (zh) * 2015-03-24 2015-07-01 华迪计算机集团有限公司 一种结构化文档的生成方法和***
CN113435582A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113792818A (zh) * 2021-10-18 2021-12-14 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN114171147A (zh) * 2021-11-30 2022-03-11 中国医学科学院北京协和医院 一种新型医疗文本预处理***
CN114648029A (zh) * 2022-03-31 2022-06-21 河海大学 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法

Similar Documents

Publication Publication Date Title
TWI788529B (zh) 基於lstm模型的信用風險預測方法及裝置
Temniranrat et al. A system for automatic rice disease detection from rice paddy images serviced via a Chatbot
WO2021068601A1 (zh) 病历检测方法、装置、设备及存储介质
Malik et al. Design and evaluation of a hybrid technique for detecting sunflower leaf disease using deep learning approach
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
US20200175314A1 (en) Predictive data analytics with automatic feature extraction
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN112837142A (zh) 一种金融风险模型训练方法和装置
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN112632260A (zh) 智能问答方法、装置、电子设备及计算机可读存储介质
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
CN117114901A (zh) 基于人工智能的投保数据处理方法、装置、设备及介质
CN115952438B (zh) 社交平台用户属性预测方法、***、移动设备及存储介质
CN107071553A (zh) 一种修改视频语音的方法、装置和计算机可读存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN115759035A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN115203364A (zh) 软件故障反馈处理方法、装置、设备及可读存储介质
CN114676307A (zh) 基于用户检索的排序模型训练方法、装置、设备及介质
CN113688232A (zh) 招标文本分类方法、装置、存储介质及终端
CN110909777A (zh) 一种多维特征图嵌入方法、装置、设备及介质
Rose Mary et al. Text based smart answering system in agriculture using RNN.
CN116151241B (zh) 一种实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230307