WO2019080419A1 - 标准知识库的构建方法、电子装置及存储介质 - Google Patents

标准知识库的构建方法、电子装置及存储介质

Info

Publication number
WO2019080419A1
WO2019080419A1 PCT/CN2018/076484 CN2018076484W WO2019080419A1 WO 2019080419 A1 WO2019080419 A1 WO 2019080419A1 CN 2018076484 W CN2018076484 W CN 2018076484W WO 2019080419 A1 WO2019080419 A1 WO 2019080419A1
Authority
WO
WIPO (PCT)
Prior art keywords
answer
question
keyword
meaning
word
Prior art date
Application number
PCT/CN2018/076484
Other languages
English (en)
French (fr)
Inventor
卢川
高祎璠
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019080419A1 publication Critical patent/WO2019080419A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Definitions

  • the answers of the intelligent customer service robots are all set in advance, and are usually paired and saved in the basic database according to the way one question corresponds to one answer. Therefore, when constructing the basic database, it is necessary to maintain the problem as much as possible - the answer pair In order to realize the intelligent answer of the intelligent customer service robot, the maintenance of the basic database is huge and consumes a lot of labor costs.
  • a method for constructing a standard knowledge base comprising the steps of: S1, constructing an answer file: collecting an answer, and parsing the answer into a same file in a uniform format, the file including a form or a text.
  • S4 forming a question-answer pair: according to the generation rule of the question-answer pair, acquiring the content of the corresponding position in the answer file is embedded into the A question is generated in the corresponding change item in the question template, and the content of the corresponding position in the answer file is obtained to generate an answer, and the generated question and the answer link are saved as a question-answer pair.
  • FIG. 5 is a flowchart of a problem template in Embodiment 2 of the method of the present application.
  • Figure 8 is a schematic diagram showing the answer file in the form of a table in the method of the present application.
  • the electronic device 2 is an apparatus capable of automatically performing numerical calculation and/or information processing in accordance with an instruction set or stored in advance.
  • the electronic device 2 can be a smartphone, a tablet, a laptop, a desktop computer, a rack server, a blade server, a tower server, or a rack server (including a stand-alone server, or a server cluster composed of multiple servers).
  • the electronic device 2 includes at least, but not limited to, a built-in system 20 that can communicate with each other via a system bus to the memory 21, the processor 22, the network interface 23, and a standard knowledge base. among them:
  • FIG. 2 shows a schematic diagram of a program module of an embodiment of the standard knowledge base construction system 20.
  • the standard knowledge base construction system 20 can be divided into a file receiving module 201 and a template setting module. 202.
  • S11 collecting an answer
  • S12 splitting each answer into a sequence of words consisting of a plurality of keywords
  • S13 obtaining two meaning keywords representing the meaning of the answer in each word sequence
  • S14 de-duplicating the meaning keywords Classification
  • S15 one type of meaning keyword is used as the first row of the table, another type of meaning keyword is used as the first column of the table, and the intersecting cells of the first row and the first column are blank
  • S16 the value of the answer is represented in the sequence of acquired words.
  • the numerical keyword S17, the numeric keyword is filled in the cell in which the two meaning keywords in the sequence of the word of the numerical keyword are located and the column intersects.
  • the change position generation problem is temporarily stored; S42, obtaining the two meaning keywords of the generated problem, the numerical keyword of the row and the column intersecting the cell is temporarily stored as an answer; S43, the temporarily stored question and the answer are associated with each other; S44 And determining whether the meaning keyword in the current position corresponding to the first change item is the last word in the first row or the first column of the meaning keyword, and if yes, executing step S46, if otherwise, performing step S45; S45, first The current position corresponding to the change item is sequentially shifted one by one along the first line or the first column of the meaning keyword in the current position, and the current position corresponding to the first change item is reset, and step S41 is performed; S46, determining the second The change item corresponds to whether the meaning keyword in the current position is the last word in the first example or the first line of the meaning keyword, and if yes, step S48 is performed, if no Then, step S47 is executed; S47, the current position corresponding to the second change item is sequentially shifted
  • the second cell in the first row of the table and the two meaning keywords in the third cell of the first column are respectively embedded in the position of the two variables in the aforementioned problem template, and the problem is generated as " What is the income of health insurance in the first quarter?
  • the corresponding answer is the value "5246286" in the cell intersecting the second and third rows; until the second cell and the first column of the first row in the table are obtained
  • the meaning of the keyword in the last cell then take the meaning keyword in the third cell of the first row in the table, and then get the meaning keywords in each cell in the first column, in order
  • the problem-answer pair is saved to the standard knowledge base.
  • S40' obtaining the position of the first word sequence separator in the text as the position of the current word sequence separator, and the position of each keyword separator before the first word sequence separator as the position of each current keyword separator;
  • S41' According to the generation rule of the question-answer pair, each meaning keyword before each current keyword separator is obtained, and the problem item generated in the problem template is temporarily stored in the problem;
  • S42' the numerical keyword before the current word sequence separator is obtained.
  • step S43' the associated question and answer are saved; S44', determining whether the current word sequence separator is the last word sequence separator in the answer file, and if yes, executing step S47', if otherwise, performing step S45'; S45', the position of the current word sequence separator is sequentially shifted and the position of the current word sequence separator is reset; S46', the position of each current keyword separator is reset to the key before the current word sequence separator The position of the word separator is executed in step S41'; S47' and ended.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种标准知识库的构建方法,属于数据库维护领域。一种标准知识库的构建方法,包括如下步骤:构建答案文件(S1);构建问题模板(S2);设置恒定项和疑问词(S3);预设问题-答案对的生成规则;形成问题-答案对(S4)。采用上述方法构建标准知识库,可以实现批量导入数据,并根据规则自动生成问题-答案对,减少了基础数据库的维护工作量,大大提高了工作效率。

Description

标准知识库的构建方法、电子装置及存储介质
本申请申明享有2017年10月26日递交的申请号为201711031785.9、名称为“标准知识库的构建方法、电子装置及存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请涉及数据库维护领域,涉及一种标准知识库的构建方法、电子装置及存储介质。
背景技术
随着互联网的飞速发展,网络客服已经普及到各行各业,深入到日常商业服务的各个环节。目前,常见的网络客户通常由智能客服机器人和人工客服组成,智能客服可以实现昼夜和节假日的全天候服务,分流人工客服负担。
但是,智能客服机器人的回答都是事先设置好的,通常都是按一个问题对应一个答案的方式进行配对保存在基础数据库中,因此在构建基础数据库时,需要尽可能多地维护问题-答案对,以实现智能客服机器人的智能回答,使得基础数据库的维护工作量巨大,耗费大量的人力成本。
发明内容
本申请的目的在于提出了一种标准知识库的构建方法、电子装置及计算机可读存储介质,通过设定问题和答案的组成规则,使得***可以根据设定的规则将接收到的内容进行问题和答案的自动生成。
本申请是通过下述技术方案来解决上述技术问题:
一种标准知识库的构建方法,其特征在于,包括如下步骤:S1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所 述文件包括表格或者文本;S2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;S3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;S4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
一种电子装置,包括存储器和处理器,所述存储器上存储有可被所述处理器执行的标准知识库的构建***,所述标准知识库的构建***包括:文件接收模块,用于接收整理好的答案文件,所述答案文件中包含有至少一个答案,所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;模板设置模块,用于根据答案文件中的答案设置问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;输入模块,用于接收恒定项和疑问词的内容;问题-答案对生成模块,用于根据问题-答案对的生成规则将接收到的答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
一种计算机可读存储介质,所述计算机可读存储介质内存储有标准知识库的构建***,所述标准知识库的构建***可被至少一个处理器所执行,以实现以下步骤:S1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;S2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;S3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;S4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相 应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
本申请的积极进步效果在于:采用本申请构建标准知识库,实现批量导入数据,根据规则自动生成问题-答案对,减少基础数据库的维护工作量。
附图说明
图1示出了本申请电子装置一实施例的硬件架构示意图;
图2示出了本申请电子装置中标准知识库的构建***一实施例的程序模块示意图;
图3示出了本申请标准知识库的构建方法实施例一的流程图;
图4示出了本申请方法实施例二中构建答案文件的流程图;
图5示出了本申请方法实施例二中问题模板的流程图;
图6示出了本申请方法实施例二中设置恒定项和疑问词的流程图;
图7示出了本申请方法实施例二中形成问题-答案对的流程图;
图8示出了本申请方法中答案文件为表格形式时的示意图;
图9示出了本申请方法实施例三中构建答案文件的流程图;
图10示出了本申请方法实施例三中构建问题模板的流程图;
图11示出了本申请方法实施例三中形成问题-答案对的流程图;
图12示出了本申请方法中答案文件为文本形式时的示意图。
具体实施方式
下面通过实施例的方式进一步说明本申请,但并不因此将本申请限制在所述的实施例范围之中。
首先,本申请提出了一种电子装置。
参阅图1所示,是本申请电子装置一实施例的硬件架构示意图。本实施 例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述电子装置2至少包括,但不限于,可通过***总线相互通信连接存储器21、处理器22、网络接口23、以及标准知识库的构建***20。其中:
所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作***和各类应用软件,例如所述标准知识库的构建***20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的标准知识库的构建***20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与外部终端相连,在所述电子装置2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图1仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
在本实施例中,存储于存储器21中的所述标准知识库的构建***20可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本申请。
例如,图2示出了所述标准知识库的构建***20一实施例的程序模块示意图,该实施例中,所述标准知识库的构建***20可以被分割为文件接收模块201、模板设置模块202、输入模块203和问题-答案对生成模块204。以下描述将具体介绍所述程序模块201-204的具体功能。
所述文件接收模块201用于接收整理好的答案文件,所述答案文件中包含有至少一个答案,所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;所述模板设置模块202用于根据答案文件中的答案设置问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;所述输入模块203用于接收恒定项和疑问词的内容;所述问题-答案对生成模块204用于根据问题-答案对的生成规则将接收到的答案文件中 相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
本实施例中,所述答案文件中的内容需要事先按统一格式进行整理。需要注意的是,这里整理的格式需要和问题-答案对的生成规则相匹配,比如:答案文件按文本格式进行整理,那么问题-答案对的生成规则也是针对文本格式的文件的,又如:答案文件按表格格式进行整理,那么问题-答案对的生成规则就是针对表格格式的文件的。
其次,本申请提出一种标准知识库的构建方法。
在实施例一中,如图3所示,所述的标准知识库的构建方法包括如下步骤:S1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;S2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;S3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;S4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
本实施例中,答案文件可以是文本或表格,下面分别以答案文件为文本和表格对本方法中的步骤做进一步地详细说明。
实施例二中,在实施例一的基础上,以答案文件为表格格式对实施例一中的各个步骤做了进一步地说明,具体如下:
一、构建答案文件(如图4所示)
S11、搜集答案;S12、将每个答案拆分为由若干关键词组成的词序列; S13、获取每个词序列中表征答案含义的两个含义关键词;S14、将含义关键词去重并分类;S15、将一类含义关键词作为表格的首行,另一类含义关键词作为表格的首列,且首行和首列的交叉单元格空白;S16、获取词序列中表征答案数值的数值关键词;S17、将所述数值关键词填写在该数值关键词所在词序列中的两个含义关键词所在行和列交叉的单元格内。
二、构建问题模板(如图5所示)
S21、对应答案文件中含义关键词的种类确定问题模板中变动项的数量;S22、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。
三、设置恒定项和疑问词(如图6所示)
S31、将每个答案拆分为由若干关键词组成的词序列;S32、获取词序列中表征答案含义的含义关键词中的抽象名词作为恒定项;S33、在恒定项之后设置一个适合于询问答案文件中数值关键词的疑问词。
四、形成问题-答案对(如图7所示)
S40、获取表格中首行和首列中首个非空白单元格作为两个变动项的当前位置;S41、根据问题-答案对的生成规则,获取当前位置中的含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;S42、获取生成问题的两个含义关键词所在行和列交叉的单元格中数值关键词作为答案暂存;S43、将暂存的问题和答案关联保存;S44、判断首个变动项对应的当前位置中的含义关键词是否为该含义关键词所在首行或者首列中的最后一个词,若是则执行步骤S46,若否则执行步骤S45;S45、将首个变动项对应的当前位置沿该当前位置中的含义关键词所在的首行或者首列向后顺序推移一个,并重置首个变动项对应的当前位置,执行步骤S41;S46、判断第二个变动项对应当前位置中的含义关键词是否为该含义关键词所在首例或者首行中的最后一个词,若是则执行步骤S48,若否则执行步骤S47;S47、将第二个变动项对应的当前位置沿该当前位置中的含义关键词所在的首列或者首行向后顺 序推移一个,执行步骤S41;S48、结束。
下面以构建关于每季度各险种收入的标准知识库为例,做详细说明:
1、搜集关于每季度各险种的收入数据的答案,将关于每季度各险种的收入数据按表格形式整理成如图8所示的答案文件,其中首行和首列分别为两类含义关键词,分别为时间和险种(也可以为首行为险种,首列为时间),具体险种所在列和具体时间所在行交叉的单元格内为该时间该险种的收入额。2、根据前述表格中两类含义关键词确定问题模板中变动项为两项,根据语法,将问题模板确定为“两个变动项+的+一个恒定项+是+疑问词”。3、根据搜集的答案,确定恒定项为“收入”,疑问词为“多少”,得到适用于前述答案文件的更为明确的问题模板为“两个变动项+的+收入+是+多少”。4、获取表格中首行的第二个单元格和首列的第二个单元格中的两个含义关键词分别嵌入到前述问题模板中两个变动项的位置,生成问题为“第一季度意外险的收入是多少”,对应生成的答案为第二列和第二行交叉的单元格中的数值“2560000”,再将生成的问题和答案作为一对问题-答案对关联保存到标准知识库中;接着,取表格中首行的第二个单元格和首列的第三个单元格中的两个含义关键词分别嵌入到前述问题模板中两个变动项的位置,生成问题为“第一季度健康险的收入是多少”,对应生成的答案为第二列和第三行交叉的单元格中的数值“5246286”;直到获取表格中首行的第二个单元格和首列的最后一个单元格中的含义关键词为止;再取获取表格中首行的第三个单元格中的含义关键词,并依次获取首列中的各个单元格中的含义关键词,依次顺序生成问题-答案对保存到标准知识库中。
实施例三中,在实施例一的基础上,以答案文件为文本格式对实施例一中的各个步骤做了进一步地说明,具体如下:
一、构建答案文件(如图9所示)
S11’、搜集答案;S12’、将每个答案拆分为由若干关键词组成的词序列; S13’、保留词序列中表征答案含义的含义关键词和表征答案数值的数值关键词;S14’、将同一个词序列中的含义关键词和数值关键词按顺序排列,并在各关键词之间采用统一的关键词分隔符进行分隔;S15’、在不同词序列之间采用不同于关键词分隔符的统一的词序列分隔符进行分隔。
二、构建问题模板(如图10所示)
S21’、对应答案文件中同一个词序列中关键词分隔符的数量确定问题模板中变动项的数量;S22’、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。
三、设置恒定项和疑问词(同实施例二,此处不再赘述。)
四、形成问题-答案对(如图11所示)
S40’、获取文本中首个词序列分隔符的位置作为当前词序列分隔符的位置,以及首个词序列分隔符之前各关键词分隔符的位置作为各当前关键词分隔符的位置;S41’、根据问题-答案对的生成规则,获取各当前关键词分隔符之前的各含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;S42’、获取当前词序列分隔符之前数值关键词作为答案暂存;S43’、将暂存的问题和答案关联保存;S44’、判断当前词序列分隔符是否为答案文件中最后一个词序列分隔符,若是则执行步骤S47’,若否则执行步骤S45’;S45’、将当前词序列分隔符的位置顺序后移并重置当前词序列分隔符的位置;S46’、各当前关键词分隔符的位置重置为当前词序列分隔符之前各关键词分隔符的位置,执行步骤S41’;S47’、结束。
下面还是以构建关于每季度各险种收入的标准知识库为例,做详细说明:
1、搜集关于每季度各险种的收入数据的答案(同上例),将关于每季度各险种的收入数据按文本形式整理成如图12所示的答案文件,每个词序列之间用分号进行分隔,同一词序列中的各个关键词之间用逗号进行分隔。(也可根据习惯用其他的符号进行分隔。)2、根据前述文本中每个词序列中的含义关键词的数量确定问题模板中变动项为两项,另外根据语法,将问题模板 确定为“两个变动项+的+一个恒定项+是+疑问词”。3、根据前述搜集的答案,可以确定恒定项为“收入”,疑问词为“多少”,因此可以得到适用于前述答案文件的更为明确的问题模板为“两个变动项+的+收入+是+多少”。4、获取首个冒号的位置和该冒号之前各个逗号的位置,根据逗号的顺序依次取逗号之前的含义关键词对应嵌入到问题模板的变动项位置,生成问题为“第一季度意外险的收入是多少”,再获取所述冒号之前的数值关键词,生成答案为“2560000”,将前述生成的问题和答案作为问题-答案对关联保存在标准知识库中;然后获取第二个冒号的位置和该冒号之前各个逗号的位置,按照前述一样的规则将生成问题和答案,并将生成的问题和答案作为问题-答案对关联保存在标准知识库中;按此规则依次生成问题-答案对关联保存在标准知识库中,直至最后一个冒号为止。
此外,本申请一种计算机可读存储介质,该计算机可读存储介质内存储有标准知识库的构建***20,该标准知识库的构建***20可被一个或多个处理器执行时,实现上述标准知识库的构建方法或电子装置的操作。
虽然以上描述了本申请的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本申请的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本申请的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本申请的保护范围。

Claims (17)

  1. 一种标准知识库的构建方法,其特征在于,包括如下步骤:
    S1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;
    S2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;
    S3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;
    S4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
  2. 根据权利要求1所述的标准知识库的构建方法,其特征在于,当步骤S1中所述文件为表格时,包括以下分步骤:
    S11、搜集答案;
    S12、将每个答案拆分为由若干关键词组成的词序列;
    S13、获取每个词序列中表征答案含义的两个含义关键词;
    S14、将含义关键词去重并分类;
    S15、将一类含义关键词作为表格的首行,另一类含义关键词作为表格的首列,且首行和首列的交叉单元格空白;
    S16、获取词序列中表征答案数值的数值关键词;
    S17、将所述数值关键词填写在该数值关键词所在词序列中的两个含义关键词所在行和列交叉的单元格内。
  3. 根据权利要求2所述的标准知识库的构建方法,其特征在于,步骤S2具体包括以下分步骤:
    S21、对应答案文件中含义关键词的种类确定问题模板中变动项的数量;
    S22、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。
  4. 根据权利要求2所述的标准知识库的构建方法,其特征在于,步骤S4具体包括以下分步骤:
    S40、获取表格中首行和首列中首个非空白单元格作为两个变动项的当前位置;
    S41、根据问题-答案对的生成规则,获取当前位置中的含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;
    S42、获取生成问题的两个含义关键词所在行和列交叉的单元格中数值关键词作为答案暂存;
    S43、将暂存的问题和答案关联保存;
    S44、判断首个变动项对应的当前位置中的含义关键词是否为该含义关键词所在首行或者首列中的最后一个词,若是则执行步骤S46,若否则执行步骤S45;
    S45、将首个变动项对应的当前位置沿该当前位置中的含义关键词所在的首行或者首列向后顺序推移一个,并重置首个变动项对应的当前位置,执行步骤S41;
    S46、判断第二个变动项对应当前位置中的含义关键词是否为该含义关键词所在首例或者首行中的最后一个词,若是则执行步骤S48,若否则执行步骤S47;
    S47、将第二个变动项对应的当前位置沿该当前位置中的含义关键词所在的首列或者首行向后顺序推移一个,执行步骤S41;
    S48、结束。
  5. 根据权利要求1所述的标准知识库的构建方法,其特征在于,当步骤S1中所述文件为文本时,包括以下分步骤:
    S11’、搜集答案;
    S12’、将每个答案拆分为由若干关键词组成的词序列;
    S13’、保留词序列中表征答案含义的含义关键词和表征答案数值的数值关键词;
    S14’、将同一个词序列中的含义关键词和数值关键词按顺序排列,并在各关键词之间采用统一的关键词分隔符进行分隔;
    S15’、在不同词序列之间采用不同于关键词分隔符的统一的词序列分隔符进行分隔。
  6. 根据权利要求5所述的标准知识库的构建方法,其特征在于,步骤S2具体包括以下分步骤:
    S21’、对应答案文件中同一个词序列中关键词分隔符的数量确定问题模板中变动项的数量;
    S22’、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。
  7. 根据权利要求5所述的标准知识库的构建方法,其特征在于,步骤S4包括以下分步骤:
    S40’、获取文本中首个词序列分隔符的位置作为当前词序列分隔符的位置,以及首个词序列分隔符之前各关键词分隔符的位置作为各当前关键词分隔符的位置;
    S41’、根据问题-答案对的生成规则,获取各当前关键词分隔符之前的各含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;
    S42’、获取当前词序列分隔符之前数值关键词作为答案暂存;
    S43’、将暂存的问题和答案关联保存;
    S44’、判断当前词序列分隔符是否为答案文件中最后一个词序列分隔符,若是则执行步骤S47’,若否则执行步骤S45’;
    S45’、将当前词序列分隔符的位置顺序后移并重置当前词序列分隔符的 位置;
    S46’、各当前关键词分隔符的位置重置为当前词序列分隔符之前各关键词分隔符的位置,执行步骤S41’;
    S47’、结束。
  8. 根据权利要求1-7中任一项所述的标准知识库的构建方法,其特征在于,步骤S3具体包括以下分步骤:
    S31、将每个答案拆分为由若干关键词组成的词序列;
    S32、获取词序列中表征答案含义的含义关键词中的抽象名词作为恒定项;
    S33、在恒定项之后设置一个适合于询问答案文件中数值关键词的疑问词。
  9. 一种电子装置,包括存储器和处理器,其特征在于,所述存储器上存储有可被所述处理器执行的标准知识库的构建***,所述标准知识库的构建***包括:
    文件接收模块,用于接收整理好的答案文件,所述答案文件中包含有至少一个答案,所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;
    模板设置模块,用于根据答案文件中的答案设置问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;
    输入模块,用于接收恒定项和疑问词的内容;
    问题-答案对生成模块,用于根据问题-答案对的生成规则将接收到的答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
  10. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有标准知识库的构建***,所述标准知识库的构建***可被至少一个 处理器所执行,以实现以下步骤:
    S1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;
    S2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;
    S3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;
    S4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。
  11. 根据权利要求10所述的计算机可读存储介质,其特征在于,当步骤S1中所述文件为表格时,包括以下分步骤:
    S11、搜集答案;
    S12、将每个答案拆分为由若干关键词组成的词序列;
    S13、获取每个词序列中表征答案含义的两个含义关键词;
    S14、将含义关键词去重并分类;
    S15、将一类含义关键词作为表格的首行,另一类含义关键词作为表格的首列,且首行和首列的交叉单元格空白;
    S16、获取词序列中表征答案数值的数值关键词;
    S17、将所述数值关键词填写在该数值关键词所在词序列中的两个含义关键词所在行和列交叉的单元格内。
  12. 根据权利要求11所述的计算机可读存储介质,其特征在于,步骤S2具体包括以下分步骤:
    S21、对应答案文件中含义关键词的种类确定问题模板中变动项的数量;
    S22、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符 合语法的问题模板。
  13. 根据权利要求11所述的计算机可读存储介质,其特征在于,步骤S4具体包括以下分步骤:
    S40、获取表格中首行和首列中首个非空白单元格作为两个变动项的当前位置;
    S41、根据问题-答案对的生成规则,获取当前位置中的含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;
    S42、获取生成问题的两个含义关键词所在行和列交叉的单元格中数值关键词作为答案暂存;
    S43、将暂存的问题和答案关联保存;
    S44、判断首个变动项对应的当前位置中的含义关键词是否为该含义关键词所在首行或者首列中的最后一个词,若是则执行步骤S46,若否则执行步骤S45;
    S45、将首个变动项对应的当前位置沿该当前位置中的含义关键词所在的首行或者首列向后顺序推移一个,并重置首个变动项对应的当前位置,执行步骤S41;
    S46、判断第二个变动项对应当前位置中的含义关键词是否为该含义关键词所在首例或者首行中的最后一个词,若是则执行步骤S48,若否则执行步骤S47;
    S47、将第二个变动项对应的当前位置沿该当前位置中的含义关键词所在的首列或者首行向后顺序推移一个,执行步骤S41;
    S48、结束。
  14. 根据权利要求10所述的计算机可读存储介质,其特征在于,当步骤S1中所述文件为文本时,包括以下分步骤:
    S11’、搜集答案;
    S12’、将每个答案拆分为由若干关键词组成的词序列;
    S13’、保留词序列中表征答案含义的含义关键词和表征答案数值的数值关键词;
    S14’、将同一个词序列中的含义关键词和数值关键词按顺序排列,并在各关键词之间采用统一的关键词分隔符进行分隔;
    S15’、在不同词序列之间采用不同于关键词分隔符的统一的词序列分隔符进行分隔。
  15. 根据权利要求14所述的计算机可读存储介质,其特征在于,步骤S2具体包括以下分步骤:
    S21’、对应答案文件中同一个词序列中关键词分隔符的数量确定问题模板中变动项的数量;
    S22’、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。
  16. 根据权利要求14所述的计算机可读存储介质,其特征在于,步骤S4包括以下分步骤:
    S40’、获取文本中首个词序列分隔符的位置作为当前词序列分隔符的位置,以及首个词序列分隔符之前各关键词分隔符的位置作为各当前关键词分隔符的位置;
    S41’、根据问题-答案对的生成规则,获取各当前关键词分隔符之前的各含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;
    S42’、获取当前词序列分隔符之前数值关键词作为答案暂存;
    S43’、将暂存的问题和答案关联保存;
    S44’、判断当前词序列分隔符是否为答案文件中最后一个词序列分隔符,若是则执行步骤S47’,若否则执行步骤S45’;
    S45’、将当前词序列分隔符的位置顺序后移并重置当前词序列分隔符的位置;
    S46’、各当前关键词分隔符的位置重置为当前词序列分隔符之前各关键 词分隔符的位置,执行步骤S41’;
    S47’、结束。
  17. 根据权利要求10-16中任一项所述的计算机可读存储介质,其特征在于,步骤S3具体包括以下分步骤:
    S31、将每个答案拆分为由若干关键词组成的词序列;
    S32、获取词序列中表征答案含义的含义关键词中的抽象名词作为恒定项;
    S33、在恒定项之后设置一个适合于询问答案文件中数值关键词的疑问词。
PCT/CN2018/076484 2017-10-26 2018-02-12 标准知识库的构建方法、电子装置及存储介质 WO2019080419A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711031785.9A CN107832374A (zh) 2017-10-26 2017-10-26 标准知识库的构建方法、电子装置及存储介质
CN201711031785.9 2017-10-26

Publications (1)

Publication Number Publication Date
WO2019080419A1 true WO2019080419A1 (zh) 2019-05-02

Family

ID=61650999

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/076484 WO2019080419A1 (zh) 2017-10-26 2018-02-12 标准知识库的构建方法、电子装置及存储介质

Country Status (2)

Country Link
CN (1) CN107832374A (zh)
WO (1) WO2019080419A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710747B (zh) * 2019-01-16 2021-04-06 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN112328762B (zh) * 2020-11-04 2023-12-19 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261690A (zh) * 2008-04-18 2008-09-10 北京百问百答网络技术有限公司 一种问题自动生成的***及其方法
CN104978396A (zh) * 2015-06-02 2015-10-14 百度在线网络技术(北京)有限公司 一种基于知识库的问答题目生成方法和装置
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366621B2 (en) * 2014-08-26 2019-07-30 Microsoft Technology Licensing, Llc Generating high-level questions from sentences
CN104933097B (zh) * 2015-05-27 2019-04-16 百度在线网络技术(北京)有限公司 一种用于检索的数据处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261690A (zh) * 2008-04-18 2008-09-10 北京百问百答网络技术有限公司 一种问题自动生成的***及其方法
CN104978396A (zh) * 2015-06-02 2015-10-14 百度在线网络技术(北京)有限公司 一种基于知识库的问答题目生成方法和装置
CN107220296A (zh) * 2017-04-28 2017-09-29 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备

Also Published As

Publication number Publication date
CN107832374A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
US10621281B2 (en) Populating values in a spreadsheet using semantic cues
WO2019062001A1 (zh) 智能机器人客服方法、电子装置及计算机可读存储介质
CN110292775B (zh) 获取差异数据的方法及装置
WO2019076062A1 (zh) 功能页面定制方法及应用服务器
WO2019062010A1 (zh) 语义识别方法、电子装置及计算机可读存储介质
CN1664810A (zh) 辅助表格填充
US11321361B2 (en) Genealogical entity resolution system and method
US10748166B2 (en) Method and system for mining churn factor causing user churn for network application
WO2019062078A1 (zh) 智能客服方法、电子装置及计算机可读存储介质
WO2019080420A1 (zh) 人机协作的客服方法、电子装置及存储介质
WO2019085463A1 (zh) 部门需求的推荐方法、应用服务器及计算机可读存储介质
WO2019080419A1 (zh) 标准知识库的构建方法、电子装置及存储介质
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
CN104516635A (zh) 管理内容显示
WO2021169626A1 (zh) 基于词库的匹配推荐方法、装置、设备及存储介质
US20150379112A1 (en) Creating an on-line job function ontology
CN111475494A (zh) 一种海量数据处理方法、***、终端及存储介质
CN106649210B (zh) 一种数据转换方法及装置
CN114528413B (zh) 众包标注支持的知识图谱更新方法、***和可读存储介质
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN113220951B (zh) 一种基于智能内容的医学临床支持方法和***
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
US10671668B2 (en) Inferring graph topologies

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18870348

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 13.10.2020)

122 Ep: pct application non-entry in european phase

Ref document number: 18870348

Country of ref document: EP

Kind code of ref document: A1