CN110008312A

CN110008312A - 一种文档写作助手实现方法、***及电子设备

Info

Publication number: CN110008312A
Application number: CN201910284378.1A
Authority: CN
Inventors: 许林
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-12

Abstract

本发明公开了一种文档写作助手实现方法、***及电子设备，其包括：在文档编辑界面中，输入所要搜索的信息中所应当包含的搜索项，所述搜索项至少包括关键字或词或句子；所述搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，该数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息以供编辑者选择。本发明通过词向量模型，将句子和词都转换成实数向量进行存储和匹配。相比现有技术通过词典或正则化表达式匹配，其检索结果更准确。

Description

一种文档写作助手实现方法、***及电子设备

技术领域

本发明涉及自然语言处理领域中的文档编辑方法，具体地说是一种文档写作助手实现方法、***及电子设备。

背景技术

当我们在撰写论文和专业类技术文档时，不知道用如何的词汇或句子进行准确的描述，特别在撰写英文论文时，由于语言的隔阂，不能表达我们真正想要表达的东西。目前还没有行之有效地相关技术方案能在写作中进行提示，如微软的office自带语法检查器能进行一定的语法检查，但是Office语法检查器主要是存储了常见的词语，对句子分词后检查句子中的词是否能在词典中查找到；

而要查找相似句子只能在百度学术，谷歌学术进行关键词搜索，同时，这些搜索网站是通过正则化表达式搜索去进行检索，如搜索“手机”，则检索结果只会含有“手机”二字的文献，若文献中写成“移动终端”则检索不到，同时，网站检索返回的结果是整个文献的出处网址和简单的摘要，用户需要进一步点击网站才能查看详细的结果。总而言之，现有技术仅仅具有自带的只能检测错别字的功能，但是其对句子的组织没有太大帮助，且搜索网站不能直接返回详细结果。

发明内容

基于此，为解决上述不足，特提出了一种文档写作助手实现方法及***，以有效解决背景技术中所提及的技术问题即在文档创作过程中，能够实现智能检索出类似的语句表达提供给文档创作人员参考，以帮助文档写作人员更快更准确的完成文档创作。

一种文档写作助手实现方法，其特征在于，包括：

S1、在文档编辑界面中，输入所要搜索的信息中所应当包含的搜索项，所述搜索项至少包括关键字或词或句子；

S2、所述搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，该数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；

至少包括与词向量匹配的句子及其附属信息，所述附属信息至少包含句子出处、句子自带的引用信息；

S3、在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息句向量以供编辑者选择。可选的，在其中一个实施例中，所述S2中数据库的建立过程包括：预先从网络数据库中搜索和整理文档，并自文档中提取文本信息；所述文本信息的提取过程包括提取出文档中的文本摘要，正文和引用信息后，逐一对文本摘要或正文内容进行断句；采用预训练好的词向量模型，将每一断句中的所有单词用词向量表示后，对每个单词进行分词和词性标注；基于所标注的词性获取当前句子所对应的实数向量即句向量表达形式。

可选的，在其中一个实施例中，句向量表达形式的获取过程包括基于所标注的词性对每个单词进行加权求和得到当前句子所对应的句向量。

可选的，在其中一个实施例中，所述利用所标注的词性对每个单词进行加权求和得到句子的句向量表达包括：

基于所标注的词性对每个单词进行加权求和；所述加权求和公式为

其中，s表示句向量，N表示该句子中单词的个数，v表示词向量，α表示对应的权重；

所述α权重计算方式为：f为此单词的词频，即单词在句子中出现的次数。

可选的，在其中一个实施例中，从预先建立的数据库中搜索与词向量匹配的句向量过程包括：自该数据库中搜索包含所述搜索项对应的词向量的句向量并判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配。

可选的，在其中一个实施例中，判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配包括：获取搜索到的句向量与所述搜索项对应的词向量的向量内积，并挑选出符合相似度评价值的句向量后句向量对应的全部信息。

可选的，在其中一个实施例中，挑选出符合相似度评价值的句向量后句向量对应的全部信息包括：若当前所搜索到的句向量与所述搜索项对应的词向量的向量内积大于相似度评价值，则将该句向量存入数据库中的临时数组内；待搜索完毕后将临时数组内全部句向量按照其与所述搜索项对应的词向量的向量内积从大到小排序，并选取出多个句向量。

一种文档写作助手实现***，其特征在于，包括：

接收模块，用于在文档编辑界面中，接收输入的内容信息；

信息输入模块，用于在文档编辑界面中，输入所要搜索的信息中所应当包含的搜索项，所述搜索项至少包括关键字或词或句子；

信息搜索模块，用于使得搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，该数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；

信息反馈模块，用于在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息以供编辑者选择。

可选的，在其中一个实施例中，所述信息搜索模块中数据库的建立过程包括：预先从网络数据库中搜索和整理文档，并自文档中提取文本信息；所述文本信息的提取过程包括提取出文档中的文本摘要，正文和引用信息后，逐一对文本摘要或正文内容进行断句；采用预训练好的词向量模型，将每一断句中的所有单词用词向量表示后，对每个单词进行分词和词性标注；基于所标注的词性获取当前句子所对应的实数向量即句向量表达形式；所述句向量表达形式的获取过程包括基于所标注的词性对每个单词进行加权求和得到当前句子所对应的句向量。

可选的，在其中一个实施例中，从预先建立的数据库中搜索与词向量匹配的句向量过程包括：自该数据库中搜索包含所述搜索项对应的词向量的句向量并判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配；所述判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配包括：获取搜索到的句向量与所述搜索项对应的词向量的向量内积，并挑选出符合相似度评价值的句向量后句向量对应的全部信息；所述挑选出符合相似度评价值的句向量后句向量对应的全部信息包括：若当前所搜索到的句向量与所述搜索项对应的词向量的向量内积大于相似度评价值，则将该句向量存入数据库中的临时数组内；待搜索完毕后将临时数组内全部句向量按照其与所述搜索项对应的词向量的向量内积从大到小排序，并选取出多个句向量。

一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运的计算机程序，所述处理器用于执行上述所述的实现方法。

与现有技术相比，本发明的有益效果：

本发明通过词向量模型，将句子和词都转换成实数向量进行存储和匹配。相比现有技术通过词典或正则化表达式匹配，其检索结果更准确。同时，直接将常用信息存储，用户检索后能直接得到真正想要的信息。因此本发明能为文档写作工作提供必要的参考信息，减少用户搜索时间，从而加快文档的写作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一种文档写作助手实现方法流程示意图；

图2为一种文档写作助手实现***的结构框图；

图3为本发明的实施例中智能服务器中核心流程图；

图4为本发明的实施例中智能客户端中核心流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一元件称为第二元件，且类似地，可将第二元件为第一元件。第一元件和第二元件两者都是元件，但其不是同一元件。

为解决传统技术中的技术问题，在本实施例中，特提出了一种文档写作助手实现方法，其可在文档创作过程中，智能检索出类似的语句表达提供给文档创作人员参考，以帮助文档写作人员更快更准确的完成文档创作。如图1所示，为该一种文档写作助手实现方法流程示意图，该文档写作助手实现方法，

其中，S1、在文档编辑界面中，输入所要搜索的信息中所应当包含的搜索项，所述搜索项至少包括关键字或词或句子(短句)；

其中，S2、所述搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，该数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；具体的，使得数据库中保存的是一条句子占一个数据单元，也即一行，这一行包括很多列，其中一列是句子文本，第二列是句向量，后面的几列还可包括句子出处，引用等信息；

在一些具体的实施例中，所述S2中数据库的建立过程包括：预先从网络数据库中搜索和整理文档，并自文档中提取文本信息；所述文本信息的提取过程包括提取出文档中的文本摘要，正文和引用信息后，逐一对文本摘要或正文内容进行断句，所述断句包括以标点符号句号、问号、感叹号等对摘要和正文内容进行断句；采用预训练好的词向量模型，将每一断句中的所有单词用词向量表示后，通过BI-LSTM模型和CRF算法对每个单词进行分词和词性标注，具体的由于句子内英文单词之间以空格为单位自然划分开了，从而无需分词；而汉字句子内词与词之前无分隔符号，因此需要先对其分词操作，将句子划分为以词为单位，一个词可能为一个字，也可能为多个字。如对于英文文档，先采用预训练好的词向量模型，将所有单词用词向量表示后，通过BI-LSTM模型和CRF算法，对每个词进行词性标注；对于中文文档，则先采用预训练好的词向量模型，将所有字用字向量表示后，通过Bi-LSTM模型和CRF算法，对句子进行分词和词性标注；基于所标注的词性获取当前句子所对应的实数向量即句向量表达形式。该句向量表达形式的获取过程包括基于所标注的词性对每个单词进行加权求和得到当前句子所对应的句向量，该句向量为高维的实数向量，具体地，在本实施例中，句向量表示为256维的实数向量。在一些具体的实施例中，所述利用所标注的词性对每个单词进行加权求和得到句子的句向量表达包括：

所述α权重计算方式为：f为此单词的词频，即单词在句子中出现的次数。在一些具体的实施例中，从预先建立的数据库中搜索与词向量匹配的句向量过程包括：自该数据库中搜索包含所述搜索项对应的词向量的句向量并判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配；判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配包括：获取搜索到的句向量与所述搜索项对应的词向量的向量内积，并挑选出符合相似度评价值的句向量后句向量对应的全部信息；挑选出符合相似度评价值的句向量后句向量对应的全部信息包括：若当前所搜索到的句向量与所述搜索项对应的词向量的向量内积(各对应元素相乘求和)大于相似度评价值，则将该句向量存入数据库中的临时数组内；待搜索完毕后将临时数组内全部句向量按照其与所述搜索项对应的词向量的向量内积从大到小排序，并选取出多个句向量。在一些具体的实施例中，也可采用欧氏距离，曼哈顿距离，皮尔逊相关系数，斯皮尔曼(等级)相关系数，杰卡德相似系数，SimHash+汉明距离等常见距离测度中的一种或多种获取相似度评价值。

其中，S3、在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息句向量以供编辑者选择。

基于上述原理，还提供了一种文档写作助手实现***，图2所示，其特征在于，包括：

接收模块，用于在文档编辑界面中，接收输入的内容信息；

信息搜索模块，用于使得搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，该数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；在其中一个实施例中，所述信息搜索模块中数据库的建立过程包括：预先从网络数据库中搜索和整理文档，并自文档中提取文本信息；所述文本信息的提取过程包括提取出文档中的文本摘要，正文和引用信息后，逐一对文本摘要或正文内容进行断句；采用预训练好的词向量模型，将每一断句中的所有单词用词向量表示后，对每个单词进行分词和词性标注；基于所标注的词性获取当前句子所对应的实数向量即句向量表达形式；所述句向量表达形式的获取过程包括基于所标注的词性对每个单词进行加权求和得到当前句子所对应的句向量。

所述利用所标注的词性对每个单词进行加权求和得到句子的句向量表达包括：

所述α权重计算方式为：f为此单词的词频，即单词在句子中出现的次数。最后将所有句向量所对应的文本、文本出处以及文本所涉及的引用等信息存入数据库。

从预先建立的数据库中搜索与词向量匹配的句向量过程包括：自该数据库中搜索包含所述搜索项对应的词向量的句向量并判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配；所述判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配包括：获取搜索到的句向量与所述搜索项对应的词向量的向量内积，并挑选出符合相似度评价值的句向量后句向量对应的全部信息；所述挑选出符合相似度评价值的句向量后句向量对应的全部信息包括：若当前所搜索到的句向量与所述搜索项对应的词向量的向量内积大于相似度评价值，则将该句向量存入数据库中的临时数组内；待搜索完毕后将临时数组内全部句向量按照其与所述搜索项对应的词向量的向量内积从大到小排序，并选取出多个句向量。

信息反馈模块，用于在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息句向量以供编辑者选择。

基于上述内容，下面以具体实例对本案进行说明：

实施例一论文写作

信息搜索模块被设置于智能服务器端，图3所示，：在信息搜索模块中，预先将某一或者多个领域论文全部下载，如电子领域IEEE旗下期刊发表的论文全文下载后，提取其文本摘要，正文和引用；对摘要和正文通过标点符号：句号，问号，感叹号等将文本切割成句子为单位；该信息搜索模块对于英文论文，先采用现有公开的预训练好的词向量模型得到每个单词的词向量，在本实施例中，利用谷歌的BERT得到单词的词向量。然后，通过Bi-LSTM模型和CRF算法(GMM-CRF,CNN，RNN算法亦可)，对每个词进行词性标注，如名词，动词则记为实词，如为助词，代词则标为虚词；通过加权求和得到句子的高维实数的句向量表达以将句子转成实数向量，在本实施例中，将句子转换成256维的实数向量。可替换地，除了加权求和获得句向量外，还可以通过基于统计的词袋模型(BoW)，RNN,CNN，基于统计的词袋模型，词袋模型等现有公开技术获得句向量，本例对此不做具体限定。

最后将所有句子转换成实数向量，并以句子为单位，将其所有信息存入数据库中的一个数据单元中，数据单元形式具体如下图表；

句子文本

句子向量

句子的出处

句子引用1

句子引用2

句子引用3

其中，句子出处表示此句子是摘自何处，通过文献引用的方式列出；同时，论文中很多句子会引用其它参考文献，因此，如果此句子存在文献引用，则列出相应引用。如在本实施例中，设单个句子最多引用3个另外的文献。因此，设文献引用1，文献引用2，和文献引用3。此处，所有文献引用提供三种格式，GB/T7714，MLA,APA三种文献引用格式。

智能客户端(设置接收模块、信息输入模块和信息反馈模块)，图4所示，：用户在撰写论文时，对于不熟悉的表达可以通过信息输入模块只输入几个关键词，智能客户端通过信息输入模块将关键词通过网络传输至智能服务器端，智能服务器端的信息搜索模块将关键词转换为词向量，然后在数据库进行检索相似的句子，具体地，以向量的内积(各对应元素相乘求和)比两个向量的模的积来评判相似度。可选地，也可采用欧氏距离，曼哈顿距离，皮尔逊相关系数，斯皮尔曼(等级)相关系数，杰卡德相似系数，SimHash+汉明距离等常见距离测度中的一种或多种。如采用向量内积作为评判相似度，则1表示最接近，0表示最不接近。先将检索的句子的句向量与数据库中的句向量依次计算向量内积，如小于0.6则丢弃，如大于0.6则存在一个临时数组内，最后对数组内的依照内积从大到小排序，选取前三到五个句子作为最相似的句子，最后返回相似句子的全部信息，传输至客户端。如大于0.6的数组内为空，则返回结果为空，表示无相似句子。智能客户端的信息反馈模块显示返回的结果给用户，用户可借鉴其表达来撰写相应的语句，同时，可复制其参考文献。

实施例二.专利撰写

信息搜索模块被设置于智能服务器端：在信息搜索模块中，将某一领域专利授权书全部下载，如电子领域的授权专利下载后，提取其摘要，权利要求书和说明书。对摘要和说明书通过标点符号：句号，问号，感叹号等将文本切割成句子为单位。对权利要求书以权利要求为单位进行划分。

将所有句子转换成实数向量，方法同实施例1，然后存入数据库；

句子文本

句子向量

句子的出处

其中，句子出处表示此句子是摘自何处，通过专利号表示。

智能客户端(设置接收模块、信息输入模块和信息反馈模块)：用户在撰写专利时，对于不熟悉的表达可以只输入几个关键词，客户端通过信息输入模块将关键词通过网络传输至智能服务器端，智能服务器端的信息搜索模块将关键词转换为词向量，然后在数据库进行检索相似的句子，具体地，以向量的内积(各对应元素相乘求和)比两个向量的模的积来评判相似度。可选地，也可采用欧氏距离，曼哈顿距离，皮尔逊相关系数，斯皮尔曼(等级)相关系数，杰卡德相似系数，SimHash+汉明距离等常见距离测度中的一种或多种。然后，选取最相似的前三到五个句子，返回相似句子的全部信息，传输至客户端。客户端的信息反馈模块显示返回的结果给用户，用户可借鉴其表达来撰写相应的语句，同时，可尽量避免与现有授权专利的权利要求重合或冲突。综上可知，本发明实现了通过句子语义相似来辅助写作并通过句向量依据词性来构建加权；同时能够将句向量，引用，出处共同存储方式。

实施本发明实施例，将具有如下有益效果：

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文档写作助手实现方法，其特征在于，包括：

S3、在文档编辑界面中，返回相应的所述数据单元内的句子文本信息、句向量、句子出处、句子自带的引用信息以供编辑者选择。

2.根据权利要求1所述的方法，其特征在于，所述S2中数据库的建立过程包括：预先从网络数据库中搜索和整理文档，并自文档中提取文本信息；所述文本信息的提取过程包括提取出文档中的文本摘要，正文和引用信息后，逐一对文本摘要或正文内容进行断句；采用预训练好的词向量模型，将每一断句中的所有单词用词向量表示后，对每个单词进行词性标注；基于所标注的词性获取当前句子所对应的实数向量即句向量表达形式。

3.根据权利要求2所述的方法，其特征在于，句向量表达形式的获取过程包括基于所标注的词性对每个单词进行加权求和得到当前句子所对应的句向量。

4.根据权利要求3所述的方法，其特征在于，所述利用所标注的词性对每个单词进行加权求和得到句子的句向量表达包括：

5.根据权利要求1所述的方法，其特征在于，从预先建立的数据库中搜索与词向量匹配的句向量过程包括：自该数据库中搜索包含所述搜索项对应的词向量的句向量并判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配。

6.根据权利要求5所述的方法，其特征在于，判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配包括：获取搜索到的句向量与所述搜索项对应的词向量的向量内积，并挑选出符合相似度评价值的句向量后句向量对应的全部信息。

7.根据权利要求6所述的方法，其特征在于，选出符合相似度评价值的句向量后句向量对应的全部信息包括：若当前所搜索到的句向量与所述搜索项对应的词向量的向量内积大于相似度评价值，则将该句向量存入数据库中的临时数组内；待搜索完毕后将临时数组内全部句向量按照其与所述搜索项对应的词向量的向量内积从大到小排序，并选取出多个句向量。

8.一种文档写作助手实现***，其特征在于，包括：

接收模块，用于在文档编辑界面中，接收输入的内容信息；

信息搜索模块，用于使得搜索项被转换成词向量后从预先建立的数据库中搜索与词向量匹配的句向量，每一所述句向量均被设置在数据库的一个独立的数据单元中，该数据单元至少包括句子文本信息、句向量、句子出处、句子自带的引用信息；所述信息搜索模块中数据库的建立过程包括：预先从网络数据库中搜索和整理文档，并自文档中提取文本信息；所述文本信息的提取过程包括提取出文档中的文本摘要，正文和引用信息后，逐一对文本摘要或正文内容进行断句；采用预训练好的词向量模型，将每一断句中的所有单词用词向量表示后，对每个单词进行分词和词性标注；基于所标注的词性获取当前句子所对应的实数向量即句向量表达形式；所述句向量表达形式的获取过程包括基于所标注的词性对每个单词进行加权求和得到当前句子所对应的句向量；

9.根据权利要求8所述的***，其特征在于，从预先建立的数据库中搜索与词向量匹配的句向量过程包括：自该数据库中搜索包含所述搜索项对应的词向量的句向量并判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配；所述判断搜索到的句向量是否符合相似度评价标准，是则确认该句向量匹配包括：获取搜索到的句向量与所述搜索项对应的词向量的向量内积，并挑选出符合相似度评价值的句向量后句向量对应的全部信息；所述挑选出符合相似度评价值的句向量后句向量对应的全部信息包括：若当前所搜索到的句向量与所述搜索项对应的词向量的向量内积大于相似度评价值，则将该句向量存入数据库中的临时数组内；待搜索完毕后将临时数组内全部句向量按照其与所述搜索项对应的词向量的向量内积从大到小排序，并选取出多个句向量。

10.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运的计算机程序，所述处理器用于执行上述权利要求1-7所述的实现方法。