CN113569577B

CN113569577B - 一种基于自然语言语义分析的文本识别方法

Info

Publication number: CN113569577B
Application number: CN202110635441.9A
Authority: CN
Inventors: 刘如君; 刘志杰; 陈乔; 尚雪松
Original assignee: Beijing Microvision Technology Co ltd
Current assignee: Beijing Dongfang Tongwangxin Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2024-04-05
Anticipated expiration: 2041-06-07
Also published as: CN113569577A

Abstract

本发明提供了一种基于自然语言语义分析的文本识别方法，包括：建立自然语言语义和标准语言语义的对应关系映射集；获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别；融合了自然环境中语言语义的分析和同时进行文本识别，使得在对所获取的文本在进行自然语言语义分析时，有益于在自然语言语义的环境下对文本快速、精准、多类型同时识别。

Description

一种基于自然语言语义分析的文本识别方法

技术领域

本发明涉及到文本识别领域，尤其涉及一种基于自然语言语义分析的文本识别方法

背景技术

目前，随着自然语言处理技术的发展，基于通用信息的语言识别和语义分析技术逐渐提高，但在一些特有领域，识别正确率和理解正确率都非常低，自然语言语义和标准语言语义的对应关系问题仍需进一步解决；同时由于自然环境中的自然语言或视频所包含的文字字符不清晰或被损坏，导致识别率低；如何提取文本中的语言信息并识别语言信息中的标准语言语义和非标准语言语义是尚待完善解决的技术；如何对非标准语言语义信息进行分析判定，技术尚未完全成熟；因此，有必要提出一种基于自然语言语义分析的文本识别方法，以至少部分地解决现有技术中存在的问题。

发明内容

本发明提供一种基于自然语言语义分析的文本识别方法，用于解决自然环境中的文本识别。一种基于自然语言语义分析的文本识别方法，包括：

建立自然语言语义和标准语言语义的对应关系映射集；

获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；

将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别。

优选的，其特征在于，所述建立自然语言语义和标准语言语义的对应关系映射集包括：

步骤1：获取自然语言信息；

步骤2：提取自然语言信息的语义特征，识别自然语言信息语义信息所处的对应关系映射集区域范围；

步骤3：根据识别出的文本区域，将所述区域中的文本与词库中的文本对比，得到初始的文本信息；

步骤4：基于所述的初始文本信息的特征，对文本信息进行分析；

步骤6：根据分析结果判断所述文本信息特征的准确性及完整性；

步骤5：按照自然语言语序对所述文本信息进行矫正；

步骤7：将文本字符进行分割，识别文本字符；

步骤8：将所述的识别出的文本字符输入***映射集中，得到完整准确的对应关系映射集。

优选的，所述步骤4：基于所述的初始文本信息的特征，对文本信息进行分析，包括：识别文本在自然语言中的分布纹理；将分布纹理与背景纹理进行纹理对比度分析；当纹理对比度大于设定的限值，则识别为文本特征，进行提取；当纹理对比度不大于设定的限值，则识别为非文本。

优选的，所述自然语言信息的特征包括：自然环境中有干扰噪声场景的文本检测与定位；对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。

优选的，所述：获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；其中，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；包括：

步骤S1，实时采集自然语言信息；

步骤S2，将采集到的所述自然语言信息进行信息类型判断；

步骤S3，判断所述文本信息属于专有信息或通用信息；包括：根据所述文本信息中是否存在包含在所述关键词库中的关键词，判断所述文本信息属于专有信息或通用信息；存在包含在所述关键词库中的关键词则属于所述专有信息；不存在包含在所述关键词库中的关键词则属于所述通用信息；若属于所述通用信息，则转向步骤S4；若属于所述专有信息，则转向步骤S5；

步骤S4，对判断为属于所述通用信息的所述文本信息进行语言语义识别，形成第一语言语义识别并转向步骤S6；

步骤S5，将判断为属于所述专有信息的所述文本信息转换为标准拼音信息，并对所述标准拼音信息进行语言语义识别，形成第二语言语义识别并转向步骤S6；

步骤S6，执行所述第一语言语义识别和/或所述第二语言语义识别后结束，并生成语义识别字词库。

优选的，所述步骤S5中包括：步骤S51，将所述文本信息转换为初始拼音信息；步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息；步骤S53，对所述标准拼音信息进行语言语义识别，形成所述第二语言语义识别并转向步骤S6。

优选的，所述步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息，包括：所述模糊匹配采用同音声母校正和/或前后元音进行校正，校正后将矫正后的信息输入标准自然语言语义分析，如仍包含无法识别内容，则进行循环矫正，直至全部识别为标准自然语言语义分析。

优选的，所述将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，包括：对文本信息进行语言语义识别，形成语言语义识别状态区分；第一语言语义识别状态区分，对判断为属于通用领域的文本信息进行语言语义识别，形成第一语言语义识别；第二转换状态区分，将判断为属于垂直领域的文本信息转换为标准拼音信息；第二语言语义识别状态区分，将标准拼音信息进行语言语义识别，形成第二语言语义识别；对于所述的第一语言语义识别与第二语言语义识别，进行命令的执行操作；将非标准语言语义信息输入非标准语言语义分析***分析判定，将判断为属于专有信息的文本信息转换为标准拼音信息，完成文本识别。

优选的，对文本信息进行语言语义识别，形成语言语义识别状态区分，包括：文本扭曲状态区分、文本伸缩状态区分、文本比例状态

区分和/或文本模糊状态区分；计算状态区分的最小采集数：

其中，Q_min为状态区分的最小采集数，ω为采集错误率，n为状态区分数，P为区分概率；通过计算状态区分的最小采集数Q_min，当状态区分的最小采集数Q_min大于***设定的参考采集数时，形成语言语义识别状态区分，状态区分过程如下：将文本扭曲状态和文本标准状态进行状态识别区分，区分出扭曲度大于设定的扭曲度范围的文本部分，将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分；文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分，将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内，对文本信息进行语言语义识别；文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分；文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分，将缺失的文本通过文本前后文语言语义关联进行状态识别区分。

优选的，将判断为属于专有信息的文本信息转换为标准拼音信息，包括：将专有信息的文本信息分割成独立字符，将独立字符分别按照间隔权值进行连接；计算自然语言中连接两个字符的间隔权值：

其中，W为连接两个字符的间隔权值；P(p)为自然语言的灰度值，F(p)是相应的纹理特征，X(p)是点p的空间位置，X(q)是点q的空间位置。∥·∥₂表示矢量的二范数。δ_p为灰度高斯函数的标准方差，δ_f为文理高斯函数的标准方差，δ_x为空间距离高斯函数的标准方差，r为两字符之间的有效距离；通过灰度高斯函数的标准方差δ_p，文理高斯函数的标准方差δ_f，空间距离高斯函数的标准方差δ_x，分别用来调节字符点间的灰度差异、文理差异和空间位置差异，共同通过指数式调节连接两个字符的间隔权值W；根据连接两个字符的间隔权值，当连接两字符之间的间隔权值大于设定间隔权值，则文本中两个字符之间的连接判定为不符合标准连接语义，为非标准语言语义；将非标准语言语义信息输入非标准语言语义分析***，分别通过灰度高斯函数的标准方差δ_p调节字符点间的灰度差异，文理高斯函数的标准方差δ_f调节字符点间的文理差异，空间距离高斯函数的标准方差δ_x调节空间位置差异；直至连接两字符之间的间隔权值W不大于设定间隔权值，判定文本中两个字符之间的连接已找到符合的标准连接语义，最终完成文本识别。

上述技术方案的有益效果为：

本发明通过建立自然语言语义和标准语言语义的对应关系映射集，能够获取需要识别的自然语言信息；获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；能够提取自然语言信息的特征，识别文本信息所处的区域范围，根据识别出的文本区域范围，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；将区域范围中的文本与词库中的文本对比，得到初始的文本信息，根据初始文本信息的特征，对文本信息做出相应的判断，将所述的文本信息进行矫正，将文本字符进行分割，识别文本字符；将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，得到完整准确的采集的文本信息。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中基于自然语言语义分析的文本识别方法的方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

参阅图1，本发明实施例提供了一种基于自然语言语义分析的文本识别方法，包括：

建立自然语言语义和标准语言语义的对应关系映射集；

上述技术方案的工作原理：利用建立自然语言语义和标准语言语义的对应关系映射集，获取需要识别的自然语言信息；获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；提取自然语言信息的特征，识别文本信息所处的区域范围，根据识别出的文本区域范围，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；将区域范围中的文本与词库中的文本对比，得到初始的文本信息，根据初始文本信息的特征，对文本信息做出相应的判断，将所述的文本信息进行矫正，将文本字符进行分割，识别文本字符；将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，得到完整准确的采集的文本信息。

上述技术方案的有益效果：本发明通过建立自然语言语义和标准语言语义的对应关系映射集，能够获取需要识别的自然语言信息；获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；能够提取自然语言信息的特征，识别文本信息所处的区域范围，根据识别出的文本区域范围，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；将区域范围中的文本与词库中的文本对比，得到初始的文本信息，根据初始文本信息的特征，对文本信息做出相应的判断，将所述的文本信息进行矫正，将文本字符进行分割，识别文本字符；将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，得到完整准确的采集的文本信息。

在一个实施例中，所述建立自然语言语义和标准语言语义的对应关系映射集包括：

步骤1：获取自然语言信息；

步骤5：按照自然语言语序对所述文本信息进行矫正；

步骤7：将文本字符进行分割，识别文本字符；

上述技术方案的工作原理：所述建立自然语言语义和标准语言语义的对应关系映射集包括：获取自然语言信息；提取自然语言信息的语义特征，识别自然语言信息语义信息所处的对应关系映射集区域范围；根据识别出的文本区域，将所述区域中的文本与词库中的文本对比，得到初始的文本信息；基于所述的初始文本信息的特征，对文本信息进行分析；根据分析结果判断所述文本信息特征的准确性及完整性；按照自然语言语序对所述文本信息进行矫正；将文本字符进行分割，识别文本字符；将所述的识别出的文本字符输入***映射集中，得到完整准确的对应关系映射集。

上述技术方案的有益效果：建立自然语言语义和标准语言语义的对应关系映射集包括：获取自然语言信息；提取自然语言信息的语义特征，识别自然语言信息语义信息所处的对应关系映射集区域范围；根据识别出的文本区域，将所述区域中的文本与词库中的文本对比，得到初始的文本信息；基于所述的初始文本信息的特征，对文本信息进行分析；根据分析结果判断所述文本信息特征的准确性及完整性；按照自然语言语序对所述文本信息进行矫正；将文本字符进行分割，识别文本字符；将所述的识别出的文本字符输入***映射集中，得到完整准确的对应关系映射集。

在一个实施例中，所述步骤4：基于所述的初始文本信息的特征，对文本信息进行分析，包括：识别文本在自然语言中的分布纹理；将分布纹理与背景纹理进行纹理对比度分析；当纹理对比度大于设定的限值，则识别为文本特征，进行提取；当纹理对比度不大于设定的限值，则识别为非文本。

上述技术方案的工作原理：基于所述的初始文本信息的特征，对文本信息进行分析，包括：识别文本在自然语言中的分布纹理；将分布纹理与背景纹理进行纹理对比度分析；当纹理对比度大于设定的限值，则识别为文本特征，进行提取；当纹理对比度不大于设定的限值，则识别为非文本。

上述技术方案的有益效果：基于所述的初始文本信息的特征，对文本信息进行分析，包括：识别文本在自然语言中的分布纹理；将分布纹理与背景纹理进行纹理对比度分析；当纹理对比度大于设定的限值，则识别为文本特征，进行提取；当纹理对比度不大于设定的限值，则识别为非文本。

在一个实施例中，所述自然语言信息的特征包括：自然环境中有干扰噪声场景的文本检测与定位；对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。

上述技术方案的工作原理：自然环境中有干扰噪声场景的文本检测与定位；对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。

上述技术方案的有益效果：自然语言信息的特征，自然环境中有干扰噪声场景的文本检测与定位；对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。

在一个实施例中，所述：获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；其中，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；包括：

步骤S1，实时采集自然语言信息；

步骤S2，将采集到的所述自然语言信息进行信息类型判断；

上述技术方案的工作原理：获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；其中，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；包括：步骤S1，实时采集自然语言信息；步骤S2，将采集到的所述自然语言信息进行信息类型判断；步骤S3，判断所述文本信息属于专有信息或通用信息；包括：根据所述文本信息中是否存在包含在所述关键词库中的关键词，判断所述文本信息属于专有信息或通用信息；存在包含在所述关键词库中的关键词则属于所述专有信息；不存在包含在所述关键词库中的关键词则属于所述通用信息；若属于所述通用信息，则转向步骤S4；若属于所述专有信息，则转向步骤S5；步骤S4，对判断为属于所述通用信息的所述文本信息进行语言语义识别，形成第一语言语义识别并转向步骤S6；步骤S5，将判断为属于所述专有信息的所述文本信息转换为标准拼音信息，并对所述标准拼音信息进行语言语义识别，形成第二语言语义识别并转向步骤S6；步骤S6，执行所述第一语言语义识别和/或所述第二语言语义识别后结束，并生成语义识别字词库。

上述技术方案的有益效果：获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；其中，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；包括：实时采集自然语言信息；将采集到的所述自然语言信息进行信息类型判断；判断所述文本信息属于专有信息或通用信息；根据所述文本信息中是否存在包含在所述关键词库中的关键词，判断所述文本信息属于专有信息或通用信息；对判断为属于所述通用信息的所述文本信息进行语言语义识别，形成第一语言语义识别并转向后续步骤；将判断为属于所述专有信息的所述文本信息转换为标准拼音信息，并对所述标准拼音信息进行语言语义识别，形成第二语言语义识别并转向后续步骤；执行所述第一语言语义识别和/或所述第二语言语义识别后结束，并生成语义识别字词库。

在一个实施例中，所述步骤S5中包括：步骤S51，将所述文本信息转换为初始拼音信息；步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息；步骤S53，对所述标准拼音信息进行语言语义识别，形成所述第二语言语义识别并转向步骤S6。

上述技术方案的工作原理：将所述文本信息转换为初始拼音信息；对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息；对所述标准拼音信息进行语言语义识别，形成所述第二语言语义识别。

上述技术方案的有益效果：将所述文本信息转换为初始拼音信息；对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息；对所述标准拼音信息进行语言语义识别，形成所述第二语言语义识别。

在一个实施例中，所述步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息，包括：所述模糊匹配采用同音声母校正和/或前后元音进行校正，校正后将矫正后的信息输入标准自然语言语义分析，如仍包含无法识别内容，则进行循环矫正，直至全部识别为标准自然语言语义分析。

上述技术方案的工作原理：所述步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息，包括：所述模糊匹配采用同音声母校正和/或前后元音进行校正，校正后将矫正后的信息输入标准自然语言语义分析，如仍包含无法识别内容，则进行循环矫正，直至全部识别为标准自然语言语义分析。

上述技术方案的有益效果：对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息，包括：所述模糊匹配采用同音声母校正和/或前后元音进行校正，校正后将矫正后的信息输入标准自然语言语义分析，如仍包含无法识别内容，则进行循环矫正，直至全部识别为标准自然语言语义分析。

在一个实施例中，所述将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，包括：对文本信息进行语言语义识别，形成语言语义识别状态区分；第一语言语义识别状态区分，对判断为属于通用领域的文本信息进行语言语义识别，形成第一语言语义识别；第二转换状态区分，将判断为属于垂直领域的文本信息转换为标准拼音信息；第二语言语义识别状态区分，将标准拼音信息进行语言语义识别，形成第二语言语义识别；对于所述的第一语言语义识别与第二语言语义识别，进行命令的执行操作；将非标准语言语义信息输入非标准语言语义分析***分析判定，将判断为属于专有信息的文本信息转换为标准拼音信息，完成文本识别。

上述技术方案的工作原理：将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，包括：对文本信息进行语言语义识别，形成语言语义识别状态区分；第一语言语义识别状态区分，对判断为属于通用领域的文本信息进行语言语义识别，形成第一语言语义识别；第二转换状态区分，将判断为属于垂直领域的文本信息转换为标准拼音信息；第二语言语义识别状态区分，将标准拼音信息进行语言语义识别，形成第二语言语义识别；对于所述的第一语言语义识别与第二语言语义识别，进行命令的执行操作；将非标准语言语义信息输入非标准语言语义分析***分析判定，将判断为属于专有信息的文本信息转换为标准拼音信息，完成文本识别。

上述技术方案的有益效果：通过将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，包括：对文本信息进行语言语义识别，形成语言语义识别状态区分；第一语言语义识别状态区分，对判断为属于通用领域的文本信息进行语言语义识别，形成第一语言语义识别；第二转换状态区分，将判断为属于垂直领域的文本信息转换为标准拼音信息；第二语言语义识别状态区分，将标准拼音信息进行语言语义识别，形成第二语言语义识别；对于所述的第一语言语义识别与第二语言语义识别，进行命令的执行操作；将非标准语言语义信息输入非标准语言语义分析***分析判定，将判断为属于专有信息的文本信息转换为标准拼音信息，完成文本识别。

在一个实施例中，对文本信息进行语言语义识别，形成语言语义识别状态区分，包括：文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分；计算状态区分的最小采集数：

上述技术方案的工作原理：对文本信息进行语言语义识别，形成语言语义识别状态区分，包括：文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分；计算状态区分的最小采集数，Q_min为状态区分的最小采集数，ω为采集错误率，n为状态区分数，P为区分概率；通过计算状态区分的最小采集数Q_min，当状态区分的最小采集数Q_min大于***设定的参考采集数时，形成语言语义识别状态区分，状态区分过程如下：将文本扭曲状态和文本标准状态进行状态识别区分，区分出扭曲度大于设定的扭曲度范围的文本部分，将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分；文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分，将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内，对文本信息进行语言语义识别；文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分；文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分，将缺失的文本通过文本前后文语言语义关联进行状态识别区分；

在此基础上，通过字符特征，将文字信息转换为标准拼音信息，则可将标准拼音信息进行处理，从而解决例如自然语言中字体不清晰或不完整等问题，从而使得自然环境中的文本识别更为准确；标准拼音信息可以是标准汉语拼音信息，例如包括声母子信息和韵母子信息等；标准拼音信息还可以是其他语言的标音或拼音信息；专有信息可以是医学领域或智慧家居控制领域等，通用信息则可以是较为常用的文字领域；判断机制具体可以是将文字信息在一专有信息判断数据库中进行查找，若查找匹配则判断该文字信息属于专有信息，否则属于通用信息；除此以外，也可以采用其他判断方法，例如通过预设垂直场景判断是否属于专有信息等；拼音转换单元用于将文字信息转换为初始拼音信息；模糊匹配单元用于对初始拼音信息进行模糊匹配，得到标准拼音信息。

上述技术方案的有益效果：对文本信息进行语言语义识别，形成语言语义识别状态区分，包括：文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分；计算状态区分的最小采集数，Q_min为状态区分的最小采集数，ω为采集错误率，n为状态区分数，P为区分概率；通过计算状态区分的最小采集数Q_min，当状态区分的最小采集数Q_min大于***设定的参考采集数时，形成语言语义识别状态区分；将文本扭曲状态和文本标准状态进行状态识别区分，区分出扭曲度大于设定的扭曲度范围的文本部分，将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分；文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分，将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内，对文本信息进行语言语义识别；文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分；文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分，将缺失的文本通过文本前后文语言语义关联进行状态识别区分；另外，通过字符特征，将文字信息转换为标准拼音信息，则可将标准拼音信息进行处理，从而解决例如自然语言中字体不清晰或不完整等问题，从而使得自然环境中的文本识别更为准确；标准拼音信息可以是标准汉语拼音信息，例如包括声母子信息和韵母子信息等；标准拼音信息还可以是其他语言的标音或拼音信息；专有信息可以是医学领域或智慧家居控制领域等，通用信息则可以是较为常用的文字领域；判断机制具体可以是将文字信息在一专有信息判断数据库中进行查找，若查找匹配则判断该文字信息属于专有信息，否则属于通用信息；除此以外，也可以采用其他判断方法，例如通过预设垂直场景判断是否属于专有信息等；拼音转换单元用于将文字信息转换为初始拼音信息；模糊匹配单元用于对初始拼音信息进行模糊匹配，得到标准拼信息。

在一个实施例中，将判断为属于专有信息的文本信息转换为标准拼音信息，包括：将专有信息的文本信息分割成独立字符，将独立字符分别按照间隔权值进行连接；计算自然语言中连接两个字符的间隔权值：

上述技术方案的工作原理：将判断为属于专有信息的文本信息转换为标准拼音信息，包括：将专有信息的文本信息分割成独立字符，将独立字符分别按照间隔权值进行连接；计算自然语言中连接两个字符的间隔权值，W为连接两个字符的间隔权值；P(p)为自然语言的灰度值，F(p)是相应的纹理特征，X(p)是点p的空间位置，X(q)是点q的空间位置。∥·∥2表示矢量的二范数。δ_p为灰度高斯函数的标准方差，δ_f为文理高斯函数的标准方差，δ_x为空间距离高斯函数的标准方差，r为两字符之间的有效距离；通过灰度高斯函数的标准方差δ_p，文理高斯函数的标准方差δ_f，空间距离高斯函数的标准方差δ_x，分别用来调节字符点间的灰度差异、文理差异和空间位置差异，共同通过指数式调节连接两个字符的间隔权值W；根据连接两个字符的间隔权值，当连接两字符之间的间隔权值大于设定间隔权值，则文本中两个字符之间的连接判定为不符合标准连接语义，为非标准语言语义；将非标准语言语义信息输入非标准语言语义分析***，分别通过灰度高斯函数的标准方差δ_p调节字符点间的灰度差异，文理高斯函数的标准方差δ_f调节字符点间的文理差异，空间距离高斯函数的标准方差δ_x调节空间位置差异；直至连接两字符之间的间隔权值W不大于设定间隔权值，判定文本中两个字符之间的连接已找到符合的标准连接语义，最终完成文本识别；

上述技术方案的有益效果：本发明通过将判断为属于专有信息的文本信息转换为标准拼音信息，包括：将专有信息的文本信息分割成独立字符，将独立字符分别按照间隔权值进行连接；计算自然语言中连接两个字符的间隔权值，W为连接两个字符的间隔权值；P(p)为自然语言的灰度值，F(p)是相应的纹理特征，X(p)是点p的空间位置，X(q)是点q的空间位置。∥·∥2表示矢量的二范数。δ_p为灰度高斯函数的标准方差，δ_f为文理高斯函数的标准方差，δ_x为空间距离高斯函数的标准方差，r为两字符之间的有效距离；通过灰度高斯函数的标准方差δ_p，文理高斯函数的标准方差δ_f，空间距离高斯函数的标准方差δ_x，分别用来调节字符点间的灰度差异、文理差异和空间位置差异，共同通过指数式调节连接两个字符的间隔权值W；根据连接两个字符的间隔权值，当连接两字符之间的间隔权值大于设定间隔权值，则文本中两个字符之间的连接判定为不符合标准连接语义，为非标准语言语义；将非标准语言语义信息输入非标准语言语义分析***，分别通过灰度高斯函数的标准方差δ_p调节字符点间的灰度差异，文理高斯函数的标准方差δ_f调节字符点间的文理差异，空间距离高斯函数的标准方差δ_x调节空间位置差异；直至连接两字符之间的间隔权值W不大于设定间隔权值，判定文本中两个字符之间的连接已找到符合的标准连接语义，最终完成文本识别。

显然，本领域的技术人员可将本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自然语言语义分析的文本识别方法，其特征在于，包括：

建立自然语言语义和标准语言语义的对应关系映射集；

将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别；

所述获取文本信息，提取文本中的语言信息，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；其中，通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义；包括：

步骤S1，实时采集自然语言信息；

步骤S2，将采集到的所述自然语言信息进行信息类型判断；

步骤S3，判断所述文本信息属于专有信息或通用信息；包括：根据所述文本信息中是否存在包含在关键词库中的关键词，判断所述文本信息属于专有信息或通用信息；存在包含在所述关键词库中的关键词则属于所述专有信息；不存在包含在所述关键词库中的关键词则属于所述通用信息；若属于所述通用信息，则转向步骤S4；若属于所述专有信息，则转向步骤S5；

步骤S6，执行所述第一语言语义识别和/或所述第二语言语义识别后结束，并生成语义识别字词库；

所述将非标准语言语义信息输入非标准语言语义分析***分析判定，完成文本识别，包括：对文本信息进行语言语义识别，形成语言语义识别状态区分；第一语言语义识别状态区分，对判断为属于通用领域的文本信息进行语言语义识别，形成第一语言语义识别；第二转换状态区分，将判断为属于垂直领域的文本信息转换为标准拼音信息；第二语言语义识别状态区分，将标准拼音信息进行语言语义识别，形成第二语言语义识别；对于所述的第一语言语义识别与第二语言语义识别，进行命令的执行操作；将非标准语言语义信息输入非标准语言语义分析***分析判定，将判断为属于专有信息的文本信息转换为标准拼音信息，完成文本识别。

2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述建立自然语言语义和标准语言语义的对应关系映射集包括：

步骤1：获取自然语言信息；

步骤5：按照自然语言语序对所述文本信息进行矫正；

步骤7：将文本字符进行分割，识别文本字符；

3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述步骤4：基于所述的初始文本信息的特征，对文本信息进行分析，包括：

识别文本在自然语言中的分布纹理；将分布纹理与背景纹理进行纹理对比度分析；当纹理对比度大于设定的限值，则识别为文本特征，进行提取；当纹理对比度不大于设定的限值，则识别为非文本。

4.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述自然语言信息的特征包括：自然环境中有干扰噪声场景的文本检测与定位；对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。

5.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法，其特征在于，所述步骤S5中包括：步骤S51，将所述文本信息转换为初始拼音信息；步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息；步骤S53，对所述标准拼音信息进行语言语义识别，形成所述第二语言语义识别并转向步骤S6。

6.根据权利要求5所述一种基于自然语言语义分析的文本识别方法，其特征在于，所述步骤S52，对所述初始拼音信息进行模糊匹配，得到所述标准拼音信息，包括：所述模糊匹配采用同音声母校正和/或前后元音进行校正，校正后将矫正后的信息输入标准自然语言语义分析，如仍包含无法识别内容，则进行循环矫正，直至全部识别为标准自然语言语义分析。

7.根据权利要求1所述一种基于自然语言语义分析的文本识别方法，其特征在于，对文本信息进行语言语义识别，形成语言语义识别状态区分，包括：文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分；计算状态区分的最小采集数：

其中，为状态区分的最小采集数，/>为采集错误率，/>为状态区分数，/>为区分概率；通过计算状态区分的最小采集数/>，当状态区分的最小采集数/>大于***设定的参考采集数时，形成语言语义识别状态区分，状态区分过程如下：将文本扭曲状态和文本标准状态进行状态识别区分，区分出扭曲度大于设定的扭曲度范围的文本部分，将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分；文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分，将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内，对文本信息进行语言语义识别；文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分；文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分，将缺失的文本通过文本前后文语言语义关联进行状态识别区分。

8.根据权利要求1所述一种基于自然语言语义分析的文本识别方法，其特征在于，将判断为属于专有信息的文本信息转换为标准拼音信息，包括：将专有信息的文本信息分割成独立字符，将独立字符分别按照间隔权值进行连接；计算自然语言中连接两个字符的间隔权值：

其中，为连接两个字符的间隔权值；P(p)为点p的自然语言的灰度值，F（p）是点p的相应的纹理特征，X(p)是点p的空间位置，X(q)是点q的空间位置；P(q)为点q的自然语言的灰度值，F（q）是点q的相应的纹理特征；∥·∥₂表示矢量的二范数；/>为灰度高斯函数的标准方差，/>为纹理高斯函数的标准方差，/>为空间距离高斯函数的标准方差，r为两字符之间的有效距离；通过灰度高斯函数的标准方差/>，纹理高斯函数的标准方差/>，空间距离高斯函数的标准方差/>，分别用来调节字符点间的灰度差异、纹理差异和空间位置差异，共同通过指数式调节连接两个字符的间隔权值/>；根据连接两个字符的间隔权值，当连接两字符之间的间隔权值大于设定间隔权值，则文本中两个字符之间的连接判定为不符合标准连接语义，为非标准语言语义；将非标准语言语义信息输入非标准语言语义分析***，分别通过灰度高斯函数的标准方差/>调节字符点间的灰度差异，纹理高斯函数的标准方差/>调节字符点间的纹理差异，空间距离高斯函数的标准方差/>调节空间位置差异；直至连接两字符之间的间隔权值/>不大于设定间隔权值，判定文本中两个字符之间的连接已找到符合的标准连接语义，最终完成文本识别。