CN113569577B - 一种基于自然语言语义分析的文本识别方法 - Google Patents

一种基于自然语言语义分析的文本识别方法 Download PDF

Info

Publication number
CN113569577B
CN113569577B CN202110635441.9A CN202110635441A CN113569577B CN 113569577 B CN113569577 B CN 113569577B CN 202110635441 A CN202110635441 A CN 202110635441A CN 113569577 B CN113569577 B CN 113569577B
Authority
CN
China
Prior art keywords
text
information
language
standard
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110635441.9A
Other languages
English (en)
Other versions
CN113569577A (zh
Inventor
刘如君
刘志杰
陈乔
尚雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfang Tongwangxin Technology Co ltd
Original Assignee
Beijing Microvision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Microvision Technology Co ltd filed Critical Beijing Microvision Technology Co ltd
Priority to CN202110635441.9A priority Critical patent/CN113569577B/zh
Publication of CN113569577A publication Critical patent/CN113569577A/zh
Application granted granted Critical
Publication of CN113569577B publication Critical patent/CN113569577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于自然语言语义分析的文本识别方法,包括:建立自然语言语义和标准语言语义的对应关系映射集;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别;融合了自然环境中语言语义的分析和同时进行文本识别,使得在对所获取的文本在进行自然语言语义分析时,有益于在自然语言语义的环境下对文本快速、精准、多类型同时识别。

Description

一种基于自然语言语义分析的文本识别方法
技术领域
本发明涉及到文本识别领域,尤其涉及一种基于自然语言语义分析的文本识别方法
背景技术
目前,随着自然语言处理技术的发展,基于通用信息的语言识别和语义分析技术逐渐提高,但在一些特有领域,识别正确率和理解正确率都非常低,自然语言语义和标准语言语义的对应关系问题仍需进一步解决;同时由于自然环境中的自然语言或视频所包含的文字字符不清晰或被损坏,导致识别率低;如何提取文本中的语言信息并识别语言信息中的标准语言语义和非标准语言语义是尚待完善解决的技术;如何对非标准语言语义信息进行分析判定,技术尚未完全成熟;因此,有必要提出一种基于自然语言语义分析的文本识别方法,以至少部分地解决现有技术中存在的问题。
发明内容
本发明提供一种基于自然语言语义分析的文本识别方法,用于解决自然环境中的文本识别。一种基于自然语言语义分析的文本识别方法,包括:
建立自然语言语义和标准语言语义的对应关系映射集;
获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;
将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别。
优选的,其特征在于,所述建立自然语言语义和标准语言语义的对应关系映射集包括:
步骤1:获取自然语言信息;
步骤2:提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;
步骤3:根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;
步骤4:基于所述的初始文本信息的特征,对文本信息进行分析;
步骤6:根据分析结果判断所述文本信息特征的准确性及完整性;
步骤5:按照自然语言语序对所述文本信息进行矫正;
步骤7:将文本字符进行分割,识别文本字符;
步骤8:将所述的识别出的文本字符输入***映射集中,得到完整准确的对应关系映射集。
优选的,所述步骤4:基于所述的初始文本信息的特征,对文本信息进行分析,包括:识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限值,则识别为非文本。
优选的,所述自然语言信息的特征包括:自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。
优选的,所述:获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:
步骤S1,实时采集自然语言信息;
步骤S2,将采集到的所述自然语言信息进行信息类型判断;
步骤S3,判断所述文本信息属于专有信息或通用信息;包括:根据所述文本信息中是否存在包含在所述关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;存在包含在所述关键词库中的关键词则属于所述专有信息;不存在包含在所述关键词库中的关键词则属于所述通用信息;若属于所述通用信息,则转向步骤S4;若属于所述专有信息,则转向步骤S5;
步骤S4,对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语言语义识别并转向步骤S6;
步骤S5,将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向步骤S6;
步骤S6,执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库。
优选的,所述步骤S5中包括:步骤S51,将所述文本信息转换为初始拼音信息;步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;步骤S53,对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别并转向步骤S6。
优选的,所述步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。
优选的,所述将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,包括:对文本信息进行语言语义识别,形成语言语义识别状态区分;第一语言语义识别状态区分,对判断为属于通用领域的文本信息进行语言语义识别,形成第一语言语义识别;第二转换状态区分,将判断为属于垂直领域的文本信息转换为标准拼音信息;第二语言语义识别状态区分,将标准拼音信息进行语言语义识别,形成第二语言语义识别;对于所述的第一语言语义识别与第二语言语义识别,进行命令的执行操作;将非标准语言语义信息输入非标准语言语义分析***分析判定,将判断为属于专有信息的文本信息转换为标准拼音信息,完成文本识别。
优选的,对文本信息进行语言语义识别,形成语言语义识别状态区分,包括:文本扭曲状态区分、文本伸缩状态区分、文本比例状态
区分和/或文本模糊状态区分;计算状态区分的最小采集数:
其中,Qmin为状态区分的最小采集数,ω为采集错误率,n为状态区分数,P为区分概率;通过计算状态区分的最小采集数Qmin,当状态区分的最小采集数Qmin大于***设定的参考采集数时,形成语言语义识别状态区分,状态区分过程如下:将文本扭曲状态和文本标准状态进行状态识别区分,区分出扭曲度大于设定的扭曲度范围的文本部分,将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分;文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分,将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内,对文本信息进行语言语义识别;文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分;文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分,将缺失的文本通过文本前后文语言语义关联进行状态识别区分。
优选的,将判断为属于专有信息的文本信息转换为标准拼音信息,包括:将专有信息的文本信息分割成独立字符,将独立字符分别按照间隔权值进行连接;计算自然语言中连接两个字符的间隔权值:
其中,W为连接两个字符的间隔权值;P(p)为自然语言的灰度值,F(p)是相应的纹理特征,X(p)是点p的空间位置,X(q)是点q的空间位置。∥·∥2表示矢量的二范数。δp为灰度高斯函数的标准方差,δf为文理高斯函数的标准方差,δx为空间距离高斯函数的标准方差,r为两字符之间的有效距离;通过灰度高斯函数的标准方差δp,文理高斯函数的标准方差δf,空间距离高斯函数的标准方差δx,分别用来调节字符点间的灰度差异、文理差异和空间位置差异,共同通过指数式调节连接两个字符的间隔权值W;根据连接两个字符的间隔权值,当连接两字符之间的间隔权值大于设定间隔权值,则文本中两个字符之间的连接判定为不符合标准连接语义,为非标准语言语义;将非标准语言语义信息输入非标准语言语义分析***,分别通过灰度高斯函数的标准方差δp调节字符点间的灰度差异,文理高斯函数的标准方差δf调节字符点间的文理差异,空间距离高斯函数的标准方差δx调节空间位置差异;直至连接两字符之间的间隔权值W不大于设定间隔权值,判定文本中两个字符之间的连接已找到符合的标准连接语义,最终完成文本识别。
上述技术方案的有益效果为:
本发明通过建立自然语言语义和标准语言语义的对应关系映射集,能够获取需要识别的自然语言信息;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;能够提取自然语言信息的特征,识别文本信息所处的区域范围,根据识别出的文本区域范围,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将区域范围中的文本与词库中的文本对比,得到初始的文本信息,根据初始文本信息的特征,对文本信息做出相应的判断,将所述的文本信息进行矫正,将文本字符进行分割,识别文本字符;将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,得到完整准确的采集的文本信息。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于自然语言语义分析的文本识别方法的方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
参阅图1,本发明实施例提供了一种基于自然语言语义分析的文本识别方法,包括:
建立自然语言语义和标准语言语义的对应关系映射集;
获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;
将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别。
上述技术方案的工作原理:利用建立自然语言语义和标准语言语义的对应关系映射集,获取需要识别的自然语言信息;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;提取自然语言信息的特征,识别文本信息所处的区域范围,根据识别出的文本区域范围,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将区域范围中的文本与词库中的文本对比,得到初始的文本信息,根据初始文本信息的特征,对文本信息做出相应的判断,将所述的文本信息进行矫正,将文本字符进行分割,识别文本字符;将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,得到完整准确的采集的文本信息。
上述技术方案的有益效果:本发明通过建立自然语言语义和标准语言语义的对应关系映射集,能够获取需要识别的自然语言信息;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;能够提取自然语言信息的特征,识别文本信息所处的区域范围,根据识别出的文本区域范围,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将区域范围中的文本与词库中的文本对比,得到初始的文本信息,根据初始文本信息的特征,对文本信息做出相应的判断,将所述的文本信息进行矫正,将文本字符进行分割,识别文本字符;将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,得到完整准确的采集的文本信息。
在一个实施例中,所述建立自然语言语义和标准语言语义的对应关系映射集包括:
步骤1:获取自然语言信息;
步骤2:提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;
步骤3:根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;
步骤4:基于所述的初始文本信息的特征,对文本信息进行分析;
步骤6:根据分析结果判断所述文本信息特征的准确性及完整性;
步骤5:按照自然语言语序对所述文本信息进行矫正;
步骤7:将文本字符进行分割,识别文本字符;
步骤8:将所述的识别出的文本字符输入***映射集中,得到完整准确的对应关系映射集。
上述技术方案的工作原理:所述建立自然语言语义和标准语言语义的对应关系映射集包括:获取自然语言信息;提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;基于所述的初始文本信息的特征,对文本信息进行分析;根据分析结果判断所述文本信息特征的准确性及完整性;按照自然语言语序对所述文本信息进行矫正;将文本字符进行分割,识别文本字符;将所述的识别出的文本字符输入***映射集中,得到完整准确的对应关系映射集。
上述技术方案的有益效果:建立自然语言语义和标准语言语义的对应关系映射集包括:获取自然语言信息;提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;基于所述的初始文本信息的特征,对文本信息进行分析;根据分析结果判断所述文本信息特征的准确性及完整性;按照自然语言语序对所述文本信息进行矫正;将文本字符进行分割,识别文本字符;将所述的识别出的文本字符输入***映射集中,得到完整准确的对应关系映射集。
在一个实施例中,所述步骤4:基于所述的初始文本信息的特征,对文本信息进行分析,包括:识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限值,则识别为非文本。
上述技术方案的工作原理:基于所述的初始文本信息的特征,对文本信息进行分析,包括:识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限值,则识别为非文本。
上述技术方案的有益效果:基于所述的初始文本信息的特征,对文本信息进行分析,包括:识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限值,则识别为非文本。
在一个实施例中,所述自然语言信息的特征包括:自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。
上述技术方案的工作原理:自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。
上述技术方案的有益效果:自然语言信息的特征,自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。
在一个实施例中,所述:获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:
步骤S1,实时采集自然语言信息;
步骤S2,将采集到的所述自然语言信息进行信息类型判断;
步骤S3,判断所述文本信息属于专有信息或通用信息;包括:根据所述文本信息中是否存在包含在所述关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;存在包含在所述关键词库中的关键词则属于所述专有信息;不存在包含在所述关键词库中的关键词则属于所述通用信息;若属于所述通用信息,则转向步骤S4;若属于所述专有信息,则转向步骤S5;
步骤S4,对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语言语义识别并转向步骤S6;
步骤S5,将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向步骤S6;
步骤S6,执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库。
上述技术方案的工作原理:获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:步骤S1,实时采集自然语言信息;步骤S2,将采集到的所述自然语言信息进行信息类型判断;步骤S3,判断所述文本信息属于专有信息或通用信息;包括:根据所述文本信息中是否存在包含在所述关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;存在包含在所述关键词库中的关键词则属于所述专有信息;不存在包含在所述关键词库中的关键词则属于所述通用信息;若属于所述通用信息,则转向步骤S4;若属于所述专有信息,则转向步骤S5;步骤S4,对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语言语义识别并转向步骤S6;步骤S5,将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向步骤S6;步骤S6,执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库。
上述技术方案的有益效果:获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:实时采集自然语言信息;将采集到的所述自然语言信息进行信息类型判断;判断所述文本信息属于专有信息或通用信息;根据所述文本信息中是否存在包含在所述关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语言语义识别并转向后续步骤;将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向后续步骤;执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库。
在一个实施例中,所述步骤S5中包括:步骤S51,将所述文本信息转换为初始拼音信息;步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;步骤S53,对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别并转向步骤S6。
上述技术方案的工作原理:将所述文本信息转换为初始拼音信息;对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别。
上述技术方案的有益效果:将所述文本信息转换为初始拼音信息;对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别。
在一个实施例中,所述步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。
上述技术方案的工作原理:所述步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。
上述技术方案的有益效果:对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。
在一个实施例中,所述将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,包括:对文本信息进行语言语义识别,形成语言语义识别状态区分;第一语言语义识别状态区分,对判断为属于通用领域的文本信息进行语言语义识别,形成第一语言语义识别;第二转换状态区分,将判断为属于垂直领域的文本信息转换为标准拼音信息;第二语言语义识别状态区分,将标准拼音信息进行语言语义识别,形成第二语言语义识别;对于所述的第一语言语义识别与第二语言语义识别,进行命令的执行操作;将非标准语言语义信息输入非标准语言语义分析***分析判定,将判断为属于专有信息的文本信息转换为标准拼音信息,完成文本识别。
上述技术方案的工作原理:将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,包括:对文本信息进行语言语义识别,形成语言语义识别状态区分;第一语言语义识别状态区分,对判断为属于通用领域的文本信息进行语言语义识别,形成第一语言语义识别;第二转换状态区分,将判断为属于垂直领域的文本信息转换为标准拼音信息;第二语言语义识别状态区分,将标准拼音信息进行语言语义识别,形成第二语言语义识别;对于所述的第一语言语义识别与第二语言语义识别,进行命令的执行操作;将非标准语言语义信息输入非标准语言语义分析***分析判定,将判断为属于专有信息的文本信息转换为标准拼音信息,完成文本识别。
上述技术方案的有益效果:通过将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,包括:对文本信息进行语言语义识别,形成语言语义识别状态区分;第一语言语义识别状态区分,对判断为属于通用领域的文本信息进行语言语义识别,形成第一语言语义识别;第二转换状态区分,将判断为属于垂直领域的文本信息转换为标准拼音信息;第二语言语义识别状态区分,将标准拼音信息进行语言语义识别,形成第二语言语义识别;对于所述的第一语言语义识别与第二语言语义识别,进行命令的执行操作;将非标准语言语义信息输入非标准语言语义分析***分析判定,将判断为属于专有信息的文本信息转换为标准拼音信息,完成文本识别。
在一个实施例中,对文本信息进行语言语义识别,形成语言语义识别状态区分,包括:文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分;计算状态区分的最小采集数:
其中,Qmin为状态区分的最小采集数,ω为采集错误率,n为状态区分数,P为区分概率;通过计算状态区分的最小采集数Qmin,当状态区分的最小采集数Qmin大于***设定的参考采集数时,形成语言语义识别状态区分,状态区分过程如下:将文本扭曲状态和文本标准状态进行状态识别区分,区分出扭曲度大于设定的扭曲度范围的文本部分,将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分;文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分,将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内,对文本信息进行语言语义识别;文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分;文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分,将缺失的文本通过文本前后文语言语义关联进行状态识别区分。
上述技术方案的工作原理:对文本信息进行语言语义识别,形成语言语义识别状态区分,包括:文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分;计算状态区分的最小采集数,Qmin为状态区分的最小采集数,ω为采集错误率,n为状态区分数,P为区分概率;通过计算状态区分的最小采集数Qmin,当状态区分的最小采集数Qmin大于***设定的参考采集数时,形成语言语义识别状态区分,状态区分过程如下:将文本扭曲状态和文本标准状态进行状态识别区分,区分出扭曲度大于设定的扭曲度范围的文本部分,将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分;文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分,将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内,对文本信息进行语言语义识别;文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分;文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分,将缺失的文本通过文本前后文语言语义关联进行状态识别区分;
在此基础上,通过字符特征,将文字信息转换为标准拼音信息,则可将标准拼音信息进行处理,从而解决例如自然语言中字体不清晰或不完整等问题,从而使得自然环境中的文本识别更为准确;标准拼音信息可以是标准汉语拼音信息,例如包括声母子信息和韵母子信息等;标准拼音信息还可以是其他语言的标音或拼音信息;专有信息可以是医学领域或智慧家居控制领域等,通用信息则可以是较为常用的文字领域;判断机制具体可以是将文字信息在一专有信息判断数据库中进行查找,若查找匹配则判断该文字信息属于专有信息,否则属于通用信息;除此以外,也可以采用其他判断方法,例如通过预设垂直场景判断是否属于专有信息等;拼音转换单元用于将文字信息转换为初始拼音信息;模糊匹配单元用于对初始拼音信息进行模糊匹配,得到标准拼音信息。
上述技术方案的有益效果:对文本信息进行语言语义识别,形成语言语义识别状态区分,包括:文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分;计算状态区分的最小采集数,Qmin为状态区分的最小采集数,ω为采集错误率,n为状态区分数,P为区分概率;通过计算状态区分的最小采集数Qmin,当状态区分的最小采集数Qmin大于***设定的参考采集数时,形成语言语义识别状态区分;将文本扭曲状态和文本标准状态进行状态识别区分,区分出扭曲度大于设定的扭曲度范围的文本部分,将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分;文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分,将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内,对文本信息进行语言语义识别;文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分;文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分,将缺失的文本通过文本前后文语言语义关联进行状态识别区分;另外,通过字符特征,将文字信息转换为标准拼音信息,则可将标准拼音信息进行处理,从而解决例如自然语言中字体不清晰或不完整等问题,从而使得自然环境中的文本识别更为准确;标准拼音信息可以是标准汉语拼音信息,例如包括声母子信息和韵母子信息等;标准拼音信息还可以是其他语言的标音或拼音信息;专有信息可以是医学领域或智慧家居控制领域等,通用信息则可以是较为常用的文字领域;判断机制具体可以是将文字信息在一专有信息判断数据库中进行查找,若查找匹配则判断该文字信息属于专有信息,否则属于通用信息;除此以外,也可以采用其他判断方法,例如通过预设垂直场景判断是否属于专有信息等;拼音转换单元用于将文字信息转换为初始拼音信息;模糊匹配单元用于对初始拼音信息进行模糊匹配,得到标准拼信息。
在一个实施例中,将判断为属于专有信息的文本信息转换为标准拼音信息,包括:将专有信息的文本信息分割成独立字符,将独立字符分别按照间隔权值进行连接;计算自然语言中连接两个字符的间隔权值:
其中,W为连接两个字符的间隔权值;P(p)为自然语言的灰度值,F(p)是相应的纹理特征,X(p)是点p的空间位置,X(q)是点q的空间位置。∥·∥2表示矢量的二范数。δp为灰度高斯函数的标准方差,δf为文理高斯函数的标准方差,δx为空间距离高斯函数的标准方差,r为两字符之间的有效距离;通过灰度高斯函数的标准方差δp,文理高斯函数的标准方差δf,空间距离高斯函数的标准方差δx,分别用来调节字符点间的灰度差异、文理差异和空间位置差异,共同通过指数式调节连接两个字符的间隔权值W;根据连接两个字符的间隔权值,当连接两字符之间的间隔权值大于设定间隔权值,则文本中两个字符之间的连接判定为不符合标准连接语义,为非标准语言语义;将非标准语言语义信息输入非标准语言语义分析***,分别通过灰度高斯函数的标准方差δp调节字符点间的灰度差异,文理高斯函数的标准方差δf调节字符点间的文理差异,空间距离高斯函数的标准方差δx调节空间位置差异;直至连接两字符之间的间隔权值W不大于设定间隔权值,判定文本中两个字符之间的连接已找到符合的标准连接语义,最终完成文本识别。
上述技术方案的工作原理:将判断为属于专有信息的文本信息转换为标准拼音信息,包括:将专有信息的文本信息分割成独立字符,将独立字符分别按照间隔权值进行连接;计算自然语言中连接两个字符的间隔权值,W为连接两个字符的间隔权值;P(p)为自然语言的灰度值,F(p)是相应的纹理特征,X(p)是点p的空间位置,X(q)是点q的空间位置。∥·∥2表示矢量的二范数。δp为灰度高斯函数的标准方差,δf为文理高斯函数的标准方差,δx为空间距离高斯函数的标准方差,r为两字符之间的有效距离;通过灰度高斯函数的标准方差δp,文理高斯函数的标准方差δf,空间距离高斯函数的标准方差δx,分别用来调节字符点间的灰度差异、文理差异和空间位置差异,共同通过指数式调节连接两个字符的间隔权值W;根据连接两个字符的间隔权值,当连接两字符之间的间隔权值大于设定间隔权值,则文本中两个字符之间的连接判定为不符合标准连接语义,为非标准语言语义;将非标准语言语义信息输入非标准语言语义分析***,分别通过灰度高斯函数的标准方差δp调节字符点间的灰度差异,文理高斯函数的标准方差δf调节字符点间的文理差异,空间距离高斯函数的标准方差δx调节空间位置差异;直至连接两字符之间的间隔权值W不大于设定间隔权值,判定文本中两个字符之间的连接已找到符合的标准连接语义,最终完成文本识别;
上述技术方案的有益效果:本发明通过将判断为属于专有信息的文本信息转换为标准拼音信息,包括:将专有信息的文本信息分割成独立字符,将独立字符分别按照间隔权值进行连接;计算自然语言中连接两个字符的间隔权值,W为连接两个字符的间隔权值;P(p)为自然语言的灰度值,F(p)是相应的纹理特征,X(p)是点p的空间位置,X(q)是点q的空间位置。∥·∥2表示矢量的二范数。δp为灰度高斯函数的标准方差,δf为文理高斯函数的标准方差,δx为空间距离高斯函数的标准方差,r为两字符之间的有效距离;通过灰度高斯函数的标准方差δp,文理高斯函数的标准方差δf,空间距离高斯函数的标准方差δx,分别用来调节字符点间的灰度差异、文理差异和空间位置差异,共同通过指数式调节连接两个字符的间隔权值W;根据连接两个字符的间隔权值,当连接两字符之间的间隔权值大于设定间隔权值,则文本中两个字符之间的连接判定为不符合标准连接语义,为非标准语言语义;将非标准语言语义信息输入非标准语言语义分析***,分别通过灰度高斯函数的标准方差δp调节字符点间的灰度差异,文理高斯函数的标准方差δf调节字符点间的文理差异,空间距离高斯函数的标准方差δx调节空间位置差异;直至连接两字符之间的间隔权值W不大于设定间隔权值,判定文本中两个字符之间的连接已找到符合的标准连接语义,最终完成文本识别。
显然,本领域的技术人员可将本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于自然语言语义分析的文本识别方法,其特征在于,包括:
建立自然语言语义和标准语言语义的对应关系映射集;
获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;
将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别;
所述获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;其中,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;包括:
步骤S1,实时采集自然语言信息;
步骤S2,将采集到的所述自然语言信息进行信息类型判断;
步骤S3,判断所述文本信息属于专有信息或通用信息;包括:根据所述文本信息中是否存在包含在关键词库中的关键词,判断所述文本信息属于专有信息或通用信息;存在包含在所述关键词库中的关键词则属于所述专有信息;不存在包含在所述关键词库中的关键词则属于所述通用信息;若属于所述通用信息,则转向步骤S4;若属于所述专有信息,则转向步骤S5;
步骤S4,对判断为属于所述通用信息的所述文本信息进行语言语义识别,形成第一语言语义识别并转向步骤S6;
步骤S5,将判断为属于所述专有信息的所述文本信息转换为标准拼音信息,并对所述标准拼音信息进行语言语义识别,形成第二语言语义识别并转向步骤S6;
步骤S6,执行所述第一语言语义识别和/或所述第二语言语义识别后结束,并生成语义识别字词库;
所述将非标准语言语义信息输入非标准语言语义分析***分析判定,完成文本识别,包括:对文本信息进行语言语义识别,形成语言语义识别状态区分;第一语言语义识别状态区分,对判断为属于通用领域的文本信息进行语言语义识别,形成第一语言语义识别;第二转换状态区分,将判断为属于垂直领域的文本信息转换为标准拼音信息;第二语言语义识别状态区分,将标准拼音信息进行语言语义识别,形成第二语言语义识别;对于所述的第一语言语义识别与第二语言语义识别,进行命令的执行操作;将非标准语言语义信息输入非标准语言语义分析***分析判定,将判断为属于专有信息的文本信息转换为标准拼音信息,完成文本识别。
2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述建立自然语言语义和标准语言语义的对应关系映射集包括:
步骤1:获取自然语言信息;
步骤2:提取自然语言信息的语义特征,识别自然语言信息语义信息所处的对应关系映射集区域范围;
步骤3:根据识别出的文本区域,将所述区域中的文本与词库中的文本对比,得到初始的文本信息;
步骤4:基于所述的初始文本信息的特征,对文本信息进行分析;
步骤6:根据分析结果判断所述文本信息特征的准确性及完整性;
步骤5:按照自然语言语序对所述文本信息进行矫正;
步骤7:将文本字符进行分割,识别文本字符;
步骤8:将所述的识别出的文本字符输入***映射集中,得到完整准确的对应关系映射集。
3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述步骤4:基于所述的初始文本信息的特征,对文本信息进行分析,包括:
识别文本在自然语言中的分布纹理;将分布纹理与背景纹理进行纹理对比度分析;当纹理对比度大于设定的限值,则识别为文本特征,进行提取;当纹理对比度不大于设定的限值,则识别为非文本。
4.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述自然语言信息的特征包括:自然环境中有干扰噪声场景的文本检测与定位;对文本区域中低质量、干扰严重的文本进行识别、根据文本区域的识别结果对自然语言或视频数据中所包含的信息作进一步的解释。
5.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法,其特征在于,所述步骤S5中包括:步骤S51,将所述文本信息转换为初始拼音信息;步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息;步骤S53,对所述标准拼音信息进行语言语义识别,形成所述第二语言语义识别并转向步骤S6。
6.根据权利要求5所述一种基于自然语言语义分析的文本识别方法,其特征在于,所述步骤S52,对所述初始拼音信息进行模糊匹配,得到所述标准拼音信息,包括:所述模糊匹配采用同音声母校正和/或前后元音进行校正,校正后将矫正后的信息输入标准自然语言语义分析,如仍包含无法识别内容,则进行循环矫正,直至全部识别为标准自然语言语义分析。
7.根据权利要求1所述一种基于自然语言语义分析的文本识别方法,其特征在于,对文本信息进行语言语义识别,形成语言语义识别状态区分,包括:文本扭曲状态区分、文本伸缩状态区分、文本比例状态区分和/或文本模糊状态区分;计算状态区分的最小采集数:
其中,为状态区分的最小采集数,/>为采集错误率,/>为状态区分数,/>为区分概率;通过计算状态区分的最小采集数/>,当状态区分的最小采集数/>大于***设定的参考采集数时,形成语言语义识别状态区分,状态区分过程如下:将文本扭曲状态和文本标准状态进行状态识别区分,区分出扭曲度大于设定的扭曲度范围的文本部分,将扭曲度大于设定的扭曲度范围的文本部分输入到文本伸缩状态区分;文本伸缩状态区分将扭曲度大于设定的扭曲度范围的文本部分按照伸缩状态进行缩伸反向状态区分,将扭曲度大于设定的扭曲度范围的文本部分反向状态区分后进入扭曲度不大于设定的扭曲度范围内,对文本信息进行语言语义识别;文本比例状态区分将文本按照设定比例放大或缩小后和文本标准状态进行状态识别区分;文本模糊状态区分将模糊的文本模糊字体笔画的整体特征进行状态识别区分,将缺失的文本通过文本前后文语言语义关联进行状态识别区分。
8.根据权利要求1所述一种基于自然语言语义分析的文本识别方法,其特征在于,将判断为属于专有信息的文本信息转换为标准拼音信息,包括:将专有信息的文本信息分割成独立字符,将独立字符分别按照间隔权值进行连接;计算自然语言中连接两个字符的间隔权值:
其中,为连接两个字符的间隔权值;P(p)为点p的自然语言的灰度值,F(p)是点p的相应的纹理特征,X(p)是点p的空间位置,X(q)是点q的空间位置;P(q)为点q的自然语言的灰度值,F(q)是点q的相应的纹理特征;∥·∥2表示矢量的二范数;/>为灰度高斯函数的标准方差,/>为纹理高斯函数的标准方差,/>为空间距离高斯函数的标准方差,r为两字符之间的有效距离;通过灰度高斯函数的标准方差/>,纹理高斯函数的标准方差/>,空间距离高斯函数的标准方差/>,分别用来调节字符点间的灰度差异、纹理差异和空间位置差异,共同通过指数式调节连接两个字符的间隔权值/>;根据连接两个字符的间隔权值,当连接两字符之间的间隔权值大于设定间隔权值,则文本中两个字符之间的连接判定为不符合标准连接语义,为非标准语言语义;将非标准语言语义信息输入非标准语言语义分析***,分别通过灰度高斯函数的标准方差/>调节字符点间的灰度差异,纹理高斯函数的标准方差/>调节字符点间的纹理差异,空间距离高斯函数的标准方差/>调节空间位置差异;直至连接两字符之间的间隔权值/>不大于设定间隔权值,判定文本中两个字符之间的连接已找到符合的标准连接语义,最终完成文本识别。
CN202110635441.9A 2021-06-07 2021-06-07 一种基于自然语言语义分析的文本识别方法 Active CN113569577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635441.9A CN113569577B (zh) 2021-06-07 2021-06-07 一种基于自然语言语义分析的文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635441.9A CN113569577B (zh) 2021-06-07 2021-06-07 一种基于自然语言语义分析的文本识别方法

Publications (2)

Publication Number Publication Date
CN113569577A CN113569577A (zh) 2021-10-29
CN113569577B true CN113569577B (zh) 2024-04-05

Family

ID=78161730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635441.9A Active CN113569577B (zh) 2021-06-07 2021-06-07 一种基于自然语言语义分析的文本识别方法

Country Status (1)

Country Link
CN (1) CN113569577B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114272051A (zh) * 2021-12-24 2022-04-05 胡蓉 一种5g远程医疗服务智能终端
CN114492409B (zh) * 2022-01-27 2022-12-20 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446278A (zh) * 2018-07-17 2018-08-24 弗徕威智能机器人科技(上海)有限公司 一种基于自然语言的语义理解***及方法
CN110390397A (zh) * 2019-06-13 2019-10-29 成都信息工程大学 一种文本蕴含识别方法及装置
CN111324708A (zh) * 2020-02-07 2020-06-23 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的自然语言处理***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446278A (zh) * 2018-07-17 2018-08-24 弗徕威智能机器人科技(上海)有限公司 一种基于自然语言的语义理解***及方法
CN110390397A (zh) * 2019-06-13 2019-10-29 成都信息工程大学 一种文本蕴含识别方法及装置
CN111324708A (zh) * 2020-02-07 2020-06-23 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的自然语言处理***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自然语言分析与生成术语简介;常宝宝;;术语标准化与信息技术(04);第19-22页 *

Also Published As

Publication number Publication date
CN113569577A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN109255113B (zh) 智能校对***
US5768417A (en) Method and system for velocity-based handwriting recognition
US5854855A (en) Method and system using meta-classes and polynomial discriminant functions for handwriting recognition
US5802205A (en) Method and system for lexical processing
CN113569577B (zh) 一种基于自然语言语义分析的文本识别方法
CA2252370C (en) Methods and apparatuses for handwriting recognition
CN111339990B (zh) 一种基于人脸特征动态更新的人脸识别***和方法
CN108648760B (zh) 实时声纹辨识***与方法
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN110070853B (zh) 一种语音识别转化方法及***
CN116127015A (zh) 基于人工智能自适应的nlp大模型分析***
CN111126160B (zh) 基于五笔输入法构建的智能汉字结构评价方法及***
CN117235137A (zh) 一种基于向量数据库的职业信息查询方法及装置
CN112528980B (zh) Ocr识别结果纠正方法及其终端、***
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN111276146A (zh) 基于语音识别的教学实训***
JP3180792B2 (ja) 文字認識装置、文字学習装置およびコンピュータ可読記録媒体
CN117058693B (zh) 电磁触控屏的智能手写识别方法
KR100479349B1 (ko) 자소기반 문자인식기 성능 향상방법
CN117273013B (zh) 一种笔录电子数据处理方法
Park A method to convert non-numeric characters into numerical values in dynamic time warping for string matching
CN116720196B (zh) 一种代码同源性检测方法及***
CN117194818B (zh) 基于视频的图文网页生成方法及装置
JPH08263655A (ja) パターン認識方法
AU764561B2 (en) Method and apparatuses for handwriting recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 2201, block a, 19 / F, building 1, No. 2, Zhongguancun South Street, Haidian District, Beijing

Patentee after: Beijing Dongfang tongwangxin Technology Co.,Ltd.

Country or region after: China

Address before: Room 2201, block a, 19 / F, building 1, No. 2, Zhongguancun South Street, Haidian District, Beijing

Patentee before: BEIJING MICROVISION TECHNOLOGY CO.,LTD.

Country or region before: China