CN110889281B - 一种缩略词展开式的识别方法及装置 - Google Patents

一种缩略词展开式的识别方法及装置 Download PDF

Info

Publication number
CN110889281B
CN110889281B CN201911147676.2A CN201911147676A CN110889281B CN 110889281 B CN110889281 B CN 110889281B CN 201911147676 A CN201911147676 A CN 201911147676A CN 110889281 B CN110889281 B CN 110889281B
Authority
CN
China
Prior art keywords
abbreviation
target
expansion
identifying
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911147676.2A
Other languages
English (en)
Other versions
CN110889281A (zh
Inventor
林建明
胡聪豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wuyu Technology Co ltd
Original Assignee
Shenzhen Wuyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wuyu Technology Co ltd filed Critical Shenzhen Wuyu Technology Co ltd
Priority to CN201911147676.2A priority Critical patent/CN110889281B/zh
Publication of CN110889281A publication Critical patent/CN110889281A/zh
Application granted granted Critical
Publication of CN110889281B publication Critical patent/CN110889281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种缩略词展开式的识别方法及装置,其中该识别方法包括:根据第一预设规则,确定待识别展开式的目标缩略词;根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词;若是,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式。本发明可以迅速地确定英文文章中待识别的缩略词,并识别出缩略词的完整展开式。

Description

一种缩略词展开式的识别方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种缩略词展开式的识别方法及装置。
背景技术
在英文文章中,缩略语(abbreviation)是一种新的构词方法,也是现代词汇发展中一个重要的现象,比如金融领域所涉及的各种文书,包括书信、合同、文件以及各种单据等,都会频繁使用缩略词。缩略词的流行产生了很多问题,人们经常无法知道缩略词的意思,也无法获取到缩略词完整形式的展开式。读者在阅读一篇文章尤其是一篇科技文章的时候,会经常遇到一些几个字母组成短词术语,这些短词术语有可能是缩略词,也有可能不是缩略词,首先需要进行判断清楚。如果遇到很多不知道完整展开式的缩略词,读者就很难理解文章的完整内容,获取不了关键的信息。如何判断一个短词术语是不是缩略词以及怎样识别出一个缩略词的展开式,成为亟待解决的问题。
发明内容
本发明实施例提供一种缩略词展开式的识别方法及装置,以解决现有技术中的以下问题:在一篇英文文章中出现很多缩略词,但是无法确定缩略词的完整展开式,导致读者无法完整理解文章的内容。
为解决上述技术问题,本发明实施例采用的第一技术方案如下:
一种缩略词展开式的识别方法,其包括:根据第一预设规则,确定待识别展开式的目标缩略词;根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词;若是,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式;其中,所述显性缩略词为第一类型缩略词,所述隐性缩略词为不同于所述显性缩略词的第二类型缩略词。
可选地,所述根据第一预设规则,确定待识别展开式的目标缩略词,包括:判断字符数满足预设数目的潜在缩略词是否同时满足以下预设条件:所述潜在缩略词的各个组成字母均为小写字母、所述潜在缩略词不以“-”符号作为开头、所述潜在缩略词不以“.”符号作为结尾以及所述潜在缩略词的出现词频大于或等于预设词频阈值;若是,则判定所述潜在缩略词为待识别展开式的所述目标缩略词。
可选地,所述根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词,包括:判断所述目标缩略词是否位于括号内,或位于括号两边的任意一边;若是,则判定所述目标缩略词为显性缩略词,否则判定所述目标缩略词为隐性缩略词。
可选地,所述按照识别所述显性缩略词的方法去识别所述目标缩略词对应的展开式,包括:判断与所述显性缩略词对应的括号内或者括号左右两边是否存在开头字母组合和所述显性缩略词相同的第一目标词组;若是,则将所述第一目标词组作为所述目标缩略词对应的展开式;其中,所述第一目标词组的相邻两个单词之间均存在一个空格的间隔。
可选地,所述按照识别隐性缩略词的方法去识别所述目标缩略词对应的展开式,包括:判断是否存在开头字母组合和所述隐性缩略词相同的第二目标词组,所述第二目标词组的相邻两个单词之间均存在一个空格的间隔;若是,则进一步判断所述第二目标词组的个数是否为一个以上;若是,则按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式。
可选地,所述按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式,包括:将出现频率最少的一个所述第二目标词组剔除;判断剔除出现频率最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组;若是,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式。
可选地,若剔除出现频率最少的一个所述第二目标词组之后,不只剩下一个所述第二目标词组,还包括:进一步剔除字母数量最少的一个所述第二目标词组;判断剔除字母数量最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组;若是,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式,否则选择字母数量最多的一个所述第二目标词组作为所述目标缩略词对应的展开式。
为解决上述技术问题,本发明实施例采用的第二技术方案如下:
一种缩略词展开式的识别装置,其包括:缩略词确定模块,用于根据第一预设规则,确定待识别展开式的目标缩略词;缩略词判断模块,用于根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词;缩略词识别模块,用于若待识别的所述目标缩略词为显性缩略词,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式。
为解决上述技术问题,本发明实施例采用的第三技术方案如下:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述的缩略词展开式的识别方法。
为解决上述技术问题,本发明实施例采用的第四技术方案如下:
一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的缩略词展开式的识别方法。
本发明实施例的有益效果是:区别于现有技术的情况,本发明实施例通过根据第一预设规则,确定待识别展开式的目标缩略词,再根据第二预设规则,判断待识别的目标缩略词是否为显性缩略词,最后根据判断结果,按照识别显性缩略词展开式的方法去识别目标缩略词对应的展开式,或按照识别隐性缩略词展开式的方法去识别目标缩略词对应的展开式,不仅能识别显性缩略词,还能识别隐性缩略词,解决了现有技术中的以下问题:在一篇英文文章中出现很多缩略词,但是无法确定缩略词的完整展开式,导致读者无法完整理解文章的内容。
附图说明
图1是本发明实施例一的缩略词展开式的识别方法一实施方式的实施流程图;
图2是本发明实施例二的缩略词展开式的识别装置一实施方式的部分结构框架图;
图3是本发明实施例三的计算机可读存储介质一实施方式的部分结构框架图;
图4是本发明实施例四的计算机设备一实施方式的部分结构框架图。
具体实施方式
实施例一
请参阅图1,图1是本发明实施例的缩略词展开式的识别方法的实施流程图,结合图1可以得到,本发明的一种缩略词展开式的识别方法,应用于英文文章,其包括:
步骤S101:根据第一预设规则,确定待识别展开式的目标缩略词。在本步骤中,目标缩略词是指在一篇文章或摘要中出现的缩略词。
步骤S102:根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词。
步骤S103:若待识别的所述目标缩略词为显性缩略词,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式。
步骤S104:若待识别的所述目标缩略词不是显性缩略词,则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式。
其中,所述显性缩略词为第一类型缩略词,所述隐性缩略词为不同于所述显性缩略词的第二类型缩略词。
在本实施例中,可选地,所述根据第一预设规则,确定待识别展开式的目标缩略词,包括:
第一,判断字符数满足预设数目的潜在缩略词是否同时满足以下预设条件:所述潜在缩略词的各个组成字母均为小写字母、所述潜在缩略词不以“-”符号作为开头(如“-LRB-”)、所述潜在缩略词不以“.”符号作为结尾(如MR.)以及所述潜在缩略词的出现词频大于或等于预设词频阈值。其中,预设词频阈值可选为7,这是一个经验值。
第二,若字符数满足预设数目的潜在缩略词同时满足预设条件,则判定所述潜在缩略词为待识别展开式的所述目标缩略词。
在本实施例中,可选地,所述根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词,包括:
第一,判断所述目标缩略词是否位于括号内,或位于括号两边的任意一边。
第二,若所述目标缩略词位于括号内,或位于括号两边的任意一边,则判定所述目标缩略词为显性缩略词,否则判定所述目标缩略词为隐性缩略词。
在本实施例中,缩略词的分类主包括显性缩略词和隐形缩略词。其中,显性缩略词要么位于括号内,要么位于括号的左边或右边,并且显性缩略词总是和它的完全展开式出现在一起的。隐形缩略词则不是和它的完全展开式出现在一起的,而且隐形缩略词既不在括号内,它的左边或者右边也没有括号出现。
在本实施例中,可选地,所述按照识别所述显性缩略词的方法去识别所述目标缩略词对应的展开式,包括:
第一,判断与所述显性缩略词对应的括号内或者括号左右两边是否存在开头字母组合和所述显性缩略词相同的第一目标词组。
第二,若与所述显性缩略词对应的括号内或者括号左右两边存在开头字母组合和所述显性缩略词相同的第一目标词组,则将所述第一目标词组作为所述目标缩略词对应的展开式。其中,所述第一目标词组的相邻两个单词之间均存在一个空格的间隔。
在本实施例中,显性缩略词的展开式通常位于括号内或者括号左右两边,只要在括号内或者括号左右两边找到开头字母组合和所述显性缩略词相同的第一目标词组,并且该第一目标词组和所述显性缩略词相邻(只有一个空格),就可以确定该第一目标词组为所述目标缩略词对应的展开式。
在本实施例中,可选地,所述按照识别隐性缩略词的方法去识别所述目标缩略词对应的展开式,包括:
第一,判断是否存在开头字母组合和所述隐性缩略词相同的第二目标词组,其中所述第二目标词组的相邻两个单词之间均存在一个空格的间隔,且只存在一个空格的间隔。
第二,若存在开头字母组合和所述隐性缩略词相同的第二目标词组,则进一步判断所述第二目标词组的个数是否为一个以上。
第三,若所述第二目标词组的个数为一个以上,则按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式。
在本实施例中,可选地,所述按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式,包括:
第一,将出现频率最少的一个所述第二目标词组剔除。
第二,判断剔除出现频率最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组。
第三,若只剩下一个所述第二目标词组,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式,这是基于实际经验所作出的选择方法,根据经验而言,采用这种选择方法获取到的所述目标缩略词对应的展开式,准确率比较高。
在本实施例中,可选地,若剔除出现频率最少的一个所述第二目标词组之后,不只剩下一个所述第二目标词组,还包括:
第一,进一步剔除字母数量最少的一个所述第二目标词组。
第二,判断剔除字母数量最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组。
第三,若只剩下一个所述第二目标词组,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式,否则选择字母数量最多的一个所述第二目标词组作为所述目标缩略词对应的展开式,这是基于实际经验所作出的选择方法,根据经验而言,采用这种选择方法获取到的所述目标缩略词对应的展开式,准确率比较高。
本发明实施例通过根据第一预设规则,确定待识别展开式的目标缩略词,再根据第二预设规则,判断待识别的目标缩略词是否为显性缩略词,最后根据判断结果,按照识别显性缩略词展开式的方法去识别目标缩略词对应的展开式,或按照识别隐性缩略词展开式的方法去识别目标缩略词对应的展开式,不仅能识别显性缩略词,还能识别隐性缩略词,解决了现有技术中的以下问题:在一篇英文文章中出现很多缩略词,但是无法确定缩略词的完整展开式,导致读者无法完整理解文章的内容。
实施例二
请参阅图2,图2是本发明实施例的缩略词展开式的识别装置的部分结构框架图,结合图2可以得到,本发明的一种缩略词展开式的识别装置100,包括:
缩略词确定模块110,用于根据第一预设规则,确定待识别展开式的目标缩略词。
缩略词判断模块120,用于根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词。
缩略词识别模块130,用于若待识别的所述目标缩略词为显性缩略词,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式。
本发明实施例通过根据第一预设规则,确定待识别展开式的目标缩略词,再根据第二预设规则,判断待识别的目标缩略词是否为显性缩略词,最后根据判断结果,按照识别显性缩略词展开式的方法去识别目标缩略词对应的展开式,或按照识别隐性缩略词展开式的方法去识别目标缩略词对应的展开式,不仅能识别显性缩略词,还能识别隐性缩略词,解决了现有技术中的以下问题:在一篇英文文章中出现很多缩略词,但是无法确定缩略词的完整展开式,导致读者无法完整理解文章的内容。
实施例三
请参阅图3,参考图3可以看到,本发明实施例的一种计算机可读存储介质10,所述的计算机可读存储介质10,如:ROM/RAM、磁碟、光盘等,其上存储有计算机程序11,所述计算机程序11被执行时实现如实施例一所述的缩略词展开式的识别方法。由于该缩略词展开式的识别方法已经在实施例一进行了详细的说明,在此不再重复说明。
本发明实施例实现的缩略词展开式的识别方法,通过根据第一预设规则,确定待识别展开式的目标缩略词,再根据第二预设规则,判断待识别的目标缩略词是否为显性缩略词,最后根据判断结果,按照识别显性缩略词展开式的方法去识别目标缩略词对应的展开式,或按照识别隐性缩略词展开式的方法去识别目标缩略词对应的展开式,不仅能识别显性缩略词,还能识别隐性缩略词,解决了现有技术中的以下问题:在一篇英文文章中出现很多缩略词,但是无法确定缩略词的完整展开式,导致读者无法完整理解文章的内容。
实施例四
请参阅图4,参考图4可以看到,本发明实施例的一种计算机设备20,其包括处理器21、存储器22及存储于所述存储器22上并可在所述处理器21上运行的计算机程序221,所述处理器21执行所述计算机程序221时实现如实施例一所述的缩略词展开式的识别方法。由于该缩略词展开式的识别方法已经在实施例一进行了详细的说明,在此不再重复说明。
本发明实施例实现的缩略词展开式的识别方法,通过根据第一预设规则,确定待识别展开式的目标缩略词,再根据第二预设规则,判断待识别的目标缩略词是否为显性缩略词,最后根据判断结果,按照识别显性缩略词展开式的方法去识别目标缩略词对应的展开式,或按照识别隐性缩略词展开式的方法去识别目标缩略词对应的展开式,不仅能识别显性缩略词,还能识别隐性缩略词,解决了现有技术中的以下问题:在一篇英文文章中出现很多缩略词,但是无法确定缩略词的完整展开式,导致读者无法完整理解文章的内容。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种缩略词展开式的识别方法,其特征在于,包括:
根据第一预设规则,确定待识别展开式的目标缩略词;
根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词;
若是,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式;
其中,所述显性缩略词为第一类型缩略词,所述隐性缩略词为不同于所述显性缩略词的第二类型缩略词;
所述按照识别隐性缩略词的方法去识别所述目标缩略词对应的展开式,包括:
判断是否存在开头字母组合和所述隐性缩略词相同的第二目标词组,所述第二目标词组的相邻两个单词之间均存在一个空格的间隔;
若是,则进一步判断所述第二目标词组的个数是否为一个以上;
若是,则按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式;
所述按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式,包括:
将出现频率最少的一个所述第二目标词组剔除;
判断剔除出现频率最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组;
若是,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式;
若剔除出现频率最少的一个所述第二目标词组之后,不只剩下一个所述第二目标词组,还包括:
进一步剔除字母数量最少的一个所述第二目标词组;
判断剔除字母数量最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组;
若是,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式,否则选择字母数量最多的一个所述第二目标词组作为所述目标缩略词对应的展开式。
2.根据权利要求1所述的缩略词展开式的识别方法,其特征在于,所述根据第一预设规则,确定待识别展开式的目标缩略词,包括:
判断字符数满足预设数目的潜在缩略词是否同时满足以下预设条件:所述潜在缩略词的各个组成字母均为小写字母、所述潜在缩略词不以“-”符号作为开头、所述潜在缩略词不以“.”符号作为结尾以及所述潜在缩略词的出现词频大于或等于预设词频阈值;
若是,则判定所述潜在缩略词为待识别展开式的所述目标缩略词。
3.根据权利要求1所述的缩略词展开式的识别方法,其特征在于,所述根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词,包括:
判断所述目标缩略词是否位于括号内,或位于括号两边的任意一边;
若是,则判定所述目标缩略词为显性缩略词,否则判定所述目标缩略词为隐性缩略词。
4.根据权利要求3所述的缩略词展开式的识别方法,其特征在于,所述按照识别所述显性缩略词的方法去识别所述目标缩略词对应的展开式,包括:
判断与所述显性缩略词对应的括号内或者括号左右两边是否存在开头字母组合和所述显性缩略词相同的第一目标词组;
若是,则将所述第一目标词组作为所述目标缩略词对应的展开式;
其中,所述第一目标词组的相邻两个单词之间均存在一个空格的间隔。
5.一种缩略词展开式的识别装置,其特征在于,包括:
缩略词确定模块,用于根据第一预设规则,确定待识别展开式的目标缩略词;
缩略词判断模块,用于根据第二预设规则,判断待识别的所述目标缩略词是否为显性缩略词;
缩略词识别模块,用于若待识别的所述目标缩略词为显性缩略词,则按照识别所述显性缩略词展开式的方法去识别所述目标缩略词对应的展开式,否则按照识别隐性缩略词展开式的方法去识别所述目标缩略词对应的展开式;
所述按照识别隐性缩略词的方法去识别所述目标缩略词对应的展开式,包括:
判断是否存在开头字母组合和所述隐性缩略词相同的第二目标词组,所述第二目标词组的相邻两个单词之间均存在一个空格的间隔;
若是,则进一步判断所述第二目标词组的个数是否为一个以上;
若是,则按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式;
所述按照第三预设规则,选择其中一个所述第二目标词组作为所述目标缩略词对应的展开式,包括:
将出现频率最少的一个所述第二目标词组剔除;
判断剔除出现频率最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组;
若是,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式;
若剔除出现频率最少的一个所述第二目标词组之后,不只剩下一个所述第二目标词组,还包括:
进一步剔除字母数量最少的一个所述第二目标词组;
判断剔除字母数量最少的一个所述第二目标词组之后,是否只剩下一个所述第二目标词组;
若是,则将剩下的一个所述第二目标词组作为所述目标缩略词对应的展开式,否则选择字母数量最多的一个所述第二目标词组作为所述目标缩略词对应的展开式。
6.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~4任一项所述的缩略词展开式的识别方法。
7.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~4任一项所述的缩略词展开式的识别方法。
CN201911147676.2A 2019-11-21 2019-11-21 一种缩略词展开式的识别方法及装置 Active CN110889281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911147676.2A CN110889281B (zh) 2019-11-21 2019-11-21 一种缩略词展开式的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911147676.2A CN110889281B (zh) 2019-11-21 2019-11-21 一种缩略词展开式的识别方法及装置

Publications (2)

Publication Number Publication Date
CN110889281A CN110889281A (zh) 2020-03-17
CN110889281B true CN110889281B (zh) 2023-10-17

Family

ID=69748213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911147676.2A Active CN110889281B (zh) 2019-11-21 2019-11-21 一种缩略词展开式的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110889281B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN103778142A (zh) * 2012-10-23 2014-05-07 南开大学 一种基于条件随机场的缩略词扩展解释识别方法
CN104881397A (zh) * 2014-02-27 2015-09-02 富士通株式会社 缩写词扩展方法和装置
CN108628631A (zh) * 2018-05-14 2018-10-09 北京理工大学 一种对参数中的缩写词进行自动扩展的方法
CN108984159A (zh) * 2018-06-15 2018-12-11 浙江网新恒天软件有限公司 一种基于马尔可夫语言模型的缩略词组扩展方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011006300A1 (en) * 2009-07-16 2011-01-20 Hewlett-Packard Development Company, L.P. Acronym extraction
US8171403B2 (en) * 2009-08-20 2012-05-01 International Business Machines Corporation System and method for managing acronym expansions
US20170052936A1 (en) * 2015-08-21 2017-02-23 Norman A. Paradis Computer software program for the automated identification and removal of abbreviations and acronyms in electronic documents
US20180196921A1 (en) * 2017-01-12 2018-07-12 International Business Machines Corporation Abbreviation Expansion in Clinical Notes Using Frequency and Context
US10572597B2 (en) * 2017-11-30 2020-02-25 International Business Machines Corporation Resolution of acronyms in question answering systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN103778142A (zh) * 2012-10-23 2014-05-07 南开大学 一种基于条件随机场的缩略词扩展解释识别方法
CN104881397A (zh) * 2014-02-27 2015-09-02 富士通株式会社 缩写词扩展方法和装置
CN108628631A (zh) * 2018-05-14 2018-10-09 北京理工大学 一种对参数中的缩写词进行自动扩展的方法
CN108984159A (zh) * 2018-06-15 2018-12-11 浙江网新恒天软件有限公司 一种基于马尔可夫语言模型的缩略词组扩展方法

Also Published As

Publication number Publication date
CN110889281A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
US8355904B2 (en) Apparatus and method for detecting sentence boundaries
EP2553626B1 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US20030208354A1 (en) Method for named-entity recognition and verification
US8340425B2 (en) Optical character recognition with two-pass zoning
KR102345498B1 (ko) 라인 분할 방법
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
US20130246047A1 (en) Identification and Extraction of Acronym/Definition Pairs in Documents
US20100278427A1 (en) Method and system for processing text
EP2191396B1 (en) An apparatus for preparing a display document for analysis
CN110738238A (zh) 一种证件信息的分类定位方法及装置
CN110889118B (zh) 异常sql语句检测方法、装置、计算机设备和存储介质
Chen Chinese word segmentation using minimal linguistic knowledge
CN110688841A (zh) 一种机构名称识别方法、装置、设备以及存储介质
US9330086B2 (en) Method and apparatus for identifying a language used in a document and performing OCR recognition based on the language identified
CN110889281B (zh) 一种缩略词展开式的识别方法及装置
KR101721063B1 (ko) 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체
JP4470913B2 (ja) 文字列検索装置およびプログラム
US20180144048A1 (en) Apparatus and method for matching multiplecolumn keyword patterns
US9336197B2 (en) Language recognition based on vocabulary lists
CN106685963B (zh) 一种恶意网络流量词库的建立方法及建立***
US20150269453A1 (en) Methods and systems for efficient handwritten character segmentation
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
WO2014114117A1 (en) Language recognition based on vocabulary lists
US20100329537A1 (en) Computer-implemented methods of identifying an optical character recognition (ocr) font to assist an operator in setting up a bank remittance coupon application
JP5908825B2 (ja) 文字認識装置及び文字認識プログラムを記録したコンピュータ読取り可能な記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant