CN117592473B - 一种多中文词组的谐音拆分处理方法及装置 - Google Patents

一种多中文词组的谐音拆分处理方法及装置 Download PDF

Info

Publication number
CN117592473B
CN117592473B CN202410070087.3A CN202410070087A CN117592473B CN 117592473 B CN117592473 B CN 117592473B CN 202410070087 A CN202410070087 A CN 202410070087A CN 117592473 B CN117592473 B CN 117592473B
Authority
CN
China
Prior art keywords
chinese
chinese character
substring
splitting
character combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410070087.3A
Other languages
English (en)
Other versions
CN117592473A (zh
Inventor
申一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Almond Eucalyptus Technology Co ltd
Original Assignee
Wuhan Almond Eucalyptus Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Almond Eucalyptus Technology Co ltd filed Critical Wuhan Almond Eucalyptus Technology Co ltd
Priority to CN202410070087.3A priority Critical patent/CN117592473B/zh
Publication of CN117592473A publication Critical patent/CN117592473A/zh
Application granted granted Critical
Publication of CN117592473B publication Critical patent/CN117592473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种多中文词组的谐音拆分处理方法及装置,首先获取多个待处理中文词组;并从每个待处理中文词组中提取一个汉字组成初始汉字组合;然后根据初始汉字组合的长度对其进行循环拆分;接着将每次拆分得到的子串转换为拼音后分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;再输出结果集,作为多中文词组的处理结果。本发明提供的方法从每个待处理中文词组中提取出一个汉字组成初始汉字组合,并且在进行匹配时,考虑了汉字构成不同但拼音相同的情况,即考虑谐音,使得拆分结果更全面,记忆方式更为丰富,实际应用过程中可以提高多中文词组的学习效率。

Description

一种多中文词组的谐音拆分处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多中文词组的谐音拆分处理方法及装置。
背景技术
随着社会和经济的发展,人们需要掌握的知识越来越多。不管是学习还是考试,都有大量的考点、重点需要记忆,很多时候人们需要记忆其中的多个关键的中文词组。如果是死记硬背,很难记住这些关键词组,容易遗漏。
目前,在对多个中文词组进行处理时,采用的组合方式较为单一,例如仅考虑从每个中文词组中取一个字进行重新组合,而忽略了其他情况,此外,在对重新组合的短语进行拆分后,仅考虑了拆分子串的本身含义,忽略了谐音情况,从而导致拆分的结果不够全面,在实际应用过程中,也不利于用户学习或者记忆多个中文词组。
发明内容
本发明提出一种多中文词组的谐音拆分处理方法及装置,用以解决或者至少部分解决现有技术中存在的拆分结果不够全面的技术问题。
为了解决上述技术问题,本发明技术方案为:
第一方面提供了一种多中文词组的谐音拆分处理方法,包括:
获取多个待处理中文词组;
从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
根据初始汉字组合的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
输出结果集,作为多中文词组的谐音拆分处理结果。
在一种实施方式中,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:
如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合;
如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成初始汉字组合。
在一种实施方式中,每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,直到截取得到的第一子串的长度为1。
在一种实施方式中,根据匹配情况得到匹配结果,包括:
如果拆分得到的子串的去声调的拼音在预先构建的数据库中存在与之匹配的词语,则表明匹配成功,匹配结果为存在;
如果拆分得到的子串的去声调的拼音在预先构建的数据库中不存在与之匹配的词语,则表明匹配不成功,匹配结果为未找到。
在一种实施方式中,所述方法还包括:
如果拆分得到的记录中,存在其子串的去声调的拼音与预先构建的数据库中的词语不匹配的情况,则删除该条记录。
在一种实施方式中,在输出结果集之后,所述方法还包括:
根据结果集中包含的记录中的子串数量按照从少到多对记录进行排序。
在一种实施方式中,所述方法包括:
当结果集中包含的两条或多条记录中的子串数量相同时,根据子串中的汉字与对应原中文词组中提取的汉字中相同汉字的数量由多到少对记录进行排序。
在一种实施方式中,所述方法包括:当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时,根据每条记录中子串对应的词语的频率之和对记录进行由高到低排序。
基于同样的发明构思,本发明第二方面提供了一种多中文词组的谐音拆分处理装置,包括:
中文词组获取模块,用于获取多个待处理中文词组;
汉字组合模块,用于从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
循环拆分模块,用于根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
匹配模块,用于将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
结果输出模块,用于输出结果集,作为多中文词组的谐音拆分处理结果。
基于同样的发明构思,本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请公开的多中文词组的谐音拆分处理方法,从每个待处理中文词组中提取出一个汉字组成初始汉字组合后,根据初始汉字组合的长度对该初始汉字组合进行循环拆分:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,这种拆分方式考虑了多种组合拆分的情况,并且在进行匹配时,先将每次拆分得到的子串转换为拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,考虑了汉字构成不同但拼音相同的情况,即考虑谐音,使得拆分的结果更为全面,从而多个中文词组的记忆方式更为丰富,实际应用过程中可以提高多中文词组的学习和记忆效率。
进一步地,当与子串的拼音匹配的词语与子串具有不同的汉字组成时,将数据库中的词语和对应的匹配结果作为一条记录,从而得到更全面的匹配结果,扩充了结果集。
进一步地,根据结果集中包含的记录中的子串数量对记录进行排序,可以优先将拆分部分较少的部分排列在前面。
进一步地,当结果集中包含的两条或多条记录中的子串数量相同时,则将子串中的汉字与对应原中文词组中提取的汉字依次进行对比,根据相同汉字的数量由多到少对记录进行排序。
进一步地,当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时,则根据每条记录中子串对应的词语的频率之和对记录进行由高到低排序,从而可以得到更优的拆分结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种多中文词组的谐音拆分处理方法的流程示意图;
图2为本申请实施例中对多个中文词组提取形成汉字组合并进行循环拆分的实现流程图;
图3为本申请实施例中对一个具体汉字组合的谐音拆分处理方法的处理结果示意图;
图4为本申请实施例提供的一种中文词组的谐音拆分处理装置的结构框图;
图5为本申请实施例提供的计算机设备的结构图。
具体实施方式
本发明提供了一种多中文词组的谐音拆分处理方法及装置,从每个待处理中文词组中提取出一个汉字组成待处理的初始汉字组合后,根据初始汉字组合的长度递减方式从左到右进行循环拆分,并且在进行匹配时,先将每次拆分得到的子串转换为拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,考虑了汉字构成不同但拼音相同的情况,即考虑谐音,使得拆分的结果更为全面,从而多个中文词组的记忆方式更为丰富,实际应用过程中可以提高多中文词组的学习效率。
为了达到上述目的,本发明提供的技术方案总体思路如下:
获取多个待处理中文词组后,从每个待处理中文词组中提取出一个汉字组成待处理的初始汉字组合;然后根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;将每次拆分得到的子串转换为拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;输出结果集,作为多中文词组的谐音拆分处理结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参见图1,本实施例提供了一种多中文词组的谐音拆分处理方法,包括:
获取多个待处理中文词组;
从每个待处理中文词组中提取出一个汉字,组成待处理的初始汉字组合;
根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
将每次拆分得到的子串转换为去声调后的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
输出结果集,作为多中文词组的谐音拆分处理结果。
具体实施过程中,多个待处理中文词组的数量大于或等于2。初始汉字组合的长度是指初始汉字组合包含的汉字的数量,例如,汉字组合“博学多才”的长度为4,汉字组合“千里马”的长度为3。
其中,预先构建的数据库中的词语包括包括两个字或两个字以上的词汇,例如,“爱心”、“宝物”、“百宝箱”、“北半球”、“出类拔萃”、“大吉大利”等都是词语。这些词语构成一个词库,通过搜索引擎收集后整理得到。
在将每次拆分得到的子串转换为拼音,再与预先构建的数据库中的词语的拼音进行匹配时,是将子串的去声调后的拼音与数据库中词语去声调后的拼音进行匹配,即进行谐音匹配。只要去声调后的拼音匹配,则认为匹配。数据库中与子串的拼音匹配成功的词语包括一个或多个,当数据库中与子串的拼音匹配成功的词语为一个时,将数据库中匹配成功的词语和匹配结果(存在)作为一条记录加入至结果集,当数据库中与子串的拼音匹配成功的词语为多个时,则分别将数据库中匹配成功的每一个词语和匹配结果(存在)单独作为一条记录加入至结果集。
在一种实施方式中,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:
如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合;
如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成初始汉字组合。
具体实施过程中,如果用户要记忆鄂尔多斯的四大产业:羊毛、煤炭、稀土、天然气,输入的中文词组为[羊毛,煤炭,稀土,天然气],即四个中文词组,当用户选择正序处理时,从每个中文词组中依次提取出一个汉字后,需要考虑汉字在词组中的顺序,即从词组“羊毛”中提取出的汉字“羊”或者“毛”字需要排在前面。此时,组成的初始汉字组合为:[羊煤稀天, 羊煤稀然, 羊煤稀气, 羊煤土天, 羊煤土然, 羊煤土气, 羊炭稀天, 羊炭稀然,羊炭稀气, 羊炭土天, 羊炭土然, 羊炭土气, 毛煤稀天, 毛煤稀然, 毛煤稀气, 毛煤土天, 毛煤土然, 毛煤土气, 毛炭稀天, 毛炭稀然, 毛炭稀气, 毛炭土天, 毛炭土然, 毛炭土气]共24种。
当用户选择乱序处理时,则提取出的汉字可以自由排列组合,此时得到的初始汉字组合为:[羊煤稀天, 羊煤稀然, 羊煤稀气, 羊煤土天, 羊煤土然, 羊煤土气, 羊炭稀天, 羊炭稀然, 羊炭稀气, 羊炭土天, 羊炭土然, 羊炭土气, 毛煤稀天, 毛煤稀然, 毛煤稀气, 毛煤土天, 毛煤土然, 毛煤土气, 毛炭稀天, 毛炭稀然, 毛炭稀气, 毛炭土天,毛炭土然, 毛炭土气, 羊煤天稀, 羊煤天土, 羊煤然稀, 羊煤然土, 羊煤气稀, 羊煤气土, 羊炭天稀, 羊炭天土, 羊炭然稀, 羊炭然土, 羊炭气稀, 羊炭气土, 毛煤天稀…]共576种。
在一种实施方式中,每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,直到截取得到的第一子串的长度为1。
具体来说,对初始汉字组合语的拆分过程是一个循环递归的过程,第一次拆分时,首先截取与初始汉字组合的长度相等长度的汉字或者汉字组合作为第一子串,即将整个初始汉字组合作为第一子串。
第二次拆分时,将截取长度减1,得到第一子串,其余的汉字作为第二子串。
第三次拆分时,将截取长度再减1,得到第一子串,其余的汉字作为第二子串,此时,由于第二子串的长度大于1,需要将第二子串作为当前汉字组合进行拆分。
下面以正序处理中的汉字组合“羊煤土气”为例,介绍其循环拆分的过程。
1. 首先进行第一次拆分,截取长度为4的汉字组合“羊煤土气”作为第一子串,得到第一次拆分结果:羊煤土气;
2、接着进行第二次拆分,截取长度为3的汉字组合“羊煤土”作为第一子串,其余汉字“气”作为第二子串,得到第二次的拆分结果:羊煤土+气;
3、进行第三次拆分,截取长度为2的汉字组合“羊煤”作为第一子串,其余汉字“土气”作为第二子串,得到第三次的拆分结果:羊煤+土气,此时,由于第二子串“土气”的长度大于1,则将“土气”作为当前汉字组合进行循环拆分,得到“土”与“气”,第四次拆分结果为:羊煤+土+气;
4、接着进行拆分,截取长度为1的汉字“羊”作为第一子串,其余汉字“煤土气”作为第二子串,得到第五次的拆分结果,此时,由于第二子串“煤土气”的长度大于1,则将“煤土气”作为当前汉字组合进行循环拆分,得到“煤土”与“气”,“煤”与“土气”,“煤”、“土”与“气”三种结果。
综上,对于汉字组合“羊煤土气”的拆分结果如下:
羊煤土气
羊煤土 + 气
羊煤 + 土气
羊煤 + 土 + 气
羊 + 煤土气
羊 + 煤土 + 气
羊 + 煤 + 土气
羊 + 煤 + 土 + 气。
请参见图2,为本发明实施例中提供的对汉字组合进行循环拆分的实现流程图。
该图中,左下部分表示对子串的循环递归拆分,即第二子串的长度大于1时的拆分情况。
在一种实施方式中,根据匹配情况得到匹配结果,包括:
如果拆分得到的子串的去声调的拼音在预先构建的数据库中存在与之匹配的词语,则表明匹配成功,匹配结果为存在;
如果拆分得到的子串的去声调的拼音在预先构建的数据库中不存在与之匹配的词语,则表明匹配不成功,匹配结果为未找到。
具体来说,当拆分得到的子串的拼音在预先构建的数据库中存在与之匹配的词语,表明匹配成功,该种拆分方式是合理的,否则拆分方式不合理。
举例来说,对于拆分结果“羊煤 + 土 + 气”来说,其对应的去声调的拼音为:“yang mei + tu + qi”,则该拆分结果对应的其中一条子串构成的记录为:羊煤(未找到)+ 土(未找到) + 气(未找到)。由于考虑了谐音情况,在预先构建的数据库中的词语,去声调的拼音“yang mei”可以匹配到“杨梅”和“扬眉”,所以该拆分结果对应的子串构成的记录还包括“杨梅(词语) + 土(未找到) + 气(未找到)”以及“扬眉(词语) + 土(未找到) + 气(未找到)”。
在一种实施方式中,在输出结果集之前,所述方法还包括:
对于结果集中的一条记录,如果存在其子串的去声调的拼音与预先构建的数据库中的词语不匹配的情况,则删除该条记录。
具体来说,通过循环拆分方式得到的各个子串先转换成拼音,然后与数据库中收录的词语的拼音进行匹配,如果子串的去声调的拼音在数据库中存在,则获取与子串的去声调的拼音匹配的所有词语(包括拼音相同汉字组成相同、拼音相同汉字组成不同的词语),并且认为这组子串+谐音是存在的词语或者成语,匹配成功。如果不存在,则该子串不是词语也不存在谐音组合,匹配不成功。匹配结果构成一条记录保存至结果集中。如果一条记录中,包含匹配不成功的子串,则表明该拆分方式不合理,删除该条记录。其中,预先构建的数据库收录了五万多个常用的词语或者成语。
举例来说,对于汉字组合“羊煤土气”,其中一条拆分结果为“羊煤 + 土气”。其中,“羊煤”的去声调的拼音是“yang mei”,在预先构建的数据库中可以匹配到谐音的词语有“杨梅”、“扬眉”;“土气”的去声调的拼音是“tu qi”,在预先构建的数据库中可以匹配到谐音的词语有“土气”(原词语)、“吐气”、“凸起”和“突起”。故拆分结果“羊煤 + 土气”对应的子串匹配结果为:
(1)羊煤(未找到)+土气(词语)
(2)杨梅(词语)+土气(词语)
(3)杨梅(词语)+吐气(词语)
(4)杨梅(词语)+凸起(词语)
(5)杨梅(词语)+突起(词语)
(6)扬眉(词语)+土气(词语)
(7)扬眉(词语)+吐气(词语)
(8)扬眉(词语)+凸起(词语)
(9)扬眉(词语)+突起(词语)
由于第1条记录中存在未匹配的情况,故删掉该记录,保留剩下8条记录,可见,通过考虑谐音匹配的情况,大幅度提高了匹配的结果数量。对于汉字组合“羊煤土气”的谐音拆分组合结果详见图3。
在一种实施方式中,在输出结果集之后,所述方法还包括:
根据结果集中包含的记录中的子串数量按照由多到少对记录进行排序。
具体来说,结果集中每一条记录的拆分结果对应不同的拆分方式,从而包含不同的子串数量,子串数量越多,则拆分的部分越多。本实施例中,根据拆分的子串数量的多少对记录进行排序,将子串数量少的记录排在前面。实际应用过程中的含义,排序越靠前,表明这种拆分方式更为合理。
举例来说,对于汉字组合“羊煤土气”的拆分结果有:“羊煤土气”和“羊煤 + 土气”,其中通过谐音匹配的方式,“羊煤土气”在预先构建的数据库中匹配到了“扬眉吐气(词语)”,而“羊煤 + 土气”的拆分结果在预先构建的数据库中匹配结果有:“杨梅(词语)+土气(词语)”和“扬眉(词语)+土气(词语)”。由于“扬眉吐气(词语)”的子串数量为1,“杨梅(词语)+土气(词语)”和“扬眉(词语)+土气(词语)”的子串数量为2,所以“扬眉吐气(词语)”这条记录应该排在前面。
在一种实施方式中,当结果集中包含的两条或多条记录中的子串数量相同时,根据子串中的汉字与对应原中文词组中提取的汉字中相同汉字的数量对记录进行排序。
具体来说,如果两条或多条记录中包含的子串数量相同,将子串中的汉字与对应原中文词组中提取的汉字依次进行对比,根据相同汉字的数量由多到少对记录进行排序。
举例来说,对于汉字组合“羊煤土气”的其中一条拆分结果“羊煤 + 土气”,根据谐音匹配,共有8条记录,如下所示。
(1)杨梅(词语)+土气(词语),2个汉字相同,“土”、“气”
(2)杨梅(词语)+吐气(词语),1个汉字相同,“气”
(3)杨梅(词语)+凸起(词语),0个汉字相同
(4)杨梅(词语)+突起(词语),0个汉字相同
(5)扬眉(词语)+土气(词语),2个汉字相同,“土”、“气”
(6)扬眉(词语)+吐气(词语),1个汉字相同,“气”
(7)扬眉(词语)+凸起(词语),0个汉字相同
(8)扬眉(词语)+突起(词语),0个汉字相同
将匹配记录的子串中的汉字与对应原中文词组中提取的汉字“羊煤土气”依次进行对比,第1、5条记录中的“土”、“气”与原汉字组合“羊煤土气”中对应的后两个字相同,即有2个相同的汉字;同理,第2、6条记录中的有1个相同的汉字,第3、4、7、8条记录有0个相同的汉字。因此,第1、5条记录应该排在第2、6条记录的前面,第2、6条记录应该排在第3、4、7、8条记录的前面。相同的汉字数量越多,越容易帮助用户回忆起原词汇。
在一种实施方式中,当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时,根据每条记录中子串对应的词语的频率对记录进行排序。
具体来说,如果两条或多条记录中包含的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同,则根据子串对应的词语的频率之和越高,排序越靠前。
举例来说,对于汉字组合“羊煤土气”的其中一条拆分结果“羊煤 + 土气”,根据谐音匹配,共有8条记录。
(1)杨梅(词语)+土气(词语),2个汉字相同,“土”、“气”
(2)扬眉(词语)+土气(词语),2个汉字相同,“土”、“气”
(3)扬眉(词语)+吐气(词语),1个汉字相同,“气”
(4)杨梅(词语)+吐气(词语),1个汉字相同,“气”
(5)杨梅(词语)+凸起(词语),0个汉字相同
(6)杨梅(词语)+突起(词语),0个汉字相同
(7)扬眉(词语)+凸起(词语),0个汉字相同
(8)扬眉(词语)+突起(词语),0个汉字相同
第1、2条记录中与原汉字组合对应相同的汉字数量均为2,第3、4条记录中与原汉字组合对应相同的汉字数量均为1,第5、6、7、8条记录中与原汉字组合对应相同的汉字数量均为0。故还需要对这三组相同汉字数量的记录进行排序,子串匹配词语的频率之和越高的,排序越靠前。计算排序结果如下:
(1)扬眉(词语)+土气(词语),2个汉字相同,权重:768+383 = 1151
(2)杨梅(词语)+土气(词语),2个汉字相同,权重:464+383 =847
(3)扬眉(词语)+吐气(词语),1个汉字相同,权重:768+1434 = 2202
(4)杨梅(词语)+吐气(词语),1个汉字相同,权重:464+1434 =1898
(5)扬眉(词语)+突起(词语),0个汉字相同,权重:768+1533 = 2301
(6)杨梅(词语)+突起(词语),0个汉字相同,权重:464+1533 = 1997
(7)扬眉(词语)+凸起(词语),0个汉字相同,权重:768+696 = 1464
(8)杨梅(词语)+凸起(词语),0个汉字相同,权重:464+696 = 1160
关于词语的频率的说明如下,通过在Bcc (北京语言大学语料库中心BLCU CorpusCenter)中查找对应的词语,得到的搜索结果量。对于一条记录来说,该条记录包含的所有子串对应的词语的频率之和为该条记录的累计权重,累计权重越大,则排序越靠前。
实施例二
基于与实施例一同样的发明构思,本实施例提供了一种多中文词组的谐音拆分处理装置,请参见图4,该装置包括:
中文词组获取模块201,用于获取多个待处理中文词组;
汉字组合模块202,用于从每个待处理中文词组中提取出一个汉字,组成待处理的初始汉字组合;
循环拆分模块203,用于根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
匹配模块204,用于将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;
结果输出模块205,用于输出结果集,作为多中文词组的谐音拆分处理结果。
由于本发明实施例二所介绍的装置为实施本发明实施例一中多中文词组的谐音拆分处理方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本实施例提供了一种计算机设备,请参见图5,该计算机设备包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述计算机程序403时实现实施例一中的方法。
由于本发明实施例三所介绍的计算机设备为实施本发明实施例一中多中文词组的谐音拆分处理方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种多中文词组的谐音拆分处理方法,其特征在于,包括:
获取多个待处理中文词组;
从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
根据初始汉字组合的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集,其中,预先构建的数据库为通过搜索引擎收集后整理得到的由两个字或两个字以上的词汇所构成的词库;
输出结果集,作为多中文词组的谐音拆分处理结果;
其中,每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,依次将截取长度减1直到截取得到的第一子串的长度为1。
2.如权利要求1所述的多中文词组的谐音拆分处理方法,其特征在于,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:
如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合;
如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成初始汉字组合。
3.如权利要求1所述的多中文词组的谐音拆分处理方法,其特征在于,根据匹配情况得到匹配结果,包括:
如果拆分得到的子串的去声调的拼音在预先构建的数据库中存在与之匹配的词语,则表明匹配成功,匹配结果为存在;
如果拆分得到的子串的去声调的拼音在预先构建的数据库中不存在与之匹配的词语,则表明匹配不成功,匹配结果为未找到。
4.如权利要求3所述的多中文词组的谐音拆分处理方法,其特征在于,所述方法还包括:
对于结果集中的记录,如果存在其子串的去声调的拼音与预先构建的数据库中的词语不匹配的情况,则删除该条记录。
5.如权利要求1所述的多中文词组的谐音拆分处理方法,其特征在于,在输出结果集之后,所述方法还包括:
根据结果集中包含的记录中的子串数量按照从少到多对记录进行排序。
6.如权利要求1所述的多中文词组的谐音拆分处理方法,其特征在于,所述方法包括:
当结果集中包含的两条或多条记录中的子串数量相同时,根据子串中的汉字与对应原中文词组中提取的汉字中相同汉字的数量由多到少对记录进行排序。
7.如权利要求1所述的多中文词组的谐音拆分处理方法,其特征在于,所述方法包括:当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时,根据每条记录中子串对应的词语的频率之和对记录进行由高到低排序,其中,词语的频率是指通过在北京语言大学语料库中心中查找对应的词语,得到的搜索结果量。
8.一种多中文词组的谐音拆分处理装置,其特征在于,包括:
中文词组获取模块,用于获取多个待处理中文词组;
汉字组合模块,用于从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;
循环拆分模块,用于根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;
匹配模块,用于将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集,其中,预先构建的数据库为通过搜索引擎收集后整理得到的由两个字或两个字以上的词汇所构成的词库;
结果输出模块,用于输出结果集,作为多中文词组的谐音拆分处理结果;
其中,每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:
第一次截取与初始汉字组合相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;
第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;
第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,依次将截取长度减1直到截取得到的第一子串的长度为1。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
CN202410070087.3A 2024-01-18 2024-01-18 一种多中文词组的谐音拆分处理方法及装置 Active CN117592473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410070087.3A CN117592473B (zh) 2024-01-18 2024-01-18 一种多中文词组的谐音拆分处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410070087.3A CN117592473B (zh) 2024-01-18 2024-01-18 一种多中文词组的谐音拆分处理方法及装置

Publications (2)

Publication Number Publication Date
CN117592473A CN117592473A (zh) 2024-02-23
CN117592473B true CN117592473B (zh) 2024-04-09

Family

ID=89922246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410070087.3A Active CN117592473B (zh) 2024-01-18 2024-01-18 一种多中文词组的谐音拆分处理方法及装置

Country Status (1)

Country Link
CN (1) CN117592473B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324883A (zh) * 2008-07-31 2008-12-17 电子科技大学 一种变异关键词的提取方法
CN102289300A (zh) * 2011-09-03 2011-12-21 张仁平 一种少记忆且易于拆分的汉字输入法
CN107193789A (zh) * 2017-05-22 2017-09-22 上海携程金融信息服务有限公司 含有多音字的中文转换汉语拼音方法及***
CN109241502A (zh) * 2018-08-24 2019-01-18 浪潮软件集团有限公司 一种基于Java的准确提取词语拼音的方法
CN109739369A (zh) * 2019-01-03 2019-05-10 上海中畅信息科技有限公司 一种多音字汉字转拼音全拼的方法
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN114548075A (zh) * 2022-02-25 2022-05-27 北京沃东天骏信息技术有限公司 文本处理方法、文本处理装置、存储介质与电子设备
WO2022121166A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质
CN115081440A (zh) * 2022-07-22 2022-09-20 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515969B2 (en) * 2010-02-19 2013-08-20 Go Daddy Operating Company, LLC Splitting a character string into keyword strings

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324883A (zh) * 2008-07-31 2008-12-17 电子科技大学 一种变异关键词的提取方法
CN102289300A (zh) * 2011-09-03 2011-12-21 张仁平 一种少记忆且易于拆分的汉字输入法
CN107193789A (zh) * 2017-05-22 2017-09-22 上海携程金融信息服务有限公司 含有多音字的中文转换汉语拼音方法及***
CN109241502A (zh) * 2018-08-24 2019-01-18 浪潮软件集团有限公司 一种基于Java的准确提取词语拼音的方法
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN109739369A (zh) * 2019-01-03 2019-05-10 上海中畅信息科技有限公司 一种多音字汉字转拼音全拼的方法
WO2022121166A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质
CN114548075A (zh) * 2022-02-25 2022-05-27 北京沃东天骏信息技术有限公司 文本处理方法、文本处理装置、存储介质与电子设备
CN115081440A (zh) * 2022-07-22 2022-09-20 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于规则、串频统计和上下文关系的现代汉语分词***的实现;潘大志;成琥;黄青松;;内蒙古师范大学学报(自然科学汉文版);20080115(第01期);76-79 *
快速模糊检索在大型数据库中的实现;夏玲;;电脑编程技巧与维护;20120818(第16期);67-68 *

Also Published As

Publication number Publication date
CN117592473A (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN107885874B (zh) 数据查询方法和装置、计算机设备及计算机可读存储介质
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
JPWO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
CN104182388A (zh) 一种基于语义分析的文本聚类***及方法
CN108345694B (zh) 一种基于主题数据库的文献检索方法及***
JP2016164708A (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
CN117592473B (zh) 一种多中文词组的谐音拆分处理方法及装置
CN109933787A (zh) 文本关键信息的提取方法、装置及介质
CN110929085B (zh) 基于元语义分解的电力客服留言生成模型样本处理***及方法
JP6978735B2 (ja) 文書検索装置、文書検索方法、及び、文書検索プログラム
CN116860916A (zh) 多阶段文本检索方法、装置、计算机设备及存储介质
JP2004192546A (ja) 情報検索方法、装置、プログラム、および記録媒体
CN110019768B (zh) 生成文本摘要的方法及装置
CN102200984A (zh) 一种基于复合词的搜索方法和搜索引擎服务器
CN116361416A (zh) 基于语义分析及高维建模的语音检索方法、***及介质
CN117592474B (zh) 一种多中文词组的拆分处理方法及装置
CN115757726A (zh) 一种面向特定领域的智能问答***冷启动方法及装置
CN109918661A (zh) 同义词获取方法及装置
CN112507097B (zh) 一种提高问答***泛化能力的方法
Gey et al. Term importance, Boolean conjunct training, negative terms, and foreign language retrieval: probabilistic algorithms at TREC-5.
CN112199461A (zh) 基于块索引结构的文档检索方法、装置、介质和设备
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
WO2022005272A1 (en) System and method for hot topics aggregation using relationship graph
TWI288335B (en) Method to automatically summarize Chinese digital documents
Choudhary Iitd-dbai: Multi-stage retrieval with pseudo-relevance feedback and query reformulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant