CN103678684A - 一种基于导航信息检索的中文分词方法 - Google Patents

一种基于导航信息检索的中文分词方法 Download PDF

Info

Publication number
CN103678684A
CN103678684A CN201310731944.1A CN201310731944A CN103678684A CN 103678684 A CN103678684 A CN 103678684A CN 201310731944 A CN201310731944 A CN 201310731944A CN 103678684 A CN103678684 A CN 103678684A
Authority
CN
China
Prior art keywords
retrieval
word
result
user
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310731944.1A
Other languages
English (en)
Other versions
CN103678684B (zh
Inventor
李潍希
于航
解威
朱小莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Meihang Technology Co.,Ltd.
Original Assignee
Shenyang Mxnavi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Mxnavi Co Ltd filed Critical Shenyang Mxnavi Co Ltd
Priority to CN201310731944.1A priority Critical patent/CN103678684B/zh
Publication of CN103678684A publication Critical patent/CN103678684A/zh
Application granted granted Critical
Publication of CN103678684B publication Critical patent/CN103678684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于导航信息检索的中文分词方法,其特征在于:分词***的实现步骤:加载词典,文本编码转换;断句处理,把源字符串分隔成多个稍微简单一点的短句;原子分词,是指该短句中不可分割的最小语素单位;逐词遍历匹配法实现成词全匹配;筛选匹配结果生成若干最佳结果;人名、地名和专有名词处理;修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;最终合并各个短句处理的结果,输出。本发明的优点:通过中文分词技术可以把用户输入的内容做成词处理,可以优化速度,并且以词为基础可以进行错别字矫正,可以提供更符合的结果。中文分词技术可以提高信息检索引擎对语义的理解,充分对提供的结果集进行较好的调整。

Description

一种基于导航信息检索的中文分词方法
技术领域
本发明涉及导航领域,特别涉及了一种基于导航信息检索的中文分词方法。
背景技术
目前的导航名称检索所用的字典信息是以单字词作为基础建立,并且字典中只存在单字词相互的一个关联关系,并没有语义解释等信息。根据用户输入的内容切分成单个字顺序进行查找,把结果通过规则排序,最终呈现给用户。这样的检索方式需要相对完整的设施的名称片段,而且无法识别错别字。
发明内容
本发明的目的是为了提高信息检索引擎对语义的理解,充分对提供的结果集进行较好的调整,特提供了一种基于导航信息检索的中文分词方法。
本发明提供了一种基于导航信息检索的中文分词方法,其特征在于:中文分词作为导航检索的基础而设计,中文分词对于搜索引擎来说,最重要的并不是找到所有结果,而是把最符合语义相关的结果优选排在最前面,这也称为相关度排序;中文分词的准确与否,直接影响到对搜索结果的相关度排序;从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响搜索结果的相关度;
采用统计法和规则理解法,在大量已经分词的文本,利用统计机器学习模型学习词语切分的规律,从而实现对未知文本的切分;将待分析的汉字串与一个机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,识别出一个词;通过规则对人名、地名和专有名词进行识别处理;
基于地理位置信息特点和以上3个机制的优缺点设计了新型词典的格式,包含了设施分类信息,以及拼音信息等,格式的特点主要是基于4字词为基础的的词典,由于4个字以下成词的比率大约为94.5%,为了简化实现逻辑,基础词典采用4字词典;基于4字词为基础的词典在查找4字以下成词的速度会很快,而且支持双向最大匹配的方法;
分词***的实现步骤:
加载词典,词典包含机器训练所有成词的导航设施信息内容;
文本编码转换,统一为国标码即GBK编码形式表示文本;
断句处理,就是根据分隔符、回车换行符等语句的分隔标志,把源字符串分隔成多个稍微简单一点的短句;
原子分词,所谓原子,是指该短句中不可分割的最小语素单位;一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等;
逐词遍历匹配法实现成词全匹配;此方法是把原子切分的词按由短到长的顺序,逐个搜索匹配整个词典,直到把所有的词都切分出来为止;
筛选匹配结果生成若干最佳结果,通过最短路径方法,评价每条路径,生成若干最佳结果;
前后词匹配,这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价;通过计算一个句子的整体的置信度来评价句子切分的好坏,经过筛选出较优的结果;
词性标注,对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”;
人名、地名和专有名词处理,通过对标注好的短句进行人名、地名和一些专有名词的处理,由于基于导航的地理位置信息的特点,制作特有的专有名词词典,矫正短句当中语义成分;
未登录词处理,由于字典是有限的,在分词的过程中很容易出现一些未登录词,词表里未出现的词,通过对未登录词进行评价,来判断未登录词是否为一个新词,此过程为未登录词的学习过程:学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定;把识别出来的新词补充到分词词典当中;
修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;
最终合并各个短句处理的结果,输出。
2、按照权利要求1所述的基于导航信息检索的中文分词方法,其特征在于:所述的基于导航信息检索的中文分词方法具体包括:
外部输入:用于接收用户的输入,通常作为直接与用户交互的模块,提供多种的输入方式,符合用户的使用习惯,例如:用户语音输入,用户的手写输入等;
提取特征:把用户输入的文本转换成统一的GBK编码规则;
文本分析:对用户的输入,无论是输入的内容,还是输入的行为细节,包括符号的输入、大小写的输入等,又或者还是对输入的关键字多次的输入,被认定为有用特征后,都作为特征会被记录并提取出来;
分词***处理:对用户的输入语句进行分词和词性标注,可以得到每个词的词性,分类,频率以及拼音属性;对于未登录进行添加以及修正已有词的属性;
语义理解:这个模块会对文本转换的结果,在模式规则库中,进行模式规则的匹配,会生成检索的主要执行步骤;
检索步骤生成:将会执行完整的检索步骤,检索步骤会对语义理解的步骤,进行编译优化处理,会综合考虑性能、内存等要素后,生成一组合理的检索步骤,加上预处理的流程、步骤之间衔接的流程和处理后的流程等,就会最终产生一个检索步骤的清单;与此同时,还会完成初始化环境变量和开辟相关的内存空间,为检索的步骤处理做准备;
检索步骤处理:此过程会根据请求的内容,按照检索的业务逻辑,遍历检索的数据库内容,取得满足查询条件的检索结果;当检索步骤清单定义的步骤数大于零,检索步骤处理就会被调用多次;每一步的结束,都会保存检索的上下文;
检索结果处理:检索结果处理会将检索的结果进行分类、排序、合并等操作,这一步的结果就可以转给外置输出模块,用于向外置设备进行输出;
误差反馈处理:对经过一次检索步骤生成、检索步骤处理后,检索结果不存在,智能检索***会判定对用户输入的理解是存在误差的,需要修改查询条件,误差反馈处理会重新生成检索步骤,进行新的检索,当满足结束的条件后,才会停止检索;
自适应学习:这是一个学习模块,会根据检索的结果和用户的输入,进行自适应的学习,来达到不断适应用户使用习惯的目的;根据用户的多次检索,会不断修正***默认的规则,会影响检索的结果和检索结果的排序等;
外置输出:就是用户接口,提供给用户检索的结果,对用户请求的检索结果,进行应答。
本发明的优点:
本发明所述的基于导航信息检索的中文分词方法,通过中文分词技术可以把用户输入的内容做成词处理,可以优化速度,并且以词为基础可以进行错别字矫正,可以提供更符合的结果。中文分词技术可以提高信息检索引擎对语义的理解,充分对提供的结果集进行较好的调整。
附图说明
下面结合附图及实施方式对本发明作进一步详细的说明:
图1为分词***流程图;
图2为具体实施流程图。
具体实施方式
实施例
本实施例提供了一种基于导航信息检索的中文分词方法,其特征在于:中文分词作为导航检索的基础而设计,中文分词对于搜索引擎来说,最重要的并不是找到所有结果,而是把最符合语义相关的结果优选排在最前面,这也称为相关度排序;中文分词的准确与否,直接影响到对搜索结果的相关度排序;从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响搜索结果的相关度;
采用统计法和规则理解法,在大量已经分词的文本,利用统计机器学习模型学习词语切分的规律,从而实现对未知文本的切分;将待分析的汉字串与一个机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,识别出一个词;通过规则对人名、地名和专有名词进行识别处理;
基于地理位置信息特点和以上3个机制的优缺点设计了新型词典的格式,包含了设施分类信息,以及拼音信息等,格式的特点主要是基于4字词为基础的的词典,由于4个字以下成词的比率大约为94.5%,为了简化实现逻辑,基础词典采用4字词典;基于4字词为基础的词典在查找4字以下成词的速度会很快,而且支持双向最大匹配的方法;
分词***的实现步骤:
加载词典,词典包含机器训练所有成词的导航设施信息内容;
文本编码转换,统一为国标码即GBK编码形式表示文本;
断句处理,就是根据分隔符、回车换行符等语句的分隔标志,把源字符串分隔成多个稍微简单一点的短句;
原子分词,所谓原子,是指该短句中不可分割的最小语素单位;一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等;
逐词遍历匹配法实现成词全匹配;此方法是把原子切分的词按由短到长的顺序,逐个搜索匹配整个词典,直到把所有的词都切分出来为止;
筛选匹配结果生成若干最佳结果,通过最短路径方法,评价每条路径,生成若干最佳结果;
前后词匹配,这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价;通过计算一个句子的整体的置信度来评价句子切分的好坏,经过筛选出较优的结果;
词性标注,对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”;
人名、地名和专有名词处理,通过对标注好的短句进行人名、地名和一些专有名词的处理,由于基于导航的地理位置信息的特点,制作特有的专有名词词典,矫正短句当中语义成分;
未登录词处理,由于字典是有限的,在分词的过程中很容易出现一些未登录词,词表里未出现的词,通过对未登录词进行评价,来判断未登录词是否为一个新词,此过程为未登录词的学习过程:学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定;把识别出来的新词补充到分词词典当中;
修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;
最终合并各个短句处理的结果,输出。
2、按照权利要求1所述的基于导航信息检索的中文分词方法,其特征在于:所述的基于导航信息检索的中文分词方法具体包括:
外部输入:用于接收用户的输入,通常作为直接与用户交互的模块,提供多种的输入方式,符合用户的使用习惯,例如:用户语音输入,用户的手写输入等;
提取特征:把用户输入的文本转换成统一的GBK编码规则;
文本分析:对用户的输入,无论是输入的内容,还是输入的行为细节,包括符号的输入、大小写的输入等,又或者还是对输入的关键字多次的输入,被认定为有用特征后,都作为特征会被记录并提取出来;
分词***处理:对用户的输入语句进行分词和词性标注,可以得到每个词的词性,分类,频率以及拼音属性;对于未登录进行添加以及修正已有词的属性;
语义理解:这个模块会对文本转换的结果,在模式规则库中,进行模式规则的匹配,会生成检索的主要执行步骤;
检索步骤生成:将会执行完整的检索步骤,检索步骤会对语义理解的步骤,进行编译优化处理,会综合考虑性能、内存等要素后,生成一组合理的检索步骤,加上预处理的流程、步骤之间衔接的流程和处理后的流程等,就会最终产生一个检索步骤的清单;与此同时,还会完成初始化环境变量和开辟相关的内存空间,为检索的步骤处理做准备;
检索步骤处理:此过程会根据请求的内容,按照检索的业务逻辑,遍历检索的数据库内容,取得满足查询条件的检索结果;当检索步骤清单定义的步骤数大于零,检索步骤处理就会被调用多次;每一步的结束,都会保存检索的上下文;
检索结果处理:检索结果处理会将检索的结果进行分类、排序、合并等操作,这一步的结果就可以转给外置输出模块,用于向外置设备进行输出;
误差反馈处理:对经过一次检索步骤生成、检索步骤处理后,检索结果不存在,智能检索***会判定对用户输入的理解是存在误差的,需要修改查询条件,误差反馈处理会重新生成检索步骤,进行新的检索,当满足结束的条件后,才会停止检索;
自适应学习:这是一个学习模块,会根据检索的结果和用户的输入,进行自适应的学习,来达到不断适应用户使用习惯的目的;根据用户的多次检索,会不断修正***默认的规则,会影响检索的结果和检索结果的排序等;
外置输出:就是用户接口,提供给用户检索的结果,对用户请求的检索结果,进行应答。

Claims (2)

1.一种基于导航信息检索的中文分词方法,其特征在于:
分词***的实现步骤:
加载词典,词典包含机器训练所有成词的导航设施信息内容;
文本编码转换,统一为国标码即GBK编码形式表示文本;
断句处理,就是根据分隔符、回车换行符等语句的分隔标志,把源字符串分隔成多个稍微简单一点的短句;
原子分词,所谓原子,是指该短句中不可分割的最小语素单位;一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等;
逐词遍历匹配法实现成词全匹配;此方法是把原子切分的词按由短到长的顺序,逐个搜索匹配整个词典,直到把所有的词都切分出来为止;
筛选匹配结果生成若干最佳结果,通过最短路径方法,评价每条路径,生成若干最佳结果;
前后词匹配,这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价;通过计算一个句子的整体的置信度来评价句子切分的好坏,经过筛选出较优的结果;
词性标注,对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”;
人名、地名和专有名词处理,通过对标注好的短句进行人名、地名和一些专有名词的处理,由于基于导航的地理位置信息的特点,制作特有的专有名词词典,矫正短句当中语义成分;
未登录词处理,由于字典是有限的,在分词的过程中很容易出现一些未登录词,词表里未出现的词,通过对未登录词进行评价,来判断未登录词是否为一个新词,此过程为未登录词的学习过程:学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定;把识别出来的新词补充到分词词典当中;
修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;
最终合并各个短句处理的结果,输出。
2.按照权利要求1所述的基于导航信息检索的中文分词方法,其特征在于:所述的基于导航信息检索的中文分词方法具体包括:
外部输入:用于接收用户的输入,通常作为直接与用户交互的模块,提供多种的输入方式,符合用户的使用习惯,例如:用户语音输入,用户的手写输入等;
提取特征:把用户输入的文本转换成统一的GBK编码规则;
文本分析:对用户的输入,无论是输入的内容,还是输入的行为细节,包括符号的输入、大小写的输入等,又或者还是对输入的关键字多次的输入,被认定为有用特征后,都作为特征会被记录并提取出来;
分词***处理:对用户的输入语句进行分词和词性标注,可以得到每个词的词性,分类,频率以及拼音属性;对于未登录进行添加以及修正已有词的属性;
语义理解:这个模块会对文本转换的结果,在模式规则库中,进行模式规则的匹配,会生成检索的主要执行步骤;
检索步骤生成:将会执行完整的检索步骤,检索步骤会对语义理解的步骤,进行编译优化处理,会综合考虑性能、内存等要素后,生成一组合理的检索步骤,加上预处理的流程、步骤之间衔接的流程和处理后的流程等,就会最终产生一个检索步骤的清单;与此同时,还会完成初始化环境变量和开辟相关的内存空间,为检索的步骤处理做准备;
检索步骤处理:此过程会根据请求的内容,按照检索的业务逻辑,遍历检索的数据库内容,取得满足查询条件的检索结果;当检索步骤清单定义的步骤数大于零,检索步骤处理就会被调用多次;每一步的结束,都会保存检索的上下文;
检索结果处理:检索结果处理会将检索的结果进行分类、排序、合并等操作,这一步的结果就可以转给外置输出模块,用于向外置设备进行输出;
误差反馈处理:对经过一次检索步骤生成、检索步骤处理后,检索结果不存在,智能检索***会判定对用户输入的理解是存在误差的,需要修改查询条件,误差反馈处理会重新生成检索步骤,进行新的检索,当满足结束的条件后,才会停止检索;
自适应学习:这是一个学习模块,会根据检索的结果和用户的输入,进行自适应的学习,来达到不断适应用户使用习惯的目的;根据用户的多次检索,会不断修正***默认的规则,会影响检索的结果和检索结果的排序等;
外置输出:就是用户接口,提供给用户检索的结果,对用户请求的检索结果,进行应答。
CN201310731944.1A 2013-12-25 2013-12-25 一种基于导航信息检索的中文分词方法 Active CN103678684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310731944.1A CN103678684B (zh) 2013-12-25 2013-12-25 一种基于导航信息检索的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310731944.1A CN103678684B (zh) 2013-12-25 2013-12-25 一种基于导航信息检索的中文分词方法

Publications (2)

Publication Number Publication Date
CN103678684A true CN103678684A (zh) 2014-03-26
CN103678684B CN103678684B (zh) 2017-05-31

Family

ID=50316228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310731944.1A Active CN103678684B (zh) 2013-12-25 2013-12-25 一种基于导航信息检索的中文分词方法

Country Status (1)

Country Link
CN (1) CN103678684B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157286A (zh) * 2014-07-31 2014-11-19 深圳市金立通信设备有限公司 一种习惯用语的获取方法及装置
CN104536588A (zh) * 2014-12-15 2015-04-22 沈阳美行科技有限公司 一种导航设备使用地图数据的键盘联想方法
CN104598573A (zh) * 2015-01-13 2015-05-06 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及***
CN104714940A (zh) * 2015-02-12 2015-06-17 深圳市前海安测信息技术有限公司 智能交互***中未登录词的识别方法和装置
CN105069047A (zh) * 2014-07-25 2015-11-18 沈阳美行科技有限公司 一种地理信息的检索方法及装置
CN105224610A (zh) * 2015-09-08 2016-01-06 方正国际软件有限公司 一种地址比较的方法及设备
CN105590626A (zh) * 2015-12-29 2016-05-18 百度在线网络技术(北京)有限公司 持续语音人机交互方法和***
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN105824804A (zh) * 2016-03-31 2016-08-03 长安大学 基于词库的英语拼写纠错工具和方法
CN106815195A (zh) * 2015-11-27 2017-06-09 方正国际软件(北京)有限公司 一种分词方法及装置、检索方法及装置
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
CN109558589A (zh) * 2018-11-12 2019-04-02 速度时空信息科技股份有限公司 一种基于中文分词技术的畅想文书的方法及***
CN109582962A (zh) * 2018-11-28 2019-04-05 北京创鑫旅程网络技术有限公司 分词方法及装置
CN110222266A (zh) * 2019-05-31 2019-09-10 江苏三六五网络股份有限公司 一种基于语音识别的房产专业语音搜索***及方法
TWI682292B (zh) * 2018-08-24 2020-01-11 內秋應智能科技股份有限公司 遞迴式整合對話之智能語音裝置
CN110825792A (zh) * 2019-11-15 2020-02-21 珠海市新德汇信息技术有限公司 基于golang中间件协程模式下的高并发分布式数据检索方法
CN112580336A (zh) * 2020-12-25 2021-03-30 深圳壹账通创配科技有限公司 信息校准检索方法、装置、计算机设备及可读存储介质
CN112800763A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN113724819A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 医疗命名实体识别模型的训练方法、装置、设备及介质
CN116226362A (zh) * 2023-05-06 2023-06-06 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法
CN116821319A (zh) * 2023-08-30 2023-09-29 环球数科集团有限公司 一种基于aigc的快筛式处理***
CN117422061A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割结果合并标注方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595399A (zh) * 2003-09-08 2005-03-16 北京语言大学语言信息处理研究所 汉语文本中词及词属性自动索引和检索的方法
CN101131325A (zh) * 2006-08-25 2008-02-27 高德软件有限公司 电子导航***的信息检索方法及装置
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注***及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595399A (zh) * 2003-09-08 2005-03-16 北京语言大学语言信息处理研究所 汉语文本中词及词属性自动索引和检索的方法
CN101131325A (zh) * 2006-08-25 2008-02-27 高德软件有限公司 电子导航***的信息检索方法及装置
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注***及其方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹卫峰: "中文分词关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
苗夺谦: "《中文文本信息处理的原理与应用》", 30 September 2007, 清华大学出版社 *
郑家恒: "《智能信息处理 汉语语料库加工技术及应用》", 31 October 2010, 科学出版社 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069047B (zh) * 2014-07-25 2019-05-07 沈阳美行科技有限公司 一种地理信息的检索方法及装置
CN105069047A (zh) * 2014-07-25 2015-11-18 沈阳美行科技有限公司 一种地理信息的检索方法及装置
CN104157286A (zh) * 2014-07-31 2014-11-19 深圳市金立通信设备有限公司 一种习惯用语的获取方法及装置
CN104157286B (zh) * 2014-07-31 2017-12-29 深圳市金立通信设备有限公司 一种习惯用语的获取方法及装置
CN104536588A (zh) * 2014-12-15 2015-04-22 沈阳美行科技有限公司 一种导航设备使用地图数据的键盘联想方法
CN104536588B (zh) * 2014-12-15 2017-05-31 沈阳美行科技有限公司 一种导航设备使用地图数据的键盘联想方法
WO2016112782A1 (zh) * 2015-01-13 2016-07-21 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及***
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及***
CN104598573A (zh) * 2015-01-13 2015-05-06 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及***
CN104714940A (zh) * 2015-02-12 2015-06-17 深圳市前海安测信息技术有限公司 智能交互***中未登录词的识别方法和装置
CN105224610A (zh) * 2015-09-08 2016-01-06 方正国际软件有限公司 一种地址比较的方法及设备
CN106815195A (zh) * 2015-11-27 2017-06-09 方正国际软件(北京)有限公司 一种分词方法及装置、检索方法及装置
CN105590626A (zh) * 2015-12-29 2016-05-18 百度在线网络技术(北京)有限公司 持续语音人机交互方法和***
CN105590626B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 持续语音人机交互方法和***
CN105653516A (zh) * 2015-12-30 2016-06-08 武汉传神信息技术有限公司 平行语料对齐的方法和装置
CN105653516B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 平行语料对齐的方法和装置
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置
CN105824804A (zh) * 2016-03-31 2016-08-03 长安大学 基于词库的英语拼写纠错工具和方法
CN108304367B (zh) * 2017-04-07 2021-11-26 腾讯科技(深圳)有限公司 分词方法及装置
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
TWI682292B (zh) * 2018-08-24 2020-01-11 內秋應智能科技股份有限公司 遞迴式整合對話之智能語音裝置
CN109558589A (zh) * 2018-11-12 2019-04-02 速度时空信息科技股份有限公司 一种基于中文分词技术的畅想文书的方法及***
CN109582962A (zh) * 2018-11-28 2019-04-05 北京创鑫旅程网络技术有限公司 分词方法及装置
CN110222266A (zh) * 2019-05-31 2019-09-10 江苏三六五网络股份有限公司 一种基于语音识别的房产专业语音搜索***及方法
CN110825792B (zh) * 2019-11-15 2024-06-07 珠海市新德汇信息技术有限公司 基于golang中间件协程模式下的高并发分布式数据检索方法
CN110825792A (zh) * 2019-11-15 2020-02-21 珠海市新德汇信息技术有限公司 基于golang中间件协程模式下的高并发分布式数据检索方法
CN112580336A (zh) * 2020-12-25 2021-03-30 深圳壹账通创配科技有限公司 信息校准检索方法、装置、计算机设备及可读存储介质
CN112800763A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN112800763B (zh) * 2021-04-14 2021-08-06 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN113724819A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 医疗命名实体识别模型的训练方法、装置、设备及介质
CN113724819B (zh) * 2021-08-31 2024-04-26 平安国际智慧城市科技股份有限公司 医疗命名实体识别模型的训练方法、装置、设备及介质
CN116226362A (zh) * 2023-05-06 2023-06-06 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法
CN116821319A (zh) * 2023-08-30 2023-09-29 环球数科集团有限公司 一种基于aigc的快筛式处理***
CN116821319B (zh) * 2023-08-30 2023-10-27 环球数科集团有限公司 一种基于aigc的快筛式处理***
CN117422061A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割结果合并标注方法及装置
CN117422061B (zh) * 2023-12-19 2024-03-08 中南大学 一种文本词项多重分割结果合并标注方法及装置

Also Published As

Publication number Publication date
CN103678684B (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和***
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
US8892420B2 (en) Text segmentation with multiple granularity levels
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和***
CN109145260B (zh) 一种文本信息自动提取方法
CN110717031A (zh) 一种智能会议纪要生成方法和***
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
WO2017177809A1 (zh) 语言文本的分词方法和***
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
WO2016138773A1 (zh) 基于图的地址知识处理方法及装置
WO2014117553A1 (en) Method and system of adding punctuation and establishing language model
CN104750820A (zh) 一种语料库的过滤方法及装置
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN107357765A (zh) Word文档碎片化方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN114997288A (zh) 一种设计资源关联方法
CN116502628A (zh) 基于知识图谱的政务领域多阶段融合的文本纠错方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114065749A (zh) 一种面向文本的粤语识别模型及***的训练、识别方法
Sagcan et al. Toponym recognition in social media for estimating the location of events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 110000 No. 861-6, shangshengou village, Hunnan District, Shenyang City, Liaoning Province

Patentee after: Shenyang Meihang Technology Co.,Ltd.

Address before: 110004 Room 202, 1t international, No. 3, Yuanhang West Road, Hunnan New District, Shenyang, Liaoning

Patentee before: SHENYANG MXNAVI Co.,Ltd.