CN104866631A - 咨询问题聚合的方法和装置 - Google Patents

咨询问题聚合的方法和装置 Download PDF

Info

Publication number
CN104866631A
CN104866631A CN201510341110.9A CN201510341110A CN104866631A CN 104866631 A CN104866631 A CN 104866631A CN 201510341110 A CN201510341110 A CN 201510341110A CN 104866631 A CN104866631 A CN 104866631A
Authority
CN
China
Prior art keywords
text data
sentence
polymerized
sentence trunk
trunk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510341110.9A
Other languages
English (en)
Inventor
邵佳帅
陈海勇
牟川
邢志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510341110.9A priority Critical patent/CN104866631A/zh
Publication of CN104866631A publication Critical patent/CN104866631A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种咨询问题聚合的方法和装置,能够实现对文本数据句子主干的提取,从而能在尽可能的保留某一问题的原意的情况下,完成对相似问题的聚合,提高问题聚合的精度。该方法包括:获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据;提取预处理后的文本数据的句子主干;将所提取的句子主干进行聚合并输出所聚合的数据集合。

Description

咨询问题聚合的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种咨询问题聚合的方法和装置。
背景技术
随着电子商务行业的高速发展,越来越多的用户选择在购买前进行线上咨询。用户在线上提出问题后,需要等待解答,这种情形比较浪费时间。基于此,电子商务网站将问答***数据库中用户之前问过的相似问题进行聚合,这样,在提问前,用户可先行进行搜索,如之前已有类似问题并且存在答案的话,就会大大缩短用户得到答案的时间,提高用户体验。
目前对相似文本聚合主要通过以下方法:
(1)采用余弦相似度的方法进行聚合。该方法主要是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角,根据向量夹角的余弦值对文本进行聚合。
(2)采用simhash算法对文本进行聚合。该方法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两个问题的f-bit指纹的海明距离来确定文章是否重复或者高度近似。
但是目前这两种方法都存在一些问题:
对于方法(1),由于有可能一个文章的特征向量词特别多,导致整个向量维度很高,使得计算的代价太大,不适合大数据量的计算;此外,以词为单位来计算文本的相似度,这样计算的粒度过粗,导致计算结果的准确率底。
对于方法(2),simhash算法相对余弦相似度的方法而言,速度快适合大数据计算。但现有技术中运用simhash算法计算相似度仍多采用以词为单位计算文本的相似度,仍不能保障解决计算结果的准确率。
发明内容
有鉴于此,本发明提供一种咨询问题聚合的方法和装置,能够实现对文本数据句子主干的提取,在尽可能的保留某一问题的原意的情况下,完成相似问题的聚合,提高问题聚合的精度。
为实现上述目的,根据本发明的一个方面,提供了一种咨询问题聚合的方法。
本发明的咨询问题聚合的方法包括:获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据;提取预处理后的文本数据的句子主干;将所提取的句子主干进行聚合并输出所聚合的数据集合。
可选地,对所述文本数据进行预处理包括:对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的处理。
可选地,提取预处理后的文本数据的句子主干包括:基于问句模式提取预处理后的文本数据的句子主干。
可选地,将所提取的句子主干进行聚合包括:采用simhash算法,计算所提取的句子主干之间的海明距离,按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合。
可选地,将所提取的句子主干进行聚合还包括:在将所提取的句子主干进行聚合前,生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系;在将所提取的句子主干进行聚合后,将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据。
根据本发明的另一方面,提供了一种咨询问题聚合的装置。
本发明的咨询问题聚合的装置包括:预处理模块,用于获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据;提取模块,用于提取预处理后的文本数据的句子主干;聚合模块,用于将所提取的句子主干进行聚合并输出所聚合的数据集合。
可选地,所述预处理模块还包括:用于对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的模块。
可选地,所述提取模块还包括:用于基于问句模式提取预处理后的文本数据的句子主干的模块。
可选地,所述聚合模块还包括:用于采用simhash算法,计算所提取的句子主干之间的海明距离,按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合的模块。
可选地,所述聚合模块还包括:用于在将所提取的句子主干进行聚合前,生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系的模块;以及用于在将所提取的句子主干进行聚合后,将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据的模块。
根据本发明的技术方案,通过对咨询问题文本数据的预处理,能将文本数据中的无用字符和无用信息剔除,方便对数据的进一步处理;通过对文本数据句子主干的提取,从而能实现对数据进行精简处理,提高计算效率,同时能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合,有利于提高文本聚合的准确性;通过对原始问题和句子主干的哈希对应,从而建立原始数据和句子主干数据的对应关系;通过对句子主干的聚合,从而使同一主题的问题数据进入同一问题集合;通过将聚合好的问题进行哈希映射,从而能使聚合后的句子主干对应回原始问题,有利于用户的查询结果的输出。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种咨询问题聚合的方法的主要步骤的示意图;
图2是根据本发明实施例的一种咨询问题聚合的装置的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种咨询问题聚合的方法的主要步骤的示意图;
如图1所示,本发明实施例的一种咨询问题聚合的方法主要包括如下步骤:
步骤S11:获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据。用户提问过的问题及问题的答案一般都会存储在问答***数据库中。鉴于用户填写问题时,可能存在一些诸如大小写混乱、全角半角混乱、文本首尾存在无用字符等不规范现象,因此,在对从数据库中获取的文本数据进行处理前,需要先进行归一化的预处理。
在一个实施例中,对文本数据的预处理包括进行字符归一化、去除无用字符、去除无用信息的操作。字符归一化包括小写转大写、***数字转中文、全角转半角、繁体转成简体等;去除无用字符包括去除首尾无用字符、空格或者\t字符的解决、移除标点符号以及特殊符号等;去除无用信息包括移除电话号码、移除邮箱地址等。
对文本数据的上述预处理操作可以利用正则表达式。例如,在对数据进行去除无用信息的操作时,若字符中出现电话号码或者邮箱地址等,则写出可以匹配这些信息的正则表达式进行匹配,然后将匹配得到的内容替换为空白字符。此外,去除无用字符时,对特殊标点符号移除也可以通过正则表达式的方式进行。在一个示例中,使用python语言和正则表达式编写代码,如果字符串中出现满足代码中特殊标点符号的情况,则将该标点符号替换成空白字符。
此外,还可以用脚本语言进行预处理。例如,去除数据中的无用字符,使用脚本语言编写如下:
if‘[’in question:
index=question.index(‘[’)
question=question[:index]+question[(index+1):]
就表示如果文本中存在‘[’符号,则将其去除。
通过对咨询问题文本数据的预处理,可以使数据字符归一化,将文本数据中的无用字符和无用信息剔除,方便对数据的进一步处理。
本步骤对数据的预处理之后,完成了对文本数据的整理,开始进行步骤S12。
步骤S12:提取所述预处理后的文本数据的句子主干。鉴于问答***数据库中的一些问题拖沓冗长,为了提高下述对问题文本聚合的精度和计算效率,需要对数据进行精简处理,即提取文本数据的句子主干。同时,对句子主干的提取,能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合,有利于提高文本聚合的准确性。
鉴于问答***数据库中的句子多以问句为主,因此,在一个实施例中,基于问句模式对文本数据进行句子主干提取。
在具体操作中,首先应明确问题文本的问句类型。通过对数据库内的问题进行筛选和归纳,整理得出数据库中存在但不限于如下问句模式:“xx与xx有什么不同”、“xx对xx有什么作用”、“xx什么牌子好”、“为什么xx”。
在归纳出句子类型后,便可以基于问题模式对问题文本进行主干提取。例如,可以用Java代码编写的正则表达式进行提取。以“xx与xx有什么不同”的问句模式为例,如果问题文本中出现“xx和|与|跟xx有什么|什么样(的)不同|区别”这样模式的语句,则提取该语句作为问题文本的句子主干。相应的,对于其它问句类型,如“xx对xx有什么用|的作用是什么”这样的句式,也通过上述正则表达式的方式进行句子主干提取。当存在一个问题匹配不到所有已筛选和归纳出的问句模式,则将该问题进行保留。
此外,还可以利用脚本语言规则提取句子主干。方法同上述步骤S11中利用脚本语言进行预处理的操作类似,此处不再赘述。
通过上述对问题文本句子主干的提取,可以对问题文本进行精简处理,减少句子不必要的冗杂,并且对句子主干的提取能够保证尽可能保留问题原意,有利于提高文本聚合的准确性。
步骤S13:将所提取的句子主干进行聚合并输出所聚合的数据集合。对句子主干进行提取后,可以对提取的句子主干进行聚合,将符合预设规则的相似句子保存在同一数据集合中。
由于在前述步骤S12中对预处理后的原始问题进行了主干提取,因此,在完成对主干问题聚合后,需要清楚知道其对应的原始问题是哪一个。基于此,要在对句子的主干聚合前形成句子主干与预处理后原始问题的对应关系。
在一个示例中,基于节省存储空间以及对用户问题保密的考虑,采用信息-摘要算法5进行对应。信息-摘要算法5用于确保信息传输完整一致,是计算机广泛使用的杂凑算法之一(又称为摘要算法、哈希算法),主流编程语言普遍已有信息-摘要算法5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理。它的作用是让大容量信息在用数字签名软件签署私人密钥前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的十六进制数字串)。
使用该方法对原始问题和句子主干问题进行映射对应时,分别采用信息-摘要算法5的方式对原始问题和主干问题进行哈希计算,分别得到一个32位的编码字符串,然后把二者的对应关系存储在文件中。
通过信息-摘要算法5,可以建立预处理后的原始问题和句子主干的对应关系,有利于实现聚合后的数据集合内的句子重新映射回原始问题。
在对原始问题与句子主干问题完成对应后,进行文本问题句子主干的聚合。在一个实施例中,对问题的聚合过程,采用simhash算法。simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两个问题文本的f-bit指纹的海明距离来确定文章是否重复或者高度近似。具体的simhash过程如下:
1.首先基于传统的IR方法,将文章转换为一组加权的特征值构成的向量;
2.初始化一个f维的向量V,其中每一个元素初始值为0;
3.对于文章的特征向量集中的每一个特征,做如下计算:
利用传统的哈希算法映射到一个f-bit的签名。对于这个f-bit的签名,如果签名的第i位上为1,则对向量V中第i维加上这个特征的权值,否则对向量的第i维减去该特征的权值;
4.对整个特征向量集合迭代上述运算后,根据V中每一维向量的符号来确定生成的f-bit指纹的值,如果V的第i维为正数,则生成f-bit指纹的第i维为1,否则为0。
在对所有句子进行simhash后,得到其对应的一个simhash值,比较每两个句子主干的simhash值的海明距离,根据实际情况的需要,将海明距离小于一定阈值的句子聚合到一起,最终得到每一个聚合结果为同一主题的问题的集合。
在对文本聚合完成后,将聚合好的问题,进行信息-摘要算法5哈希,将同一主体的问题集合中的句子主干映射回原始问题。最后输出聚合结果,并可对该结果中每一个主题集合中的问题,建立对应整个问题集合的倒排索引供用户查询使用。
通过上述步骤S13,实现了原始问题文本与提取的句子主干之间的对应;对提取的句子主干进行聚合,从而使同一主题的问题进入同一问题集合中;将聚合好的问题,进行信息-摘要5算法的哈希对应,从而能使提取的句子主干对应回原始问题,以供用户查询使用。
根据上述咨询问题聚合的方法的主要步骤可以得出,通过对咨询问题文本数据的预处理,可以将文本数据中的无用字符和无用信息剔除,方便对数据的进一步处理;通过对文本数据句子主干的提取,从而能实现对数据进行精简处理,提高计算效率,同时能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合,有利于提高文本聚合的准确性;通过对原始问题和句子主干的哈希对应,从而建立原始数据和句子主干数据的对应关系;通过对句子主干的聚合,从而使同一主题的问题数据进入同一问题集合;通过将聚合好的问题进行哈希映射,从而能使聚合后的句子主干对应回原始问题,有利于用户的查询结果的输出。
图2是根据本发明实施例的一种咨询问题聚合的装置的主要模块的示意图。
如图2所示,本发明实施例的一种咨询问题聚合的装置主要包括如下模块:预处理模块201、提取模块202、聚合模块203。
预处理模块201用于获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据;
提取模块202用于提取预处理后的文本数据的句子主干;
聚合模块203用于将所提取的句子主干进行聚合并输出所聚合的数据集合。
预处理模块201还包括:用于对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的模块。
提取模块202还包括:用于基于问句模式提取预处理后的文本数据的句子主干的模块。
聚合模块203还包括:用于采用simhash算法,计算所提取的句子主干之间的海明距离,按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合的模块。
聚合模块203还包括:用于在将所提取的句子主干进行聚合前,生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系;以及用于在将所提取的句子主干进行聚合后,将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据。
根据本发明实施例的技术方案可以得出,通过对咨询问题文本数据的预处理,所以能将文本数据中的无用字符和无用信息剔除,方便对数据的进一步处理;通过对文本数据句子主干的提取,从而能实现对数据进行精简处理,提高计算效率,同时能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合,有利于提高文本聚合的准确性;通过对原始问题和句子主干的哈希对应,从而建立原始数据和句子主干数据的对应关系;通过对句子主干的聚合,从而使同一主题的问题数据进入同一问题集合;通过将聚合好的问题进行哈希映射,从而能使聚合后的句子主干对应回原始问题,有利于用户的查询结果的输出。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行,例如,对原始视觉内容进行色彩校正的步骤和对拍摄到的图像进行几何校正的步骤可以顺序地、并行地或者以任何顺序独立地执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种咨询问题聚合的方法,其特征在于,包括:
获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据;
提取预处理后的文本数据的句子主干;
将所提取的句子主干进行聚合并输出所聚合的数据集合。
2.根据权利要求1所述的方法,其特征在于,对所述文本数据进行预处理包括:
对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的处理。
3.根据权利要求1所述的方法,其特征在于,提取预处理后的文本数据的句子主干包括:
基于问句模式提取预处理后的文本数据的句子主干。
4.根据权利要求1所述的方法,其特征在于,将所提取的句子主干进行聚合包括:
采用simhash算法,计算所提取的句子主干之间的海明距离,按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合。
5.根据权利要求1至4任一所述的方法,其特征在于,将所提取的句子主干进行聚合还包括:
在将所提取的句子主干进行聚合前,生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系;
在将所提取的句子主干进行聚合后,将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据。
6.一种咨询问题聚合的装置,其特征在于,包括:
预处理模块,用于获取文本数据并对所述文本数据进行预处理,所述文本数据是问答***数据库中存储的之前咨询过的问题的文本数据;
提取模块,用于提取预处理后的文本数据的句子主干;
聚合模块,用于将所提取的句子主干进行聚合并输出所聚合的数据集合。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块还包括:
用于对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的模块。
8.根据权利要求6所述的装置,其特征在于,所述提取模块还包括:
用于基于问句模式提取预处理后的文本数据的句子主干的模块。
9.根据权利要求6所述的装置,其特征在于,所述聚合模块还包括:
用于采用simhash算法,计算所提取的句子主干之间的海明距离,按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合的模块。
10.根据权利要求6至9任一所述的装置,其特征在于,所述聚合模块还包括:
用于在将所提取的句子主干进行聚合前,生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系的模块;以及
用于在将所提取的句子主干进行聚合后,将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据的模块。
CN201510341110.9A 2015-06-18 2015-06-18 咨询问题聚合的方法和装置 Pending CN104866631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510341110.9A CN104866631A (zh) 2015-06-18 2015-06-18 咨询问题聚合的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510341110.9A CN104866631A (zh) 2015-06-18 2015-06-18 咨询问题聚合的方法和装置

Publications (1)

Publication Number Publication Date
CN104866631A true CN104866631A (zh) 2015-08-26

Family

ID=53912457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510341110.9A Pending CN104866631A (zh) 2015-06-18 2015-06-18 咨询问题聚合的方法和装置

Country Status (1)

Country Link
CN (1) CN104866631A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649257A (zh) * 2016-09-21 2017-05-10 联动优势科技有限公司 一种语义段的转换方法及装置
CN106980639A (zh) * 2016-12-29 2017-07-25 ***股份有限公司 短文本数据聚合***及方法
CN108319648A (zh) * 2017-12-27 2018-07-24 深圳市三宝创新智能有限公司 一种基于改进simhash算法的问答数据清洗***及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126814A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
US20070118519A1 (en) * 2005-11-21 2007-05-24 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类***及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126814A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
US20070118519A1 (en) * 2005-11-21 2007-05-24 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类***及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649257A (zh) * 2016-09-21 2017-05-10 联动优势科技有限公司 一种语义段的转换方法及装置
CN106649257B (zh) * 2016-09-21 2019-06-18 联动优势科技有限公司 一种语义段的转换方法及装置
CN106980639A (zh) * 2016-12-29 2017-07-25 ***股份有限公司 短文本数据聚合***及方法
CN106980639B (zh) * 2016-12-29 2020-07-28 ***股份有限公司 短文本数据聚合***及方法
CN108319648A (zh) * 2017-12-27 2018-07-24 深圳市三宝创新智能有限公司 一种基于改进simhash算法的问答数据清洗***及方法

Similar Documents

Publication Publication Date Title
CN111753767B (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
WO2018040899A1 (zh) 搜索词纠错方法及装置
RU2679209C2 (ru) Обработка электронных документов для распознавания инвойсов
WO2019228466A1 (zh) 命名实体识别的方法、装置、设备及存储介质
AU2018200741A1 (en) Intelligent data extraction
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN109711412A (zh) 一种基于字典的光学字符识别纠错方法
CN103678702A (zh) 视频去重方法及装置
CN106485243A (zh) 一种票据识别纠错方法及装置
CN111488732B (zh) 一种变形关键词检测方法、***及相关设备
CN103995904A (zh) 一种影像档案电子资料的识别***
CN103177128A (zh) 钞票冠字号信息的处理方法和***
CN109002768A (zh) 基于神经网络文本检测识别的医疗票据类文字提取方法
AU2010311067A1 (en) System and method for increasing the accuracy of optical character recognition (OCR)
CN105630767A (zh) 一种文本相似性的比较方法以及装置
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN107357785A (zh) 主题特征词抽取方法及***、情感极性判断方法及***
RU2768233C1 (ru) Нечеткий поиск с использованием форм слов для работы с большими данными
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN107861944A (zh) 一种基于Word2Vec的文本标签提取方法及装置
CN110597844A (zh) 异构数据库数据统一访问方法及相关设备
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及***
CN111931489A (zh) 文本纠错方法、装置和设备
CN104866631A (zh) 咨询问题聚合的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150826

RJ01 Rejection of invention patent application after publication