CN105224519A - 自然语言中的自动问句检测 - Google Patents

自然语言中的自动问句检测 Download PDF

Info

Publication number
CN105224519A
CN105224519A CN201510277761.6A CN201510277761A CN105224519A CN 105224519 A CN105224519 A CN 105224519A CN 201510277761 A CN201510277761 A CN 201510277761A CN 105224519 A CN105224519 A CN 105224519A
Authority
CN
China
Prior art keywords
question sentence
subordinate clause
sentence
heel
verb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510277761.6A
Other languages
English (en)
Other versions
CN105224519B (zh
Inventor
C.楚宁
C.J.罗尔德
M.D.亚维斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN105224519A publication Critical patent/CN105224519A/zh
Application granted granted Critical
Publication of CN105224519B publication Critical patent/CN105224519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及自然语言中的自动问句检测<b>。</b>***和方法可提供将句子分成多个从句并且对多个从句中的每个应用问句检测规则集。另外,如果问句检测规则指示多个从句中的至少一个是问句则自动将句子指示为问句。在一个示例中,问句检测规则中的至少一个定义多个词性的顺序。

Description

自然语言中的自动问句检测
技术领域
实施例大体上涉及自然语言环境中的自动问句检测。更特定地,实施例涉及在自然语言环境中使用基于从句的问句检测。
背景技术
常规自动问句检测方法大体上可整体分析遇到的每个句子。这些方法可包括使用机器学习分类器或全解析在句子开始或结束处寻找关键词和“n元”(例如,n-词的特定分组)来产生句子语法结构的层次树,等。尽管这些方法在某些境况下令人满意,仍然有相当大的空间有待提高。例如,将每个句子视为整体可使得这些方法对于很多种应用容易出错和/或不实际。更特定地,传统的n元法可能不能说明未预定义为位于句子中间的n元或词的部分的***词,并且层次树法在计算上可是昂贵的、非常耗费资源且很慢。因此,两个方法可能都不适合于实时和/或低功率应用,例如在手持设备上运行的个人助理(PA)应用。
附图说明
实施例的各种优势对本领域内技术人员将通过阅读下列说明书和附上的权利要求并且通过参考下列图而变得明显,其中:
图1是根据实施例用于产生对于句子的问句指示的问句检测规则集的示例的框图;
图2是根据实施例的句子的示例的图示;
图3是根据实施例训练***的方法的示例的流程图;
图4是根据实施例自动检测问句的方法的示例的流程图;
图5是根据实施例的逻辑架构的示例的框图;
图6是根据实施例的处理器的示例的框图;以及
图7是根据实施例的***的示例的框图。
具体实施方式
现在转向图1,示出句子10,其中该句子10可从消息(例如,电子邮件、文本消息、即时消息/IM、社交联网帖子,等)、处理音频馈送(例如,录音、麦克风输出)的语音识别模块等获得。在图示的示例中,句子10分成多个从句12(12a,12b),其包含对应于各种词性(POS)14的词。例如,句子10可以是“couldsheseethestagewhenshewenttotheconcert”。在这样的情况下,“couldsheseethestage”可识别为句子10中的第一从句12a并且“whenshewenttotheconcert”可识别为句子10中的第二从句12b。如将更详细论述的,问句检测规则16(16a-16c)的集可适用于从句12中的每个,其中如果问句检测规则16指示从句12中的至少一个是问句,句子10可经由例如问句指示18而自动指示为问句。在逐从句基础上分析句子10可减少错误以及计算开销。
更特定地,图示的问句检测规则16中的每个定义多个词性14的顺序,其中该顺序允许有未预先定义的***词。例如,第一问句检测规则16a可规定在“wh-词”(例如,who、whom、what、where、when、why、how)后跟情态动词或助动词(例如,can、must、should、would、could)后跟名词后跟动词时,整个句子10可自动指示为问句。助动词可定义为对它出现的从句增加功能或语法意义(例如,时态、形态(aspect)、情态、语态、语势)的词,而情态动词可定义为用于表达情态(例如,可能性、义务、能力等)的助动词类别。特别要注意,与在典型的n元方案中的不同,在第一问句检测规则16a中放置在规定词性14之间的词将未防止将指定从句和它的对应句子识别为问句。另外,规定词性14而不是特定关键词可使***的灵活增加并且大大提高准确性。
相似地,第二问句检测规则16b可以规定在情态动词或助动词后跟名词后跟动词时,整个句子10可自动指示为问句,其中***词将未防止进行这样的指示。从而,这样的规则可将例如“So,maySusanandherboyfriendcomewithus”等从句识别为问句(例如,情态动词“may”,后跟名词“Susan”后跟动词“come”)。在再另一个示例中,第三问句检测规则16c可规定在从句以BE(例如,“tobe”)或HAVE(例如,“tohave”)词开始、(例如,is,have,has)后跟名词时,整个句子10可自动指示为问句,其中***词可未防止进行这样的指定。这样的规则可因此将例如“Isthebuildingthegreyone”等从句识别为问句(例如,HAVE词“Is”、后跟名词“building”,***词是“the”)。此外,在图示的示例中考虑例如在第二从句12b开始处、接近句子10中间放置的词等相关词。因此,问句检测准确性可进一步提高。小写大写的语言学约定(例如,BE、HAVE)在本文用于指示词位(即,词的所有词形变化的集)。
图2证明句子10的词可用词性14来标记。词性14进而可用于识别短语块20和从句12。例如,在图示的示例中,词“could”识别为情态助动词词性、动词短语和第一从句12a的部分。另一方面,在图示的示例中,词“when”可识别为wh副词词性、孤立连词和第二从句12b的部分。
现在转向图3,示出训练***来自动将句子分成从句的方法22。该方法22可实现为逻辑指令集的模块或相关组件,该逻辑指令集存储在例如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪速存储器等机器或计算机可读存储介质中,在可配置逻辑,例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)中,在使用例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(ITL)技术等电路技术的固定功能性硬件逻辑中、或其任意组合。例如,用于实施在方法22中示出的操作的计算机程序代码可用一个或多个编程语言的任何组合来编写,其包括例如Java、Smalltalk、C++或类似物等面向对象编程语言和例如“C”编程语言或相似的编程语言等常规的程序化编程语言。
图示的处理框24提供将消息、语音识别输出、文件等分成多个从句。第一路径可牵涉在框26处用词性来标记句子的词以及在框28处使用这些词性来创建名词/动词短语块。第二路径可牵涉在框30处从另一个自然语言处理(NLP)解析器或标记文本获得对于句子的从句边界。图示的框32训练从句识别器以基于词性和在第一路径中生成的名词/动词子块和来自第二路径的已知从句边界自动识别从句边界。例如“分类器”、“Brilltaggers”等其他方法可用于训练***,这取决于境况。
图4示出自动检测问句的方法34。该方法34还可实现为逻辑指令集中的模块或相关组件,该逻辑指令集存储在例如RAM、ROM、PROM、固件、闪速存储器等机器或计算机可读存储介质中,在例如PLA、FPGA、CPLD等可配置逻辑中,在使用例如ASIC、CMOS或TTL技术等电路技术的固定功能性逻辑硬件中或其任何组合。
图示的处理框36使用指派给句子的词的词性来创建名词/动词短语块,例如块20(图20)。可在框38处做出关于在谈论的句子中是否存在未处理从句的确定。如果是这样的话,框40可访问与助动词、情态动词、wh-词、名词和动词的列表匹配的词的日志/索引,其中可在框42处做出关于从句是否包括wh-词后跟情态动词或助动词后跟名词后跟动词(例如,wh-词→情态动词或助动词→名词→动词)的确定。如果是这样的话,包含从句的句子可在框44处自动指示为问句。
否则,图示的框46确定从句是否包括情态动词或助动词后跟名词后跟动词(例如,情态动词或助动词→名词→动词),其中在框46处的肯定确定使框44能够自动将包含从句的句子指示为问句。框44还可牵涉对句子指派置信度以便指示问句指示中的置信水平。另外,如果问句指示未被框46触发,图示的框48确定从句是否包括后跟名词的词BE或HAVE词。如果是这样的话,包含从句的句子可在框44处自动指示为问句。如果框42、46或48没有一个导致将句子指示为问句,在框38处的确定可重复。如果在框38处确定不存在剩余的未处理从句,框39可将句子指示为不包含问句并且图示的方法34可终止。跨国39还可牵涉对句子指派置信度以便指示非问句指示中的置信水平。
从而,继续参考图2和4,将方法34应用于句子10将导致第一从句12a由于出现情态助动词“could”后跟代词“she”后跟动词“see”而由框46识别为句子。另一方面,第二从句12b可由于在框42、46和48中反映的问句检测规则未得到满足而不能识别为问句。识别为问句的第一从句12a可导致句子10自动被指示为问句。
图5示出可用作自动检测问句的装置的逻辑架构。该逻辑架构一般可实现自动检测问句的方法(例如方法34(图4))的一个或多个方面。在图示的示例中,从客户端程序接收(例如,经由网络控制器、语音输入***、多用户***上的人对人通信链路、存储文件解释***、扫描文件解释***、光学字符识别/OCR***,等)文本数据50(例如,消息)并且句子分类器54将文本数据50的每个句子传递到从句识别器56。从句识别器56(其可以是现货库或经由例如方法22(图3)等方法而训练的部件)可使每个句子分成多个从句并且将对应的从句列表返回句子分类器54。
图示的句子分类器54将每个从句传递到分析器58,其可配置成对多个从句中的每个应用问句检测规则集。如已经指出的,每个问句检测规则可定义多个词性的顺序,其中该顺序允许有未被预先定义的***词。分析器58还可返回对于每个从句的置信度,其中置信度指示关于从句是否是问句的置信水平。备选地,置信度可用存在问句语法的二进制指示来替换。如果问句检测规则指示指定句子内的从句中的至少一个是问句,图示的句子分类器54自动将句子指示为问句。
图6图示根据一个实施例的处理器核200。该处理器核200可以是对于任何类型的处理器的核,例如微处理器、嵌入式处理器、数字信号处理器(DPS)、网络处理器或执行代码的其他设备。尽管在图6中仅图示一个处理器核200,处理元件可备选地包括不止一个处理器核200(在图6中图示)。处理器核200可以是单线程核,或对于至少一个实施例,处理器核200可因为它每核可包括超过一个硬件线性上下文(或“逻辑处理器”)而多线程化。
图6还图示存储器270,其耦合于处理器核200。该存储器270可以是如本领域内技术人员已知或用别的方式对本领域内技术人员可用的很多种存储器(其包括存储器层次的各种层)中的任一个。存储器270可包括要由处理器核200执行的一个或多个代码213指令,其中代码213可实现已经论述的方法22(图3)和/或方法34(图4)。处理器核200跟随由代码213指示的指令的程序序列。每个指令可进入前端部分210并且由一个或多个解码器220处理。解码器220可生成微操作(例如采用预定义格式的固定宽微操作)作为它的输出,或可生成反映原始代码指令的其他指令、微指令或控制信号。图示的前端210还包括寄存器重命名逻辑225和调度逻辑230,其大体上分配资源并且使对应于转换指令的操作排队以供执行。
示出处理器核200,其包括执行逻辑250,该执行逻辑250具有执行单元集255-1至255-N。一些实施例可包括专用于特定功能或功能集的许多执行单元。其他实施例可仅包括一个执行单元或包括一个执行单元,其可以执行特定功能。图示的执行逻辑250执行由代码指令规定的操作。
在完成由代码指令规定的操作的执行后,后端逻辑260使代码213的指令引退。在一个实施例中,处理器核200允许无序执行但需要指令的有序引退。引退逻辑265可采取本领域内技术人员所知的多种形式(例如重排序缓冲器或类似物)。采用该方式,处理器核200至少按照由解码器、寄存器重命名逻辑225所利用的硬件寄存器和表以及执行逻辑250所修改的任何寄存器(未示出)生成的输出而在代码213的执行期间变换。
尽管未在图6中图示,处理元件可包括处理器核200芯片上的其他元件。例如,处理元件可包括存储器控制逻辑连同处理器核200。处理元件可包括I/O控制逻辑和/或可包括与存储器控制逻辑集成的I/O控制逻辑。处理元件还可包括一个或多个高速缓存。
现在参考图7,示出根据实施例的***1000实施例的框图。在图7中示出多处理器***1000,其包括第一处理元件1070和第二处理元件1080。尽管示出两个处理元件1070和1080,要理解***1000的实施例还可包括仅仅一个这样的处理元件。
***1000图示为点到点互连***,其中第一处理元件1070和第二处理元件1080经由点到点互连1050而耦合。应理解在图7中图示的互连中的任何或全部互连可实现为多点总线而不是点到点互连。
如在图7中示出的,处理器元件1070和1080中的每个可以是多核处理器,其包括第一和第二处理器核(即,处理器核1074a和1074b以及处理器核1084a和1084b)。这样的核1074a、1074b、1084a、1084b可配置成采用与在上文连同图6论述的相似的方式执行指令代码。
每个处理元件1070、1080可包括至少一个共享高速缓存1896a、1896b。共享高速缓存1896a、1896b可分别存储处理器的一个或多个部件(例如,核1074a、1074b和1084a、1084b)所利用的数据(例如,指令)。例如,共享高速缓存1896a、1896b可本地高速缓存在存储器1032、1034中存储的数据以供处理器的部件更快速访问。在一个或多个实施例中,共享高速缓存1896a、1896b可包括一个或多个中级高速缓存,例如2级(L2)、3级(L3)、4级(L4)或其他级高速缓存、最后级高速缓存(LLC)和/或其组合。
尽管仅示出有两个处理元件1070、1080,要理解实施例的范围不这样受限制。在其他实施例中,在指定处理器中可存在一个或多个额外处理元件。备选地,处理元件1070、1080中的一个或多个可以是除处理器以外的元件,例如加速器或现场可编程门阵列。例如,额外处理元件可包括与第一处理器1070相同的额外处理器、与第一处理器1070的处理器异构或不对称的额外处理器、加速器(例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理元件。从品质(其包括架构、微架构、热、功耗特性及类似物)的度量谱方面来看,在处理元件1070、1080之间可以存在多种差异。这些差异可使它们自身有效地表现为处理元件1070、1080之中的不对称和异构性。对于至少一个实施例,各种处理元件1070、1080可驻存在相同的晶片封装中。
第一处理元件1070可进一步包括存储器控制器逻辑(MC)1072和点到点(P-P)接口1076和1078。相似地,第二处理元件1080可包括MC1082和P-P接口1086和1088。如在图7中示出的,MC1072和1082使处理器耦合于相应的存储器,即存储器1032和存储器1034,其可以是本地附连到相应处理器的主存储器的部分。尽管MC1072和1082图示为集成到处理元件1070、1080内,对于备选实施例,MC逻辑可以是在处理元件1070、1080外部的分立逻辑,而不是在其中集成。
第一处理元件1070和第二处理元件1080可分别经由P-P互连1076、1086耦合于I/O子***1090。如在图7中示出的,该I/O子***1090包括P-P接口1094和1098。此外,I/O子***1090包括接口1092,其使I/O子***1090与高性能图形引擎1038耦合。在一个实施例中,总线1049可用于使图形引擎1038耦合于I/O子***1090。备选地,点到点互连可使这些部件耦合。
进而,I/O子***1090可经由接口1096耦合于第一总线1016。在一个实施例中,第一总线1016可以是***部件互连(PCI)总线或例如PCIExpress总线或另一个第三代I/O互连总线等总线,但实施例的范围不这样受限制。
如在图7中示出的,各种I/O设备1014(例如,拍摄装置、传感器)可连同总线桥1018一起耦合于第一总线1016,该总线桥1018可使第一总线1016耦合于第二总线1020。在一个实施例中,第二总线1020可以是低引脚计数(LPC)总线。各种设备可耦合于第二总线1020,这些设备包括例如键盘/鼠标1012、通信设备1026(例如,网络控制器、语音输入***、多用户***上的人对人通信链路、存储文件解释***、扫描文件解释***、光学字符识别/OCR***,等)和数据存储单元1019,例如盘驱动器或其他大容量存储设备,其在一个实施例中可包括代码1030。通信设备可与计算机网络通信以便接收包含要由代码1030处理的句子的消息,其中代码1030可包括用于执行上文描述的方法中的一个或多个的实施例的指令。从而,图示的代码1030可实现已经论述的方法22(图3)和/或方法34(图4),并且可与已经论述的代码213(图6)相似。由代码1030处理的消息还可在***1000上本地生成并且未来源于网络。此外,音频I/O1024可耦合于第二总线1020。
注意预想其他实施例。例如,代替图7的点到点架构,***可实现多点总线或另一个这样的通信拓扑。图7的元件也可备选地使用比在图7中示出的更多或更少的集成芯片来分区。
额外注释和示例:
示例1可包括用于自动检测问句的***,其包括用于接收包含句子的消息的网络控制器、用于将句子分成多个从句的从句识别器、用于对多个从句中的每个应用问句检测规则集的分析器,和句子分类器,用于如果问句检测规则指示多个从句中的至少一个是问句则将句子自动指示为问句。
示例2可包括示例1的***,其中问句检测规则中的至少一个定义多个词性的顺序。
示例3可包括示例2的***,其中该顺序允许有未被预先定义的***词。
示例4可包括示例1至3中的任一个的***,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例5可包括示例1至3中的任一个的***,其中如果从句包括情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例6可包括示例1至3中的任一个的***,其中如果从句以词BE或HAVE开始以及后跟名词,问句检测规则中的一个或多个将该从句定义为问句。
示例7可包括自动检测问句的方法,其包括将句子分成多个从句、对多个从句中的每个应用问句检测规则集以及如果问句检测规则指示多个从句中的至少一个是问句则自动将句子指示为问句。
示例8可包括示例7的方法,其中问句检测规则中的至少一个定义多个词性的顺序。
示例9可包括示例8的方法,其中该顺序允许有未被预先定义的***词。
示例10可包括示例7至9中的任一个的方法,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例11可包括示例7至9中的任一个的方法,其中如果从句包括情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例12可包括示例7至9中的任一个的方法,其中如果从句以BE或HAVE词开始以及后跟名词,问句检测规则中的一个或多个将该从句定义为问句。
示例13可包括至少一个计算机可读存储介质,其包括指令集,所述指令在由计算设备执行时促使该计算设备将句子分成多个从句、对多个从句中的每个应用问句检测规则集以及如果问句检测规则指示多个从句中的至少一个是问句则自动将句子指示为问句。
示例14可包括示例13的至少一个计算机可读存储介质,其中问句检测规则中的至少一个定义多个词性的顺序。
示例15可包括示例14的至少一个计算机可读存储介质,其中该顺序允许有未被预先定义的***词。
示例16可包括示例13至15中的任一个的至少一个计算机可读存储介质,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例17可包括示例13至15中的任一个的至少一个计算机可读存储介质,其中如果从句包括情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例18可包括示例13至15中的任一个的至少一个计算机可读存储介质,其中如果从句以词BE或HAVE开始以及后跟名词,问句检测规则中的一个或多个将该从句定义为问句。
示例19可包括用于自动检测问句的装置,其包括用于将句子分成多个从句的从句识别器、用于对多个从句中的每个应用问句检测规则集的分析器,和句子分类器,用于如果问句检测规则指示多个从句中的至少一个是问句则将句子自动指示为问句。
示例20可包括示例19的装置,其中问句检测规则中的至少一个定义多个词性的顺序。
示例21可包括示例20的装置,其中该顺序允许有未被预先定义的***词。
示例22可包括示例19至21中的任一个的装置,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例23可包括示例19至21中的任一个的装置,其中如果从句包括情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例24可包括示例19至21中的任一个的装置,其中如果从句以词BE或HAVE开始以及后跟名词,问句检测规则中的一个或多个将该从句定义为问句。
示例25可包括用于自动检测问句的装置,其包括用于将句子分成多个从句的部件、用于对多个从句中的每个应用问句检测规则集的部件,和用于如果问句检测规则指示多个从句中的至少一个是问句则将句子自动指示为问句的部件。
示例26可包括示例25的装置,其中问句检测规则中的至少一个定义多个词性的顺序。
示例27可包括示例26的装置,其中该顺序允许有未被预先定义的***词。
示例28可包括示例25至27中的任一个的装置,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例29可包括示例25至27中的任一个的装置,其中如果从句包括情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将该从句定义为问句。
示例30可包括示例25至27中的任一个的装置,其中如果从句以词BE或HAVE开始以及后跟名词,问句检测规则中的一个或多个将该从句定义为问句。
从而,本文描述的技术将句子分解成它的组成从句并且然后对每个从句独立应用问句检测规则。因此,技术不需要问句语法位于句子开始处。此外,技术不依靠不灵活的“词袋”方法,其可导致假肯定和/或假否定。例如,句子“Ifyou’regoingtobelate,couldyoucallmebeforeyouleave?”和“Whenwillthemeetingend?”可都识别为问句,尽管第一句子未以像问句的结构开始也如此。此外,句子“Idon’tknowwhatyoushoulddo?”可未识别为问句,即使它包含词“what”也如此。另外,技术不依靠使用问句标记,其通常在例如电子邮件、文本消息、IM、社交联网帖子等以计算机为媒体的通信中无关地被包括(如在之前的示例中的)或省略。
自动问句检测技术提供在计算上廉价(例如,“轻量”)的技术方案,其可在例如个人助理(PA)和/或低功率情景(其中消息被实时破译和优先级化来确定是否应中断用户)等环境中使用。例如,如果同事发送午餐邀请:“I’mcomingintotowntomorrow,wouldyouliketogetlunchwithJamilaandTed”,PA可抢先(和临时)增加预约。
实施例能适用于与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片集部件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片、芯片上***(SoC)、SSD/NAND控制器ASIC及类似物。另外,在图中的一些中,信号导线用线表示。一些可以不同来指示更多的组成信号路径、具有数字标签来指示许多组成信号路径和/或在一个或多个端处具有箭头来指示主要的信息流方向。然而,这不应以限制性的方式解释。相反,这样的附加细节可连同一个或多个示范性实施例一起使用以便于更容易地理解电路。任何表示的信号线,无论是否具有额外的信息,实际上可包括可在多个方向上行进并且可用任何适合类型的信号方案(例如用差分对、光纤线和/或单端线实现的数字或模拟线)实现的一个或多个信号。
可已经给出示例尺寸/模型/值/范围,但本发明的实施例不限于此。当制造技术(例如,光刻)随时间而成熟时,预期可以制造具有较小尺寸的设备。另外,为了简化说明和论述,并且为了不掩盖实施例的某些方面,众所周知的到IC芯片和其他部件的电力/接地连接可在或可不在图内示出。此外,设置可采用框图形式示出以避免掩盖实施例,并且还鉴于关于这样的框图设置的实现的细节高度取决于实现实施例所在平台(即,这样的细节应该完全在本领域内技术人员的视野内)这一事实。在阐述特定细节(例如,电路)以便描述本发明的示例实施例的情况下,可以在没有这些特定细节或具有这些特定细节的变化形式的情况下实践实施例,这对本领域内技术人员应该是明显的。从而描述被视为说明性而非限制性的。
术语“耦合”可在本文中用于指谈论的部件之间的任何类型的关系(直接或间接的),并可适用于电、机械、流体、光、电磁、机电或其他连接。另外,术语“第一”、“第二”等在本文中仅用于便于论述,并且不具有时间或时间顺序的意义,除非另外指出。
如在该申请和权利要求中使用的,加入术语“…中的一个或多个”的项目的列表可意指列出的项目的任何组合。例如,短语“A、B或C中的一个或多个”可意指A;B;C;A和B;B和C;或A、B和C。
本领域内技术人员将从前面的描述意识到实施例的广泛的技术可以以多种形式实现。因此,尽管本发明的实施例已经连同其特定示例描述,本发明的实施例的真正范围不应这样受限制,因为当研究图、说明书和下面的权利要求时其他修改将对技术人员变得明显。

Claims (24)

1.一种用于自动检测问句的***,其包括:
网络控制器,用于接收包含句子的消息;
从句识别器,用于将所述句子分成多个从句;
分析器,用于对所述多个从句中的每个应用问句检测规则集;以及
句子分类器,用于如果所述问句检测规则指示所述多个从句中的至少一个是问句则将所述句子自动指示为问句。
2.如权利要求1所述的***,其中所述问句检测规则中的至少一个定义多个词性的顺序。
3.如权利要求2所述的***,其中所述顺序允许有未被预先定义的***词。
4.如权利要求1至3中的任一项所述的***,其中如果所述从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
5.如权利要求1至3中的任一项所述的***,其中如果所述从句包括情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
6.如权利要求1至3中的任一项所述的***,其中如果从句以词BE或HAVE开始以及后跟名词,所述问句检测规则中的一个或多个将所述从句定义为问句。
7.一种用于自动检测问句的方法,其包括:
将句子分成多个从句;
对所述多个从句中的每个应用问句检测规则集;以及
如果所述问句检测规则指示所述多个从句中的至少一个是问句则自动将所述句子指示为问句。
8.如权利要求7所述的方法,其中所述问句检测规则中的至少一个定义多个词性的顺序。
9.如权利要求8所述的方法,其中所述顺序允许有未被预先定义的***词。
10.如权利要求7至9中的任一项所述的方法,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
11.如权利要求7至9中的任一项所述的方法,其中如果从句包括情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
12.如权利要求7至9中的任一项所述的方法,其中如果从句以词BE或HAVE开始后跟名词,所述问句检测规则中的一个或多个将所述从句定义为问句。
13.一种用于自动检测问句的装置,其包括:
从句识别器,用于将句子分成多个从句;
分析器,用于对所述多个从句中的每个应用问句检测规则集;以及
句子分类器,用于如果所述问句检测规则指示所述多个从句中的至少一个是问句则将所述句子自动指示为问句。
14.如权利要求13所述的装置,其中所述问句检测规则中的至少一个定义多个词性的顺序。
15.如权利要求14所述的装置,其中所述顺序允许有未被预先定义的***词。
16.如权利要求13至15中的任一项所述的装置,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
17.如权利要求13至15中的任一项所述的装置,其中如果从句包括情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
18.如权利要求13至15中的任一项所述的装置,其中如果从句以词BE或HAVE开始后跟名词,所述问句检测规则中的一个或多个将所述从句定义为问句。
19.一种用于自动检测问句的装置,其包括:
用于将句子分成多个从句的部件;
用于对所述多个从句中的每个应用问句检测规则集的部件;以及
用于如果所述问句检测规则指示所述多个从句中的至少一个是问句则将所述句子自动指示为问句的部件。
20.如权利要求19所述的装置,其中所述问句检测规则中的至少一个定义多个词性的顺序。
21.如权利要求20所述的装置,其中所述顺序允许有未被预先定义的***词。
22.如权利要求19至21中的任一项所述的装置,其中如果从句包括wh-词后跟情态动词或助动词后跟名词后跟动词,问句检测规则中的一个或多个将所述从句定义为问句。
23.如权利要求19至21中的任一项所述的装置,其中如果从句包括情态动词或助动词后跟名词后跟动词,所述问句检测规则中的一个或多个将所述从句定义为问句。
24.如权利要求19至21中的任一项所述的装置,其中如果从句以词BE或HAVE开始后跟名词,问句检测规则中的一个或多个将所述从句定义为问句。
CN201510277761.6A 2014-06-27 2015-05-27 自然语言中的自动问句检测 Active CN105224519B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/317,604 US9721001B2 (en) 2014-06-27 2014-06-27 Automatic question detection in natural language
US14/317604 2014-06-27

Publications (2)

Publication Number Publication Date
CN105224519A true CN105224519A (zh) 2016-01-06
CN105224519B CN105224519B (zh) 2019-08-16

Family

ID=53189666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510277761.6A Active CN105224519B (zh) 2014-06-27 2015-05-27 自然语言中的自动问句检测

Country Status (3)

Country Link
US (1) US9721001B2 (zh)
EP (1) EP2960807A1 (zh)
CN (1) CN105224519B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304362A (zh) * 2017-01-12 2018-07-20 科大讯飞股份有限公司 一种从句检测方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2635259C1 (ru) * 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US10628521B2 (en) * 2015-08-03 2020-04-21 International Business Machines Corporation Scoring automatically generated language patterns for questions using synthetic events
US10628413B2 (en) * 2015-08-03 2020-04-21 International Business Machines Corporation Mapping questions to complex database lookups using synthetic events
US20180011929A1 (en) * 2016-07-08 2018-01-11 Newvoicemedia, Ltd. Concept-based search and categorization
US9972308B1 (en) 2016-11-08 2018-05-15 International Business Machines Corporation Splitting utterances for quick responses
US11003417B2 (en) * 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US10102199B2 (en) * 2017-02-24 2018-10-16 Microsoft Technology Licensing, Llc Corpus specific natural language query completion assistant
US20200159824A1 (en) * 2018-11-15 2020-05-21 International Business Machines Corporation Dynamic Contextual Response Formulation
US11222165B1 (en) * 2020-08-18 2022-01-11 International Business Machines Corporation Sliding window to detect entities in corpus using natural language processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US20060190804A1 (en) * 2005-02-22 2006-08-24 Yang George L Writing and reading aid system
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
US20130007037A1 (en) * 2011-06-28 2013-01-03 Microsoft Corporation Automatic Question and Answer Detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US20060190804A1 (en) * 2005-02-22 2006-08-24 Yang George L Writing and reading aid system
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
US20130007037A1 (en) * 2011-06-28 2013-01-03 Microsoft Corporation Automatic Question and Answer Detection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304362A (zh) * 2017-01-12 2018-07-20 科大讯飞股份有限公司 一种从句检测方法及装置
CN108304362B (zh) * 2017-01-12 2021-07-06 科大讯飞股份有限公司 一种从句检测方法及装置

Also Published As

Publication number Publication date
US20150378988A1 (en) 2015-12-31
US9721001B2 (en) 2017-08-01
CN105224519B (zh) 2019-08-16
EP2960807A1 (en) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105224519A (zh) 自然语言中的自动问句检测
WO2022134759A1 (zh) 关键词生成方法、装置、电子设备及计算机存储介质
US10838997B2 (en) Method and device for generating text tag
EP3183728B1 (en) Orphaned utterance detection system and method
CN107767870A (zh) 标点符号的添加方法、装置和计算机设备
CN105335133B (zh) 用于生成业务规则模型的方法和装置
JP2022031804A (ja) イベント抽出方法、装置、電子機器及び記憶媒体
WO2022095563A1 (zh) 文本纠错的适配方法、装置、电子设备及存储介质
CN112151015B (zh) 关键词检测方法、装置、电子设备以及存储介质
CN111931477B (zh) 文本匹配方法、装置、电子设备以及存储介质
Singh et al. Part of speech tagging of Marathi text using trigram method
Mulki et al. Tunisian dialect sentiment analysis: a natural language processing-based approach
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN109684638A (zh) 分句方法及其装置、电子设备、计算机可读存储介质
Rottman et al. Sluicing, idioms, and island repair
CN113360001A (zh) 输入文本的处理方法、装置、电子设备和存储介质
CN112464642A (zh) 文本添加标点的方法、装置、介质及电子设备
Xia et al. Achieving cross modal generalization with multimodal unified representation
CN116978028A (zh) 视频处理方法、装置、电子设备及存储介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN115114408B (zh) 多模态情感分类方法、装置、设备及存储介质
CN111368532A (zh) 一种基于lda的主题词嵌入消歧方法及***
CN114492446B (zh) 法律文书处理方法、装置、电子设备及存储介质
Sohrab et al. A Generic Neural Exhaustive Approach for Entity Recognition and Sensitive Span Detection.
Saeed et al. Medical terminology-based computing system: a lightweight post-processing solution for out-of-vocabulary multi-word terms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant