CN104462145B - 一种语句生成方法及装置 - Google Patents

一种语句生成方法及装置 Download PDF

Info

Publication number
CN104462145B
CN104462145B CN201310440040.3A CN201310440040A CN104462145B CN 104462145 B CN104462145 B CN 104462145B CN 201310440040 A CN201310440040 A CN 201310440040A CN 104462145 B CN104462145 B CN 104462145B
Authority
CN
China
Prior art keywords
data message
sentence
formatting
words
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310440040.3A
Other languages
English (en)
Other versions
CN104462145A (zh
Inventor
董振华
欧阳靖民
张弓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310440040.3A priority Critical patent/CN104462145B/zh
Publication of CN104462145A publication Critical patent/CN104462145A/zh
Application granted granted Critical
Publication of CN104462145B publication Critical patent/CN104462145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种语句生成方法及装置。该方法包括:收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种;确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分;根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。还公开了相应的装置。采用本发明的一种语句生成方法及装置的技术方案,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。

Description

一种语句生成方法及装置
技术领域
本发明涉及语言技术领域,具体涉及一种语句生成方法及装置。
背景技术
智能终端上的自动日记可以节省人们记录事件的事件成本,且从多个维度和视角记录事件发生的上下文,可以客观地重现事件,同时,智能终端的普及为自动日记的生成提供了多种维度的可用信息源和数据基础。然而,现有技术中的一种自动日记的生成方法,其源数据主要是文本数据,如博客信息、社交网络信息、短信信息、联系人信息等,从以上文本信息中抽取特征,生成日记,但当源数据缺少文本描述时,将无法生成日记;现有技术中的另一种自动日记的生成方法是分析手机使用情况和传感器数据,结合手机操作事件(如开关机、收发邮件等)与用户活动的对应关系,识别用户活动或发生的事件,最后按时间顺序组织一天发生的事件,生成日记,该方法生成的日记,其内容非常简单,形式为“时间:事件”序列,信息量匮乏,且没有使用完整的语句描述用户活动或事件,可读性差。
综上所述,如何根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件已成为业界迫切需要解决的问题。
发明内容
有鉴于此,本发明提供了一种语句生成方法及装置,以期根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件。
第一方面,提供了一种语句生成方法,包括:
收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种;
确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分;
根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
在第一种可能的实现方式中,所述收集终端的至少一个数据信息,包括:
采集终端的至少一个数据信息;
检测所述至少一个数据信息的来源;
根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息;
所述确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分,包括:
针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语;
根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的每个数据信息在待组成语句中的句子成分之后,以及所述根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句之前,所述方法还包括:
针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句,包括:
根据确定的所述至少一个数据信息在待组成语句中的句子成分的类型,从句法结构库中选择包含所述至少一个数据信息的句子成分的类型的语句结构;
按照所述至少一个数据信息的句子成分在所述语句结构中的位置,将选择的与所述至少一个格式化后的数据信息匹配的描述词语组成语句。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,所述根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句,包括:
根据确定的所述至少一个数据信息在待组成语句中的句子成分,将选择的与所述至少一个格式化后的数据信息匹配的描述词语与语句模型库中的语句进行匹配;
获取所述匹配后的语句。
第二方面,提供了一种语句生成装置,包括:
收集单元,用于收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种;
确定单元,用于确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分;
组成单元,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
在第一种可能的实现方式中,所述收集单元包括:
采集子单元,用于采集终端的至少一个数据信息;
检测子单元,用于检测所述至少一个数据信息的来源;
格式化子单元,用于根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息;
所述确定单元包括:
查找子单元,用于针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语;
确定子单元,用于根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:
选择单元,用于针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述组成单元包括:
选择子单元,用于根据所述至少一个数据信息的句子成分的类型,从句法结构库中选择包含所述至少一个数据信息的句子成分的类型的语句结构;
组成子单元,用于按照所述至少一个数据信息的句子成分在所述语句结构中的位置,将选择的与所述至少一个格式化后的数据信息匹配的描述词语组成语句。
结合第二方面的第二种可能的实现方式,在第四种可能的实现方式中,所述组成单元包括:
匹配子单元,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将选择的与所述至少一个格式化后的数据信息匹配的描述词语与语句模型库中的语句进行匹配;
获取子单元,用于获取所述匹配后的语句。
采用本发明的一种语句生成方法及装置的技术方案,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种语句生成方法的一个实施例的流程图;
图2为对图1所示的本发明一种语句生成方法的进一步细化的另一个实施例的流程图;
图3为对图1所示的本发明一种语句生成方法的进一步细化的又一个实施例的流程图;
图4为本发明一种语句生成装置的一个实施例的结构示意图;
图5为对图4所示的本发明一种语句生成装置的进一步细化的另一个实施例的结构示意图;
图6为对图4所示的本发明一种语句生成装置的进一步细化的又一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一种语句生成方法的一个实施例的流程图。如图1所示,该方法包括以下步骤:
步骤S101,收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种。
本发明的终端是指网络与最终用户接触用以实现网络应用的各种设备,例如笔记本电脑、平板电脑、手机等。从一个终端上可以收集到各种数据信息,包括:该终端自身的运行信息,例如网络连接信息、***进程信息等;该终端的用户操作信息,例如传感器信息、微博等;该终端从外部接口接收到的信息,例如通话信息、短信信息、GPS信息等,这些数据信息包含文本数据,例如微博、短信,可以从这些信息中直接提取文字信息;还包括非文本数据,例如网络连接信息、***进程信息、传感器信息等,这些是通过接口等采集的数据信息。本发明可以统一收集终端的这些数据信息并进行整理。
步骤S102,确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分。
对于收集的每个数据信息,将其确定为相应的句子成分,句子成分的类型包括主语、谓语、宾语、定语、补语、状语、表语等,例如对于收集终端的时间信息,可以将该时间信息确定为时间状语,对于从GPS收集的信息,可以将该信息识别为地点状语等。
步骤S103,根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
识别了收集的每个数据信息的句子成分后,就可以按照这些数据信息对应的句子成分,按照一定的句子结构或根据语言模型进行匹配,获得这些数据信息组成的语句,从而通过一个或多个语句对这些数据信息包含的内容进行了完整的描述。累积的语句即形成了自动日记文本。
根据本发明实施例提供的一种语句生成方法,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
图2为对图1所示的本发明一种语句生成方法的进一步细化的另一个实施例的流程图。如图2所示,该方法包括以下步骤:
步骤S201,采集终端的至少一个数据信息。
本发明的终端是指网络与最终用户接触用以实现网络应用的各种设备,例如笔记本电脑、平板电脑、手机等。从一个终端上可以收集到各种数据信息,包括:该终端自身的运行信息,例如网络连接信息、***进程信息等;该终端的用户操作信息,例如传感器信息、微博等;该终端从外部接口接收到的信息,例如通话信息、短信信息、GPS信息等,这些数据信息包含文本数据,例如微博、短信,可以从这些信息中直接提取文字信息;还包括非文本数据,例如网络连接信息、***进程信息、传感器信息等,这些是通过接口等采集的数据信息。
步骤S202,检测所述至少一个数据信息的来源。
检测采集到的这些数据信息的来源,这些来源即:如果该信息是GPS信息,则该来源是终端上的GPS;如果是传感器信息,则该来源是终端上的某个传感器;如果是通话信息、应用程序(Application,APP)信息例如微博等,则能根据软件程序识别器来源。
步骤S203,根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息。
对采集自不同来源的数据信息,需按照不同的格式进行整理这些数据信息,以便于后续的使用。
例如:
1、微博信息:对于某一时刻用户发布的微博,每条微博格式化后可表示为:<时间,微博内容,用户ID>三元组。
2、GPS信息:对于某一时刻的位置信息,每条GPS信息格式化后可表示为:
<时间,经度,维度,高度>四元组。
3、加速度信息:对于某一时刻的加速度信息,每条加速度信息格式化后可表示为:
<时间,x轴加速度,y轴加速度,z轴加速度>四元组。
4、通话信息:对于通话,短信等信息使用情况,具体包括:
通话:通话开始时间,通话结束时间,通话时长,主叫,被叫,电话miss时间。
短信:短信接收时间,接收短信长度,短信发送时间,发送短信长度。
每条通话信息格式化后可表示为:
<时间,本手机状态,对方手机状态,本手机设置状态,对方手机ID>五元组
例如本机接到来电可表示为:
<时间,接到来电,呼叫,手机响铃,对方手机ID>
对采集到的数据信息进行格式化的格式可以有多种,以上示例只列出了基于元组的表示方式,本发明包含但不限于以上实例。
步骤S204,针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语。
为了便于用户阅读生成的语句,需对采集到的数据信息采用常规的或用户习惯的描述语言进行描述,而数据库中存储了与每个格式化后的数据信息对应的一个或多个描述词语,因此,针对每个格式化的数据信息,可以从该数据库中查找与每个格式化的数据信息匹配的至少一个描述词语。
例如:
1、采集到的时间信息是6:50AM,查找到的描述词语集合为:
{早晨,清晨,北京时间上午六点五十,6:50AM,一大早}。
2、采集到的GPS信息是{经度=22.04,维度=114.3},查找到的描述词语集合为:
{深圳华为基地,龙岗区坂田,五和大道}
3、采集到的通话记录信息<时间,本手机状态,对方手机状态,本手机设置状态,对方手机ID>,对于通话动作的描述词语集合为:{通话,打电话,接电话};对于通话对象的描述词语集合为:{我,John(联系人)}。
4、对于采集到的加速度信息<时间,x轴加速度,y轴加速度,z轴加速度>,描述词语集合可以为:
{走,散步,慢跑}。
步骤S205,根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分。
将采集到的每个数据信息进行格式化以及描述词语的匹配后,***对这些描述词语会根据之前确定该描述词语的句子成分的概率或根据使用习惯将其确定为相应的句子成分,句子成分的类型包括主语、谓语、宾语、定语、补语、状语、表语等,例如对于收集终端的时间信息,可以将该时间信息确定为时间状语,对于从GPS收集的信息,可以将该信息识别为地点状语等。
步骤S206,针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语。
在生成语句前,对于每个句子成分所采用的描述词语一般只选择一个,因此,需要在与格式化后的数据信息匹配的多个描述词语中选择一个描述词语,该选择的依据可以是这些描述词语在数据库中使用的概率,即被选择用来生成语句的概率,或者也可以基于用户语言习惯。
步骤S207,根据确定的所述至少一个数据信息在待组成语句中的句子成分的类型,从句法结构库中选择包含所述至少一个数据信息的句子成分的类型的语句结构。
在句法结构库中存储了各种语句结构,每种语句结构中包含了一个或多个句子成分,每个句子成分在该语句结构中具有相应的位置。从句法结构库中选择包含所有采集到的数据信息对应的句子成分的语句结构。
例如,句法结构库中包含的句法结构有:
[时间状语][主语][地点状语][谓语][宾语];
[主语][谓语][宾语];等。
步骤S208,按照所述至少一个数据信息的句子成分在所述语句结构中的位置,将选择的与所述至少一个格式化后的数据信息匹配的描述词语组成语句。
选择了语句结构后,按照每个格式化后的数据信息对应的句子成分在该语句结构中的位置,将选择的与该数据信息匹配的描述词语填充到该位置,逐一填充完各个句子成分的位置,即组成了一个语句。
例如,根据上面的举例,可以组成以下语句:
“清晨,我和John通话。”
“早晨,我在五和大道散步,John打电话给我。”
根据本发明实施例提供的一种语句生成方法,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
图3为对图1所示的本发明一种语句生成方法的进一步细化的又一个实施例的流程图。如图3所示,该方法包括以下步骤:
步骤S301,采集终端的至少一个数据信息。
步骤S302,检测所述至少一个数据信息的来源。
步骤S303,根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息。
步骤S304,针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语。
步骤S305,根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分。
步骤S306,针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语。
步骤S307,根据确定的所述至少一个数据信息在待组成语句中的句子成分,将选择的与所述至少一个格式化后的数据信息匹配的描述词语与语句模型库中的语句进行匹配。
步骤S308,获取所述匹配后的语句。
本实施例与上述实施例的不同之处在于:步骤S307和步骤S308与上述实施例的步骤S207和步骤S208不同。
语言模型的定义是“一个语言模型通常构建为字符串s的概率分布P(s),这里P(s)试图反映字符串s作为一个句子出现的概率。”
在n元语言模型中,句子s=W1,W2…Wn,其概率计算公式可以表示为:
P(s)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1…Wn-1)
在本实施例中,语句模型库中存储了各种语句,将要生成语句的与格式化的数据信息匹配的描述词语与语句模型库中的语句进行匹配,获取匹配后的语句。
具体地,例如,语句模型库中存储了语句1:“早晨Lyn打电话给我”,则认为以上举例中的要生成语句的描述词语及句子成分与该语句1可以匹配,则获得匹配后的语句为“早晨John打电话给我”。
语句模型库中可能还存储了语句2“清晨,我和Lily通话”,则认为以上举例中的要生成语句的描述词语及句子成分与该语句2也可以匹配,但是由语句1的描述词语构成的语句1在生成的日记文本中出现的概率为54%,而由语句2的描述词语构成的语句2在生成的日记文本中出现的概率为30%,则选择与在生成的日记文本中出现的概率最高的语句1进行匹配,获取匹配后的语句。
根据本发明实施例提供的一种语句生成方法,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
图4为本发明一种语句生成装置的一个实施例的结构示意图。如图4所示,该装置1000包括:
收集单元11,用于收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种。
本发明的终端是指网络与最终用户接触用以实现网络应用的各种设备,例如笔记本电脑、平板电脑、手机等。从一个终端上可以收集到各种数据信息,包括:该终端自身的运行信息,例如网络连接信息、***进程信息等;该终端的用户操作信息,例如传感器信息、微博等;该终端从外部接口接收到的信息,例如通话信息、短信信息、GPS信息等,这些数据信息包含文本数据,例如微博、短信,可以从这些信息中直接提取文字信息;还包括非文本数据,例如网络连接信息、***进程信息、传感器信息等,这些是通过接口等采集的数据信息。本发明的收集单元11可以统一收集终端的这些数据信息并进行整理。
确定单元12,用于确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分。
对于收集的每个数据信息,确定单元12将其确定为相应的句子成分,句子成分的类型包括主语、谓语、宾语、定语、补语、状语、表语等,例如对于收集终端的时间信息,可以将该时间信息确定为时间状语,对于从GPS收集的信息,可以将该信息确定为地点状语等。
组成单元13,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
识别了收集的每个数据信息的句子成分后,组成单元13就可以按照这些数据信息对应的句子成分,按照一定的句子结构或与一些语言模型进行匹配,获得这些数据信息组成的语句,从而通过一个或多个语句对这些数据信息包含的内容进行了完整的描述。累积的语句即形成了自动日记文本。
根据本发明实施例提供的一种语句生成装置,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
图5为对图4所示的本发明一种语句生成装置的进一步细化的另一个实施例的结构示意图。如图5所示,该装置2000包括:
收集单元21,用于收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种。
在本实施例中,收集单元21包括采集子单元211、检测子单元212和格式化子单元213。
采集子单元211,用于采集终端的至少一个数据信息。
本发明的终端是指网络与最终用户接触用以实现网络应用的各种设备,例如笔记本电脑、平板电脑、手机等。采集子单元211从一个终端上可以采集到各种数据信息,包括:该终端自身的运行信息,例如网络连接信息、***进程信息等;该终端的用户操作信息,例如传感器信息、微博等;该终端从外部接口接收到的信息,例如通话信息、短信信息、GPS信息等,这些数据信息包含文本数据,例如微博、短信,可以从这些信息中直接提取文字信息;还包括非文本数据,例如网络连接信息、***进程信息、传感器信息等,这些是通过接口等采集的数据信息。
检测子单元212,用于检测所述至少一个数据信息的来源。
检测子单元212检测采集到的这些数据信息的来源,这些来源即:如果该信息是GPS信息,则该来源是终端上的GPS;如果是传感器信息,则该来源是终端上的某个传感器;如果是通话信息、应用程序(Application,APP)信息例如微博等,则能根据软件程序识别器来源。
格式化子单元213,用于根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息。
对采集自不同来源的数据信息,需格式化子单元213按照不同的格式进行整理这些数据信息,以便于后续的使用。
对采集到的数据信息进行格式化的格式可以有多种,例如元组等表示方式,本发明包含但不限于以上实例。
确定单元22,用于确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分。
在本实施例中,确定单元22包括查找子单元221和确定子单元222。
查找子单元221,用于针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语。
为了便于用户阅读生成的语句,需对采集到的数据信息采用常规的或用户习惯的描述语言进行描述,而数据库中存储了与每个格式化后的数据信息对应的一个或多个描述词语,因此,针对每个格式化的数据信息,查找子单元221可以从该数据库中查找与每个格式化的数据信息匹配的至少一个描述词语。
确定子单元222,用于根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分。
将采集到的每个数据信息进行格式化以及描述词语的匹配后,确定子单元222对这些描述词语会根据之前确定该描述词语的句子成分的概率或根据使用习惯将其确定为相应的句子成分,句子成分的类型包括主语、谓语、宾语、定语、补语、状语、表语等,例如对于收集终端的时间信息,可以将该时间信息确定为时间状语,对于从GPS收集的信息,可以将该信息确定为地点状语等。
选择单元23,用于针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语。
在生成语句前,对于每个句子成分所采用的描述词语一般只选择一个,因此,选择单元23需要在与格式化后的数据信息匹配的多个描述词语中选择一个描述词语,该选择的依据可以是这些描述词语在数据库中使用的概率,即被选择用来生成语句的概率,或者也可以基于用户语言习惯。
组成单元24,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
在本实施例中,组成单元24包括选择子单元241和组成子单元242。
选择子单元241,用于根据所述至少一个数据信息的句子成分的类型,从句法结构库中选择包含所述至少一个数据信息的句子成分的类型的语句结构。
在句法结构库中存储了各种语句结构,每种语句结构中包含了一个或多个句子成分,每个句子成分在该语句结构中具有相应的位置。选择子单元241从句法结构库中选择包含所有采集到的数据信息对应的句子成分的语句结构。
组成子单元242,用于按照所述至少一个数据信息的句子成分在所述语句结构中的位置,将选择的与所述至少一个格式化后的数据信息匹配的描述词语组成语句。
选择了语句结构后,组成子单元242按照每个格式化后的数据信息对应的句子成分在该语句结构中的位置,将选择的与该数据信息匹配的描述词语填充到该位置,逐一填充完各个句子成分的位置,即组成了一个语句。
根据本发明实施例提供的一种语句生成装置,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
图6为对图4所示的本发明一种语句生成装置的进一步细化的又一个实施例的结构示意图。如图6所示,该装置3000包括:
收集单元31,用于收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种。
在本实施例中,收集单元31包括采集子单元311、检测子单元312和格式化子单元313。
采集子单元311,用于采集终端的至少一个数据信息。
检测子单元312,用于检测所述至少一个数据信息的来源。
格式化子单元313,用于根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息。
确定单元32,用于确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分。
在本实施例中,确定单元32包括查找子单元321和确定子单元322。
查找子单元321,用于针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语。
确定子单元322,用于根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分。
选择单元33,用于针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语。
组成单元34,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
在本实施例中,组成单元34包括匹配子单元341和获取子单元342。
匹配子单元341,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将选择的与所述至少一个格式化后的数据信息匹配的描述词语与语句模型库中的语句进行匹配。
获取子单元342,用于获取所述匹配后的语句。
本实施例与上述实施例的不同之处在于:组成单元34与上述实施例的组成单元24不同。
语言模型的定义是“一个语言模型通常构建为字符串s的概率分布P(s),这里P(s)试图反映字符串s作为一个句子出现的概率。”
在n元语言模型中,句子s=W1,W2…Wn,其概率计算公式可以表示为:
P(s)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1…Wn-1)
在本实施例中,语句模型库中存储了各种语句,匹配子单元341将要生成语句的与格式化的数据信息匹配的描述词语与语句模型库中的语句进行匹配,获取子单元342获取匹配后的语句。
具体地,例如,语句模型库中存储了语句1:“早晨Lyn打电话给我”,则认为以上举例中的要生成语句的描述词语及句子成分与该语句1可以匹配,则获得匹配后的语句为“早晨John打电话给我”。
语句模型库中可能还存储了语句2“清晨,我和Lily通话”,则认为以上举例中的要生成语句的描述词语及句子成分与该语句2也可以匹配,但是由语句1的描述词语构成语句1在生成的日记文本中出现的概率为54%,而由语句2的描述词语构成语句2在生成的日记文本中出现的概率为30%,则选择与在生成的日记文本中出现的概率最高的语句1进行匹配,获取匹配后的语句。
根据本发明实施例提供的一种语句生成装置,可以根据终端的各种数据信息自动生成语句,用语句完整地描述在终端上发生的活动或事件,方便用户通过终端对这些活动或事件进行自动记录。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种语句生成方法,其特征在于,包括:
收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作信息和所述终端从外部接口接收到的信息中的至少一种;
确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分;
具体地,所述收集终端的至少一个数据信息,包括:
采集终端的至少一个数据信息;
检测所述至少一个数据信息的来源;
根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息;
所述确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分,包括:
针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语;
根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分;
所述方法还包括:
针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语;
根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
2.如权利要求1所述的方法,其特征在于,所述根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句,包括:
根据确定的所述至少一个数据信息在待组成语句中的句子成分的类型,从句法结构库中选择包含所述至少一个数据信息的句子成分的类型的语句结构;
按照所述至少一个数据信息的句子成分在所述语句结构中的位置,将选择的与所述至少一个格式化后的数据信息匹配的描述词语组成语句。
3.如权利要求1所述的方法,其特征在于,所述根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句,包括:
根据确定的所述至少一个数据信息在待组成语句中的句子成分,将选择的与所述至少一个格式化后的数据信息匹配的描述词语与语句模型库中的语句进行匹配;
获取所述匹配后的语句。
4.一种语句生成装置,其特征在于,包括:
收集单元,用于收集终端的至少一个数据信息,其中,所述数据信息包括所述终端的运行信息、所述终端的操作的信息和所述终端从外部接口接收到的信息中的至少一种;
确定单元,用于确定所述至少一个数据信息的每个数据信息在待组成语句中的句子成分;
具体地,所述收集单元包括:
采集子单元,用于采集终端的至少一个数据信息;
检测子单元,用于检测所述至少一个数据信息的来源;
格式化子单元,用于根据所述至少一个数据信息的来源,按照与所述来源对应的格式,将所述至少一个数据信息进行格式化,获得至少一个格式化后的数据信息;
所述确定单元包括:
查找子单元,用于针对每个所述格式化后的数据信息,从数据库中查找与所述格式化后的数据信息匹配的至少一个描述词语;
确定子单元,用于根据与所述格式化后的数据信息匹配的至少一个描述词语,确定每个所述格式化后的数据信息在待组成语句中的句子成分;
所述装置还包括:
选择单元,用于针对每个格式化后的数据信息,根据与所述格式化后的数据信息匹配的所述至少一个描述词语在所述数据库中使用的概率,从与所述格式化后的数据信息匹配的所述至少一个描述词语中选择一个描述词语;
组成单元,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将所述至少一个数据信息组成语句。
5.如权利要求4所述的装置,其特征在于,所述组成单元包括:
选择子单元,用于根据所述至少一个数据信息的句子成分的类型,从句法结构库中选择包含所述至少一个数据信息的句子成分的类型的语句结构;
组成子单元,用于按照所述至少一个数据信息的句子成分在所述语句结构中的位置,将选择的与所述至少一个格式化后的数据信息匹配的描述词语组成语句。
6.如权利要求4所述的装置,其特征在于,所述组成单元包括:
匹配子单元,用于根据确定的所述至少一个数据信息在待组成语句中的句子成分,将选择的与所述至少一个格式化后的数据信息匹配的描述词语与语句模型库中的语句进行匹配;
获取子单元,用于获取所述匹配后的语句。
CN201310440040.3A 2013-09-24 2013-09-24 一种语句生成方法及装置 Active CN104462145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310440040.3A CN104462145B (zh) 2013-09-24 2013-09-24 一种语句生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310440040.3A CN104462145B (zh) 2013-09-24 2013-09-24 一种语句生成方法及装置

Publications (2)

Publication Number Publication Date
CN104462145A CN104462145A (zh) 2015-03-25
CN104462145B true CN104462145B (zh) 2018-04-10

Family

ID=52908200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310440040.3A Active CN104462145B (zh) 2013-09-24 2013-09-24 一种语句生成方法及装置

Country Status (1)

Country Link
CN (1) CN104462145B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484038A (zh) * 2017-08-22 2017-12-15 北京奇艺世纪科技有限公司 一种视频主题的生成方法、装置及电子设备
CN110399499B (zh) * 2019-07-18 2022-02-18 珠海格力电器股份有限公司 一种语料生成方法、装置、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118182A (zh) * 2013-01-17 2013-05-22 广东欧珀移动通信有限公司 记录移动终端的应用日记的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172490A (ja) * 2005-12-26 2007-07-05 Sony Computer Entertainment Inc 情報処理方法、情報処理システム、およびサーバ

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118182A (zh) * 2013-01-17 2013-05-22 广东欧珀移动通信有限公司 记录移动终端的应用日记的方法及装置

Also Published As

Publication number Publication date
CN104462145A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN105224586B (zh) 从先前会话检索情境
CN109522419B (zh) 会话信息补全方法及装置
JP6689515B2 (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
Musaev et al. LITMUS: a multi-service composition system for landslide detection
CN107589855B (zh) 一种根据地理位置推荐候选词的方法和装置
CN103760991B (zh) 一种实体输入方法和装置
CN102708453B (zh) 提供终端故障解决方案的方法及装置
WO2017036047A1 (zh) 信息提取方法和信息提取装置
CN106302933B (zh) 通话语音信息处理方法及终端
CN108011928A (zh) 一种信息推送方法、终端设备及计算机可读介质
KR102144868B1 (ko) 통화 기록 제공 장치 및 방법
WO2010148803A1 (zh) 一种提高移动门户网站动态页面访问速度的方法和装置
CN103249034A (zh) 一种获取联系人信息的方法和装置
EP3607469A1 (en) Automatic narrative creation for captured content
WO2013047163A1 (ja) 情報処理システム、情報処理方法、情報処理プログラム、および情報処理装置
CN106843817A (zh) 一种移动终端桌面组件的智能显示方法及装置
EP2908562B1 (en) Address book information service system, and method and device for address book information service therein
CN103488525A (zh) 确定与情景相关的用户偏好
CN104462145B (zh) 一种语句生成方法及装置
CN102902711A (zh) 一种语用关键词通用模板的生成、应用方法与装置
CN103024124A (zh) 一种通讯录查找方法及装置
CN113422862B (zh) 一种陌生号码自动标记方法、***、终端及存储介质
CN104978366A (zh) 基于移动终端的语音数据索引建立方法和***
CN106446270A (zh) 一种分类方法及装置
CN102799611B (zh) 邮箱索引建立方法及***、邮箱搜索方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant