CN104285428A

CN104285428A - 用于运行通信服务的方法和***

Info

Publication number: CN104285428A
Application number: CN201380024592.4A
Authority: CN
Inventors: 姜相机; 高祯完; 孔冀春; 金炅泰; 李相勋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-05-08
Filing date: 2013-05-07
Publication date: 2015-01-14
Anticipated expiration: 2033-05-07
Also published as: KR101907406B1; KR20130125057A; EP2663064A3; CN104285428B; US9344878B2; EP2663064A2; EP2663064B1; WO2013168970A1; US20130304457A1

Abstract

本发明提供了一种能够根据设置或用户操作来自适应地运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个的操作方法及其***。所述方法包括：由发送侧终端向接收侧终端请求特定类型的通信服务连接，并在接收侧终端与发送侧终端之间执行提供基于语音识别的文本的语音转文本服务和将文本转换为语音数据的文本转语音服务中的至少一个的操作，并且所述方法包括基于支持连接到发送侧终端的第一语音处理支持装置来进行以下步骤中的一个步骤：识别从发送侧终端提供的语音数据和将语音数据转换为文本。

Description

用于运行通信服务的方法和***

技术领域

本发明涉及一种终端的通信服务操作。更具体地讲，本发明涉及一种运行能够通过操作语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务来自适应地传送信息的通信服务的方法及其***，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据。

背景技术

因为便携式终端支持特定用户功能并且其尺寸较小以便允许用户携带便携式终端，所以便携式终端在很多工业和生活领域得到重视。此外，在这些年，整体支持各种用户功能的便携式终端已被引入。这样的便携式终端在支持用户功能的同时通过显示单元提供与所述用户功能相应的屏幕。因此，用户使用特定用户功能通过根据相应功能的操作的屏幕来消费内容项。

同时，便携式终端可与另一终端执行语音通话、字符通话和图像通话。为此，便携式终端输入另一终端的电话号码并随后从语音通话、字符通话和图像通话选择一种通信服务。如果终端用户接受选择的通信服务，则便携式终端可使用选择的通信服务。

发明内容

技术问题

在这种情况下，当用户不接受针对选择的通信服务的连接时，相应的通信服务可能不会运行。这种状况可根据终端用户的当前状况而被不同的产生。例如，当用户位于对通话具有特定限制的场所或环境(例如，会议室、浴室或图书馆)时，便携式终端用户请求的通信服务可能不会运行。然而，因为便携式终端用户可能不了解其他终端的状况(例如，情境)，该用户持续尝试通话连接。这种状况会造成非常困扰的问题。此外，即使实现了通话连接，但根据终端用户的状况可能也不能频繁地执行正常通话。

解决方案

根据本发明的第一方面，该目标在于实现一种用于运行通信服务的***，所述***包括：发送侧终端，用于请求连接通信服务，并且用于在通信服务被连接之后根据预设输入/输出模式和用户确定的输入/输出模式中的至少一种输入/输出模式来转换接收数据或用户输入数据；接收侧终端，用于接收根据对连接通信服务的请求的通信服务连接接受请求，用于当通信服务连接接受请求被接受时使用预设输入/输出模式和用户确定的输入/输出模式中的所述至少一种输入/输入模式来启动通信服务，用于根据接收数据的类型和输入/输出模式来转换接收数据或用户输入数据或者通过将用户输入数据发送到用于转换用户输入数据的语音处理支持装置来接收经过转换的数据，用于显示与接收数据相应的转换数据以及用于发送与用户输入数据相应的转换数据；语音处理支持装置，用于将输入的语音数据转换为文本数据并用于输出经过转换的文本数据，或者用于将输入的文本数据转换为语音数据以输出经过转换的语音数据。

根据本发明的第二方面，该目标在于实现一种用于运行通信服务的方法，所述方法包括：接收通信服务连接请求；通过接受通信服务连接请求来形成通信路径；根据当输入/输出模式先前被设置时或当通信服务连接请求被接受时由用户确定的输入/输出模式来设置输入/输出模式；从另一方接收数据；根据接收到的数据的类型和输入/输出模式来转换接收到的数据，或者通过将接收到的数据发送到用于转换接收到的数据的语音处理支持装置来接收并显示经过转换的数据；接收用户输入数据；根据接收到的数据的类型和输入/输出模式来转换接收到的数据，或者通过将接收到的数据发送到用于转换接收到的数据的语音处理支持装置来接收经过转换的数据；以及将经过转换的数据发送到所述另一方。

根据本发明的另一方面，提供了一种用于运行通信服务的***。所述***包括：发送侧终端，用于请求连接通信服务，用于接收关于另一方的输入/输出模式的信息，用于在通信服务被连接之后，根据接收到的所述另一方的输入/输出模式来转换用户输入数据和从所述另一方接收到的数据，或者通过将数据发送到用于转换用户输入数据的语音处理支持装置来接收经过转换的数据，用于输出与接收到的数据相应的转换数据以及用于发送与用户输入数据相应的转换数据；接收侧终端，用于接收根据对连接通信服务的请求的通信服务连接接受请求，用于当通信服务连接接受请求被接受时根据预设输入/输出模式或用户确定的输入/输出模式中的至少一种输入/输出模式来启动通信服务，用于将关于输入/输出模式的信息发送到发送侧，用于显示从发送侧接收到的转换数据以及用于发送用户输入数据；语音处理支持装置，用于提供将输入的语音数据提供为文本数据的STT服务和将文本转换为语音数据的TTS服务中的至少一种服务。

根据本发明的另一方面，提供了一种运行通信服务的方法。所述方法包括：发送通信服务连接请求；根据当输入/输出模式先前被设置时或者当通信服务连接请求被接受时用户确定的输入/输出模式来设置输入/输出模式；接收针对通信服务连接请求的接受以及关于另一方的输入/输出模式的信息；接收用户输入数据；根据接收到的用户输入数据的类型和输入/输出模式，转换接收到的用户输入数据，或者通过将接收到的数据发送到用于转换接收到的用户输入数据的语音处理支持装置来接收和发送经过转换的数据；从另一方接收数据；根据接收到的数据的类型和用户确定的输入/输出模式，转换接收到的数据，或者通过将数据发送到用于转换接收到的数据的语音处理支持装置来接收并显示经过转换的数据。

进一步的有利实施例在从属权利要求中被限定。

从以下结合附图公开本发明的示例性实施例的详细描述中，本发明的其他方面、优点和显著特征对于本领域技术人员而言将变得清楚。

有益效果

本发明的一方面在于提供一种能够根据设置或用户操作来自适应地运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一种服务的操作方法及其***。

附图说明

从以下结合附图的描述中，本发明的特定示例性实施例的目的、特征和优点将更加清楚，其中：

图1是示出根据本发明的示例性实施例的用于运行通信服务的***的配置的框图；

图2是示出根据本发明的示例性实施例的发送侧终端的配置和接收侧终端的配置(例如，图1的终端)的框图；

图3是示出根据本发明的第一示例性实施例的发送侧终端的第一控制器的配置的框图；

图4是示出根据本发明的第一示例性实施例的第一控制器的配置之中的第一语音转文本(STT)管理器的配置的框图；

图5是示出根据本发明的第一示例性实施例的第一控制器的配置之中的媒体同步器的配置的框图；

图6是示出根据本发明的第一示例性实施例的将文本与图像数据进行组合的过程的流程图；

图7是示出根据本发明的第一示例性实施例的第一控制器的配置之中的第一文本转语音(TTS)/STT确定器的配置的框图；

图8是示出根据本发明的第一示例性实施例的接收侧终端的第二控制器的配置的框图；

图9是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图；

图10是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图；

图11是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图；

图12是示出根据本发明的第一示例性实施例的接收侧终端的屏幕界面的示例的示图；

图13是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图；

图14是示出根据本发明的第二示例性实施例的发送侧终端的第一控制器的配置和接收侧终端的第二控制器的配置的框图；

图15是示出根据本发明的第二示例性实施例的用于通信服务的操作方法的信号流程图；

图16是示出根据本发明的第二示例性实施例的接收侧终端的屏幕界面的示例的示图；

图17是示出根据本发明的第三示例性实施例的发送侧终端的第一控制器的配置和接收侧终端的第二控制器的配置的框图；

图18是示出根据本发明的第三示例性实施例的用于通信服务的操作方法的信号流程图；

图19是示出根据本发明的第三示例性实施例的由接收侧终端运行通信服务的方法的流程图；

图20是示出根据本发明的示例性实施例的根据STT服务和TTS服务的同时运行的发送侧终端和接收侧终端的屏幕界面的示例的示图。

贯穿附图，应注意，相同的标号被用于描绘相同或相似的元件、特征和结构。

具体实施方式

提供参照附图的以下描述以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解，但是这些特定细节将被视为仅是示例性的。因此，本领域普通技术人员将认识到，可在不脱离本发明的范围的情况下对在此描述的实施例进行各种改变和修改。此外，为了清楚和简明，可省略公知功能和构造的描述。

在以下描述和权利要求中使用的术语和词语不限于书面含义，而是仅被发明人使用以使得本发明得以清楚和一致的理解。因此，本领域技术人员应该清楚的是，提供本发明的示例性实施例的以下描述仅是为了说明的目的，而不是为了限制由权利要求及其等同物限定的本发明的目的。

将理解，除非上下文另有清楚的指示，否则单数形式包括复数指示物。因此，例如，提到“组件表面”包括提到一个或更多个这样的表面。

根据本发明的示例性实施例，两个通信单元可使用各自的优选通信方法进行通信。例如，第一通信单元可优选使用语音通信进行通信，第二通信单元可优选使用文本通信进行通信。

根据本发明的示例性实施例，发送通信单元可对输入到该通信单元的数据执行处理以便将所述数据转换为接收通信单元优选的形式。例如，如果接收通信单元优选使用文本通信进行通信，则发送通信单元可对输入到发送通信单元的语音数据进行处理以便将语音数据转换为文本数据以发送到接收通信单元。

根据本发明的示例性实施例，接收通信单元可对从发送通信单元接收到的数据执行处理以便将所述数据转换为接收通信单元优选的形式。例如，如果接收通信单元优选使用文本通信进行通信，则接收通信单元可将从发送通信单元接收到的语音数据处理为文本数据。

根据本发明的示例性实施例，接收通信单元可在通信会话期间响应于初始通信而向发送通信单元提供关于接收通信单元优选进行通信的通信形式的指示。例如，在发送通信单元尝试呼叫接收通信单元进行语音通信的情况下，接收通信单元可能发送接收通信单元优选经由文本通信进行通信的指示。关于优选通信形式的指示可由在通信会话期间提供响应的通信形式确定。

根据本发明的示例性实施例，发送通信单元和接收通信单元中的一个可负责对通信数据进行可操作地处理以便向发送通信单元和接收通信单元提供优选通信形式。例如，如果发送通信单元优选使用语音通信进行通信并且接收通信单元优选使用文本通信进行通信，并且如果发送通信单元负责对通信数据进行可操作地处理，则发送通信单元可将输入到发送通信单元的语音数据可操作地处理为文本数据以发送到接收通信单元；发送通信单元可将从接收通信单元接收到的文本数据可操作地处理为语音数据以由发送通信单元使用。

根据本发明的示例性实施例，至少一个服务器可对通信数据进行处理以便为发送通信单元和接收通信单元中的至少一个提供优选通信形式的数据。根据本发明的示例性实施例，所述服务器可对所有的通信数据进行处理或者可对在发送通信单元与接收通信单元之间传送或将传送的通信数据的子集进行处理。例如，如果通信数据将从语音转换为文本，则服务器可将所有的通信数据从语音转换为文本，或者发送通信单元和接收通信单元中的一个可转换通信数据中的一部分，并可向服务器提供通信数据的另一部分以进行转换。作为示例，关于哪部分通信数据将被本地(例如，在各自的通信单元)处理(转换)以及哪部分通信数据将被远程(例如，在服务器)处理的确定可基于本地存储的数据库的范围(extent)、本地处理能力、处理通信数据的效率以及通信数据是否可被本地处理中的至少一个来进行，以便达到服务质量(QoS)阈值。

图1是示出根据本发明的示例性实施例的用于运行通信服务的***的配置的框图。

参照图1，用于运行通信服务的***10可包括发送侧终端100、通信***300、接收侧终端200、第一语音处理支持装置400和第二语音处理支持装置500。

当通信服务在发送侧终端100和接收侧终端200之间运行时，具有上述构造的根据本发明的示例性实施例的用于运行通信服务的***通过根据用户的选择或外部环境或终端的无线环境操作第一语音处理支持装置400和第二语音处理支持装置500来产生并发送收发数据的附加信息，使得适合于用户环境或状况的通信服务可被运行。所述附加信息可包括识别采集到的用户的语音信号的文本和通过将输入的文本转换为语音而获得的语音数据中的至少一个。

为此，发送侧终端100基于包交换***与接收侧终端200形成数据通信信道。在该过程中，***10可根据发送终端100用户的请求，接收终端200用户的请求、每个终端的设置、控制器关于周围环境的确定以及每个终端的网络状态中的至少一个来操作第一语音处理支持装置400和第二语音处理支持装置500中的至少一个。例如，发送侧终端100将请求形成数据通信信道的消息发送到接收侧终端200，从接收侧终端200接收对语音转文本(STT)服务操作的请求，并对所述请求进行操作，其中，所述STT服务操作提供通过识别语音信号而产生的文本。发送侧终端100根据用户的请求识别将被用户发送的语音并接收作为文本的发送，并且运行STT服务。发送侧终端100可基于预设安排信息根据控制器的请求来运行STT服务。在这种情况下，发送侧终端100可在采集到的语音数据到达接收侧终端200之前通过通信***300向第一语音处理支持装置400请求语音识别，或者可基于内部提供的语音识别数据库执行语音识别，并将语音转换为文本。

此外，发送侧终端100将根据语音识别而产生的文本作为基于图像通话而发送的图像数据的字幕发送到接收侧终端200。当没有将被发送的图像数据时，发送侧终端100可使用先前定义的图像产生字幕屏幕并将所述字幕屏幕提供给接收侧终端200。

发送侧终端100可在不执行针对采集到的语音数据的单独语音识别的情况下请求接收侧终端200。发送侧终端100识别采集到的语音信号并将所述语音信号转换为文本，在将经过转换的文本提供给接收侧终端200的同时将采集到的语音信号提供给接收侧终端200，使得语音识别可被另外地执行。

接收侧终端200通过通信***300与发送侧终端100形成通信信道。在该过程期间，接收侧终端200可基于包交换***与发送侧终端100形成数据通信信道。数据通信信道可包括能够收发用于支持各种通信服务信道(诸如图像通话服务信道、聊天服务信道和同时支持语音、图像和字幕的通话服务信道)中的至少一种服务信道的数据的信道。接收侧终端200可从发送侧终端100接收图像相关数据、语音相关数据和文本相关数据中的至少一种数据，并通过扬声器和显示单元中的至少一个来输出接收到的所述至少一种数据(例如，接收到的图像相关数据、接收到的语音相关数据和接收到的文本相关数据中的至少一种数据)。具体地讲，接收侧终端200接收与发送侧终端100采集到的语音信号相应的文本，并可将所述文本与图像一起输出到显示单元，并且可在不存在单独的图像输出的状态下通过单独产生的字幕屏幕来输出所述文本。同时，接收侧终端200可从发送侧终端100接收语音数据。在这种情况下，接收侧终端200根据终端设置或用户请求将相应的语音数据传送到第二语音处理支持装置500，使得语音识别可被执行。此外，接收侧终端200可将被语音识别出的文本输出到显示单元。当发送侧终端100将文本与语音数据一起发送到接收侧终端200时，发送侧终端100可将最新被语音识别出的文本和接收到的文本中的至少一个文本输出到显示单元。在这种情况下，接收侧终端200可单独提供被语音识别出的文本和接收到的文本。发送侧终端100和接收侧终端200可在使用第一语音处理支持装置400和第二语音处理支持装置500之一的过程期间对网络进行评估，并且根据网络状态在接收侧终端200的控制之下进行协作或执行，以选择性地运行第一语音处理支持装置400和第二语音处理支持装置500之一。

通信***300布置在发送侧终端100与接收侧终端200之间，并且进行支持使得通信信道形成在发送侧终端100与接收侧终端200之间。通信***300可根据发送侧终端100和接收侧终端200的装置特性而由各种类型的通信网络装置配置。具体地讲，通信***300可由能够收发包的包交换***来配置，以便支持基于语音识别的文本提供服务。如果必要，包交换***和线路交换***可被可兼容地或独立地配置。当发送侧终端100和接收侧终端200作为移动装置被提供时，通信***300可由移动通信***来建立以便支持终端的移动性。例如，通信***300可由支持各代(例如，2G、3G、4G、LTE等)通信***和通信方案的网络装置来配置。因此，可理解，根据本发明的示例性实施例的通信***300是可由能够将发送侧终端100采集到的音频、视频和文本发送到接收侧终端200的网络装置以及能够发送接收侧终端200产生的音频、视频和文本的网络装置配置的各种通信网络中的至少一种。

第一语音处理支持装置400根据发送侧终端100的请求识别从发送侧终端100提供的语音数据，并将被语音识别出的文本提供给发送侧终端100。第一语音处理支持装置400可由以下类型的装置或服务器中的至少一个来配置：以有线/无线方案直接连接到发送终端100的特定装置或转换服务器的类型、发送侧终端100可通过单独提供的接入点接入的转换服务器的类型、以及发送侧终端100通过通信***300接入的转换服务器的类型。例如，第一语音处理支持装置400可由发送侧终端100以有线方案连接到的单独的PC装置来配置。第一语音处理支持装置400可由发送侧终端100可按无线方案(诸如，例如通过Wi-Fi模块、近场无线通信模块等)接入的单独的服务器装置来配置。第一语音处理支持装置400可由可通过移动通信***和互联网网络接入的单独服务器的类型来提供。第一语音处理支持装置400基于巨大的语音识别数据库支持整句形式的语音识别，并可提供相对快速的语音识别处理速率和较高的语音识别可靠性。

同时，第一语音处理支持装置400可支持终端之间的TTS服务。为此，第一语音处理支持装置400包括用于将传送的文本转换为语音数据的数据库，并可基于所述数据库为发送侧终端100提供针对传送的文本的语音数据转换和传送。当用于运行通信服务的***支持TTS服务时，如果先前存储在发送侧终端100中的数据库被设计为将被使用，则第一语音处理支持装置400可不包括用于支持TTS服务的数据库。用于支持TTS服务的语音处理支持装置可由第一语音处理支持装置400和单独的服务器装置来配置。

与第一语音处理支持装置400类似，第二语音处理支持装置500可基于巨大的语音识别数据库提供相对快速的语音识别处理速率和较高的语音识别可靠性。第二语音处理支持装置500可与接收侧终端200形成通信信道，并可由以下装置中的至少一个来配置：按有线/无线方案连接到接收侧终端200的装置、通过单独提供的无线接入点连接到接收侧终端200的转换服务器装置、通过单独提供的移动通信***连接到接收侧终端200的转换服务器装置、通过单独提供的互联网网络连接到接收侧终端200的转换服务器装置、以及通过可兼容地使用多种通信方案而连接的转换服务器装置。第二语音处理支持装置500可识别从接收侧终端200提供的语音数据并可将识别出的语音数据转换为文本，并且可将所述文本提供给接收侧终端200。从接收侧终端200提供的语音数据可包括从发送侧终端100接收的语音数据和由接收侧终端200采集到的语音数据中的至少一个。

第二语音处理支持装置500可包括支持将传送的数据转换为语音数据以支持接收侧终端200的TTS服务的数据库。如果文本与对TTS服务的支持请求一起从接收侧终端200被接收，则第二语音处理支持装置500可产生与所述文本相应的语音数据并将所述语音数据提供给接收侧终端200。当用于运行通信服务的***支持TTS服务时，如果先前存储在接收侧终端200中的数据库被设计为将被使用，则第二语音处理支持装置500可不包括用于支持TTS服务的数据库。用于支持TTS服务的语音处理支持装置可由第二语音处理支持装置500和单独的服务器装置来配置。

如上所述，用于运行通信服务的***10使用语音识别功能将语音信号转换为文本，使得用户可根据终端用户的状况(例如，情境)来使用合适的通信服务环境。在下文中，将参照附图详细描述用于运行前述各种服务的***的操作示例。

图2是示出根据本发明的示例性实施例的发送侧终端的配置和接收侧终端的配置(例如，图1的终端)的框图。

参照图2，发送侧终端100被示出，其中，发送侧终端100使用第一语音处理支持装置400将语音信号转换为文本并将所述文本发送到接收侧终端200。图2的示例可在控制器的控制下根据接收侧终端200的请求或接收侧终端200的噪声评估来执行，或者根据发送侧终端100的安排信息来执行，或者根据发送侧终端100的外部环境或网络评估来执行。将参照以下附图描述各个情况。在下文中，发送侧终端100的配置和接收侧终端200的配置被单独示出和说明。然而，本发明的示例性实施例不限于此。例如，当发送侧终端100与接收侧终端200一起使用通信服务时，发送侧终端100可用作接收侧终端，并且接收侧终端可用作发送侧终端。结果，在下文中，发送侧终端100和接收侧终端200的配置可被组合为一个通信终端。因此，在下文中，可理解，当接收侧终端200执行发送功能时可包括发送侧终端100的配置。可理解，当发送侧终端100执行接收功能时可包括接收侧终端200的配置。

为了运行根据本发明的第一示例性实施例的通信服务，发送侧终端100可包括第一通信单元110、第一输入单元120、第一麦克风131、第一扬声器133、第一显示单元140、第一存储器150、第一控制器160和第一相机170。

具有上述构造的发送侧终端100支持操作第一语音处理支持装置400以将采集到的语音信号转换为文本并将所述文本发送到接收侧终端200的STT服务。为此，发送侧终端100可根据菜单选择、预设安排信息、接收侧终端200的请求、外部环境或网络评估的变化来确认用户输入信号，并且识别第一麦克风131采集到的语音信号并将识别出的语音信号转换为文本。发送侧终端100可包括各种传感器(例如，加速度传感器、照明传感器、温度传感器、陀螺仪传感器、位置信息采集传感器等)，以便确认外部环境的变化。此外，发送侧终端100可进行控制，使得语音数据基于内部提供的语音识别数据库被识别出。发送侧终端100可支持将用户输入的字符信息转换为语音并将所述语音发送到接收侧终端200的TTS服务。发送侧终端100可在使用聊天服务和图像通话服务的过程期间提供前述STT服务和TTS服务中的至少一种服务。由发送侧终端100与接收侧终端200形成的聊天服务可根据用户的选择、先前的安排信息或控制器的控制，包括支持语音、图像和字幕收发功能以及文本收发功能中的至少一个的服务。

为此，第一通信单元110可通过通信***300与接收侧终端200形成数据通信信道。第一通信单元110可根据发送侧终端100的装置特性而由支持各种类型的通信方案的通信模块来配置。例如，第一通信单元110可由各种通信模块(诸如支持移动通信模块、Wi-Fi的通信模块(诸如2G、3G、4G等))来配置。具体地讲，第一通信单元110可与接收侧终端200形成根据本发明的示例性实施例的用于文本转录的基于语音识别的数据通信信道。在这种情况下，形成的通信信道可发送语音、图像、从第一单元120输入的字符以及通过语音识别产生的文本中的至少一个。此外，数据通信信道可发送通过将从输入单元120输入的字符转换为语音而获得的信息。

同时，在与接收侧终端200的用于聊天服务或图像通话服务的数据通信信道被基础形成的状态下，第一通信单元110还可发送通过前述语音识别产生的文本中的至少一个。当发送侧终端100执行接收侧终端的功能时，第一通信单元110可采集用于评估网络的信号。第一通信单元110在支持与接收侧终端200的通信服务的过程中可支持单向或双向的各个通信服务。详细地讲，第一通信单元110与接收侧终端200形成双向的信道服务信道和图像通话服务信道，其中，在所述信道服务信道和图像通话服务信道中，语音服务信道和语音识别文本提供服务信道可根据用户的选择或终端设置而仅在一个方向上被执行。将参照以下附图详细描述每个服务信道的方向性。

第一输入单元120产生操作发送侧终端200所必需的各种输入信号。第一输入单元120可以以特定键(诸如按钮键、侧键和归位键)或用于支持全触摸屏的触摸图的形式来提供。触摸图显示在第一显示单元140上，并可根据用户触摸产生输入信号。第一输入单元120可根据用户控制，在特定通信服务的运行期间产生用于与接收侧终端200的通信服务连接的输入信号、用于运行所连接的通信服务的输入信号、用于输入字符的输入信号以及用于指示其他通信服务激活的输入信号。产生的输入信号被传送到第一控制器160，使得根据输入信号的功能可被执行。

第一麦克风131根据发送侧终端100的功能操作被激活并采集外部音频信号(具体地，语音信号)。由第一麦克风131采集到的语音信号被传送到第一控制器160，使得语音根据控制器160的控制被识别出并且识别出的语音被转换为文本，所述文本按照采集的形式被编码并被传送到接收侧终端200。

第一扬声器133输出发送侧终端100的音频信号。第一扬声器133可输出根据存储在发送侧终端100中的音频文件的重放的音频数据和根据从外部服务器或其他终端接收到的音频文件的重放的音频数据。具体地，扬声器133可输出从接收侧终端200提供的音频数据。当字符或视频信号从接收侧终端200被发送时，第一扬声器133可输出相应的警告声音或指导声音。根据本发明的示例性实施例的第一扬声器133可输出用于报告通过识别由第一麦克风131采集到的语音信号而产生的文本的发送的警告声音、用于报告从接收侧终端200提供的文本的接收的警告声音、以及与根据来自接收侧终端200的TTS服务的请求而接收到的文本相应的指导声音。

第一相机170布置在发送侧终端100一侧并采集对象的图像。从第一相机170采集到的图像可被传送到第一控制器160。第一控制器160可将根据当前激活的功能和用户控制而采集到的图像存储在存储器150中，或将所述图像发送到接收侧终端200。具体地讲，第一相机170可采集操作与接收侧终端200的图像通话所必要的图像。第一相机170作为一个构造被示出并被说明，但用于捕捉照片的相机和用于捕捉用于图像通话的图像的相机可被单独提供。

第一显示单元140提供操作发送侧终端100所必需的各种屏幕界面。第一显示单元140可包括用于支持触摸功能的触摸面板和显示面板。第一显示单元140可根据与接收侧终端200的通信服务的类型来提供相应的屏幕或组合屏幕。例如，第一显示单元140可根据每种通信服务的操作而单独输出与接收终端200的聊天服务支持屏幕、语音服务支持屏幕、字符服务支持屏幕、基于语音识别的字幕服务支持屏幕和图像通话服务支持屏幕中的至少一个。

第一显示单元140可提供前述屏幕中的至少一个的组合。例如，第一显示单元140可在支持基于聊天服务支持屏幕的语音服务的同时在屏幕的一侧输出指示语音服务正被支持的图像或文本。第一显示单元140可在聊天服务支持屏幕的输出期间输出用于支持图像通话服务的图像显示区域，并在一侧输出被语音识别出的文本。显示单元140可在输出聊天服务支持屏幕期间输出图像显示区域以及文本或字幕，并可在屏幕的一侧输出指示语音服务正被支持的图像或文本。

此外，第一显示单元140可提供菜单屏幕，使得用户可从前述各种通信服务选择至少一种通信服务。此外，第一显示单元140可输出使用户识别出根据外部环境或网络评估而自动运行特定通信服务的状况的屏幕信息、用于建议操作特定类型的通信服务的屏幕信息、以及指导根据用户的选择运行通信服务的屏幕信息。从第一显示单元140提供的各个屏幕根据装置的显示区域的尺寸而具有各种格式。具体地讲，在基于便携式的装置中，第一显示单元140可使各种信息重叠并对页面进行转换，以便在有限的显示区域上输出信息。

第一存储器150可存储操作发送侧终端100所必需的操作***以及用于支持从发送侧终端100提供的功能的应用程序。具体地讲，第一存储器150可存储用于支持根据本发明的示例性实施例的通信服务的操作的通信服务操作程序151、用于支持内部语音识别的语音识别数据库153、用于支持TTS服务的语音转换数据库155和用于评估外部环境和网络的参考值157。

通信服务操作程序151包括运行操作根据本发明的示例性实施例的通信服务的各种例程。例如，通信服务操作程序151可包括用于与接收侧终端200形成聊天服务信道并对所述聊天服务信道进行操作的例程、用于形成并操作语音服务信道的例程、用于形成并操作字符服务信道的例程以及用于形成并操作图像通话服务信道的例程。具体地讲，通信服务操作程序151可包括用于转换基于语音识别的文本以输出字符或字幕的例程以及用于将经过转换的文本发送到接收侧终端200的例程。通信服务操作程序151还可包括用于识别从接收侧终端200接收到的语音信号、用于将所述语音信号转换为文本并用于输出所述文本的例程、以及用于将接收到的文本转换为语音并输出所述语音的例程。此外，通信服务操作程序151可包括用于使用传感器确认外部环境、用于根据相应的环境自动激活特定通信服务或允许用户选择特定通信服务的例程、以及用于评估网络或外部环境(诸如噪声)并用于根据评估结果确定是由发送侧执行语音识别还是将语音识别传送到接收侧的例程。将被发送侧处理的例程还可包括用于确定是使用发送侧终端100可访问的第一语音处理支持装置400还是基于内部语音识别数据库来对语音识别进行处理并根据确定结果来对语音识别进行处理的例程。当确定接收侧终端200对语音识别进行处理时，接收侧终端200可确定是使用第二语音处理支持装置500还是基于内部语音识别数据库对语音识别进行处理。

在发送侧终端100不使用第一语音处理支持装置400或者同时使用第一语音处理支持装置400来执行语音识别时，语音识别数据库153内部支持语音识别功能。与第一语音处理支持装置400相比，语音识别数据库153关于语音识别结果可能提供较低的可靠度和低计算速率，但是可对用户支持特定类型的语音识别功能。例如，存储在语音识别数据库153中的语音识别数据库153可包括通过识别用户输入的语音信号和通过将语音信号存储为文本与具有特定模式的用户语音信号相应的历史的结果。因此，与各种终端访问的且请求语音识别的第一语音处理支持装置400不同，内部存储的语音识别数据库153可对用户支持特定类型的语音识别功能。因此，语音识别数据库153可根据采集到的语音信号提供具有与从第一语音处理支持装置400提供的语音识别结果相似的可靠度和准确性的结果，并可提供快速语音识别结果。为此，语音识别数据库153可在控制器160的控制下提供学习功能。学习功能可以是当诸如校正的输入被产生时记录输入以在之后反映语音识别结果的功能，使得通过特定语音识别结果调整的事件在针对用户输入的语音信号匹配特定语音识别结果的过程期间被产生。学习功能可通过重复前述过程增加针对用户输入的语音信号的语音识别结果的准确度。

语音转换数据库155包括用于将作为字符或文本输入的转换词语、短语、后置词或句子转换为语音信号的语音。语音转换数据库155可被用于支持TTS服务。在用于支持TTS服务的模式被激活的状态下，如果用于字符输入的输入信号在第一输入单元120和包括第一显示单元140的输入工具(诸如键图)中被产生，则语音转换数据库155被第一控制器160调用并可提供针对相应字符的语音数据。所提供的语音数据可被第一控制器160发送到另一终端。

参考值157可以是用于评估外部环境和网络的参考值。例如，用于评估网络的参考值可以是用于识别网络的延迟的值。此外，用于评估外部环境的参考值可包括由第一麦克风131采集到的音频信号的噪声信号的分贝度和频率度中的至少一个。为了从第一麦克风131采集到的音频信号分离出噪声信号，滤波过程可被执行。除了先前定义的用户语音信号的频带以外的信号被确定为噪声信号，使得噪声信号可被确认。此外，参考值157可包括用于评估外部环境的特定位置(例如，图书馆的位置信息)和用于区分日夜的照明信息。因为时间信息和照明信息可被用于区分日夜，所以用于区分日夜的参考值157可包括照明信息和时间信息。参考值157可包括关于发送侧终端100将与第一语音处理支持装置400形成的接收状态信息的参考值。例如，参考值157可包括先前定义的针对发送侧终端100与第一语音处理支持装置400之间的数据传输延迟程度和丢包率的参考值。

第一控制器160提供各种功率并控制操作根据本发明的示例性实施例的发送侧终端100所必需的各种信号。具体地讲，第一控制器160可控制信号和数据的传送以支持根据本发明的示例性实施例的通信服务的操作。为此，第一控制器160可包括图3中示出的组成元件。

图3是示出根据本发明的第一示例性实施例的发送侧终端的第一控制器的配置的框图。

参照图3，第一控制器160可包括第一网络打包(packing)/解包(unpacking)支持器161、第一网络监控器162、第一TTS/STT确定器163、第一STT管理器164、第一TTS管理器165、媒体同步器166、第一语音处理器167、第一文本处理器168和第一视频处理器169。

语音处理器167对麦克风131采集到的语音信号进行处理以产生语音数据。例如，第一语音处理器167可以是用于处理语音信号的编码器。由语音处理器167处理的语音数据可被传送到第一STT管理器164。

文本处理器168将从输入单元120和具有输入功能的显示单元140输入的信号转换为字符。来自文本处理器168的转换得到的字符可被传送到第一TTS管理器165。

第一视频处理器169控制根据与接收侧终端200形成的通信服务信道激活第一相机170。例如，当与接收侧终端200运行图像通话服务时，第一视频处理器169被激活并控制第一相机170和对采集到的图像的处理。第一视频处理器169可将第一相机170采集到的图像传送到媒体同步器166，使得图像可被传送到接收侧终端200。

第一STT管理器164控制发送侧终端100的语音识别功能。第一STT管理器164从第一语音处理器167识别语音数据，并将所述语音数据转换为文本。在这种情况下，STT管理器164可实时或以预定周期将语音数据从第一语音处理器167传送到第一语音处理支持装置400。第一STT管理器164可根据控制，基于存储在第一存储器150中的语音识别数据库153执行语音识别。第一STT管理器164可根据控制，通过使用第一语音处理支持装置400的语音识别与使用语音识别数据库153的语音识别的组合，将语音数据转换为文本。在该过程中，第一STT管理器164可基于来自第一语音处理支持装置400的文本，执行语音识别数据库的学习功能。例如，第一STT管理器164将语音识别数据库153的识别结果与从第一语音处理支持装置400接收到的文本进行比较以校正错误，并且基于从第一语音处理支持装置400接收到的文本来更新针对相应语音信号的信息。由第一STT管理器164处理的文本可被传送到媒体同步器166和第一网络打包/解包支持器161中的至少一个。同时，第一STT管理器164可在第一TTS/STT确定器163的控制下支持语音识别功能。第一STT管理器174可包括如图4中所示的组成元件。

图4是示出根据本发明的第一示例性实施例的第一控制器的配置之中的第一STT管理器的配置的框图。

参照图4，第一STT管理器164可包括ARS控制器41和内部ASR处理器，提供该缩写处理器43的全文本。ASR控制器41控制对发送侧终端100的第一语音处理支持装置400的使用。如果用于使用第一语音处理支持装置400的控制信号从第一TTS/STT确定器163被传送，则ARS控制器41将语音数据从第一语音处理器167发送到第一语音处理支持装置400，使得语音识别可被控制。为此，ASR控制器41可控制第一通信单元110与第一语音处理支持装置400形成通信信道，并可将语音数据从第一语音处理器167传送到第一语音处理支持装置400。在这种情况下，ARS控制器41可进行控制，使得在必要的情况下语音数据通过移动通信***被传送到第一语音处理支持装置400。当接收到针对从第一语音处理支持装置400提供的语音数据的文本时，ASR控制器41可进行控制，使得接收到的文本被传送到媒体同步器166。此外，ASR控制器41可进行控制，使得接收到的文本被传送到第一网络打包/解包支持器161。

同时，内部ARS处理器43可进行控制，使得根据***设计或在对第一语音处理支持装置400的访问不可行时，使用位于第一存储器150中的语音识别数据库153将语音数据转换为文本。当***的设计方案被设计为使用内部语音识别数据库153或者是对第一语音处理支持装置400的访问不可行时，内部ASR处理器43可基于存储在第一存储器150中的语音识别数据库153，识别语音数据并将识别出的语音数据转换为文本。当对第一语音处理支持装置400的访问不可行时，发送侧终端100不能与第一语音处理支持装置400正常形成通信信道的无线环境可能由于发送侧终端100与第一语音处理支持装置400之间的网络问题以及第一语音处理支持装置400的问题而被建立。同时，内部ASR处理器43可如ASR控制器41中一样将转换所得的文本传送到第一网络打包/解包支持器161和媒体同步器166。

第一STT管理器164可激活ASR控制器41和内部ASR处理器43两者。例如，当语音信号从第一麦克风131被传送并且第一语音处理器167将所述语音信号作为语音数据传送时，第一STT管理器164可对ASR控制器41和内部ASR处理器43两者进行操作，以便识别语音数据。第一STT管理器164可根据ASR控制器41和内部ASR处理器43的操作，将采集到的结果发送到接收侧终端200，或从采集到的结果选择至少一个并将选择的结果发送到接收侧终端200。

返回参照图3，第一STT管理器165将从第一文本处理器168提供的字符转换为语音。此外，第一TTS管理器165可在第一TTS/STT确定器163的控制下被激活，并控制字符到语音的转换。在这种情况下，第一TTS管理器165可根据因素单位、词语单位、短语单位、句子单位等中的至少一个来控制字符到语音的转换。来自第一TTS管理器165的转换的语音可被传送到媒体同步器166和第一网络打包/解包支持器161中的至少一个。同时，来自第一TTS管理器165的转换的语音不被传送到媒体同步器166，而是可通过第一网络打包/解包支持器161被发送到接收侧终端200。第一语音处理支持装置400提供用于将字符转换为语音的服务，并可被布置在发送侧终端100的外部。第一TTS管理器165可根据***设计者的意图，基于存储在第一存储器150中的语音转换数据库155将字符转换为语音。

媒体同步器166根据***的设计方案使采集到的信号同步。例如，媒体同步器166可在将由第一麦克风131采集到的语音信号转换为文本的过程期间，控制从第一视频处理器169提供的图像数据与被语音识别出的文本的同步、以及从第一语音处理器167提供的语音数据与被语音识别出的文本的同步中的至少一个。此外，媒体同步器166可控制将通过转换来自第一TTS管理器165的文本而获得的语音与从第一视频处理器169提供的屏幕进行同步。媒体同步器166的同步数据可被传送到第一打包/解包支持器161。媒体同步器166可包括图5中示出的组成元件。

图5是示出根据本发明的第一示例性实施例的第一控制器的配置之中的媒体同步器的配置的框图。

参照图5，媒体同步器166包括文本缓冲器61、图像转换器61、图像缓冲器63、组合控制器64、时间戳比较器65、图像缓冲器66和延迟单元67。媒体同步器166可选择性地包括图像重叠单元68。

文本缓冲器61对从第一STT管理器164提供的文本进行缓冲。在这种情况下，文本缓冲器61可将从STT管理器164提供的文本缓冲预定量。例如，文本缓冲器61可以以词语单位、短语单位、句子单位等中的一个来缓冲从第一STT管理器164提供的文本。文本缓冲器61对文本进行缓冲并在经过预设时间之后或在组合控制器64的控制下将相应的文本传送到图像转换器62。此外，文本缓冲器61向第一语音处理支持装置400请求文本缓冲和语音识别的时间信息，并将用于接收相应文本所花费的时间信息和用于基于语音识别数据库153将语音转换为文本所花费的时间信息中的至少一个传送到组合控制器64和时间戳比较器65。

图像转换器62将从文本缓冲器61提供的文本转换为图像或字幕，或者将所述文本***到特定图像。图像转换器62将接收到的文本转换为图像并将所述图像传送到图像缓冲器63。图像转换器62可将接收文本转换为字幕信息，并将字幕信息传送到图像缓冲器63。此外，图像转换器62将接收到的文本与由第一视频处理器169采集到的图像中的例如至少一些背景图像进行整合，以产生写有文本的图像，并将产生的图像传送到图像缓冲器63。图像转换器62可将接收到的文本写入透明层，并可将与透明层相应的图像传送到图像缓冲器63。

图像缓冲器63在发送从图像转换器62提供的文本相关图像之前进行缓冲。被图像缓冲器63缓冲的文本相关图像可被传送到第一网络打包/解包支持器161或图像重叠单元68。

组合控制器64控制被语音识别出的文本与将被发送到接收侧终端200的信息(例如，从第一视频处理器169提供的图像)的同步和发送。组合控制器64基于来自第一输入单元120和具有输入功能的第一显示单元140的语音识别，确定是否存在针对作为文本提供服务的STT服务的用户选项设置或默认设置。当相应设置被激活时，组合控制器64可控制图像转换器62将被语音识别出的文本转换为图像。组合控制器64可控制图像重叠单元68将文本相关图像与由第一视频处理器169采集到的图像重叠。例如，当根据本发明的示例性实施例的被语音识别出的文本的提供服务被去激活时，组合控制器64可在不单独地重叠文本相关图像的情况下，控制图像重叠单元68将由第一视频处理器169采集到的图像或者是根据用户设置或安排设置的图像发送到接收侧终端200。

时间戳比较器65将来自文本缓冲器61的用于对由第一麦克风131采集到的语音信号进行转换所花费的时间信息的时间戳与用于缓冲相应文本所花费的时间信息的时间戳进行比较。为此，发送侧终端100的第一控制器160可将时间戳分配给第一视频处理器169采集特定图像的时间点和第一麦克风131采集语音信号的时间点。结果，第一STT管理器164传送到媒体同步器166的被语音识别出的文本包括与所述文本相应的语音信号被采集到的时间戳信息。时间戳比较器65可接收针对从图像缓冲器66缓冲的图像的时间戳，并可控制延迟单元67，使得具有相同时间戳的信息彼此相应。

图像缓冲器66对第一视频处理器169处理的图像数据进行缓冲。图像缓冲器166接收到的图像数据可包括相应图像被采集到的时间点的时间戳信息。图像缓冲器66可将相应图像的时间戳信息传送到时间戳比较器65，并将缓冲的图像数据发送到延迟单元67。

延迟单元67在时间戳比较器65的控制下使从图像缓冲器66提供的图像数据延迟。因为第一视频处理器169通过图像缓冲器66处理的图像数据的传送速度可能大于被语音识别出的文本通过第一语音处理支持装置400的接收速度，所以延迟单元67可相应于相应时间差来延迟图像数据的传送。当来自文本缓冲器61的缓冲的文本与来自图像缓冲器66的缓冲的图像数据之间的时间戳的差等于或大于预设值时，延迟单元67释放图像数据的额外延迟，并将相应的图像数据传送到图像重叠单元68。因此，尽管缓冲的文本与缓冲的图像数据不同，但包括相同的文本相关图像的图像数据可被传送到接收侧终端200。当相同的文本相关图像必须被传送时，在组合控制器64的控制下，发送侧终端100可不传送相应的文本相关图像，而是可将包括指示相同文本相关图像必须被***的信息的相应图像数据传送到接收侧终端200。当相同的文本相关图像在组合控制器64的控制下必须被发送时，发送侧终端100在不提供单独的信息的情况下可不使文本相关图像重叠。

图像重叠单元68将从延迟单元67提供的图像数据与从图像缓冲器63提供的文本相关图像整合。在这种情况下，图像覆盖单元68可将文本相关图像覆盖在图像数据上，以便配置组合图像帧，并将组合图像帧传送到第一网络打包/解包服务器161。因此，组合图像帧可包括图像层和文本层。当文本相关图像被配上字幕时，图像重叠单元68可在图像数据中将图像写为字幕信息以配置图像帧，并可将相应的图像帧传送到第一网络打包/解包支持器161。图像重叠单元68可将文本相关图像与图像数据组合为一个图像。例如，图像重叠单元68可将文本相关图像区域分配给图像数据的预定区域，并由文本相关图像替换相应区域的图像数据或在图像数据区域上对图像数据进行处理，使得文本可被识别出，从而产生图像帧。图像重叠单元68可将组合图像帧传送到第一网络打包/解包支持器161。

本发明的前述示例性实施例已示出文本相关图像与图像数据组合并且组合数据被传送到第一打包/解包支持器161。然而，本发明的示例性实施例不限于此。例如，前述文本相关图像和图像数据的组合可由第一网络打包/解包支持器161来实现，并且各个数据可在无需单独组合的情况下被单独地发送到接收侧终端200。然后，接收侧终端200可控制第二显示单元240输出接收到的文本相关图像和图像数据。在这种情况下，接收侧终端200可接收时间戳信息以及文本相关图像和图像数据，并基于所述时间戳信息来控制文本相关图像和图像数据的同步。在这种情况下，可从发送侧终端100的配置省略图像重叠单元68的配置。

在下文中，将参照图6详细描述根据本发明的示例性实施例的媒体同步器166的操作。

图6是示出根据本发明的第一示例性实施例的将文本与图像数据进行组合的过程的流程图。

参照图6，在根据本发明的示例性实施例的发送侧终端100的媒体同步过程中，在步骤601，媒体同步器166可从第一视频处理器169接收图像帧。然后，在步骤603，组合控制器64可确定新的文本相关图像是否被产生。例如，图像转换器62将从第一STT管理器164提供的文本转换为图像帧。在该过程中，组合控制器64从文本缓冲器61接收至图像帧的转换并可执行步骤603。

当在步骤603产生了新的文本相关图像时，在步骤605，组合控制器64可重设先前布置的计时器(例如，设置t＝0)。在步骤607，组合控制器64可将用于将新的文本相关图像与图像数据进行组合的命令发送到图像重叠单元68。同时，组合控制器64可进行控制，使得存储在图像缓冲器63中的所述新的文本相关图像被发送到图像重叠单元68。接下来，在步骤609，组合控制器64增加计时器的时间t(例如，t←t+1)，并返回到步骤601。

当在步骤603未产生新的文本相关图像时，在步骤611，组合控制器64确定计时器的当前时间是否大于预设时间Ti。在计时器的当前时间大于所述预设时间Ti时，在步骤613，组合控制器64可进行控制，使得文本相关图像不与图像数据组合。例如，在新的文本相关图像针对图像数据被产生之前，组合控制器64可在预定时间期间将相同的文本相关图像与图像数据结合。当预定时间过去时，组合控制器64停止使用相应的文本相关图像，并进行控制使得所述相应文本相关图像从缓冲器被移除。接下来，组合控制器64进入步骤609并重复前述过程。

相反，在计时器的当前时间小于预设时间Ti时，组合控制器可进行到步骤607，其中，在步骤607中，组合控制器64可将用于将新的文本相关图像与图像数据进行组合的命令传送到图像重叠单元68。

如上所述，根据本发明的示例性实施例的发送侧终端100可将被语音识别出的文本转换为图像，并在将所述图像与图像数据进行组合的过程期间，在预定时间期间将同一文本相关图像与多个图像数据结合。在这种情况下，在新的文本相关图像被产生的情况下，如果预设文本输出最小时间过去，则通过将新的文本相关图像与新的图像数据进行组合，由于新产生的文本相关图像引起的信息可被快速传送。同时，尽管本发明的前述示例性实施例已示出第一视频处理器169处理并提供由第一相机170采集的图像，但存储在第一存储器150中的特定图像可替换第一相机170的图像信号，以便提供除了第一相机170采集到的图像以外的单独的文本相关图像。图像信号的替换功能可由不具有第一相机170的发送侧终端100来操作。尽管存在第一相机170，但是在第一相机170未被运行的状况下(例如，在图像通话未被执行的通信服务环境中)可使用图像信号的替换功能。

同时，返回参照图3，第一TTS/STT确定器163可根据用户选项、所测量的接收侧终端200周围的从接收侧终端200接收到的噪声值或第一网络监控器162的网络评估确定运行STT服务和TTS服务中的至少一个。为此，第一TTS/STT确定器163可从第一网络监控器162接收包括与网络评估相关联的丢包率和延迟程度的信息。此外，第一TTS/STT确定器163可从第一网络打包/解包支持器161接收从接收侧终端200提供的噪声信息。此外，第一TTS/STT确定器163可基于根据对发送侧终端100的外部环境的评估的信息来确定TTS服务和STT服务中的至少一个。根据对外部环境的评估的信息可包括由包括在发送侧终端100中的各种传感器和第一麦克风131采集到的以下信息中的至少一个：外部温度信息、外部照明信息、外部噪声信息、移动信息、位置信息。结果，第一TTS/STT确定器163可根据发送侧终端100所在的区域或时间、在外部检测到的噪声、移动速度或移动环境来确定TTS服务或STT服务的运行的存在。对服务的运行的存在的确定可基于从接收侧终端200提供的信息而被执行。

例如，尽管本发明的前述示例性实施例已示出接收侧终端200仅发送在外部检测到的噪声信息，但接收侧终端200包括各种传感器，并可采集位置信息、移动速度、移动方向和关于接收侧终端200的移动区域的信息、以及接收侧终端200所位于的区域的时间信息。当接收侧终端200采集到的信息超出为了运行预设TTS服务或STT服务而设置的参考值时，第一TTS/STT确定器163可基于前述信息和预设参考值来控制运行TTS服务或STT服务。参考值的比较可由第一TTS/STT确定器163来执行，但也可由接收侧终端200来执行。当参考值的比较由接收侧终端200来执行时，可根据对参考值的比较从接收侧终端200接收请求运行TTS服务或STT服务的消息。第一TTS/STT确定器163可包括如图7中示出的组成元件。

图7是示出根据本发明的第一示例性实施例的第一控制器的配置之中的第一TTS/STT确定器的配置的框图。

参照图7，第一TTS/STT确定器163可包括基础确定器31和最终确定器33。

基础确定器31可从第一输入单元120和具有输入功能的第一显示单元140接收发送侧终端100的通信服务选择信号，例如，根据本发明的示例性实施例的发送侧终端100的用户的语音通话选择信号或基于语音识别的文本提供服务选择信号。此外，基础确定器31可接收将在发送侧终端100的用户与接收侧终端200的用户之间通信的另一类型的通信服务，例如，选择图像通话服务或聊天服务的信号。此外，基础确定器31可对关于接收侧终端200的用户根据发送侧终端100的用户的通信服务连接请求而响应的通信服务的类型的信号进行确认。基础确定器31可根据各种选择信号确定将被发送侧终端100运行的通信服务的类型。确定的信息可被传送到最终确定器33。

最终确定器33基于从基础确定器31提供的信息和和其他信息，最终确定将被发送侧终端100运行的通信服务的类型。例如，最终确定器33可进行控制，使得根据其他信息而选择的通信服务的类型基于从基础确定器31提供的通信服务的类型的操作被转换为另一类型或者被限制。所述其他信息可包括以下信息中的至少一个：网络的丢包信息、具有网络的延迟信息的网络评估信息、从接收侧终端200提供的接收侧终端200的外部噪声信息、发送侧终端100的外部噪声信息等。网络评估信息可包括以下通信网络中的至少一个通信网络：发送侧终端100与接收侧终端200之间的通信网络、发送侧终端100与第一语音处理支持装置400之间的通信网络以及接收侧终端200与第二语音处理支持装置500之间的通信网络。最终确定器33基于前述信息在任何通信服务中提供类型。例如，最终确定器33可执行对STT服务的激活或去激活控制以及对TTS服务的激活或去激活控制中的至少一个。

返回参照图3，第一网络监控器162从第一网络打包/解包支持器161接收网络相关信息。网络监控器162可基于相应的网络相关信息来采集针对当前网络状态的信息。例如，第一网络监控器162可采集针对当前网络状态中的丢包率的信息、当前网络状态中的包传送延迟程度或传送速度。第一网络监控器162可将采集到的信息提供给第一TTS/STT确定器136。第一网络监控器162可通过第一网络打包/解包支持器161与接收侧终端200收发预设测试信号，以便采集前述信息。接下来，第一网络监控器162将接收到的测试信号与传送的测试信号进行比较以对网络进行评估。在这种情况下，第一网络监控器162可评估与接收侧终端200的网络以及与第一语音处理支持装置400的网络。从第一网络监控器162采集到的网络评估结果可被发送到接收侧终端200。此外，第一网络监控器162通过测试信号来替换在与接收侧终端200的通信服务信道形成之后收发的语音数据或图像数据，从而在不使用单独的测试信号的情况下对网络进行评估。

第一网络打包/解包支持器161可控制第一通信单元110的激活，并通过第一通信单元110与接收侧终端200形成特定通信服务信道。第一网络打包/解包支持器161可对从第一STT管理器164提供的语音数据、文本和被语音识别出的文本进行打包，并通过第一通信单元110将打包的数据传送到接收侧终端200。此外，第一网络打包/解包支持器161可对从第一TTS管理器165提供的文本以及通过转换所述文本而获得的语音数据进行打包，并将打包的文本或数据传送到接收侧终端200。网络打包/解包支持器161可对从媒体同步器66提供的图像帧进行打包。在这种情况下，由第一网络打包/解包支持器161打包的图像帧可根据当前提供的通信服务的类型，包括以下图像数据中的至少一个：由第一视频处理器169处理的图像数据和与从第一STT管理器提供的文本相关图像组合的图像数据。第一网络打包/解包支持器161执行对通过第一通信单元110从接收侧终端200接收到的信号进行解包的功能。例如，第一网络打包/解包支持器161可在从第一通信单元110接收到的数据之中确认接收侧终端200提供的噪声信息，并可将确认的噪声信息提供给第一TTS/STT确定器163。此外，第一网络打包/解包支持器161可确认从接收侧终端200提供的接收侧终端200的语音数据和文本，并可将所述语音数据和文本传送给第一TTS/STT确定器163。第一网络打包/解包支持器161可将预设测试信号传送到接收侧终端，或者可将从接收侧终端200提供的测试信号传送给第一网络监控器162，以便评估第一网络监控器162的网络。

如上所述，根据本发明的第一示例性实施例的发送侧终端100可根据用户请求、终端设置、外部环境信息或网络信息来自适应地运行STT服务和TTS服务中的至少一个服务。根据本发明的第一示例性实施例的发送侧终端100可支持基于图像通话服务屏幕和聊天服务屏幕的STT服务和TTS服务，使得与其他通信服务的合成操作是可行的。

返回参照图2，接收侧终端200可包括第二通信单元210、第二输入单元220、第二麦克风231、第二扬声器233、第二显示单元240、第二存储器250、第二显示单元240、第二控制器1260和第二相机270。

具有上述构造的接收侧终端200根据发送侧终端100的通信服务连接请求和与用户所确定的输入/输出模式相应的用户操作，连接相应的通信服务。用户确定的输入/输出模式可以是根据对运行STT服务和TTS服务中的至少一个的确定的模式。在这种情况下，接收侧终端200可根据来自对发送侧终端100的用户请求的特定通信服务方案来请求运行STT服务和TTS服务。例如，当发送侧终端100请求语音通话服务连接时，接收侧终端200可请求发送侧终端100使得发送侧终端100使用作为接收功能的基于语音识别的文本服务，并使用作为发送功能的发送服务或TTS服务。接下来，当发送侧终端100接受相应的请求时，接收侧终端200可基于请求的方案，支持通话服务所必需的数据处理和收发。

为此，第二通信单元210可与发送侧终端100的第一通信单元110形成通信信道。第二通信单元210可包括等同于第一通信单元110的通信模块和能够与第一通信单元110形成通信信道的通信模块。例如，第二通信单元210可以是移动通信模块。在这种情况下，第二通信单元210可通过基站与第一通信单元110形成通信信道。由第二通信单元210形成的通信信道可包括通过将文本相关图像与支持语音通话服务信道、图像通话服务信道和字符服务信道的图像数据进行组合而获得的服务支持信道。第二通信单元210可与第一通信单元110形成聊天服务信道。第二通信单元210还可将上述语音通话服务信道、图像通话服务信道、字符服务信道中的至少一个信道与聊天服务信道的信息一起形成，或者是基于聊天服务信道收发语音数据、图像数据和文本中的至少一个。第二通信单元210可基于图像通话服务信道形成用于支持将语音数据输出为文本的STT服务的信道。

第二输入单元220产生操作接收侧终端200所必需的输入信号。第二输入单元220可包括各种键，诸如键按钮、侧键、菜单键、归位键等。第二输入单元220可被设置为包括触摸面板和显示在显示面板上的触摸图的第二显示单元240。当接收到通信服务连接请求时，第二输入单元220产生用于拒绝或接受相应通信服务连接的输入信号、用于运行发送侧终端100根据响应于所述接受的通信服务的连接所请求的通信服务的输入信号、根据用户设置或控制器260的控制请求除发送侧终端100所请求的通信服务方案以外的方案的通信服务连接的输入信号、以及用于根据用户控制基于选择的其他方案的通信服务的连接来运行相应的通信服务的输入信号。通信服务方案可包括STT服务支持方案和TTS服务支持方案中的至少一个方案，STT服务和TTS服务可与各种通信方案(诸如语音通话、图像通话和聊天)一起被执行。此外，第二输入单元220可根据用户控制产生用于通信服务连接释放或终止的输入信号。

第二麦克风231采集接收侧终端200的音频信号。第二麦克风231可采集接收侧终端200用户的语音信号，并将所述语音信号传送到第二控制器260。同时，第二麦克风231可在第二控制器260的控制之下采集和传送外部音频信号，以便采集噪声信息。在语音通话服务正被运行的同时，第二麦克风231可被激活。如上所述，为了采集噪声信息，尽管单独的语音通话服务未被运行，但第二麦克风231可被激活并在预设时间期间采集接收侧终端200的外部音频信号。当聊天服务信道和图像通话服务信道中的至少一个***作时，第二麦克风231可被激活以便更进一步地支持语音通话服务，或执行基于语音识别的文本提供服务。

第二扬声器233输出接收侧终端200的音频信号。第二扬声器233可支持根据接收侧终端200的音频文件的重放的音频信号的输出，并支持第二通信单元210接收的音频信号的输出。具体地讲，当特定通信服务被运行时，第二扬声器233在第二控制器260的控制下被激活，并输出音频信号。第二扬声器233可根据对特定通信服务的选择来输出音频信号。例如，当运行与发送侧终端100的语音通话服务或图像通话服务时，第二扬声器233被激活并输出从发送侧终端100提供的音频信号。在操作与发送侧终端100的基于语音识别的文本提供服务的功能的同时，即使图像通话服务被运行，第二扬声器233也可停止输出单独的音频信号。此外，当TTS服务正被支持时，第二扬声器233可输出与发送侧终端100的用户输入的文本相应的语音信号。

第二相机270支持接收侧终端200的图像通话服务，以采集对象的图像。为此，第二相机270可包括用于支持图像通话服务的相机和用于采集对象的图像的相机。同时，第二相机270可根据接收侧终端200的用户对通信服务的选择而被激活。第二相机270采集到的图像可通过第二通信单元210被发送到发送侧终端100。当接收侧终端不支持单独的图像通话服务时，相机270可被省略。

第二存储器250可包括操作接收侧终端200所必需的各种应用程序和用于支持基础操作的操作***。第二存储器250可包括存储在第一存储器150中的各种组成元件，例如，与发送侧终端类似的语音识别数据库、语音转换数据库和参考值。具体地讲，第二存储器250可存储与第一存储器150中的语音识别数据库153相同或不同的单独语音识别数据库。存储在第二存储器250中的语音识别数据库可以是对接收侧终端200的用户指定的信息。例如，存储在第二存储器250中的语音识别数据库可以是用于将接收侧终端200的用户的语音数据转换为文本数据的信息。

第二显示单元240提供操作接收侧终端200所必需的各种屏幕。此外，第二显示单元240可被提供以支持输入功能。为此，第二显示单元240可包括触摸面板和显示面板之间的重叠配置。第二显示单元240可输出报告发送侧终端100的通信服务连接请求的屏幕、能够选择连接到发送侧终端100的通信服务的类型之一的屏幕、以及根据用户的选择或以默认设置的特定通信服务的类型而操作的屏幕。将参照附图详细描述通过第二显示单元240提供的接收侧终端200的屏幕的示例。

第二控制器260控制、处理并传送操作接收侧终端200所必需的信号。第二控制器260可支持对接收侧终端200的供电，进入睡眠模式，并对运行通信服务所必需的各种信号进行传送和处理。第二控制器260可包括图8中示出的组成元件。

图8是示出根据本发明的第一示例性实施例的接收侧终端的第二控制器的配置的框图。

参照图8，第二控制器260可包括噪声测量单元261、第二网络打包/解包支持器261、第二网络监控器262、图像组合器266、第二语音处理器267、第二文本处理器268和第二视频处理器269。

第二网络打包/解包支持器261对通过第二通信单元210接收到的发送侧终端100的信号进行解包，并将打包的信号传送给第二网络监控器261、第二语言处理器267、第二文本处理器268和第二视频处理器269中的至少一个。当接收的信号之中与网络评估相关联的测试信号被接收时，第二网络打包/解包支持器261可将接收到的测试信号传送到第二网络监控器262。第二网络打包/解包支持器261可将接收到的信号之中的语音信号传送到第二语音处理器267，并可将文本传送到第二文本处理器268。当与图像帧相应的图像数据被包括在接收到的信号中时，第二网络打包/解包支持器261可将相应的图像数据传送到第二视频处理器269。

同时，当被语音识别出的文本和接收到的信号之中的图像数据被单独接收时，第二网络打包/解包支持器261可将被语音识别出的文本与图像数据分别传送到第二文本处理器268和第二视频处理器269。实质上，第二网络打包/解包支持器261形成用于传送被语音识别出的文本的单独文本服务信道和用于发送图像数据的单独的图像服务信号。如果前述信号通过相应的服务信道被接收，则第二网络打包/解包支持器261可将被语音识别出的文本和图像数据传送到第二文本处理器268和第二视频处理器269。当被语音识别出的文本被包括在图像数据中时，第二网络打包/解包支持器261可将相应的图像数据传送到第二视频处理器269。

第二网络监控器262可从第二网络打包/解包支持器261接收测试信号，并基于接收到的测试信号来评估网络。所述测试信号可以是从发送侧终端100提供的预设信号或者是与接收侧终端200发送到发送侧终端100的信号相应的返回信号。网络监控器262可基于测试信号确认发送侧终端100和接收测终端200之间的丢包率以及网络中的包传输延迟程度。网络监控器262可使用前述信号以便对第二网络监控器262与第二语音处理支持装置500之间的网络进行评估。例如，第二网络监控器262将测试信号传送到第二语音处理支持装置500，使得第二语音处理支持装置500与接收侧终端200之间的网络状态可被确认。关于与第二语音处理支持装置500的网络状态的信息可被发送到发送侧终端100。

噪声测量单元201测量接收侧终端200的外部噪声信号。噪声测量单元201可确认多少噪声分量包括在从第二麦克风231提供的音频信号中。具体地讲，当请求了发送侧终端100的通信服务连接时，噪声测量单元201可激活第二麦克风231并检测由第二麦克风231采集的信号的噪声程度。噪声测量单元201可通过第二网络打包/解包支持器261将测量的噪声信息传送到发送侧终端100。噪声测量单元201可根据测量的噪声信息控制自动激活特定通信服务，例如，识别语音信号并发送文本的STT服务传输功能。在该过程中，噪声测量单元201可执行用于去除噪声的滤波处理并识别经过滤波的语音信号，以便提高语音识别的识别率。

如果图像帧从第二网络打包/解包支持器261被传送，则第二语音处理器267对图像帧进行解码。为此，第二语音处理器267可包括用于处理语音的解码模块。由第二语音处理器267处理的音频信号可根据通信服务的类型通过第二扬声器233被传送。当耳机被连接时，由第二语音处理器267处理的音频信号可通过耳机或近场通信模块被传送到另一输出装置。

第二文本处理器268对从第二网络打包/解包支持器261接收到的文本进行处理。由第二文本处理器268处理的文本可被传送到图像组合器266。第二视频处理器269对从第二网络打包/解包支持器261接收到的图像数据进行处理。例如，第二视频处理器269可包括用于对图像数据进行解码的解码模块。由第二视频处理器269解码的图像数据可被传送到图像组合器266。

图像组合器266将从第二文本处理器268接收到的文本与来自第二视频处理器269的图像数据进行组合。在这种情况下，图像组合器266通过使信号同步来组合相应的信号，并可通过第二显示单元240输出组合的图像。为此，图像组合器266可确认包括在每个数据中的时间戳，并可将文本与图像数据进行组合，使得时间戳彼此相应。

在前述描述中，接收侧终端200可采集除噪声信息以外的外部环境信息作为用于确定运行STT服务和TTS服务中的至少一个服务的信息。为此，如上所示，接收侧终端200可包括各种传感器。使用每个传感器采集的信息可与用于运行STT服务和TTS服务中的至少一个服务的参考值(诸如噪声信息)进行比较。

如上所述，本发明的前述示例性实施例已通过示例的方式示出用于运行通信服务的***通过使用第一语音处理支持装置400的语音识别来产生文本并将所述文本发送到接收侧终端200。

在下文中，将详细描述终端的操作屏幕。

图9是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图。例如，图9是示出用于运行通信服务的屏幕界面的示图。

参照图9，提供了示出根据本发明的第一示例性实施例的用于操作发送侧终端的语音识别功能的屏幕界面的示图。

参照图9，发送侧终端100可根据用户请求输出如画面901中所示出的用于输入电话号码的输入屏幕。当接收侧终端200的电话号码被注册时，发送侧终端100可根据用户控制在第一显示单元140上输出电话薄信息画面。同时，用户可使用画面901输入接收侧终端200的电话号码。输入的电话号码可被输出到如所示的画面的预定区域。

如果用于“通话”连接的输入信号在输入电话号码之后被产生，则如屏幕903中所示，用于与相应于输入的电话号码的接收侧终端200的通信服务的连接的画面被输出。在该过程中，发送侧终端100针对与接收侧终端200的通信服务的连接激活第一通信单元110，通话连接请求消息可通过被提供用于支持通信服务的基站而被传送到接收侧终端200。同时，发送侧终端100的第一显示单元140可输出用于确认是否选择激活STT服务的第一弹出窗口910，其中，所述STT服务是基于语音识别的文本提供功能。

当发送侧终端100的用户通过第一弹出窗口910选择激活STT服务时，如画面905中所示，发送侧终端100可连接用于支持STT服务的第一语音处理支持装置400。在该过程期间，发送侧终端100可使用先前存储的第一语音处理支持装置400的地址信息来访问第一语音处理支持装置400，以与第一语音处理支持装置400连接。在这种情况下，发送侧终端100可通过通信***300与第一语音处理支持装置400连接。

如果完成了第一语音处理支持装置400的连接，则发送侧终端100可将第一麦克风131采集的语音信号传送到第一语音处理支持装置400。然后，发送终端100可从第一语音处理支持装置400接收与接收到的语音数据相应的文本。在这种情况下，接收到的文本可通过通信***300被再次传送到接收侧终端200。此外，如画面907中所示，接收到的文本可被输出到在显示单元140的一侧单独提供的发送文本区域930。同时，发送侧终端100可将从接收侧终端200提供的文本输出到接收文本区域920。发送侧终端100可进行控制，使得输出被语音识别出的文本的发送文本区域930不被输出到第一显示单元140。

发送侧终端100和接收侧终端200中的至少一个进行请求使得TTS服务被激活。当发送侧终端100的用户接受TTS服务的运行或者TTS服务被设置为默认运行时，从接收侧终端200提供的文本被转换为语音数据和语音信号，使得所述语音数据和语音信号可通过第一扬声器133被输出。在这种情况下，将文本转换为语音数据的过程可包括以下过程中的至少一个过程：由接收侧终端200将文本转换为语音数据并传送所述语音数据的过程，以及由发送侧终端100将文本转换为语音数据并传送所述语音数据的过程。

同时，本发明的前述示例性实施例已示出在接收侧终端200的电话号码的输入之后选择了STT服务的运行的呈现，但画面901可根据对STT服务的运行的呈现的选择而被优选地输出。为此，发送侧终端100提供能够选择STT服务的激活的画面。如果相应项被选择，则在输出画面901之后，发送侧终端100不支持输出画面903，而是可进入画面905。同时，尽管本发明的前述示例性实施例已示出发送侧终端100可通过第一弹出窗口910选择STT服务的运行，但第一弹出窗口910可被提供使得STT服务和TTS服务中的至少一个服务被选择。然后，用户可通过对在第一弹出窗口910上输出的项的选择来请求接收侧终端200运行STT服务和TTS服务中的至少一个服务。

图10是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图。例如，图10是示出基于语音识别的文本提供服务的自动运行和推荐的示图。

参照图10，发送侧终端100可输出如画面1001中所示的用于与接收侧终端200的通话连接的画面。为此，用户可输入接收侧终端200的电话号码或者可选择与接收侧终端200相应的电话薄信息。然后，第一显示单元140可提供如所示的用于与接收侧终端200的通话连接的画面。

在该过程期间，当用户产生用于“通话”的输入信号时，发送侧终端100的第一显示单元140可输出如画面1003的网络评估信息和噪声信息中的至少一个信息，并可输出指示基于语音识别的文本提供服务的自动运行的指导。为此，发送侧终端100可将用于对在发送侧终端100与接收侧终端200之间形成的网络进行评估的预设测试信号发送到通信***300和接收侧终端200，使得测试信号可反馈。同时，输出到第一显示单元140的噪声信息可包括由发送侧终端100的第一麦克风131采集的音频信号的噪声信息和由接收侧终端200的第二麦克风231采集的音频信号的噪声信息中的至少一个。例如，仅一个噪声信息被显示在图10中。然而，第一显示单元140可分别输出发送侧终端100的噪声信息和接收侧终端200的噪声信息。第一显示单元140可仅输出从接收侧终端200接收到的噪声信息。

同时，发送侧终端100可基于网络评估信息和噪声信息确定是否自动执行基于语音识别的文本提供服务，例如，STT服务。为此，发送侧终端100可使用存储在第一存储器150中的参考值157。此外，在自动执行STT服务的情况下，发送侧终端100可如所示提供使得用户可确认STT服务的自动运行。在这种情况下，在发送侧终端100，如所示，为了便于用户停止STT服务，可在画面的一侧提供停止按钮。

同时，如果在第一麦克风131采集到语音信号以便支持STT服务，则发送侧终端100可识别相应的语音信号，并将所述语音信号转换为文本。在这种情况下，发送侧终端100可使用第一语音处理支持装置400或存储在第一存储器150中的语音识别数据库153。同时，在当前选择的通信服务是图像通话服务时，发送侧终端100可控制第一显示单元140配置如画面1005中所示的与图像通话服务相应的画面。例如，第一显示单元140可包括发送人画面区域1010和接收人画面区域。被语音识别出的文本信息被输出到的区域可被设置在显示单元140上输出的屏幕。例如，发送文本区域1020可被布置为与发送人画面区域1010相邻，接收文本区域1040可被布置为与接收人画面区域1030相应。此外，第一显示单元140还可显示用于转换扬声器模式的按钮图和用于终止通信服务的按钮图。

本发明的前述示例性实施例已示出STT服务的自动运行条件包括网络评估信息和噪声信息。然而，本发明的示例性实施例不限于此。例如，接收侧终端200可与发送终端100协作以根据当前位置信息、外部照明信息、当前时间信息和接收侧终端200的移动信息以及噪声信息，自动执行STT服务或TTS服务。所述协作可包括发送侧终端100与接收侧终端200之间的用于运行STT服务和TTS服务的信号传输。

在当前位置是由用户先前限定的位置或由地图信息先前限定的特定位置时，接收侧终端200可根据终端的显示单元的亮度对外部的环境(诸如剧院或实验室)的影响来自动执行合适的STT服务和TTS服务中的至少一个服务。在特定时间(诸如睡眠时间)的情况下，接收侧终端200允许用户针对各种环境(诸如汽车驾驶或运动训练)来自动运行STT服务和TTS服务中的至少一个。

接收侧终端200可提供用于进行设置的屏幕界面，使得STT服务和TTS服务中的至少一个服务在多种情况下被执行。用户可通过屏幕界面设置终端针对各个情况下的操作。此外，在设计者设计的预定情况下，接收侧终端200可具有针对所述预定情况的默认功能支持安排，并且用户可通过调整相应的安排来调整期望的功能设置。

图11是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图。例如，图11是示出根据来自接收侧终端的请求的发送侧终端的基于识别的文本提供服务的示图。

参照图11，发送侧终端100和接收侧终端200可首先形成相互的聊天服务信道，并通过相应的聊天服务信道来收发聊天消息。在这种情况下，发送侧终端100可在第一显示单元140上输出如画面1101中示出的聊天服务画面。发送侧终端100和接收侧终端200收发安排的聊天消息的结果在图11中被示出。

当用户根据所定义的方案从相应的画面选择接收侧终端200的聊天消息1110时，所述画面可被转换为用于与接收侧终端200的类型不同类型的通信服务连接的画面，例如，如画面1103中所示出的图像通话服务连接。例如，当发送侧终端100的用户长按信道消息1110，连续触摸信道消息1110至少预定次数，或者产生预设手势时，第一控制器160可自动采集与聊天消息1110相应的接收侧终端200的电话号码，并在显示单元140上输出用于确认是否执行通话连接的画面1103。

在这种情况下，当发送侧终端100的用户产生用于通话连接请求的输入信号或产生相应事件时，发送侧终端100可将相应的通话连接请求消息发送到接收侧终端200。当发送侧终端100从接收侧终端200接收到请求按照作为基于语音识别的文本提供功能的STT功能执行通话连接的消息时，画面1105可被输出到第一显示单元140上。例如，第一显示单元140显示接收侧终端200所请求的基于STT的通话连接，并可输出询问是否接受相应通话连接请求的弹出窗口1120。

发送侧终端100的用户接受画面1105上的基于STT的通话连接，发送侧终端100可根据基于STT的通话连接接受而在第一显示单元140上输出如画面1107中所示的画面。在这种情况下，基于STT的通话连接接受画面可被输出覆盖在屏幕1101上输出的聊天服务画面，或者可通过画面转换被配置为新画面。基于STT的通话连接接受画面可基于图像通话画面的基础配置来操作。如所示，例如，第一显示单元140可包括发送人画面区域1130、接收人画面区域1150、将被发送的被语音识别出的文本被输出到的发送文本区域1140和接收到的被语音识别出的文本被输出到的接收文本区域1160。接收人画面区域1150根据用户请求或在接收侧终端200是图像通话非支持终端时，可不输出单独的图像数据。在这种情况下，由用户指定的特定画面或由发送侧终端100默认提供的特定画面(例如，指示会议的画面)可被输出。

同时，本发明的前述示例性实施例示出发送文本区域1140和接收文本区域1160两者被输出在第一显示单元140上。然而，本发明的示例性实施例不限于此。例如，发送文本区域1140和接收文本区域1160中的接收文本区域1160可由接收侧终端200用户输入的字符或聊天消息而不是被语音识别出的文本被输出到的区域来配置。相应的接收文本区域1160仅被提供给接收侧终端200，并且不被提供给发送侧终端100或者被TTS服务替换。

图12是示出根据本发明的第一示例性实施例的接收侧终端的屏幕界面的示例的示图。例如，图12是示出用于运行接收侧终端的STT服务的屏幕界面的示图。

参照图12，接收侧终端200可根据用户的操作如画面1201中所示执行特定终端功能或保持睡眠状态。当在预定时间期间未接收到用于使用终端功能的单独输入信号时或者根据用于睡眠状态改变的输入信号的产生可进入所述睡眠状态。所述睡眠状态可以是在控制阻断向第二显示单元240供电的同时通过后台处理保持接收侧终端200的独有功能或根据用户设置的功能的状态。例如，在画面1201上呈现的睡眠状态可以是能够通过停止对第二显示单元240的供电但保持对第二通信单元210的供电来接收发送侧终端100的通话连接请求消息的状态。

同时，本发明的前述示例性实施例已示出接收侧终端200的状态保持睡眠状态。然而，本发明的示例性实施例不限于此。例如，画面1201可包括根据用户控制的各种画面状态。例如，画面1201可包括用于播放存储在接收侧终端200中的特定文件的画面、根据特定服务器的连接输出从相应服务器提供的页面的屏幕、输出使用相机采集的图像的画面以及运行有与发送侧终端100的聊天服务的画面。以这种方式，接收侧终端200的画面1201可包括能够从发送侧终端100接收通信服务连接请求的至少一种状态。在下文中，作为一个示例，接收侧终端200保持睡眠状态。

接收侧终端200可从发送侧终端100接收通信服务连接请求消息。然后，如画面1203中所示，接收侧终端200可输出如画面1203中所示出的用于指导从发送侧终端100接收到通信服务连接请求消息的信息。例如，接收侧终端200可通过第二显示单元240输出指示通信服务连接请求消息的接收的文本或图像中的至少一个。此外，接收侧终端200可根据用户设置运行与通信服务连接请求消息的接收相应的预先定义的音频信号、振动和灯光。

同时，接收侧终端200可在第二显示单元240上输出“连接项”1210、“STT服务项”1220，其中，所述“连接项”1210能够选择是否使用例如发送侧终端100所请求的方案中的通信服务和根据接收侧终端200的用户环境的特定通信服务，“STT服务项”1220能够选择基于语音识别的文本提供服务。为了使用发送侧终端100针对连接所请求的诸如语音通话或图像通话的通信服务，用户可选择“连接项”1210。当难以使用利用语音的通信服务时，用户可选择“STT服务项”1220。

当用户从画面1203选择“STT服务项”1220时，接收侧终端200可基于STT服务将用于通信服务连接的消息发送到发送侧终端100。然后，发送侧终端100可识别第一麦克风131采集的语音信号以使用第一语音处理支持装置400或存储在第一存储器150中的语音识别数据库153来产生文本，并可将所述文本发送到接收侧终端200。当从发送侧终端100接收到被语音识别出的文本时，接收侧终端200可在画面1205中所示的接收文本区域1230上输出文本。同时，接收侧终端200可输出如画面1205中所示的文本输入屏幕，以将文本发送到发送侧终端100。接收侧终端200可使用文本输入屏幕输入特定文本，并将所述特定文本发送到发送侧终端100。由接收侧终端200的用户输入的文本可被输出到发送文本区域1240。在这种情况下，接收侧终端200可激活第二麦克风231，以采集外部音频信号，并且第一麦克风231采集的音频信号可被发送到发送侧终端100。

同时，尽管前述示例性实施例已示出接收侧终端200的用户可通过画面1203选择特定通信服务，但根据本发明的示例性实施例的接收侧终端200可支持根据默认设置的通信服务连接。例如，当作为默认设置，通信服务连接方案被设置为基于STT服务来执行时，接收侧终端200可移除通信服务选择功能和从画面1203提供的相应屏幕输出，并可支持用于支持通信服务连接协作的信号处理和相应的通信服务。

本发明的前述示例性实施例仅示出STT服务的操作。然而，本发明的示例性实施例不限于此。例如，STT服务可被TTS服务替换。本发明的示例性实施例还提供如画面1207中所示的用于使TTS服务与STT服务分开运行的画面，使得STT服务和TTS服务中的至少一个可根据用户请求而被选择性地运行。当从画面1207选择了TTS服务时，本发明的示例性实施例可包括用于支持TTS服务的文本创建器以及如画面1209中所示的将创建的文本发送到发送侧终端100的画面。在这种情况下，接收侧终端200的第二显示单元240可如画面1209中所示在屏幕的一侧输出指示TTS服务当前被支持的信息。

本发明的前述示例性实施例已示出根据本发明的第一示例性实施例的用于运行通信服务的***以及每个***的组成元件的角色和功能。在下文中，将参照附图详细描述根据本发明的示例性实施例的运行通信服务的方法。

图13是示出根据本发明的第一示例性实施例的发送侧终端的屏幕界面的示例的示图。

参照图13，在根据本发明的第一示例性实施例的运行通信服务的方法中，在步骤1301，发送侧终端100可请求到接收侧终端200的通话连接。为此，发送侧终端100执行用于选择接收侧终端200的电话号码的过程，并可根据用户请求将请求语音通话和图像通话中的一个的通信服务连接的消息发送到接收侧终端200。发送侧终端100可基于用户输入的号码信息来采集接收侧终端200的电话号码，通过对电话薄信息的选择来采集接收侧终端200的电话号码，或采集从聊天服务环境提供的电话号码。发送侧终端100可将相应的消息发送到通信***300以进行与接收侧终端200的通信服务连接。

接下来，在步骤1303，发送侧终端100和接收侧终端200可执行用于支持作为基于语音识别的文本提供功能的STT服务的协作。所述协作步骤可根据***设计方案而被不同地改变，但是手动地识别出根据本发明的示例性实施例的基于语音识别的文本提供服务的操作。为此，在步骤1301，发送侧终端100可创建指示运行基于STT服务的通信服务的消息，并将创建的消息发送到接收侧终端200。同时，在步骤1303，接收侧终端200可将请求运行基于STT服务的通信服务的消息发送到发送侧终端100。

当接收到相应的消息时，发送侧终端100可通过接受向接收侧终端200提供作为被语音识别出的文本的采集到的语音信号。例如，在步骤1305，发送侧终端100可基于第一语音处理支持装置400和语音识别数据库153中的至少一个产生文本。当默认基于第一语音处理支持装置400执行了语音识别并且与第一语音处理支持装置400的连接状态差使得语音识别未被正常地执行时，发送侧终端100可进行控制，使得进行基于语音识别数据库153的语音识别。发送侧终端100基于语音识别数据库153执行语音识别。根据与由用户确定的输入/输出模式相应的用户操作，或者当第一语音处理支持装置400的连接环境等于或大于预设值时，针对第一语音处理支持装置400的连接的数据收发以及语音识别可被支持。同时，当在使用第一语音处理支持装置400时实现单独记账时，发送侧终端100可根据用户设置仅执行基于语音识别数据库153的语音识别。

接下来，在步骤1307，发送侧终端100可将被语音识别出的文本发送到接收侧终端200。为此，发送侧终端100可使用用于发送与文本相应的包的通信信道。所述通信信道可以是在发送侧终端100与接收侧终端200之间形成的通信信道，或者是在发送侧终端100与先前的接收侧终端200之间形成的通信信道(例如，聊天服务信道)。当从发送侧终端100接收到被语音识别出的文本时，接收侧终端200可将相应的文本输出到第二显示单元240。当接收侧终端200与发送侧终端100形成图像通话信道时，接收侧终端200可从发送侧终端100接收图像数据和相应的文本。因此，接收侧终端200可通过分配单独的区域将相应的文本输出为重叠在图像数据或输出的文本上。当***被设计为使得接收侧终端200输出图像数据和文本数据时，接收侧终端200从接收到的数据获取时间戳信息，并在输出相应的数据时控制进行同步。当发送侧终端100将文本与图像数据进行组合并发送组合的数据时，接收侧终端200可在无需时间戳信息的单独采集和同步过程的情况下支持数据输出。

同时，在步骤1309，接收侧终端200可将用户输入的文本发送到发送侧终端100。为此，接收侧终端200可输出用于将文本输入到第二显示单元240的输入窗口。用户输入的文本被发送到发送侧终端100，并可被输出到第二显示单元240。此外，接收侧终端200可在使用STT服务期间激活相机，采集外部图像并将所述外部图像发送到发送侧终端100。

同时，在通信服务信道在发送侧终端100与接收侧终端200之间被释放或用于释放本发明的示例性实施例的STT服务的输入信号被产生之前，步骤1305至1309可被持续保持并被执行。

例如，发送侧终端100可提供基于语音或图像数据的通信服务，接收侧终端200可提供基于文本的通信服务。例如，发送侧终端100使用第一麦克风131以语音传送信息，接收侧终端200输出针对相应语音的文本并可以以创建的文本传送信息。当接收侧终端200发送文本时，发送侧终端100可将所述文本输出到第一显示单元140。

在图像通话的情况下，发送侧终端100传送基于由麦克风131和第一相机170采集的语音和图像的信息，并且接收侧终端200可在不输出单独的语音信号的情况下输出与所述图像相应的文本和相应的语音，并且通过对所述文本的创建来传送信息。在这种情况下，接收侧终端200激活相机和麦克风以将图像和音频信号发送到发送侧终端100。然后，发送侧终端100可通过第一显示单元140和第一扬声器133输出从接收侧终端200提供的图像和音频信号。当接收侧终端200发送通过字符输入创建的文本时，发送侧终端100可将相应的文本输出到单独的文本区域或图像输出区域的一侧。发送终端100可根据用户设置将接收到的文本转换为语音并通过第一扬声器133输出所述语音。

图14是示出根据本发明的第二示例性实施例的发送侧终端的第一控制器的配置和接收侧终端的第二控制器的配置的框图。

参照图14，在根据本发明的第二示例性实施例的用于运行通信服务的终端中，接收侧终端200使用第二语音处理支持装置500识别语音信号，并根据语音识别将产生的文本输出到第二显示单元240。因此，发送侧终端100不识别采集到的语音信号，并且基于包业务交换网络将采集到的语音信号发送到接收侧终端200。图14示出发送侧终端100的第一控制器160的组成元件和接收侧终端200的第二控制器260的组成元件。

根据本发明的示例性实施例的发送侧终端100的第一控制器可包括第一网络打包/解包支持器161、第一网络监控器162、媒体同步器166、第一语音处理器167、第一文本处理器168和第一视频处理器169。具有上述构造的发送侧终端100可采集并发送语音信号，以支持基于语音识别的文本提供服务。

详细地讲，发送侧终端100的第一控制器可控制第一通信单元110根据用户请求通过通信***300将通信服务连接请求消息发送到接收侧终端200。在这种情况下，第一语音处理器167控制激活第一麦克风131，将第一麦克风131采集的语音信号转换为语音数据，并且将所述语音数据传送到第一网络打包/解包支持器161。第一文本处理器168可产生与从第一输入单元120和具有输入功能的第一显示单元140输入的输入信号相应的文本，并将相应的文本传送到第一网络打包/解包支持器161。此外，第一文本处理器168可将产生的文本传送到媒体同步器166。当图像通话服务在发送侧终端100和接收侧终端200之间被运行时，第一视频处理器169激活第一相机170，并将第一相机170采集的图像信号转换为图像数据。此外，第一视频处理器169可将所述图像数据传送到媒体同步器166。媒体同步器166可使从第一文本处理器168提供的文本与来自第一视频处理器169的图像数据同步，并可将同步的数据传送到第一网络打包/解包支持器161。

第一网络监控器162可通过第一网络打包/解包支持器161对网络进行评估。为此，第一网络监控器162可通过第一网络打包/解包支持器161将预设测试信号发送到接收侧终端200。接下来，第一网络监控器162可接收与所述测试信号相应的信号以对网络进行评估。第一网络监控器162可接收关于将被发送到接收侧终端200的语音数据、文本和图像数据中的至少一个的质量的反馈以对网络进行评估。网络监控器162可基于与从通信***提供的网络质量相关联的信息和与从接收侧终端200提供的网络质量相关联的信息对网络进行评估。由第一网络监控器162检测到的网络评估以及从接收侧终端200提供的关于接收侧终端200的外部环境的噪声信息可被用于确定发送侧终端100的STT服务。

第一网络打包/解包支持器161对从第一语音处理器167提供的语音数据、从文本处理器168提供的文本和从媒体同步器166提供的图像数据中的至少一个按照将它们发送到接收侧终端200的形式进行打包。第一网络打包/解包支持器161可通过第一通信单元110将经过打包的数据发送到接收侧终端200。此外，第一网络打包/解包支持器161可对从接收侧终端200提供的数据进行解包，并可将经过解包的数据传送到输出装置，例如，第一扬声器133和第一显示单元140。

同时，根据本发明的示例性实施例的接收侧终端200的第二控制器260可包括噪声测量单元201、第二打包/解包支持器261、第二网络监控器262、第二TTS/STT确定器263、第二STT管理器264、第二TTS管理器265、图像组合器266、第二语音处理器267、第二文本处理器268和第二视频处理器269。

当具有上述构造的接收侧终端200从发送侧终端100接收到通信服务连接请求时，接收侧终端200可根据默认设置或用户设置连接第二语音处理支持装置50，以支持作为基于语音识别的文本提供服务的STT服务。接收侧终端200可使用存储在第二存储器250中的用于支持STT服务的语音识别数据库。例如，接收侧终端200可识别从发送侧终端100提供的语音数据以产生文本，并可将产生的文本输出到第二显示单元240。第二扬声器233进行的语音数据的输出功能可根据用户设置或***设计方案而被支持或阻止。例如，根据本发明的示例性实施例的STT服务的支持，语音数据可用被语音识别出的文本在接收侧终端200中被输出并可被移除。

将详细描述接收侧终端2200的各个组成元件。第二网络监控器262通过第二网络打包/解包支持器261对网络进行评估。第二网络监控器262可通过第二网络打包/解包支持器261将预设测试信号发送到网络或发送侧终端100，并接收相应的反馈信号以对网络状态进行评估。第二网络监控器可替换将被发送到通信***300或发送侧终端100的信号(例如，在信道形成过程期间收发的信号、由第二麦克风231采集的语音信号、由相机采集并将被发送到发送侧终端100的图像数据以及用于文本信号的由用户创建并且将被发送到发送侧终端100的文本)。同时，第二网络监控器262从发送侧终端100和通信***300中的至少一个接收网络状态(例如，关于数据传输中的包的延迟程度和丢失率的信息)，并可基于接收到的网络状态来对网络状态进行评估。由第二网络监控器262执行的网络评估结果可被提供给第二TTS/STT确定器263。

第二网络打包/解包支持器261对将被接收侧终端200发送的数据以及接收侧终端将接收的数据进行打包和解包。详细地讲，第二网络打包/解包支持器261对从发送侧终端100接收到的数据进行解包，并按类型对经过解包的数据分类。例如，第二网络打包/解包支持器261可根据数据特征将从发送侧终端100提供的数据分类为语音数据、文本数据、视频数据和字幕数据中的至少一个。此外，第二网络打包/解包支持器261可将分类后的数据传送到与相应数据相关联的配置，以对分类后的数据进行处理。例如，第二网络打包/解包支持器261可将语音数据传送到第二语音处理器267，可将文本数据传送到第二文本处理器268并可将视频数据传送到第二视频处理器269。字幕数据可根据字幕数据的特征而被传送到第二文本处理器268或第二视频处理器269。例如，当字幕数据以文本的形式被产生和接收时，字幕数据可被传送到第二文本处理器268，使得第二文本处理器268可对字幕数据进行处理。当字幕数据以图像帧类型被产生和接收时，字幕数据可被传送到第二视频处理器269，使得第二视频处理器269可对字幕数据进行处理。

同时，第二网络打包/解包支持器261对由第二语音处理器267对从接收侧终端200的第二麦克风231采集到的语音信号进行处理而产生的语音数据进行打包，并通过第二通信单元210将打包后的语音数据传送到发送侧终端100。第二网络打包/解包支持器261可使用第二输入单元220和具有输入功能的第二显示单元240中的至少一个根据预设标准对创建的文本进行打包，并通过第二通信单元210将打包后的文本发送到发送侧终端100。当安装的相机发送采集的图像数据时，第二网络打包/解包支持器261可对组合有输入的文本的图像数据进行打包。第二网络打包/解包支持器261可根据终端设置或与具有请求的图像通话连接的发送侧终端100相应的用户操作来对预设特定图像数据进行打包和发送。在这种情况下，所述特定图像数据可根据用户控制被转换为与输入文本组合的图像数据，并且所述图像数据可被第二网络打包/解包支持器261打包。此外，第二网络打包/解包支持器261可对由噪声测量单元201采集到的接收侧终端200的外部噪声信息进行打包，并可通过第二通信单元210将打包后的外部噪声信息传送到接收侧终端200和发送侧终端100。

噪声测量单元201产生从接收侧终端200的外部环境出现的噪声以产生噪声信息，并将相应的噪声信息发送到第二TTS/STT确定器263和发送侧终端100中的至少一个。为此，噪声测量单元201可激活包括在接收侧终端200中的第二麦克风231，并可对由第二麦克风231采集到的在预定时间期间的音频信号进行分析，以确定包括噪声的存在。在这种情况下，当从发送侧终端100接收到通话连接请求消息时，噪声测量单元201激活第二麦克风231以在预定时间期间采集外部音频信号并且基于采集到的信号来测量噪声。噪声测量单元201可根据预设安排信息以预定时间间隔来采集音频信号，并将音频信号的噪声测量值的均值或噪声测量值的最大值采用为噪声信息。

第二TTS/STT确定器263确定是否运行接收侧终端的TTS服务或STT服务。为此，第二TTS/STT确定器263可基于以下项中的至少一个来确定是否运行TTS服务或STT服务：从噪声测量单元201提供的噪声信息、从第二输入单元220和具有输入功能的第二显示单元240输入的用户控制、从第二网络打包/解包支持器261提供的发送侧终端100的语音和文本。例如，当从噪声测量单元201接收到关于大于预定值的噪声测量值的噪声信息时，第二TTS/STT确定器263可控制第二STT管理器264，使得不管用户控制或发送侧终端100的请求如何，STT服务都被执行。以相同的方式，当从噪声测量单元201接收到包括大于预定参考值的噪声测量值的信息时，第二TTS/STT确定器263可控制第二TTS管理器265执行TTS服务。当接收侧终端200的用户产生用于运行STT服务或TTS服务的输入信号时，第二TTS/STT确定器263可控制第二TTS管理器265或第二STT管理器264分别运行相应的服务。当从发送侧终端100请求激活STT服务或TTS服务时，第二TTS/STT确定器263可进行控制，使得根据发送侧终端100的请求的STT服务或TTS服务被运行。

此外，第二TTS/STT确定器263从发送侧终端100采集噪声信息。当从发送侧终端100提供的噪声信息大于参考值时，第二TTS/STT确定器263可进行控制，使得STT服务被自动运行。

第二TTS/STT确定器263可从第二网络监控器262接收网络评估信息，并可根据网络评估信息控制用于支持TTS服务的第二TTS管理器265或用于支持STT服务的第二STT管理器264。详细地讲，当包括在网络评估信息中的网络的数据传输延迟程度和丢包率中的至少一个大于参考值时，第二TTS/STT确定器263可控制STT服务和TTS服务中的至少一个的运行。文本类型的文本和字幕数据的传输量小于语音数据和图像数据的传输量，并且文本和字幕数据以字符的形式被提供。因此，当网络状态差时，语音数据和图像数具有丢失和延迟地被发送，使得文本和字幕数据具有丢失和延迟地被发送并被准确地识别出的概率可比语音数据和图像数据具有丢失和延迟地被发送并被准确地识别出的概率相对更高。因此，当网络评估信息大于预设参考值时，第二TTS/STT确定器263与语音数据一起或与语音数据分离地发送针对语音数据的测试，使得发送侧终端100的用户可准确地识别出将从接收侧终端200的用户发送的信息。

第二TTS管理器265在第二TTS/STT确定器263的控制下控制对接收侧终端200的TTS服务的TTS服务的支持。当第二TTS/STT确定器263请求支持TTS服务时，第二TTS管理器265可进行控制，使得从第二网络打包/解包支持器261提供的文本被转换为语音数据，并可将所述语音数据传送到第二语音处理器267。在这种情况下，从第二网络打包/解包支持器261提供的文本可由发送侧终端100的文本创建器创建，或者可通过根据STT服务的运行对语音信号进行转换来创建。

第二TTS管理器265可与第二语音处理支持装置500连接，以支持接收侧终端200的TTS服务。第二TTS管理器265先前可被设置为支持接收侧终端200的TTS服务，并可使用存储在第二存储器250中的语音转换数据库。例如，第二TTS管理器265可通过执行第二语音处理支持装置500的连接或者无需执行第二语音处理支持装置500的单独连接，支持基于语音转换数据库的语音转换，从而支持接收侧终端200的TTS服务。当发送侧终端100使用第一语音处理支持装置400将用户输入的文本转换为语音数据时，第二TTS管理器265可进行控制，使得单独的语音转换不被执行。

同时，第二TTS管理器265可在第二TTS/STT确定器263的控制下将接收侧终端200的用户输入的文本转换为语音信号，并将所述语音信号发送到发送侧终端100。为此，第二TTS管理器265可基于第二语音处理支持装置500和语音转换数据库中的至少一个将文本输入转换为语音，并通过第二网络打包/解包支持器261将所述语音发送到发送侧终端100。

第二STT管理器264控制对接收侧终端200的STT服务的支持。当从第二TTS/STT确定器263接收到对支持STT服务的请求时，第二STT管理器264可根据相应的请求支持STT服务。具体地讲，第二STT管理器264可支持接收侧终端200的STT接收服务和STT发送服务中的至少一个服务。

首先，在支持STT接收服务的情况下，第二STT管理器264从第二网络打包/解包支持器261接收语音数据，并将相应的语音数据转换为文本。第二STT管理器264可将转换为文本的语音数据传送到第二文本处理器268。为此，第二STT管理器264可使用用于支持STT服务的第二语音处理支持装置的连接或存储在第二存储器250中的语音识别数据库中的至少一个。例如，第二STT管理器264可与第二语音处理支持装置500形成信道，并可将语音数据从第二网络打包/解包支持器261发送到第二语音处理支持装置500。当从第二通信单元210和第二网络打包/解包支持器261接收到来自第二语音处理支持装置500的文本时，第二STT管理器264可将相应的文本传送到第二文本处理器268。

在支持STT发送服务的情况下，第二STT管理器264可将从语音处理器267提供的语音数据转换为文本。在这种情况下，第二STT管理器264可根据策略而使用第二语音处理支持装置500或存储在第二存储器250中的语音识别数据库来将语音数据转换为文本。第二STT管理器264将转换后的文本传送到第二网络打包/解包支持器261，并且请求第二网络打包/解包支持器261使得转换后的文本被发送到发送侧终端100。

语音处理器267将从第二TTS管理器265提供的语音数据转换为允许语音数据被传送到扬声器、耳机和其他语音信号输出装置的形式，并将转换后的语音信号传送到相应的配置。第二语音处理器267可从第二网络打包/解包支持器261直接接收语音数据，将所述语音数据转换为语音信号，并将所述语音信号传送到扬声器、耳机和其他语音信号输出装置。所述其他语音信号输出装置可以是能够通过蓝牙通信模块形成与接收侧终端200的通信信道的单独装置或耳机。

第二文本处理器268将从第二STT管理器264提供的信息转换为可从接收侧终端200被输出的形式的文本。例如，第二STT管理器264按可被输出到接收侧终端200的第二显示单元240的词语、短语和句子来配置被语音识别出的文本信息，并将所述文本信息传送到图像组合器266。第二文本处理器268可从第二网络打包/解包支持器261直接接收文本，并将所述文本处理为可被输出到显示单元240的形式。

第二视频处理器269将从第二网络打包/解包支持器261提供的图像数据处理为可被输出到第二显示单元240的形式。例如，第二视频处理器269可使用由从第二网络打包/解包支持器261提供的包配置的图像数据来产生图像帧。此外，第二视频处理器269可包括图像编解码器，其中，所述图像编解码器将当前接收到的图像帧与先前的图像帧进行比较，并对差异信息进行处理以配置运动图像帧。

图像组合器266将来自第二文本处理器268的文本与来自第二视频处理器269的图像帧进行组合。例如，图像组合器266可通过将文本***到由图像帧构成的图像帧上或者将文本重叠在图像帧上，产生将被输出到第二显示单元240的新图像帧。因此，第二显示单元240可同时显示文本和图像帧。图像组合器266从接收到的信息获取时间戳信息以使文本与将被输出的图像帧同步，并基于时间戳信息确定哪个文本被***到任意图像帧。可从第二网络打包/解包支持器261或第二STT管理器264提取和提供时间戳信息。同时，当发送侧终端100先前在提供STT服务的过程期间将文本***到将被发送的图像帧时，图像组合器266可被移除。在这种情况下，第二视频处理器269可将***有文本的图像帧传送到第二显示单元240。

图15是示出根据本发明的第二示例性实施例的用于通信服务的操作方法的信号流程图。将在关注STT服务的运行的同时进行以下描述。然而，本发明的示例性实施例不限于此。根据发送侧终端100和接收侧终端200之间的协作，STT服务被TTS服务替换或者STT服务和TTS服务可被同时运行。

参照图15，在根据本发明的第二示例性实施例的运行通信服务的方法中，在步骤1501，发送侧终端100可请求与接收侧终端200的通话连接。为此，发送侧终端100可输入接收侧终端200的电话号码，并请求特定类型的通信服务连接。所述请求可以以消息的形式通过通信***300被传送到接收侧终端200。

当在步骤1501接收侧终端200接受通信服务的运行时，在步骤1503，发送侧终端100和接收侧终端200可执行用于支持基于语音识别的文本提供服务的协作。例如，发送侧终端100可选择请求运行根据本发明的示例性实施例的STT服务的菜单。根据对相应菜单的选择，发送侧终端100可请求接收侧终端200使得接收侧终端200运行基于STT服务的通信服务。接收侧终端200可将与发送侧终端100的通话连接请求相应的指示接收侧终端200是否按照STT服务运行的消息传送到发送侧终端100。在这种情况下，接收侧终端200可基于噪声信息和网络评估中的至少一个自动运行STT服务，或者根据用户控制运行STT服务。当用于支持STT服务的协作未被执行时，发送侧终端100可根据请求连接的通信服务的类型形成通信信道。同时，发送侧终端100和接收侧终端200可形成用于支持通信服务的通信信道。

如果针对接收侧终端200的STT服务的运行的协作被完成，则发送侧终端100在步骤1505采集语音信号，并在步骤1507将采集到的语音信号传送到接收侧终端200。为此，发送侧终端100激活第一麦克风131以采集语音数据，并将采集到的语音数据转换为可被发送到接收侧终端200的形式的语音数据。此外，发送侧终端100可通过与接收侧终端200形成的通信信道将语音数据发送到接收侧终端200。

当从发送侧终端100接收到语音数据时，在步骤1509，接收侧终端200可基于第二语音处理支持装置500和语音识别数据库中的至少一个，将接收到的语音数据转换为文本。在这一方面，接收侧终端200可执行第二语音处理支持装置500的连接，并提供将被识别的语音数据，或者调用存储在第二存储器250中的语音识别数据库。

如果语音数据到文本的转换被完成，则在步骤1511，接收侧终端200可将产生的文本输出到第二显示单元240。在这种情况下，接收侧终端200可以以弹出窗口或文字气球的形式在第二显示单元240的一侧独立提供产生的文本，或者可将产生的文本显示在预设特定格式(例如，聊天窗口)的一侧。接收侧终端200可将产生的文本输出为重叠在由从发送侧终端100提供的图像数据构成的图像帧上，或者将产生的文本***到图像帧的一侧或将产生的文本与图像帧的一侧组合。

同时，在步骤1513，从接收侧终端200创建的文本可被发送到发送侧终端100。为此，接收侧终端200可激活用于支持STT服务的文本创建器，并可将用户通过文本创建器输入的文本提供给发送侧终端100。文本创建器的激活功能可根据对STT服务的选择被自动执行。可在输出与从发送侧终端100提供的语音数据相应的文本的同时自动执行文本创建器的激活功能，或者可根据用户调用执行文本创建器的激活功能。

同时，接收侧终端200可独立于对STT服务的支持，根据发送侧终端100的用户选择的通信服务的类型采集并传送语音信号和图像信号。例如，当发送侧终端100的用户请求用于形成语音通话信道的通话连接时，接收侧终端200可激活用于语音通话的第二麦克风231，并可采集并传送音频信号。这样的功能可根据用户控制或STT服务的支持策略来提供。例如，当STT服务被默认提供，并且音频信号的采集和传送的运行在连接语音通话时被设置时，接收侧终端200可采集并处理信号，以独立于STT服务地采集和传送音频信号。

如上所述，在根据本发明的第二示例性实施例的运行通信服务的方法中，当发送侧终端100将语音数据提供给接收侧200时，接收侧终端200识别相应的语音数据并在第二显示单元240上输出识别出的语音数据。当发送侧终端100的第一语音处理支持装置400的连接困难或不可行时，在第一语音处理支持装置400的语音识别结果提供速度低于第二语音处理支持装置500的语音识别结果提供速度时，该功能可被使用。当第一语音处理支持装置400的语音识别可靠度低于第二语音处理支持装置500的语音识别可靠度或者是低于预定参考值时，可执行根据本发明的第二示例性实施例的运行通信服务的方法。为了确认前述情况，发送侧终端100和接收侧终端200可执行用于共享关于以下项的信息的过程：关于第一语音处理支持装置400和第二语音处理支持装置500的连接的概率、语音识别提供速度和关于语音识别结果的可靠度。

根据本发明的第二示例性实施例的运行通信服务的方法可在无需请求接收侧终端200的STT服务协作的情况下被执行。例如，当发送侧终端100采集语音信号并将语音信号提供给接收侧终端200时，接收侧终端200可基于第二语音处理支持装置500和存储在存储器250中的语音识别数据库来独立地支持STT服务，而无需与发送侧终端100的单独协作。因此，在前述描述中，根据本发明的示例性实施例的运行通信服务的方法可在不包括步骤1503的情况下被执行。在根据本发明的第二示例性实施例的运行通信服务的方法中，发送侧终端100单方面地将语音信号发送到接收侧终端200，而不执行网络监控过程，并且接收侧终端200可识别相应的语音信号以提供文本。结果，在根据本发明的第二示例性实施例的运行通信服务的方法中，每个终端可在不包括监控单元的配置的情况下被配置。

图16是示出根据本发明的第二示例性实施例的接收侧终端的屏幕界面的示例的示图。

参照图16，接收侧终端200根据用户的操作可具有如画面1601中示出的特定画面状态。例如，当在预定时间期间未产生输入信号或者产生了进入睡眠模式的输入信号时，接收侧终端200可如所示随着进入“睡眠模式”在第二显示单元240上输出睡眠模式画面。睡眠模式可以是通过抑制第二显示单元240的供电来省电的模式。睡眠模式可以是特定用户功能(例如，文件重放功能)通过后台处理被执行的状态，如第二显示单元240的供电被抑制的状态。同时，本发明的前述示例性实施例在画面1601中已示出接收侧终端200具有睡眠模式进入状态。然而，本发明的示例性实施例不限于此。例如，接收侧终端可根据用户对终端的操作而具有各种画面状态。例如，接收侧终端200可输出文件重放画面、web服务器或特定服务器访问画面以及游戏画面。

同时，当从发送侧终端100接收到特定类型的通话连接请求时，接收侧终端200可根据对通话连接请求消息的接收输出如画面1603中所示的画面。发送侧终端100的电话号码或与发送侧终端100的电话号码相关联的电话薄信息可被输出在通话连接请求消息接收画面上。具体地讲，接收侧终端200可如所示在第二显示单元240上显示连接按钮1610和STT按钮1620，其中，连接按钮1610针对根据发送终端100的用户请求的通信服务的类型的通话连接，STT按钮1620用于运行基于语音识别的文本提供服务。连接按钮1610和STT按钮1620可以以映射的形式被输出。因此，用户可通过选择特定按钮来使用根据相应按钮的终端功能。

当用户选择画面1603上的STT按钮1620时，接收侧终端200可如画面1605中所示在第二显示单元240上输出与STT服务的运行相关联的信息。例如，接收侧终端200可执行用于第二语音处理支持装置500的连接的过程，并可如所示输出与相应的连接过程相关联的信息。第二语音处理支持装置500可将针对从接收侧终端200提供的语音数据的语音识别结果提供为文本。第二语音处理支持装置500可由外部服务器装置来配置，其中，所述外部服务器装置可通过单独提供接收侧终端200的通信网络被连接。同时，当用户选择STT按钮1620时，接收侧终端200可与发送侧终端100形成通信信道。因此，当在画面1605中第二语音处理支持装置500的连接被完成时，接收侧终端200可与发送侧终端100形成通信服务信道。在这种情况下，接收侧终端200可使用用于与第二语音处理支持装置500连接的通信模块或用于与发送侧终端100连接的通信模块，与第二语音处理支持装置500连接。

如果与发送侧终端100的通信信道的形成以及第二语音处理支持装置500的连接被完成，则接收侧终端200可识别从发送侧终端100提供的语音数据，并可将语音数据转换为文本。为此，接收侧终端200可支持从提供自发送侧终端100提供的数据提取语音数据的过程、将提取的语音数据提供给第二语音处理支持装置500的过程、以及从第二语音处理支持装置500接收语音识别结果的过程。在这种情况下，当第二语音处理支持装置500的连接不可行或者是根据用户控制，接收侧终端200可基于存储在第二存储器250中的语音识别数据库识别从发送侧终端100提供的语音数据。

如果因语音识别产生了文本，则接收侧终端200可如画面1607中所示将产生的文本输出到第二显示单元240上。在这种情况下，接收侧终端200可分开输出STT服务区域1630和文本区域1640，其中，STT服务区域1630输出从发送侧终端100提供的被语音识别出的文本，文本区域1640输出由用户创建并被发送到接收侧终端100的文本。此外，接收侧终端200可在屏幕的一侧输出报告STT服务当前被运行的信息。用户可确认哪个语音信号是由发送侧终端100的用户通过STT服务区域1630发送的。此外，用户可通过文本区域1640创建将被发送到发送侧终端100的文本。当用户触摸文本区域1640时，接收侧终端200可激活用于创建文本的文本创建器，并支持与其相应的画面输出。

同时，本发明的前述示例性实施例已示出画面1603和1605被显示使得画面针对STT服务的选择和运行过程。例如，在接收终端200的用户将STT服务设置为默认，并且发送侧终端100的用户发送请求消息或者发送侧终端100的用户发送请求，使得特定电话号码的发送侧终端100的用户发送用于通话连接的请求消息的情况下，画面1603和1605可被省略。同时，接收侧终端200可向接收侧终端200的第二显示单元240仅提供画面1601和1607。

图17是示出根据本发明的第三示例性实施例的发送侧终端的第一控制器的配置和接收侧终端的第二控制器的配置的框图。例如，图17示出根据本发明的第三示例性实施例的用于运行通信服务的***的配置的配置。

参照图17，根据本发明的第三示例性实施例的用于运行通信服务的***确认支持由发送侧终端100和接收侧终端200进行的语音识别的语音处理支持装置的连接状态，并可基于呈现更好的连接状态的特定语音处理支持装置来执行语音识别。

为此，如所示，发送侧终端100的第一控制器160可包括第一网络打包/解包支持器161、第一网络监控器162、第一TTS/STT确定器163、第一STT管理器164、第一TTS管理器165、媒体同步器166、第一语音处理器167、第一文本处理器168和第一视频处理器169。

具有上述构造的第一控制器160可控制用于与接收侧终端200的通信服务连接的信号和数据收发。具体地讲，第一控制器160可支持用于支持与接收侧终端200的特定类型的通信服务的通话连接请求消息的传输。在该过程期间，可根据发送侧终端100和接收侧终端200中的至少一个的STT服务运行请求来执行用于支持STT服务的处理。例如，当从接收侧终端200接收到STT服务运行请求时，第二控制器160可采集关于第一语音处理支持装置400的连接状态的信息。为此，第一控制器160可向第一语音处理支持装置400提供预设测试信号，并可针对相应测试信号采集与语音识别结果相应的接收状态信息。接收状态信息可包括语音信息，其中，在所述语音信息中，根据发送侧终端100和第一语音处理支持装置400之间的连接状态来收发信息。第一控制器160可将接收侧终端200与第二语音处理支持装置500之间的接收状态信息与发送侧终端100的接收状态信息进行比较，以进行控制使得具有极好接收状态信息的终端执行语音识别。为此，第一控制器160可从接收侧终端200接收接收侧终端200的接收状态信息。同时，当由接收侧终端200设计用于确定语音识别的运行的终端时，第一控制器160可进行控制使得接收状态信息被发送到接收侧终端200。

第一网络监控器162基于第一网络打包/解包支持器161确认将被收发的包，并基于确认的包来对网络进行评估以确认网络的状态。第一网络监控器162可采集能够确认发送侧终端100和通信***300之间的网络状态以及发送侧终端100和第一语音处理支持装置400之间的网络状态的网络评估信息。在这种情况下，网络监控器162可通过网络打包/解包支持器161发送用于确认网络状态的测试信号，并从接收侧终端200接收相应信号的反馈以确认网络状态，或接收针对网络状态的网络评估信息。第一网络监控器162可从网络的组成元件(例如，组成通信***300的基站或路由器以及交换其他数据包的元件)接收与网络状态相关联的网络评估信息。具体地讲，由第一网络监控器161采集的网络评估信息可包括针对第一语音处理支持装置400与发送侧终端400之间的数据传输送速率、数据传输延迟程度和数据丢失率的接收状态信息。第一网络监控器162可将接收状态信息传送到第一TTS/STT确定器163。

第一TTS/STT确定器163控制第一STT管理器164和第一TTS管理器165执行发送侧终端100的STT服务和TTS服务中的至少一个服务。第一TTS/STT确定器163可从第一网络监控器162接收网络评估信息(具体地讲，发送侧终端100与第一语音处理支持装置400之间的第一接收状态信息以及接收侧终端200与第二语音处理支持装置500之间的第二接收状态信息)，并可基于接收到的网络评估信息控制第一STT管理器164和第一TTS管理器165。当第一接收状态信息好于第二接收状态信息时，第一TTS/STT确定器163可控制第一STT管理器164和第一TTS管理器165中的至少一个连接第一语音处理支持装置400。同时，第一TTS/STT确定器163可将报告发送侧终端100将处理语音识别的信息提供给接收侧终端200。

第一网络打包/解包支持器161对数据进行打包以发送发送侧终端100的数据，并对从接收侧终端200接收到的数据进行解包。第一网络打包/解包支持器161可在第一网络监控器162的控制下采集网络评估信息，并将采集到的网络评估信息传送到第一网络监控器162。此外，第一网络打包/解包支持161可在第一网络监控器162的控制下，将发送侧终端100的接收状态信息发送到接收侧终端200。

同时，如果与接收侧终端200的通信服务信道被形成，则第一网络打包/解包支持器161可对各种数据进行打包并经由相应的通信服务信道发送所述数据。例如，第一网络打包/解包支持器161在执行与接收侧终端200的图像通话的同时根据预设标准对来自相机的采集到的图像和语音进行打包，并将打包后的图像和语音发送到接收侧终端200。第一网络打包/解包支持器161可对从接收侧终端200接收到的数据进行确认，以从相应的包提取与所述图像和语音相应的数据。具体地讲，当发送侧终端100基于第一语音处理支持装置400或存储在第一存储器150中的语音识别数据库执行语音识别以产生文本时，第一网络打包/解包支持器161可将相应的文本发送到接收侧终端200。在这种情况下，第一网络打包/解包支持器161可将相应的文本与图像数据进行组合，或者可将相应的文本发送为与图像数据重叠。

当根据网络评估确定接收侧终端200执行语音识别功能时，第一网络打包/解包支持器161可不执行语音识别文本发送功能，而是可发送根据与接收侧终端200连接的通信服务的类型的数据。例如，第一网络打包/解包支持器161可根据通信服务的类型，发送输入到接收侧终端200的图像数据、语音数据和字符中的至少一个。具体地讲，与由第一麦克风131采集的语音信号相应的语音数据可被发送到接收侧终端200，而无需单独的文本转换。

同时，第一网络打包/解包支持器161可从接收侧终端200接收包括被语音识别出的文本的数据。在这种情况下，第一网络打包/解包支持器161可从相应的数据提取被语音识别出的文本，并在第一显示单元140上输出提取的被语音识别出的文本。包括被语音识别出的文本的数据可包括：通过将被语音识别出的文本与图像数据进行组合或重叠而获得的数据、通过将被语音识别出的文本与预设特定图像进行组合或重叠而获得的数据、以及仅包括被语音识别出的文本的数据。

语音处理器167将第一麦克风131采集的语音信号转换为语音数据。由第一语音处理器167处理的语音数据可被传送到第一STT管理器164。

第一STT管理器164可根据对STT服务的支持的存在，使用第一语音处理支持装置400和语音识别数据库153中的至少一个来识别从第一语音处理器167提供的语音数据。当确定接收侧终端200处理语音识别功能时，第一STT管理器164可在不执行单独的语音识别功能的情况下将相应的语音数据传送到第一网络打包/解包支持器161。同时，根据***设计方案，由第一语音处理器167处理的语音数据可在不经过第一STT管理器164的情况下被直接传送到第一网络打包/解包支持器161。

第一文本处理器168对发送侧终端100的文本进行处理。如果从包括键区、键盘、触摸类型的键图和键按钮的第一输入单元120或具有输入功能的第一显示单元140接收到用于输入文本的信号，则第一文本处理器168写下与输入信号相应的文本。第一文本处理器168可根据对TTS服务的支持的存在，将输入文本传送到第一TTS管理器165。第一文本处理器168可将输入文本直接传送到第一网络打包/解包支持器161，而不将输入文本传送到第一TTS管理器165。

第一TTS管理器165根据来自第一TTS/STT确定器163的TTS服务支持设置，将从第一文本处理器168提供的文本转换为语音。当确定发送侧终端100支持TTS服务时，第一TTS管理器165可执行支持TTS服务的第一语音处理支持装置400的连接。第一TTS管理器165可调用存储在第一存储器150中的语音转换数据库155来执行与输入文本相应的语音数据的转换。被TTS管理器165从文本转换的语音数据被传送到第一网络打包/解包支持器161，使得语音数据可被传送到接收侧终端200。在图像通话服务被支持的同时，由第一TTS管理器165转换的语音数据可被传送到媒体同步器166。

当发送侧终端100的用户产生用于运行与接收侧终端200的图像通话服务的输入信号时，第一视频处理器169激活相机以将接收到的图像信号转换为图像数据。由第一视频处理器169处理的图像数据可被传送到媒体同步器166。

媒体同步器166使发送侧终端100的数据彼此同步。当发送侧终端100运行图像通话服务时，媒体同步器166可使语音数据与图像数据同步。具体地讲，当根据网络评估确定发送侧终端100支持TTS服务和STT服务中的至少一个时，根据本发明的示例性实施例的媒体同步器166可使从提供自第一STT管理器164的语音转换的文本和从提供自第一TTS管理器165的文本转换的语音中的至少一个与图像数据同步。为此，媒体同步器166可确认各个数据的时间戳。所述时间戳被用于使在产生图像数据的过程期间采集到的语音数据和文本数据中的至少一个与图像数据的采集时间点同步。例如，时间戳可被等同地应用于当图像数据被采集时所采集的语音数据和文本数据，使得各个数据的时间点可彼此相应。

媒体同步器166可通过使被语音识别出的文本与图像数据同步来产生与一帧相应的新图像数据，并可将新图像数据传送到第一网络打包/解包支持器161。此外，媒体同步器166可使从文本转换的语音数据与图像数据同步以布置数据使得相应的语音数据被布置在与语音数据的时间戳相应的图像帧，并可将所述数据传送到第一网络打包/解包支持器161。

同时，根据本发明的第三示例性实施例的用于运行通信服务的***中的接收侧终端200的第二控制器260可包括噪声测量单元201、第二网络打包/解包支持器261、第二网络监控器262、第二TTS/STT确定器263、第二STT管理器264、第二TTS管理器265、图像组合器266、第二语音处理器267、第二文本处理器268和第二视频处理器269。当确定接收侧终端200在与发送侧终端100的协作期间根据网络评估支持STT服务和TTS服务中的至少一个服务时，具有上述构造的第二控制器260可与第二语音处理支持装置500执行连接。第二控制器260可使用存储在第二存储器250中的语音识别数据库或语音转换数据库支持STT服务和TTS服务中的至少一个。当确定发送侧终端100支持STT服务和TTS服务中的至少一个时，第二控制器260可从发送侧终端100接收被语音识别出的文本或从文本转换的语音数据，并可单独地或与图像数据一起输出接收到的文本或语音数据。

为了前述功能，第二网络监控器262可采集用于评估网络的信息。例如，第二网络监控器262可采集包括接收状态信息的网络评估信息，其中，所述接收状态信息用于确定是否由接收侧终端200执行STT服务和TTS服务中的至少一个。例如，第二网络监控器262可采集包括第二语音处理支持装置500与接收侧终端200之间的数据传输延迟程度、数据传输速率和数据丢失率的接收状态信息。为此，第二网络监控器262可将预设测试信号发送到第二语音处理支持装置500，并可接收相应的反馈信号。此外，第二网络监控器262可将采集到的接收状态信息与发送侧终端100的接收状态信息进行比较，以确定采集的接收状态信息或发送侧终端100的接收状态信息是否极好。当设计发送侧终端100将所述采集到的接收状态信息与发送侧终端100的接收状态信息进行比较时，接收侧终端200可从发送侧终端100接收接收状态信息的极好状态。例如，接收侧终端200可从发送侧终端100接收针对与用于支持STT服务或TTS服务的第二语音处理支持装置500的连接的存在的确定。当接收到所述确定时，第二网络监控器262可将相应的信息传送到第二TTS/STT确定器263。

第二网络打包/解包支持器261传送和接收信号，使得第二网络监控器262可采集网络估计信息。此外，第二网络打包/解包支持器261可根据接收侧终端200的第二语音处理支持装置500的连接的存在，对从发送侧终端100提供的信号进行解包，并可将解包后的信号传送到第二TTS/STT确定器263、第二TTS管理器265和第二STT管理器264。

详细地讲，当确定发送侧终端100执行第一语音处理支持装置400的连接时，第二网络打包/解包支持器261可接收从提供自发送侧终端100的语音转换的文本以及从文本转换的语音数据。然后，第二网络打包/解包支持器261可将从文本转换的语音数据传送到第二语音处理器267，并可将从语音转换的文本传送到第二文本处理器268。在这种情况下，第二网络打包/解包支持器261可通过第二STT管理器265将语音数据传送到第二文本处理器267，并可通过第二STT管理器264将文本传送到第二文本处理器268。在该过程期间，第二TTS管理器265和第二STT管理器264可仅传送文本和语音数据，而不对信号进行单独地处理。

同时，当接收侧终端200执行用于支持STT服务或TTS服务的第二语音处理支持装置500的连接时，第二网络打包/解包支持器261可将接收到的文本传送到第二TTS管理器265。然后，第二TTS管理器265可将文本转换为语音并将语音传送到第二语音处理器267。当接收侧终端200执行用于支持STT服务或TTS服务的第二语音处理支持单元500的连接时，第二网络打包/解包支持器261可将接收到的语音数据传送到第二STT管理器264。然后，第二STT管理器264可将相应的语音数据传送到第二语音处理支持装置500，使得语音数据可被转换为文本。转换后的文本可被传送到第二文本处理器268。如上所述，第二网络打包/解包支持器261可根据发送侧终端100的第一语音处理支持装置400的连接的存在和接收侧终端200的第二语音处理支持装置500的连接的存在，不同地处理传送到第二STT管理器264和第二TTS管理器265的数据。

第二TTS/STT确定器263确定在接收侧终端200对STT服务和TTS服务的支持的存在。例如，第二TTS/STT确定器263可从第二网络监控器262接收用于支持STT服务或TTS服务的网络评估信息，并可基于网络评估信息确定对相应服务的支持。第二TTS/STT确定器263可根据用户输入确定对STT服务或TTS服务的支持的存在。具体地讲，当确定接收侧终端200执行第二语音处理支持装置500的连接时，第二TTS/STT确定器263可控制第二STT管理器264和第二TTS管理器265，使得相应服务的运行被请求。

噪声测量单元201可激活第二麦克风231来采集接收侧终端200的外部音频信号，并可检测包括在采集到的音频信号中的噪声测量值。检测到的噪声测量值可被传送到第二TTS/STT确定器263。为了测量噪声，噪声测量单元201可使用先前设计的滤波器，并可测量包括在除了语音信号频段以外的频段中的噪声程度。第二TTS/STT确定器263可将从噪声测量单元201提供的噪声测量值与预设参考值进行比较，以自动确定是否执行STT服务或TTS服务。

当从第二TTS/STT确定器263接收到执行TTS服务的请求时，第二TTS管理器265将从第二网络打包/解包支持器261提供的文本传送到第二语音处理支持装置500，使得与所述文本相应的语音数据被转换。此外，第二TTS管理器265可将语音数据传送到第二语音处理器267。同时，第二TTS管理器265可进行控制，使得存储在第二存储器250中的用于支持TTS服务的语音转换数据库被使用。

当从第二TTS/STT确定器263接收到执行STT服务的请求时，第二STT管理器264可进行控制，使得从第二网络打包/解包支持器261提供的语音数据被传送到第二语音处理支持器500。此外，第二STT管理器264可将从提供自第二语音处理支持器500的语音转换的文本传送到第二文本处理器268。在这种情况下，第二STT管理器264可进行控制，使得存储在第二存储器250中的语音识别数据库被使用，以将从第二网络打包/解包支持器261提供的语音数据转换为文本。

第二语音处理器267可将从第二TTS管理器265提供的语音数据转换为可被输出到扬声器的信号格式。第二语音处理器267可将转换后的语音信号传送到扬声器、耳机和另一语音信号输出装置。从第二语音处理器267输出的语音信号可以是由发送侧终端100的第一麦克风131采集的语音信号、和使用第二语音处理支持装置500或存储在第二存储器250中的语音转换数据库从来自发送侧终端100的文本转换的语音信号。

第二文本处理器268可将从第二STT管理器264提供的文本数据转换为可被输出到第二显示单元240的文本图像或字符的格式。第二文本处理器268可将转换后的文本传送到第二显示单元240或图像组合器266。从第二文本处理器268提供的文本可以是通过发送侧终端100的文本创建器输入的文本、或使用第二语音处理支持装置500或存储在第二存储器250中的语音识别数据库从提供自发送侧终端100的语音信号转换的文本。

第二视频处理器269可对从第二网络打包/解包支持器261提供的图像数据进行处理并将其转换为可被输出到第二显示单元240的格式。由第二视频处理器269处理的图像帧可被传送到图像组合器266。

图像组合器266将从第二文本处理器268提供的文本与从第二视频处理器269提供的图像帧进行组合，并将组合的图像帧传送到第二显示单元240。图像组合器266可在将文本与图像帧进行组合的过程期间执行同步。为此，图像组合器266可在传送文本和图像帧的同时接收相应数据的时间戳信息。

同时，本发明的前述示例性实施例已示出第一语音处理支持装置400和第二语音处理支持装置500作为一个元件。然而，本发明的示例性实施例不限于此。用于分别支持发送侧终端100的STT服务和TTS服务的语音处理支持装置可被单独地提供，并且接收侧终端200的第二语音处理支持装置500可作为单个元件被提供以支持每个装置。

图18是示出根据本发明的第三示例性实施例的用于通信服务的操作方法的信号流程图。为了便于描述，在关注TTS服务与STT服务之间的对STT服务的支持的同时将进行以下描述。

参照图18，在根据本发明的第三示例性实施例的用于运行通信服务的方法中，在步骤1801，发送侧终端100可将用于请求通话连接的消息发送到接收侧终端200。为此，发送侧终端100可通过输入接收侧终端200的电话号码来产生消息，并通过通信***300将相应的消息发送到接收侧终端200。

当已接收到通话连接请求消息的接收侧终端200接受通话连接时，在步骤1803，发送侧终端100和接收侧终端200可执行用于STT运行的协作。在该过程期间，发送侧终端100可采集与第一语音处理支持装置400的第一接收状态信息，并且接收侧终端200可采集与第二语音处理支持装置500的第二接收状态信息。

当第一接收状态信息好于第二接收状态信息时，在步骤1805，发送侧终端100可基于第一语音处理支持装置400执行STT服务。例如，在步骤1807，发送侧终端100可识别由第一麦克风131采集的语音信号，并将识别出的语音信号转换为第一文本，并可将第一文本传送到接收侧终端200。在步骤1807，发送侧终端100还可将通过对由第一麦克风131采集的语音信号进行处理而获得的语音数据发送到接收侧终端200。

同时，当第二接收状态信息好于第一接收状态信息时，发送终端100省略步骤1805，并可在步骤1807将通过对由第一麦克风采集的语音信号进行处理而获得的语音数据发送到接收侧终端200。然后，在步骤1809，接收侧终端200可基于第二语音处理支持装置500识别从发送终端100提供的语音数据，并将识别出的语音数据转换为第二文本。

同时，当在步骤1811从发送侧终端100接收到第一文本时，接收侧终端200将第一文本输出到第二显示单元240。当基于第二语音处理支持器500产生了第二文本时，接收侧终端200可将第二文本输出到第二显示单元240。在步骤1813，接收侧终端200可将通过文本创建器创建的文本发送到发送侧终端100。

根据本发明的第三示例性实施例的运行通信服务的方法根据发送侧终端100和接收侧终端200的语音处理支持装置之间的接收状态，使用特定终端侧的语音处理支持装置。然而，在根据本发明的示例性实施例的运行通信服务的方法中，发送侧终端100可将基于语音处理支持装置400产生的第一文本和与第一麦克风131采集的语音信号相应的语音数据两者发送到接收侧终端200。此外，接收侧终端200可识别从发送侧终端100提供的语音数据以产生第二数据，并可将第一文本和第二文本中的至少一个输出到第二显示单元240。

因此，根据本发明的示例性实施例的运行通信服务的方法可在对于语音识别低可靠度的环境中运行两个语音处理支持装置，使得发送侧终端100的用户可准确地识别出将被传送的信息。

图19是示出根据本发明的第三示例性实施例的由接收侧终端运行通信服务的方法的流程图。例如，图19是示出根据本发明的第三示例性实施例的在运行通信服务的过程期间运行接收侧终端的STT服务的方法的流程图。

参照图19，接收侧终端200可首先从发送侧终端100接收预设测试信号或语音数据。然后，在步骤1901，接收侧终端200可使用第二语音处理支持装置500识别接收到的语音数据。在这种情况下，接收侧终端200基于第二语音处理支持装置500提取语音数据的语音时间戳信息Sv和被语音识别出的文本的文本时间戳信息St。

接下来，在步骤1903，接收侧终端200从文本时间戳信息St减去语音时间戳信息Sv，并确定相减结果是否大于预设参考值Ts。参考值Ts可以是基于第一语音处理支持装置400由发送侧终端100从被语音识别出的文本时间戳信息St减去语音时间戳信息Sv而获得的值，并且针对第一语音处理支持装置400的语音识别结果的可靠度值可被进一步反映在该参考值Ts上。例如，在步骤1903，接收侧终端200可确定发送侧终端100的语音数据的语音识别处理是否极好。

当减法结果小于参考值Ts时，例如，当使用第一语音的发送侧终端10的语音识别处理比接收侧终端200的语音识别处理更快时，接收侧终端200可进行指导，使得在步骤1905，发送侧终端100执行STT服务。为此，接收侧终端200可发送请求发送侧终端100识别语音数据的消息，并将文本发送到发送侧终端100。

同时，当在步骤1903，相减结果大于参考值Ts时，例如，当使用第二语音处理支持装置500的接收侧终端200的语音识别处理好于使用第一语音处理支持装置400的发送侧终端100的语音识别处理时，在步骤1907，接收侧终端2000可确定丢包率PL是否大于第一预设参考值Tp以及传输延迟程度是否大于第二预设参考值Td。例如，接收侧终端200可确定第二语音处理支持装置500的接收状态是否极好，其中，所述接收状态大于预设参考值。在该步骤中，当丢包率和传输延迟程度低于参考值时，在步骤1909，接收侧终端200可进行控制，使得对从发送侧终端100提供的语音数据的识别基于第二语音处理支持装置500被执行。当丢包率和传输延迟程度小于参考值时，在步骤1911，接收侧终端200可基于存储在第二存储器250中的语音识别数据库识别语音数据。

接收侧终端200可以以预定周期或实时地检查与第二语音处理支持装置500的接收状态。因此，接收侧终端200可基于存储在第二存储器250中的语音识别数据库自适应地执行内部语音识别过程，并根据网络状态基于第二语音处理支持装置500自适应地执行内部语音识别过程。

同时，当根据通信服务连接协作结果选择了第一语音处理支持装置400或第二语音处理支持装置500中的一个时，根据本发明的第三示例性实施例的用于运行通信服务的屏幕界面可以是图9至图12中示出的屏幕界面和图16中示出的屏幕界面之一。例如，当第一语音处理支持装置400被用于支持STT服务和TTS服务中的至少一个时，图9至图12中示出的屏幕界面可从发送侧终端和接收侧终端来提供。此外，当第二语音处理支持装置500被用于支持STT服务和TTS服务中的至少一个时，图16中示出的屏幕界面可被提供给接收侧终端。

图20是示出根据本发明的示例性实施例的根据STT服务和TTS服务的同时操作的发送侧终端和接收侧终端的屏幕界面的示例的示图。

参照图20，当从发送侧终端100接收到特定类型的通信服务请求时，接收侧终端200可根据用户操作接受特定类型的通信服务连接。具体地讲，接收侧终端200可提供能够选择STT服务和TTS服务中的至少一个的屏幕界面。当用户选择激活STT服务和TTS服务时，接收侧终端200可运行STT服务和TTS服务。在该过程期间，当第一语音处理支持装置400被设计或确定为被使用以便运行STT服务时，接收侧终端200可向发送侧终端100请求运行STT服务。当第一语音处理支持装置400被设计或确定为被使用以便操作TTS服务时，接收侧终端200可向发送侧终端100传送请求运行TTS服务的消息，当STT服务和TTS服务基于第二语音处理支持装置500和存储在第二存储器250中的数据库被执行时，接收侧终端200可不向发送侧终端100单独请求服务运行。

同时，接收侧终端200可在第二显示单元240的一侧输出用于支持STT服务的接收侧STT服务输出区域2010以及用于支持TTS服务的接收侧TTS服务输出区域2020。因此，接收侧终端200的用户可将从发送侧终端100提供的文本输出到接收侧STT服务输出区域2010。输出到接收侧STT服务输出区域2010的文本可以是发送侧终端100基于第一语音处理支持装置400和存储在第一存储器150中的数据库的语音识别结果，或者是接收侧终端200基于第二语音处理支持装置500和存储在第二存储器250中的数据库的语音识别结果。

如上所述，接收侧终端100可将用户输入的文本输出到接收侧TTS服务输出区域2020，以支持TTS服务。在这种情况下，接收侧终端200可在用于输入文本的第二显示单元240的一侧输出文本创建器2411。在这种情况下，当完成了文本输入时，接收侧终端200可从第二显示单元240移除文本创建器2011。在画面2011中仅安排内容被显示在接收侧STT服务输出区域2010和接收侧TTS服务输出区域2020，但发送侧终端100和另外收发的信息可根据文本创建器2411的显示和移除而被进一步显示。例如，当文本创建器2411可输出在第二显示单元2400上时，接收侧终端200考虑画面尺寸而将最近收发的信息输出到接收侧STT服务输出区域2010和接收侧TTS服务输出区域2020。当从第一显示单元240移除了文本创建器2411时，接收侧终端200可支持屏幕尺寸调整和显示格式改变，使得预定数量的收发的信息被输出到接收侧STT服务输出区域2010和接收侧TTS服务输出区域2020中的至少一个。

同时，发送侧终端100可在不单独输出文本的情况下支持基于语音输入的通信服务。然而，如画面2003中所示，发送侧终端100可在第一显示单元140上提供发送侧STT服务输出区域2030和发送侧TTS服务输出区域2040，使得根据用户请求或终端设置而提供的服务内容可被确认。因此，发送侧终端100的用户可确认发送到接收侧终端200的哪些文本语音输入被传送。输出到发送侧STT服务输出区域2030的文本可以是基于第一语音处理支持装置400和存储在第一存储器150中的数据库而产生的文本或从接收侧终端200反馈的文本之一。发送侧终端100的用户可通过发送侧TTS服务输出区域2040另外确认接收侧终端200的用户接收到哪些文本输入。发送侧STT服务输出区域2030和发送侧TTS服务输出区域2040可根据用户设置被移除。当用户将终端移动到距脸颊或耳朵预定距离处时，发送侧STT服务输出区域2030和发送侧TTS服务输出区域2040可被自动移除。为了对于终端的接近识别，发送侧终端100可操作照明传感器或接近传感器。

如上所述，根据本发明的示例性实施例的运行通信服务的方法可在通信服务的运行过程中根据用户的各种环境来自适应地运行服务。因此，用户可根据用户的通信服务环境来选择合适方案的通信服务，使得信息可被准确地传送并且丢失信息的概率或误解的概率可被降低。

前述发送侧终端和接收侧终端可根据提供形式而进一步包括各种另外的模块。例如，当终端是通信终端时，它可包括没有提到的构造，诸如用于近场通信的近场通信模块、以终端的有线通信方案或无线通信方案交换数据的接口、与互联网进行通信以执行互联网功能的互联网通信模块、以及接收并广播数字广播的数字广播模块。因为结构元件可根据数字装置的融合趋势而被各种改变，因此没有列出元件。然而，便携式终端可包括与前述结构元件等同的结构元件。此外，根据本发明的示例性实施例的终端可根据提供形式或另一结构而被前述布置中的特定构造替代。这对于本领域技术人员而言可被容易理解。例如，根据本发明的示例性实施例的终端可包括信息通信装置和多媒体装置，诸如便携式多媒体播放器(PMP)、数字广播播放器、个人数字助理(PDA)、音乐播放器(例如，MP3播放器)、便携式游戏终端、智能电话、笔记本计算机和手持个人计算机(PC)以及与各种通信***相应的各种移动通信终端。

如上所述，基于根据本发明的示例性实施例的用于运行通信服务的方法和***，本发明可通过根据用户的通信服务运行环境提供合适的内容传送功能，针对状况或环境改善通信环境不足，从而提供极好的信息传送性能。

本发明可被总结为以下几条：

一种用于运行通信服务的***，所述***包括：发送侧终端，用于请求连接通信服务，用于接收关于另一方的输入/输出模式的信息，用于在通信服务被连接之后根据接收的所述另一方的输入/输出模式来转换用户输入数据和从所述另一方接收到的数据，或者通过将数据发送到用于转换用户输入数据的语音处理支持装置来接收经过转换的数据，用于输出与接收到的数据相应的转换数据，以及用于发送与用户输入数据相应的转换数据；

接收侧终端，用于接收根据对连接通信服务的请求的通信服务连接接受请求，用于当通信服务连接接受请求被接受时，使用预设输入/输出模式或用户确定的输入/输出模式中的至少一种输入/输出模式来启动通信服务，用于将关于输入/输出模式的信息发送到发送侧，用于显示从发送侧接收的转换数据，以及用于发送用户输入数据；

语音处理支持装置，用于提供将输入的语音数据作为文本数据提供的语音转文本(STT)服务和用于将文本转换为语音数据的文本转语音(TTS)服务中的至少一个服务。

如条款1所述的***，其中，接收侧终端被布置为基于网络评估信息、发送侧终端的外部环境信息和接收侧终端的外部环境信息中的至少一个，请求自动运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务，其中，语音转文本服务(STT)提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据，网络评估信息包括在发送侧终端和接收侧终端之间收发的数据包的丢失率和传输延迟程度中的至少一个。

如条款2所述的***，其中，外部环境信息包括：发送侧终端和接收侧终端中的至少一个的外部噪声信息、移动信息、位置信息、照明信息和当前时间信息中的至少一个。

如条款1所述的***，其中，接收侧终端形成以下信道中的至少一个：在与发送侧终端形成聊天服务信道的状态下用于支持STT服务和TTS服务中的至少一个服务的单独信道，以及在图像通话服务信道被形成的状态下用于支持STT服务和TTS服务中的至少一个服务的单独信道。

如条款4所述的***，其中，接收侧终端被布置为从提供自发送侧终端的数据提取当与产生的文本相应的语音信号被采集时所采集的时间戳信息和当语音信号被采集时针对图像通话服务所采集的图像数据的时间戳信息，以使文本与图像数据同步

如条款1所述的***，其中，接收侧终端包括：第二存储器，包括识别采集的语音信号的语音识别数据库和将输入文本转换为语音的语音转换数据库中的至少一个数据库。

如条款6所述的***，其中，接收侧终端被布置为进行控制，使得STT服务和TTS服务中的至少一个服务根据语音处理支持装置的连接状态和用户操作中的至少一个而被运行。

如条款1所述的***，其中，接收侧终端包括：第二显示单元，包括以下项中的至少一项：

弹出窗口，在通信连接请求被接收时从语音转文本(STT)服务和文本转语音(TTS)服务选择至少一个服务，其中，语音转文本服务(STT)提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据；

画面包括用于输出从发送侧终端提供的文本的区域和用于输出通过文本创建器输入的文本的区域中的至少一个区域，其中，所述文本创建器用于创建文本。

一种用于运行通信服务的方法，所述方法包括：

发送通信服务连接请求；

根据当输入/输出模式先前被设置时或当通信服务连接请求被接受时由用户确定的输入/输出模式来设置输入/输出模式；

接收针对通信服务连接请求的接受和关于另一方的输入/输出模式的信息；

接收用户输入数据；

根据接收到的用户输入数据的类型和输入/输出模式，转换接收到的用户输入数据，或者通过将接收到的数据发送到用于转换接收到的用户输入数据的语音处理支持装置来接收和发送经过转换的数据；

从另一方接收数据；

根据接收到的数据的类型和用户确定的输入/输出模式，转换接收到的数据，或者通过将接收到的数据发送到用于转换接收到的数据的语音处理支持装置来接收并显示经过转换的数据。

如条款9所述的方法，其中，设置输入/输出模式的步骤包括：

采集网络评估信息、发送侧终端的外部环境信息和接收侧终端的外部环境信息中的至少一个，其中，网络评估信息包括在执行通信服务连接请求的发送侧终端和接收通信服务连接请求的接收侧终端之间收发的数据包的丢失率和传输延迟程度中的至少一个。

由接收侧终端请求运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务，其中，STT服务提供基于语音识别的文本，TTS服务基于所述信息将文本转换为语音数据。

如条款10所述的***，其中，外部环境信息包括：发送侧终端和接收侧终端中的至少一个的外部噪声信息、移动信息、位置信息、照明信息和当前时间信息中的至少一个。

如条款9所述的方法，还包括以下步骤中的至少一个：

由接收通信服务连接请求的接收侧终端在与发送侧终端形成聊天服务信道的状态下形成用于支持语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务的单独信道，其中，语音转文本服务(STT)提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据；

由接收侧终端在图像通话服务信道被形成的状态下形成用于支持STT服务和TTS服务中的至少一个服务的单独信道，其中，STT提供基于语音识别的文本，TTS服务将文本转换为语音数据。

如条款12所述的方法，还包括：

由接收侧终端从提供自发送侧终端的数据提取当与产生的文本相应的语音信号被采集时所采集的时间戳信息和当语音信号被采集时针对图像通话服务所采集的图像数据的时间戳信息；

由接收侧终端使文本与图像数据同步。

如条款9所述的方法，还包括：由接收通信服务连接请求的接收侧终端使用存储在第二存储器中的语音识别数据库和语音转换数据库执行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务，其中，语音转文本服务(STT)将与语音信号相应的语音数据转换为文本数据，文本转语音(TTS)服务将文本数据转换为语音数据。

如条款14所述的方法，还包括：进行控制，使得基于语音识别数据库的STT服务和基于语音转换数据库的TTS服务中的至少一个服务根据语音处理支持装置的连接状态和用户操作中的至少一个被运行。

如条款12所述的方法，还包括以下步骤中的至少一个：

显示弹出窗口，其中，所述弹出窗口用于在通话连接请求被接收时从语音转文本(STT)服务和文本转语音(TTS)服务选择至少一个服务，其中，语音转文本(STT)服务将语音数据转换为文本数据，文本转语音(TTS)服务将文本数据转换为语音数据；

显示指导语音处理支持装置的连接的画面；

显示包括用于输出输入的文本的区域和用于输出根据STT服务的运行而产生的文本的区域中的至少一个区域的画面。尽管已参照本发明的特定示例性实施例显示并描述了本发明，但本领域技术人员将理解，在不脱离权利要求及其等同物限定的本发明的范围的情况下，可在此进行形式和细节上的各种改变。

Claims

1.一种用于运行通信服务的***，所述***包括：

发送侧终端，用于请求连接通信服务，并且用于在通信服务被连接之后根据预设输入/输出模式和用户确定的输入/输出模式中的至少一种输入/输出模式来转换接收数据或用户输入数据；

接收侧终端，用于接收根据对连接通信服务的请求的通信服务连接接受请求，用于当通信服务连接接受请求被接受时，使用预设输入/输出模式和用户确定的输入/输出模式中的所述一种输入/输出模式来启动通信服务，用于根据接收数据的类型和输入/输出模式来转换接收数据和用户输入数据或者通过将用户输入数据发送到用于转换用户输入数据的语音处理支持装置来接收经过转换的数据，用于显示与接收数据相应的转换数据，以及用于发送与用户输入数据相应的转换数据；

语音处理支持装置，用于将输入的语音数据转换为文本数据并且用于输出转换后的文本数据，或者用于将输入的文本数据转换为语音数据以输出经过转换的语音数据。

2.如权利要求1所述的***，其中，发送侧终端被布置为根据输入/输出模式将请求运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务的消息发送到接收侧终端，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据。

3.如权利要求1所述的***，其中，接收侧终端被布置为当通信服务连接请求从发送侧终端被接收时，根据输入/输出模式向发送侧终端请求运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据。

4.如权利要求1所述的***，其中，发送侧终端和接收侧终端中的至少一个终端被布置为基于网络评估信息、发送侧终端的外部环境信息和接收侧终端的外部环境信息中的至少一个信息来请求自动运行语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据，网络评估信息包括发送侧终端和接收侧终端之间收发的数据包的丢失率和传输延迟程度中的至少一个。

5.如权利要求4所述的***，其中，外部环境信息包括以下信息中的至少一个信息：发送侧终端和接收侧终端中的至少一个的外部噪声信息、移动信息、位置信息、照明信息和当前时间信息。

6.如权利要求1所述的***，其中，在聊天服务信道被形成的状态下，发送侧终端和接收侧终端形成用于支持语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务的单独信道，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据。

7.如权利要求1所述的***，其中，在图像通话服务信道被形成的状态下，发送侧终端和接收侧终端形成用于支持语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务的单独信道，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据。

8.如权利要求7所述的***，其中，发送侧终端被布置为把将被发送用于支持图像通话服务的图像数据与基于STT服务的运行而产生的文本进行组合，并将组合的数据发送到接收侧终端。

9.如权利要求8所述的***，其中，发送侧终端被布置为使用当与产生的文本相应的语音信号被采集时所采集的时间戳信息和当语音信号被采集时所采集的图像数据的时间戳信息，使文本与图像数据同步。

10.如权利要求8所述的***，其中，发送侧终端被布置为进行控制，使得在通过识别新输入的语音信号而获得的文本之前的预定时间期间将先前被语音识别出的文本与图像数据同步，并且发送侧终端被布置为进行控制，使得当被语音识别出的文本被输入时的输入文本与图像数据同步。

11.如权利要求1所述的***，其中，发送侧终端包括：第一存储器，包括识别采集的语音信号的语音识别数据库和将输入文本转换为语音的语音转换数据库中的至少一个数据库。

12.如权利要求11所述的***，其中，发送侧终端被布置为进行控制，使得语音转文本(STT)服务和文本转语音(TTS)服务中的至少一个服务根据语音处理支持装置的连接状态和用户操作中的至少一个而被运行，其中，语音转文本(STT)服务基于语音识别数据库而将语音提供为文本，文本转语音(TTS)服务将文本转换为语音数据。

13.如权利要求1所述的***，其中，发送侧终端包括：第一显示单元，包括以下项中的至少一项：

弹出窗口，用于从语音转文本(STT)服务和文本转语音(TTS)服务选择至少一个服务，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据；

用于根据STT服务的操作来指导语音处理支持装置的连接的画面；

包括用于输出被语音识别出的文本的区域和用于输出由接收侧终端创建和发送的文本的区域中的至少一个区域的画面。

14.如权利要求1所述的***，其中，接收侧终端包括：第二显示单元，包括以下项中的至少一项：

弹出窗口，用于当通话连接请求被接收时从语音转文本(STT)服务和文本转语音(TTS)服务选择至少一个服务，其中，语音转文本(STT)服务提供基于语音识别的文本，文本转语音(TTS)服务将文本转换为语音数据；

包括用于输出从发送侧终端提供的文本的区域和用于输出通过文本创建器输入的文本的区域中的至少一个区域的画面，其中，文本创建器用于创建文本。

15.一种运行通信服务的方法，所述方法包括：

接收通信服务连接请求；

通过接受通信服务连接请求来形成通信路径；

从另一方接收数据；

根据接收到的数据的类型和输入/输出模式，转换接收到的数据，或者通过将接收到的数据发送到用于转换接收到的数据的语音处理支持装置来接收并显示经过转换的数据；

接收用户输入数据；

根据接收到的数据的类型和输入/输出模式，转换接收到的数据，或者通过将接收到的数据发送到用于转换接收到的数据的语音处理支持装置来接收经过转换的数据，并将经过转换的数据发送到所述另一方。