CN1829254A - 移动终端及其文语转换方法 - Google Patents
移动终端及其文语转换方法 Download PDFInfo
- Publication number
- CN1829254A CN1829254A CNA2006100739593A CN200610073959A CN1829254A CN 1829254 A CN1829254 A CN 1829254A CN A2006100739593 A CNA2006100739593 A CN A2006100739593A CN 200610073959 A CN200610073959 A CN 200610073959A CN 1829254 A CN1829254 A CN 1829254A
- Authority
- CN
- China
- Prior art keywords
- display object
- text
- display
- voice
- show
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 claims abstract description 30
- 238000004891 communication Methods 0.000 claims abstract description 16
- 238000012937 correction Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims 4
- 238000006243 chemical reaction Methods 0.000 abstract description 51
- 239000000203 mixture Substances 0.000 description 57
- 238000012545 processing Methods 0.000 description 35
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 230000008859 change Effects 0.000 description 7
- 235000021016 apples Nutrition 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 235000021012 strawberries Nutrition 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/0202—Portable telephone sets, e.g. cordless phones, mobile phones or bar type handsets
- H04M1/0206—Portable telephones comprising a plurality of mechanically joined movable body parts, e.g. hinged housings
- H04M1/0208—Portable telephones comprising a plurality of mechanically joined movable body parts, e.g. hinged housings characterized by the relative motions of the body parts
- H04M1/0214—Foldable telephones, i.e. with body parts pivoting to an open position around an axis parallel to the plane they define in closed position
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/23—Construction or mounting of dials or of equivalent devices; Means for facilitating the use thereof
- H04M1/236—Construction or mounting of dials or of equivalent devices; Means for facilitating the use thereof including keys on side or rear faces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/16—Details of telephonic subscriber devices including more than one display unit
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种能够实现平滑的文语转换的移动终端以及该终端的文语转换方法,即,一种能够在显示单元上显示从通过通信单元与网络相连的服务器获得的信息的移动终端,包括:存储单元;语音合成器,用于将文本转换为语音;以及控制器,用于从获得的信息提取显示对象和由提供显示对象的服务器所定义的显示规则,将显示对象和显示规则相互链接地存储在存储单元中,以及根据显示规则在显示单元上显示显示对象,其中,当在显示获得的信息的状态中请求启动语音合成器时,控制器进行控制,以便语音合成器参考存储在存储单元中的显示规则将从显示对象提取的文本转换成语音。
Description
技术领域
本发明涉及一种具有把显示器上的项目由文本转换为语音的功能的移动终端,及其文语转换(text-to-speech)方法。
背景技术
近几年,对于移动终端,已经建议通过键操作设置大声说出功能名称等的移动电话(例如,参见日本未审专利公开(Kokai)No.11-252216)。这种移动电话具有:多个键操作单元;控制器,用于设置在该电话所提供的多种功能中与一个或多个键操作单元的键操作相对应的功能;以及语音合成器,用于通过语音来输出设置为与键操作相链接的功能名称。
另外,作为使用语音输出功能的***,已经建议一种电子邮件(e-mail)***,其使发送者能够选择当通过电子邮件发送文本时用于在接收侧将文本转换为语音的语音质量(例如,参见日本未审专利公开(Kokai)No.2004-185055)。
在具有上述文语转换功能的移动终端中,通过将文本传送到引擎(控制器和语音合成器),用于转换为语音,来实现该功能。
然而,网络(web)或其他安装的浏览器向移动终端一侧通知绘图(drawing)信息显示文本,但不通知用于转换为语音的实际文本(actual text)。由被划分为较小部分的文本来通知绘图信息,因此如果将这些文本按原样通知给引擎,句子会被频繁中断。此外,文本通知顺序并不总是从显示的顶端开始,因此如果按照通知顺序将文本转换为语音,将不能得到适当的句子。此外,根据绘图的样式(style),甚至同一行的文本也可能由偏离的坐标值来通知,因此将不能够作为同一行的文本来处理。
此外,修改浏览器一侧并添加文语转换接口以实现文语转换是周知的,但是即使在这种情况下,也不能显示通用站点(HTML等)。实际上仅能够处理特定站点。此外,由于浏览器被修改,绘图远不同于普通浏览器(其中与所有显示的文本相链接的状态)。因此,在很多方式中限制浏览器查看。
发明内容
本发明的目的是提供一种能够进行平滑的文语转换的移动终端及其文语转换方法。
根据本发明的第一方面,提供了一种移动终端,包括:通信单元,用于跟与网络相连的服务器进行通信;显示单元,用于显示从服务器获得的信息;存储单元,用于存储信息;语音合成器,用于将文本转换为语音;以及控制器,用于从获得的信息提取显示对象和由提供显示对象的服务器所定义的显示规则、将显示对象和显示规则相互链接地存储在存储单元中、以及根据显示规则在显示单元上显示显示对象,其中,当在显示获得信息的状态中请求启动语音合成器时,控制器进行控制,以便语音合成器参考存储在存储单元中的显示规则将从显示对象提取的文本转换为语音。
优选地,显示规则至少包括显示对象的显示坐标,并且当在显示获得信息的状态中请求启动语音合成器时,控制器进行控制,以便在按照显示坐标对存储在存储单元中的显示对象进行排序之后,语音合成器将文本转换为语音。
可选地,显示规则至少包括显示对象的显示坐标和显示格式,存储单元针对多种显示格式存储显示坐标的修正值,并且在按照修正值修正显示对象之后,控制器根据各个显示对象的显示格式对其进行排序。
可选地,显示规则至少包括显示对象的显示坐标和显示尺寸,存储单元针对多种显示尺寸存储显示坐标的修正值,并且在按照修正值修正显示对象之后,控制器根据各个显示对象的显示尺寸对其进行排序。
可选地,显示规则至少包括显示对象的显示格式,并且控制器从存储在存储单元中的多个显示对象中搜索与在光标定位处的显示所用的显示格式相链接的显示对象,并控制语音合成器,以便当在显示获得信息的状态中请求启动语音合成器时,将检索到的显示对象的文本转换为语音。
根据本发明的第二方面,提供了一种移动终端的文语转换方法,该移动终端具有语音合成功能和显示功能,并且显示从与网络相连的服务器所获得的信息,所述方法包括:第一步骤,从获得的信息提取显示对象和由提供显示对象的服务器所定义的显示规则;以及第二步骤,将显示对象和显示规则相互链接地存储在存储单元中,并且根据显示规则显示显示对象,其中,第二步骤包括步骤:当在显示获得信息的状态中请求启动语音合成功能时,参考存储在存储单元中的显示规则,将从显示对象提取的文本转换成语音。
附图说明
参考附图,从下面的优选实施例的描述中,本发明的这些和其它的目的和特征将变得更为清楚,其中:
图1是示出了移动电话的***配置的示例的方框图;
图2A至2D是示出了移动电话的外观的示例的视图,其中,图2A是前表面的外观视图,图2B是后表面的外观视图,图2C是侧面的外观视图,图2D是侧面的外观视图;
图3是用于解释根据本实施例在启动浏览器时信息的显示和文语转换操作的流程图;
图4是根据本实施例的特定样式的显示图像的图像视图;
图5是根据本实施例的通知信息、当前字体大小以及样式(链接)的修正值的示例的视图;
图6是根据本实施例在排序文本之前文本和存储管理信息在存储区域中的存储的示例的视图;
图7是根据本实施例在排序文本之后文本和存储管理信息在存储区域中的存储的示例的视图;
图8是根据本实施例的文语转换请求的图像的示例的视图。
具体实施方式
下面,将参考附图说明本发明的实施例。
图1是示出了作为本发明移动终端的移动电话10的***配置的示例的图。图2A至2D是移动电话10的外观的示例的视图。移动电话10是具有运动机构的所谓翻盖型移动电话。图2A是打开状态的前视图,图2B是关闭状态的前视图,图2C是打开状态的侧视图,和图2D是关闭状态的侧视图。
如此配置根据本实施例的移动电话10,以便可以在显示单元上显示从与无线通信网络20相连的服务器30所获得的网络信息(获得的信息)。此外,除了电话的普通功能之外,根据本实施例的移动电话10还具有文语转换功能,并且被配置为将例如来自浏览器的绘图请求所通知的文本作为用于文语转换的文本信息来处理,并且配置为能够给出与普通浏览器的显示相同的显示,而不需要修改浏览器。
此外,根据本实施例的移动电话10具有下面的处理功能。移动电话10基于获得的网络信息,提取要显示的显示对象和由在提供显示对象的服务器30上管理的内容所定义的样式及其他显示规则,将显示对象和显示规则相互链接地存储在存储单元中,并且根据提取的样式或其他显示规则来显示显示对象。注意,显示规则包括显示坐标(X,Y)、显示格式(风格)和显示尺寸。此外,移动电话10具有功能:当在显示获得的网络信息的状态中针对文语转换操作请求启动文语转换功能(语音合成器)时,参考存储在存储单元中的样式(显示规则),由语音合成器将从显示对象提取的文本转换成语音。
可选地,移动电话10具有功能:当在显示获得的网络信息状态中请求启动文语转换功能(语音合成器)时,在按照显示坐标对存储在存储单元中的显示对象进行排序之后,将文本转换成语音。可选地,移动电话10具有功能:针对多种显示格式存储显示坐标的修正值,并且在按照修正值修正显示对象之后,根据各个显示对象的显示格式对显示对象进行排序。可选地,移动电话10具有功能:针对多种显示尺寸存储显示坐标的修正值,并且在按照修正值修正显示对象之后,根据各个显示对象的显示尺寸对显示对象进行排序。可选地,移动电话10具有功能:当在显示获得的网络信息的状态中请求启动文语转换功能(语音合成器)时,从存储在存储单元中的多个显示对象中搜索与在光标定位处的显示所用的显示格式相链接的显示对象,并且至少将检索到的显示对象的文本转换为语音。
下面,将依次说明根本实施例的移动电话10的组成部分的配置和功能及文语转换控制。
如图1所示,移动电话10具有:包括发射/接收天线111的通信处理单元11、存储器(存储单元)12、键操作单元13、拨号输入单元14、子显示单元15、主显示单元16、包括扬声器171和麦克风172的语音合成处理单元17、文语转换键操作单元18以及控制器(CPU)19。此外,如图2A所示,移动电话10的主体100由作为第一壳体的键输入侧主体101和作为第二壳体的显示侧主体102构成,两部分主体通过未示出的运动机构连接以形成开/关状态。
通信处理单元11通过基站执行无线通信操作,例如,拨打电话号码并且发送或接收邮件。通信处理单元11包括发射/接收天线111。通信处理单元11调制在控制器19处处理的音频信息、电子邮件等,并使用无线电波,通过发射/接收天线111,经由未示出的基站和通信网络20将这些信息发射到服务器30,用于无线通信。此外,通信处理单元11解调电子邮件、音频信息以及从基站无线发射并且在发射/接收天线111处接收的其他各种信息,并且将这些信息输出到控制器19。通信处理单元11将从与无线通信网络20相连的服务器30所获得的网络信息(获得的信息)输出到控制器19。注意,在本实施例中,图2中发射/接收天线111被安装在键输入侧主体101中或显示侧主体102中,并不暴露外边。
存储器(存储单元)12由EEPROM或其它非易失性存储器构成,并存储控制程序,控制程序用于发射和接收语音和邮件、因特网浏览器、消息数据、地址薄登记名称和电话号码等。存储器12存储包括后面提到的文语转换功能所必需的文本的文语转换数据库。在该数据库中,***地将用于转换为语音的文本排列在上下文中以组成句子。存储器12存储文语转换功能的控制表和加权(weighting)表。存储器12存储与显示单元所显示的菜单相对应的“标准文本”、“缩短文本”、和“扩展文本”。存储器12互相链接地存储从控制器19中的网络信息提取的显示对象和由提供显示对象的服务器所定义的显示规则。此外,存储器12针对来自控制器19的多种显示格式存储显示坐标的修正值。此外,存储器12针对来自控制器19的多种显示尺寸存储显示坐标的修正值。
键操作单元13包括结束(挂机)/电源键、开启(呼叫)键、与数字相对应的十个键等。通过用户操作这些键,用户的输入信息被输出到控制器19。此外,通过操作键操作单元13,可以设置是否通过控制器19大声说出存储在存储器12中的文语转换功能的控制表的项目(开/关)。
拨号输入单元14是拨号类型的输入单元。它被安置在显示侧主体102的侧面,以便当用户手持移动电话10处在如图2C所示打开状态时便于用户拇指的操作,并且被配置为可以向上和向下操作(双向操作)。通过操作拨号输入单元14,用户可以改变音频的输出音量和在子显示单元15、主显示单元16上显示的字体大小。此外,从图2C和图2D中显而易见,当在关闭状态和打开状态中比较拨号输入单元14时,向上和向下的双向操作方向是物理相反的,但是在本实施例中,控制器19通过使从用户看的操作方向与关于操作(例如,上述音量或显示字体大小(显示的字体大小)的改变)的动作总是一致,来进行控制,以使用户不感觉奇怪。
子显示单元15具有如图2B所示的由用户在关闭状态观看的液晶显示器(LCD)或其它显示器。主显示单元16具有如图2A所示的由用户在打开状态观看的LCD或其它显示器。在控制器19的控制下,在关闭状态和打开状态中,子显示单元15和主显示单元16显示存储在存储器12中的接收到的电子邮件的文本和各种文本数据等。此外,在控制器19的控制下,在关闭状态和打开状态中,子显示单元15和主显示单元16以根据存储在存储器12中的显示规则(显示坐标、显示格式、或/和显示尺寸)的格式,来显示获得的网络信息。
语音合成处理单元17具有音频处理电路,用于输出音频的扬声器171和用于输入音频的麦克风172与之相连用于执行呼叫功能。语音合成处理单元17对于麦克风172所拾取的音频执行预定处理,并将其提供给控制器19。此外,语音合成处理单元17对于控制器19所提供的音频信息执行预定处理,并使扬声器171输出该信息。
此外,如图2A和2B所示,扬声器171包括语音扬声器171a和铃声扬声器171b(即,两个音频输出单元),并且输出文语转换功能处理结果的音频。此外,语音合成处理单元17具有语音合成电路,在文语转换时语音合成电路将从存储器12读出和提取的文本数据或说明转换为控制器19中的语音数据,并且通过由语音扬声器171a或铃声扬声器171b组成的语音输出单元来合成语音。
文语转换键操作单元18由安装在显示侧主体102中心的按钮18a和针对按钮所输入的切换的输入电路构成,如图2B所示。在本实施例中,移动电话10具有文语转换功能,并且由控制器19控制,以便当按下(***作)按钮18a时,移动电话10在关闭状态中从铃声扬声器171a输出语音并且在打开状态中从语音扬声器171b输出语音。
控制器19主要由将移动电话10作为整体来控制的微处理器组成。例如,控制器19控制通信处理单元11中的各种信息的无线发射/接收、语音合成处理单元17的音频信息的处理、给主显示单元16的信息显示、响应键操作单元13的输入信息的处理、对存储器12的存取等。
当用户操作按钮18a时,控制器19主要执行显示文本的文语转换功能。此时,所用的文语转换功能不是输出用于文语转换的音频数据的类型,而是提取/产生文本以及将文本转换为语音的类型。
控制器19启动浏览器,从获得的网络信息提取显示对象和针对提供显示对象的服务器30上的每个内容所定义的显示规则,并且将显示对象和显示规则相互链接地存储在存储器12中。控制器19使主显示单元16或子显示单元15根据提取的显示规则来显示显示对象。当获得的网络信息被显示在主显示单元16或子显示单元15上时,在例如操作文语转换键操作单元18以请求启动语音合成处理单元17的这种显示状态中,控制器19参考存储在存储器12中的显示规则,使语音合成处理单元17将从显示对象提取的文本转换为语音。
此外,当获得的网络信息被显示在主显示单元16或子显示单元15上时,在例如操作文语转换键操作单元18以请求启动语音合成处理单元17的这种显示状态中,控制器19按照显示坐标对存储在存储器12中的显示对象进行排序,然后使语音合成处理单元17将该文本转换为语音。
此外,控制器19针对多种显示格式将显示坐标的修正值存储在存储器12中。在按照修正值修正显示对象之后,控制器19根据各个显示对象的显示格式对显示对象进行排序。
此外,控制器19针对多种显示尺寸将显示坐标的修正值存储在存储器12中。在按照存储在存储器12中的修正值修正显示对象之后,控制器19根据各个显示对象的显示尺寸对显示对象进行排序。
此外,当获得的网络信息被显示在主显示单元16或子显示单元15上时,在例如操作文语转换键操作单元18以请求启动语音合成处理单元17的这种显示状态中,控制器19从存储在存储器12中的多个显示对象中搜索与在光标定位处的显示所用的显示格式相链接的显示对象,并且使语音合成处理单元17将检索到的显示对象的文本转换为语音。
此外,控制器19具有控制功能,用于根据传送文本的样式来修正坐标值,并且不按照传送的顺序而是在按照坐标排序之后进行文语转换操作,并且具有控制语音合成处理单元17的功能,以便根据绘图样式改变文语转换操作的语音质量、速度、声调等,或在改变可选对象时改变文语转换操作的语音质量、速度、声调。
此外,控制器19控制该***,以便当显示另一屏幕时中断文语转换操作。此外,控制器19控制该***,以便当指定闪动时,当针对相同文本传送多个绘图请求时仅在第一次将文本转换为语音。控制器19控制语音合成处理单元17,以便当将文本转换为语音时把分成多个部分传送的文本一起按照相同语音质量转换为语音。
此外,在文语转换操作期间,控制器19通过缓冲最新显示文本,来避免文语转换操作的中断。此外,控制器19控制语音合成处理单元17,以便当显示另一屏幕时中断文语转换操作。此外,控制器19控制语音合成处理单元17,以便当光标移动到可选对象时中断文语转换操作并将相应的对象转换为语音。此外,控制器19通过根据从显示单元16和15的显示区域部分突出的文本的坐标值来确定文语转换目标范围,以避免重复(overlapping)文语转换操作。此外,控制器19被配置成当没有文本通知时(例如在高速缓冲存储器(cache)显示时),由显示请求再次通知文本。
接下来,将参考图3至图8来解释通过上述配置的操作,主要是关于在启动浏览器时信息的显示和文语转换操作。
图3是用于解释在启动浏览器时信息的显示和文语转换操作的流程图。图4是示出了特定样式的显示图像的图像的图。图5是示出了通知信息、当前字体尺寸以及样式(链接)的修正值的示例的表。图6是示出了在排序文本之前存储管理信息的存储和文本的存储区域的示例的表。图7是示出了在排序文本之后存储管理信息的存储和文本的存储区域的示例的表格。图8是示出了文语转换请求的图像的示例的图。
当启动浏览器(ST1)并发出绘图开始请求的通知(ST2)时,通知要绘图的文本、样式和坐标(ST3)。接下来,判断获得的信息中样式信息是否是对对象的选择(ST4)。当在步骤ST4判断是选择时,例如将获得的文本存储(缓存)在存储器12中(ST5)。接下来,判断获得的样式是否是用于修正的样式(ST6)。当在步骤ST6判断获得的样式是用于修正的样式时,修正坐标值(ST7),例程前进到步骤ST8的处理,然而当判断获得的样式不是用于修正的样式时,例程前进到步骤ST8的处理而不经过步骤ST7的修正处理。然后,在步骤ST8,判断坐标是否是针对已绘图屏幕的,当不是针对已绘图屏幕时,丢弃文本(ST9),然后例程前进到步骤ST10的处理,然而当是针对已绘图屏幕时,例程前进到步骤ST10的处理而不经过步骤ST9的处理。在步骤ST10,判断绘图处理是否结束。当没有结束时,例程前进到从步骤ST2开始的处理。当在步骤ST10判断绘图处理结束时,对文本进行排序(ST11)并传送具有相同样式的文本(ST12)。当在步骤ST4判断选择该样式时,将相应的对象转换为语音(ST13)并且清除该文本的缓冲(ST14)。
注意,在本实施例中,将来自浏览器的显示请求所通知的文本作为用于文语转换操作的文本信息来处理。然后,在每个主要步骤中,具体执行下面的处理。
步骤ST7的坐标修正变为下面的处理。例如,如图4所示,在按照特定样式的绘图中坐标位置会偏离,因此根据显示格式(样式)和大小来修正坐标位置。修正特定显示对象(链接)(如“APPLES”)的坐标位置。当由绘图请求通知链接的样式时,根据当前字体大小从用于修正坐标的数据库中确定修正值并且修正。例如,如图5所示,当考虑“APPLES”的通知信息是坐标值X为0和Y为5,样式是“LINK”,字母数是“6”,当前字体大小设置为“FONT SIZESTANDARD”,并且对于小字体大小样式(LINK)修正值是“Y-3”、对于标准字体大小是“Y-5”并且对于大字体大小是“Y-8”的情况时,如下修正坐标位置。
基于上面的信息来修正坐标值。字体大小在样式(LINK)上是标准的,所以将-5添加到6个字母“APPLES”的Y-坐标上,坐标值成为(X:0,Y:0)。
此外,在步骤ST11,如果按照绘图请求的通知的顺序来执行文语转换操作,有时结果将不能成为一个句子,因此通过使用文本所附的坐标值来执行排序。注意,对于坐标值,使用修正处理之后的值。
图6示出了在排序文本之前文本的存储管理信息和存储区域的存储的示例,以及图7示出了在排序文本之后的存储的示例。在本示例中,如图6所示,在文本排序之前文本是“FRUIT:”、“100YEN”、“TWO”、“ORANGES”、“200YEN”、“MELONS”、“300YEN”、“STRAWBERRIES”、“400YEN”以及“APPLES”,但是在文本排序之后,如图7所示,文本变为“FRUIT:”、“APPLES”、“100YEN”、“TWO”、“ORANGES”、“200YEN”、“MELONS”、“300YEN”、“STRAWBERRIES”以及“400YEN”。
此外,针对每一个显示对象通知不同的绘图样式,因此执行根据显示对象的文语转换操作。当考虑图4的屏幕图像的示例时,按照与标准(设定语音)不同的语音,将该链接的文本转换为语音。
此外,由绘图样式指定光标移动到的对象,并且通过改变语音类型来将相应的文本转换为语音。当考虑图4的屏幕图像的示例时,按照与标准不同的语音,将“APPLES”的文本转换为语音。
此外,针对每一行或对象,传送绘图请求,因此通过缓冲多个绘图请求并一起通知给文语转换引擎(控制器和语音合成处理单元),来执行平滑的文语转换操作。例如,如图8所示,即使针对每一行通知文本时,通过忽略行的改变,按照相同的文语转换方法将文本转换为语音。
此外,在文语转换期间行滚动操作缓冲最新的显示行,并在文语转换结束的时刻将其传送到文语转换引擎。
此外,在页滚动或跳到另一屏幕时,丢弃正在被转换为语音的文本,并且从页的页眉开始执行文语转换操作。
此外,将在从绘图开始请求到绘图结束请求之间的间隔期间通知的文本设置为由文语转换来覆盖。此外,当在相同坐标处通知文本时,第一通知文本有效。
当光标移动到可选对象时,中断正在被转换为语音的文本,并且将相应的对象转换为语音。
在屏幕显示上,显示的文本有时在顶端和底端被截掉。在这种情况,通过坐标值确定文语转换操作的覆盖范围。
当显示存储在高速缓冲存储器(cache)中的屏幕等时,没有通知绘图请求,因此通过请求再次绘图来获得文本。
通过样式来判断不具有任何文本的对象并通过特定文本将其转换为语音。例如,对于单选按钮或不具有任何文本的其它对象,在移动和确定的时刻,通过将处理单元内的文本传送到由控制器构成的引擎,来完成文语转换操作。
如上面的说明,根据本实施例,提供了:存储器12;语音合成处理单元17,用于将文本转换为语音;控制器19,用于从通过通信单元11与网络20相连的服务器30获得的网页信息中提取显示对象和由提供显示对象的服务器30所定义的显示规则,将显示对象和显示规则相互链接地存储在存储器12中,并且使显示单元16和15根据显示规则来显示显示对象。当在显示获得的网络信息的状态中请求启动语音合成处理单元17时,控制器19使语音合成处理单元17参考存储在存储器12中的显示规则,将从显示对象提取的文本转换为语音。此外,控制器19被配置成根据通知文本的样式来修正坐标值,在排序之后不按照通知顺序但是按照坐标来执行文语转换操作,根据显示样式来改变文语转换操作的语音质量、速度、声调等,在可选对象改变时改变文语转换操作的语音质量、速度、和声调,并且即使由于例如闪动(blinking)而通知相同的文本时仅将文本转换为语音一次。因此,可以获得下面的效果。
可以实现平滑的文语转换。因为绘图请求被用于文语转换操作,可以实现该操作,而不需要修改浏览器。结果,可以实现与普通浏览器相同的显示。当按照相同的语音质量将文本转换为语音时,通过一起转换分成多个部分来通知的文本,可以避免文语转换操作的中断,并且提高了正确读出段落的概率。此外,在文语转换期间,缓冲最新显示的文本,因此可以在文语转换操作结束之后将缓冲的文本转换为文本。这使得能够避免文语转换操作的中断。
此外,当显示另一屏幕时可以中断文语转换操作,并因此屏幕和文语转换相匹配。此外,当光标移动到另一个可选对象时,可以中断文语转换操作并且将相应的对象从文本转换为语音,因此可以进行文语转换操作,而不偏离选择的时刻。
此外,对于从显示区域部分突出的文本,可以通过坐标值来确定文语转换目标范围,因此可以避免两次转换为语音。在高速缓冲存储器(cache)显示或者没有通知文本时,可以通过请求再次绘图来再次通知文本。因为即使如果获得文本并再次绘图,显示相同的屏幕,因此不会发生闪烁。此外,通过样式判断对象不具有任何文本,可以赋予改对象特定文本并将该文本转换为语音。
注意,上面说明的文语转换处理作为文语转换程序被存储在可以由终端(计算机)读取的存储介质、半导体存储器件(存储器)、光盘、硬盘等中,并由终端读取和执行。
尽管已经参考为了演示而选择的特定实施例描述了本发明,显而易见地,本领域技术人员可以对其进行多种修改,而不偏离本发明的基本原理和范围。
Claims (14)
1.一种移动终端,包括:
通信单元,用于跟与网络相连的服务器进行通信;
显示单元,用于显示从服务器获得的信息;
存储单元,用于存储信息;
语音合成器,用于将文本转换为语音;以及
控制器,用于从获得的信息提取显示对象和由提供显示对象的服务器所定义的显示规则,将显示对象和显示规则相互链接地存储在存储单元中,并且根据显示规则在显示单元上显示显示对象,其中
当在显示获得的信息的状态中请求启动语音合成器时,控制器进行控制,以便语音合成器参考存储在存储单元中的显示规则将从显示对象提取的文本转换为语音。
2.如权利要求1所述的移动终端,其中:
显示规则至少包括显示对象的显示坐标,以及
控制器进行控制,以便当在显示获得的信息的状态中请求启动语音合成器时,在按照显示坐标对存储在存储单元中的显示对象进行排序之后,语音合成器将文本转换为语音。
3.如权利要求2所述的移动终端,其中:
显示规则至少包括显示对象的显示坐标和显示格式,
存储单元针对多种显示格式存储显示坐标的修正值,以及
在按照修正值修正显示对象之后,控制器根据各个显示对象的显示格式来排序显示对象。
4.如权利要求2所述的移动终端,其中:
显示规则至少包括显示对象的显示坐标和显示尺寸,
存储单元针对多种显示尺寸存储显示坐标的修正值,以及
在按照修正值修正显示对象之后,控制器根据各个显示对象的显示尺寸来排序显示对象。
5.如权利要求1所述的移动终端,其中:
显示规则至少包括显示对象的显示格式,以及
控制器从存储在存储单元中的多个显示对象中搜索与在光标定位处的显示所用的显示格式相链接的显示对象,并且控制语音合成器,以便当在显示获得的信息的状态中请求启动语音合成器时,把检索到的显示对象的文本转换为语音。
6.如权利要求5所述的移动终端,其中,控制器进行控制,以便语音合成器按照互相不同的语音将光标定位的显示对象的文本转换为语音。
7.如权利要求5所述的移动终端,其中,控制器进行控制,以便当存在多个链接的显示对象时,针对链接的显示对象,语音合成器按照不同于标准的语音将文本转换为语音。
8.一种移动终端的文语转换方法,所述移动终端具有语音合成功能和显示功能,并且显示从与网络相连的服务器所获得的信息,该方法包括:
第一步骤,从获得的信息提取显示对象和由提供显示对象的服务器所定义的显示规则,以及
第二步骤,将显示对象和显示规则相互链接地存储在存储单元中,以及根据显示规则来显示显示对象,其中,
第二步骤包括步骤:当在显示获得的信息的状态中请求启动语音合成功能时,参考存储在存储单元中的显示规则将从显示对象提取的文本转换为语音。
9.如权利要求8所述的移动终端的文语转换方法,其中
显示规则至少包括显示对象的显示坐标,以及
第二步骤包括步骤:当在显示获得的信息的状态中请求启动语音合成功能时,在按照显示坐标对存储在存储单元中的显示对象进行排序之后,将文本转换为语音。
10.如权利要求9所述的移动终端的文语转换方法,其中
显示规则至少包括显示对象的显示坐标和显示格式,以及
第二步骤包括步骤:针对多种显示格式存储显示坐标的修正值,以及
在按照修正值修正显示对象之后,根据各个显示对象的显示格式来排序显示对象。
11.如权利要求9所述的移动终端的文语转换方法,其中
显示规则至少包括显示对象的显示坐标和显示尺寸,以及
第二步骤包括步骤:针对多种显示尺寸存储显示坐标的修正值,以及
在按照修正值修正显示对象之后,根据各个显示对象的显示尺寸来排序显示对象。
12.如权利要求8所述的移动终端的文语转换方法,其中
显示规则至少包括显示对象的显示格式,以及
第二步骤包括步骤:从存储在存储单元中的多个显示对象中搜索与在光标定位处的显示所用的显示格式相链接的显示对象,以及
当在显示获得的信息的状态中请求启动语音合成功能时,将检索到的显示对象的文本转换为语音。
13.如权利要求12所述的移动终端的文语转换方法,其中
第二步骤包括步骤:通过互相不同的语音,将光标定位的显示对象的文本转换为语音。
14.如权利要求12所述的移动终端的文语转换方法,其中
第二步骤包括步骤:当存在多个链接的显示对象时,针对链接的显示对象,按照不同于标准的语音,将文本转换为语音。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005012026A JP4743686B2 (ja) | 2005-01-19 | 2005-01-19 | 携帯端末装置、およびその音声読み上げ方法、並びに音声読み上げプログラム |
JP2005-012026 | 2005-01-19 | ||
JP2005012026 | 2005-01-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1829254A true CN1829254A (zh) | 2006-09-06 |
CN1829254B CN1829254B (zh) | 2011-07-27 |
Family
ID=36685106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100739593A Expired - Fee Related CN1829254B (zh) | 2005-01-19 | 2006-01-19 | 移动终端及其文语转换方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8515760B2 (zh) |
JP (1) | JP4743686B2 (zh) |
CN (1) | CN1829254B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831888A (zh) * | 2011-06-15 | 2012-12-19 | 镇江佳得信息技术有限公司 | 一种移动通讯终端实现语音合成的方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101095287B (zh) * | 2004-04-20 | 2011-05-18 | 语音信号科技公司 | 基于短消息的话音服务 |
US8635069B2 (en) | 2007-08-16 | 2014-01-21 | Crimson Corporation | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US9531854B1 (en) | 2009-12-15 | 2016-12-27 | Google Inc. | Playing local device information over a telephone connection |
US9384073B2 (en) * | 2012-03-01 | 2016-07-05 | Google Inc. | Cross-extension messaging using a browser as an intermediary |
JP6379813B2 (ja) * | 2013-08-23 | 2018-08-29 | 株式会社リコー | 情報処理システム、方法、情報処理装置およびプログラム |
US9558736B2 (en) * | 2014-07-02 | 2017-01-31 | Bose Corporation | Voice prompt generation combining native and remotely-generated speech data |
US9311911B2 (en) | 2014-07-30 | 2016-04-12 | Google Technology Holdings Llc. | Method and apparatus for live call text-to-speech |
US10033797B1 (en) | 2014-08-20 | 2018-07-24 | Ivanti, Inc. | Terminal emulation over HTML |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
US10891939B2 (en) * | 2018-11-26 | 2021-01-12 | International Business Machines Corporation | Sharing confidential information with privacy using a mobile phone |
CN113381922B (zh) * | 2020-03-09 | 2024-02-27 | 阿尔派株式会社 | 电子装置以及信息的再生控制方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4125868A (en) * | 1975-10-28 | 1978-11-14 | Automix Keyboards, Inc. | Typesetting terminal apparatus having searching and merging features |
JP3133467B2 (ja) * | 1992-03-31 | 2001-02-05 | 三洋電機株式会社 | 可搬性文書読み上げ装置 |
JP3276404B2 (ja) * | 1992-07-15 | 2002-04-22 | 富士通株式会社 | 端末データ入出力方法及び装置 |
JPH08328590A (ja) * | 1995-05-29 | 1996-12-13 | Sanyo Electric Co Ltd | 音声合成装置 |
US6819336B1 (en) * | 1996-05-07 | 2004-11-16 | Sun Microsystems, Inc. | Tooltips on webpages |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
JP3445920B2 (ja) * | 1997-05-20 | 2003-09-16 | シャープ株式会社 | 表示画面処理装置及び表示画面処理装置制御プログラムを記憶した媒体 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
US6052663A (en) * | 1997-06-27 | 2000-04-18 | Kurzweil Educational Systems, Inc. | Reading system which reads aloud from an image representation of a document |
JP3195279B2 (ja) * | 1997-08-27 | 2001-08-06 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 音声出力システムおよびその方法 |
US20020002458A1 (en) * | 1997-10-22 | 2002-01-03 | David E. Owen | System and method for representing complex information auditorially |
JPH11252216A (ja) | 1998-02-27 | 1999-09-17 | Kyocera Corp | 電話機 |
US6115686A (en) * | 1998-04-02 | 2000-09-05 | Industrial Technology Research Institute | Hyper text mark up language document to speech converter |
JP2000099624A (ja) * | 1998-09-22 | 2000-04-07 | Ricoh Co Ltd | イメージ文字を含むテキストの読み上げ装置 |
US6718015B1 (en) * | 1998-12-16 | 2004-04-06 | International Business Machines Corporation | Remote web page reader |
US6823311B2 (en) * | 2000-06-29 | 2004-11-23 | Fujitsu Limited | Data processing system for vocalizing web content |
JP2002091473A (ja) * | 2000-06-30 | 2002-03-27 | Fujitsu Ltd | 情報処理装置 |
JP4225703B2 (ja) * | 2001-04-27 | 2009-02-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報アクセス方法、情報アクセスシステムおよびプログラム |
JP2002333895A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
JP2002358194A (ja) * | 2001-06-01 | 2002-12-13 | Kaisen Baitai Kenkyusho:Kk | 音声情報提供システム、音声情報提供方法及びそのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記憶媒体 |
JP3848181B2 (ja) * | 2002-03-07 | 2006-11-22 | キヤノン株式会社 | 音声合成装置及びその方法、プログラム |
US7653544B2 (en) * | 2003-08-08 | 2010-01-26 | Audioeye, Inc. | Method and apparatus for website navigation by the visually impaired |
JP2004185055A (ja) | 2002-11-29 | 2004-07-02 | Kyocera Corp | 電子メールシステム及び通信端末 |
AU2003279398A1 (en) * | 2002-12-16 | 2004-07-09 | Sony Ericsson Mobile Communications Ab | Device for generating speech, apparatus connectable to or incorporating such a device, and computer program product therefor |
JP3992642B2 (ja) * | 2003-05-01 | 2007-10-17 | 日本電信電話株式会社 | 音声シナリオ生成方法、音声シナリオ生成装置、音声シナリオ生成プログラム |
JP2005010992A (ja) * | 2003-06-18 | 2005-01-13 | Kddi Corp | 合成音声によるウェブページの説明および広告の方法及びサーバ |
US6993707B2 (en) * | 2003-08-08 | 2006-01-31 | Freedom Scientific, Inc. | Document placemarker |
US8826137B2 (en) * | 2003-08-14 | 2014-09-02 | Freedom Scientific, Inc. | Screen reader having concurrent communication of non-textual information |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US20060190260A1 (en) * | 2005-02-24 | 2006-08-24 | Nokia Corporation | Selecting an order of elements for a speech synthesis |
JP4442479B2 (ja) * | 2005-03-16 | 2010-03-31 | 富士通株式会社 | 情報提示装置 |
JP5259050B2 (ja) * | 2005-03-30 | 2013-08-07 | 京セラ株式会社 | 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム |
JP4158937B2 (ja) * | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
-
2005
- 2005-01-19 JP JP2005012026A patent/JP4743686B2/ja not_active Expired - Fee Related
-
2006
- 2006-01-19 US US11/335,142 patent/US8515760B2/en not_active Expired - Fee Related
- 2006-01-19 CN CN2006100739593A patent/CN1829254B/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831888A (zh) * | 2011-06-15 | 2012-12-19 | 镇江佳得信息技术有限公司 | 一种移动通讯终端实现语音合成的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060161426A1 (en) | 2006-07-20 |
US8515760B2 (en) | 2013-08-20 |
JP2006201977A (ja) | 2006-08-03 |
JP4743686B2 (ja) | 2011-08-10 |
CN1829254B (zh) | 2011-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1829254A (zh) | 移动终端及其文语转换方法 | |
CN1093359C (zh) | 便携式式电话装置中的响应信息发送装置 | |
CN1152552C (zh) | 信息提供装置及便携式通信终端 | |
CN1175630C (zh) | 自动转换接收的电子邮件字符串的电子邮件终端,和电子邮件*** | |
CN1212033C (zh) | 便携式通信装置中调用功能的方法和便携式通信终端设备 | |
CN108235828B (zh) | 一种终端设备的搜网显示的方法、装置和终端设备 | |
CN1761959A (zh) | 在移动电话***中存储和检索多媒体数据和相关注释数据 | |
CN1610442A (zh) | 依据文字信息更改移动电话组态的*** | |
US7409394B2 (en) | Method for automatically managing information using hyperlink features of a mobile terminal | |
CN1617559A (zh) | 顺序多模输入 | |
CN101699839A (zh) | 移动终端图形适配***及其方法 | |
CN1628299A (zh) | 依据上下文相关信息生成移动主页的方法和设备 | |
CN114579819A (zh) | 一种信息排序方法及电子设备 | |
CN1221279A (zh) | 有分级结构的电话号码本的无线设备 | |
CN1100452C (zh) | 无线选择呼叫接收机和手提电话设备 | |
CN201585139U (zh) | 移动终端图形适配*** | |
CN1300158A (zh) | 便携式无线通信终端及其表现风格的处理方法 | |
JP4776433B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN1240239C (zh) | 便携电话 | |
CN1582033A (zh) | 多功能混合终端和准备快速执行功能的方法 | |
CN1238633A (zh) | 移动电话机和检索移动电话机中接收/发送历史的方法 | |
CN1649368A (zh) | 语音识别电话机 | |
CN1949861A (zh) | 移动通信终端和在视频通信中使用其处理图像的方法 | |
CN101044692A (zh) | 在移动通信终端中用于改进的呼叫的方法和设备 | |
CN1571560A (zh) | 手机操作介面智能调整***及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110727 Termination date: 20190119 |
|
CF01 | Termination of patent right due to non-payment of annual fee |