CN1379882A - 将二维数据转换为标准形式的方法 - Google Patents

将二维数据转换为标准形式的方法 Download PDF

Info

Publication number
CN1379882A
CN1379882A CN00814426A CN00814426A CN1379882A CN 1379882 A CN1379882 A CN 1379882A CN 00814426 A CN00814426 A CN 00814426A CN 00814426 A CN00814426 A CN 00814426A CN 1379882 A CN1379882 A CN 1379882A
Authority
CN
China
Prior art keywords
network element
assembly
information
signature
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN00814426A
Other languages
English (en)
Inventor
普兰卡什·伊耶
皮雨什·戈尔
雷杰夫·莫希德雷
艾米塔什·辛哈
帕雷萨德·克罗萨普里
罗纳德·马克
沙石·维蒂尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everypath Inc
Original Assignee
Everypath Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everypath Inc filed Critical Everypath Inc
Publication of CN1379882A publication Critical patent/CN1379882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Devices For Executing Special Programs (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种方法,它可以将二维数据,特别是HTML格式中的信息,转换为一种标准形式以便用音频或其它可视格式进行呈现,其中每个所关心元素的选择是基于它在标准数学表达式中的作用,即任何表示方法均可以用树结构进行语法分析。为完成这个选择过程,先要确定元素的容器的位置,然后按照语法树确定元素的本地线路,以便构造根据这个识别所建立的元素特征标记,并存储以便后面检索和翻译元素值时使用。这样,这些元素能经过适当的语言翻译器呈现给查询者。对发明进一步优化,本方法可以搜索重复的元素,并只存储一个所选择的重复元素,比如第一个重复的元素。

Description

将二维数据转换为标准形式的方法
技术领域
本发明涉及将数据定制为一种适于用不同格式表示的表达方式,包括音频和有限可视格式。本发明特别涉及从超文本链接标示语言(HTML)格式中选择数据,以便使这些数据适合于用除源格式以外的其它格式进行呈现,如音频或视频格式。
目前,在HTML格式中包含大量有价值的信息。但是,HTML主要是设计用来在特定的可视环境进行访问,即通过网络浏览器所应用的图形用户接口进行访问。因此有必要通过其它接口和阅读程序获取HTML上的数据。本发明就是要解决这种需求中的关键问题。
发明内容
在计算机网络***中,本发明提供了一种方法,它可以将二维数据,特别是HTML格式中的信息,转换为一种标准形式以便用音频或其它可视格式进行呈现,其中每个关心元素的选择是基于它在标准数学表达式中的作用,即任何表示方法均可以用树结构进行语法分析。为完成这个选择过程,先要确定元素的容器的位置,然后按照语法树确定元素的本地线路,以便构造根据这个识别所建立的元素特征标记,并存储以便后面检索和呈现元素值时使用。对本发明进一步优化,该方法可以搜索重复的元素,并只存储一个所选择的重复元素,比如第一个重复的元素。
本发明的一个突出特点是HTML网页可以用标准形式表达。本发明的另一个重要特点是只需要选择元素,而不必选择元素的实际值,这样就可以用当前值对它进行动态更新和翻译。
为更好地理解本发明,下面结合附图,对本发明进行详细说明。
附图说明
图1是根据本发明所建立的***框图,其中应用设计工具来选择和识别HTML页的元素。
图2的框图更详细地说明了识别、提取和翻译过程之间的关系。
图3A和3B是根据本发明具体实施例的方法的流程图。
图4为HTML页与处理过程的三元关系框图。
具体实施例的详细说明
参见图1,本发明在万维网的网页范围内进行说明。根据本发明,在网络中,首次将需要的网页拷贝到存储装置14后,用交互式设计者工具10定制主服务器12的源网站中以标准数学表达方式写成的网页11,如HTML。存储装置14可以是一个共享的持久存储器,如磁盘驱动器组或其它带有持久存储器的数据库存储装置。通过应用后面所解释的设计者工具,设计者能够从现有的网络应用程序中选择、识别和定制信息,而不必破坏源网络应用程序。为定制各个网页,设计者确定什么本文和提示信息将呈现给用户,特别是对于音频界面为目标的电话呼叫者,需要呼叫者向输入组件提供什么输入数据,以及呼叫者以什么样的次序访问可用音频的网页。设计者建立设计对象16。在具体实施例中设计程序输出的是音频元数据。该元数据用脚本表达,脚本,即此处所说的元素集合,存储在存储装置14的数据库中。运行时引擎利用这个脚本可以使呼叫者与可用音频的网站交互。
在操作时,由于交互式设计工具10查询并下载网站的HTML页11,它的作用像主网络服务器12的浏览器。工具10的设计者/用户决定到哪个网页可用音频。对于每个这样的网页,设计者选择将在运行时呈现的信息。设计者可以建立语音提示信息,以要求呼叫者提供网页的输入控制数据。当用户以正确的响应回应提示信息时,设计者还将进一步确定将会识别哪些单词和词组。例如,如果网页有一个挑选一种颜色的下拉式选择列表,提示信息会是:“请选择红、白或蓝”。设计者规定呼叫者应说“红”、“白”或“蓝”来进行 响应。
设计者也可规定音频控制流。在单个网页中,页内流确定阅读文本和发给呼叫者提示信息的次序。页内流还确定用户访问站点中可用音频页的次序。一般情况下,通过站点的音频路径和使用视频浏览器时的视频路径是相似的。
用组件提供的设计者工具10是用来建立一套保存在存储装置14中的设计对象。这些对象封装了对于可用音频网站来说所有必需的信息。设计者工具能够从存储装置14中检索这些对象,对它们进行更新,并回存到存储装置。
将设计对象16存到存储装置14后,设计者工具10调用发生器18来建立用称作AML的说明语言写成的文本脚本。AML脚本内编入了从设计对象16中提取出的信息,设计对象在运行时会被呈现出来。每个脚本含有相应网页的URL。由于在运行时要使用URL和AML脚本,所以AML脚本也保存在存储装置18中。网页上的值用AML来表示。
A.组件选择、识别和定制
在设计过程中,组件选择和定制由下面的步骤组成:
1.从已有的HTML页中选择组件;
2.对HTML页中选择出的组件进行识别;
3.对HTML页中选择出的组件进行定制;
4.通过一种具有能够表示选择和定制组件功能的语言对选择和
  定制的组件进行说明。
上述设计技术是通过用户界面来控制和完成的,而设计者不必关心正确选择、识别和产生AML脚本所需的具体细节和内部算法。
B.HTML页中组件的选择和识别
图2是对于运行时***的概念性描述,该***选择并呈现HTML页上的数据到目标音频呈现语言查看窗。从主网络服务器12检索出网 页11后,交给翻译器20,翻译器从共享的持久存储器14中取出相应的AML文档21,生成WML网页23和运行时对象24。设计者13须从HTML页11中用指并向点击的方法选择一些数据,此后称作“组件”17,设计者工具10(见图1)自动地产生唯一的特征标记,以便运行环境通过运行时引擎22在其后的程序中利用该标记从HTML网页中提取实时数据。运行时引擎22与电话服务器26和用户28连接。组件11的特征标记可以由下面的一项或多项内容组成:
1.组件17在HTML页上的位置。考查下面简单的HTML页(如果在客户计算机上用网络浏览器运行,这些代码会产生一个HTML页):
              <HTML>

                       <table name=″T1″>

                      <tr>

                            <td width=″13%″>Row 1</td>

                            <td width=″13%″align=″center″>rlc2</td>

                            <td width=″66%″align=″center″>rlc3</td>

                            <td width=″8%″><p align=″center″>rlc4</td>

                      <\tr>

                      <tr>

                            <td>

                            <form method=″POST″name=″Form1″

  action=″WEBBOT-SELF″>

                                  <input type=″checkbox″name=″C1″value=″ON″>

                                <input type=″radio″value=″V1″checked
  name=″R1″>

                                <input type=″radio″name=″R1″value=″V2″>

                          <\form>

                          </td>
                    <\tr>

                   <\table>

                          <\HTML>
在上面的例子中,如果设计者13(图1)选择整个表T1,且如果它始终是HTML页的第一个表,则表T1能够由它的位置“1”来识别,特征标记为代表“HTML页上的第一个表”的符号。
2.组件的属性。考查上面的例子,其中表T1的第二行含有格式Form1。如果设计者13选择Form1,则它能够用它的动作属性唯一地识别。如果对于这个属性来说,仅有这个格式具有值WEBBOT-SELF,则该属性-值对的识别符变为Form1的特征标记。
3.组件的祖代关系,即,与某组件相关的网页上其它组件的识别。在前面的例子中,组件的特征标记是由它的特性所决定,如位置或属性-值对,这里有所不同,组件的特征标记能够取决于HTML页中其它组件的识别。任何一个HTML页都能够由标准形式来表示。例如,考查上面的HTML页。如果用语法A(B)来表示在组件A的范围内组件A包含组件B,则上面简单的HTML页能够表示为HTML(T1(tr tr(td(Form1(C1 V1 R1)))))。而且,在标准数学表达式中给定组件的识别取决于包含该给定组件的祖代组件。因此,Form1的识别取决于包含组件的识别,如HTML、表T1,等等。通过递推识别这些包含组件,可以唯一地识别格式Form1。例如,通过容器T1、T1中的第2个tr和第2个tr中的td的识别可以唯一地识别出Form1。这样,格式Form1的特征标记为“寻找最高级容器HTML,在容器HTML中寻找容器表T1,在容器表T1中寻找第二行容器,在该容器中寻找容纳格式Form1的第一个单元”。
4.“左”共有属性组件,及其祖代组件的识别。当一个或多个左共有属性组件多次重复时,要求对左共有属性组件进行识别。此时,也有必要对这些左共有属性组件进行识别,考查下面的HTML页。
          <HTML>

               <table name=″T1″>

                      <tr>

                            <td width=″13%″>Row 1</td>

                            <td width=″13%″align=″center″>rlc2</td>

                            <td width=″66%″align=″center″>rlc3</td>

                            <td width=″8%″><p align=″center″>rlc4</td>

                      <\tr>

                      <tr>

                            <td>12.5<\td>

                            <td>2.5</td>

                            <td><form method=″POST″name=″Form1″

  action=″WEBBOT-SELF″>

                                  <input type=″checkbox″name=″C1″

  value=″ON″>

                                  <input type=″radio″value=″V1″checked

                   name=″R1″>

                                  <input type=″radio″name=″R1″

          value=″V2″>

                                 </form>

                           </td>

                      <\tr>

              <\table>

          <\HTML>
在上面的例子中,表T1的第二行包含数据列的初始设置。如果在HTML页中,一个实例的列数与下一个实例不同,那么格式Form1的识别要求对这些重复的列进行识别。容器T1包含的第二个<tr>中有包含数字的重复<td>(分别为12.5和2.5),和最后一个含有格式Form1的<td>,这样,通过识别容器T1可以唯一识别格式Form1。此时, 格式Form1组件的特征标记为“寻找最高级容器HTML,在容器HTML中寻找容器T1,在容器表T1中寻找第二行容器,在该容器中寻找重复’n’次的容器<td>,最后一个容器<td>容纳格式Form1”。
5.从HTML页中提取的模式。考查前面的例子,如果Form1总是含有三个输入,则这些输入可以用作格式的识别。特征标记为:“寻找含有三个输入的格式,其中第一个输入的模式为:
<input type=”checkbox”name=”C1”value=”ON”>,第二个输入的模式为:
<input type=”radio”value=”V1”checked...>”。
有时组件的最后特征标记由上述方法组合而成。但是,一旦组件的特征标记建立起来,则认为它是规范的表达方式,也就是说,这种表达方式是唯一的且非常贴切地识别了组件及其相关的属性。
图3A和3B提供了根据本发明所建立起来的识别算法的概要。识别算法的输入为设计者选择的组件,输出为用目标语言编写的脚本,用标记语言的格式,这里称作AML(下一节进行说明),来说明所选择出组件的完整特征标记。
首先为设计者选择的源语言组件,这里为HTML组件,建立一个源目标语言组件(步骤A),这里为AML语言。然后获取或检索AML组件的属性值(步骤B)。测试这个属性以确定组件的属性可以在其父容器中唯一确定该组件(步骤C)并继续。如果不是,则要选择“左”共有属性组件的次序,以便组件所依照的该次序在父容器中获得唯一的特征标记。然后将该次序包含在组件说明中(步骤D)。利用这个唯一的组件说明,就可对所有其它组件进行测试以便确定它们是否需要在本级容器内进行说明(步骤E)。如果是,则可获得在本级容器中其它组件的说明(步骤F)。
下面的步骤侧重说明的唯一性。获得说明各自组件的说明后,需要对每个说明进行测试以确定在当前的级别中,子说明是否为外部说明的一部分(步骤G)。如果是,则检索或取得所有其它模式的说明, 并定义识别开关组件(Idswitch),以封装取得的模式(步骤H)。对每个说明进行测试以确定它是否是重复的模式(步骤I)。如果是,则定义一个包含当前说明的识别循环(Idloop)(步骤J)。对照同一HTML页中的其它说明对该说明进行测试,以确定本说明定义是否唯一(步骤L)。如果不是,则检索父容器的类型信息,并定义封装AML组件以反映HTML页中的容纳特性(步骤M)。对设计者选择出的所有AML组件重复该循环,直到全部完成(步骤M),最后输出AML脚本(步骤O)。
按照本发明,为说明选择组件的识别和定制步骤,计算机语言必须满足某些要求。根据本发明,所使用的语言,即AML满足了这些要求。另外,该语言还满足XML的要求。
为正确地表达所应用识别的组合方法(如前述与图3A和图3B相关的详细算法),目标标记语言必须能说明以下内容:
它必须能够说明HTML组件及其相关属性。
它必须能够描述任何标准表达式。
它必须具有高级结构,如switch、case、loop等,这些对描述替换和重复组件非常有用。
它必须能够描述HTML元素的链接。
它必须能够描述字符串模式。
根据本发明的AML语言满足了上述要求。它从这里定义的组件的角度观察HTML页:格式、表、列表。组件的说明可以分为三个部分:
识别:识别是用来识别HTML页上的不同组件。
提取:提取是用来说明如何从选择的组件中提取数据。
翻译:翻译是说明如何通过电话来呈现组件。
所有给定的HTML页中组件的识别、提取和翻译都集中放在一个对话中。
图4是说明每个HTML页与识别/提取/翻译三元之间的关系,以及每个url流元素/HTML页之间动作转换间的关系。HTML网页36 作为名义父组件与网页38和40相关联。每个HTML页由url/动作转换50、51、52相联。而且,每个识别/提取/翻译三元30、32、34通过url/动作转换54、55、56与相应的HTML页36、38、40相联。但是,在三元间沿着信息线路58、59、60也存在信息流。接下来的一节将对本发明的AML具体实例中的组件、识别方法、提取方法和内部语法进行更详细的说明。
C.识别和提取
用元素“组件”对组件进行识别,其中元素中的所有属性-值对的值均用引号形式给出,使它们不作为值来对待。这样行就可以当做组件A来识别如下:
             <component name=”A”type=”tr”></component>
组件的类型与HTML的标记相对应。
利用嵌套的组件符号,可以使组件包含组件。这样,下面的代码符号表示组件A包含在组件B中:
             <component name=”B”type=”table”>
                  <component name=”A”type=”tr”></component>
           </component>
而且,利用“idloop”元素可以使组件重复多次。这样,下面的代码符号表示称作A的组件可以出现多次:
            <idloop name=”aloop”>
                   <component name=”A”type=”tr”>
                   </component>
            </idloop>
一个组件可以由两个可替换的组件组成。下面的代码符号表示组件A可以由组件X或组件Y组成:
                <component name=”A”type=”form”>

                     <idswitch name=”switch1”>

                            <idcase define=”pattern1”>
				
				<dp n="d9"/>
                            <component name=”X”type=”input”>

                             </component>

                      </idcase>

                      <idcase define=”pattern2”>

                             <component name=”Y”type=”select”>

                             </component>

                      </idcase>

                </idswitch>

           </component>
这里说明了能够表示标准表达式的规定:
用嵌套表示父-子关系:简写符号A(B)说明A是B的父组件。
用idloop表示重复循环;简写符号A*说明A是重复组件。
用开关表示OR;简写符号A|B说明存在A或B。
用连写表示AND;简写符号AB说明A后面为B。
例如,标准表达式A(B|C)*D可以用下面的代码表示,其中A为或循环的父组件,或是用组件B和C表示,后面跟有组件D:
          <component name=”X”type=”type1”>

           <component name=”A”type=”type2”>

               <idloop name=”loop1”>

                      <idswitch name=”switch1”>

                             <idcase define=”pattern1”>

                                    <component name=”B”

                             type=”type3”></component>

                             </idcase>

                             <idcase define=”pattern2”>

                                    <component name=”C”

                    type=”type4”></component>

                             </idcase>

                      </idswitch>
				
				<dp n="d10"/>
                    </idloop>

                </component>

                    <component name=”D”type=”type5”></component>

             </component>
组件、idswitch或idloop的名称可以用作变量,在idloop中定义的变量可以有几种实例,一种实例用带有idloop名下标的变量名进行说明。例如,“loop1[0].C”代表在第一个idloop循环“loop1”中识别的实例“C”。通常,用带有包容idloop下标的变量名来说明变量实例。
变量也可以用<amlvar>元素明确地说明/定义。
C1.变量定义
用amlvar元素建立变量。变量的范围为音频页的全局变量。在用户会话中,它的作用一直到音频页引用完成后。在一个音频页中变量名必须唯一。变量具有下列属性,它可以帮助定义变量的名称、类型等等。
name                 #变量名
format=mmddy4/y4/etc#在HTML页中变量的形式
render=mmddy4/y4/etc#是否用音频页呈现它
type=date/time/int/char/money#变量类型
visible                 #可视文本部分,即在屏幕上所看到的
                        #见5.5节,实际上是从串
                        #中取出HTML标记
下面的代码符号说明了编码“date”型字段的变量X。
              <amlvar name=x type=’date’format=’mmddy4’render=’y4’>
</amlvar>
C.2.变量用法
所有变量均为包含下列元素的对象:
vector=yes/no            //yes=>向量;no=>标量
     length=1            //向量的长度
rowspan                   //如tr为变量,行的长度
colspan                   //如td为变量,列的长度
action                    //格式的动作方式,见5.4节
define                    //用来定义case的值,见5.7节
anchor                    //相连的固定元素,见6.2.1节
这样,名为var1的循环就可以用变量$amlvar(var1)来调用。下面为实际的var1对象:
             var1{vector=yes;length=# elements in loop}
同样,表示表中一个单元元素的变量cell1可以用符号$amlvar(cell1)来调用,而且用$amlvar(cell1.vector)、$amlvar(cell1).colspan等来调用其字段。如果cell1是循环var1的第5次循环,则与cell1相关的固定元素就可以用$amlvar(var1[4].cell1.anchor)来访问。
C.2.1***全局变量
变量可以标记为“全局”。在整个页中无论以什么样的次序均可取得它们的定义。变量存取的顺序为:局部变量(循环索引),页变量(从页中提出的变量),然后是全局变量。
amlerror
amlerror变量为***变量,它向用户给出出错信息。该变量为一对象,具有下列字段:
amlerror={
  ERROR type;                     //当前错误类型
   int number_errors_step;         //当前步骤中,本类型错误的编号
  int number_errors_page;         //当前页中,本类型错误的编号
int number_errors_session;//电话会话中,本类型错误的编号
用户可以用$amlvar(amlerror.type)查阅错误类型。错误可能是下列类型中的一种:
           ERROR={
           RECOGNITITON_FAILURE,
           CALLER_TIMEOUT,
           OTHER_ERROR,
           WRONG_NUMBER_DIGITS
           }
下面的表说明的是当下述错误发生时所发生的默认动作。
错误类型     输入
RECOGNITION_FAILURE 1)重试指定的#次;如最大对话超出,则不能再试
2)隐藏提示信息
3)向用户列出导航菜单
WRONG_NUMBER_DIGITS
CALLER_TIMEOUT 1)重复前面的提示并输入#次
2)列出导航菜单
C.3.组件的识别
组件可以结合到标准表达式中。HTML页上能够被识别的组件,包括格式、表和列表组件。可以使用两项广泛应用技术中的一项对组件进行识别。
识别类型(即,form、table、tr、td等)和名称/位置/URL/尺寸中的一项或多项。
识别组件的“结构”。这是所有方法最好的一种。但是,这比类型识别需要更多的用户干预。很多情况下,对用户来说,使用其它的识别机制会更容易些。因此应当允许设计者从较容易的识别更进一 步到复杂的识别方法。
    注意选择工作流到设计者,提供下面的识别方法:
    1)类型:对象的类型是什么,比如:格式、表、行、单元、输入
等。例如:<component name=”keywordsearch”type=”form”>组件为
格式
    2)ID:在HTML页中,由于有些组件给定了唯一的<ID>,所以
它们可以被唯一地识别。
    <component name=”table1”class=class1 id=tabel>
    3)HTMLname:HTML页上的名称属性
    4)位置:在HTML分析树结构的分支中说明组件类型的编号,
HTML分析树结构是以与父aml组件相应的HTML结点为根的。文
档中第一个表的第二行可以指定为:
               <component name=”tab1”type=”table”position=”1”>
                    <component name=”interesting_row”type=”tr”position=”2”>
                    </component>
              </component>
    注意在父容器中,位置是相同类型的子容器的排列。
    同样地,第二个结构中第二个表可以用下面的嵌套说明来指定:
            <component name=”keywordsearchframe”type=”frame”position=”2”>
                 <component name=”keywordsearchform”type=”form”position=”2”>
                 </component>
           </component>
    同样地,如果表B在表A的嵌套中,而表C嵌套在表B中,则
表C能够用嵌套组件说明来指定:
      <component name=”A”type=”table”position=”1”>
           <component name=”B.”type=”table”position=”1”>
                <component name=”C”type=”table”position=”1”>
                </component>
          </component>
    </component>
5)URL:用动作URL来说明一个固定的格式,如
                      <component name=”keywordsearch”type=”form”url=”www.amazon.com/keyword-search>”
6)尺寸:固定格式、表、行和列表均可以用它们的尺寸来说明。表和格式的大小可用如下方式来指定:
             <component name=”keywordsearch”type=”form”dimension=”3”>//form with 3 visible controls
             <component name=”stockquotes”type=”table”dimension=”3”>    //table with 3 rows
                                  <component name=”row1”type=”tr”dimension=”2”>   // 2 cells in the row
7)结构:这是最后一个可以利用的手段,或如果需要关于组件子级组件信息时也使用结构。组件中的文本可以用两种对象类型来说明:
a)匹配很好的引用文本,
b)由标记amlvar说明的任何文本
格式可以指定为:
structure=”<form><amlvar name=’formbody’></form>”
其中”<form>””和</form>是完全匹配的,整个格式的主体与变量文本元素<amlvar>相匹配,并分配给格式主体的变量。
如果用多个状态来说明页,则它们必须为真。例如,下面的识别中组件被识别为格式类型,且动作方法为值www.amazon.com/kevword-search.有3个输入,且为页中第一个格式”:
               <component
                    name=”keywordsearch”
                    url=”www.amazon.com/keyword-search”
                    type=”form”
                    position=”1”
                    dimension=”3”>
有时,组件不能根据自身明确地识别。此时,必须查询它的父级子树直至直达能够明确识别的祖代。考查语法分析树,找出需要识别表level2第二行中的第二单元的地方和考查表level1的行中单元的编号还没有事先确定的地方。所有这些知道后,就可以使表level2嵌套在level1中的最后一行的最后单元中。识别的最低级单元可以识别如下:
                    <component name=”level1”type=”table”position=”1”>

                      <component name=”level1_row”type=”tr”position=”2”>
//[comment:It may not be necessary to specify the row in the above line]

                          <component name=”cell2”type=”td”position=”2”>

                                                       <component name=”level2”
type=”table”position=”1”>

                  //position is relative to parent

                              <idloop ignore=”ALL_BUT_LAST”>

                                     <component name=”first_rows”type=”tr”>
</component>

                           </idloop>
∥[comment:The above is the first set of rows]

                           <component name=”last_row”type=”tr”>

                           <idloop ignore=”ALL_BUT_LAST”>
//[comment:The above is the first set of cells]    

                 <component name=”first_cells”type=”td”></component>

                  </idloop>

                  <component name=”last_cell”type=”td”>

                  </component>

                  </component>

                  </component>

                  </component>

                  </component>

                  </component>
当组件识别后,就可以提取组件中的数据。
C.4提取:格式
考虑格式的实例,如经纪人的签字页。该格式具有由用户指定的两个输入:名称和口令。余下的输入为不用用户关心的隐藏输入。还有选项列表说明用户想从何处开始会话。
关于这个格式的HTML码如下:
<FORM NAME=″SignonForm″
ACTION=″https://trading2.schwab.com/trading/signon/.″METHOD=″POST″
TARGET=_”self”>
<table>

          <tr><td>Account Number</td><td><INPUT TYPE=″text″

     NAME=″SignonAccountNumber″SIZE=11 MAXLENGTH=9></td></tr>

          <tr><td>Password</td><td><INPUT TYPE=″password″
NAME=″SignonPassword″SIZE=11 MAXLENGTH=8></td></tr>

          <tr><td>Select</td><td>

          <SELECT NAME=StartAnchor>

               <option Value=CCbodyi>Account Overview

               <option Value=TradingEQ>Stock Trading

               <option Value=TradingOpt>Options Trading

               <option Value=TradeMF>Mutual Fund Trading

               <option Value=TradeCorpBonds>Corporate Bond Trading
				
				<dp n="d17"/>
                     <option Value=Quotes>Real-Time Quotes

                     <option Value=Balance>Account Balances

                     <option Value=Position>Positions

             </select>

             <INPUT TYPE=HIDDEN NAME=PARMS VALUE=″″>

             <INPUT TYPE=HIDDEN NAME=ShowUN VALUE=″YES″>

             <INPUT TYPE=HIDDEN NAME=SANC VALUE=″″>

             <INPUT TYPE=HIDDEN NAME=NewsURL>

             <INPUT TYPE=HIDDEN NAME=″QCdata″>

             <INPUT TYPE=HIDDEN NAME=″page″>

             <INPUT TYPE=HIDDEN NAME=″story″>

             <INPUT TYPE=HIDDEN NAME=″symbols″>

             <INPUT TYPE=HIDDEN NAME=″watch_list″>

             <INPUT NAME=″SignonSubmit″TYPE=″Submit″VALUE=″Submit″>
</td></tr></table></form>
       组件说明在该页上有一个格式,且做为该页第一个格式放置,即:
                        <component Name=″Logon″TYPE=″FORM″
       position=”1”></component>
       格式的动作方法可以用下面结构识别的方法提取出来(标记
amlvar说明自由匹配的文本):
              structure=”<form><amlvar>action=<amlvar
name=’url’>METHOD<amlvar>”>
    它的解释如下:
    用匹配符<form开始,然后是文本直到action=”,下面的部分为
HTML页中的变量,变量到METHOD时结束。组件的名为Logon。
用$amlver(Logon.url)来查询变量“url”。
   考虑页中下面的文本:11/11/98              16:47      (UPDATE)VocalTec,Cisco To Develop ProductsFor Voice Calls Over Internet[Dow Jones Online News]12/12/98              17:58      (UPDATE)WebByPhone introduces intelligentvoice browsing[Dow Jones Online News]12/12/98              17:58      (UPDATE)WebByPhone Corporation is formed[Dow Jones Online News]
     上表的源HTML语言如下:
     <TABLE BORDER=0 WIDTH=430 CELLPADDING=0 CELLSPACING=2>

  <TR ALIGN=LEFT>
  <ID VALIGN=TOP><FONI COLOR=″#000000″
FACE=″ARIAL,HELVETICA″CLASS=″NORM″SIZE=2>11/11/98</FONI></TD>

          <ID WIDTH=″5″><IMG
SRC=″http://gsf.quote.com/fast/graphics/trading3/blank.gif″WIDTH=″1″ HEIGHT=″1″
BORDER=0></TD>

         <TD VALIGN=TOP><FONT COLOR=″#000000″
FACE=″ARIAL,HELVETICA″CLASS=″NORM″SIZF=2>16:47</FONT></TD>

           <TD WIDTH=″5″><IMG
SRC=″http://gsf.quote.com/fast/graphics/trading3/blank.gif″WIDTH=″1″HEIGHT=″1″
BORDER=0></TD>

         <TD VALIGN=TOP><FONT FACE=″ARIAL,HELVETICA″

         CLASS=″NORM″SIZE=2><U><A HREF=″/fq/trading3/news?

         story=8176218&amp;symbols=csco″>(UPDATE)VocalTec,Cisco To Develop

         Products For Voice Calls Over Internet</A></U></FONT>&amp;nbsp;<FONT

         COLOR=″#000000″FACE=″ARIAL,HELVETICA″CLASS=″SMALL″

         SIZE=1>[&amp;nbsp;Dow&amp;nbsp;Jones&amp;nbsp;Online&amp;nbsp;News&amp;nbsp;]</F

         ONT></TD>

         </TR>


         <!-The rest of the rows are cut.->

        <!-They all have the same syntax.->
</TABLF>
上表中有一个行编号变量,每行有5个单元。对于该表,想要使用的单元仅为1、3和5。表的结构可以说明如下:
<component name=″headline″type=”table”position=”1”>
<idloop name=”headlines”>
   <component name=’news_item’type=’tr’>

         <component name=”cell1”type=”td”position=”1”

              structure=″<amlvar>SIZE=2><amlvar name=’date’

   type=’date’></FONT></TD>″>

         </component>

         <component name=”cell3”type=”td”position=”3”

              structure=″<amlvar>SIZE=2><amlvar name=’time’

  type=’time’></FONT></TD>″>

           </component>

           <component name=”cell5”type=”td”position=”5”

                structure=″<amlvar>SIZE=2><amlvar name=’headline’

  type=’text’></A></U><amlvar>″>

           </component>

     </component>
</idloop>
</component>
由于在说明中出现HTML结构,用结构机制说明每一个单元可能 有些费解。一个简化的方法是将结构看作单元的“可见”部分—这正是用户在标准网络浏览器所见到的。
<component name=″headline″type=”table”position=”1”>

   <idloop name=”headlines”>

             <component name=’news_item’type=’tr’>

                <component name=”date”type=”td”position=”1”

   visible=”true”></component>

                          <component name=”time”type=”td”position=”3”
visible=”true”></component>

                     <component name=”cell5”type=”td”position=”5”
structure=”<amlvar>

                          HREF=<amlvar name=’url’>><amlvar name=′news′

             visible=’true’></A<amlvar>″>

                     </component>

               </component>

    </idloop>
</component>
变量可以调用为$amlvar(headlines[index].date),$amlvar(headlines[index].time),和$amlvar(headlines[index].news)。而且,第5列的固定元素可以做为$amlvar(headlines[index].url)调用
C.6提取:循环变量组件(即列表)
变量组件指它的结构从一个版本的HTML页到另外一个HTML页时可以改变。例如,当在amazon.com查找一本书时,由于组件不能识别为表的行/单元,结果组成一个变量组件。尽管对如何定义组件的子组件有一个一般性的说明,这也是可以实现的。在源HTML中,每个组件从<dt>标记开始,在<p>标记结束。
             <dl>

             <dt><b><a href=″/exec/obidos/ASIN/0471880736/qid=909790477/sr=1-
  1/002-5206325-4441208″>Design and Inference in Finite Population Sampling(Wiley
  Series in Probability and Mathematical Statistics)</a></b>~<NOBR><font
  color=#990033>Ships in 2-3 days</font></NOBR><dd>A.S.Hedayat(Contributor),
  B.K.Sinha/Paperback/Published 1991

           <br>Our Price:$101.00<br><a
  href=″/exec/obidos/ASIN/0471880736/qid=909790477/sr=1-1/002-5206325-
  4441208″><i>Read more about this title...</i></a><p>

             <dt>.....
上面是从amazon.com网站中的一个实例。结果组件可以说明如下:
    <component name=”resultssection”type=”body”>

         <component name=”list”type=”dl”>

              <idloop name=”resultsection2”>

                     <component name=”item”type=“dt“></component>

              </idloop>

         </component>

   </component>
在上面的说明中,有一个固定标题组件“<dl>”,后面跟有一个循环组件。在每个循环组件的反复中,需要对下面的部分进行识别:
        Title=Design and Inference in Finite Population Sampling(Wiley Series
in Probability and Mathematical Statistics)

                    Shipping=Ships in 2-3 days

                    Author=A.S.Hedayat(Contributor),B.K.Sinha

                    Type=Paperback

                    Date=1991

                    Price=$101.00
为提出上面部分,结果组件可以描述如下:
<component name=resultssection>

   <component name=”list”type=”dl”>

   <idloop name=”loop1”>

          <component name=”item”type=”dt”    

               structure=”<dt><b><amlvar name=’title’visible=’true’></b>

                       <nobr><amlvar name=’shipping’visible=’true’></nobr>

                       <amlvar><dd>

                       <amlvar name=’author’visible=’true’>/<amlvar

                       name=’type’visible=’true’>/Published<amlvar

                       name=’date’visible=’true’><br><amlvar>Price:<amlvar

                       name=’price’visible=’true’><br><amlvar name=’detail’

                       visible=’true’><p>”

            </component>

    </idloop>

    </component
</component>
标题文本可以做为$amlvar(loop1[index].title)调用;标题的信息可以从$amlvar(loop1[index].detail)中得到。
C.7提取:替代结构
在最佳的情况下,到用户的组件可以用一种方法来识别。但是,相同的格式可以作为页的第1/第3个格式出现,或表有3或4个单元,将用唯一结构识别组件扩展到用替代结构识别组件,有下面的例子。
例1
考虑下表(一个股票报价网站中的交易历史表),其中行有三个不同的类型。
       Stock        Price   Quantity  Operation  Date
       IFMX         10.500  100       BUY        5/25/98
     ORCL     51.5    200     SELL        5/26/98
     IBM      171.5           DIVIDEND    5/27/98
     IBM      51.5            INTEREST
此例中,由于行不表示交易的相同“类型”,它们需要用不同的格式读出。同时,它们的输入组织也不同。本表的规则如下:
它是interest类型的交易,
它是dividend类型的交易
它是buy/sell的交易
以下代码说明上表:
<component name=″transaction″type=”table”position=”1”>

   <idloop name=″transactionList″loopindex=”index”><idswitch name=”switch1”>

     <idcase define=”INTEREST”>

          <component name=”intrst”type=”tr”
structure=”<amlvar>interest<amlvar>”>

                     <component name=icol1 type=”td”position=1></component>

                     <component name=icol2 type=”td”position=2></component>

                     <component name=icol3 type=”td”position=3></component>

                     <component name=icol4 type=”td”position=4></component>

                     <component name=icol5 type=”td”position=5></component>

              </component>

         </idcase>

         <idcase define=”DIVIDEND”>

              <component name=”dvdnc”type=”tr”
structure=”<amlvar>dividend<amlvar>”>
				
				<dp n="d24"/>
               <component name=dcol1 type=”td”position=1></component>

               <component name=dcol2 type=”td”position=2></component>

               <component name=dcol3 type=”td”position=3></component>

               <component name=dcol4 type=”td”position=4></component>

               <component name=dcol5 type=”td”position=5></component>

        </component>

   </idcase>

   <idcase define=”default”>

        <component name=”intrst”type=”tr”>

             <component name=col1 type=”td”position=1></component>

             <component name=col2 type=”td”position=2></component>

             <component name=col3 type=”td”position=3></component>

             <component name=col4 type=”td”position=4></component>

             <component name=col5 type=”td”position=5></component>

       </component>

  </idcase>
  </idloop>
  </component>
这里参考具体实施例对本发明进行了说明。对于那些对相关技术领域的普通技术人员来说其它的实施例是很明显的。因此除在本发明的权利要求书所说明内容以外,本发明是不受限制的。

Claims (28)

1.在具有源数据存储装置和所述源数据识别程序存储装置的计算机网络***中,一种将用传统可视格式表示的,且为标准数学表达式一部分的元素源数据,转换为一种标准形式以便用其它格式呈现所述源数据的方法,其它格式包括音频格式和另外一种视频格式,所述转换方法包括:
检索做为标准数学表达式格式二维数据的源数据到存储装置;
在标准数学表达式的语法分析树中寻找元素的唯一容器;此后
按照语法分析树中元素的唯一确定的路径获取元素的特征标记,该特征标记为标准表达方式,该特征标记包括所述唯一容器和所述唯一本地路径;
将所述特征标记存储到存储装置中,以便后面检索和呈现元素值时使用。
2.根据权利要求1的方法,其特征在于还包括:
搜索所述元素的重复表达式;
识别关于特征标记的所有所述重复表达式。
3.根据权利要求1的方法,其特征在于还包括:
搜索所选择元素的重复实例;
仅保存一个实例的表达式。
4.根据权利要求3的方法,其特征在于所述的一个实例是第一个重复的元素。
5.根据权利要求1的方法,还包括:识别每个所述所选择的元素。
6.根据权利要求1的方法,其特征在于还包括:
对存储的选择元素的表达式进行定制,以便结合目的上下文呈现选择的元素。
7.在具有源数据存储装置和所述源数据识别程序存储装置的计算机网络***中,一种将用传统可视格式表示的,且为标准数学表达式一部分的元素源数据,转换为一种标准形式以便用其它格式呈现所 述源数据的方法,其它格式包括音频格式和另外一种视频格式,所述转换方法包括:
为设计者选择的源语言组件建立目标语言组件;
获取所述目标语言组件属性的值;
对所述目标语言组件的值进行测试以确定,在目标语言的父容器中,该值是否能唯一地说明所述目标语言组件;
如果不是,选择“左”共有属性组件的次序,以便按照该次序,在父容器中,该目标语言组件在上下文中具有唯一的特征标记;
将所述次序包含在所述目标语言组件的说明中;
在当前级别上测试其它目标语言组件,以确定在当前级别中所述其它组件是否需要说明;如果是,
在当前级别中获取其它组件的说明;
在当前级别中测试说明的唯一性;
建立说明的唯一性后,输出所述目标语言的脚本。
8.根据权利要求7的方法,其中测试说明的唯一性包括:
在当前级别中,确定主题说明是否为情况说明的一部分;如果是
在当前级别中,获取所有其它模式的说明;并
定义识别开关组件以装入所有获取的组件。
9.根据权利要求8的方法,其中测试说明的唯一性还包括:
确定所述说明是否是重复模式的一部分;且如果是
定义包含当前说明的识别循环。
10.根据权利要求9的方法,其中测试说明的唯一性还包括:
对照同一HTML页中的其它说明对该说明进行测试,以确定本说明定义是否唯一;如果不唯一,则获取祖代容器的类型信息;并
定义封装AML组件以反映所述HTML页中的容纳特性。
11.一个***,包含:
从主网络服务器接收指定网络元素的源语言信息的装置;
从源语言信息中选择网络元素的装置;
产生识别网络元素的特征标记的装置;
产生关于网络元素运行时引擎提示信息的装置;
将特征标记和运行时引擎提示信息存储到持久存储器的装置。
12.根据权利要求11的***,其特征在于源语言信息包括HTML数据。
13.根据权利要求11的***,其特征在于特征标记包括识别选择的网络元素的位置信息。
14.根据权利要求11的***,其特征在于特征标记包括识别选择的网络元素的属性信息。
15.根据权利要求11的***,其特征在于特征标记包括一个或多个其它网络元素的识别信息,识别信息具有属性信息可以用来确定选择的网络元素的属性信息。
16.根据权利要求11的***,其特征在于特征标记包括一个或多个其它具有属性信息的网络元素的识别信息,用来确定选择的网络元素的属性信息。
17.根据权利要求11的***,其特征在于特征标记包括左共有属性信息以识别选择的网络元素。
18.根据权利要求11的***,其特征在于特征标记包括模式信息以识别选择的网络元素。
19.根据权利要求11的***,其特征在于运行时引擎提示信息包括音频提示信息。
20.根据权利要求11的***,其特征在于运行时引擎提示信息包括用户可选择的选项。
21.根据权利要求11的***,还包括对于运行时引擎产生用户可访问响应的装置。
22.根据权利要求11的***,还包括产生运行时引擎设计对象的装置。
23.根据权利要求21的***,还包括从运行时引擎设计对象中产生脚本的装置。
24.根据权利要求22的***,其特征在于源语言信息指定网页, 脚本中包括了识别网页的URL。
25.根据权利要求11的***,其特征在于选择网络元素的装置包括选择多个网络元素的装置,且还进一步包括在用户可选择网络元素间产生控制流运行时引擎提示信息的装置。
26.一种方法,包括:
从主网络服务器中接收指定网络元素的源语言信息;
从源语言信息中选择网络元素;
产生识别网络元素的特征标记;
产生关于网络元素的运行时引擎提示信息;以及
将特征标记和运行时引擎提示信息存储到持久存储器中。
27.根据权利要求26的方法,其中特征标记包含从组中选出的网络元素标识符,该组包括:
说明网络元素类型的类型标识符,
与源语言信息网络元素ID相对应的ID标识符,
与网页上名称属性相对应的名称标识符,
说明网络元素在网页中位置的位置标识符,
说明动作URL的URL标识符,
说明网络元素的子元素结构的尺寸标识符,和
说明网络元素属性的结构标识符。
28.一种计算机可读的存储介质,存储程序代码以便于计算机完成以下步骤:
从主网络服务器接收说明网络元素的源语言信息;
从源语言信息中选择网络元素;
产生说明网络元素的特征标记;
产生关于网络元素的运行时引擎提示信息;并
将特征标记和运行时引擎提示信息存储到持久存储器中。
CN00814426A 1999-09-10 2000-09-08 将二维数据转换为标准形式的方法 Pending CN1379882A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US39412099A 1999-09-10 1999-09-10
US09/394,120 1999-09-10

Publications (1)

Publication Number Publication Date
CN1379882A true CN1379882A (zh) 2002-11-13

Family

ID=23557640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00814426A Pending CN1379882A (zh) 1999-09-10 2000-09-08 将二维数据转换为标准形式的方法

Country Status (8)

Country Link
US (2) US6446098B1 (zh)
EP (1) EP1210671A2 (zh)
JP (1) JP2003510674A (zh)
KR (1) KR20020043580A (zh)
CN (1) CN1379882A (zh)
AU (1) AU7356100A (zh)
CA (1) CA2384730A1 (zh)
WO (1) WO2001018679A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104380280A (zh) * 2012-04-16 2015-02-25 权五石 动态转换网页的***、方法以及计算机可读记录介质
CN111324844A (zh) * 2020-02-20 2020-06-23 重庆锐云科技有限公司 数据导出控制方法、装置、营销管理平台及存储介质

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728934B1 (en) * 2000-02-10 2004-04-27 Philip M. Scopes Touch tone voice internet service
US7974875B1 (en) * 2000-03-21 2011-07-05 Aol Inc. System and method for using voice over a telephone to access, process, and carry out transactions over the internet
US7103563B1 (en) * 2000-03-21 2006-09-05 America Online, Inc. System and method for advertising with an internet voice portal
US7406658B2 (en) * 2002-05-13 2008-07-29 International Business Machines Corporation Deriving menu-based voice markup from visual markup
US7216287B2 (en) * 2002-08-02 2007-05-08 International Business Machines Corporation Personal voice portal service
US7694219B2 (en) * 2002-12-20 2010-04-06 Oracle International Corporation Dynamic tree representation for internet enterprise applications
US7272818B2 (en) * 2003-04-10 2007-09-18 Microsoft Corporation Creation of an object within an object hierarchy structure
US9881308B2 (en) * 2003-04-11 2018-01-30 Ebay Inc. Method and system to facilitate an online promotion relating to a network-based marketplace
US7421649B1 (en) * 2003-04-28 2008-09-02 Adobe Systems Incorporated Enhanced visual table editing
US7519621B2 (en) * 2004-05-04 2009-04-14 Pagebites, Inc. Extracting information from Web pages
US20050273450A1 (en) * 2004-05-21 2005-12-08 Mcmillen Robert J Regular expression acceleration engine and processing model
CA2622404A1 (en) * 2004-09-15 2006-03-23 Adesso Systems, Inc. System and method for managing data in a distributed computer system
US8302074B1 (en) * 2004-10-15 2012-10-30 Oracle America, Inc. “If” and “switch” as drag and drop objects
US7958164B2 (en) * 2006-02-16 2011-06-07 Microsoft Corporation Visual design of annotated regular expression
US7860881B2 (en) * 2006-03-09 2010-12-28 Microsoft Corporation Data parsing with annotated patterns
US10345922B2 (en) * 2006-04-21 2019-07-09 International Business Machines Corporation Office system prediction configuration sharing
US8600916B2 (en) * 2006-04-21 2013-12-03 International Business Machines Corporation Office system content prediction based on regular expression pattern analysis
US7512634B2 (en) * 2006-06-05 2009-03-31 Tarari, Inc. Systems and methods for processing regular expressions
US7899904B2 (en) * 2007-04-30 2011-03-01 Lsi Corporation Hardware processing of regular expressions
US9170778B2 (en) * 2008-11-18 2015-10-27 Adobe Systems Incorporated Methods and systems for application development
US8924921B2 (en) * 2009-04-20 2014-12-30 International Business Machines Corporation Abstracting business logic into centralized database controls
US20120110003A1 (en) * 2010-11-03 2012-05-03 Microsoft Corporation Conditional execution of regular expressions
US10223362B2 (en) * 2016-03-31 2019-03-05 International Electronic Business Iii, Inc. Methods and systems for converting business to business data to a canonical format
KR101695277B1 (ko) * 2016-04-26 2017-01-11 (주)시큐레이어 비정형 데이터의 정규화를 수행하도록 지원하는 방법 및 이를 이용한 컴퓨팅 장치
CN108197687A (zh) * 2017-12-27 2018-06-22 江苏集萃智能制造技术研究所有限公司 一种网页二维码生成方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115723A (en) 1995-04-27 2000-09-05 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US6240448B1 (en) * 1995-12-22 2001-05-29 Rutgers, The State University Of New Jersey Method and system for audio access to information in a wide area computer network
US6167409A (en) 1996-03-01 2000-12-26 Enigma Information Systems Ltd. Computer system and method for customizing context information sent with document fragments across a computer network
US5953392A (en) * 1996-03-01 1999-09-14 Netphonic Communications, Inc. Method and apparatus for telephonically accessing and navigating the internet
US5915259A (en) 1996-03-20 1999-06-22 Xerox Corporation Document schema transformation by patterns and contextual conditions
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US5899975A (en) * 1997-04-03 1999-05-04 Sun Microsystems, Inc. Style sheets for speech-based presentation of web pages
JP3195279B2 (ja) * 1997-08-27 2001-08-06 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 音声出力システムおよびその方法
US6154754A (en) 1997-09-25 2000-11-28 Siemens Corporate Research, Inc. Automatic synthesis of semantic information from multimedia documents
US6085196A (en) 1997-12-23 2000-07-04 Ricoh Company, Ltd. Object-oriented system and computer program product for mapping structured information to different structured information
US6279015B1 (en) 1997-12-23 2001-08-21 Ricoh Company, Ltd. Method and apparatus for providing a graphical user interface for creating and editing a mapping of a first structural description to a second structural description
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
US6115686A (en) 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
US6167448A (en) 1998-06-11 2000-12-26 Compaq Computer Corporation Management event notification system using event notification messages written using a markup language
US6269336B1 (en) 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6266615B1 (en) 1999-09-27 2001-07-24 Televigation, Inc. Method and system for an interactive and real-time distributed navigation system
US6349132B1 (en) * 1999-12-16 2002-02-19 Talk2 Technology, Inc. Voice interface for electronic documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104380280A (zh) * 2012-04-16 2015-02-25 权五石 动态转换网页的***、方法以及计算机可读记录介质
CN111324844A (zh) * 2020-02-20 2020-06-23 重庆锐云科技有限公司 数据导出控制方法、装置、营销管理平台及存储介质

Also Published As

Publication number Publication date
KR20020043580A (ko) 2002-06-10
WO2001018679A3 (en) 2001-12-20
US6569208B2 (en) 2003-05-27
CA2384730A1 (en) 2001-03-15
JP2003510674A (ja) 2003-03-18
EP1210671A2 (en) 2002-06-05
US20020116419A1 (en) 2002-08-22
US6446098B1 (en) 2002-09-03
WO2001018679A2 (en) 2001-03-15
US20020103831A1 (en) 2002-08-01
AU7356100A (en) 2001-04-10

Similar Documents

Publication Publication Date Title
CN1379882A (zh) 将二维数据转换为标准形式的方法
CN1174332C (zh) 转换表达方式的方法和装置
CN100338573C (zh) 设计用户界面样式的方法以及具有自适应用户界面的设备
CN1176432C (zh) 提供本国语言查询服务的方法和***
CN1209725C (zh) 文件编辑处理方法和文件编辑处理设备
CN101052948A (zh) 对象过程图应用程序开发***
CN1368693A (zh) 用于全球化软件的方法和设备
CN1773508A (zh) 把源文档转换成目标网页文件的方法
CN1328668A (zh) 用于指定网络上的位置的***和处理
CN1117160A (zh) 产生未知字母之字模的方法与***
CN1321277A (zh) 数据库***
CN1811702A (zh) 开发门户应用和自动部署门户应用的***和方法
CN1711522A (zh) 图形用户接口建模***
CN1777888A (zh) 基于移动结构概念的句子结构分析及使用其的自然语言搜索
CN1519753A (zh) 程序、字符输入编辑方法、装置及记录媒体
CN1315017A (zh) 包含内部引用的两种版本数据表格之间的差别提取
CN1615480A (zh) 网络设备间配置文件的翻译
CN1669033A (zh) 用于执行可保性分析的计算机化***以及方法
CN1783019A (zh) 用于创建web服务并与其交互的接口基础结构
CN1265207A (zh) 生成2000年测试例的***和方法
CN101030204A (zh) 在用户终端设备上生成用户界面的入口服务器和方法
CN1173933A (zh) 建立通信网络数据库的一种方法和设备
CN1119760C (zh) 自然语言处理装置及方法
CN1026629C (zh) 由单一屏面定义文件生成多版屏面
CN1737802A (zh) 信息处理设备与方法、记录介质,以及程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication