EP0150813A2 - Method for voice controlled manipulation of displayed screen images - Google Patents

Method for voice controlled manipulation of displayed screen images Download PDF

Info

Publication number
EP0150813A2
EP0150813A2 EP85100700A EP85100700A EP0150813A2 EP 0150813 A2 EP0150813 A2 EP 0150813A2 EP 85100700 A EP85100700 A EP 85100700A EP 85100700 A EP85100700 A EP 85100700A EP 0150813 A2 EP0150813 A2 EP 0150813A2
Authority
EP
European Patent Office
Prior art keywords
screen
command
image
touch
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP85100700A
Other languages
German (de)
French (fr)
Other versions
EP0150813B1 (en
EP0150813A3 (en
Inventor
Horst Froessl
Monika Froessl-Morgener
Coy. Prof. Dr. Wolfgang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP0150813A2 publication Critical patent/EP0150813A2/en
Publication of EP0150813A3 publication Critical patent/EP0150813A3/en
Application granted granted Critical
Publication of EP0150813B1 publication Critical patent/EP0150813B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Definitions

  • the invention relates to a device for data and image manipulation by voice commands and in particular to an improved device by means of which a person can identify, change and add data in a data processing system.
  • the commands or data are entered by an operator via a keyboard.
  • data can also be entered simultaneously or at a different time via automatic readers, sensors, other computers or other devices or apparatus, but in the vast majority of cases the data is entered by an operator using a keyboard, in some special cases using a "mouse" , a light pen or touching the screen.
  • the keyboard is the most effective means of data output for a great many Situations. It enables a quick and relatively simple translation of human language and thoughts either into a machine language or into an intermediate code, from which the machine language can be derived immediately by means of an assembler.
  • the keyboard has some disadvantages as an input device, namely as the sole input device in some situations. These disadvantages include the fact that the keyboard occupies the operator's hands and reduces or prevents simultaneous use of the hands for other tasks.
  • the use of the keyboard also requires practice and knowledge of the arrangement of the keys and the sequence of input, as well as manual dexterity, the required agility, practice and ability depending on the task to be performed.
  • the keyboard is particularly disadvantageous when the operator has to look through other documents or refer to them while he is busy with the keyboard.
  • a solution would be extremely advantageous in which a person could work with the computer at one point with decision functions without having to use the keyboard.
  • the keyboard is more of an obstacle than an aid to some types of disability.
  • the object of the present invention is to provide advantageous methods for using the human voice as input to systems for data processing systems for both control and for the purpose of limited data input, and further the use of the voice as input for data and instructions under the circumstances in which it is faster and more effective than typing using the keyboard or other methods.
  • the invention also includes a device for carrying out the method, in which the voice can be used as input in connection with other input methods, for example touching the screen.
  • the invention resides in a method for using a voice input to a data processing device of the type which is equipped with a visual display screen, a device for displaying selected images being provided on the screen, wherein a set of visual divisions on the Screen provides that divide the screen into sections that can be clearly described with one or more alphanumeric symbols and a storage location for data bits is provided, from which a representation can be generated on the screen.
  • the memory location is functionally divided into a plurality of memory locations, the number of which corresponds at least to the number of sections of the screen, so that the address of the memory locations can be functionally related to the image representations on the screen.
  • One on Voice responsive transducer is used to convert the received utterance into electrical signals that represent speech patterns and are stored in a speech pattern dictionary with a variety of utterances, the utterances including the alphanumeric symbols that identify the sectors and preselected instructions.
  • the speech patterns received by the converter are compared with the stored dictionary of patterns, the utterances recognized as output being generated either as an instruction or sector identification with subsequent instructions, matching patterns being defined as recognition of an utterance.
  • Recognition is followed by execution of a received command relating to a particular sector when a specific sector is identified.
  • a device is shown, the first part of which corresponds to that of the aforementioned Patent No.: whil (Application No. 499 500).
  • documents 10 are fed in a sequence to a printer 12, in which they are provided with an identifying code. They are then fed to a reader 14 which optically scans each document that is fed.
  • a digital converter 16 forms part of the reader 14 and generates digital signals which produce digital approximation patterns of the letters, numbers and graphic representations which are displayed on a source document 10.
  • the printing, reading and digitizing functions are monitored by a control device 18, which is normally supplied as part of the reading device 14 or digital converter 16 and can easily be adapted for additional control of the printer function.
  • the documents 10 are fed to a source document storage location 20 for documents where they are available for subsequent review, if necessary, but from which they are not normally removed.
  • the digital converter 16 is connected in both directions to a buffer memory 22 for digital patterns on channels 24 and 25 for the purpose of communication, which are used for data transmission and feedback with regard to available storage space and other operating functions.
  • the patterns stored in the memory 22 are fed to a display device 26, which may be a conventional CRT display, the display device 26 exchanges information with the memory 22 on channels 28 and 29.
  • a primary purpose of this portion of the device illustrated in the aforementioned patent is to present the patterns of the source document 10 in digital form on the display 26 so that various forms of document disposition can be determined and achieved at this stage.
  • a special function is the selection of certain information from each source document or, if desired, the entire content of the source document, so that the patterns are in a standard digital code, e.g. ASCII, can be encoded and stored in a mass digital memory 30. Therefore, it may be convenient for an operator to operate a keyboard from which the display 26 is visible so that that person can position indicators to identify and identify material to be stored, after which only the selected part is encoded while the rest of the digital memory is removed, making optimal use of the storage capacity.
  • the operator 32 is provided with a speech responsive transducer, including a receiver 34, a speech recognition device 36, and an assembler 38 connected to monitor certain functions of the display 26.
  • the speech recognition device 36 described in detail below can ground electrical speech signals generated by a microphone 34 of acoustic utterances by the operator, and the speech recognition unit is also able to identify certain utterances within a defined lexicon as alphanumeric symbols and predetermined instructions. Unrecognized statements can only produce a visual display or an audible display, which means "not recognized".
  • the recognized utterances are fed to the assembler 38, in which they are implemented by means of the display 36 which carries out a specific task.
  • This approach can also be used by using voice input with other input or command devices.
  • the systems for touching the screen are particularly important because it is the Allows operator to identify the images or locations shown on the screen by touching them with a finger.
  • the screen reacts to this touch because wires are embedded in the screen structure or because infrared sensors are connected to the screen and respond to the operator's finger.
  • the touch can only fulfill an identification function, whereby an instruction regarding what has to be done must be given by other means.
  • Voice input in connection with the touch is particularly useful for giving instructions.
  • a particularly useful function of the entire facility is the ability to rearrange the sequence of data fields. For example, if it is assumed that an order arrives for a number of products in which the order format is first the date, second the customer's order number, third his name, fourth the quantity, fifth the model number of the product and sixth the price the recipient may want to change this order for storage. For example, the recipient may want the customer's name to appear first, the model number in second, the amount in third, etc. are saved. This reordering of the order for storage purposes is easy to do. by displaying the image of the original document on the screen 26 and touching the customer's name and then saying "save", for example, after which the model number is touched and "save” etc. are repeated in the desired order.
  • FIGS. 2, 3 and 4 a grid system according to FIGS. 2, 3 and 4 is to be used.
  • 2 shows a square 35 on the screen in a simplified form.
  • Vertical and horizontal lines are present on the screen either permanently outside or by means of a video line generator inside, the vertical and horizontal lines being identified by alphanumeric symbols according to FIG. 2. It is believed that the operator desires to enlarge the portion of an image that is in box C3 as FIG. 2. All the operator needs to do is say "C, 3, whole screen” because this utterance is interpreted as an instruction to enlarge C3 to the whole screen size, as shown in FIG. 3.
  • This process can be repeated by the operator by saying "A, 1, full screen", after which the material shown in the square A1 is enlarged so that it occupies the entire screen area, as shown in FIG. 4.
  • This Part can then be saved or part of it can be saved by the operator by saying "B, 2, save”.
  • the cursor movement is much faster and other forms of testing and activity are also much faster if this technique is used instead of keyboard operation.
  • a primary goal is to allow selected individuals access to the images of documents stored in memory 30.
  • a person in a decision function receives a screen 40 with a buffer memory 42, which is connected in both directions to a memory 30 via a cable 43.
  • the person 44 is equipped with a microphone 46, a speech recognition unit 48 and a position and command assembler 50, which is connected to the buffer memory 42.
  • a corresponding command those documents which are intended for a specific person 44 in accordance with any business code are called up from the memory 30 to the buffer memory 42 and are available for simultaneous subsequent display.
  • the person 44 can determine the disposition of different documents by reading the specific documents neither to the store, without processing, returned, to another person in the company, or to someone outside the company or treated in any other way.
  • References to addresses by the sectors identified in Figs. 2, 3 and 4 are possible, with the actual number of divisions on the screen normally being slightly higher than shown in Figs. 2-4.
  • the device shown in FIG. 1 is also suitable for correcting text or, to a limited extent, for adding data. It is apparent from the aforementioned U.S. patent that another function performed by operator 32 while viewing the digitized text prior to encoding and storing is to insert letters that were not recognized by reader 14 or to correct letters or symbols, that were not read correctly. This is a function that can be performed much faster with the voice than with the conventional keyboard by issuing commands such as "position indicators jump to" followed by a digit.
  • a command "jump to position indicator to B4" can cause it to be moved to a zone where it needs to be corrected or which requires additional data , the whole process is much faster than with the conventional keyboard.
  • a further refinement of the position is possible with commands "left, right” or by pressing a button: Repositioning of the position indicator is also possible through a combination control using voice and touch, for example, by the position indicator at one at this time touched point and the voice command "jump to" is given, after which the new position is touched.
  • the addition of text is only possible within the limits determined by the size and precondition by the lexicon, although it is obvious that letters and numbers can be added without difficulty because they represent fundamentally necessary symbols by the recognition device 36 or 38 can be recognized.
  • a typical device for recognizing speech is shown in FIG. 5, in which a speech input signal in electrical form is received by microphone 34 or 46. This signal is subjected to an analysis and a pattern comparison of the method in which the signal analysis and parameter acquisition takes place in block 56. A major problem with language recognition facilities is generally in the individual word endings. Thus, the next stage 58 is to determine the end of each pronunciation. A next stage 60 is the normalization of frequency and time, after which, in the detection state, the signal is subjected to time chaining, which is a type of dynamic programming, of which several examples exist.
  • a dictionary 64 is provided with utterance patterns which the device is to recognize and these patterns are compared with the processed speech signals, the extent of the resemblance being determined in a similarity evaluation method 66. The resulting formation indicates whether an instruction or an alphanumeric symbol is recognized or not, after which a suitable note is given.
  • Such devices are normally subjected to a training process in which the distinctive formers of the operator's voice are recognized and stored as part of the dictionary, with average values of a large number of repeated statements of the same expression being normally formed, so that the device is subsequently able to Recognize spoken expressions from the same person.
  • a very high level of accuracy can be achieved with a very limited dictionary that is discussed by the same person, the level of accuracy decreasing with other people.
  • the operator only needs to touch the two points and pronounce the command word specified in the dictionary, which is defined as a "line".
  • the touches and command provide all of the information that is normally entered into the keyboard, ie the end points in a Cartesian coordinate system and instructions for drawing a line in a relatively large number of keystrokes. It is important too note that normally no changes are necessary in the basic program of the machine. the program for graphic purposes normally recognizes an instruction which includes a small number of input words. These words are supplied by the assembler, which is necessarily adapted to the computer language and the operating system in response to the spoken instructions.
  • a more fancy diagram than a line is almost as easy to draw, two points and a "circle" command suffice to define the center and radius of a circle, and parts can be deleted by defining the same type of boundary. This type of procedure therefore requires less talent than just a keyboard.
  • a further simplified definition by means of voice input is achieved by a programmed field that moves from left to right, whereby the starting point for the moving field can be set to any square - also offset - by language, and from there it automatically moves to the right.
  • the image could be captured with stop at the P, Q, R, S points (for fonts 2 points to define the beginning / end).
  • the program can be created so that 2 words are entered at the beginning (e.g. A 1/2, C 1/3) see Fig. 2, row 1, so that after defining the first digit e.g. of the segment at A-2 the elongated quadrilateral V immediately jumps to the beginning of C 1/3 in order to define the last position.
  • the positions to be defined can be defined using a few voice commands.
  • the screen can also contain other subdivisions.
  • a combined command e.g. B2, d and C2, f, i.e. command C2, f immediately following command B2, d saves the last-mentioned position and zooms in on the position at which the last command was pronounced.
  • the marked zone After manipulation of the point enlarged by zoom, the marked zone jumps to the last place where it was fed and begins to move from left to right. In the event that the last saved position should appear as a zoom, the Zoom command is also given.
  • a necessary manipulation can e.g. be to place the cursor in the middle of the outlined field to the left of the middle of a letter in order to precisely define a line to be captured.
  • a cursor is in a square, i.e. set at four points, all digital patterns are captured in the square. If only two digits are designated, the captured field includes the area to the right of the defined point, downwards at right angles to the height of the second defined point. If there is no second definition point at the height of the first defined point, all subsequent characters to the right of the first defined point up to the edge of the screen are recorded and end in the line and at the point where the end point for this segment to be recorded was set.
  • FIG. 6 shows a further aspect of the present invention, in which the selection and the coding method can also be used for increased microform storage.
  • the selection of the parts of the device achieved by FIG. 1 is shown again in FIG. 6, the coding device and the memory 30 being set up in a coding device 70 and a mass memory 72.
  • the encoded signals are one
  • High-resolution digital video converter 74 is supplied, which is actually an inverted Vodeo camera and is used to record digital signals and to produce high-resolution images that can be fed by a conventional optical system to a microfilm 76 that is unwound from a supply spool 78 a take-up spool 80 is fed, which is driven in a known manner by a stepper drive or by an intermittent drive 82.
  • a normal spool film is shown, it is understandable that films of any size and also microfich or microdot memory can be used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Das Verfahren zur Eingabe von Befehlen an eine Datenverarbeitungsanlage zur Änderung der Anzeige schliesst die Wiedererkennung von Stimmen ein. Bei einer Ausführungsform wird der Bildschirm in Sektoren aufgeteilt, wobei der Speicher welcher Datenbits zur Anzeige liefert funktionell in entsprechender Weise aufgeteilt wird. Die Bedienungsperson äussert Befehle zur Sektor-Identifizierung und zwecks Änderung. Eine Vorrichtung zur Wiedererkennung der Stimme liefert erkannte Adressinformationen sowie Befehle an einen Assembler, von welchem Befehle zur Anlage ausgehen. Bei einer weiteren Ausführungsform wird ein auf Berühren oder Antippen ansprechender Bildschirm in Verbindung mit gesprochenen Befehlen benutzt. Die Einrichtung ist insbesondere zur Vorbereitung von Material für Mikroform-Speicherung geeignet.The process of entering commands to a data processing system to change the display includes the recognition of voices. In one embodiment, the screen is divided into sectors, the memory which provides data bits for display being functionally divided in a corresponding manner. The operator issues commands for sector identification and change. A device for recognizing the voice delivers recognized address information and commands to an assembler, from which commands for the system originate. In another embodiment, a touch or tap responsive screen is used in conjunction with spoken commands. The device is particularly suitable for the preparation of material for microform storage.

Description

Die Erfindung betrifft eine Einrichtung zur Daten- und Ebenbildmanipulation durch Sprachbefehle und insbesondere eine verbesserte Einrichtung, mittels welcher eine Person Daten in einer Datenverarbeitungsanlage identifizieren, ändern und hinzufügen kann.The invention relates to a device for data and image manipulation by voice commands and in particular to an improved device by means of which a person can identify, change and add data in a data processing system.

Dieses Patentgesuch schliesst dabei das US-Patent Nr........ (Gesuch Nr. 499 500 vom 31. Mai 1983) ein dessen Inhalt durch Bezugsnahme in das vorliegende aufgenommen wurde.This patent application includes US Patent No. ........ (Application No. 499,500 dated May 31, 1983), the content of which was incorporated into the present by reference.

Normalerweise werden bei einer Bearbeitung mittels einem Computer oder einem Computerterminal die Befehle oder Daten über eine Tastatur von einer Bedienungsperson eingegeben. Daten können aber auch gleichzeitig oder zu einem anderen Zeitpunkt über automatische Lesegeräte, Sensoren andere Computer oder andere Geräte oder Apparate eingegeben werden, jedoch werden in den weitaus meisten Fällen die Daten von einer Bedienungsperson über eine Tastatur eingegeben, wobei in einigen Spezialfällen eine "Maus", ein Lichtgriffel oder Bildschirmberührung zu Hilfe genommen werden. Dies ist deshalb nicht überraschend, weil die Tastatur das wirksamste Mittel zur Datenausgabe für sehr viele Situationen darstellt. Sie ermöglicht eine schnelle und relativ einfache Uebersetzung der menschlichen Sprache und Gedanken entweder in eine Maschinensprache oder in einen Zwischenkode, von welchem die Maschinensprache sogleich mittels eines Assemblers abgeleitet werden kann.Normally, when processing using a computer or a computer terminal, the commands or data are entered by an operator via a keyboard. However, data can also be entered simultaneously or at a different time via automatic readers, sensors, other computers or other devices or apparatus, but in the vast majority of cases the data is entered by an operator using a keyboard, in some special cases using a "mouse" , a light pen or touching the screen. This is not surprising because the keyboard is the most effective means of data output for a great many Situations. It enables a quick and relatively simple translation of human language and thoughts either into a machine language or into an intermediate code, from which the machine language can be derived immediately by means of an assembler.

Wenn man von den seltenen und speziellen Fällen absieht, in welchen ein Lichtgriffel, eine Maus o.dgl. verwendet werden können, besitzt die Tastatur als Eingabegerät einige Nachteile, und zwar als alleiniges Eingabegerät in einigen Situationen. Zu diesen Nachteilen gehört die Tatsache, dass die Tastatur die Hände der Bedienungsperson belegt und die gleichzeitige Verwendung der Hände für andere Aufgaben reduziert oder verhindert. Die Verwendung der Tastatur verlangt ferner Uebung und Kenntnisse der Anordnung der Tasten und der Folge der Eingabe wie auch eine manuelle Geschicklichkeit, wobei die erforderliche Gewandtheit, Uebung und Fähigkeit von der auszuführenden Aufgabe abhängen.If you disregard the rare and special cases in which a light pen, a mouse or the like. can be used, the keyboard has some disadvantages as an input device, namely as the sole input device in some situations. These disadvantages include the fact that the keyboard occupies the operator's hands and reduces or prevents simultaneous use of the hands for other tasks. The use of the keyboard also requires practice and knowledge of the arrangement of the keys and the sequence of input, as well as manual dexterity, the required agility, practice and ability depending on the task to be performed.

Alleinige Verwendung der Tastatur als Eingabegrät ist insbesondere dann nachteilig, wenn die Bedienungsperson andere Dokumente durchschauen oder auf diese hinweisen muss, während sie mit der Tastatur beschäftigt ist. Zusätzlich wäre eine Lösung äusserst vorteilhaft, bei der eine Person an einer Stelle mit Entscheidungsfunktionen mit dem Computer arbeiten könnte, ohne dabei die Tastatur bedienen zu müssen. Zudem ist die Tastatur bei einigen Arten von Invalidität eher ein Hindernis als eine Hilfe.The sole use of the keyboard as an input device is particularly disadvantageous when the operator has to look through other documents or refer to them while he is busy with the keyboard. In addition, a solution would be extremely advantageous in which a person could work with the computer at one point with decision functions without having to use the keyboard. In addition, the keyboard is more of an obstacle than an aid to some types of disability.

Obschon verschiedene Versuche mit direkter Stimmeingabe an Datageräten erwogen und durchgeführt wurden, wird diese Lösung oft als untaugliche Alternative zur Tastatur ange-Although various attempts with direct voice input on data devices have been considered and carried out, this solution is often used as an unsuitable alternative to the keyboard.

sehen und als eine Art technischer Kuriosität betrachtet. Deshalb wird diese bestehende technische Fähigkeit nicht genutzt.and see it as a kind of technical curiosity. Therefore, this existing technical ability is not used.

Aufgabe der vorliegenden Erfindung ist die Schaffung von vorteilhaften Verfahren zur Verwendung der menschlichen Stimme als Eingabe zu Anlagen zur Datenverarbeitunganlage sowohl für Kontrolle als auch zum Zwecke der begrenzten Dateneingabe, und weiter die Verwendung der Stimme als Eingabe von Daten und Instruktionen unter denjenigen Umständen, in welchen es schneller und wirksamer ist als die Eingabe mittels Tastatur oder anderer Verfahren.The object of the present invention is to provide advantageous methods for using the human voice as input to systems for data processing systems for both control and for the purpose of limited data input, and further the use of the voice as input for data and instructions under the circumstances in which it is faster and more effective than typing using the keyboard or other methods.

Die Erfindung umfasst auch eine Einrichtung zur Durchführung des Verfahrens, in welcher die Stimme als Eingabe in Verbindung mit anderen Eingangsverfahren, beispielsweise Bildschirmberührung, verwendet werden kann.The invention also includes a device for carrying out the method, in which the voice can be used as input in connection with other input methods, for example touching the screen.

Zusammengefasst besteht die Erfindung in einem Verfahren zur Verwendung einer Stimmeingabe zu einem Gerät zur Datenverarbeitung derjenigen Art, welche mit einem visuellen Anzeigeschirm ausgestattet ist, wobei eine Vorrichtung zur Anzeige von selektierten Ebenbildern auf dem Schirm vorgesehen ist, wobei man einen Satz von visuellen Aufteilungen auf dem Schirm vorsieht, die den Schirm in Sektionen aufteilen, die eindeutig mit einem oder mehreren alphanumerischen Symbolen beschrieben werden können und eine Speicherstelle für Datenbits vorgesehen ist, von welchen eine Darstellung auf dem Schirm erzeugt werden kann. Die Speicherstelle ist funktionell in eine Vielzahl von Speicherstellen aufgeteilt, deren Anzahl mindestens der Anzahl von Sektionen des Schirmes entspricht, so dass die Adresse der Speicherstellen funktionell auf die Ebenbilddarstellungen auf dem Schirm bezogen werden können. Ein auf Stimmen ansprechender Wandler dient zur Umwandlung der empfangenen Aeusserung in elektrische Signale, welche Sprachmuster darstellen und in einem Sprachmusterwörterbuch mit einer Vielzahl von Aeusserungen gespeichert sind, wobei die Aeusserungen die alpfanumerischen Symbole einschliessen, welche die Sektoren und vorgewählte Instruktionen identifizieren. Die vom Wandler empfangenen Sprachmuster werden mit dem gespeicherten Wörterbuch von Mustern verglichen, wobei die als Ausgabe wiedererkannten Aeusserungen entweder als eine Instruktion oder Sektoridentifikation mit nachfolgender Instruktionen erzeugt werden, zusammenpassende Muster als Wiedererkennung einer Aeusserung definiert werden. Einer Wiedererkennung folgt die Ausführung eines empfangenen Befehls, der sich auf einen bestimmten Sektor bezieht, wenn ein spezifischer Sektor identifiziert wird.In summary, the invention resides in a method for using a voice input to a data processing device of the type which is equipped with a visual display screen, a device for displaying selected images being provided on the screen, wherein a set of visual divisions on the Screen provides that divide the screen into sections that can be clearly described with one or more alphanumeric symbols and a storage location for data bits is provided, from which a representation can be generated on the screen. The memory location is functionally divided into a plurality of memory locations, the number of which corresponds at least to the number of sections of the screen, so that the address of the memory locations can be functionally related to the image representations on the screen. One on Voice responsive transducer is used to convert the received utterance into electrical signals that represent speech patterns and are stored in a speech pattern dictionary with a variety of utterances, the utterances including the alphanumeric symbols that identify the sectors and preselected instructions. The speech patterns received by the converter are compared with the stored dictionary of patterns, the utterances recognized as output being generated either as an instruction or sector identification with subsequent instructions, matching patterns being defined as recognition of an utterance. Recognition is followed by execution of a received command relating to a particular sector when a specific sector is identified.

Nachfolgend werden Ausführungsbeispiele des Gegenstandes der Erfindung anhand der Zeichnung näher erläutert. Es zeigen:

  • Fig. 1 ein Blockschaltbild einer Einrichtung gemäss einer ersten Ausführungsform der vorliegenden Erfindung,
  • Fig. 2 ein erstes vereinfachtes Diagramm zur Erläuterung der verwendeten Sektortechnik,
  • Fig. 3 ein zweites Diagramm, wie Fig. 2,
  • Fig. 4 ein drittes Diagramm, wie Fig. 2,
  • Fig. 5 ein Flussdiagramm einer bestehenden Technik zur Sprachwiedererkennung in BLockform, und
  • Fig. 6 ein schematisches Blockdiagramm einer Einrichtung gemäss einer zweiten Ausführungsform der vorliegenden Erfindung.
Exemplary embodiments of the subject matter of the invention are explained in more detail with reference to the drawing. Show it:
  • 1 is a block diagram of a device according to a first embodiment of the present invention,
  • 2 shows a first simplified diagram to explain the sector technology used,
  • 3 shows a second diagram, like FIG. 2,
  • 4 shows a third diagram, like FIG. 2,
  • 5 is a flowchart of an existing technique for speech recognition in block form, and
  • 6 shows a schematic block diagram of a device according to a second embodiment of the present invention.

In Fig. 1 ist eine Einrichtung dargestellt, deren erster Teil demjenigen des vorgenannten Patentes Nr. : ...... (Gesuch Nr. 499 500) entspricht. Bei dieser Einrichtung werden Dokumente 10 in einer Folge einem Drucker 12 zugeführt, in dem sie mit einem identifizierenden Kode versehen werden. Danach werden sie einem Lesegerät 14 zugeführt, das jedes zugeführte Dokument optisch abtastet. Ein Digitalumsetzer 16 bildet einen Bestandteil des Lesegerätes 14 und erzeugt Digitalsignale, welche digitale Annäherungsmuster der Buchstaben, Zahlen und graphischen Darstellungen erzeugen, die auf einem Quellen-Dokument 10 angezeigt werden. Die Druck-, Lese- und Digitalisierungsfunktion werden von einer Steuerungsvorrichtung 18 überwacht, die normalerweise als Teil des Lesegerätes 14 oder Digitalumsetzers 16 geliefert wird und leicht zur zusätzlichen Steuerung der Druckerfunktion angepasst werden kann. Nach dem Drucken, Lesen und Digitalumwandeln werden die Dokumente 10 einer Quellenbeleg-Speicherstelle 20 für Dokumente zugeführt, wo sie, sofern erforderlich, für eine nachfolgende Ueberprüfung zur Verfügung stehen, von wo sie aber normalerweise nicht entfernt werden.In Fig. 1, a device is shown, the first part of which corresponds to that of the aforementioned Patent No.: ...... (Application No. 499 500). In this device, documents 10 are fed in a sequence to a printer 12, in which they are provided with an identifying code. They are then fed to a reader 14 which optically scans each document that is fed. A digital converter 16 forms part of the reader 14 and generates digital signals which produce digital approximation patterns of the letters, numbers and graphic representations which are displayed on a source document 10. The printing, reading and digitizing functions are monitored by a control device 18, which is normally supplied as part of the reading device 14 or digital converter 16 and can easily be adapted for additional control of the printer function. After printing, reading and digital converting, the documents 10 are fed to a source document storage location 20 for documents where they are available for subsequent review, if necessary, but from which they are not normally removed.

Der Digitalumsetzer 16 ist in beiden Richtungen mit einem Pufferspeicher 22 für digitale Muster auf Kanäle 24 und 25 zwecks Kommunikation verbunden, welche zur Datenübertragung und Rückkopplung bezüglich zur Verfügung stehenden Speicherplatzes und anderen Bedienungsfunktionen dienen. Die im Speicher 22 gespeicherten Muster werden einer Anzeigevorrichtung 26 zugeführt, die eine herkömmliche CRT-Anzeige sein kann, wobei die Anzeigevorrichtung 26 mit dem Speicher 22 auf Kanälen 28 und 29 im Informationsaustausch steht.The digital converter 16 is connected in both directions to a buffer memory 22 for digital patterns on channels 24 and 25 for the purpose of communication, which are used for data transmission and feedback with regard to available storage space and other operating functions. The patterns stored in the memory 22 are fed to a display device 26, which may be a conventional CRT display, the display device 26 exchanges information with the memory 22 on channels 28 and 29.

Ein Hauptzweck dieses Teils der Einrichtung, die im vorgenannten Patent erläutert ist, besteht in der Darstellung der Muster vom Quellen-Dokument 10 in Digitalform an der Anzeige 26, damit verschiedene Formen der Disposition der Dokumente an dieser Stufe bestimmt und erreicht werden können. Eine besondere Funktion ist die Wahl von bestimmten Informationen von jedem Quellen-Dokument oder, sofern erwünscht, des gesamten Inhalts des Quelle-Dokuments, damit die Muster in einem Standard-Digitalkode, wie z.B. ASCII, kodiert werden können und in einem Massen-Digitalspeicher 30 gespeichert werden können. Deshalb kann es für eine Bedienungsperson passend sein, eine Tastatur zu bedienen, von der aus die Anzeige 26 sichtbar ist, damit diese Person Positionsanzeiger zur Festlegung und Identifizierung von zu speicherndem Material positionieren kann, wonach nur der ausgewählte Teil kodiert wird, während der Rest vom digitalen Speicher entfernt wird, wodurch die Speicherkapazität optimal ausgenutzt wird.A primary purpose of this portion of the device illustrated in the aforementioned patent is to present the patterns of the source document 10 in digital form on the display 26 so that various forms of document disposition can be determined and achieved at this stage. A special function is the selection of certain information from each source document or, if desired, the entire content of the source document, so that the patterns are in a standard digital code, e.g. ASCII, can be encoded and stored in a mass digital memory 30. Therefore, it may be convenient for an operator to operate a keyboard from which the display 26 is visible so that that person can position indicators to identify and identify material to be stored, after which only the selected part is encoded while the rest of the digital memory is removed, making optimal use of the storage capacity.

Es betehen aber viele andere Umstände, unter welchen das direkte Verhältnis der Bedienungsperson mit einer Tastatur nicht die wirksamste Lösung darstellt.However, there are many other circumstances in which the direct relationship of the operator with a keyboard is not the most effective solution.

Gemäss der vorliegenden Erfindung wird die Bedienungsperson 32 mit einem auf Sprache ansprechenden Wandler ausgestattet, einschliesslich einem Empfänger 34, einer Spracherkennungsvorrichtung 36 und einen Assembler 38, der zur Ueberwachung von bestimmten Funktionen der Anzeige 26 angeschlossen ist. Die in der Folge detailliert beschriebene Spracherkennungsvorrichtung 36 kann elektrische Sprachsignale, erzeugt von einem Mikrofon 34, auf Grund von akustischen Aeusserungen durch die Bedienungsperson aufnehmen, und die Spracherkennungseinheit ist ferner in der Lage, bestimmte Aeusserungen innerhalb eines definierten Lexikons als alphanumerische Symbole und vorbestimmte Instruktionen zu identifizieren. Nicht erkannte Aeusserungen können nur eine visuelle Anzeige oder eine hörbare Anzeige erzeugen, welche "nicht erkannt" bedeutet. Die erkannten Aeusserungen werden dem Asembler 38 zugeführt, in dem sie mittels der eine bestimmte Aufgabe ausführenden Anzeige 36 implementiert werden.In accordance with the present invention, the operator 32 is provided with a speech responsive transducer, including a receiver 34, a speech recognition device 36, and an assembler 38 connected to monitor certain functions of the display 26. The speech recognition device 36 described in detail below can ground electrical speech signals generated by a microphone 34 of acoustic utterances by the operator, and the speech recognition unit is also able to identify certain utterances within a defined lexicon as alphanumeric symbols and predetermined instructions. Unrecognized statements can only produce a visual display or an audible display, which means "not recognized". The recognized utterances are fed to the assembler 38, in which they are implemented by means of the display 36 which carries out a specific task.

Ein Vorteil dieser Einrichtung wird dann erkennbar, wenn man berücksichtigt, dass diejenige Person, welche die Substanz im Dokument 10 betrachtet, Entscheidungen bezüglich ihrer Disposition treffen muss, wobei meistens Bezugnahme auf verschiedene andere Dokumente zur Identifizierung von Personen, Stellen und andere Informationen erforderlich ist, die einen schnellen Entscheidungsprozess ermöglichen. Mit einer begrenzten Anzahl von Sprachbefehlen ist es für Jemanden möglich, ihre oder seine Hände frei zu halten, um diese oder jene Aufgaben auszuführen, während er oder sie Instruktionen an den Bildschirm 26 mittels der beschribenen Einrichtung erteilen. Als ein Beispiel von einfachen Befehlen gilt, dass es viel schneller ist, eine Anzeige zu zentrieren, wenn sie nicht zentriert ist, indem "rechts", "oben" o.dgl. ausgesprochen wird. Eine viel schnellere Bewegung des Positzionsanzeiger ist durch Befehle wie "spring nach" gefolgt von einer Linie oder einer anderen Identifikation einer Stellung im Text möglich.An advantage of this device becomes apparent when one takes into account that the person looking at the substance in document 10 has to make decisions regarding their disposition, whereby reference to various other documents for identifying persons, positions and other information is usually required, that enable a quick decision-making process. With a limited number of voice commands, it is possible for someone to keep his or her hands free to perform these or those tasks while he or she is giving instructions to the screen 26 using the described means. As an example of simple commands, it is much faster to center a display when it is not centered by "right", "up" or the like. is pronounced. A much faster movement of the position indicator is possible with commands such as "jump to" followed by a line or another identification of a position in the text.

Diese Vorgehensweise kann auch durch Verwendung einer Spracheingabe zusammen mit anderen Eingabe- oder Befehlsgeräten benutzt werden. Dabei sind die Systeme für die Berührung des Bildschirms besonders wichtig, weil es der Bedienungsperson die Identifizierung der auf dem Schirm abgebildeten Darstellungen oder Stellen dadurch ermöglicht, dass sie mit einem Finger berührt wird. Der Schirm reagiert deshalb auf diese Berührung, weil Drähte in die Schirmstruktur eingebettet sind, oder weil Infrarot-Sensoren mit dem Schirm verbunden sind und auf den Finger der Bedienungsperson ansprechen. Die Berührung kann aber nur eine Identifikationsfunktion erfüllen, wobei eine Instruktion in Bezug auf was zu machen ist durch andere Mittel erfolgen muss. Dabei ist eine Stimmeingabe in Verbindung mit der Berührung zur Abgabe von Instruktionen besonders nützlich.This approach can also be used by using voice input with other input or command devices. The systems for touching the screen are particularly important because it is the Allows operator to identify the images or locations shown on the screen by touching them with a finger. The screen reacts to this touch because wires are embedded in the screen structure or because infrared sensors are connected to the screen and respond to the operator's finger. However, the touch can only fulfill an identification function, whereby an instruction regarding what has to be done must be given by other means. Voice input in connection with the touch is particularly useful for giving instructions.

Wenn beispielsweise ein Satz für eine Speicherung gewählt wird, kann die Bedienungsperson die Leerstellen vor und nach dem Satz berühren, wobei er Instruktionen in Verbindung mit der Berührung ausgibt. Wenn der Satz zwischen den Punkten A und B liegt, ist diese Folge möglich.

Figure imgb0001
For example, when a set is selected for storage, the operator can touch the spaces before and after the set, giving instructions related to the touch. If the sentence lies between points A and B, this sequence is possible.
Figure imgb0001

Die gleiche grundsätzliche Annäherungsweise kann zur Wahl von graphischen Bildern zum Kodieren und zur Speicherung für andere Zwecke verwendet werden. Eine besonders nützliche Funktion der gesamten Einrichtung ist die Fähigkeit zur Neuordnung der Folge von Datenfeldern. Wenn beispielsweise angenommen wird, dass eine Bestellung für eine Anzahl von Produkten eintrifft, in der das Bestellformat zuerst das Datum, zweitens die Bestellnummer des Kunden, drittens seinen Namen, viertens die Menge, fünftens die Modellnummer des Produkts und sechstens den Preis nennt, so ist es möglich, dass der Empfänger diese Reihenfolge zwecks Speicherung ändern möchte. Der Empfänger kann beispielsweise wünschen, dass der Name des Kunden an erster Stelle, die Modellnummer an zweiter, die Menge an dritter usw. gespeichert werden. Diese Neuordnung der Reihenfolge für Speicherzwecke ist leicht durchführbar, . indem das Bild des Originaldokumentes am Bildschirm 26 dargestellt und der Name des Kunden berührt wird, und dann z.B. "speichern" ausgesprochen wird, wonach die Modellnummer berührt und "speichern" usw. in der gewünschten Reihenfolge wiederholt werden.The same basic approach can be used to select graphic images for coding and storage for other purposes. A particularly useful function of the entire facility is the ability to rearrange the sequence of data fields. For example, if it is assumed that an order arrives for a number of products in which the order format is first the date, second the customer's order number, third his name, fourth the quantity, fifth the model number of the product and sixth the price the recipient may want to change this order for storage. For example, the recipient may want the customer's name to appear first, the model number in second, the amount in third, etc. are saved. This reordering of the order for storage purposes is easy to do. by displaying the image of the original document on the screen 26 and touching the customer's name and then saying "save", for example, after which the model number is touched and "save" etc. are repeated in the desired order.

Insbesondere in Verbindung mit graphischen Anzeigen ist es nützlich, ausgesuchte Teile der Anzeige zu vergrössern, damit sie in den Grenzen der Auflösung der Ausrüstung leichter sichtbar sind, wobei dies auch bei Text nützlich ist, weil kleinere Teile desselben leichte identifiziert werden können.Particularly in connection with graphic displays, it is useful to enlarge selected parts of the display so that they are more easily visible within the limits of the resolution of the equipment, and this is also useful with text, because smaller parts of the same can be easily identified.

Gemäss der Erfindung ist ein Gittersystem nach Fig. 2, 3 und 4 zu verwenden. In Fig. 2 ist ein Quadrat 35 am Bildschirm in vereinfachter Form dargestellt. Vertikale und horizontale Linien sind am Schirm entweder permanent ausserhalb oder mittels Videozeilengenerators innerhalb vorhanden, wobei die vertikalen und horizontalen Linien durch alphanumerische Symbole gemäss Fig. 2 identifiziert sind. Es wird angenommen, dass die Bedienungsperson eine Vergrösserung desjenigen Teils eines Bildes wünscht, der sich als Fig. 2 im Kästchen C3 befindet. Dazu braucht die Bedienungsperson nur zu sagen "C,3, ganzer Schirm", weil diese Aeusserung als Instruktion zur Vergrösserung von C3 auf die ganze Schirmgrösse, wie dies in Fig. 3 gezeigt ist, ausgelegt wird. Dieses Verfahren kann von der Bedienungsperson wiederholt werden, indem sie "A,1, ganzer Schirm" ausspricht, wonach das im Quadrat Al gezeigte Material derart vergrössert wird, dass es die ganze Schirmfläche belegt, wie es in Fig. 4 gezeigt ist. Dieser Teil kann dann gespeichert werden oder auch ein Teil davon kann von der Bedienungsperson gespeichert werden, indem sie "B,2, speichern" ausspricht.According to the invention, a grid system according to FIGS. 2, 3 and 4 is to be used. 2 shows a square 35 on the screen in a simplified form. Vertical and horizontal lines are present on the screen either permanently outside or by means of a video line generator inside, the vertical and horizontal lines being identified by alphanumeric symbols according to FIG. 2. It is believed that the operator desires to enlarge the portion of an image that is in box C3 as FIG. 2. All the operator needs to do is say "C, 3, whole screen" because this utterance is interpreted as an instruction to enlarge C3 to the whole screen size, as shown in FIG. 3. This process can be repeated by the operator by saying "A, 1, full screen", after which the material shown in the square A1 is enlarged so that it occupies the entire screen area, as shown in FIG. 4. This Part can then be saved or part of it can be saved by the operator by saying "B, 2, save".

Es wird darauf hingewiesen, dass diese Instruktionen lediglich Beispiele darstellen, und dass andere Formen von Kodewörtern verwendet werden können. Es ist nur notwendig, dass ein Vergleichswörterbuch erstellt wird.It is pointed out that these instructions are only examples and that other forms of code words can be used. It is only necessary to create a comparison dictionary.

Die Bewegung des Positionsanzeigers ist viel schneller und andere Formen von Prüfung und Aktivität sind ebenfalls viel schneller, wenn diese Technik statt Tastaturbedienung benutzt wird.The cursor movement is much faster and other forms of testing and activity are also much faster if this technique is used instead of keyboard operation.

Der Betrieb der Einrichtung kann weiter verstanden werden, indem die Vorgehensweise in der beabsichtigten Verwendung erweitert wird. Ein Hauptziel besteht im erlaubten Zugriff für ausgewählte Personen zu den Ebenbildern von Dokumenten, die im Speicher 30 gespeichert sind. Nehmen wir beispielsweise an, dass eine Person in einer Entscheidungsfunktion einen Bildschirm 40 mit einem Pufferspeicher 42 erhält, der in beiden Richtungen über ein Kabel 43 mit einem Speicher 30 verbunden ist. Die Person 44 ist mit einem Mikrofon 46, einer Spracherkennungseinheit 48 und einem Stellen und Befehlsassembler 50, welcher mit dem Pufferspeicher 42 verbunden ist, ausgestattet. Durch einen entsprechenden Befehl werden diejenigen Dokumente, welche gemäss einem beliebigen Geschäftskode für eine bestimmte Person 44 vorgesehen sind, vom Speicher 30 zum Pufferspeicher 42 abgerufen und stehen für gleichzeitige Folgeanzeige zur Verfügung. Mittels einer einfachen Gruppe von Befehlen kann die Person 44 die Disposition von verschiedenen Dokumenten dadurch festlegen, dass sie die bestimmten Dokumente entweder zum Speicher, ohne Bearbeitung, retourniert, einer anderen Person im Betrieb zuführt, oder jemandem ausserhalb des Betriebs zuleitet oder auch sonstwie behandelt. Bezugnahme auf Adressen durch die in den Fig. 2, 3 und 4 identifizierten Sektoren ist möglich, wobei die tatsächliche Anzahl von Unterteilungen auf dem Bildschirm normalerweise etwas höher ist als in den Fig. 2 bis 4 gezeigt ist.Operation of the facility can be further understood by expanding the approach in its intended use. A primary goal is to allow selected individuals access to the images of documents stored in memory 30. For example, suppose that a person in a decision function receives a screen 40 with a buffer memory 42, which is connected in both directions to a memory 30 via a cable 43. The person 44 is equipped with a microphone 46, a speech recognition unit 48 and a position and command assembler 50, which is connected to the buffer memory 42. By means of a corresponding command, those documents which are intended for a specific person 44 in accordance with any business code are called up from the memory 30 to the buffer memory 42 and are available for simultaneous subsequent display. By means of a simple group of commands, the person 44 can determine the disposition of different documents by reading the specific documents neither to the store, without processing, returned, to another person in the company, or to someone outside the company or treated in any other way. References to addresses by the sectors identified in Figs. 2, 3 and 4 are possible, with the actual number of divisions on the screen normally being slightly higher than shown in Figs. 2-4.

Die in Fig. 1 gezeigte Einrichtung ist auch zur Berichtigung von Text oder in begrenztem Umfang zur Hinzufügung von Daten geeignet. Aus dem vorgenannten US-Patent geht hervor, dass eine weitere, von der Bedienungsperson 32 ausgeführte Funktion während der Betrachtung des digitalisierten Textes vor dem Kodieren und Speichern darin besteht, Buchstaben einzufügen, welche nicht vom Leser 14 erkannt wurden, oder Buchstaben oder Symbole richtigzustellen, die nicht richtig gelesen wurden. Dies ist eine Funktion, die viel schneller mit der Stimme als mit der herkömmlichen Tastatur durchführbar ist, indem Befehle, wie "Positionsanzeiger springen bis" mit nachfolgender Stelle erteilt werden. Wenn beispielweise das Schirmgitter durch horizontale Linien in fünf Sektionen und durch vertikale Linien in vier Sektionen aufgeteilt ist, kann ein Befehl "Al Positionsanzeiger springen bis B4" bewirken, dass er in eine Zone bewegt wird, wo richtiggestellt werden muss oder die zusätzliche Daten erforderlich machen, wobei der ganze Vorgang viel schneller abläuft als bei der herkömmlichen Tastatur. Eine weitere Verfeinerung der Stellung ist durch Befehle "links, rechts" oder mittels Tastendruck möglich: Eine Rückpositionierung des Positionsanziegers ist ebenfalls durch eine Kombinationssteuerung mittels Stimme und Berührung z.B. dadurch möglich, dass der Positionsanzeiger an einer zu diesem Zeitpunkt betehenden Stelle berührt und der Stimmbefehl "spring bis" erteilt wird, wonach die neue Stelle berührt wird. Das Hinzufügen von Text ist nur innerhalb denjenigen Grenzen möglich, die durch die Grösse und die Vorbedingung durch das Lexikon bestimmt sind, obschon es offensichtlich ist, dass Buchstaben und Zahlen ohne Schwierigkeiten hinzugefügt werden können, weil sie fundamental notwendige Symbole darstellen, die durch die Erkennungsvorrichtung 36 oder 38 erkannt werden können.The device shown in FIG. 1 is also suitable for correcting text or, to a limited extent, for adding data. It is apparent from the aforementioned U.S. patent that another function performed by operator 32 while viewing the digitized text prior to encoding and storing is to insert letters that were not recognized by reader 14 or to correct letters or symbols, that were not read correctly. This is a function that can be performed much faster with the voice than with the conventional keyboard by issuing commands such as "position indicators jump to" followed by a digit. For example, if the screen grid is divided into five sections by horizontal lines and four sections by vertical lines, a command "jump to position indicator to B4" can cause it to be moved to a zone where it needs to be corrected or which requires additional data , the whole process is much faster than with the conventional keyboard. A further refinement of the position is possible with commands "left, right" or by pressing a button: Repositioning of the position indicator is also possible through a combination control using voice and touch, for example, by the position indicator at one at this time touched point and the voice command "jump to" is given, after which the new position is touched. The addition of text is only possible within the limits determined by the size and precondition by the lexicon, although it is obvious that letters and numbers can be added without difficulty because they represent fundamentally necessary symbols by the recognition device 36 or 38 can be recognized.

Eine typische Einrichtung zur Wiedererkennung der Sprache ist in Fig. 5 dargestellt, bei der ein Sprach-Eingangssignal in elektrischer Form vom Mikrofon 34 oder 46 empfangen wird. Dieses Signal wird einer Analyse und einem Muster vergleichen dem Verfahren unterworfen, bei dem die Signalanalyse und eine Gewinnung von Parametern in Block 56 stattfindet. Ein Hauptproblem bei den Einrichtungen zur Wiedererkennung von Sprachen besteht im allgemeinen in den einzelnen Wortendungen. Somit besteht die nächste Stufe 58 in einer Bestimmung des Endes der jeweiligen Aussprache. Eine nächste Stufe 60 ist die Normalisierung von Frequenz, und Zeit, nach der, im Erkennungszustand, das Signal einer Zeitverkettung unterworfen wird, welche eine Art des dynamischen Programmierens darstellt, von dem mehrere Beispiele bestehen. Ein Wörterbuch 64 ist mit Aeusserungsmustern versehen, welche die Einrichtung wiedererkennen soll, und diese Muster werden mit den verarbeiteten Sprachsignalen verglichen, wobei die Ausdehnung der Aehnlichkeit in einem Aehnlichkeits-Wertungsverfahren 66 festgestellt wird. Die daraus resultierende Entstehung gibt an, ob eine Instruktion oder ein alphanumerisches Symbol wiedererkannt wird oder nicht, wonach ein passender Hinweis abgegeben wird.A typical device for recognizing speech is shown in FIG. 5, in which a speech input signal in electrical form is received by microphone 34 or 46. This signal is subjected to an analysis and a pattern comparison of the method in which the signal analysis and parameter acquisition takes place in block 56. A major problem with language recognition facilities is generally in the individual word endings. Thus, the next stage 58 is to determine the end of each pronunciation. A next stage 60 is the normalization of frequency and time, after which, in the detection state, the signal is subjected to time chaining, which is a type of dynamic programming, of which several examples exist. A dictionary 64 is provided with utterance patterns which the device is to recognize and these patterns are compared with the processed speech signals, the extent of the resemblance being determined in a similarity evaluation method 66. The resulting formation indicates whether an instruction or an alphanumeric symbol is recognized or not, after which a suitable note is given.

Derartige Einrichtungen werden normalerweise einem Trainierungsverfahren unterworfen, in dem die kennzeichnenden Formanten der Stimme der Bedienungsperson wiedererkannt und gespeichert werden als Teil des Wörterbuches, wobei normalerweise Durchschnittswerte einer grossen Anzajl von wiederholten Aussagen des gleichen Ausdruckes gebildet werden, so dass die Einrichtung nachher im Stande ist, gesprochene Ausdrücke von der gleichen Person wiederzuerkennen. Eine sehr hohe Genauigkeit ist mit einem sehr begrenzten, von der gleichen Person besprochenen Wörterbuch erreichbar, wobei der Genauigkeitsgrad mit anderen Personen abnimmt.Such devices are normally subjected to a training process in which the distinctive formers of the operator's voice are recognized and stored as part of the dictionary, with average values of a large number of repeated statements of the same expression being normally formed, so that the device is subsequently able to Recognize spoken expressions from the same person. A very high level of accuracy can be achieved with a very limited dictionary that is discussed by the same person, the level of accuracy decreasing with other people.

Die Kombination aus Stimme und Berührung oder nur Stimme kann ferner zur Erzeugung von graphischen Illustrationen am Bildschirm verwendet werden, Dabei verlangt die Herstellung von "Zeichnungen" am Bildschirm nur mit Hilfe derThe combination of voice and touch or just voice can also be used to create graphic illustrations on the screen. The production of "drawings" on the screen requires only with the help of

Tastatur, dass man mit dem spezifischen Computer und mit der Programmiersprache gut vertraut ist. Mit der Stimme allein oder mit der Stimme und Bildschirmberührung wird viel Lernzeit eliminiert. Die Bedienungsperson kann weitgehend untrainiert sein mit Ausnahme des Erlernens eines kleinen Werterbuches mit Befehlswörtern.Keyboard that you are familiar with the specific computer and with the programming language. A lot of learning time is eliminated with the voice alone or with the voice and touching the screen. The operator can be largely untrained with the exception of learning a small dictionary with command words.

Wenn beispielweise eine Linie zwischen zwei Punkten gezogen werden soll, braucht die Bedienungsperson nur die beiden Punkte zu berühren und das im Wörterbuch angegebene Befehlswort auszusprechen, das als "Linie" definiert ist. Die Berührungen und der Befehl liefern alle Informationen, die normalerweise in die Tastatur eingegeben werden, d.h. die Endpunkte in einem kartesischen Koordinatensystem und Instruktionen zum Ziehen einer Linie in einer relativ grossen Anzahl von Tastaturanschlägen. Es ist wichtig zu bemerken, dass normalerweise keine Aenderungen im Basisprogramm der Maschine erforderlich sind. das Programm für graphische Zwecke erkennt normalerweise eine Instruktion, die eine kleine Anzahl von Eingangswörtern einschliesst, Diese Wörter werden vom Assembler geliefert, der notwendigerweise auf die Computersprache und das Betriebssystem als Antwort auf die gesprochenen Befehle abgestimmt ist.For example, if a line is to be drawn between two points, the operator only needs to touch the two points and pronounce the command word specified in the dictionary, which is defined as a "line". The touches and command provide all of the information that is normally entered into the keyboard, ie the end points in a Cartesian coordinate system and instructions for drawing a line in a relatively large number of keystrokes. It is important too note that normally no changes are necessary in the basic program of the machine. the program for graphic purposes normally recognizes an instruction which includes a small number of input words. These words are supplied by the assembler, which is necessarily adapted to the computer language and the operating system in response to the spoken instructions.

Ein mehr ausgefallenes Diagramm als eine Linie ist fast ebenso einfach zu zeichnen, zwei Punkte und ein "Kreis"-Befehl genügen zur Definition des Zentrums und des Radius eines Kreises, wobei Teile gelöscht werden können, indem die gleiche Art von Grenzen definiert wird. Diese Art des Vorgehens erfordert somit weniger Begabung als nur mit einer Tastatur.A more fancy diagram than a line is almost as easy to draw, two points and a "circle" command suffice to define the center and radius of a circle, and parts can be deleted by defining the same type of boundary. This type of procedure therefore requires less talent than just a keyboard.

Eine weitere erleichterte Definition mittels Spracheingabe wird durch ein programmiertes, von links nach rechts wandderndes Feld erreicht, wobei der Startpunkt für das wandernde Feld nach belieben mittels Sprache auf irgendein beliebiges Quadrat - auch versetzt - gesetzt werden kann und von dort automatisch nach rechts wandert.A further simplified definition by means of voice input is achieved by a programmed field that moves from left to right, whereby the starting point for the moving field can be set to any square - also offset - by language, and from there it automatically moves to the right.

Beispiel:

  • In Fig. 2 werden die Kästchen weiter unterteilt. Durch Sprachbefehl wird z.B. C 1/1 definiert. Ein längliches Viereck V erscheint bei C 1/1 auf dem Bildschirm und bewegt sich automatisch von links nach rechts. Bei z.B. dem Befehl "Stop" erfolgt automatisch ein Zoom (Bildvergrösserung), welche falls nötig aufgrund eines oder weitere Befehle weiter vergrössert werden kann. Z.B. kann durch einen bestimmten Befehl mittels einer Zahl kombiniert, genau die Mitte des erfassten Bildes mit einem Befehl um einen mehrfachen Zoom-Effekt vergrössert werden.
Example:
  • In Fig. 2 the boxes are further divided. A voice command defines, for example, C 1/1. An elongated square V appears at C 1/1 on the screen and automatically moves from left to right. With the "Stop" command, for example, a zoom (image enlargement) takes place automatically, which can be enlarged if necessary based on one or more commands. For example, a certain command can be combined with a number to exactly center the captured image with one command a multiple zoom effect can be enlarged.

Bei der Erfassung des Bildes in Fig. 2 (oder auch bei Schriften) könnte bei stop bei den P, Q, R, S Punkten, das Bild erfasst werden (bei Schriften 2 Punkte zur Definition Anfang/Ende).When capturing the image in FIG. 2 (or also with fonts), the image could be captured with stop at the P, Q, R, S points (for fonts 2 points to define the beginning / end).

Bei der Erfassung von Schriften kann das Programm so angelegt werden, dass zu Beginn 2 Worte eingegeben werden (z.B. A 1/2, C 1/3) siehe Fig. 2, Reile 1, so dass nach Definition der ersten Stelle z.B. des Segmentes bei A-2 das längliche Viereck V sofort zu dem Anfang von C 1/3 springt, zwecks Definition der letzten Stelle.When entering fonts, the program can be created so that 2 words are entered at the beginning (e.g. A 1/2, C 1/3) see Fig. 2, row 1, so that after defining the first digit e.g. of the segment at A-2 the elongated quadrilateral V immediately jumps to the beginning of C 1/3 in order to define the last position.

Bei Manipulationen, welcher Art auch immer, könnte selbst ein Punkt auf dem Bildschirm punktuell angesteuert und mittels mehrfachem Zoom punktuell definiert werden.In the case of manipulations of any kind, even a point on the screen could be selectively controlled and defined point by point using multiple zooms.

Mittels eines farbigen graphischen Bildschirmes ist es möglich, die quadratische Aufteilung auch in Farben vorzunehmen und mit Sprache anzusteuern, z.B. eine Unterteilunmg in Grün, Gelb, Blau, Rot horizontal und 1, 2, 3, 4 vertikal. Befehlsbeispiel: Blau 3.Using a colored graphic screen, it is possible to divide the squares in colors and to control them with speech, e.g. a subdivision in green, yellow, blue, red horizontally and 1, 2, 3, 4 vertically. Command example: Blue 3.

Unabhängig von den dargestellten Zeichnungen können in gleicher Weise auch Texte erfasst werden.Regardless of the drawings shown, texts can also be recorded in the same way.

Dabei können die jeweilis zu definierenden Stellen mittels wenigen Sprachbefehlen festgelegt werden. Der Bildschirm kann auch andere Unterteilungen beinhalten.The positions to be defined can be defined using a few voice commands. The screen can also contain other subdivisions.

Beispiel:

  • Der bewegliche Zoom kann an jeder Stelle auf dem Bildschirm zwecks Start angesetzt werden, z.B. bei B2d.
Example:
  • The movable zoom can be used at any point on the screen for the start, for example with B2d.

Bei dem Befehl B2, start beginnt die markierte Zone V in der Mitte der bezeichneten Zone B2 sind von links nach rechts zu bewegen. Bei dem Befehl Zoom vergrössert sich automatisch die jeweilige Stelle.With the command B2, start the marked zone V in the middle of the designated zone B2 must be moved from left to right. With the Zoom command, the respective position is automatically enlarged.

Durch einen kombinierten Befehl, z.B. B2, d und C2, f, d.h. durch den dem Befehl B2, d sofort folgenden Befehl C2, f wird die zuletzt genannte Stelle gespeichert und die Stelle durch Zoom vergrössert, bei welcher der letzte Befehl ausgesprochen wurde.By a combined command, e.g. B2, d and C2, f, i.e. command C2, f immediately following command B2, d saves the last-mentioned position and zooms in on the position at which the last command was pronounced.

Nach Manipulation der durch Zoom vergrösserten Stelle springt die markierte Zone an die zuletzt gespeicehrte Stelle und beginnt dort sich von links nach rechts zu bewegen. Für den Fall, dass die zuletzt gespeicherte Stelle als Zoom erscheinen soll, wird zusätzlich der Befehl Zoom gegeben.After manipulation of the point enlarged by zoom, the marked zone jumps to the last place where it was fed and begins to move from left to right. In the event that the last saved position should appear as a zoom, the Zoom command is also given.

Dabei ist die Vorgehensweise wie folgt:

  • Ein bewgliches, umrandetes Feld (in dessen Mitte sich ein Curser befindet) welches an irgendeiner Stelle auf dem Bildschirm mittels Sprachbefehl aufleuchtet und sich bei konstanter Geschwindigkeit nach rechts bewegt, ist unser Manipulator.
The procedure is as follows:
  • A manipulated, bordered field (in the middle of which there is a cursor) which lights up at any point on the screen with a voice command and moves to the right at constant speed is our manipulator.

Durch Eingabe der nächsten Startposition (B) des Zooms

  • - findet ein Zoom an der Stelle statt, wo sich das um randete Feld im Augenblick der Befehlsgebung befindet (A),
  • - wird die nächste Startposition des Zooms gespeichert (B) und
  • - findet ein Zoom der nächsten Startposition statt, (B) nachdem durch Zoom an der Stelle A die erforderlichen Manipulationen stattgefunden haben.
By entering the next start position (B) of the zoom
  • - a zoom takes place at the point where the bordered field is at the moment of command (A),
  • - the next starting position of the zoom is saved (B) and
  • - The next starting position is zoomed (B) after the required manipulations have taken place at point A by zooming.

Eine erforderliche Manipulation kann es z.B. sein, den Curser in der Mitte des umrandeten Feldes links der Mitte eines Buchstabens zu setzen, um so eine zu erfassende Zeile genau zu definieren.A necessary manipulation can e.g. be to place the cursor in the middle of the outlined field to the left of the middle of a letter in order to precisely define a line to be captured.

Wird ein Curser in einem Viereck, d.h. an vier Punkten gesetzt, so werden alle digitalen Muster in dem Viereck erfasst. Werden nur zwei Stellen bezeichnet, so beinhaltet das erfasste Feld die Fläche rechts vom definierten Punkt, rechtwinklig nach unten bis zur Höhe des zweiten definierten Punkte. Befindet sich auf der Höhe des ersten definierten Punktes kein zweiter Definitionspunkt, so werden alle folgenden Zeichen rechts vom ersten definierten Punkt bis zum Bildschirmrand erfasst und enden in der Zeile und bei der Stelle wo der Endpunkt für dieses zu erfassende Segment gesetzt wurde.If a cursor is in a square, i.e. set at four points, all digital patterns are captured in the square. If only two digits are designated, the captured field includes the area to the right of the defined point, downwards at right angles to the height of the second defined point. If there is no second definition point at the height of the first defined point, all subsequent characters to the right of the first defined point up to the edge of the screen are recorded and end in the line and at the point where the end point for this segment to be recorded was set.

Die Vorgehensweise kann durch die Befehle "stop", "zurück", "auf", "ab", "links", "rechts", und andere erweitert werden.The procedure can be expanded by the commands "stop", "back", "up", "down", "left", "right", and others.

In Fig. 6 ist ein weiterer Aspekt der vorliegenden Erfindung gezeigt, bei dem die Selektion und das Kodierverfahren ferner zur gesteigerten Mikroform-Speicherung verwendet werden können. Die durch die in Fig. 1 erzielte Auswahl der Teile der Einrichtung ist erneut in Fig. 6 dargestellt, wobei die Kodiervorrichtung und der Speicher 30 in eine Kodiervorrichtung 70 und einen Massenspeicher 72 aufgestellt sind. Als Sicherheitszubehör oder als Alternative zum Quellendokument-Speicher 20 und als eine redundante Speicherungstechnik zum Massenspeicher 72 ist es wünschenswert, einen Mikrofilm- oder Mikroformspeicher der wichtigsten Teile der eingegangenen Dokumente vorzusehen. Zu diesem Zweck werden die kodierten Signale einem6 shows a further aspect of the present invention, in which the selection and the coding method can also be used for increased microform storage. The selection of the parts of the device achieved by FIG. 1 is shown again in FIG. 6, the coding device and the memory 30 being set up in a coding device 70 and a mass memory 72. As a security accessory or as an alternative to the source document storage 20 and as a redundant storage technology to the mass storage 72, it is desirable to provide a microfilm or microform storage of the most important parts of the received documents. For this purpose, the encoded signals are one

Digital-Video-Umformer 74 mit hoher Auflösung zugeführt, der eigentlich eine umgekehrte Vodeokamera ist und zur Aufnahme von Digitalsignalen sowie zur Herstellung von Ebenbildern mit hoher Auflösung dient, die durch ein herkömmliches optisches System einem Mikrofilm 76 zuführbar sind, der von einer Vorratsspule 78 abgewickelt einer Aufwickelspule 80 zugeführt wird, das in bekannter Weise von einem Schrittantrieb oder von einem intermittierenden Antrieb 82 angetrieben wird. Obschon ein normaler Spulenfilm dargestellt ist, ist es verständlich, dass Filme jeder Grösse und auch Mikrofich- oder Mikropunktspeicher verwendet werden können.High-resolution digital video converter 74 is supplied, which is actually an inverted Vodeo camera and is used to record digital signals and to produce high-resolution images that can be fed by a conventional optical system to a microfilm 76 that is unwound from a supply spool 78 a take-up spool 80 is fed, which is driven in a known manner by a stepper drive or by an intermittent drive 82. Although a normal spool film is shown, it is understandable that films of any size and also microfich or microdot memory can be used.

In der vorangehenden Beschreibung wurden verschiedene vorteilhafte Ausführungsformen erläutert. Es sind aber innerhalb des heutigen technischen Standes eine Reihe von Abweichungen von diesen Ausführungen möglich, die ebenfalls innerhalb des Rahmens der vorliegenden Erfindung liegen.Various advantageous embodiments have been explained in the preceding description. However, a number of deviations from these designs are possible within the current state of the art, which are also within the scope of the present invention.

Claims (16)

1. Verfahren zur Verwendung einer Stimme als Eingabe zu einer Datenverarbeitungsanlage mit einem visuellen Bildschirm und einer Vorrichtung zur selektiven Anzeige von Ebenbildern auf dem Schirm, dadurch gekennzeichnet, dass man: - einen Satz von sichtbaren Teilern am Bildschirm anbringt, die den Schirm in Sektoren aufteilt, die eindeutig durch ein oder mehrers alphanumerische Symbole beschrieben werden können, - eine Speicherzelle für Datenbits vorsieht, von welchen eine Darstellung auf dem Bildschirm erzeugt werden soll, - die Speicherstellen funktionell in eine Vielzahl von Speicherteilen aufteilt, deren Anzahl mindestens der Anzahl der Sektoren entspricht, damit Adressen der Speicherstellen funktionell mit den Stellungen der Bildteile am Schirm korreliert werden können, - einen auf Stimmen ansprechenden Wandler zur Umwandlung der empfangenen Aesserungen in elektrische Signale vorsieht, die Sprachmuster darstellen, - ein Wörterbuch von Sprachmustern von einer Vielzahl von Aeusserungen vorsieht, die Aeusserungen einschliessen, welche als alphanumerische Symbole zur Identifizierung der Sektoren und vorgewählten Befehlen erkennbar sind, - die das Sprachmuster einer vom Wandler empfangenen Aeusserung mit den im Wörterbuch gespeicherten vergleicht und Aufgaben von erkannten Aeusserungen als Befehl oder Sektoridentifikation mit nachfolgendem Befehl erzeugt, wobei eine Wiedererkennung als nahes Uebereinstimmen der Muster definiert ist, und - den Befehl ausführt. 1. A method for using a voice as input to a data processing system with a visual screen and a device for the selective display of images on the screen, characterized in that: attaches a set of visible dividers to the screen which divides the screen into sectors which can be clearly described by one or more alphanumeric symbols, provides a memory cell for data bits, of which a representation is to be generated on the screen, functionally divides the memory locations into a plurality of memory parts, the number of which corresponds at least to the number of sectors, so that addresses of the memory locations can be functionally correlated with the positions of the image parts on the screen, provides a transducer responsive to voices for converting the received changes into electrical signals representing speech patterns, provides a dictionary of speech patterns from a variety of utterances including utterances which are recognizable as alphanumeric symbols for identifying the sectors and preselected commands, - which compares the speech pattern of an utterance received by the converter with those stored in the dictionary and generates tasks of recognized utterances as a command or sector identification with a subsequent command, recognition being defined as close matching of the patterns, and - executes the command. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein Muster einschliesst, das als Befehl zur Vergrösserung eines Sektors auf die gesamte Bildschirmgrösse erkannt wird, wobei der Befehl zur mehrfachen Vergrösserung wiederholbar ist.2. The method according to claim 1, characterized in that the stored dictionary includes a pattern that is recognized as a command to enlarge a sector to the entire screen size, the command for repeated enlargement being repeatable. 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein erkennbares Muster enthält, das als Befehl zum Löschen und Ersetzen von Zeichen auf dem Bildschirm verwendet wird.3. The method according to claim 1, characterized in that the stored dictionary contains a recognizable pattern that is used as a command to delete and replace characters on the screen. 4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein Muster einschliesst, das als Befehl zur Aenderung der Lage eines Positionsanzeigers am Bildschirm von einem Sektor zu einem anderen dient.4. The method according to claim 1, characterized in that the stored dictionary includes a pattern that serves as a command to change the position of a position indicator on the screen from one sector to another. 5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein Muster einschliesst, das als ein Befehl zur Einstellung der Lage des gesamten Bildes in horizontaler oder vertikaler Richtung dient.5. The method according to claim 1, characterized in that the stored dictionary includes a pattern that serves as a command to adjust the position of the entire image in the horizontal or vertical direction. 6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man eine Tastatur eine Eingabe von ausgewählten Daten und Befehlen durch Tastenanschlag zusätzlich zur Stimme verwendet.6. The method according to claim 1, characterized in that a keyboard uses an input of selected data and commands by keystroke in addition to the voice. 7. Verfahren nach Anspruch 1, dadruch gekennzeichnet, dass man eine Kodiervorrichtung zur Umwandlung der digitalen Darstellung des gezeigten Bildes in einen Maschinenkode verwendet, dass man den Maschinenkode einem Digital-Video-Umwandler mit hoher Auflösung zuführt und aus dem gezeigten Bild ein optisches Bild erzeugt, und dass das optische Bild in reduziertem Massstab auf Film für Mikroform-Speicherung festgehalten wird.7. The method according to claim 1, characterized in that one uses a coding device for converting the digital representation of the image shown into a machine code, that one feeds the machine code to a digital video converter with high resolution and generates an optical image from the image shown , and that the optical image is captured on a reduced scale on film for microform storage. 8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass man einen auf Berührung ansprechenden Bildschirm verwendet, so dass durch Berührung eine Stelle in dem Gerät identifiziert wird, wobei Aeusserungen in Verbindung mit der Berührung zur Herbeiführung einer Aenderung der Darstellung verwendet wird.8. The method according to claim 7, characterized in that one uses a touch-sensitive screen, so that a location in the device is identified by touch, statements in connection with the touch being used to bring about a change in the representation. 9. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man den Bildschirm mit auf Berührung ansprechenden Vorrichtungen ausstattet, so dass eine Berührung des Schirmes eine Stelle dem Gerät identifiziert, wobei Aeusserungen in Verbindung mit Berührung verwendet werden können, um das Bild zu ändern.9. The method according to claim 1, characterized in that the screen is equipped with touch-responsive devices so that touching the screen identifies a location on the device, where utterances in connection with touch can be used to change the image. 10. Verfahren zur Bereitstellung von Befehlen und Eingaben zu einer Datenverarbeitungsanlage derjenigen Art, welche mit einem visuellen Bildschirm sowie einer Vorrichtung zur selektiven Anzeige von Ebenbildern auf dem Schirm ausgestattet ist, dadurch gekennzeichnet, dass man: - einen auf Berührung ansprechenden Bildschirm vorsieht, damit die Berührung der Anlage eine gezeigte Bildstelle identifiziert, an der eine Aenderung des Bildes durchzuführen ist, - einen auf eine Stimme ansprchenden Wandler zur Umwandlung von empfangenen Aeusserungen in elektrische Signale vorsieht, die Sprachmuster darstellen, - ein gespeichertes Wörterbuch von Sprachmustern von einer Vielzahl von Aeusserungen einschliesslich solcher vorsieht, die als vorgewählte Befehle erkennbar sind, - die Sprachmuster einer vom Wandler empfangenen Aeusserung mit den im Wörterbuch gespeicherten Mustern vergleicht und eine Ausgabe mit einer erkannten Aeusserung als einen Befehl erzeugt, und - die Befehle an der oder den Stellen welche durch Berührung identifiziert wurden ausführt. 10. Method for providing commands and inputs to a data processing system of the type which is equipped with a visual screen and a device for the selective display of images on the screen characterized that one: provides a touch-sensitive screen so that touching the system identifies a shown image point at which the image is to be changed, provides a transducer that responds to a voice for converting received utterances into electrical signals that represent speech patterns, - provides a stored dictionary of speech patterns from a variety of utterances, including those that are recognizable as pre-selected commands, compares the speech patterns of an utterance received by the transducer with the patterns stored in the dictionary and generates an output with a recognized utterance as a command, and - executes the commands at the point or points identified by touch. 11. Verfahren nach Anspruch 10, dadurch gekennzeichnet dass man eine Kodiervorrichtung zur Umwandlung der digitalen Darstellung des Ebenbildes in einen Maschinenkode verwendet, und diesen Kode einem Digital-Video-Umwandler mit hoher Auflösung zuführt und ein optisches Ebenbild aus dem Bild herstellt, und dass das Bild in kleinerem Massstab auf Film oder andere Speichermedia für Mikroform-Speicherung projiziert wird.11. The method according to claim 10, characterized in that one uses a coding device for converting the digital representation of the image into a machine code, and this code feeds a digital-video converter with high resolution and produces an optical image from the image, and that Image is projected on a smaller scale onto film or other storage media for microform storage. 12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein Muster einschliesst, das als Befehl zum Weglassen und Ersetzen von Zeichen auf dem Schirm erkennbar ist.12. The method according to claim 10, characterized in that the stored dictionary includes a pattern that is recognizable as a command to omit and replace characters on the screen. 13. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass das Wörterbuch ein Muster einschliesst, das als Befehl zur Verschiebung des Positionsanzeigers von einer Berührungsstelle zu einer anderen erkennbar ist.13. The method according to claim 10, characterized in that the dictionary includes a pattern that is recognizable as a command to move the position indicator from one touch point to another. 14. Verfahren zur Bereitstellung von Befehlen und Eingaben zu einer Datenverarbeitungsanlage mit einer visuellen Anzeigevorrichtung, dadurch gekennzeichnet, dass man: - eine Folge von Dokumenten zuführt, - jedes Quellendokument abtastet und Signale bildet, welche Signale von digitalisierten Mustern darstellen, die von darauf befindlichen Ebenbildern von Zeichen und graphischen Darstellungen abgeleitet sind, - diejenigen Signale vorübergehend speichert, welche digitalisierte Muster darstellen, - den Bildschirm mit einer auf Berührung ansprechenden Vorrichtung ausstattet, damit eine Berührung des Bildschirms der Anlage eine Stelle im gezeigten Ebenbild identifiziert, an welcher Segmente derjenigen Signale gespeichert werden sollen, welche Teile des speichernden Bildes darstellen, - einen auf Stimmen ansprechenden Wandler zur Umwandlung der empfangenen Aeusserungen in elektrische Signale vorsieht, die Sprachmuster darstellen, - ein gespeichertes Wörterbuch mit Sprachmustern von einer Vielzahl von Aeusserungen einschliesslich solcher vorsieht, die als vorgewählte Befehle wiedererkennbar sind, - Segmente der gespeicherten Signale für weitere Verarbeitung durch Berührung am Anfangs- und Endpunkt auswählt und gleichzeitig einen vorgewählten Befehl äussert, - die Sprachmuster der vom Wandler empfangenen Aeusserungen mit im Wörterbuch gespeicherten Mustern vergleicht, und eine Ausgabe aufgrund der erkannten Aeusserung als Befehl an die Anlage erzeugt, - den Befehl an durch Berührung identifizierten Stellen ausführt, indem Signale in einen Maschinenkode umgesetzt werden, die digitalisierte Muster von Zeichen nur in den ausgewählten Segmenten darstellten, und - den Maschinenkode sowie das Signal des digitalisierten Musters für nachfolgende Verwendung speichert. 14. A method for providing commands and inputs to a data processing system with a visual display device, characterized in that: - feeds a sequence of documents, each source document is scanned and forms signals which represent signals from digitized patterns which are derived from plane images of characters and graphic representations thereon, temporarily stores those signals which represent digitized patterns, equips the screen with a device that responds to touch, so that touching the screen of the system identifies a location in the image shown, at which segments of those signals that represent parts of the storing image are to be stored, provides a transducer responsive to voices for converting the received utterances into electrical signals which represent speech patterns, provides a stored dictionary with speech patterns of a large number of utterances including those which are recognizable as preselected commands, - selects segments of the stored signals for further processing by touching them at the start and end points and at the same time issues a preselected command, compares the speech patterns of the utterances received by the converter with patterns stored in the dictionary, and generates an output based on the recognized utterance as a command to the system, - executes the command at locations identified by touch by converting signals into machine code that represent digitized patterns of characters only in the selected segments, and - stores the machine code and the signal of the digitized pattern for subsequent use. 15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein Muster einschliesst, das als ein Befehl zum Löschen und Ersetzen von Zeichen am Bildschirm wiedererkennbar ist.15. The method according to claim 14, characterized in that the stored dictionary includes a pattern that is recognizable as a command to delete and replace characters on the screen. 16. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass das gespeicherte Wörterbuch ein Muster einschliesst, das als Befehl zur Aenderung der Lage des Positionsanzeigers von einer Berührungsstelle zu einer anderen erkennbar ist.16. The method according to claim 14, characterized in that the stored dictionary includes a pattern that is recognizable as a command to change the position of the position indicator from one touch point to another.
EP85100700A 1984-01-26 1985-01-24 Method for voice controlled manipulation of displayed screen images Expired - Lifetime EP0150813B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/573,945 US4726065A (en) 1984-01-26 1984-01-26 Image manipulation by speech signals
US573945 1990-08-28

Publications (3)

Publication Number Publication Date
EP0150813A2 true EP0150813A2 (en) 1985-08-07
EP0150813A3 EP0150813A3 (en) 1988-05-25
EP0150813B1 EP0150813B1 (en) 1992-03-25

Family

ID=24294031

Family Applications (1)

Application Number Title Priority Date Filing Date
EP85100700A Expired - Lifetime EP0150813B1 (en) 1984-01-26 1985-01-24 Method for voice controlled manipulation of displayed screen images

Country Status (3)

Country Link
US (1) US4726065A (en)
EP (1) EP0150813B1 (en)
DE (1) DE3585693D1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0294657A2 (en) * 1987-06-11 1988-12-14 FROESSL, Horst Method and device for voice and contact controlled data and image processing
EP0414238A2 (en) * 1989-08-25 1991-02-27 GRUNDIG E.M.V. Elektro-Mechanische Versuchsanstalt Max Grundig GmbH & Co. KG Voice controlled archival system
CN105068982A (en) * 2015-08-26 2015-11-18 百度在线网络技术(北京)有限公司 Input content modification method and apparatus

Families Citing this family (196)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5157384A (en) * 1989-04-28 1992-10-20 International Business Machines Corporation Advanced user interface
US5252951A (en) * 1989-04-28 1993-10-12 International Business Machines Corporation Graphical user interface with gesture recognition in a multiapplication environment
JPH03163623A (en) * 1989-06-23 1991-07-15 Articulate Syst Inc Voice control computor interface
US5133024A (en) * 1989-10-24 1992-07-21 Horst Froessl Image data bank system with selective conversion
US5136655A (en) * 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5444840A (en) * 1990-06-12 1995-08-22 Froessl; Horst Multiple image font processing
US5396588A (en) * 1990-07-03 1995-03-07 Froessl; Horst Data processing using digitized images
US5926565A (en) * 1991-10-28 1999-07-20 Froessl; Horst Computer method for processing records with images and multiple fonts
US5875263A (en) * 1991-10-28 1999-02-23 Froessl; Horst Non-edit multiple image font processing of records
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5586240A (en) * 1992-03-11 1996-12-17 Genesis Software, Inc. Image generation and retrieval system integrated with arbitrary application using layered interface
US5442376A (en) * 1992-10-26 1995-08-15 International Business Machines Corporation Handling multiple command recognition inputs in a multi-tasking graphical environment
US5546565A (en) * 1993-06-21 1996-08-13 Casio Computer Co., Ltd. Input/output apparatus having a pen, and method of associating and processing handwritten image data and voice data
JP3267047B2 (en) * 1994-04-25 2002-03-18 株式会社日立製作所 Information processing device by voice
DE69619592T2 (en) * 1995-04-11 2002-11-07 Dragon Systems Inc Movement of a pointer shown on the screen
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5903870A (en) * 1995-09-18 1999-05-11 Vis Tell, Inc. Voice recognition and display device apparatus and method
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition
US7297856B2 (en) * 1996-07-10 2007-11-20 Sitrick David H System and methodology for coordinating musical communication and display
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6253184B1 (en) 1998-12-14 2001-06-26 Jon Ruppert Interactive voice controlled copier apparatus
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
IL133698A0 (en) * 1999-12-23 2001-04-30 Metzger Ram Pointing device
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0029573D0 (en) * 2000-12-02 2001-01-17 Hewlett Packard Co Activation of voice-controlled apparatus
ITFI20010199A1 (en) 2001-10-22 2003-04-22 Riccardo Vieri SYSTEM AND METHOD TO TRANSFORM TEXTUAL COMMUNICATIONS INTO VOICE AND SEND THEM WITH AN INTERNET CONNECTION TO ANY TELEPHONE SYSTEM
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120309363A1 (en) * 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8255218B1 (en) 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9588964B2 (en) 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US10656808B2 (en) 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US9141335B2 (en) 2012-09-18 2015-09-22 Adobe Systems Incorporated Natural language image tags
US9436382B2 (en) 2012-09-18 2016-09-06 Adobe Systems Incorporated Natural language image editing
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
CN104969289B (en) 2013-02-07 2021-05-28 苹果公司 Voice trigger of digital assistant
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP2973002B1 (en) 2013-03-15 2019-06-26 Apple Inc. User training by intelligent digital assistant
WO2014168730A2 (en) 2013-03-15 2014-10-16 Apple Inc. Context-sensitive handling of interruptions
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (en) 2013-06-13 2019-09-17 苹果公司 System and method for the urgent call initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN109584862B (en) * 2017-09-29 2024-01-12 上海寒武纪信息科技有限公司 Image processing apparatus and method
CN109584864B (en) * 2017-09-29 2023-11-24 上海寒武纪信息科技有限公司 Image processing apparatus and method
KR101972545B1 (en) * 2018-02-12 2019-04-26 주식회사 럭스로보 A Location Based Voice Recognition System Using A Voice Command
CN110598671B (en) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 Text-based avatar behavior control method, apparatus, and medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2070822A (en) * 1980-02-04 1981-09-09 Casio Computer Co Ltd Data registering system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US32012A (en) * 1861-04-09 Improvement in desulphurizing coal and ores
JPS56119185A (en) * 1980-02-23 1981-09-18 Fujitsu Fanuc Ltd Picture display system
US4521870A (en) * 1981-04-09 1985-06-04 Ampex Corporation Audio/video system having touch responsive function display screen
US4525793A (en) * 1982-01-07 1985-06-25 General Electric Company Voice-responsive mobile status unit
JPS58119076A (en) * 1982-01-08 1983-07-15 Toshiba Corp Picture editing device
US4555775B1 (en) * 1982-10-07 1995-12-05 Bell Telephone Labor Inc Dynamic generation and overlaying of graphic windows for multiple active program storage areas
US4553261A (en) * 1983-05-31 1985-11-12 Horst Froessl Document and data handling and retrieval system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2070822A (en) * 1980-02-04 1981-09-09 Casio Computer Co Ltd Data registering system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ELECTRONIC DESIGN, Band 28, Nr. 24, 22. November 1980, Seiten 35-36, Minnesota, Denville, New Jersey, US; J. McLeod: "Module lets CAD system respond to designer's voice" *
IBM TECHNICAL DISCLOSURE BULLETIN, Band 26, Nr. 3A, August 1983, Seite 997, New York, US; W.L. TERRELL: "Voice comand user interface processor" *
PATENT ABSTRACTS OF JAPAN, Band 5, Nr. 175(P-88)[847], 11. November 1981; JP-A-56 105 536 (TOKYO SHIBAURA DENKI K.K.) 22-08-1981 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0294657A2 (en) * 1987-06-11 1988-12-14 FROESSL, Horst Method and device for voice and contact controlled data and image processing
EP0294657A3 (en) * 1987-06-11 1991-07-24 FROESSL, Horst Method and device for voice and contact controlled data and image processing
EP0414238A2 (en) * 1989-08-25 1991-02-27 GRUNDIG E.M.V. Elektro-Mechanische Versuchsanstalt Max Grundig GmbH & Co. KG Voice controlled archival system
EP0414238A3 (en) * 1989-08-25 1992-05-27 Grundig E.M.V. Elektro-Mechanische Versuchsanstalt Max Grundig Hollaend. Stiftung & Co. Kg. Voice controlled archival system
CN105068982A (en) * 2015-08-26 2015-11-18 百度在线网络技术(北京)有限公司 Input content modification method and apparatus

Also Published As

Publication number Publication date
EP0150813B1 (en) 1992-03-25
EP0150813A3 (en) 1988-05-25
US4726065A (en) 1988-02-16
DE3585693D1 (en) 1992-04-30

Similar Documents

Publication Publication Date Title
EP0150813A2 (en) Method for voice controlled manipulation of displayed screen images
DE3850595T2 (en) Document processing system.
DE69630928T2 (en) Device and method for displaying a translation
DE69220583T2 (en) Device for displaying areas on a display device
DE69317863T2 (en) Sign language / word translation system
DE3629104C2 (en)
DE69032645T2 (en) Data processing system with input data based on gestures
DE69428590T2 (en) COMBINED LEXICON AND LIST OF CHARACTERS OF HANDWRITING
DE69030550T2 (en) Method and system for generating plans for a manufacturing process
DE69122975T2 (en) Method and device for displaying and editing mathematical expressions in text format
EP0424803B1 (en) Method for at least partially transforming image data into text with provision for subsequent storage or further processing
DE60204005T2 (en) METHOD AND DEVICE FOR RECOGNIZING A HANDWRITTEN PATTERN
DE69230092T2 (en) Method and device for character recognition
DE60208276T2 (en) Navigation aid for braille display and other text processing equipment for the visually impaired
DE3326583C2 (en)
DE4032710C2 (en) Input device for an electronic device
DE3142138C2 (en) Method for entering Chinese characters and device for carrying out the method
DE3209187C2 (en) Method for displaying a text on a single-line display device of a text creation device
DE2939919A1 (en) ARRANGEMENT FOR CODING IDEOGRAPHIC CHARACTERS
DE2435889A1 (en) PROCEDURE AND DEVICE FOR DISTINCTIVE CHARACTER GROUPS
DE69430413T2 (en) Method and device for solving terms of a numerical sequence
EP0107083B1 (en) Document processing device with correction circuit and video display
DE1949897A1 (en) Equipment and method for processing data
EP0294657A2 (en) Method and device for voice and contact controlled data and image processing
DE69033422T2 (en) Data processing equipment and method

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Designated state(s): CH DE FR GB IT LI NL SE

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): CH DE FR GB IT LI NL SE

17P Request for examination filed

Effective date: 19881029

17Q First examination report despatched

Effective date: 19900619

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): CH DE FR GB IT LI NL SE

ITF It: translation for a ep patent filed

Owner name: ING. A. GIAMBROCONO & C. S.R.L.

REF Corresponds to:

Ref document number: 3585693

Country of ref document: DE

Date of ref document: 19920430

ET Fr: translation filed
GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
EAL Se: european patent in force in sweden

Ref document number: 85100700.5

REG Reference to a national code

Ref country code: CH

Ref legal event code: NV

Representative=s name: FREI PATENTANWALTSBUERO

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 19970103

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 19970108

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 19970115

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: SE

Payment date: 19970130

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 19970131

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 19970219

Year of fee payment: 13

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19980124

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19980125

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19980131

Ref country code: FR

Free format text: THE PATENT HAS BEEN ANNULLED BY A DECISION OF A NATIONAL AUTHORITY

Effective date: 19980131

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19980131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19980801

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 19980124

NLV4 Nl: lapsed or anulled due to non-payment of the annual fee

Effective date: 19980801

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19981001

EUG Se: european patent has lapsed

Ref document number: 85100700.5

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST