EP0150813A2 - Method for voice controlled manipulation of displayed screen images - Google Patents
Method for voice controlled manipulation of displayed screen images Download PDFInfo
- Publication number
- EP0150813A2 EP0150813A2 EP85100700A EP85100700A EP0150813A2 EP 0150813 A2 EP0150813 A2 EP 0150813A2 EP 85100700 A EP85100700 A EP 85100700A EP 85100700 A EP85100700 A EP 85100700A EP 0150813 A2 EP0150813 A2 EP 0150813A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- screen
- command
- image
- touch
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003860 storage Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 8
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 5
- 239000000463 material Substances 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Definitions
- the invention relates to a device for data and image manipulation by voice commands and in particular to an improved device by means of which a person can identify, change and add data in a data processing system.
- the commands or data are entered by an operator via a keyboard.
- data can also be entered simultaneously or at a different time via automatic readers, sensors, other computers or other devices or apparatus, but in the vast majority of cases the data is entered by an operator using a keyboard, in some special cases using a "mouse" , a light pen or touching the screen.
- the keyboard is the most effective means of data output for a great many Situations. It enables a quick and relatively simple translation of human language and thoughts either into a machine language or into an intermediate code, from which the machine language can be derived immediately by means of an assembler.
- the keyboard has some disadvantages as an input device, namely as the sole input device in some situations. These disadvantages include the fact that the keyboard occupies the operator's hands and reduces or prevents simultaneous use of the hands for other tasks.
- the use of the keyboard also requires practice and knowledge of the arrangement of the keys and the sequence of input, as well as manual dexterity, the required agility, practice and ability depending on the task to be performed.
- the keyboard is particularly disadvantageous when the operator has to look through other documents or refer to them while he is busy with the keyboard.
- a solution would be extremely advantageous in which a person could work with the computer at one point with decision functions without having to use the keyboard.
- the keyboard is more of an obstacle than an aid to some types of disability.
- the object of the present invention is to provide advantageous methods for using the human voice as input to systems for data processing systems for both control and for the purpose of limited data input, and further the use of the voice as input for data and instructions under the circumstances in which it is faster and more effective than typing using the keyboard or other methods.
- the invention also includes a device for carrying out the method, in which the voice can be used as input in connection with other input methods, for example touching the screen.
- the invention resides in a method for using a voice input to a data processing device of the type which is equipped with a visual display screen, a device for displaying selected images being provided on the screen, wherein a set of visual divisions on the Screen provides that divide the screen into sections that can be clearly described with one or more alphanumeric symbols and a storage location for data bits is provided, from which a representation can be generated on the screen.
- the memory location is functionally divided into a plurality of memory locations, the number of which corresponds at least to the number of sections of the screen, so that the address of the memory locations can be functionally related to the image representations on the screen.
- One on Voice responsive transducer is used to convert the received utterance into electrical signals that represent speech patterns and are stored in a speech pattern dictionary with a variety of utterances, the utterances including the alphanumeric symbols that identify the sectors and preselected instructions.
- the speech patterns received by the converter are compared with the stored dictionary of patterns, the utterances recognized as output being generated either as an instruction or sector identification with subsequent instructions, matching patterns being defined as recognition of an utterance.
- Recognition is followed by execution of a received command relating to a particular sector when a specific sector is identified.
- a device is shown, the first part of which corresponds to that of the aforementioned Patent No.: whil (Application No. 499 500).
- documents 10 are fed in a sequence to a printer 12, in which they are provided with an identifying code. They are then fed to a reader 14 which optically scans each document that is fed.
- a digital converter 16 forms part of the reader 14 and generates digital signals which produce digital approximation patterns of the letters, numbers and graphic representations which are displayed on a source document 10.
- the printing, reading and digitizing functions are monitored by a control device 18, which is normally supplied as part of the reading device 14 or digital converter 16 and can easily be adapted for additional control of the printer function.
- the documents 10 are fed to a source document storage location 20 for documents where they are available for subsequent review, if necessary, but from which they are not normally removed.
- the digital converter 16 is connected in both directions to a buffer memory 22 for digital patterns on channels 24 and 25 for the purpose of communication, which are used for data transmission and feedback with regard to available storage space and other operating functions.
- the patterns stored in the memory 22 are fed to a display device 26, which may be a conventional CRT display, the display device 26 exchanges information with the memory 22 on channels 28 and 29.
- a primary purpose of this portion of the device illustrated in the aforementioned patent is to present the patterns of the source document 10 in digital form on the display 26 so that various forms of document disposition can be determined and achieved at this stage.
- a special function is the selection of certain information from each source document or, if desired, the entire content of the source document, so that the patterns are in a standard digital code, e.g. ASCII, can be encoded and stored in a mass digital memory 30. Therefore, it may be convenient for an operator to operate a keyboard from which the display 26 is visible so that that person can position indicators to identify and identify material to be stored, after which only the selected part is encoded while the rest of the digital memory is removed, making optimal use of the storage capacity.
- the operator 32 is provided with a speech responsive transducer, including a receiver 34, a speech recognition device 36, and an assembler 38 connected to monitor certain functions of the display 26.
- the speech recognition device 36 described in detail below can ground electrical speech signals generated by a microphone 34 of acoustic utterances by the operator, and the speech recognition unit is also able to identify certain utterances within a defined lexicon as alphanumeric symbols and predetermined instructions. Unrecognized statements can only produce a visual display or an audible display, which means "not recognized".
- the recognized utterances are fed to the assembler 38, in which they are implemented by means of the display 36 which carries out a specific task.
- This approach can also be used by using voice input with other input or command devices.
- the systems for touching the screen are particularly important because it is the Allows operator to identify the images or locations shown on the screen by touching them with a finger.
- the screen reacts to this touch because wires are embedded in the screen structure or because infrared sensors are connected to the screen and respond to the operator's finger.
- the touch can only fulfill an identification function, whereby an instruction regarding what has to be done must be given by other means.
- Voice input in connection with the touch is particularly useful for giving instructions.
- a particularly useful function of the entire facility is the ability to rearrange the sequence of data fields. For example, if it is assumed that an order arrives for a number of products in which the order format is first the date, second the customer's order number, third his name, fourth the quantity, fifth the model number of the product and sixth the price the recipient may want to change this order for storage. For example, the recipient may want the customer's name to appear first, the model number in second, the amount in third, etc. are saved. This reordering of the order for storage purposes is easy to do. by displaying the image of the original document on the screen 26 and touching the customer's name and then saying "save", for example, after which the model number is touched and "save” etc. are repeated in the desired order.
- FIGS. 2, 3 and 4 a grid system according to FIGS. 2, 3 and 4 is to be used.
- 2 shows a square 35 on the screen in a simplified form.
- Vertical and horizontal lines are present on the screen either permanently outside or by means of a video line generator inside, the vertical and horizontal lines being identified by alphanumeric symbols according to FIG. 2. It is believed that the operator desires to enlarge the portion of an image that is in box C3 as FIG. 2. All the operator needs to do is say "C, 3, whole screen” because this utterance is interpreted as an instruction to enlarge C3 to the whole screen size, as shown in FIG. 3.
- This process can be repeated by the operator by saying "A, 1, full screen", after which the material shown in the square A1 is enlarged so that it occupies the entire screen area, as shown in FIG. 4.
- This Part can then be saved or part of it can be saved by the operator by saying "B, 2, save”.
- the cursor movement is much faster and other forms of testing and activity are also much faster if this technique is used instead of keyboard operation.
- a primary goal is to allow selected individuals access to the images of documents stored in memory 30.
- a person in a decision function receives a screen 40 with a buffer memory 42, which is connected in both directions to a memory 30 via a cable 43.
- the person 44 is equipped with a microphone 46, a speech recognition unit 48 and a position and command assembler 50, which is connected to the buffer memory 42.
- a corresponding command those documents which are intended for a specific person 44 in accordance with any business code are called up from the memory 30 to the buffer memory 42 and are available for simultaneous subsequent display.
- the person 44 can determine the disposition of different documents by reading the specific documents neither to the store, without processing, returned, to another person in the company, or to someone outside the company or treated in any other way.
- References to addresses by the sectors identified in Figs. 2, 3 and 4 are possible, with the actual number of divisions on the screen normally being slightly higher than shown in Figs. 2-4.
- the device shown in FIG. 1 is also suitable for correcting text or, to a limited extent, for adding data. It is apparent from the aforementioned U.S. patent that another function performed by operator 32 while viewing the digitized text prior to encoding and storing is to insert letters that were not recognized by reader 14 or to correct letters or symbols, that were not read correctly. This is a function that can be performed much faster with the voice than with the conventional keyboard by issuing commands such as "position indicators jump to" followed by a digit.
- a command "jump to position indicator to B4" can cause it to be moved to a zone where it needs to be corrected or which requires additional data , the whole process is much faster than with the conventional keyboard.
- a further refinement of the position is possible with commands "left, right” or by pressing a button: Repositioning of the position indicator is also possible through a combination control using voice and touch, for example, by the position indicator at one at this time touched point and the voice command "jump to" is given, after which the new position is touched.
- the addition of text is only possible within the limits determined by the size and precondition by the lexicon, although it is obvious that letters and numbers can be added without difficulty because they represent fundamentally necessary symbols by the recognition device 36 or 38 can be recognized.
- a typical device for recognizing speech is shown in FIG. 5, in which a speech input signal in electrical form is received by microphone 34 or 46. This signal is subjected to an analysis and a pattern comparison of the method in which the signal analysis and parameter acquisition takes place in block 56. A major problem with language recognition facilities is generally in the individual word endings. Thus, the next stage 58 is to determine the end of each pronunciation. A next stage 60 is the normalization of frequency and time, after which, in the detection state, the signal is subjected to time chaining, which is a type of dynamic programming, of which several examples exist.
- a dictionary 64 is provided with utterance patterns which the device is to recognize and these patterns are compared with the processed speech signals, the extent of the resemblance being determined in a similarity evaluation method 66. The resulting formation indicates whether an instruction or an alphanumeric symbol is recognized or not, after which a suitable note is given.
- Such devices are normally subjected to a training process in which the distinctive formers of the operator's voice are recognized and stored as part of the dictionary, with average values of a large number of repeated statements of the same expression being normally formed, so that the device is subsequently able to Recognize spoken expressions from the same person.
- a very high level of accuracy can be achieved with a very limited dictionary that is discussed by the same person, the level of accuracy decreasing with other people.
- the operator only needs to touch the two points and pronounce the command word specified in the dictionary, which is defined as a "line".
- the touches and command provide all of the information that is normally entered into the keyboard, ie the end points in a Cartesian coordinate system and instructions for drawing a line in a relatively large number of keystrokes. It is important too note that normally no changes are necessary in the basic program of the machine. the program for graphic purposes normally recognizes an instruction which includes a small number of input words. These words are supplied by the assembler, which is necessarily adapted to the computer language and the operating system in response to the spoken instructions.
- a more fancy diagram than a line is almost as easy to draw, two points and a "circle" command suffice to define the center and radius of a circle, and parts can be deleted by defining the same type of boundary. This type of procedure therefore requires less talent than just a keyboard.
- a further simplified definition by means of voice input is achieved by a programmed field that moves from left to right, whereby the starting point for the moving field can be set to any square - also offset - by language, and from there it automatically moves to the right.
- the image could be captured with stop at the P, Q, R, S points (for fonts 2 points to define the beginning / end).
- the program can be created so that 2 words are entered at the beginning (e.g. A 1/2, C 1/3) see Fig. 2, row 1, so that after defining the first digit e.g. of the segment at A-2 the elongated quadrilateral V immediately jumps to the beginning of C 1/3 in order to define the last position.
- the positions to be defined can be defined using a few voice commands.
- the screen can also contain other subdivisions.
- a combined command e.g. B2, d and C2, f, i.e. command C2, f immediately following command B2, d saves the last-mentioned position and zooms in on the position at which the last command was pronounced.
- the marked zone After manipulation of the point enlarged by zoom, the marked zone jumps to the last place where it was fed and begins to move from left to right. In the event that the last saved position should appear as a zoom, the Zoom command is also given.
- a necessary manipulation can e.g. be to place the cursor in the middle of the outlined field to the left of the middle of a letter in order to precisely define a line to be captured.
- a cursor is in a square, i.e. set at four points, all digital patterns are captured in the square. If only two digits are designated, the captured field includes the area to the right of the defined point, downwards at right angles to the height of the second defined point. If there is no second definition point at the height of the first defined point, all subsequent characters to the right of the first defined point up to the edge of the screen are recorded and end in the line and at the point where the end point for this segment to be recorded was set.
- FIG. 6 shows a further aspect of the present invention, in which the selection and the coding method can also be used for increased microform storage.
- the selection of the parts of the device achieved by FIG. 1 is shown again in FIG. 6, the coding device and the memory 30 being set up in a coding device 70 and a mass memory 72.
- the encoded signals are one
- High-resolution digital video converter 74 is supplied, which is actually an inverted Vodeo camera and is used to record digital signals and to produce high-resolution images that can be fed by a conventional optical system to a microfilm 76 that is unwound from a supply spool 78 a take-up spool 80 is fed, which is driven in a known manner by a stepper drive or by an intermittent drive 82.
- a normal spool film is shown, it is understandable that films of any size and also microfich or microdot memory can be used.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Das Verfahren zur Eingabe von Befehlen an eine Datenverarbeitungsanlage zur Änderung der Anzeige schliesst die Wiedererkennung von Stimmen ein. Bei einer Ausführungsform wird der Bildschirm in Sektoren aufgeteilt, wobei der Speicher welcher Datenbits zur Anzeige liefert funktionell in entsprechender Weise aufgeteilt wird. Die Bedienungsperson äussert Befehle zur Sektor-Identifizierung und zwecks Änderung. Eine Vorrichtung zur Wiedererkennung der Stimme liefert erkannte Adressinformationen sowie Befehle an einen Assembler, von welchem Befehle zur Anlage ausgehen. Bei einer weiteren Ausführungsform wird ein auf Berühren oder Antippen ansprechender Bildschirm in Verbindung mit gesprochenen Befehlen benutzt. Die Einrichtung ist insbesondere zur Vorbereitung von Material für Mikroform-Speicherung geeignet.The process of entering commands to a data processing system to change the display includes the recognition of voices. In one embodiment, the screen is divided into sectors, the memory which provides data bits for display being functionally divided in a corresponding manner. The operator issues commands for sector identification and change. A device for recognizing the voice delivers recognized address information and commands to an assembler, from which commands for the system originate. In another embodiment, a touch or tap responsive screen is used in conjunction with spoken commands. The device is particularly suitable for the preparation of material for microform storage.
Description
Die Erfindung betrifft eine Einrichtung zur Daten- und Ebenbildmanipulation durch Sprachbefehle und insbesondere eine verbesserte Einrichtung, mittels welcher eine Person Daten in einer Datenverarbeitungsanlage identifizieren, ändern und hinzufügen kann.The invention relates to a device for data and image manipulation by voice commands and in particular to an improved device by means of which a person can identify, change and add data in a data processing system.
Dieses Patentgesuch schliesst dabei das US-Patent Nr........ (Gesuch Nr. 499 500 vom 31. Mai 1983) ein dessen Inhalt durch Bezugsnahme in das vorliegende aufgenommen wurde.This patent application includes US Patent No. ........ (Application No. 499,500 dated May 31, 1983), the content of which was incorporated into the present by reference.
Normalerweise werden bei einer Bearbeitung mittels einem Computer oder einem Computerterminal die Befehle oder Daten über eine Tastatur von einer Bedienungsperson eingegeben. Daten können aber auch gleichzeitig oder zu einem anderen Zeitpunkt über automatische Lesegeräte, Sensoren andere Computer oder andere Geräte oder Apparate eingegeben werden, jedoch werden in den weitaus meisten Fällen die Daten von einer Bedienungsperson über eine Tastatur eingegeben, wobei in einigen Spezialfällen eine "Maus", ein Lichtgriffel oder Bildschirmberührung zu Hilfe genommen werden. Dies ist deshalb nicht überraschend, weil die Tastatur das wirksamste Mittel zur Datenausgabe für sehr viele Situationen darstellt. Sie ermöglicht eine schnelle und relativ einfache Uebersetzung der menschlichen Sprache und Gedanken entweder in eine Maschinensprache oder in einen Zwischenkode, von welchem die Maschinensprache sogleich mittels eines Assemblers abgeleitet werden kann.Normally, when processing using a computer or a computer terminal, the commands or data are entered by an operator via a keyboard. However, data can also be entered simultaneously or at a different time via automatic readers, sensors, other computers or other devices or apparatus, but in the vast majority of cases the data is entered by an operator using a keyboard, in some special cases using a "mouse" , a light pen or touching the screen. This is not surprising because the keyboard is the most effective means of data output for a great many Situations. It enables a quick and relatively simple translation of human language and thoughts either into a machine language or into an intermediate code, from which the machine language can be derived immediately by means of an assembler.
Wenn man von den seltenen und speziellen Fällen absieht, in welchen ein Lichtgriffel, eine Maus o.dgl. verwendet werden können, besitzt die Tastatur als Eingabegerät einige Nachteile, und zwar als alleiniges Eingabegerät in einigen Situationen. Zu diesen Nachteilen gehört die Tatsache, dass die Tastatur die Hände der Bedienungsperson belegt und die gleichzeitige Verwendung der Hände für andere Aufgaben reduziert oder verhindert. Die Verwendung der Tastatur verlangt ferner Uebung und Kenntnisse der Anordnung der Tasten und der Folge der Eingabe wie auch eine manuelle Geschicklichkeit, wobei die erforderliche Gewandtheit, Uebung und Fähigkeit von der auszuführenden Aufgabe abhängen.If you disregard the rare and special cases in which a light pen, a mouse or the like. can be used, the keyboard has some disadvantages as an input device, namely as the sole input device in some situations. These disadvantages include the fact that the keyboard occupies the operator's hands and reduces or prevents simultaneous use of the hands for other tasks. The use of the keyboard also requires practice and knowledge of the arrangement of the keys and the sequence of input, as well as manual dexterity, the required agility, practice and ability depending on the task to be performed.
Alleinige Verwendung der Tastatur als Eingabegrät ist insbesondere dann nachteilig, wenn die Bedienungsperson andere Dokumente durchschauen oder auf diese hinweisen muss, während sie mit der Tastatur beschäftigt ist. Zusätzlich wäre eine Lösung äusserst vorteilhaft, bei der eine Person an einer Stelle mit Entscheidungsfunktionen mit dem Computer arbeiten könnte, ohne dabei die Tastatur bedienen zu müssen. Zudem ist die Tastatur bei einigen Arten von Invalidität eher ein Hindernis als eine Hilfe.The sole use of the keyboard as an input device is particularly disadvantageous when the operator has to look through other documents or refer to them while he is busy with the keyboard. In addition, a solution would be extremely advantageous in which a person could work with the computer at one point with decision functions without having to use the keyboard. In addition, the keyboard is more of an obstacle than an aid to some types of disability.
Obschon verschiedene Versuche mit direkter Stimmeingabe an Datageräten erwogen und durchgeführt wurden, wird diese Lösung oft als untaugliche Alternative zur Tastatur ange-Although various attempts with direct voice input on data devices have been considered and carried out, this solution is often used as an unsuitable alternative to the keyboard.
sehen und als eine Art technischer Kuriosität betrachtet. Deshalb wird diese bestehende technische Fähigkeit nicht genutzt.and see it as a kind of technical curiosity. Therefore, this existing technical ability is not used.
Aufgabe der vorliegenden Erfindung ist die Schaffung von vorteilhaften Verfahren zur Verwendung der menschlichen Stimme als Eingabe zu Anlagen zur Datenverarbeitunganlage sowohl für Kontrolle als auch zum Zwecke der begrenzten Dateneingabe, und weiter die Verwendung der Stimme als Eingabe von Daten und Instruktionen unter denjenigen Umständen, in welchen es schneller und wirksamer ist als die Eingabe mittels Tastatur oder anderer Verfahren.The object of the present invention is to provide advantageous methods for using the human voice as input to systems for data processing systems for both control and for the purpose of limited data input, and further the use of the voice as input for data and instructions under the circumstances in which it is faster and more effective than typing using the keyboard or other methods.
Die Erfindung umfasst auch eine Einrichtung zur Durchführung des Verfahrens, in welcher die Stimme als Eingabe in Verbindung mit anderen Eingangsverfahren, beispielsweise Bildschirmberührung, verwendet werden kann.The invention also includes a device for carrying out the method, in which the voice can be used as input in connection with other input methods, for example touching the screen.
Zusammengefasst besteht die Erfindung in einem Verfahren zur Verwendung einer Stimmeingabe zu einem Gerät zur Datenverarbeitung derjenigen Art, welche mit einem visuellen Anzeigeschirm ausgestattet ist, wobei eine Vorrichtung zur Anzeige von selektierten Ebenbildern auf dem Schirm vorgesehen ist, wobei man einen Satz von visuellen Aufteilungen auf dem Schirm vorsieht, die den Schirm in Sektionen aufteilen, die eindeutig mit einem oder mehreren alphanumerischen Symbolen beschrieben werden können und eine Speicherstelle für Datenbits vorgesehen ist, von welchen eine Darstellung auf dem Schirm erzeugt werden kann. Die Speicherstelle ist funktionell in eine Vielzahl von Speicherstellen aufgeteilt, deren Anzahl mindestens der Anzahl von Sektionen des Schirmes entspricht, so dass die Adresse der Speicherstellen funktionell auf die Ebenbilddarstellungen auf dem Schirm bezogen werden können. Ein auf Stimmen ansprechender Wandler dient zur Umwandlung der empfangenen Aeusserung in elektrische Signale, welche Sprachmuster darstellen und in einem Sprachmusterwörterbuch mit einer Vielzahl von Aeusserungen gespeichert sind, wobei die Aeusserungen die alpfanumerischen Symbole einschliessen, welche die Sektoren und vorgewählte Instruktionen identifizieren. Die vom Wandler empfangenen Sprachmuster werden mit dem gespeicherten Wörterbuch von Mustern verglichen, wobei die als Ausgabe wiedererkannten Aeusserungen entweder als eine Instruktion oder Sektoridentifikation mit nachfolgender Instruktionen erzeugt werden, zusammenpassende Muster als Wiedererkennung einer Aeusserung definiert werden. Einer Wiedererkennung folgt die Ausführung eines empfangenen Befehls, der sich auf einen bestimmten Sektor bezieht, wenn ein spezifischer Sektor identifiziert wird.In summary, the invention resides in a method for using a voice input to a data processing device of the type which is equipped with a visual display screen, a device for displaying selected images being provided on the screen, wherein a set of visual divisions on the Screen provides that divide the screen into sections that can be clearly described with one or more alphanumeric symbols and a storage location for data bits is provided, from which a representation can be generated on the screen. The memory location is functionally divided into a plurality of memory locations, the number of which corresponds at least to the number of sections of the screen, so that the address of the memory locations can be functionally related to the image representations on the screen. One on Voice responsive transducer is used to convert the received utterance into electrical signals that represent speech patterns and are stored in a speech pattern dictionary with a variety of utterances, the utterances including the alphanumeric symbols that identify the sectors and preselected instructions. The speech patterns received by the converter are compared with the stored dictionary of patterns, the utterances recognized as output being generated either as an instruction or sector identification with subsequent instructions, matching patterns being defined as recognition of an utterance. Recognition is followed by execution of a received command relating to a particular sector when a specific sector is identified.
Nachfolgend werden Ausführungsbeispiele des Gegenstandes der Erfindung anhand der Zeichnung näher erläutert. Es zeigen:
- Fig. 1 ein Blockschaltbild einer Einrichtung gemäss einer ersten Ausführungsform der vorliegenden Erfindung,
- Fig. 2 ein erstes vereinfachtes Diagramm zur Erläuterung der verwendeten Sektortechnik,
- Fig. 3 ein zweites Diagramm, wie Fig. 2,
- Fig. 4 ein drittes Diagramm, wie Fig. 2,
- Fig. 5 ein Flussdiagramm einer bestehenden Technik zur Sprachwiedererkennung in BLockform, und
- Fig. 6 ein schematisches Blockdiagramm einer Einrichtung gemäss einer zweiten Ausführungsform der vorliegenden Erfindung.
- 1 is a block diagram of a device according to a first embodiment of the present invention,
- 2 shows a first simplified diagram to explain the sector technology used,
- 3 shows a second diagram, like FIG. 2,
- 4 shows a third diagram, like FIG. 2,
- 5 is a flowchart of an existing technique for speech recognition in block form, and
- 6 shows a schematic block diagram of a device according to a second embodiment of the present invention.
In Fig. 1 ist eine Einrichtung dargestellt, deren erster Teil demjenigen des vorgenannten Patentes Nr. : ...... (Gesuch Nr. 499 500) entspricht. Bei dieser Einrichtung werden Dokumente 10 in einer Folge einem Drucker 12 zugeführt, in dem sie mit einem identifizierenden Kode versehen werden. Danach werden sie einem Lesegerät 14 zugeführt, das jedes zugeführte Dokument optisch abtastet. Ein Digitalumsetzer 16 bildet einen Bestandteil des Lesegerätes 14 und erzeugt Digitalsignale, welche digitale Annäherungsmuster der Buchstaben, Zahlen und graphischen Darstellungen erzeugen, die auf einem Quellen-Dokument 10 angezeigt werden. Die Druck-, Lese- und Digitalisierungsfunktion werden von einer Steuerungsvorrichtung 18 überwacht, die normalerweise als Teil des Lesegerätes 14 oder Digitalumsetzers 16 geliefert wird und leicht zur zusätzlichen Steuerung der Druckerfunktion angepasst werden kann. Nach dem Drucken, Lesen und Digitalumwandeln werden die Dokumente 10 einer Quellenbeleg-Speicherstelle 20 für Dokumente zugeführt, wo sie, sofern erforderlich, für eine nachfolgende Ueberprüfung zur Verfügung stehen, von wo sie aber normalerweise nicht entfernt werden.In Fig. 1, a device is shown, the first part of which corresponds to that of the aforementioned Patent No.: ...... (Application No. 499 500). In this device,
Der Digitalumsetzer 16 ist in beiden Richtungen mit einem Pufferspeicher 22 für digitale Muster auf Kanäle 24 und 25 zwecks Kommunikation verbunden, welche zur Datenübertragung und Rückkopplung bezüglich zur Verfügung stehenden Speicherplatzes und anderen Bedienungsfunktionen dienen. Die im Speicher 22 gespeicherten Muster werden einer Anzeigevorrichtung 26 zugeführt, die eine herkömmliche CRT-Anzeige sein kann, wobei die Anzeigevorrichtung 26 mit dem Speicher 22 auf Kanälen 28 und 29 im Informationsaustausch steht.The
Ein Hauptzweck dieses Teils der Einrichtung, die im vorgenannten Patent erläutert ist, besteht in der Darstellung der Muster vom Quellen-Dokument 10 in Digitalform an der Anzeige 26, damit verschiedene Formen der Disposition der Dokumente an dieser Stufe bestimmt und erreicht werden können. Eine besondere Funktion ist die Wahl von bestimmten Informationen von jedem Quellen-Dokument oder, sofern erwünscht, des gesamten Inhalts des Quelle-Dokuments, damit die Muster in einem Standard-Digitalkode, wie z.B. ASCII, kodiert werden können und in einem Massen-Digitalspeicher 30 gespeichert werden können. Deshalb kann es für eine Bedienungsperson passend sein, eine Tastatur zu bedienen, von der aus die Anzeige 26 sichtbar ist, damit diese Person Positionsanzeiger zur Festlegung und Identifizierung von zu speicherndem Material positionieren kann, wonach nur der ausgewählte Teil kodiert wird, während der Rest vom digitalen Speicher entfernt wird, wodurch die Speicherkapazität optimal ausgenutzt wird.A primary purpose of this portion of the device illustrated in the aforementioned patent is to present the patterns of the
Es betehen aber viele andere Umstände, unter welchen das direkte Verhältnis der Bedienungsperson mit einer Tastatur nicht die wirksamste Lösung darstellt.However, there are many other circumstances in which the direct relationship of the operator with a keyboard is not the most effective solution.
Gemäss der vorliegenden Erfindung wird die Bedienungsperson 32 mit einem auf Sprache ansprechenden Wandler ausgestattet, einschliesslich einem Empfänger 34, einer Spracherkennungsvorrichtung 36 und einen Assembler 38, der zur Ueberwachung von bestimmten Funktionen der Anzeige 26 angeschlossen ist. Die in der Folge detailliert beschriebene Spracherkennungsvorrichtung 36 kann elektrische Sprachsignale, erzeugt von einem Mikrofon 34, auf Grund von akustischen Aeusserungen durch die Bedienungsperson aufnehmen, und die Spracherkennungseinheit ist ferner in der Lage, bestimmte Aeusserungen innerhalb eines definierten Lexikons als alphanumerische Symbole und vorbestimmte Instruktionen zu identifizieren. Nicht erkannte Aeusserungen können nur eine visuelle Anzeige oder eine hörbare Anzeige erzeugen, welche "nicht erkannt" bedeutet. Die erkannten Aeusserungen werden dem Asembler 38 zugeführt, in dem sie mittels der eine bestimmte Aufgabe ausführenden Anzeige 36 implementiert werden.In accordance with the present invention, the
Ein Vorteil dieser Einrichtung wird dann erkennbar, wenn man berücksichtigt, dass diejenige Person, welche die Substanz im Dokument 10 betrachtet, Entscheidungen bezüglich ihrer Disposition treffen muss, wobei meistens Bezugnahme auf verschiedene andere Dokumente zur Identifizierung von Personen, Stellen und andere Informationen erforderlich ist, die einen schnellen Entscheidungsprozess ermöglichen. Mit einer begrenzten Anzahl von Sprachbefehlen ist es für Jemanden möglich, ihre oder seine Hände frei zu halten, um diese oder jene Aufgaben auszuführen, während er oder sie Instruktionen an den Bildschirm 26 mittels der beschribenen Einrichtung erteilen. Als ein Beispiel von einfachen Befehlen gilt, dass es viel schneller ist, eine Anzeige zu zentrieren, wenn sie nicht zentriert ist, indem "rechts", "oben" o.dgl. ausgesprochen wird. Eine viel schnellere Bewegung des Positzionsanzeiger ist durch Befehle wie "spring nach" gefolgt von einer Linie oder einer anderen Identifikation einer Stellung im Text möglich.An advantage of this device becomes apparent when one takes into account that the person looking at the substance in
Diese Vorgehensweise kann auch durch Verwendung einer Spracheingabe zusammen mit anderen Eingabe- oder Befehlsgeräten benutzt werden. Dabei sind die Systeme für die Berührung des Bildschirms besonders wichtig, weil es der Bedienungsperson die Identifizierung der auf dem Schirm abgebildeten Darstellungen oder Stellen dadurch ermöglicht, dass sie mit einem Finger berührt wird. Der Schirm reagiert deshalb auf diese Berührung, weil Drähte in die Schirmstruktur eingebettet sind, oder weil Infrarot-Sensoren mit dem Schirm verbunden sind und auf den Finger der Bedienungsperson ansprechen. Die Berührung kann aber nur eine Identifikationsfunktion erfüllen, wobei eine Instruktion in Bezug auf was zu machen ist durch andere Mittel erfolgen muss. Dabei ist eine Stimmeingabe in Verbindung mit der Berührung zur Abgabe von Instruktionen besonders nützlich.This approach can also be used by using voice input with other input or command devices. The systems for touching the screen are particularly important because it is the Allows operator to identify the images or locations shown on the screen by touching them with a finger. The screen reacts to this touch because wires are embedded in the screen structure or because infrared sensors are connected to the screen and respond to the operator's finger. However, the touch can only fulfill an identification function, whereby an instruction regarding what has to be done must be given by other means. Voice input in connection with the touch is particularly useful for giving instructions.
Wenn beispielsweise ein Satz für eine Speicherung gewählt wird, kann die Bedienungsperson die Leerstellen vor und nach dem Satz berühren, wobei er Instruktionen in Verbindung mit der Berührung ausgibt. Wenn der Satz zwischen den Punkten A und B liegt, ist diese Folge möglich.
Die gleiche grundsätzliche Annäherungsweise kann zur Wahl von graphischen Bildern zum Kodieren und zur Speicherung für andere Zwecke verwendet werden. Eine besonders nützliche Funktion der gesamten Einrichtung ist die Fähigkeit zur Neuordnung der Folge von Datenfeldern. Wenn beispielsweise angenommen wird, dass eine Bestellung für eine Anzahl von Produkten eintrifft, in der das Bestellformat zuerst das Datum, zweitens die Bestellnummer des Kunden, drittens seinen Namen, viertens die Menge, fünftens die Modellnummer des Produkts und sechstens den Preis nennt, so ist es möglich, dass der Empfänger diese Reihenfolge zwecks Speicherung ändern möchte. Der Empfänger kann beispielsweise wünschen, dass der Name des Kunden an erster Stelle, die Modellnummer an zweiter, die Menge an dritter usw. gespeichert werden. Diese Neuordnung der Reihenfolge für Speicherzwecke ist leicht durchführbar, . indem das Bild des Originaldokumentes am Bildschirm 26 dargestellt und der Name des Kunden berührt wird, und dann z.B. "speichern" ausgesprochen wird, wonach die Modellnummer berührt und "speichern" usw. in der gewünschten Reihenfolge wiederholt werden.The same basic approach can be used to select graphic images for coding and storage for other purposes. A particularly useful function of the entire facility is the ability to rearrange the sequence of data fields. For example, if it is assumed that an order arrives for a number of products in which the order format is first the date, second the customer's order number, third his name, fourth the quantity, fifth the model number of the product and sixth the price the recipient may want to change this order for storage. For example, the recipient may want the customer's name to appear first, the model number in second, the amount in third, etc. are saved. This reordering of the order for storage purposes is easy to do. by displaying the image of the original document on the
Insbesondere in Verbindung mit graphischen Anzeigen ist es nützlich, ausgesuchte Teile der Anzeige zu vergrössern, damit sie in den Grenzen der Auflösung der Ausrüstung leichter sichtbar sind, wobei dies auch bei Text nützlich ist, weil kleinere Teile desselben leichte identifiziert werden können.Particularly in connection with graphic displays, it is useful to enlarge selected parts of the display so that they are more easily visible within the limits of the resolution of the equipment, and this is also useful with text, because smaller parts of the same can be easily identified.
Gemäss der Erfindung ist ein Gittersystem nach Fig. 2, 3 und 4 zu verwenden. In Fig. 2 ist ein Quadrat 35 am Bildschirm in vereinfachter Form dargestellt. Vertikale und horizontale Linien sind am Schirm entweder permanent ausserhalb oder mittels Videozeilengenerators innerhalb vorhanden, wobei die vertikalen und horizontalen Linien durch alphanumerische Symbole gemäss Fig. 2 identifiziert sind. Es wird angenommen, dass die Bedienungsperson eine Vergrösserung desjenigen Teils eines Bildes wünscht, der sich als Fig. 2 im Kästchen C3 befindet. Dazu braucht die Bedienungsperson nur zu sagen "C,3, ganzer Schirm", weil diese Aeusserung als Instruktion zur Vergrösserung von C3 auf die ganze Schirmgrösse, wie dies in Fig. 3 gezeigt ist, ausgelegt wird. Dieses Verfahren kann von der Bedienungsperson wiederholt werden, indem sie "A,1, ganzer Schirm" ausspricht, wonach das im Quadrat Al gezeigte Material derart vergrössert wird, dass es die ganze Schirmfläche belegt, wie es in Fig. 4 gezeigt ist. Dieser Teil kann dann gespeichert werden oder auch ein Teil davon kann von der Bedienungsperson gespeichert werden, indem sie "B,2, speichern" ausspricht.According to the invention, a grid system according to FIGS. 2, 3 and 4 is to be used. 2 shows a square 35 on the screen in a simplified form. Vertical and horizontal lines are present on the screen either permanently outside or by means of a video line generator inside, the vertical and horizontal lines being identified by alphanumeric symbols according to FIG. 2. It is believed that the operator desires to enlarge the portion of an image that is in box C3 as FIG. 2. All the operator needs to do is say "C, 3, whole screen" because this utterance is interpreted as an instruction to enlarge C3 to the whole screen size, as shown in FIG. 3. This process can be repeated by the operator by saying "A, 1, full screen", after which the material shown in the square A1 is enlarged so that it occupies the entire screen area, as shown in FIG. 4. This Part can then be saved or part of it can be saved by the operator by saying "B, 2, save".
Es wird darauf hingewiesen, dass diese Instruktionen lediglich Beispiele darstellen, und dass andere Formen von Kodewörtern verwendet werden können. Es ist nur notwendig, dass ein Vergleichswörterbuch erstellt wird.It is pointed out that these instructions are only examples and that other forms of code words can be used. It is only necessary to create a comparison dictionary.
Die Bewegung des Positionsanzeigers ist viel schneller und andere Formen von Prüfung und Aktivität sind ebenfalls viel schneller, wenn diese Technik statt Tastaturbedienung benutzt wird.The cursor movement is much faster and other forms of testing and activity are also much faster if this technique is used instead of keyboard operation.
Der Betrieb der Einrichtung kann weiter verstanden werden, indem die Vorgehensweise in der beabsichtigten Verwendung erweitert wird. Ein Hauptziel besteht im erlaubten Zugriff für ausgewählte Personen zu den Ebenbildern von Dokumenten, die im Speicher 30 gespeichert sind. Nehmen wir beispielsweise an, dass eine Person in einer Entscheidungsfunktion einen Bildschirm 40 mit einem Pufferspeicher 42 erhält, der in beiden Richtungen über ein Kabel 43 mit einem Speicher 30 verbunden ist. Die Person 44 ist mit einem Mikrofon 46, einer Spracherkennungseinheit 48 und einem Stellen und Befehlsassembler 50, welcher mit dem Pufferspeicher 42 verbunden ist, ausgestattet. Durch einen entsprechenden Befehl werden diejenigen Dokumente, welche gemäss einem beliebigen Geschäftskode für eine bestimmte Person 44 vorgesehen sind, vom Speicher 30 zum Pufferspeicher 42 abgerufen und stehen für gleichzeitige Folgeanzeige zur Verfügung. Mittels einer einfachen Gruppe von Befehlen kann die Person 44 die Disposition von verschiedenen Dokumenten dadurch festlegen, dass sie die bestimmten Dokumente entweder zum Speicher, ohne Bearbeitung, retourniert, einer anderen Person im Betrieb zuführt, oder jemandem ausserhalb des Betriebs zuleitet oder auch sonstwie behandelt. Bezugnahme auf Adressen durch die in den Fig. 2, 3 und 4 identifizierten Sektoren ist möglich, wobei die tatsächliche Anzahl von Unterteilungen auf dem Bildschirm normalerweise etwas höher ist als in den Fig. 2 bis 4 gezeigt ist.Operation of the facility can be further understood by expanding the approach in its intended use. A primary goal is to allow selected individuals access to the images of documents stored in
Die in Fig. 1 gezeigte Einrichtung ist auch zur Berichtigung von Text oder in begrenztem Umfang zur Hinzufügung von Daten geeignet. Aus dem vorgenannten US-Patent geht hervor, dass eine weitere, von der Bedienungsperson 32 ausgeführte Funktion während der Betrachtung des digitalisierten Textes vor dem Kodieren und Speichern darin besteht, Buchstaben einzufügen, welche nicht vom Leser 14 erkannt wurden, oder Buchstaben oder Symbole richtigzustellen, die nicht richtig gelesen wurden. Dies ist eine Funktion, die viel schneller mit der Stimme als mit der herkömmlichen Tastatur durchführbar ist, indem Befehle, wie "Positionsanzeiger springen bis" mit nachfolgender Stelle erteilt werden. Wenn beispielweise das Schirmgitter durch horizontale Linien in fünf Sektionen und durch vertikale Linien in vier Sektionen aufgeteilt ist, kann ein Befehl "Al Positionsanzeiger springen bis B4" bewirken, dass er in eine Zone bewegt wird, wo richtiggestellt werden muss oder die zusätzliche Daten erforderlich machen, wobei der ganze Vorgang viel schneller abläuft als bei der herkömmlichen Tastatur. Eine weitere Verfeinerung der Stellung ist durch Befehle "links, rechts" oder mittels Tastendruck möglich: Eine Rückpositionierung des Positionsanziegers ist ebenfalls durch eine Kombinationssteuerung mittels Stimme und Berührung z.B. dadurch möglich, dass der Positionsanzeiger an einer zu diesem Zeitpunkt betehenden Stelle berührt und der Stimmbefehl "spring bis" erteilt wird, wonach die neue Stelle berührt wird. Das Hinzufügen von Text ist nur innerhalb denjenigen Grenzen möglich, die durch die Grösse und die Vorbedingung durch das Lexikon bestimmt sind, obschon es offensichtlich ist, dass Buchstaben und Zahlen ohne Schwierigkeiten hinzugefügt werden können, weil sie fundamental notwendige Symbole darstellen, die durch die Erkennungsvorrichtung 36 oder 38 erkannt werden können.The device shown in FIG. 1 is also suitable for correcting text or, to a limited extent, for adding data. It is apparent from the aforementioned U.S. patent that another function performed by
Eine typische Einrichtung zur Wiedererkennung der Sprache ist in Fig. 5 dargestellt, bei der ein Sprach-Eingangssignal in elektrischer Form vom Mikrofon 34 oder 46 empfangen wird. Dieses Signal wird einer Analyse und einem Muster vergleichen dem Verfahren unterworfen, bei dem die Signalanalyse und eine Gewinnung von Parametern in Block 56 stattfindet. Ein Hauptproblem bei den Einrichtungen zur Wiedererkennung von Sprachen besteht im allgemeinen in den einzelnen Wortendungen. Somit besteht die nächste Stufe 58 in einer Bestimmung des Endes der jeweiligen Aussprache. Eine nächste Stufe 60 ist die Normalisierung von Frequenz, und Zeit, nach der, im Erkennungszustand, das Signal einer Zeitverkettung unterworfen wird, welche eine Art des dynamischen Programmierens darstellt, von dem mehrere Beispiele bestehen. Ein Wörterbuch 64 ist mit Aeusserungsmustern versehen, welche die Einrichtung wiedererkennen soll, und diese Muster werden mit den verarbeiteten Sprachsignalen verglichen, wobei die Ausdehnung der Aehnlichkeit in einem Aehnlichkeits-Wertungsverfahren 66 festgestellt wird. Die daraus resultierende Entstehung gibt an, ob eine Instruktion oder ein alphanumerisches Symbol wiedererkannt wird oder nicht, wonach ein passender Hinweis abgegeben wird.A typical device for recognizing speech is shown in FIG. 5, in which a speech input signal in electrical form is received by
Derartige Einrichtungen werden normalerweise einem Trainierungsverfahren unterworfen, in dem die kennzeichnenden Formanten der Stimme der Bedienungsperson wiedererkannt und gespeichert werden als Teil des Wörterbuches, wobei normalerweise Durchschnittswerte einer grossen Anzajl von wiederholten Aussagen des gleichen Ausdruckes gebildet werden, so dass die Einrichtung nachher im Stande ist, gesprochene Ausdrücke von der gleichen Person wiederzuerkennen. Eine sehr hohe Genauigkeit ist mit einem sehr begrenzten, von der gleichen Person besprochenen Wörterbuch erreichbar, wobei der Genauigkeitsgrad mit anderen Personen abnimmt.Such devices are normally subjected to a training process in which the distinctive formers of the operator's voice are recognized and stored as part of the dictionary, with average values of a large number of repeated statements of the same expression being normally formed, so that the device is subsequently able to Recognize spoken expressions from the same person. A very high level of accuracy can be achieved with a very limited dictionary that is discussed by the same person, the level of accuracy decreasing with other people.
Die Kombination aus Stimme und Berührung oder nur Stimme kann ferner zur Erzeugung von graphischen Illustrationen am Bildschirm verwendet werden, Dabei verlangt die Herstellung von "Zeichnungen" am Bildschirm nur mit Hilfe derThe combination of voice and touch or just voice can also be used to create graphic illustrations on the screen. The production of "drawings" on the screen requires only with the help of
Tastatur, dass man mit dem spezifischen Computer und mit der Programmiersprache gut vertraut ist. Mit der Stimme allein oder mit der Stimme und Bildschirmberührung wird viel Lernzeit eliminiert. Die Bedienungsperson kann weitgehend untrainiert sein mit Ausnahme des Erlernens eines kleinen Werterbuches mit Befehlswörtern.Keyboard that you are familiar with the specific computer and with the programming language. A lot of learning time is eliminated with the voice alone or with the voice and touching the screen. The operator can be largely untrained with the exception of learning a small dictionary with command words.
Wenn beispielweise eine Linie zwischen zwei Punkten gezogen werden soll, braucht die Bedienungsperson nur die beiden Punkte zu berühren und das im Wörterbuch angegebene Befehlswort auszusprechen, das als "Linie" definiert ist. Die Berührungen und der Befehl liefern alle Informationen, die normalerweise in die Tastatur eingegeben werden, d.h. die Endpunkte in einem kartesischen Koordinatensystem und Instruktionen zum Ziehen einer Linie in einer relativ grossen Anzahl von Tastaturanschlägen. Es ist wichtig zu bemerken, dass normalerweise keine Aenderungen im Basisprogramm der Maschine erforderlich sind. das Programm für graphische Zwecke erkennt normalerweise eine Instruktion, die eine kleine Anzahl von Eingangswörtern einschliesst, Diese Wörter werden vom Assembler geliefert, der notwendigerweise auf die Computersprache und das Betriebssystem als Antwort auf die gesprochenen Befehle abgestimmt ist.For example, if a line is to be drawn between two points, the operator only needs to touch the two points and pronounce the command word specified in the dictionary, which is defined as a "line". The touches and command provide all of the information that is normally entered into the keyboard, ie the end points in a Cartesian coordinate system and instructions for drawing a line in a relatively large number of keystrokes. It is important too note that normally no changes are necessary in the basic program of the machine. the program for graphic purposes normally recognizes an instruction which includes a small number of input words. These words are supplied by the assembler, which is necessarily adapted to the computer language and the operating system in response to the spoken instructions.
Ein mehr ausgefallenes Diagramm als eine Linie ist fast ebenso einfach zu zeichnen, zwei Punkte und ein "Kreis"-Befehl genügen zur Definition des Zentrums und des Radius eines Kreises, wobei Teile gelöscht werden können, indem die gleiche Art von Grenzen definiert wird. Diese Art des Vorgehens erfordert somit weniger Begabung als nur mit einer Tastatur.A more fancy diagram than a line is almost as easy to draw, two points and a "circle" command suffice to define the center and radius of a circle, and parts can be deleted by defining the same type of boundary. This type of procedure therefore requires less talent than just a keyboard.
Eine weitere erleichterte Definition mittels Spracheingabe wird durch ein programmiertes, von links nach rechts wandderndes Feld erreicht, wobei der Startpunkt für das wandernde Feld nach belieben mittels Sprache auf irgendein beliebiges Quadrat - auch versetzt - gesetzt werden kann und von dort automatisch nach rechts wandert.A further simplified definition by means of voice input is achieved by a programmed field that moves from left to right, whereby the starting point for the moving field can be set to any square - also offset - by language, and from there it automatically moves to the right.
Beispiel:
- In Fig. 2 werden die Kästchen weiter unterteilt. Durch Sprachbefehl
wird z.B. C 1/1 definiert. Ein längliches Viereck V erscheint beiC 1/1 auf dem Bildschirm und bewegt sich automatisch von links nach rechts. Bei z.B. dem Befehl "Stop" erfolgt automatisch ein Zoom (Bildvergrösserung), welche falls nötig aufgrund eines oder weitere Befehle weiter vergrössert werden kann. Z.B. kann durch einen bestimmten Befehl mittels einer Zahl kombiniert, genau die Mitte des erfassten Bildes mit einem Befehl um einen mehrfachen Zoom-Effekt vergrössert werden.
- In Fig. 2 the boxes are further divided. A voice command defines, for example,
C 1/1. An elongated square V appears atC 1/1 on the screen and automatically moves from left to right. With the "Stop" command, for example, a zoom (image enlargement) takes place automatically, which can be enlarged if necessary based on one or more commands. For example, a certain command can be combined with a number to exactly center the captured image with one command a multiple zoom effect can be enlarged.
Bei der Erfassung des Bildes in Fig. 2 (oder auch bei Schriften) könnte bei stop bei den P, Q, R, S Punkten, das Bild erfasst werden (bei Schriften 2 Punkte zur Definition Anfang/Ende).When capturing the image in FIG. 2 (or also with fonts), the image could be captured with stop at the P, Q, R, S points (for
Bei der Erfassung von Schriften kann das Programm so angelegt werden, dass zu Beginn 2 Worte eingegeben werden (z.B. A 1/2, C 1/3) siehe Fig. 2, Reile 1, so dass nach Definition der ersten Stelle z.B. des Segmentes bei A-2 das längliche Viereck V sofort zu dem Anfang von C 1/3 springt, zwecks Definition der letzten Stelle.When entering fonts, the program can be created so that 2 words are entered at the beginning (
Bei Manipulationen, welcher Art auch immer, könnte selbst ein Punkt auf dem Bildschirm punktuell angesteuert und mittels mehrfachem Zoom punktuell definiert werden.In the case of manipulations of any kind, even a point on the screen could be selectively controlled and defined point by point using multiple zooms.
Mittels eines farbigen graphischen Bildschirmes ist es möglich, die quadratische Aufteilung auch in Farben vorzunehmen und mit Sprache anzusteuern, z.B. eine Unterteilunmg in Grün, Gelb, Blau, Rot horizontal und 1, 2, 3, 4 vertikal. Befehlsbeispiel: Blau 3.Using a colored graphic screen, it is possible to divide the squares in colors and to control them with speech, e.g. a subdivision in green, yellow, blue, red horizontally and 1, 2, 3, 4 vertically. Command example:
Unabhängig von den dargestellten Zeichnungen können in gleicher Weise auch Texte erfasst werden.Regardless of the drawings shown, texts can also be recorded in the same way.
Dabei können die jeweilis zu definierenden Stellen mittels wenigen Sprachbefehlen festgelegt werden. Der Bildschirm kann auch andere Unterteilungen beinhalten.The positions to be defined can be defined using a few voice commands. The screen can also contain other subdivisions.
Beispiel:
- Der bewegliche Zoom kann an jeder Stelle auf dem Bildschirm zwecks Start angesetzt werden, z.B. bei B2d.
- The movable zoom can be used at any point on the screen for the start, for example with B2d.
Bei dem Befehl B2, start beginnt die markierte Zone V in der Mitte der bezeichneten Zone B2 sind von links nach rechts zu bewegen. Bei dem Befehl Zoom vergrössert sich automatisch die jeweilige Stelle.With the command B2, start the marked zone V in the middle of the designated zone B2 must be moved from left to right. With the Zoom command, the respective position is automatically enlarged.
Durch einen kombinierten Befehl, z.B. B2, d und C2, f, d.h. durch den dem Befehl B2, d sofort folgenden Befehl C2, f wird die zuletzt genannte Stelle gespeichert und die Stelle durch Zoom vergrössert, bei welcher der letzte Befehl ausgesprochen wurde.By a combined command, e.g. B2, d and C2, f, i.e. command C2, f immediately following command B2, d saves the last-mentioned position and zooms in on the position at which the last command was pronounced.
Nach Manipulation der durch Zoom vergrösserten Stelle springt die markierte Zone an die zuletzt gespeicehrte Stelle und beginnt dort sich von links nach rechts zu bewegen. Für den Fall, dass die zuletzt gespeicherte Stelle als Zoom erscheinen soll, wird zusätzlich der Befehl Zoom gegeben.After manipulation of the point enlarged by zoom, the marked zone jumps to the last place where it was fed and begins to move from left to right. In the event that the last saved position should appear as a zoom, the Zoom command is also given.
Dabei ist die Vorgehensweise wie folgt:
- Ein bewgliches, umrandetes Feld (in dessen Mitte sich ein Curser befindet) welches an irgendeiner Stelle auf dem Bildschirm mittels Sprachbefehl aufleuchtet und sich bei konstanter Geschwindigkeit nach rechts bewegt, ist unser Manipulator.
- A manipulated, bordered field (in the middle of which there is a cursor) which lights up at any point on the screen with a voice command and moves to the right at constant speed is our manipulator.
Durch Eingabe der nächsten Startposition (B) des Zooms
- - findet ein Zoom an der Stelle statt, wo sich das um randete Feld im Augenblick der Befehlsgebung befindet (A),
- - wird die nächste Startposition des Zooms gespeichert (B) und
- - findet ein Zoom der nächsten Startposition statt, (B) nachdem durch Zoom an der Stelle A die erforderlichen Manipulationen stattgefunden haben.
- - a zoom takes place at the point where the bordered field is at the moment of command (A),
- - the next starting position of the zoom is saved (B) and
- - The next starting position is zoomed (B) after the required manipulations have taken place at point A by zooming.
Eine erforderliche Manipulation kann es z.B. sein, den Curser in der Mitte des umrandeten Feldes links der Mitte eines Buchstabens zu setzen, um so eine zu erfassende Zeile genau zu definieren.A necessary manipulation can e.g. be to place the cursor in the middle of the outlined field to the left of the middle of a letter in order to precisely define a line to be captured.
Wird ein Curser in einem Viereck, d.h. an vier Punkten gesetzt, so werden alle digitalen Muster in dem Viereck erfasst. Werden nur zwei Stellen bezeichnet, so beinhaltet das erfasste Feld die Fläche rechts vom definierten Punkt, rechtwinklig nach unten bis zur Höhe des zweiten definierten Punkte. Befindet sich auf der Höhe des ersten definierten Punktes kein zweiter Definitionspunkt, so werden alle folgenden Zeichen rechts vom ersten definierten Punkt bis zum Bildschirmrand erfasst und enden in der Zeile und bei der Stelle wo der Endpunkt für dieses zu erfassende Segment gesetzt wurde.If a cursor is in a square, i.e. set at four points, all digital patterns are captured in the square. If only two digits are designated, the captured field includes the area to the right of the defined point, downwards at right angles to the height of the second defined point. If there is no second definition point at the height of the first defined point, all subsequent characters to the right of the first defined point up to the edge of the screen are recorded and end in the line and at the point where the end point for this segment to be recorded was set.
Die Vorgehensweise kann durch die Befehle "stop", "zurück", "auf", "ab", "links", "rechts", und andere erweitert werden.The procedure can be expanded by the commands "stop", "back", "up", "down", "left", "right", and others.
In Fig. 6 ist ein weiterer Aspekt der vorliegenden Erfindung gezeigt, bei dem die Selektion und das Kodierverfahren ferner zur gesteigerten Mikroform-Speicherung verwendet werden können. Die durch die in Fig. 1 erzielte Auswahl der Teile der Einrichtung ist erneut in Fig. 6 dargestellt, wobei die Kodiervorrichtung und der Speicher 30 in eine Kodiervorrichtung 70 und einen Massenspeicher 72 aufgestellt sind. Als Sicherheitszubehör oder als Alternative zum Quellendokument-Speicher 20 und als eine redundante Speicherungstechnik zum Massenspeicher 72 ist es wünschenswert, einen Mikrofilm- oder Mikroformspeicher der wichtigsten Teile der eingegangenen Dokumente vorzusehen. Zu diesem Zweck werden die kodierten Signale einem6 shows a further aspect of the present invention, in which the selection and the coding method can also be used for increased microform storage. The selection of the parts of the device achieved by FIG. 1 is shown again in FIG. 6, the coding device and the
Digital-Video-Umformer 74 mit hoher Auflösung zugeführt, der eigentlich eine umgekehrte Vodeokamera ist und zur Aufnahme von Digitalsignalen sowie zur Herstellung von Ebenbildern mit hoher Auflösung dient, die durch ein herkömmliches optisches System einem Mikrofilm 76 zuführbar sind, der von einer Vorratsspule 78 abgewickelt einer Aufwickelspule 80 zugeführt wird, das in bekannter Weise von einem Schrittantrieb oder von einem intermittierenden Antrieb 82 angetrieben wird. Obschon ein normaler Spulenfilm dargestellt ist, ist es verständlich, dass Filme jeder Grösse und auch Mikrofich- oder Mikropunktspeicher verwendet werden können.High-resolution
In der vorangehenden Beschreibung wurden verschiedene vorteilhafte Ausführungsformen erläutert. Es sind aber innerhalb des heutigen technischen Standes eine Reihe von Abweichungen von diesen Ausführungen möglich, die ebenfalls innerhalb des Rahmens der vorliegenden Erfindung liegen.Various advantageous embodiments have been explained in the preceding description. However, a number of deviations from these designs are possible within the current state of the art, which are also within the scope of the present invention.
Claims (16)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/573,945 US4726065A (en) | 1984-01-26 | 1984-01-26 | Image manipulation by speech signals |
US573945 | 1990-08-28 |
Publications (3)
Publication Number | Publication Date |
---|---|
EP0150813A2 true EP0150813A2 (en) | 1985-08-07 |
EP0150813A3 EP0150813A3 (en) | 1988-05-25 |
EP0150813B1 EP0150813B1 (en) | 1992-03-25 |
Family
ID=24294031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP85100700A Expired - Lifetime EP0150813B1 (en) | 1984-01-26 | 1985-01-24 | Method for voice controlled manipulation of displayed screen images |
Country Status (3)
Country | Link |
---|---|
US (1) | US4726065A (en) |
EP (1) | EP0150813B1 (en) |
DE (1) | DE3585693D1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0294657A2 (en) * | 1987-06-11 | 1988-12-14 | FROESSL, Horst | Method and device for voice and contact controlled data and image processing |
EP0414238A2 (en) * | 1989-08-25 | 1991-02-27 | GRUNDIG E.M.V. Elektro-Mechanische Versuchsanstalt Max Grundig GmbH & Co. KG | Voice controlled archival system |
CN105068982A (en) * | 2015-08-26 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | Input content modification method and apparatus |
Families Citing this family (196)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5157384A (en) * | 1989-04-28 | 1992-10-20 | International Business Machines Corporation | Advanced user interface |
US5252951A (en) * | 1989-04-28 | 1993-10-12 | International Business Machines Corporation | Graphical user interface with gesture recognition in a multiapplication environment |
JPH03163623A (en) * | 1989-06-23 | 1991-07-15 | Articulate Syst Inc | Voice control computor interface |
US5133024A (en) * | 1989-10-24 | 1992-07-21 | Horst Froessl | Image data bank system with selective conversion |
US5136655A (en) * | 1990-03-26 | 1992-08-04 | Hewlett-Pacard Company | Method and apparatus for indexing and retrieving audio-video data |
US5444840A (en) * | 1990-06-12 | 1995-08-22 | Froessl; Horst | Multiple image font processing |
US5396588A (en) * | 1990-07-03 | 1995-03-07 | Froessl; Horst | Data processing using digitized images |
US5926565A (en) * | 1991-10-28 | 1999-07-20 | Froessl; Horst | Computer method for processing records with images and multiple fonts |
US5875263A (en) * | 1991-10-28 | 1999-02-23 | Froessl; Horst | Non-edit multiple image font processing of records |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
US5586240A (en) * | 1992-03-11 | 1996-12-17 | Genesis Software, Inc. | Image generation and retrieval system integrated with arbitrary application using layered interface |
US5442376A (en) * | 1992-10-26 | 1995-08-15 | International Business Machines Corporation | Handling multiple command recognition inputs in a multi-tasking graphical environment |
US5546565A (en) * | 1993-06-21 | 1996-08-13 | Casio Computer Co., Ltd. | Input/output apparatus having a pen, and method of associating and processing handwritten image data and voice data |
JP3267047B2 (en) * | 1994-04-25 | 2002-03-18 | 株式会社日立製作所 | Information processing device by voice |
DE69619592T2 (en) * | 1995-04-11 | 2002-11-07 | Dragon Systems Inc | Movement of a pointer shown on the screen |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5903870A (en) * | 1995-09-18 | 1999-05-11 | Vis Tell, Inc. | Voice recognition and display device apparatus and method |
US6601027B1 (en) * | 1995-11-13 | 2003-07-29 | Scansoft, Inc. | Position manipulation in speech recognition |
US5960395A (en) | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
GB9602701D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Image manipulation |
US5737491A (en) * | 1996-06-28 | 1998-04-07 | Eastman Kodak Company | Electronic imaging system capable of image capture, local wireless transmission and voice recognition |
US7297856B2 (en) * | 1996-07-10 | 2007-11-20 | Sitrick David H | System and methodology for coordinating musical communication and display |
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
US6253184B1 (en) | 1998-12-14 | 2001-06-26 | Jon Ruppert | Interactive voice controlled copier apparatus |
US6233560B1 (en) | 1998-12-16 | 2001-05-15 | International Business Machines Corporation | Method and apparatus for presenting proximal feedback in voice command systems |
US7206747B1 (en) | 1998-12-16 | 2007-04-17 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands |
US6192343B1 (en) | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6937984B1 (en) | 1998-12-17 | 2005-08-30 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with speech controlled display of recognized commands |
US8275617B1 (en) | 1998-12-17 | 2012-09-25 | Nuance Communications, Inc. | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands |
IL133698A0 (en) * | 1999-12-23 | 2001-04-30 | Metzger Ram | Pointing device |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
GB0029573D0 (en) * | 2000-12-02 | 2001-01-17 | Hewlett Packard Co | Activation of voice-controlled apparatus |
ITFI20010199A1 (en) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | SYSTEM AND METHOD TO TRANSFORM TEXTUAL COMMUNICATIONS INTO VOICE AND SEND THEM WITH AN INTERNET CONNECTION TO ANY TELEPHONE SYSTEM |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) * | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120309363A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8255218B1 (en) | 2011-09-26 | 2012-08-28 | Google Inc. | Directing dictation into input fields |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9588964B2 (en) | 2012-09-18 | 2017-03-07 | Adobe Systems Incorporated | Natural language vocabulary generation and usage |
US10656808B2 (en) | 2012-09-18 | 2020-05-19 | Adobe Inc. | Natural language and user interface controls |
US9141335B2 (en) | 2012-09-18 | 2015-09-22 | Adobe Systems Incorporated | Natural language image tags |
US9436382B2 (en) | 2012-09-18 | 2016-09-06 | Adobe Systems Incorporated | Natural language image editing |
US9412366B2 (en) | 2012-09-18 | 2016-08-09 | Adobe Systems Incorporated | Natural language image spatial and tonal localization |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US8543397B1 (en) | 2012-10-11 | 2013-09-24 | Google Inc. | Mobile device voice activation |
CN104969289B (en) | 2013-02-07 | 2021-05-28 | 苹果公司 | Voice trigger of digital assistant |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
EP2973002B1 (en) | 2013-03-15 | 2019-06-26 | Apple Inc. | User training by intelligent digital assistant |
WO2014168730A2 (en) | 2013-03-15 | 2014-10-16 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105265005B (en) | 2013-06-13 | 2019-09-17 | 苹果公司 | System and method for the urgent call initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN109584862B (en) * | 2017-09-29 | 2024-01-12 | 上海寒武纪信息科技有限公司 | Image processing apparatus and method |
CN109584864B (en) * | 2017-09-29 | 2023-11-24 | 上海寒武纪信息科技有限公司 | Image processing apparatus and method |
KR101972545B1 (en) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | A Location Based Voice Recognition System Using A Voice Command |
CN110598671B (en) * | 2019-09-23 | 2022-09-27 | 腾讯科技(深圳)有限公司 | Text-based avatar behavior control method, apparatus, and medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2070822A (en) * | 1980-02-04 | 1981-09-09 | Casio Computer Co Ltd | Data registering system |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US32012A (en) * | 1861-04-09 | Improvement in desulphurizing coal and ores | ||
JPS56119185A (en) * | 1980-02-23 | 1981-09-18 | Fujitsu Fanuc Ltd | Picture display system |
US4521870A (en) * | 1981-04-09 | 1985-06-04 | Ampex Corporation | Audio/video system having touch responsive function display screen |
US4525793A (en) * | 1982-01-07 | 1985-06-25 | General Electric Company | Voice-responsive mobile status unit |
JPS58119076A (en) * | 1982-01-08 | 1983-07-15 | Toshiba Corp | Picture editing device |
US4555775B1 (en) * | 1982-10-07 | 1995-12-05 | Bell Telephone Labor Inc | Dynamic generation and overlaying of graphic windows for multiple active program storage areas |
US4553261A (en) * | 1983-05-31 | 1985-11-12 | Horst Froessl | Document and data handling and retrieval system |
-
1984
- 1984-01-26 US US06/573,945 patent/US4726065A/en not_active Expired - Lifetime
-
1985
- 1985-01-24 DE DE8585100700T patent/DE3585693D1/en not_active Expired - Fee Related
- 1985-01-24 EP EP85100700A patent/EP0150813B1/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2070822A (en) * | 1980-02-04 | 1981-09-09 | Casio Computer Co Ltd | Data registering system |
Non-Patent Citations (3)
Title |
---|
ELECTRONIC DESIGN, Band 28, Nr. 24, 22. November 1980, Seiten 35-36, Minnesota, Denville, New Jersey, US; J. McLeod: "Module lets CAD system respond to designer's voice" * |
IBM TECHNICAL DISCLOSURE BULLETIN, Band 26, Nr. 3A, August 1983, Seite 997, New York, US; W.L. TERRELL: "Voice comand user interface processor" * |
PATENT ABSTRACTS OF JAPAN, Band 5, Nr. 175(P-88)[847], 11. November 1981; JP-A-56 105 536 (TOKYO SHIBAURA DENKI K.K.) 22-08-1981 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0294657A2 (en) * | 1987-06-11 | 1988-12-14 | FROESSL, Horst | Method and device for voice and contact controlled data and image processing |
EP0294657A3 (en) * | 1987-06-11 | 1991-07-24 | FROESSL, Horst | Method and device for voice and contact controlled data and image processing |
EP0414238A2 (en) * | 1989-08-25 | 1991-02-27 | GRUNDIG E.M.V. Elektro-Mechanische Versuchsanstalt Max Grundig GmbH & Co. KG | Voice controlled archival system |
EP0414238A3 (en) * | 1989-08-25 | 1992-05-27 | Grundig E.M.V. Elektro-Mechanische Versuchsanstalt Max Grundig Hollaend. Stiftung & Co. Kg. | Voice controlled archival system |
CN105068982A (en) * | 2015-08-26 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | Input content modification method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
EP0150813B1 (en) | 1992-03-25 |
EP0150813A3 (en) | 1988-05-25 |
US4726065A (en) | 1988-02-16 |
DE3585693D1 (en) | 1992-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0150813A2 (en) | Method for voice controlled manipulation of displayed screen images | |
DE3850595T2 (en) | Document processing system. | |
DE69630928T2 (en) | Device and method for displaying a translation | |
DE69220583T2 (en) | Device for displaying areas on a display device | |
DE69317863T2 (en) | Sign language / word translation system | |
DE3629104C2 (en) | ||
DE69032645T2 (en) | Data processing system with input data based on gestures | |
DE69428590T2 (en) | COMBINED LEXICON AND LIST OF CHARACTERS OF HANDWRITING | |
DE69030550T2 (en) | Method and system for generating plans for a manufacturing process | |
DE69122975T2 (en) | Method and device for displaying and editing mathematical expressions in text format | |
EP0424803B1 (en) | Method for at least partially transforming image data into text with provision for subsequent storage or further processing | |
DE60204005T2 (en) | METHOD AND DEVICE FOR RECOGNIZING A HANDWRITTEN PATTERN | |
DE69230092T2 (en) | Method and device for character recognition | |
DE60208276T2 (en) | Navigation aid for braille display and other text processing equipment for the visually impaired | |
DE3326583C2 (en) | ||
DE4032710C2 (en) | Input device for an electronic device | |
DE3142138C2 (en) | Method for entering Chinese characters and device for carrying out the method | |
DE3209187C2 (en) | Method for displaying a text on a single-line display device of a text creation device | |
DE2939919A1 (en) | ARRANGEMENT FOR CODING IDEOGRAPHIC CHARACTERS | |
DE2435889A1 (en) | PROCEDURE AND DEVICE FOR DISTINCTIVE CHARACTER GROUPS | |
DE69430413T2 (en) | Method and device for solving terms of a numerical sequence | |
EP0107083B1 (en) | Document processing device with correction circuit and video display | |
DE1949897A1 (en) | Equipment and method for processing data | |
EP0294657A2 (en) | Method and device for voice and contact controlled data and image processing | |
DE69033422T2 (en) | Data processing equipment and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Designated state(s): CH DE FR GB IT LI NL SE |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): CH DE FR GB IT LI NL SE |
|
17P | Request for examination filed |
Effective date: 19881029 |
|
17Q | First examination report despatched |
Effective date: 19900619 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): CH DE FR GB IT LI NL SE |
|
ITF | It: translation for a ep patent filed |
Owner name: ING. A. GIAMBROCONO & C. S.R.L. |
|
REF | Corresponds to: |
Ref document number: 3585693 Country of ref document: DE Date of ref document: 19920430 |
|
ET | Fr: translation filed | ||
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed | ||
EAL | Se: european patent in force in sweden |
Ref document number: 85100700.5 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: NV Representative=s name: FREI PATENTANWALTSBUERO |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 19970103 Year of fee payment: 13 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 19970108 Year of fee payment: 13 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: CH Payment date: 19970115 Year of fee payment: 13 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: SE Payment date: 19970130 Year of fee payment: 13 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 19970131 Year of fee payment: 13 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 19970219 Year of fee payment: 13 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19980124 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19980125 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19980131 Ref country code: FR Free format text: THE PATENT HAS BEEN ANNULLED BY A DECISION OF A NATIONAL AUTHORITY Effective date: 19980131 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19980131 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19980801 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 19980124 |
|
NLV4 | Nl: lapsed or anulled due to non-payment of the annual fee |
Effective date: 19980801 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 19981001 |
|
EUG | Se: european patent has lapsed |
Ref document number: 85100700.5 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST |