BE1018568A3 - Voorleestoestel en werkwijze van voorlezen. - Google Patents

Voorleestoestel en werkwijze van voorlezen. Download PDF

Info

Publication number
BE1018568A3
BE1018568A3 BE2009/0544A BE200900544A BE1018568A3 BE 1018568 A3 BE1018568 A3 BE 1018568A3 BE 2009/0544 A BE2009/0544 A BE 2009/0544A BE 200900544 A BE200900544 A BE 200900544A BE 1018568 A3 BE1018568 A3 BE 1018568A3
Authority
BE
Belgium
Prior art keywords
text
axis
text blocks
blocks
image
Prior art date
Application number
BE2009/0544A
Other languages
English (en)
Inventor
Bart Haagdorens
Original Assignee
Koba Vision
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koba Vision filed Critical Koba Vision
Priority to BE2009/0544A priority Critical patent/BE1018568A3/nl
Priority to EP10175319A priority patent/EP2299387A1/en
Application granted granted Critical
Publication of BE1018568A3 publication Critical patent/BE1018568A3/nl

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Character Input (AREA)

Abstract

Werkwijze voor het converteren van tekstinformatie uit een document, welke tekstinformatie is weergegeven in de vorm van tekstblokken, naar digitale tekstdata bestemd voor een spraakgenerator, of naar spreek, waarbij een opstaande aslijn wordt ingebracht in een vooraf bepaalde positie in het gedigitaliseerde beeld, welke positie onafhankelijk is van de ligging van de herkende tekstblokken en van de tekstuele inhoud van de herkende tekstblokken, en doordat bij het selecteren uit de herkende tekstblokken die tekstblokken worden geselecteerd die door genoemde aslijn worden doorsneden. De uitvinding betreft tevens een apparaat voor het uitvoeren van deze werkwijzen.

Description

VQORLEESTOESTEL EN WERKWIJZE VAN VOORLEZEN
De uitvinding betreft een werkwijze voor het converteren van tekstinformatie uit een document, welke tekstinformatie is weergegeven in de vorm van tekstblokken, naar digitale tekstdatä bestemd voor een spraakgenerator, volgens de aanhef van conclusie 1, of naar een audio-signaal, volgens de aanhef van conclusie 3. De uitvinding betreft tevens een apparaat voor het uitvoeren van deze werkwijzen, volgens de aanhef van conclusies 10 en 12.
In ons dagelijks leven krijgen we veel informatie aangereikt in een gedrukte vorm, bijvoorbeeld een krant, een tijdschrift, een brief, een reclamefolder, een factuur, een rekeninguittreksel, enz. De layout van de informatie kan hierbij in sterke mate variëren, gaande van heel eenvoudig (zoals bij een typische roman) tot erg complex (zoals bij een krant). Mensen met een verminderd gezichtsvermogen hebben vaak moeite om deze informatie te lezen, maar kunnen meestal goed geholpen worden met een bril, tenzij de afwijking erg groot is. Voor mensen met een verminderd zicht van bv lager dan 3/10 van het normale zicht, biedt een bril echter geen oplossing, maar zijn er diverse andere systemen op de markt, zoals scanners met spraak, of vergrotingsapparaten met een beeldscherm.
W09921122 beschrijft een voorleestoestel voor slechtzienden, dat een camera en een beeldscherm omvat. Het toestel zet een document dat aan de camera wordt aangeboden om naar een video beeld, dat vergroot kan weergegeven worden op het beeldscherm, waarbij de kleuren kunnen aangepast worden. Door de camera wordt eveneens een stilstaand beeld genomen met een voldoend hoge resolutie voor het uitvoeren van tekstherkenning, waarna de herkende tekst wordt omgezet in spraak.
Een nadeel van het bekende voorleestoestel is echter dat het niet eenvoudig is in gebruik en dat de verwerkingstijd om van tekst naar spraak te converteren relatief lang is waardoor de gebruiker relatief lang moet wachten alvorens de spraak daadwerkelijk te horen.
Het is een doel van de uitvinding om een werkwijze te verschaffen voor het converteren van tekstinformatie uit een document naar digitale tekstdata bestemd voor een spraakgenerator, waarbij de verwerkingstijd korter is.
Het is tevens een doel van de uitvinding om een werkwijze te verschaffen voor het converteren van tekstinformatie uit een document naar een audio-signaal, waarbij de verwerkingstijd korter is.
Het is tevens een doel van de uitvinding om een apparaat te verschaffen voor het uitvoeren van deze werkwijzen.
Een werkwijze volgens de huidige uitvinding heeft daartoe het kenmerk dat een opstaande aslijn wordt ingebracht in een vooraf bepaalde positie in het gedigitaliseerde beeld, welke positie onafhankelijk is van de ligging van de herkende tekstblokken en van de tekstuele inhoud van de herkende tekstblokken, en doordat bij het genoemd selecteren uit de herkende tekstblokken die tekstblokken worden geselecteerd die door genoemde aslijn worden doorsneden.
Doordat de aslijn onafhankelijk van de ligging van de herkende tekstblokken wordt aangebracht in een vooraf bepaalde positie in het gedigitaliseerde beeld geschiedt dit aanbrengen van een aslijn relatief eenvoudig en snel, wat een aanzienlijke vermindering van de verwerkingstijd inhoudt. Bovendien maakt het aanbrengen van de aslijn het mogelijk om relevante te lezen informatie op eenvoudige wijze te identificeren en om tekstblokken te selecteren aan de hand van het al dan niet doorsneden worden door de genoemde aslijn. Hierdoor wordt alleen relevante tekstinformatie naar digitale tekstdata geconverteerd wat ook weer tijdsbesparend werkt. Aangezien voor de selectie een aslijn wordt gebruikt, en niet een punt, is het bovendien mogelijk meerdere tekstblokken in één operatie te selecteren. De uitvinder heeft verrassend vastgesteld dat het resultaat van een dergelijke selectie een bijzonder hoge mate van coherentie oplevert van de geconverteerde digitale tekstdata, zelfs voor documenten met een zeer uiteenlopende layout.
Ofschoon de positie van de aslijn onafhankelijk is van de ligging van de herkende tekstblokken en van de tekstuele inhoud van de herkende tekstblokken, is het resultaat van de selectie van de tekstblokken desalniettemin zeer voorspelbaar voor de gebruiker. Een typische gebruiker die nog voldoende kan zien om de layout van het document te herkennen, maar onvoldoende om de tekstinformatie zelf te lezen, kan hier handig gebruik, van maken door het document zodanig te positioneren ten opzichte van de camera dat de tekstblokken met de voor hem relevante informatie door de aslijn in het gedigitaliseerde beeld zullen worden doorsneden. Daarna zal de verdere conversie naar digitale tekstdata bestemd voor een spraakgenerator dan automatisch verlopen.
In een voorkeursuitvoeringsvorm van de uitvinding wordt een eerste resp. tweede afstand bepaald van de hoekpunten van.de geselecteerde tekstblokken tot de aslijn, waarbij die hoekpunten worden gekozen die zich aan een eerste resp. tweede zijde van de aslijn bevinden; en wordt voor elk geselecteerd testblok een hoogte bepaald; en wordt een eerste resp. tweede gewogen gemiddelde afstand berekend van genoemde afstanden tot de aslijn, waarbij de weegfactor voor elke afstand evenredig is met de hoogte van het tekstblok waartoe het hoekpunt behoort; en wordt een eerste resp. tweede grenslijn ingebracht in het gedigitaliseerde beeld, evenwijdig met de aslijn aan de eerste resp. tweede zijde van de aslijn, op de eerste resp. tweede gewogen gemiddelde afstand tot de aslijn; en worden bij genoemd selecteren van de tekstblokken de tekstblokken waarvan minstens een vooraf bepaald gedeelte van de oppervlakte zich tussen de eerste en de tweede grenslijn bevindt, aan de genoemde selectie van voor de spraakgenerator bestemde tekstblokken toegevoegd; en van elk tekstblok dat niet doorsneden werd door de aslijn een eerste oppervlakte wordt bepaald die zich buiten de twee grenslijnen bevindt, en wordt een tweede oppervlakte bepaald die zich tussen de twee grenslijnen bevindt, en wordt een percentage bepaald van de tweede oppervlakte tot de totale oppervlakte van het tekstblok; en worden bij genoemd selecteren van de tekstblokken de tekstblokken waarvan genoemd percentage groter is dan of gelijk aan een vooraf bepaald percentage aan de genoemde selectie van voor de spraakgenerator bestemde tekstblokken toegevoegd.
Door de tekstblokken waarvan minstens een vooraf bepaald percentage van de oppervlakte zich tussen de eerste en tweede grenslijn bevindt toe te voegen aan de eerdere selectie van tekstblokken, kunnen tekstblokken zoals korte tussentitels, die niet werden doorsneden door de aslijn, maar die logischerwijze wel behoren bij de tekstblokken die werden doorgesneden, alsnog toegevoegd worden aan de selectie. Deze tweede selectie is gebaseerd op de ligging van de tekstblokken ten opzichte van twee grenslijnen, waarvan de positie afhankelijk is van de ligging van de eerder geselecteerde tekstblokken. Door deze toevoeging van tekstblokken die niet doorsneden waren door de aslijn wordt het resultaat van de selectie minder afhankelijk van de exacte positionering van het document in het zicht van de camera, waardoor het gebruikscomfort voor de gebruiker toeneemt, en de coherentie van de geselecteerde tekstblokken verhoogt, De uitvinder heeft ondervonden dat wanneer de grenslijnen worden ingébracht op een positie die wordt berekend als een gewogen gemiddelde zoals hoger beschreven, het selectiealgoritme voor de meeste types van documenten met zeer uiteenlopende layouts een digitale tekstdata oplevert met een verrassend hoge coherentie. Doordat deze selectie nog steeds gebaseerd is op de ligging van de tekstblokken, en niet op de tekstuele inhoud ervan, kan de selectie van tekstblokken nog steeds plaatsvinden vooraleer karakterherkenning plaatsvindt, en blijft de selectie een snel proces. Aangezien het berekenen van een gewogen gemiddelde een eenvoudige wiskundige bewerking is, kunnen andere complexe technieken zoals het herkennen van sjablonen vermeden worden. Hierdoor blijft de eenvoud en de voorspelbaarheid van de methode behouden.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt een middelpunt van het gedigitaliseerde beeld bepaald, en wordt dit middelpunt als vooraf bepaalde positie gekozen voor het inbrengen van de aslijn.
Door de aslijn in het midden van het gedigitaliseerde beeld te leggen, zal de gewenste tekstinformatie eveneens in de buurt van het midden van het gezichtsveld van de camera worden opgenomen. Aangezien een camera in het midden van zijn gezichtsveld meestal het minste distorsie vertoont, zullen ook de randen van de tekstblokken het minst distorsie vertonen wat voordelig is bij de herkenning van de tekstblokken. Bovendien zal de optische karakterherkenning een beter resultaat opleveren. De uitvinder heeft tevens vastgesteld dat de beeldinformatie die zich in het midden van het beeld bevindt niet verplaatst wordt wanneer de vergrotingsfactor van de caméra wordt gewijzigd. Hierdoor wordt verkregen dat de selectie van tekstblokken minder afhankelijk is van de vergrotingsfactor van de camera (afgezien van de tekstblokken die in of buiten het beeld worden verschoven) wat tijdbesparend werkt aangezien de positie van het document niet hoeft gecorrigeerd te worden als de vergrotingsfactor wordt veranderd. Door de aslijn in het midden van het gedigitaliseerde beeld te leggen, krijgt de gebruiker bovendien een goed overzicht op de layout van het document, aangezien een gedeelte van de tekstblokken die zich links en rechts van de te lezen informatie bevindt, eveneens zichtbaar is in het gedigitaliseerde beeld.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt een; beeld van de aslijn geprojecteerd op het document dat zich in het gezichtsveld van de camera bevindt.
Door een beeld van de aslijn te projecteren op het document is de ligging van de tekstblokken t.o.v, de aslijn duidelijk zichtbaar, en kan het document eenvoudiger en nauwkeuriger gepositioneerd worden.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt uit het opgenomen en gedigitaliseerde beeld een verwerkt beeld gevormd dat wordt weergegeven op een beeldscherm.
Op deze manier worden de voordelen van gekende: vergrotingstoestellen gecombineerd worden met de omzetting van de tekstinformatie naar spraak, waardoor de tekstinformatie niet alleen wordt omgezet naar digitale tekstdata bestemd voor een spraakgenerator of spraak, maar de gebruiker kan de tekstinformatie visueel mee volgen op een beeldscherm. Door het opgenomen en gedigitaliseerde beeld te‘ verwerken, kan de leesbaarheid van de informatie worden verhoogd.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt bij het vormen van het verwerkt beeld één of meerdere van de volgende elementen ingebracht: de aslijn, de herkende tekstblokken, de geselecteerde tekstblokken.
Door het weergeven van het verwerkte beeld op het beeldscherm samen met de aslijn, kan de slechtziende gebruiker het document veel eenvoudiger, sneller en nauwkeuriger positioneren t.o.v. de aslijn. Door het weergeven van het verwerkte beeld op het beeldscherm samen met de herkende resp. de geselecteerde tekstblokken, krijgt de slechtziende gebruiker visuele feedback over de ligging van de tekstblokken die herkend resp. geselecteerd werdenden kan de gebruiker eventueel de positie van het document aanpassen nog vóór de omzetting naar digitale tekstdata bestemd voor een spraakgenerator of spraak. Hierdoor kan veel tijd worden gewonnen, en frustratie worden voorkomen aangezien de gebruiker deze feedback anders pas veel later zou krijgen, waardoor hij pas later het document correct kan positioneren, en dan opnieuw moet beginnen.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt tijdens de omzetting van de digitale tekstdata naar het audio-signaal een voortgangsindicatie bijgehouden die aangeeft tot waar de digitale tekstdata reeds is omgezet naar het audio-signaal; en wordt wanneer wordt vastgesteld dat de omzetting van de digitale tekstdata naar het audio-signaa| gestopt is, een gedeelte van de laatst omgezette digitale tekstdata gebufferd in een geheugen onder de vorm van stopdata; en wordt bij genoemd bepalen van de startpositie nagegaan of stopdata is gebufferd in het geheugen, en indien dat het geval is wordt de stopdata gelezen uit het geheugen, waarna in de digitale tekstdata een positie wordt gezocht waarin de genoemde stopdata wordt herkend volgens een vooraf bepaald overeenkomstcriterium, waarbij deze laatste positie wordt gekozen als de startpositie wanneer aan het overeenkomstcriterium is voldaan, en het begin van de digitale tekstdata wordt gekozen als de startpositie wanneer niet aan het overeenkomstcriterium is voldaan of wanneer geen stopdata was gebufferd in het geheugen.
Door het bijhouden van genoemde voortgangsindicatie is het mogelijk om de tekst die laatst werd omgezet naar het audio-signaal te identificeren, en een gedeelte daarvan te bufferen in een geheugen ónder de vorm van stopdata, zodat deze stopdata op een later tijdstip kan teruggevonden worden in hetzelfde of een ander gedigitaliseerd beeld. Op deze manier kan een document met tekstinformatie dat zich bijvoorbeeld uitstrekt in een hoogte welke niet geheel past in één opgenomen beeld, in meerdere stappen worden omgezet naar digitale tekstdata bestemd voor een spraakgenerator, waarbij het document telkens moet verschoven worden, maar niet precies hoeft gepositioneerd te worden in de hoogte, wat een niet te onderschatten gebruikscomfort oplevert. De uitvinder heeft verrassend vastgesteld dat de kans dat de stopdata wordt teruggevonden in de digitale tekstdata vergroot door gebruik te maken van een vooraf bepaald overeenkomstcriterium, waardoor de betrouwbaarheid van het systeem toeneemt.
De uitvinding wordt verder verduidelijkt aan de hand van de onderstaande beschrijving en de bijhorende figuren van een voorkeursuitvoeringsvorm van een werkwijze voor het converteren van tekstinformatie uit een document, en een apparaat dat deze werkwijze uitvoert.
Fig 1 toont een document met tekstinformatie, welke tekstinformatie is weergegeven in de vorm van tekstblokken.
Fig 2A toont een beeld van het gedeelte van het document van Fig 1 dat door een camera wordt opgenomen.
Fig 2B toont in detail de tekst van één van de tekstblokken uit Fig 2A.
Fig 3A toont de ligging van de herkende tekstblokken van het opgenomen en gedigitaliseerde beeld van Fig 2A.
Fig 3B toont de ligging van de herkende tekstblokken in het gedigitaliseerde beeld, nadat het document was verschoven in het gezichtsveld van de camera.
Fig 4A toont welke tekstblokken van Fig 3B worden doorsneden door een opstaande aslijn ingebracht in het midden van het gedigitaliseerde beeld, volgens de uitvinding.
Fig 4B toont welke tekstblokken van Fig 3A worden doorsneden door een opstaande aslijn ingebracht in het midden van het gedigitaliseerde beeld, volgens de uitvinding.
Fig 4C toont hoe in een variant van Fig 4A de positie van een eerste resp. tweede grenslijn wordt bepaald, volgens de uitvinding, vertrekkende van de ligging van de tekstblokken die doorsneden werden door de aslijn. .
Fig 4D toont het beeld van een ander document, met een brede tekstblok bovenaan die zich nagenoeg uitstrekt over de ganse breedte van het beeld, en de positie van de aslijn ingebracht in het beeld, alsook de eerste en tweede grenslijn, volgens de uitvinding.
Fig 4E toont het beeld van Fig 4D waarbij een aslijn, en een derde en een vierde grenslijn zijn Ingébracht in het beeld, gebaseerd op de maximale afstand tot de aslijn.
Fig 5A toont een beeld van een ander document, en toont de stopdata wanneer het voorlezen wordt gestopt na het uitspreken van het woord "nunc", volgens de uitvinding.
Fig 5B toont een beeld van het document van Fig 5A, nadat het document naar boven werd geschoven, en toont de nieuwe startpositie vanaf waar het voorlezen wordt hervat, volgens de uitvinding.
Fig 6A toont een voorkeursuitvoeringsvorm van een apparaat voor het converteren van tekstinformatie uit een document naar een audio-signaal, volgens de uitvinding.
Fig 6B toont een hardware blokdiagram van de yerwerkingselectronica van het apparaat van Fig 6A.
Fig 7A toont een principe schema van de software componenten die worden uitgevoerd in een CPU van de verwerkingselectronica van Fig 6A.
Fig 7B toont de stappen die genomen worden door het apparaat van Fig 6A wanneer een start- commando wordt gegeven,
Fig 7C toont een flowchart van het algoritme om de startpositie te bepalen, volgens de uitvinding.
Het is algemeen bekend dat het gezichtsvermogen van een gemiddelde mens afneemt vanaf een leeftijd van zowat 40 jaar. Naast een verminderd gezichtsvermogen t.g.v. ouderdom, kunnen gezichtsproblemén ook ontstaan door diverse ziektes. Gezichtsproblemen kunnen zich voordoen in verschillende vormen, waarvan de ergste vorm volledige blindheid is, maar blijven meestal beperkt tot een vermindering van het detail· dat het oog kan onderscheiden, waardoor het moeilijk wordt om tekst te lezen, aangezien letters niet meer goed onderscheiden kunnen worden. Zonder zich daartoe te beperken richt de uitvinding zich met name op deze laatste groep van mensen die geen of moeilijk letters kunnen onderscheiden, maar die wel nog de layout van een tekst kunnen herkennen.
Fig 1 toont een document 1 met tekstinformatie 3, zoals een krant of een tijdschrift, waarbij de tekstinformatie is weergegeven in de vorm van tekstblokken 4, welke door een slechtziende herkend kunnen worden als gebieden met tekstinformatie, maar waarvan hij de tekstinhoud zelf niet kan lezen. De tekstblokken 4 worden meestal onderling gescheiden door blanco zones 14. Het document 1 kan kleiner of gelijk of groter dan een A4-blad zijn. Het kan bijvoorbeeld een krant, een tijdschrift, een brief, een reclamefolder, een factuur, een rekeninguittreksel zijn. .
Fig 6A toont een voorkeursuitvoeringsvorm van een apparaat 29 volgens de uitvinding. Het omvat een camera 30 voor het opnemen van een beeld van het document 1, een beeldscherm 34, één of meerdere luidsprekers 35, een controlepaneel 41, en verwerkingselectronica 42. De camera en de verwerkingselectronica 42 zijn niet zichtbaar op de tekening, maar bevinden zich achter het beeldscherm 34. Het document 1 van Fig 1 wordt onder het beeldscherm 34 gelegd, in het gezichtsveld van de camera, die een beeld opneemt van een gedeelte van het document, zoals getoond in Fig 2A. Dit beeld wordt gedigitaliseerd. De zones met tekst in het gedigitaliseerde beeld 2 worden eveneens tekstblokken 4 genoemd. Fig 2B toont in detail de tekst van één van de tekstblokken 4 uit Fig 2A. Dit tekstblok kan bijvoorbeeld een titel of hoofding zijn.
Fig 6B toont een hardware blokschema van het apparaat van Fig 6A. Het apparaat omvat een controlepaneel 41, een beeldscherm 34, een camera 30 en verwerkingselectronica 42. Via het controlepaneel 41 kunnen commando's worden gegeven aan de verwerkingselectronica 42. Daartoe is een uitgang van het controlepaneel 41 verbonden met een ingang van een microcontroller 31 die zich in de verwerkingselectronica 42 bevindt. Via de camera 30 kan een beeld 2 van het document 1, dat zich in het gezichtsveld van de camera 30 bevindt genomen worden. Een uitgang van de caméra 30 is verbonden met een ingang van de camera-interface 45 die zich in de verwerkingselectronica 42 bevindt, voor het doorgeven van het beeld 2 dat opgenomen werd door de camera 30 aan de verwerkingselectronica 42. Het signaal afkomstig van de camera 30 kan bijvoorbeeld een analoog video-signaal zijn zoals een analoog YPbPr signaal, en de camera-interface 45 kan bijvoorbeeld een video-ADC omvatten, welke het analoge video-signaal omzet naar een digitaal video-signaal. De camera-interface 45 kan echter ook een omzetter omvatten van een LVDS-signaal naar een TTL-signaal, bijvoorbeeld wanneer de camera een digitale uitgang heeft. Een uitgang van de camera-interface 45 is verbonden met een ingang van een frame buffer 44, voor het bufferen van een gedigitaliseerd beeld 2. Een uitgang van het frame buffer 44 is verbonden met een ingang van een field programmable gâte array (FPGA) 37. Dit kan bijvoorbeeld een FPGA zijn van Xilinx of Altera. Het dient opgemerkt dat het frame-buffer optioneel is, als alternatief voor het frame buffer kan ook een geheugen gebruikt worden dat rechtstreeks verbonden is met de FPGA. De microcontroller 31 is verbonden met de FGPA via, een controlebus (bv I2C of een UART) voor het doorgeven van commando's van het controlepaneel 41, zoals een commando voor het starten of stoppen van de omzetting van het document naar spraak, of een commando voor het inverteren van de kleuren. Een uitgang van de FPGA 37 is verbonden met een ingang van een HDMI-transmitter 38 voor het doorgeven van een audio en/of video-signaal naar het beeldscherm 34. De uitgang van de HDMI- transmitter 38 is verbonden met een ingang van het beeldscherm 34, bijvoorbeeld via een HDMI-kabel. In plaats van een HDMI-kabel kan bijvoorbeeld ook een DVI-kabel gebruikt worden. Het beeldscherm 34 geeft vervolgens het beeld visueel weer op het scherm, en het geluid op één of meerdere luidsprekers 35. De camera 30 heeft bij voorkeur een automatische zoom functie, en het controlepaneel 41 heeft bij voorkeur een roteerbare zoom-knop waarmee de vergroting van de camera 30 kan geregeld worden. Daartoe is de microcontroller 31 via een controlebus verbonden met de camera 30. Dit kan dezelfde of een andere controlebüs zijn als die tussen de microcontroller 31 en de FPGA 37. De FPGA is tevens verbonden met een CPU 45, via een bus 87 waarover oa de beelddata opgenomen door de camera 30 kan doorgegeven worden. De CPU 45 op zijn beurt is verbonden met een FLASH geheugen 32, waarin oa programma's voor de CPU zijn opgeslagen, welke programma's worden uitgevoèrd door de CPU. De CPU is ook verbonden met een RAM geheugen 33 dat dient als werkgeheugen en voor het opslaan van een copie van het gedigitaliseerde beeld 2, waarop bewerkingen kunnen worden uitgevoerd, zoals verder zal worden beschreven. Deze programma's bestaan uit verschillende componenten die met elkaar kunnen interageren, en uit een controle-component die de andere componenten aanstuurt en de interacties regelt. De voornaamste componenten zijn een OCR component 8 voor optische kârakterherkenning (Optical Character Récognition) en een Spraakgenerator component 7, zoals weergegeven in Fig 7A. Het geheel van de programmatuur die wordt uitgevoerd op de CPU 45 omvat onder meer tekstblokherkenningsmiddelen (101), tekstblokselectiemiddelen (102), aslijninbrengingsmiddelen (103), afstandsbepalingsmiddelen (104), hoogtebepalingsmiddelen (105), rekenmiddelen (106), grenslijninbrengingsmiddelen (107), oppervlaktebepalingsmiddelen (108), startpositiebepalingsmiddelen (109), voortgangsindicatiemiddelen (112), detectiemiddelen (113), en stopdata.bepalingsmiddelen (114).
Bij voorkeur wordt de verwerkingselectronica 42 op een eerste en een tweede PCB's (printed circuit board) 46, 43 geïmplementeerd, zoals aangegeven door de scheidingslijn die de bus 87 doorsnijdt. Op deze manier wordt een modulaire oplossing verschaft voor twee verwante maar toch verschillende apparaten: een voorieestoestel zoals hoger beschreven, waarin beide PCB's 43 en 46 aanwezig zijn, of een klassiek vergrotingsapparaat zonder spraakvoorzieningen, waarin enkel het eerste PCB aanwezig is. Door een gepaste interface-connector te voorzien, is het mogelijk een apparaat dat verkocht werd.als een louter vergrotingsapparaat, achteraf uit te breiden met spraakvoorzieningen, door het aanbrengen van PCB2. Dit is echter niet essentieel voor de uitvinding, en de verwerkingselectronica 42 kan ook op één enkel PCB geïmplementeerd worden, of het eerste PCB 43 kan bijvoorbeeld een moederbord zijn, waarop optioneel een COM-module (computer on module) kan geprikt worden mét de spraakvoorzieningen.
De uitvinding verschaft een werkwijze voor het converteren van tékstinformatie 3 uit een document 1, welke tekstinformatie 3 is weergegeven in de vorm van tekstblokken 4, naar digitale tekstdata 24 bestemd voor een spraakgenerator 7, waarbij het document 1 zich in een gezichtsveld van een camera 30 bevindt, en waarbij de werkwijze de volgende stappen omvat: a) het nemen yah een beeld van ten minste een gedeelte van het document 1 met genoemde tekstinformatie 3 door middel van de camera 30, en het digitaliseren van dat beeld; b) het herkennen van tekstblokken en het bepalen van een ligging van de herkende tekstblokken 4 in het gedigitaliseerde beeld 2; c) het selecteren van voor de spraakgenerator 7 bestemde tekstblokken 5 uit de herkende tekstblokken 4; d) het omzetten van tekstblokken 4 uit het gedigitaliseerde beeld 2 naar digitale tekstdata 24 door middel van optische karakterherkenning; waarbij een opstaande aslijn 11 wordt ingebracht in een vooraf bepaalde positie in het gedigitaliseerde beeld 2, welke positie onafhankelijk is van de ligging van de herkende tekstblokken 4 en van de tekstuele inhoud van de herkende tekstblokken 4; en doordat bij het genoemd selecteren uit de herkende tekstblokken 4 die tekstblokken worden geselecteerd die door genoemde aslijn 11 worden doorsneden.
Om deze werkwijze uit te voeren omvat de verwerkingselectronica 42 onder meer: tekstblokherkenningsmiddelen 101, tekstblokselectiemiddelen 102 en aslijninbrengingsmiddelen 103 welke bij voorkeur in software worden uitgevoerd op de CPU 45, waarbij de tekstblokherkenningsmiddelen 101 bij voorkeur een onderdeel zijn van de . OCR component 8, en digitaliseringsmiddelen 45 welke bijvoorbeeld in de camera 30 kunnen aanwezig zijn of in de camera-interface 45.
Ongeacht of de spraakgenerator intern of extern aanwezig is in het apparaat 29 die genoemde werkwijze uitvoert, is het de bedoeling dat de tekstinformatie 3 uit het document 1 uiteindelijk wordt omgezet naar een audio-signaal. Het audio-signaal wordt verder in de tekst ook "spraak" genoemd, en het omzetten van de digitale tekstdata wordt verder in de tekst ook "voorlezen" genoemd. Genoemde spraakgenerator kan bijvoorbeeld een interne hardware component zijn, zoals een DSP voor spraaksynthese, of ëen PC-kaart, of kan ook een software spraaksynthese (Text Το Speech) component zijn zoals die bijvoorbeeld verkrijgbaar zijn van firma's als Microsoft, Nuance Communications, Acapela Group, maar andere software of hardware oplossingen zijn eveneens mogelijk, zoals een externe USB component voor spraaksynthese. In het apparaat van Fig 6A is gekozen voor een software spraaksynthese component 7.
Met camera 30 wordt Zowel een video-camera als een fotocamera bedoeld, of een combinatie van één of meerdere van beiden. Bij voorkeur wordt echter slechts één camera gebruikt. Het digitaliseren kan in de camera 30 zelf gebeuren, of daarbuiten. Zo kan de camera bijvoorbeeld een analoog YPbPr signaal afgeven dat in de camera-interface 45 kan worden gedigitaliseerd, bijvoorbeeld door een video ADC. Voor het uitvoeren van optische karakterherkenning van de meeste gedrukte documenten is een resolutie nodig van minstens 150 dpi. Wanneer een 16x9 HD-camera wordt gebruikt met een resolutie van 1280 x 720 pixels, kan de ganse breedte van een A4-blad (21 cm) worden opgenomen aan een resolutie van 1280 pixels / 21 cm = 154,8 dpi, voldoende dus voor het uitvoeren van optische karakterherkenning (OCR). De hoogte van het beeld komt dan overeen met ongeveer de halve hoogte van een A4-blad, zoals weergegeven in Fig 5A en 5B. Aangezien de meeste gedrukte documenten een linker en rechter marge vertonen waar geen tekst aanwezig is, kan door het beeld te vergroten een resolutie bereikt worden van 1280 pixels / 18cm = 180 dpi, waardoor de betrouwbaarheid van de karakterherkenning hoger is.
Het herkennen van tekstblokken 4 en het bepalen van een ligging van de herkende tekstblokken 4 in het gedigitaliseerde beeld 2, verder ook kortweg "beeld" genoemd, kan bijvoorbeeld gebeuren door tekstblokherkenningsmiddelen 101, welke bijvoorbeeld deel kunnen uitmaken van de OCR-component 8, zoals weergegeven in Fig 7A. Daarbij wordt het gedigitaliseerde beeld 2 via de FPGA 37 aan de CPU 45 aangeboden, die deze digitale beelddata kan aanbieden aan de OCR-component 8. Deze digitale beelddata kan dezelfde zijn als het beeld 2, of kan bijvoorbeeld een monochrome versie daarvan zijn, waarbij de kleuromzetting bijvoorbeeld plaats vond in de FPGA 37. Door het aanbieden van het beeld 2 aan de OCR component 8 in grijswaarden i.p.v. in kleur, kan bandbreedte en tijd bespaard worden, en wordt de ligging van de tekstblokken 4 of de kwaliteit van de digitale tekstdata 24 niet nadelig beïnvloed. De OCR component 8 geeft daarop tekstblok-informatie 81 terug, bv een lijst met de coördinaten van de herkende tekstblokken 4. De meeste OCR componenten anno 2009 zoeken naar tekstblokken 4 in de vorm van rechthoeken, maar de uitvinding is daartoe niet beperkt. Essentieel voor de uitvinding is dat voldoende informatie wordt teruggeven om de ligging van de tekstblokken 4 te kunnen bepalen. Zo zou bijvoorbeeld ook de ligging van testblokken met een driehoekige vorm kunnen weergegeven worden aan de hand van de coördinaten van de hoekpunten. Soms volstaat het daarbij dat niet alle hoekpunten worden doorgeven, maar slechts enkele. Dit is oa het geval voor rechthoeken, waar vaak twee uiterste hoekpunten volstaan. Aan de hand van deze coördinaten kan de CPU 45 de ligging van de herkende tekstblokken 4 in het gedigitaliseerde beeld 2 bepalen, zoals getoond in Fig 3A, waarin acht tekstblokken T1-T8 werden herkend. Merk op dat de tekstblokken T1 en T3 in het gedigitaliseerde beeld 2 slechts een fractie zijn van de overeenkomstige tekstblokken 4 in het originele document 1, en het is wenselijk dat deze tekst niet wordt voorgelezen, aangezien het waarschijnlijk onvolledige zinnen betreft. T2, T5 en T7 zijn eveneens een fractie van de originele tekstblokken, maar aangezien ze wel in hun ganse breedte zijn opgenomen in het gedigitaliseerde beeld 2, kan het voorlezen ervan eventueel wel gewenst zijn. In plaats van alle tekstinformatie 3 van de tekstblokken T2, T4, T5, T6, 17, T8 te gaan lezen, wordt volgens de uitvinding een intelligente selectie gemaakt van welke tekstblokken wel, en welke niet moeten gelezen worden. Daartoe brengt de CPU een aslijn 11 in het gedigitaliseerde beeld 2 in, op een vooraf bepaalde positie in het gedigitaliseerde beeld 2, zoals getoond in Fig 4A.
In de praktijk hoeft het "inbrengen van een aslijn in het gedigitaliseerde beeld" en het "bepalen of tekstblokken, doorsneden worden door genoemde aslijn" niet noodzakelijk uitgevoerd te worden op een bitmap hetgeen meestal veel geheugen en rekenkracht vergt, maar worden deze stappen bij voorkeur uitgevoerd door berekeningen op basis van de coördinaten van de tekstblokken 4, hetgeen sneller is. Bovendien verbruikt dit minder, waardoor het apparaat 29 ook minder warmte zal genereren, waardoor tevens een ventilator achterwege kan gelaten worden, wat op zijn beurt voordelig is voor de kwaliteit van het audio-signaal dat via luidsprekers 35 wordt weergegeven.
Bij voorkeur loopt deze opstaande aslijn 11 door het middelpunt m van het gedigitaliseerde beeld 2, maar eender welke ander positie geschikt geacht door de vakman kan eveneens gebruikt worden. Zo kan de vooraf bepaalde positie waarin de aslijn wordt ingebracht ook een punt zijn dat zich op een afstand van 0%, 20%, 25%, 33%, 45% of eender welk ander percentage van de breedte van hét beeld 2 ten opzichte van de linkerkant 18 of rechterkant 19 van het beeld 2 bevindt. Essentieel voor de uitvinding is dat de ligging van deze aslijn 11 onafhankelijk is van de ligging van de herkende tekstblokken 4. Vervolgens wordt door de CPU 45 bepaald welke van de herkende tekstblokken 4 worden doorsneden door de aslijn 11, in Fig 4A zijn dat tekstblokken T4, T6 en T9, en dit zijn de tekstblokken die (bv aan de hand van hun coördinaten of hun volgnummer in de lijst) zullen worden aangeboden aan de OCR component, voor het omzetten van de tekstblokken 4 naar digitale tekstdata 24. Deze digitale tekstdata kunnen gewone ASCII -karakters zijn, of Unicode karakters, of kan ook bepaalde andere informatie bevatten zoals een ingelaste pauze. Dit laatste kan bijvoorbeeld onder de vorm van een label of "tag-informatie" gecodeerd zijn in de digitale tekstdata 24. Hoewel het een aanzienlijke tijdswinst kan opleveren door enkel die tekstblokken 4 aan te bieden aan de OCR-component 8 die later ook zullen omgezet worden naar spraak, is dit niet essentieel voor de uitvinding. Het is ook mogelijk dat alle tekstinformatie 3 van het ganse beeld 2 wordt omgezet naar digitale tekstdata 24, en dat de selectie van welke data effectief moet voorgelezen worden, pas later gebeurt. Het werken met de selectie, van tekstblokken volgens de uitvinding heeft echter als belangrijk voordeel dat onvolledige tekstregels, zoals bijvoorbeeld afkomstig uit T1 en T3 in Fig 4B niet zullen voorlezen worden.
De uitvinder heeft vastgesteld dat de selectie van tekstblokken 4 op basis van een aslijn 11 die op een voorafbepaalde plaats in het beeld 2 werd ingebracht, zonder eerst een layout-analyse of tekst-analyse te doen, tot een verrassend goed resultaat leidt voor wat de coherentie van de voorgelezen tekst betreft, maar de werkwijze biedt ook andere voordelen.
Door de selectie uit te voeren aan de hand van het doorsnijden van tekstblokken 4, in plaats van tekstblokken te selecteren die zich bijvoorbeeld rechts van de aslijn bevinden, wordt het gebruikscomfort aanzienlijk verhoogd, aangezien het document 1 aanzienlijk minder nauwkeurig hoeft gepositioneerd te worden in het gezichtsveld van de camera 30. Dit komt omdat de breedte van een tekstblok 4 meestal veel groter is dan de breedte van de zone tussen de tekstblokken, en omdat de gebruiker niet hoeft op te letten of de linkerkant van een tekstblok 4 zich wel degelijk rechts van de aslijn 11 bevindt, anders zou er tekstinformatie vooraan in de tekstregels verloren gaan. Ditzelfde geldt ook voor de oriëntatie van het document 1: het is immers veel eenvoudiger ervoor te zorgen dat boven elkaar gelegen tekstblokken 4 doorsneden worden door de aslijn 11, dan ervoor te zorgen dat de aslijn zich precies bevindt in de zone tussen de tekstblokken. Bijgevolg is de methode met het doorsnijden van tekstblokken ook veel toleranter voor wat betreft de positionering van het document 1 in de draairichting.
Door de efficiënte selectie van relevante tekstblokken kan voorkomen worden dat tijd wordt verloren door het uitvoeren van optische karakterherkenning (OCR) op tekstblokken die toch niet gelezen hoeven te worden. Het niet converteren van tekstblokken 4 die niet voorgelezen hoeven te worden, levert een aanzienlijke tijdswinst op.
Door een efficiënte keuze te maken van relevante tekstblokken wordt tevens voorkomen dat de gebruiker eerst naar irrelevante informatie dient te luisteren, vooraleer de voor hem relevante informatie beschikbaar is. Op deze manier wordt veel tijd gewonnen en kan ergernis voorkomen worden. Dankzij hoger genoemde voorspelbaarheid is de waarschijnlijkheid dat de gebruiker moet ingrijpen omdat hij of zij merkt dat de voorgelezen tekst niet overeenkomt met de gewenste informatie aanzienlijk kleiner dan bij de bekende werkwijze.
Door een tekst op te delen in tekstblokken, kan de omzetting naar digitale tekstdata 24 stapsgewijze gebeuren, waardoor het beschikbaar stellen van de digitale tekstdata voor de spraakgenerator gedeeltelijk parallel kan lopen met de optische karakterherkenning van andere tekstblokken. Aangezien de eerste tekstdata reeds beschikbaar is na de omzetting van het eerste tekstblok, in plaats van pas nadat alle tekstblokken zijn omgezet, is de reactietijd na het aanbieden van het document 1 veel korter.
Aangezien het principe van het doorsnijden van tekstblokken 4 door een aslijn 11 een perceptueel eenvoudig principe is, is het gebruik van een toestel 29 dat deze methode toepast heel eenvoudig, en is de aanleertijd voor het gebruik van zulk eén toestel heel kort.
Door de selectie van voor de spraakgenerator bestemdè tekstblokken uit te voeren louter op basis vän de positie van de beeldinformatie, is een ander aanduidingsmiddel zoals een muis, een vingerleen lichtpen overbodig.
Doordat de aslijn 11 opstaand is, is het mogelijk om een document 1 waarvan de tekstinformatie 3 zich uitstrekt in een lange kolom die niet over zijn ganse hoogte in één beeld kan worden opgenomen, stapsgewijze te converteren, door de bovenstaande methode meermaals uit te voeren, waarbij telkens het document in de hoogterichting wordt verschoven.
Doordat de selectie van tekstblokken 4 gebeurt op basis van het al dan niet doorsneden worden door een aslijn 11, behoudt de gebruiker enige controle over de selectie, aangezien hij deze selectie kan beïnvloeden door bijvoorbeeld het document 1 te verschuiven of de vergrotingsfactor van de camera 30 te veranderen, en aangezien de positie van de aslijn 11 onafhankelijk is van de beelddata, schuift de aslijn 11 niet mee. Op deze manier kan dè gebruiker als het ware een pre-selectie maken van de tekstblokken 4 op basis van de layout van het document 1, welke hij zelf kan herkennen ondanks het verminderde zicht, en kan hij de eigenlijke conversie van de tekstblokken 4 naar het audio-signaal 23 of naar spraak, welke tekst hij niet meer zelf kan lezen, overlaten aan het apparaat 29. Het behoud van deze controle is een aanzienlijk voordeel t.o.v. een vol-automatisch systeem.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding, wordt een eerste resp. tweede afstand d41, d61 en d42, d62 bepaald van de hoekpunten van de geselecteerde tekstblokken T4, T6 tot de aslijn 11, waarbij die hoekpunten worden gekozen die zich aan een eerste resp. tweede zijde van de aslijn 11 bevinden; en wordt voor elk geselecteerd testblok J4, T6 een. hoogte h4, h6 bepaald; en wordt een eerste resp. tweede gewogen gemiddelde afstand g1, g2 berekend van genoemde afstanden d41, d61 en d42, d62 tot de aslijn 11, waarbij de weegfactor voor elke afstand evenredig is met de hoogte h4, h6 van het tekstblok T4, T6 waartoe het hoekpunt behoort; en wordt een eerste resp. tweede grenslijn 12, 13 ingebracht in het gedigitaliseerde beeld 2, evenwijdig met de aslijn 11 aan de eerste resp. tweede zijde van de aslijn 11, op de eerste resp. tweede gewogen gemiddelde afstand g1, g2 tot de aslijn 11; en wordt van elk tekstblok dat niet doorsneden werd door de aslijn 11 èen eerste oppervlakte A51, A91, A101 bepaald die zich buiten de twee grenslijnen 12, 13 bevindt, en een tweede oppervlakte A52, A82, A102 bepaald die zich tussen de twee grenslijnen 12, 13 bevindt, en een percentage bepaald van de tweede oppervlakte tot de totale oppervlakte Van het tekstblok; en worden bij genoemd selecteren van de tekstblokken 4 de tekstblokken waarvan genoemd percentage groter is dan of gelijk aan een vooraf bepaald percentage aan de genoemde selectie van voor de spraakgenerator 7 bestemde tekstblokken 5 toegevoegd.
Om deze werkwijze uit te voeren omvat de verwerkingselectronica 42 onder meer afstandsbepalingsmiddelen (104), hoogtebepalingsmiddelen (105), rekenmiddelen (106), grenslijninbrengingsmiddelen (107), oppervlaktebepalingsmiddelen (108), welke bij voorkeur in software worden uitgevoerd op de CPU 45.
Zoals hierin gebruikt, wordt met "hoogte" een afmeting bedoeld van het tekstblok 4, bij voorkeur gemeten in een richting evenwijdig met de aslijn 11, bijvoorbeeld de afstand tussen de punten waar de aslijn het tekstblok doorsnijdt. Deze methode kan ook gebruikt worden voor tekstblokken die niet rechthoekig zijn. Fig 4C toont hoe de positie van de grenslijnen 12, 13 wordt berekend, aan de hand van een concreet voorbeeld. Aangezien in dit voorbeeld twee tekstblokken T4 en T6 werden doorsneden door de aslijn 11, wordt de gewogen gemiddelde afstand g1 en g2 berekend over twee tekstblokken als volgt: g1 = (d41 * h4 + d61 * h6)/ (h4 + h6) g2 = (d42 * h4 + d62 * h6) / (h4 + h6)
Vervolgens worden twee grenslijnen 12 en 13 ingebracht in het beeld 2 op een afstand van g1 en g2 tot de aslijn 11. Vervolgens wordt van de tekstblokken 4 die niet werden doorsneden door de aslijn, te weten T5, T8, T9 en T10 een eerste oppervlakte A51, A91, A101 bepaald die zich buiten de grenslijnen 12, 13 bevindt, en een tweede oppervlakte A52, A82, A102 bepaald die zich tussen de twee grenslijnen bevindt, en een percentage bepaald van de oppervlakte die zich tussen de grenslijnen bevindt. Voor T5 is dat A52/(A51+A52) = 20%, voor T8 is dat 100%, voor T9 is dat 0%, voor T10 is dat A102/(A101+A102) = 60%. Indien als het vooraf bepaald percentage bijvoorbeeld 100% was gekozen, dan zou alleen T8 aan de selectie worden toegevoegd. Indien als het vooraf bepaald percentage bijvoorbeeld 70% was gekozen, dan zou zowel T8 als T10 aan de selectie worden toegevoegd. Bij voorkeur wordt als vooraf bepaald percentage 100% gekozen, hetgeen erop neèrkomt dat alle tekstblokken 4 die zich volledig tussen de grenslijnen 12, 13 bevinden aan de selectie worden toegevoegd, maar andere percentages zijn eveneens mogelijk, bijvoorbeeld 90%, 80%, 70%, 60%, 50%.
In een variant van deze uitvoeringsvorm wordt een derde grenslijn 15 in het beeld 2 ingebracht, aan een eerste zijde van de aslijn 11, en evenwijdig met de aslijn, en op een afstand tot de aslijn gelijk aan de maximum afstand van de hoekpunten van de tekstblokken die doorsneden werden door de aslijn, welke hoekpunten liggen aan de eerste zijde van de aslijn. In het voorbeeld van hierboven zou de derde aslijn 15 op een afstand g3 = max(d41, d61) tot de aslijn en evenwijdig met de aslijn in het beeld ingebracht worden, en een vierde grenslijn 16 op een afstand g4 = max (d42, d62). En bij genoemd selecteren van de tekstblokken 4 zouden alle tekstblokken die zich tussen deze twee grenslijnen 15, 16 bevinden aan de eerste selectie van de tekstblokken worden toegevoegd. Dit wordt getoond in Fig 4E, waar de tekstblokken T12 en T14 aan de eerste selectie waarin enkel T13 was geselecteerd zouden worden toegevoegd. Deze variant is vooral handig in gevallen waar het wenselijk is dat alle tekst-informatie in het beeld 2 wordt gelezen, zoals het geval is voor de brief getoond in Fig 5A.
Bij voorkeur is de keuze welk algoritme gebruikt moet worden instelbaar door de gebruiker.
De uitvinding verschaft eveneens een werkwijze voor het converteren van tekstinformatie 3 uit een document 1, welke tekstinformatie is weergegeven in de vorm van tekstblokken 4, naar een audio-signaal 23, op een gelijkaardige manier als de conversie van tekstinformatie naar digitale tekstdata 24 bestemd voor een spraakgenerator, zoals hoger beschreven, maar waarbij deze digitale tekstdata 24 tevens wordt omgezet naar een audio-signaal 23. Met audio-signaal wordt zowel een analoog als eep digitaal audio-signaal bedoeld. De omzetting van digitale tekstdata 23 naar spraak door middel van spraaksynthese (Text Το Speech) is bekend uit de stand van de techniek, en kan bijvoorbeeld gebeuren door spraaksynthese software van de firma Nuance Communications, zoals weergegeven door component 7 in Fig 7A.
In een alternatieve uitvoeringsvorm van de werkwijze volgens de uitvinding is de vooraf bepaalde positie voor het inbrengen van de aslijn 11 instelbaar. Door de vooraf bepaalde positie waar de aslijn wordt ingébracht in het beeld 2 instelbaar te maken, is enige vorm van maatwerk mogelijk. Bij gebruik zou dan gekozen kunnen worden tussen één van de mogelijke uitvoeringen. Op deze manier kan optimaal rekening worden gehouden met de wensen of beperkingen van de gebruiker. Zo kan bijvoorbeeld een persoon die enkel uit het linkeroog ziet, de aslijn 11 instellen in een meer naar links gelegen positie in het beeld 2.
In een uitvoeringsvorm van de werkwijze volgens de uitvinding wordt een beeld van de aslijn 11 geprojecteerd op het document 1 dat zich in het gezichtsveld van de camera 30 bevindt. Door een beeld van de aslijnl 1 te projecteren op het document 1 kan de gebruiker goed zien waar de tekstblokken 4 liggen t.o.v. de aslijn, waardoor hij de positie van het document 1 in het gezichtsveld van de camera 30 goed kan sturen. De projectie kan bijvoorbeeld gebeuren door middel van een lichtstraal. Bij voorkeur worden ook de geselecteerde tekstblokken 5 op het document 1 geprojecteerd, zodat de gebruiker visuele feedback krijgt over welke tekstblokken zullen voorgelezen worden, nog voordat het voorlezen begonnen is, wat hem de gelegenheid geeft om eventueel het document anders te positioneren.
Om .deze werkwijze uit te voeren omvat het apparaat 42 onder meer projectiemiddelen 110 (niet getoond). Zulke projectiemiddelen zijn. bekend in de stand der techniek, en kunnen bijvoorbeeld een lichtstraal projecteren.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt uit het opgenomen en gedigitaliseerde beeld 2 een verwerkt beeld 26 gevormd dat wordt weergegeven op een beeldscherm 34. Bij het vormen van het verwerkte beeld 26 kunnen daarbij één of meerdere van de volgende elementen worden ingébracht: de aslijn 11, de herkende tekstblokken 4, de geselecteerde tekstblokken 5.
Om deze werkwijze uit te voeren omvat de verwerkingselectronica 42 onder meer beeldverwerkingsmiddelen 111, welke bijvoorbeeld in de FPGA kunnen worden uitgevoèrd als video-overlay. In het apparaat van Fig 6A worden daartoe de Coördinaten van de elementen die weergegeven moeten worden vanuit de CPU 45 aangeleverd aan dé FPGA 37.
Wanneer de inrichting 29 een beeldscherm 34 heeft, kan het beeld 2 van het document 1 getoond worden op het beeldscherm, eventueel na vergroting of verandering van de kleuren. Bij voorkeur wordt voor de vergroting zoveel mogelijk de optische zoom gebruikt van de camera 30, maar de vergroting kan ook gebeuren door beeldverwerking op het gedigitaliseerde beeld 2, volgens gekende schalings- en filtertechnieken. Om de leesbaarheid van de tekstinformatie op het beeldscherm 34 te vergroten kunnen bijvoorbeeld de kleuren geïnverteerd worden, of kan het beeld op het beeldscherm in grijswaarden worden weergegeven. In het verwerkte beeld 26 kan ook een beeld van de aslijn 11 worden ingebracht, waardoor een gebruiker op het beeldscherm 34 kan zien welke tekstblokken 4 doorsneden worden door de aslijn 11. Bij voorkeur wordt ook de ligging van de herkende tekstblokken 4 weergegeven op het beeldscherm. Bij voorkeur wordt ook de ligging van de geselecteerde tekstblokken 5 weergegeven op het beeldscherm. Op deze manier krijgt de gebruiker visuele feedback van welke tekstblokken zullen voorgelezen worden, nog voordat met het voorlezen gestart wordt. Wanneer de selectie niet overeenkomt met de wensen van de gebruiker, kan deze de selectie beïnvloeden door bijvoorbeeld de positje van het document 1 of de vergrotingsfactor van de camera 30 te veranderen, zoals hoger beschreven.
In een voorkeursuitvoeringsvorm van de werkwijze volgens de uitvinding wordt tijdens de omzetting van de digitale tekstdata 24 naar het audio-signaal 23 een voortgangsindicatie 20 bijgehouden die aangeeft welke digitale tekstdata 24 reeds is omgezet naar het audio-signaal 23; en wordt wanneer wordt vastgesteld dat de omzetting van de digitale tekstdata 24 naar het audio-signaal 23 gestopt is, een gedeelte van de laatst omgezette digitale tekstdata gebufferd in een geheugen 33 onder de vorm van stopdata 21; en wordt bij genoemd bepalen van de startpositie 22 nagegaan of stopdata 21 is gebufferd in het geheugen 33, en indien dat het geval is wordt de stopdata 21 gelezen uit het geheugen 33, waarna in de digitale tekstdata 24 een positie S wordt gezocht waarin de genoemde stopdata 21 wordt herkend volgens een vooraf bepaald overeenkomstcriterium, waarbij deze laatste positie S wordt gekozen als de startpositie 22 wanneer aan het overeenkomstcriterium is voldaan, en het begin van de digitale tekstdata wordt gekozen als de startpositie 22 wanneer niet aan het overeenkomstcriterium is voldaan of wanneer geen stopdata 21 was gebufferd in het geheugen 33.
Om deze werkwijze uit te voeren omvat de verwerkingselectronica 42 onder meer voortgangsindicatiemiddelen 112, detectiemiddelen 113, stopdatabepalingsmiddelen 114 welke bij voorkeur in software worden uitgevoerd op de CPU. In het apparaat van Fig 6A zijn de voortgangsindicatiemiddelen 112 vervat in de spraakgenerator component 7.
Door het bijhouden van genoemde voortgangsindicatie 20 is het mogelijk om de tekst die reeds werd omgezet naar het audio-signaal 23 te identificeren, en een gedeelte daarvan te bufferen in een geheugen 33 onder de vorm van stopdata 21, zodat deze stopdata op een later tijdstip kan teruggevonden worden in de (nieuwe) digitale tekstdata. Indien het document 1 bij het hervatten van het voorlezen niet verschoven is, dan wordt op deze manier feitelijk een pauze-functie geïmplementeerd. Indien het document wel verschoven was, en de stopdata wordt effectief teruggevonden, dan zal de inrichting effectief verder lezen waar het de vorige keer gestopt was. Aan de hand van de voortgangsindicatie 20 is het tevens mogelijk de woorden aan te duiden op het beeldscherm 34 op het moment dat ze worden voorgelezen, bijvoorbeeld door de kleur van het woord dat wordt voorgelezen te veranderen, of het woord te onderlijnen, of een kadertje rond het woord te trekken, of eender welke andere manier gekend bij de vakman.
Het bufferen van de stopdata wordt uitgevoerd wanneer het voorlezen stopt omdat het einde van de digitale tekstdata 23 is bereikt of omdat een stop-commando werd gegeven. Dit wordt getoond in Fig 5A, waar de gebruiker het voorlezen had gestopt nadat het woord "nunc" werd voorgelezen. In het voorbeeld van Fig 5A is de stopdata "s, arcu nibh soNicitudin nunc" 30 karakters lang, maar de vakman kan ook een andere stringlengte kiezen, bij voorkeur een lengte van 15-45 karakters, bij meer voorkeur een lengte van 20 - 40 karakters, bij het meeste voorkeur een lengte van 25-35 karakters. De uitvinder heeft vastgesteld dat een te korte stringlengte aanleiding geeft tot meer valsë positieven wanneer deze stopdata 21 later wordt gezocht in andere digitale tekstdata bijvoorbeeld genomen op een later tijdstip van hetzelfde document vat verschoven is in het gezichtsveld van de camera 30, en dat een fê lange stringlengte langer duurt om terug te vinden.
Fig 5B toont het beeld 2 van het document 1 nadat de gebruiker het document 1 naar boven heeft verschoven in het gezichtsveld van de camera 30, en nadat een nieuw start-commando is gegeven. Het flow-diagram van Fig 7B toont de stappen die dan uitgevoerd zullen worden. In stap 50 wordt een nieuw beeld genomen door een digitale camera, en wordt het beeld gedigitaliseerd, bijvoorbeeld door de digitale camera zelf, of door een video-ADC buiten de camera, zoals die aanwezig kan zijn in de camera-interface 45. In stap 51 worden tekstblokken 4 herkend en wordt de ligging van de tekstblokken 4 in het gedigitaliseerde beeld 2 bepaald. Deze stap kan bijvoorbeeld uitgevoerd worden door de OCR-component 8, meerbepaald door de tekstblokherkenningsmiddelen 101 die daar bijvoorbeeld deel van uitmaakt. In stap 52 worden de gewenste tekstblokken geselecteerd, volgens een methode zoals hoger beschreven, waarbij een aslijn 11 wordt ingébracht in het beeld, en de tekstblokken die worden doorsneden door de aslijn geselecteerd worden, waarbij de selectie van tekstblokken kan worden aangevuld met tekstblokken die liggen tussen de derde en vierde grenslijn 15, 16, of tekstblokken waarvan de oppervlakte voor minstens een vooraf bepaald gedeelte tussen de twee grenslijnen 12, 13 ligt, zoals hoger beschreven. In het voorbeeld van Fig 5B waren alle tekstblokken 4 reeds doorsneden door de aslijn 11. In stap 53 worden de geselecteerde tekstblokken 5 omgezet naar digitale, tekstdata 24, door middel van optische karakterherkenning (OCR). In een voorkeursuitvoeringsvorm van het apparaat 29 volgens de uitvinding wordt deze stap uitgevoerd door het sturen van informatie 82 met daarin een lijst van de geselecteerde tekstblokken 5 naar de OCR-component 8, welke via informatie 83 het resultaat van de karakterherkenning onder de vorm van digitale tekstdata 24 geeft. Dit kan bijvoorbeeld ASClI-tekst of Unicode tekst zijn. In stap 54 wordt de startpositie 22 bepaald vanaf waar het voorlezen in de digitale tekstdata moet beginnen. .
Fig 7C toont in détail hoe deze startpositie 22 wordt bepaald in een voorkeursuitvoeringsvorm van het apparaat 29 volgens de uitvinding. In stap 60 wordt bepaald of er stopdata 21 in het geheugen 33 aanwezig is. Indien dat niet het geval was, wordt verder gegaan met stap 66 waar het begin van de digitale tekstdata 24 wordt gekozen als startpositie 22. In het voorbeeld van Fig 5B is er wel stopdata 21 in het geheugen aanwezig, en wordt vervolgens stap 61 uitgevoerd, waar de stopdata wordt gelezen uit het geheugen, waarna in de digitale tekstdata 24 wordt gezocht hoe vaak de stopdata 21 voorkomt volgens een exacte gelijkheid van de karakterstring van bijvoorbeeld 30 karakters. Indien de stopdata exact één keer wordt teruggevonden op een positie S in de digitale tekstdata 24, dan wordt in stap 62 en 63 de positie S gekozen als de nieuwe startpositie 22 vanaf waar het voorlezen moet beginnen. Bij voorkeur echter wordt in de praktijk, indien mogelijk, gestart vanaf een positie die zich een vooraf bepaald aantal karakters, bijvoorbeeld 10-20 karakters, of een vooraf bepaald aantal woorden, bijvoorbeeld 3-5 woorden, vóór de positie S bevindt. Indien de positie S zich dicht bij het begin van de digitale tekstdata 24 bevindt, dan kan ook het begin van de digitale tekstdata als startpositie 22 gekozen worden. Indien er in stap 61 meerdere posities worden terug gevonden waarin de stopdata 21 exact wordt terug gevonden, dan wordt in dit voorbeeld van Fig 7C het begin van de digitale tekstdata als startpositie 22 gekozen. De vakman kan echter ook één van de teruggevonden posities kiezen als startpositie. Ten gevolge van ruis in het beeld kan het gebeuren dat sommige karakters van de tekstinformatie 3 in de digitale tekstdata 24; zijn weggevallen, of veranderd zijn in andere karakters, of dat er bepaalde karakters werden toegevoegd. Daarom wordt in stap 65, indien de stopdata 21 niet exact werd teruggevonden in de digitale tekstdata, gezocht naar de positie S die de beste benadering geeft van de stopdata in de digitale tekstdata 24. Bijvoorbeeld kan deze beste benadering worden gezocht aan de hand van de "Levenshtein afstand", gekend uit de stand der techniek, die een afwijking tussen twee karakterstrings berekent. In stap 64 wordt nagegaan of de afwijking kleiner is dan een vooraf bepaalde afstand A, bijvoorbeeld gekozen als zijnde 3, dan wordt besloten in stap 62 dat de stopdata toch werd teruggevonden, ondanks de geringe afwijking. Anders wordt besloten dat de stopdata niet werd teruggevonden, en wordt in stap 66 het begin van de digitale tekstdata gekozen als nieuwe startpositie. In het voorbeeld van Fig 5B kan de vooraf bepaalde waarde A bijvoorbeeld 3 zijn, wat 10% is van de stringlengte van de stopdata van 30 karakters, maar de vakman kan eender welke andere waarde kiezen, bijvoorbeeld 2 of 4 of 5, of eender welk ander getal.
Verwijzend naar Fig 7B wordt in stap 55 vervolgens de digitale tekstdata 24 omgezet naar spraak tot het einde van de digitale tekstdata is bereikt of totdat een stop-commando wordt gegeven, bijvoorbeeld via hét controlepaneel 41. Wanneer het voorlezen is gestopt, wordt in stap 56 wederom een gedeelte van de laatst voorgelezen tekst in het geheugen 33 gebufferd onder de vorm van stopdata 21. De detectie of de conversie naar spraak is gesopt kan bijvoorbeeld uitgevoerd worden aan de hand van de voortgangsindicatie 20 verschaft door de spraakgenerator 7 via informatie 85. Het verschaffen van deze informatie kan bijvoorbeeld gebeuren op interrupt-basis of op polling-basis.
Zoals getoond in Fig 5A en 5B is dit kenmerk van de uitvinding vooral handig wanneer bijvoorbeeld een A4 blad in twee of meerdere stappen moet gelezen worden. Dankbij dit kenmerk hoeft de gebruiker immers niet zelf te zoeken waar de laatst gelezen stopdata 22 zich precies bevindt, maar doet de inrichting dat in zijn plaats. Zoals getoond in Fig 5B is een heel ruwe verschuiving van het document voldoende, omdat de inrichting 29 zelf gaat zoeken in de tekstdata. Dit levert een niet te onderschatten gebruiksgemak en een aanzienlijke tijdswinst op voor de gebruiker.
Verwijzend naar Fig 6B kunnen in de FPGA bijvoorbeeld via video-overlay lijnstukken worden ingebracht in het verwerkte beeld 26. Daarmee kan de aslijn 11, de herkende testblokken 4 en de geselecteerde tekstblokken 5 worden weergegeven, of kan het woord dat op ,dat moment wordt voorgelezen worden aangeduid, bijvoorbeeld door omkadering. De coördinaten van deze lijnstukken worden bijvoorbeeld berekend door de programmatuur die wordt uitgevoerd op de CPU 45, en-die wordt doorgegeven aan de FGPA via de bus 87.
Fig 7A geeft schematisch weer hoe de CPU 45 bepaalde data uitwisselt tussen de FPGA, de OCR component 8 en de spraakgenerator component 7.
Via interface 87 kan volgende data van de FPGA aan de CPU gegeven worden: beelddata 2, of commando's afkomstig van het controlepaneel 41, en kan volgende informatie van de CPU aan de FPGA worden gegeven: de ligging van de aslijn 11, de ligging van de tekstblokken 4, de ligging van de geselecteerde tekstblokken 5, de voortgangsindicatie, de positie van het woord dat momenteel wordt gelezen, en uiteraard het audio-signaal 23, ook spraak genoemd.
Via de interface 80 kan de controle component van de programmatuur aan de OCR component beeld-data geven. Deze kan dezelfde zijn als het gedigitaliseerde beeld 2, maar kan bijvoorbeeld ook een beeld met enkel grijswaarden zijn. Op die manier kan bandbreedte en tijd worden gespaard, en het' vermogenverbruik worden gereduceerd. Via interface 81 kan de OCR-component aan de CPU tekstblok-informatie geven, bijvoorbeeld een lijst van herkende tekstblokken met hun coördinaten. Via interface 82 kan de CPU informatie over de geselecteerde tekstblokken geven aan de OCR, bijvoorbeeld door hun volgnummer in de lijst terug te sturen naar de OCR-component, of aan de hand van hun coördinaten. Via interface 83 kan de OCR component het OCR resultaat geven aan de CPU, bijvoorbeeld als ASCII of Unicode karakters.
Via interface 84 kan de CPU het OCR resultaat doorgeven aan de spraakgenerator component. Via interface 85 kan de spraakgenerator component voorgangsindicatie geven aan de CPU. Via interface 23 kan de spraakgenerator component audio-data doorgeven aan de CPU.
Bij voorkeur zijn de beeldverwerkingsmiddelen (111) geïmplementeerd in de FPGA.
De projectiemiddelen 110 (niet getoond) kunnen bijvoorbeeld een lichtbundel zijn.
Bij voorkeur omvat een apparaat volgens de uitvinding tevens verlichtingselementen 36 voor het verlichten van het document 1 dat zich bevindt in een gezichtsveld van de camera 30, en een luidspreker 35 voor het weergeven van het audio-signaal 23. Bij voorkeur zijn deze verlichtingselementen LEDs. Bij voorkeur wordt een beeldscherm 36 gebruikt dat één of meerdere luidsprekers 35 omvat, maar het is ook mogelijk om de luidspreker(s) rechtstreeks met de verwerkingselectronica 42 te verbinden, middels een aparte audio-uitgang. (niet getoond).

Claims (21)

1. Werkwijze voor het converteren van tekstinformatie (3) uit een document (1), welke tekstinformatie (3) is weergegeven in de vorm van tekstblokken (4), naar digitale tekstdata (24) bestemd voor een spraakgenerator (7), waarbij het document (1) zich in een gezichtsveld van een camera (30) bevindt, en waarbij de werkwijze de volgende stappen omvat: a) het nemen van een beeld van ten minste een gedeelte van het document (1) met genoemde tekstinformatie (3) door middel van de camera (30), en het digitaliseren van dat beeld; b) het herkennen van tekstblokken en het bepalen van een ligging van de herkende tekstblokken (4) in het gedigitaliseerde beeld (2); c) het selecteren van voor de spraakgenerator (7) bestemde tekstblokken (5) uit de herkende tekstblokken (4); d) het omzetten van tekstblokken (4) uit het gedigitaliseerde beeld (2) naar digitale tekstdata (24) door middel van optische karakterherkenning; gekenmerkt doordat - een opstaande aslijn (11) wordt ingebracht in een vooraf bepaalde positie in het gedigitaliseerde beeld (2), welke positie onafhankelijk is van de ligging van de herkende tekstblokken (4) en van de tekstuele inhoud van de herkende tekstblokken (4); - en bij het genoemd selecteren uit de herkende tekstblokken (4) die tekstblokken worden geselecteerd die door genoemde aslijn (11) worden doorsneden.
2. Werkwijze volgens conclusie 1, gekenmerkt doordat: - een eerste resp. tweede afstand (d41, d61), (d42, d62) wordt bepaald van de hoekpunten van de geselecteerde tekstblokken (T4, T6) tot de aslijn (11), waarbij die hoekpunten worden gekozen die zich aan een eerste resp. tweede zijde van de aslijn (11) bevinden; - en voor elk geselecteerd testblok (T4, T6) een hoogte (h4, h6) wordt bepaald; - en een eerste resp. tweede gewogen gemiddelde afstand (g1, g2) wordt berekend van genoemde afstanden (d41, d61), (d42, d62) tot de aslijn (11), waarbij de weegfactor voor elke afstand evenredig is met de hoogte (h4, h6) van het tekstblok (T4, T6) waartoe het hoekpunt behoort; - en een eerste resp. tweede grenslijn (12, 13) wordt ingebracht in het gedigitaliseerde beeld (2), evenwijdig met de aslijn (11) aan de eerste resp. tweede zijde van de aslijn (11), op de eerste resp. tweede gewogen gemiddelde afstand (g1, g2) tot de aslijn (11); - en van elk tekstblok (4) dat niet doorsneden werd door de aslijn (11) een eerste oppervlakte (A51, A91, A101) wordt bepaald die zich buiten de twee grenslijnen (12, 13) bevindt, en een tweede oppervlakte (A52, A82, A102) wordt bepaald die zich tussen de twee grenslijnen (12, 13) bevindt, en een percentage wordt bepaald van de tweede oppervlakte tot de totale oppervlakte van het tekstblok; - en bij genoemd selecteren van de tekstblokken (4) de tekstblokken waarvan genoemd percentage groter is dan of gelijk aan een vooraf bepaald percentage aan de genoemde selectie van voor de spraakgenerator (7) bestemde tekstblokken (5) worden toegevoegd.
3. Werkwijze voor het converteren van tekstinformatie (3) uit een document (1), welke tekstinformatie (3) is weergegeven in de vorm van tekstblokken (4), naar een audio-signaal (23), waarbij het document (1) zich in. een gezichtsveld van een camera (30) bevindt, en waarbij de werkwijze de volgende stappen omvat: a) het nemen van een beeld van ten minste een gedeelte van het document (1) met genoemde tekstinformatie (3) door middel van de camera (30), en het digitaliseren van dat beeld; b) het herkennen van tekstblokken en het bepalen van een ligging van de herkende tekstblokken (4) in het gedigitaliseerde beeld (2); c) het selecteren van naar het audio-signaal (23) te converteren tekstblokken (5) uit de herkende tekstblokken (4); d) het omzetten van tekstblokken (4) uit het gedigitaliseerde beeld (2) naar digitale tekstdata (24) door middel van optische karakterherkenning; e) het bepalen van een startpositie (22) in de digitale tekstdata (24), vanaf waar de conversie naar het audio-signaai (23) dient te beginnen; f) het omzetten van de digitale tekstdata (24) naar het audio-signaal (23) door middel van spraaksynthese; gekenmerkt doordat - een opstaande aslijn (11) wordt ingebracht in een vooraf bepaalde positie in het gedigitaliseerde beeld (2), welke positie onafhankelijk is van de ligging van de herkende tekstblokken (4) en van de tekstuele inhoud van de herkende tekstblokken (4); - en bij het genoemd selecteren uit de herkende tekstblokken (4) die tekstblokken worden geselecteerd die door genoemde aslijn (11) worden doorsneden; - en waarbij als startpositie (22) het begin van de digitale tekstdata (24) wordt gekozen.
4. Werkwijze volgens conclusie 3, gekenmerkt doordat: - een eerste resp. tweede afstand (d41, d61), (d42, d62) wordt bepaald van de hoekpunten van de geselecteerde tekstblokken (T4, T6) tot de aslijn (11), waarbij die hoekpunten worden gekozen die zich aan een eerste resp. tweede zijde van de aslijn (11) bevinden; - voor elk geselecteerd testblok (T4, T6) een hoogte (h4, h6) wordt bepaald; - een eerste resp. tweede gewogen gemiddelde afstand (g1, g2) wordt berekend van genoemde afstanden (d41, d61), (d42, d62) tot de aslijn (11), waarbij de weegfactor voor elke afstand evenredig is met de hoogte (h4, h6) van het tekstblok (T4, T6) waartoe het hoekpunt behoort; - een eerste resp. tweede grenslijn (12, 13) wordt ingebracht in het gedigitaliseerde beeld (2), evenwijdig met de aslijn (11) aan de eerste resp. tweede zijde van de aslijn (11), op de eerste resp. tweede gewogen gemiddelde afstand (g1, g2) tot de aslijn (11); - en van elk tekstblok dat niet doorsneden werd door de aslijn (11) een eerste oppervlakte (A51, A91, A101) wordt bepaald die zich buiten de twee grenslijnen (12, 13) bevindt, en een tweede oppervlakte (A52, A82, A102) wordt bepaald die zich tussen de twee grenslijnen (12, 13) bevindt, en een percentage wordt bepaald van de tweede oppervlakte tot de totale oppervlakte van het tekstblok; - en bij genoemd selecteren van de tekstblokken (4) de tekstblokken waarvan genoemd percentage groter is dan of gelijk aan een vooraf bepaald percentage aan de genoemde selectie van naar het audio-signaal (23) te converteren tekstblokken (5) worden toegevoegd.
5. Werkwijze volgens één der conclusies 1-4, gekenmerkt doordat een middelpunt (m) van het gedigitaliseerde beeld (2) wordt bepaald en doordat dit middelpunt (m) als vooraf bepaalde positie wordt gekozen voor het inbrengen van de aslijn (11).
6. Werkwijze volgens één der conclusies 1-4, gekenmerkt doordat de vooraf bepaalde positie voor het inbrengen van de aslijn (11) instelbaar is.
7. Werkwijze volgens één der conclusies 1-6, gekenmerkt doordat een beeld van de aslijn (11) wordt geprojecteerd op het document (1) dat zich in het gezichtsveld van de camera (30) bevindt.
8. Werkwijze volgens één der conclusies 1-7, gekenmerkt doordat uit het opgenomen en gedigitaliseerde beeld (2) een verwerkt beeld (26) wordt gevormd dat wordt weergegeven op een beeldscherm (34).
9. Werkwijze volgens conclusie 8, gekenmerkt doordat bij het vormen van het verwerkt beeld (26) één of meerdere van de volgende elementen worden ingebracht: de aslijn (11), de herkende tekstblokken (4), de geselecteerde tekstblokken (5).
10. Werkwijze volgens één der conclusies 3-4, gekenmerkt doordat: - tijdens de omzetting van de digitale tekstdata (24) naar het audio-signaal (23) een voortgangsindicatie (20) wordt bijgehouden die aangeeft tot waar de digitale tekstdata (24) reeds is omgezet naar het audio-signaal (23); - en wanneer wordt vastgesteld dat de omzetting van de digitale tekstdata (24) naar het audio-signaal (23) gestopt is, een gedeelte van de laatst omgezette digitale tekstdata (24) wordt gebufferd in een geheugen (33) onder de vorm van stopdata (21); - en bij genoemd bepalen van de startpositie (22) wordt nagegaan of stopdata (21) is gebufferd in het geheugen, en indien dat het geval is de stopdata (21) wordt gelezen uit het geheugen (33), waarna in de digitale tekstdata (24) een positie (S) wordt gezocht waarin de genoemde stopdata (21) wordt herkend volgens een vooraf bepaald overeenkomstcriterium, waarbij deze laatste positie (S) wordt gekozen als de startpositie (22) wanneer aan het overeenkomstcriterium is voldaan, en het begin van de digitale tekstdata (24) wordt gekozen als de startpositie (22) wanneer niet aan het overeenkomstcriterium is voldaan of wanneer geen stopdata (21) was gebufferd in het geheugen (33).
11. Apparaat (29) voor het converteren van tekstinformatie (3) uit een document (1), welke tekstinformatie (3) is weergegeven in de vorm van tekstblokken (4), naar digitale tekstdata (24) bestemd voor een spraakgenerator (7), waarbij het apparaat (29) volgende onderdelen omvat: a) een camera (30) voor het nemen van een beeld van ten minste een gedeelte van het document (1 ) met genoemde tekstinformatie (3); b) digitaliseringsmiddelen (45) voor het digitaliseren van het beeld genomen door de camera (30); c) tekstblokherkenningsmiddelen (101) voor het herkennen van tekstblokken (4) en voor het bepalen van een ligging van de herkende tekstblokken (4) in het gedigitaliseerde beeld (2); d) tekstblokselectiemiddelen (102) voor het selecteren van voor de spraakgenerator (7) bestemde tekstblokken (5) uit de herkende tekstblokken (4); e) karakterherkenningsmiddelen (8) voor het uitvoeren van optische karakterherkenning voor het omzetten van de geselecteerde tekstblokken (5) uit het gedigitaliseerde beeld (2) naar digitale tekstdata (24) bestemd voor een spraakgenerator (7); gekenmerkt doordat: - het apparaat tevens aslijninbrengingsmiddelen (103) omvat voor het inbrengen van éen opstaande aslijn (11) in een vooraf bepaalde positie in het gedigitaliseerde beeld (2), Welke positie onafhankelijk is van de ligging van de herkende tekstblokken (4) en van de tekstuele inhoud van de herkende tekstblokken (4); - ën waarbij de tekstblokselectiemiddelen (102) voorzien zijn om bij het genoemd selecteren uit de herkende tekstblokken (4) die tekstblokken te selecteren die door genoemde aslijn (11) worden doorsneden.
12. Apparaat (29) volgens conclusie 11, gekenmerkt doordat het apparaat tevens volgende onderdelen omvat: - afstandsbepalingsmiddelen (104) voor het bepalen van een eerste resp. tweede afstand (d41, d61),(d42, d62) van de hoekpunten van de geselecteerde tekstblokken (T4, T6) tot de aslijn (11), waarbij die hoekpunten worden gekozen die zich aan een eerste resp. tweede zijde van de aslijn (11 ) bevinden; . - hoogtebepalingsmiddelen (105) voor het bepalen van een hoogte (h4, h6) van de geselecteerd testblokken (T4, T6); - rekenmiddelen (106) voor het berekenen van een eerste resp. tweede gewogen gemiddelde afstand (g 1, g2) van genoemde afstanden (d41, d61), (d42, d62) tot de aslijn (11), waarbij de weegfactor voor elke afstand evenredig is met de hoogte (h4, h6) van het tekstblok (T4, T6) waartoe het hoekpunt behoort; - grenslijninbrengingsmiddelen (107) voor het inbrengen van een eerste resp. tweede grenslijn (12, 13) in het gedigitaliseerde beeld (2) evenwijdig aan de aslijn (11) aan de eerste resp. tweede zijde van de aslijn (11), op de eerste resp. tweede gewogen gemiddelde afstand (g1, g2) tot de aslijn O.1.); - oppervlaktebepalingsmiddelen (108) voor het bepalen voor ieder testblok (4) dat niet doorsneden werd door de aslijn (11) van een eerste oppervlakte (A51, A91, A101) die zich buiten de grenslijnen (12, 13) bevindt, en een tweede oppervlakte (A52, A82, A102) die zich tussen de twee grenslijnen (12, 13) bevindt; - en waarbij de rekenmiddelen (106) voorzien zijn om voor elk tekstblok (4) dat niet doorsneden werd door de aslijn (11) een percentage te bepalen van de tweede oppervlakte tot de totale oppervlakte van het tekstblok. - en waarbij de tekstblokselectiemiddelen (102) voorzien zijn om de tekstblokken waarvan genoemd percentage groter is dän of gelijk'aan een vooraf bepaald percentage toe te voegen aan genoemde selectie van voor de spraakgenerator bestemde tekstblokken (5).
13. Apparaat (29) voor het converteren van tekstinformatie (3) uit een document (1), welke tekstinformatie (3) is weergegeven in de vorm van tekstblokken (4), naar een audio-signaal (23), waarbij het apparaat volgende onderdelen omvat: a) een camera (30) voor het nemen van een beeld van ten minste een gedeelte van het document (1) met genoemde tekstinformatie (3); b) digitaliseringsmiddelen (45) voor het digitaliseren van het beeld genomen door de camera (30); c) tekstblokherkenningsmiddelen (101) voor het herkennen van tekstblokken (4) en voor het bepalen van een ligging van de herkende tekstblokken in het gedigitaliseerde beeld (2); d) tekstblokselectiemiddelen (102) voor het selecteren van naar het audio-signaal (23) te converteren tekstblokken uit de herkende tekstblokken (4); e) karakterherkenningsmiddelen (8) voor het uitvoeren van optische karakterherkenning voor het omzetten van de geselecteerde tekstblokken (5) uit het gedigitaliseerde beeld (2) naar digitale tekstdata (24): · f) startpositiebepalingsmiddelen (109) voor het bepalen van een startpositie (22) in de digitale tekstdata (24), vanaf waar de conversie naar het audio-signaal (23) dient te beginnen; g) spraakgenerator (7) voor het omzetten van de digitale tekstdata (24) naar het audio-signaal (23), te beginnen vanaf de startpositie (22); gekenmerkt doordat: - het apparaat (29) tevens aslijninbrengingsmiddelen (103) omvat voor het inbrengen van een opstaande aslijn (11) in een vooraf bepaalde positie in het gedigitaliseerde beeld (2), welke positie onafhankelijk is van de ligging van de herkende tekstblokken (4) en van de tekstuele inhoud van de herkende tekstblokken (4); - en waarbij de tekstblokselectiemiddelen (102) voorzien zijn om bij het genoemd selecteren uit de herkende tekstblokken (4) die tekstblokken te selecteren die door genoemde aslijn (11) worden doorsneden; - en waarbij de startpositiebepalingsmiddelen (109) voorzien zijn om het begin van de digitale tekstdata (24) te kiezen als startpositie (22).
14. Apparaat (29) volgens conclusie 13, gekenmerkt doordat het apparaat tevens volgende onderdelen omvat: - afstandsbepalingsmiddelen (104) voor het bepalen van een eerste resp. tweede afstand (d41, d61),(d42, d62) van de hoekpunten van de geselecteerde tekstblokken (T4, T6) tot de aslijn (11), waarbij die hoekpunten worden gekozen die zich aan een eerste resp. tweede zijde van de aslijn (11) bevinden; - hoogtebepalingsmiddelen (105) voor het bepalen van een hoogte (h4, h6) van de geselecteerd testblokken (14, T6); - Tekenmiddelen (106) voor het berekenen van een eerste resp. tweede gewogen gemiddelde afstand (g1, g2) van genoemde afstanden (d41, d61), (d42, d62) tot de aslijn (11), waarbij de weegfactor voor elke afstand evenredig is met de hoogte (h4, h6) van het tekstblok (T4, T6) waartoe het hoekpunt behoort; - grenslijninbrengingsmiddelen (107) voor het inbrengen van een eerste resp. tweede grenslijn (12, 13) in het gedigitaliseerde beeld (2) evenwijdig aan de aslijn (11) aan de eerste resp. tweede zijde van de aslijn (11), op de eerste resp. tweede gewogen gemiddelde afstand (g1, g2) tot de aslijn (11): - oppervlaktebepalingsmiddelen (108) voor het bepalen voor ieder tekstblok dat niet doorsneden werd door de aslijn (11) van een eerste oppervlakte (A51, A91, A101) die zich buiten de grenslijnen (12, 13) bevindt, en een tweede oppervlakte (A52, A82, A102) die zich tussen de grenslijnen (12, 13) bevindt; - en waarbij dê rekenmiddelen (106) voorzien zijn om voor elk tekstblok (4) dat niet doorsneden werd door de aslijn (11) een percentage te bepalen van de tweede oppervlakte tot de totale oppervlakte van het tekstblok. - en waarbij de tekstblokselectiemiddelen (102) voorzien zijn om de tekstblokken waarvan genoemd percentage groter is dan of gelijk aan een vooraf bepaald percentage toe te voegen aan genoemde selectie van naar het audio-signaal (23) te converteren tekstblokken (5).
15. Apparaat (29) volgens één der conclusies 11-14, gekenmerkt doordat een middelpunt (m) van het gedigitaliseerde beeld (2) wordt bepaald en doordat dit middelpunt (m) als vooraf bepaalde positie wordt gekozen voor het inbrengen van de aslijn (11).
16. Apparaat (29) volgens één der conclusies 11-14, gekenmerkt doordat de vooraf bepaalde positie voor het inbrengen van de aslijn (11) instelbaar is.
17. Apparaat (29) volgens één der conclusies 11-16, gekenmerkt doordat het apparaat projectiemjddelen (110) omvat voor het projecteren van een beeld van de aslijn (11) op het document (1) dat zich in het gezichtsveld van de camera (30) bevindt.
18. Apparaat (29) volgens één der conclusies 11-17, gekenmerkt doordat het apparaat beeldverwerkingsmiddelen (111) heeft voorzien om uit het opgenomen en gedigitaliseerde beeld (2) een verwerkt beeld (26) te vormen voor weergave van het verwerkte beeld (26) op een beeldscherm (34).
19. Apparaat (29) volgens conclusie 18, gekenmerkt doordat de beeldverwerkingsmiddelen (111) voorzien zijn om bij het vormen van het verwerkt beeld (26) één of meerdere van de volgende elementen in te brengen: de aslijn (11), de herkende tekstblokken (4), de geselecteerde tekstblokken (5).
20. Apparaat (29) volgens één der conclusies 13-14, gekenmerkt doordat - het apparaat voortgangsindicatiemiddelen (112) omvat voor het bijhouden tijdens de omzetting van de digitale tekstdata (24) naar het audio-signaal (23) van een voortgangsindicatie (20) die aangeeft tot waar de digitale tekstdata (24) reeds is omgezet naar het audio-signaal (23); - het apparaat detectiemiddelen (113) omvat voor het detecteren of de omzetting van de digitale tekstdata (24) naar het audio-signaal (23) gestopt is; - het apparaat (29) stopdatabepalingsmiddelen (114) omvat voor het bepalen van de laatst omgezette digitale tekstdata (24), en voor het bufferen van een gedeelte hiervan in een geheugen (33) onder de vorm van stopdata (21) wanneer de detectiemiddelen (113) hebben vastgesteld dat de omzetting van de digitale tekstdata (24) naar het audio-signaal (23) gestopt is; - genoemde startpositiebepalingsmiddelen (109) voorzien zijn om na te gaan bij genoemd bepalen van de startpositie (22) of stopdata (21) is gebufferd in het geheugen (33) en indien dat het geval is, de gebufferde stopdata (21) te. lezen uit het geheugen (33) en daarna in de digitale tekstdata (24) een positie (S) te zoeken waarin de genoemde stopdata (21) wordt herkend volgens een vooraf bepaald overeenkomstcriterium, en deze positie (S) te kiezen als startpositie (22) wanneer aan het overeenkomstcriterium is voldaan, en het begin van de digitale tekstdata (24) te kiezen als de startpositie (22) wanneer niet aan het overeenkomstcriterium is voldaan of wanneer geen stopdata (21) was gebufferd in het geheugen (33).
21. Apparaat (29) volgens conclusie 20, gekenmerkt doordat: - hef apparaat tevens verlichtingselementen (36) omvat voor het verlichten van het document (1) dat zich bevindt in een gezichtsveld van de camera (30); - het apparaat tevens een luidspreker (35) omvat voor het wéergeven van het audio-signaal (23).
BE2009/0544A 2009-09-04 2009-09-04 Voorleestoestel en werkwijze van voorlezen. BE1018568A3 (nl)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BE2009/0544A BE1018568A3 (nl) 2009-09-04 2009-09-04 Voorleestoestel en werkwijze van voorlezen.
EP10175319A EP2299387A1 (en) 2009-09-04 2010-09-03 Device and method for recognizing and reading text out loud

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BE2009/0544A BE1018568A3 (nl) 2009-09-04 2009-09-04 Voorleestoestel en werkwijze van voorlezen.
BE200900544 2009-09-04

Publications (1)

Publication Number Publication Date
BE1018568A3 true BE1018568A3 (nl) 2011-03-01

Family

ID=42126360

Family Applications (1)

Application Number Title Priority Date Filing Date
BE2009/0544A BE1018568A3 (nl) 2009-09-04 2009-09-04 Voorleestoestel en werkwijze van voorlezen.

Country Status (2)

Country Link
EP (1) EP2299387A1 (nl)
BE (1) BE1018568A3 (nl)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050349A (zh) * 2022-06-14 2022-09-13 抖音视界(北京)有限公司 文本转换音频的方法、装置、设备和介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012221808A1 (de) * 2012-11-28 2014-06-12 Wolfgang Baum Verfahren und Vorrichtung zum Einlesen und Ausgeben von übergroßen Dokumenten
CN109922247A (zh) * 2019-04-17 2019-06-21 浙江禾川科技股份有限公司 一种智能相机及一种图像处理方法
CN110363161B (zh) * 2019-07-18 2023-11-14 广东小天才科技有限公司 一种辅助阅读的方法及***
BE1030842B1 (nl) 2022-09-05 2024-04-02 Koba Vision Draagbaar voorleestoestel, voorleessysteem, en werkwijze van voorlezen en weergeven van een document met tekstinformatie

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980706A (en) * 1988-10-31 1990-12-25 Kabushiki Kaisha Toshiba Image processor with partial image size zooming and method of partial image processing
WO1992020033A1 (en) * 1991-04-24 1992-11-12 Michael Sussman Digital document magnifier
US6115482A (en) * 1996-02-13 2000-09-05 Ascent Technology, Inc. Voice-output reading system with gesture-based navigation
EP1081589A2 (en) * 1999-09-06 2001-03-07 Nokia Mobile Phones Ltd. User interface for text to speech conversion
US20050288932A1 (en) * 2004-04-02 2005-12-29 Kurzweil Raymond C Reducing processing latency in optical character recognition for portable reading machine
US20060006235A1 (en) * 2004-04-02 2006-01-12 Kurzweil Raymond C Directed reading mode for portable reading machine
WO2006042292A2 (en) * 2004-10-12 2006-04-20 Freedom Scientific, Inc. Reading alerts and skim-reading system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980706A (en) * 1988-10-31 1990-12-25 Kabushiki Kaisha Toshiba Image processor with partial image size zooming and method of partial image processing
WO1992020033A1 (en) * 1991-04-24 1992-11-12 Michael Sussman Digital document magnifier
US6115482A (en) * 1996-02-13 2000-09-05 Ascent Technology, Inc. Voice-output reading system with gesture-based navigation
EP1081589A2 (en) * 1999-09-06 2001-03-07 Nokia Mobile Phones Ltd. User interface for text to speech conversion
US20050288932A1 (en) * 2004-04-02 2005-12-29 Kurzweil Raymond C Reducing processing latency in optical character recognition for portable reading machine
US20060006235A1 (en) * 2004-04-02 2006-01-12 Kurzweil Raymond C Directed reading mode for portable reading machine
WO2006042292A2 (en) * 2004-10-12 2006-04-20 Freedom Scientific, Inc. Reading alerts and skim-reading system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOBA VISION: "KOBA Vision - Vocatex - De leesrevolutie voor slechtzienden", 4 November 2009 (2009-11-04), XP007913325, Retrieved from the Internet <URL:http://www.saarberg.info/brochures/nl/NL_Vocatex_NL.pdf> [retrieved on 20100602] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050349A (zh) * 2022-06-14 2022-09-13 抖音视界(北京)有限公司 文本转换音频的方法、装置、设备和介质
CN115050349B (zh) * 2022-06-14 2024-06-11 抖音视界有限公司 文本转换音频的方法、装置、设备和介质

Also Published As

Publication number Publication date
EP2299387A1 (en) 2011-03-23

Similar Documents

Publication Publication Date Title
US9165185B2 (en) Optical character recognition of text in an image according to a prioritized processing sequence
BE1018568A3 (nl) Voorleestoestel en werkwijze van voorlezen.
TWI291139B (en) Enhanced readability with flowed bitmaps
KR102381801B1 (ko) 핸드라이팅 입력을 가이드하는 시스템 및 방법
US20150205797A1 (en) Identifying a set of related visible content elements in a markup language document
WO2012086357A1 (ja) 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
NO324419B1 (no) Fremgangsmate og apparat for tekstbehandling
US20110280481A1 (en) User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
US11468120B2 (en) Aid for dyslexic readers
JPH10240220A (ja) 注釈表示機能を持つ情報処理機器
US7633654B2 (en) Camera, computer and projector for use in sensed image projection system for projecting the image of a projection target onto a screen, and image processing method
JP4868224B2 (ja) 追記情報処理方法、追記情報処理装置、およびプログラム
KR101543189B1 (ko) 보완대체의사소통 글자판
US5795048A (en) Over head projector apparatus and control method
US20150352879A1 (en) Electronic applaratus and method for assisting instrument playing
US9229911B1 (en) Detecting continuation of flow of a page
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
Kouroupetroglou Text signals and accessibility of educational documents
JP4741916B2 (ja) 画像処理装置、画像処理方法及び該方法を実行するための画像処理プログラムを格納したコンピュータ読み取り可能な記録媒体
JP6683925B2 (ja) 貼付装置、貼付方法及び貼付処理プログラム
BE1020477A5 (nl) Werkwijze en voorleestoestel voor navigatie door aanwijzing op het voor te lezen document.
Nazemi Non-visual representation of complex documents for use in digital talking books
JP2019113908A (ja) コンピュータプログラム
Gomez-Donoso et al. A SOFTWARE FOR IMPROVED ACCESSIBILITY OF VISUAL CONTENT IN CLASS
KR100486180B1 (ko) 컴퓨터에서 화면을 부분적으로 확대하는 방법 및 그기록매체