Powered by Guardian.co.ukOvaj članak pod naslovom “Kako mogu pretvoriti moj rukom pisane bilješke u Word dokumente?” napisao je Jack Schofield, za theguardian.com u četvrtak 18. decembar 2014 16.19 UTC

Imam puno A4 jastučiće rukom pisane bilješke, što bih pretvoriti u Microsoft Word dokumenata. Da biste ih tip sve u će biti potrebno jako dugo. Primijetio sam da Google je sposobnost da čita tekst iz slike je znatno poboljšana u posljednjih nekoliko mjeseci. Da li znate za alat iz Google ili bilo koga drugog koji može napraviti dobar posao od ovog, molim vas? Majkl

Ideja pretvaranja pisanog ili štampanog teksta u digitalni tekst se obično zove OCR za optičko prepoznavanje znakova, i ima slične probleme na prepoznavanje govora. To će reći, Ako je ulaz blizu savršenih, izlaz može biti blizu usavrši.

Međutim, u praksi, to najbolje radi kada se radi o ograničenom ulaza i / ili ograničena domena. Na primjer, to je moguće prepoznati engleska imena za brojeve i imena velikih britanskih gradova, naročito ako možete dobiti ljude da pišu svako slovo u vlastitu malu kutiju. Isti softver ne bi imali stručnost domenu da se nosi sa mrtvozornik ruskog govornog područja koji je volio uključiti sanskritu citate u njegovom rukom pisane obdukcije.

rukopis pitanja

OCR najbolje radi sa kvalitetnim štampane materijale i najgore od svega sa rukopis, tako da ne počevši od najboljih položaja. U mom iskustvu, možete dobiti samo prepoznavanje rukopisa na posao dovoljno dobro radeći to u realnom vremenu. To vam omogućava da trenira softver za prepoznavanje unosa, dok je softver koji također trenira pisati slova na način da se može shvatiti. Imao sam neke uspjeh sa ovim pristupom, počevši prije više od deset godina sa Microsoft OneNote (koji može snimiti svoj glas u sync) radi na Windows XP Tablet Edition, i još nedavno sa Livescribe Echo digitalnom olovkom i MyScript softver. Međutim, sve to ima više veze sa zamjenu tipkovnice strategijama nego sa OCR.

To je uglavnom složili da je najbolji program OCR su ABBYY FineReader (£ 99) i Nuance OmniPage 18 (£ 79.99) i Ultimate (£ 169.99), iako niti je pogodan za prepoznavanje kurzivom rukopisa. Obje kompanije nude besplatne probne verzije tako da ih možete testirati prije nego što splash out. Tu je i CharacTell je SoftWriting ($49.95), koji kompanija tvrdi da je za studente koji bilješke u klasi i profesionalaca koji bilješke na sastancima. Ali, isto tako kaže da je dizajniran "za prepoznavanje ne-povezan rukopisa i mašina-štampani tekst" (njihov naglasak) tako da ne bih se kladio na to čitanje rukom pisane zabilješke.

Kao i većina, ako ne i sve programe u ovoj oblasti, SoftWriting mora biti obučeni da prepoznaju svoj rukopis. Kada se obradi dokument, to će vam predstaviti riječima to ne priznaje, tako da možete reći da ono što su. Ako imate 250 riječi na stranici i program čudesno dobiva 90% od njih u pravu, i dalje ćete morati ispraviti 25 riječi.

Ako želite da isprobate nekoliko stranica kao eksperiment, onda možete preuzeti FreeOCR za Windows, iako biti oprezni da ne instalirate bilo crapware koji mogu biti uključeni. FreeOCR se zasniva na širokoj upotrebi Tesseract OCR engine, koji je prvobitno razvijen od strane Hewlett-Packard u Engleskoj u 1980. HP je to open source u 2005, i Google sada održava izvorni kod.

Također možete koristiti FreeOCR online od upload PDF datoteke u free-ocr.com. Google Docs i razne druge usluge također koriste isti Tesseract OCR engine.

Wikipedia upozorava da je "izlaz Tesseract će biti vrlo loše kvalitete, ako je ulazni slike nisu preprocessed da to odgovara: Slike (posebno screenshots) mora biti umanjena gore tako da je tekst x-visina iznosi najmanje 20 piksela, bilo rotacije ili iskrivljenja mora biti ispravljena ili ne tekst će biti prepoznat, niskofrekventnih promjene svjetline mora biti visoko-pass filtrirane, ili faza binarization Tesseract će uništiti mnogo stranice, i tamna granica mora ručno ukloniti, ili će biti pogrešno tumači kao znakove. "

PDF-ove i skeneri

Vaše rukom pisane bilješke bi bilo korisno u Microsoft Word formatu jer ste mogli učiniti mnogo stvari s njima. Na primjer, možeš promijeniti font, veličine i razmak, ispraviti i dopuniti svoje bilješke, dodati ilustracije, i tako dalje. Ali, osim ako imate izuzetno uredan, jasan i vrlo konzistentan rukopis, da vjerojatno neće biti moguće. Umjesto toga, misle o njima pretvaranje u visoko-kvalitetne, skeniranih PDF datoteke koje možete pohraniti na hard disk ili u oblaku.

Možete hraniti ove PDF datoteke u OCR softver i nadam se da će prepoznati dovoljno riječi da bi vaš bilješke pretraživati. Ako ne, ćete tada morati da ih označiti ručno. U svakom slučaju, ako neko dođe sa OCR program koji može pročitati vaš rukopis - ne i nemoguće, iako sam već čekao 30 godine za jednog - da ćete biti spremni s oštrim PDF datoteka, a ne savijajući originala, gdje je rad starosti i mastilo je nestao.

Naravno, Ako će skenirati svoje bilješke onda morate već imate skener, ili biti spremni da kupite. Jeftina Epson ili kanon flat-bed skener treba dati dobre rezultate, iako je vremena za skeniranje mnogo stranica. Ako namjeravate učiniti mnogo skeniranja, razmotriti model tabačna poput Brother ADS-2100 (od £ 222). Također možete dobiti skenere koji uključuju OCR, kao što su Fujitsu ScanSnap iX500 Duplex (od £ 352), koji skenira obje strane papira odjednom. (OCR softver skenera obično radi na računaru.)

usluge skeniranja

Ako imate kupiti pristojan skener i možda kvalitetno OCR softver za jedan-off projekt, saberete troškove i podijeliti ga broj stranica nota da trošak po stranici. To je dosadan posao, pa možda treba dodati troškove vašeg vremena. Rezultat može zatražiti da napusti cijelu ideju, ili početi u potrazi za kompaniju da to učiniti za vas.

Većina kompanija koje pružaju usluge skeniranja razonoditi za poslovne subjekte koji treba da raščisti velike količine papira zapisa. Međutim, neki razonoditi za niske volumena i kućne korisnike. Jedan od primjera je zasnovan na Oxford skeniranje Geeks, koja tereti 25p po stranica za dokumente do A3 formata. (Jedna strana znači jednoj strani stranice.) Oni mogu učiniti OCR ("Tekstualni Data Capture") kao. idealno, naći dobar lokalne kompanije gdje možete ostaviti svoje bilješke sigurno i nakon toga prikuplja ih.

To je skup ruta ako imate puno papira: moglo koštati £ 3.000 za skeniranje sadržaja četiri-ladici za kartoteke. Ali, ako imate samo 100 u 500 stranice nota za skeniranje, to bi mogla biti najbolja opcija.

guardian.co.uk © Guardian News & Media Limited 2010

Objavljeno preko Guardian News Feed plugin za WordPress.

29070 0