Keyrt guardian.co.ukÞessi grein sem heitir “Hvernig get ég umbreyta handskrifuðum athugasemdum mínum í Word skjölum?” var skrifuð af Jack Schofield, fyrir theguardian.com fimmtudaginn 18. desember 2014 16.19 UTC

Ég hef margar A4 pads af handskrifuðum athugasemdum, sem ég vildi eins og til umbreyta í Microsoft Word skjöl. Að slá þá alla í myndi taka mjög langan tíma. Ég hef tekið eftir því að geta Google til að lesa texta af myndum hefur batnað til muna á undanförnum mánuðum. Ertu meðvituð um tól frá Google eða einhver annar sem getur gert gott starf við þetta, vinsamlegast? Michael

Hugmyndin um að breyta skrifað eða prentað texta í stafrænu texta er almennt kallað OCR fyrir OCR, og það hefur svipuð vandamál að ræðu viðurkenningu. Það er að segja, ef inntak er nálægt að fullkomna, framleiðsla getur einnig verið nálægt að fullkomna.

En í reynd, það virkar best þegar að takast á við lokaða inntak og / eða takmarkaða lén. Til dæmis, það er hægt að viðurkenna ensku nöfn fyrir tölur og nöfn helstu UK borgum, sérstaklega ef þú getur fengið fólk til að skrifa hvert bréf í eigin litla kassa sínum. The sami hugbúnaður myndi ekki hafa lén þekkingu til að takast á við rússneska er töluð coroner sem hafði unun að fela sanskrít tilvitnanir í handskrifað skýrslna hans.

handskrift mál

OCR virkar best með hár-gæði prentuðu efni og versta af öllu með rithönd, svo þú ert ekki að byrja frá bestu stöðu. Í minn reynsla, þú getur aðeins fengið handskrift að vinna nógu vel með því að gera það í rauntíma. Sem gerir þér kleift að þjálfa hugbúnað til að viðurkenna inntakið, en hugbúnaður þjálfar einnig þér að skrifa stafi á þann hátt að það er hægt að skilja. Ég hef haft nokkrum árangri með þessari nálgun, byrja meira en áratug við Microsoft OneNote (sem getur einnig tekið röddina í sync) hlaupandi á Gluggakista XP Tablet Edition, og nú nýverið með Livescribe Echo stafræna pennanum og MyScript hugbúnaður. Hins, allt þetta hefur meira að gera með hljómborð skipti aðferðum en með OCR.

Það er almennt sammála um að bestu OCR forrit eru ABBYY FineReader (£ 99) og Litbrigði er Omnipage 18 (£ 79.99) og Ultimate (£ 169.99), þó hvorki er hentugur fyrir tengiskrift rithandarstillingin. Bæði fyrirtækin bjóða upp á ókeypis prufa útgáfa svo þú getur prófað þá áður en þú skvetta út. Það er líka CharacTell er SoftWriting ($49.95), sem félagið segir er fyrir nemendur að taka minnispunkta í bekknum og sérfræðinga taka minnispunkta á fundum. En það segir líka að það er hannað "til að viðurkenna non-tengdur rithönd og vél prentuð texta" (áhersla þeirra) svo ég myndi ekki veðja á það að lesa handskrifað minnismiða.

Eins og flestum ef ekki öllum forritum á þessu sviði, SoftWriting hefur að vera þjálfaðir í að þekkja rithönd þína. Þegar það er í vinnslu skjal, það mun kynna þér með orðum það er ekki viðurkenna, þannig að þú getur sagt það hvað þeir eru. Ef þú hefur 250 orð á síðunni og forritið kraftaverk gerist 90% af þeim rétt, þú verður samt að leiðrétta 25 orð.

Ef þú vilt reyna nokkrar síður sem tilraun, þá er hægt að sækja FreeOCR fyrir Windows, þó vera varkár ekki að setja allir crapware sem kunna að vera innifaldar. FreeOCR er byggt á víða notað Tesseract OCR vél, sem var upphaflega þróað af Hewlett-Packard í Englandi 1980. HP gerði það opinn uppspretta í 2005, og Google Nú heldur Kóðinn.

Þú getur líka notað FreeOCR netinu með því að senda PDF skrár til free-ocr.com. Google Docs og ýmis önnur þjónusta einnig nota sömu Tesseract OCR vél.

Wikipedia varar að "framleiðsla Tesseract verður mjög lélegar ef inntak myndir eru ekki preprocessed að henta henni: myndir (sérstaklega skjámyndir) verður minnkaðar upp þannig að textinn x-hæð er amk 20 pixlar, allir snúningur eða Skekkja verður að leiðrétta eða enginn texti verður viðurkennd, lág-tíðni breytingar á birtustigi verður hár umferð síað, eða binarization stigi Tesseract mun eyða miklu af síðunni, og dökk landamæri verður handvirkt fjarlægja, eða þeir vilja að mistúlka sem stafi. "

PDFs og skannar

handskrifuðum athugasemdum þínum væri meira gagni í Microsoft Word-sniði vegna þess að þú gætir gert fullt af hlutum með þeim. Til dæmis, þú gætir breytt leturgerð, stærð og línubil, leiðrétta og breyta minnismiða, bæta myndskreytingar, og svo framvegis. En ef þú hefur mjög snyrtilegur, skýr og mjög samkvæmur rithönd, sem líklega mun ekki vera hægt. Þess í stað, hugsa um að breyta þeim til hár-gæði, skönnuð PDF skrár sem þú getur geymt á harða diskinum eða í skýinu.

Þú getur fæða þessar PDF skrár til OCR hugbúnaði og vona að það muni viðurkenna nóg orð til að gera athugasemdir þínar leit. Ef ekki, þú munt sennilega þurfa að merkja þá með höndunum. Hvort heldur sem er, ef einhver er að koma upp með OCR forrit sem getur lesið rithönd þína - ekki ómögulegt, þó að ég hef þegar beðið 30 ár fyrir einn - þú verður að vera tilbúinn með beittum PDF skrár, frekar en krulla frumrit þar sem pappír hefur aldrinum og blekið hefur dofna.

Auðvitað, ef þú ert að fara að skanna minnismiða þá verður þú nú þegar hafa skanni, eða vera tilbúnir að kaupa einn. A ódýr Epson eða Canon íbúð-rúm skanni ætti að gefa góðar niðurstöður, þó það er tímafrekt að skanna fullt af síðum. Ef þú ætlar að gera a einhver fjöldi af skönnun, íhuga lak-fed líkan líkt og Brother ADS-2100 (frá £ 222). Þú getur líka fengið skanni sem innihalda OCR, eins og Fujitsu ScanSnap iX500 Duplex (frá £ 352), sem skannar báðar hliðar á pappír í einu. (The skanni er OCR hugbúnaður keyrir venjulega á tölvunni þinni.)

skönnun þjónusta

Ef þú þarft að kaupa ágætis skanni og kannski góða OCR hugbúnaður fyrir a einn-burt verkefni, bæta upp kostnað og skipta því með fjölda síðna seðla til að finna kostnað á hverri síðu. Það er leiðinlegt starf, svo kannski ættir þú að bæta kostnað af tíma þínum. Niðurstaðan gæti hvetja þig til að yfirgefa allt hugmynd, eða byrja að leita að fyrirtæki til að gera það fyrir þig.

Flest þeirra fyrirtækja sem veita skönnun þjónustu koma til móts við fyrirtæki sem þurfa að hreinsa burt mikið magn af gögnum pappír. Hins, sumir koma til móts við lágmark-bindi og heimili notandi. Eitt dæmi er Oxford-undirstaða skönnun Geeks, sem gjöldin 25p á síðu fyrir skjöl allt að A3 stærð. (Einn síðu merkir eina hlið á síðunni.) Þeir geta gert textagreiningu ("Texta Data Capture") einnig. helst, finna góða staðbundin fyrirtæki þar sem þú getur falla burt minnispunkta tryggilega og safna þeim síðan.

It’s an expensive route if you have lots of paper: it could cost £3,000 to scan the contents of a four-drawer filing cabinet. But if you only have 100 að 500 pages of notes to scan, it could be the best option.

guardian.co.uk © Guardian News & Media Limited 2010

Útgefið gegnum það Guardian News Feed tappi fyrir WordPress.

28953 0