Powered by Guardian.co.ukMae'r erthygl hon yn dwyn y teitl “Sut y gallaf drosi fy nodiadau mewn llawysgrifen i mewn i ddogfennau Word?” Ysgrifennwyd gan Jack Schofield, am theguardian.com ar ddydd Iau 18 Rhagfyr 2014 16.19 UTC

Mae gen i lawer o padiau A4 o nodiadau mewn llawysgrifen, yr hoffwn i droi i mewn i ddogfennau Microsoft Word. Teipio nhw byddai pob yn cymryd amser hir iawn. Rydw i wedi sylwi bod Google yn gallu i ddarllen testun o luniau wedi gwella'n aruthrol yn y misoedd diwethaf. Ydych chi'n ymwybodol o offeryn gan Google neu unrhyw un arall sy'n gallu gwneud gwaith da o hyn, os gwelwch yn dda? Michael

Gelwir y syniad o drosi testun ysgrifenedig neu wedi'i argraffu i mewn i destun digidol yn gyffredinol OCR ar gyfer adnabod nodau gweledol, ac mae ganddo broblemau tebyg i adnabod llais. Hynny yw, os yw'r mewnbwn yn agos at perffaith, Gall yr allbwn hefyd fod yn agos i berffeithio.

Ond yn ymarferol, y mae'n gweithio orau wrth ymdrin â mewnbynnau cyfyngedig a / neu barthau cyfyngedig. Er enghraifft,, mae'n bosibl i adnabod enwau Saesneg ar gyfer rhifau ac enwau dinasoedd mawr y DU, yn enwedig os gallwch gael pobl i ysgrifennu pob llythyren yn ei flwch bach ei hun. Ni fyddai'r un meddalwedd yr arbenigedd parth i ymdopi â crwner Rwsieg eu hiaith oedd yn hoffi i gynnwys dyfyniadau Sansgrit yn ei autopsies llawysgrifen.

materion llawysgrifen

OCR yn gweithio orau gyda deunyddiau printiedig o ansawdd uchel ac yn waeth na dim gyda llawysgrifen, felly nid ydych yn dechrau o'r sefyllfa orau. Yn fy mhrofiad, gallwch ond ei gael adnabod llawysgrifen i'r gwaith yn ddigon da trwy wneud mewn amser real. Sy'n eich galluogi i hyfforddi meddalwedd i gydnabod eich cyfraniad, tra bod y feddalwedd hefyd yn hyfforddi i chi ysgrifennu cymeriadau mewn ffyrdd y gall deall. Rwyf wedi cael rhywfaint o lwyddiant gyda'r dull hwn, cychwyn fwy na degawd yn ôl gyda Microsoft OneNote (sydd hefyd yn gallu gofnodi eich llais yn cydamseru) rhedeg ar Windows XP Dabled Argraffiad, ac yn fwy diweddar gyda beiro digidol Livescribe Echo a MyScript meddalwedd. Fodd bynnag, hyn i gyd wedi mwy i'w wneud â strategaethau newydd bysellfwrdd na gyda OCR.

Mae'n Cytunir yn gyffredinol bod y rhaglenni OCR gorau ABBYY FineReader (£ 99) ac OmniPage arlliw yn 18 (£ 79.99) a Ultimate (£ 169.99), er nad yn addas ar gyfer adnabod llawysgrifen redol. Mae'r ddau gwmni yn cynnig fersiwn treial am ddim fel y gallwch brofi nhw cyn i chi tasgu allan. Mae hefyd SoftWriting CharacTell yn ($49.95), mae gan y cwmni yn dweud ar gyfer myfyrwyr sy'n cymryd nodiadau yn y dosbarth a gweithwyr proffesiynol sy'n cymryd nodiadau mewn cyfarfodydd. Ond mae hefyd yn dweud ei fod wedi'i gynllunio "am gydnabod llawysgrifen heb ei gysylltu a thestun wedi'i argraffu-beiriant" (eu pwyslais) felly ni fyddwn yn bet arno darllen eich nodiadau mewn llawysgrifen.

Fel y rhan fwyaf os nad yr holl raglenni yn y maes hwn, SoftWriting gael ei hyfforddi i adnabod eich llawysgrifen. Pan gaiff ei brosesu dogfen, bydd yn eich cyflwyno gyda geiriau nad yw'n cydnabod, fel y gallwch ddweud ei beth ydynt. Os oes gennych chi 250 eiriau ar dudalen a'r rhaglen yn wyrthiol yn cael 90% ohonynt yn gywir, Bydd yn rhaid i chi gywiro 25 geiriau.

Os ydych am roi cynnig ychydig dudalennau fel arbrawf, Yna, gallwch lawrlwytho FreeOCR ar gyfer Windows, er fod yn ofalus i beidio â gosod unrhyw Crapware y gellid eu cynnwys. FreeOCR yn seiliedig ar y peiriant a ddefnyddir yn eang Tesseract OCR, a ddatblygwyd yn wreiddiol gan Hewlett-Packard yn Lloegr yn y 1980au. gwneud HP ei ffynhonnell agored yn 2005, ac Google bellach yn cynnal y cod ffynhonnell.

Gallwch hefyd ddefnyddio FreeOCR lein trwy lwytho ffeiliau PDF i free-ocr.com. Google Docs a gwasanaethau amrywiol eraill hefyd yn defnyddio'r un peiriant Tesseract OCR.

wikipedia yn rhybuddio "y bydd cynnyrch Tesseract fydd o ansawdd gwael iawn os nad yw'r delweddau mewnbwn yn cael eu preprocessed i fod yn addas iddo: delweddau (yn enwedig screenshots) Rhaid ei raddio i fyny fel bod y testun x-uchder o leiaf 20 picsel, rhaid i unrhyw cylchdroi neu gogwydd yn cael eu cywiro, neu ni fydd unrhyw destun yn cael ei gydnabod, Rhaid i newidiadau isel-amledd yn disgleirdeb fod yn uchel-pasio hidlo, neu a fydd cyfnod binarization Tesseract yn dinistrio llawer o'r dudalen, a rhaid i ffiniau tywyll gael ei symud â llaw, neu byddant yn cael eu camddehongli fel cymeriadau. "

PDFs a sganwyr

Byddai eich nodiadau mewn llawysgrifen yn fwy defnyddiol mewn fformat Microsoft Word oherwydd gallech wneud llawer o bethau gyda nhw. Er enghraifft,, gallech newid y ffurfdeip, maint a bylchiad, gywiro a newid eich nodiadau, ychwanegu darluniau, ac yn y blaen. Ond oni bai fod gennych yn hynod daclus, llawysgrifen glir a chyson iawn, na fydd yn ôl pob tebyg yn bosibl. Yn lle hynny, yn meddwl am eu trosi i safon uchel, ffeiliau PDF sganio y gallwch storio ar yriant caled neu yn y cwmwl.

Gallwch fwydo ffeiliau PDF hyn i feddalwedd OCR a gobeithio y bydd yn adnabod digon o eiriau i wneud eich nodiadau chwiliadwy. Os nad yw, mae'n debyg y bydd rhaid i chi dagio eu llaw. naill ffordd neu'r llall, os bydd rhywun yn dod i fyny gyda rhaglen OCR sy'n gallu darllen eich llawysgrifen - nad yn amhosibl, er fy mod eisoes wedi aros 30 mlynedd ar gyfer un - byddwch yn barod gyda ffeiliau PDF miniog, yn hytrach na rhai gwreiddiol cyrlio lle mae'r papur wedi oed ac mae'r inc wedi pylu.

Wrth gwrs, os ydych yn mynd i sganio eich nodiadau, yna mae'n rhaid i chi eisoes â sganiwr, neu fod yn barod i brynu un. A rhad Epson neu Canon Dylai sganiwr gwastad-wely yn rhoi canlyniadau da, er ei bod yn cymryd llawer o amser i sganio llawer o dudalennau. Os ydych yn bwriadu gwneud llawer o sganio, ystyried model dalen-bwydo fel yr Brother ADS-2100 (o £ 222). Gallwch hefyd gael sganwyr sy'n cynnwys OCR, fel Fujitsu ScanSnap iX500 Duplex (o £ 352), sy'n sganio y ddwy ochr y papur ar yr un pryd. (meddalwedd OCR y sganiwr fel arfer yn rhedeg ar eich cyfrifiadur.)

gwasanaethau sganio

Os oes rhaid i chi brynu sganiwr gweddus a meddalwedd OCR o ansawdd da ar gyfer efallai prosiect unwaith ac am byth, adiwch y gost a'r rannu gan y nifer o dudalennau o nodiadau i ddod o hyd i'r gost fesul dudalen. Mae'n swydd ddiflas, felly efallai y dylech ychwanegu cost eich amser. Efallai y bydd y canlyniad yn eich annog i roi'r gorau i'r holl syniad, neu ddechrau chwilio am gwmni i wneud hynny ar eich.

Mae'r rhan fwyaf o'r cwmnïau sy'n darparu gwasanaethau sganio darparu ar gyfer busnesau sydd angen i glirio i ffwrdd symiau mawr o gofnodion papur. Fodd bynnag, mae rhai yn darparu ar gyfer cyfaint isel a defnyddwyr cartref. Un enghraifft yn seiliedig-Rhydychen Geeks sganio, sy'n codi 25c y dudalen ar gyfer dogfennau hyd at maint A3. (Un dudalen yn golygu un ochr o dudalen.) Gallant wneud OCR ("Cipio Data Testunol") hefyd. Yn ddelfrydol, dod o hyd i gwmni lleol da lle gallwch alw heibio oddi ar eich nodiadau yn ddiogel ac yn casglu iddynt wedyn.

Mae'n llwybr costus os oes gennych lawer o bapur: gallai gostio £ 3,000 i sganio cynnwys cabinet ffeilio pedwar-drôr. Ond os mai dim ond 100 i 500 tudalen o nodiadau i sganio, gallai fod yn y dewis gorau.

guardian.co.uk © Guardian Newyddion & Media Limited 2010

Cyhoeddwyd drwy'r Guardian News Feed plugin ar gyfer WordPress.

29086 0