Працуе на Guardian.co.ukГэты артыкул пад назвай “Як я магу пераўтварыць мае рукапісныя нататкі ў дакументы Word,?” была напісана Джэк Шофилд, для theguardian.com на чацвер 18 сьнежня 2014 16.19 Універсальны Глабальныя ЧАС

У мяне ёсць шмат падушачкі А4 рукапісныя нататкі, які я хацеў бы пераўтварыць у дакументы Microsoft Word. Для таго, каб увесці іх усё зойме вельмі шмат часу. Я заўважыў, што здольнасць кампаніі Google, каб чытаць тэкст з фотаздымкамі значна палепшылася ў апошнія месяцы. Ці ведаеце вы інструмент ад Google ці каму-небудзь яшчэ, што можа зрабіць добрую працу гэтага, Калі ласка? Майкл

Ідэя пераўтварэння пісьмовага або друкаванага тэксту ў тэкст, які звычайна называюць OCR для аптычнага распазнавання сімвалаў, і мае аналагічныя праблемы распазнання прамовы. гэта значыць, калі ўваход блізкі да дасканаласці, выхад таксама можа быць блізкая да дасканаласці.

Але на практыцы, яна працуе лепш за ўсё, калі справа з абмежаванымі ўваходамі і / або абмежаваных абласцей. Напрыклад, гэта можна прызнаць ангельскія назвы для лікаў і назвы буйных гарадоў Вялікабрытаніі, асабліва калі вы можаце прымусіць людзей пісаць кожную літару ў сваім уласным маленькім акне. Тое ж самае праграмнае забеспячэнне не будзе мець экспертызу дамена, каб справіцца з рускамоўнай каранера, які любіў ўключаць санскрыцкія цытаты ў яго ўласнаручным выкрыццяў.

почырк пытанні

OCR лепш за ўсё працуе з высакаякаснымі друкаванымі матэрыяламі і горш за ўсё з почыркам, так што вы не пачынаючы з лепшай пазіцыі. На маю вопыту, вы можаце атрымаць толькі распазнанне рукапіснага ўводу, каб працаваць дастаткова добра, робячы гэта ў рэжыме рэальнага часу. Гэта дазваляе навучыць праграму распазнаваць уведзеныя дадзеныя, у той час як праграмнае забеспячэнне таксама навучае вас пісаць сімвалы спосабамі, якія ён можа зразумець. Я меў некаторы поспех з гэтым падыходам, пачынаючы больш чым дзесяць гадоў таму з Microsoft OneNote (які таксама можа запісаць свой голас у сінхранізацыі) працуе на Windows XP Tablet Edition, і зусім нядаўна з дапамогай лічбавага пяра Livescribe Echo і MyScript праграмнае забеспячэнне. Аднак, усё гэта мае больш агульнага са стратэгіямі замены клавіятуры, чым з OCR.

Гэта ў цэлым пагадзіліся, што лепшыя праграмы OCR з'яўляюцца ABBYY FineReader (£ 99) і Nuance OmniPage ў 18 (£ 79.99) і канчатковай (£ 169.99), хоць ні адзін не падыходзіць для распазнання пропіссю. Абедзве кампаніі прапануюць бясплатныя пробныя версіі, так што вы можаце праверыць іх, перш чым выплюхнуць. Там таксама CharacTell ў SoftWriting ($49.95), якую кампанія кажа, што для студэнтаў нататак у класе і прафесіяналаў нататак у нарадах. Але ён таксама кажа, што ён прызначаны "для прызнання няскладныя почырк і машынна-друкаванага тэксту" (іх увагу) так што я б не стаў ставіць на ім чытаць вашыя рукапісныя нататкі.

Як і большасць, калі не ўсе праграмы ў гэтай галіне, SoftWriting павінен быць навучаны распазнаваць рукапісны тэкст. Калі ён апрацоўвае дакумент, ён падорыць вам са словамі ён не распазнае, так што вы можаце сказаць яму, што яны. Калі ў вас ёсць 250 словы на старонцы і праграма цудоўным чынам атрымлівае 90% з іх прама, вам усё роўна прыйдзецца выпраўляць 25 словы.

Калі вы хочаце паспрабаваць некалькі старонак у якасці эксперыменту, то вы можаце спампаваць FreeOCR для АС Windows, хоць будзьце асцярожныя, каб не ўсталёўваць якія-небудзь crapware, якія могуць быць уключаны. FreeOCR заснаваны на шырока выкарыстоўваным рухавіку Tesseract OCR, якая першапачаткова была распрацавана кампаніяй Hewlett-Packard у Англіі ў 1980-я гады. HP зрабіў гэта з адкрытым зыходным кодам у 2005, і Google Зараз падтрымлівае зыходны код.

Вы можаце таксама выкарыстоўваць FreeOCR онлайн шляхам загрузкі PDF-файлаў free-ocr.com. Google Docs і розныя іншыя паслугі таксама выкарыстоўваюць адзін і той жа рухавік Tesseract OCR.

Вікіпедыя папярэджвае што "выхад Тессеракта будзе вельмі нізкай якасці, калі ўваходныя малюнка не препроцессором, каб задаволіць яго: малюнкаў (асабліва скрыншоты) павінны быць пашыраныя такім чынам, каб тэкст х вышыня, па меншай меры 20 пікселяў, любы кручэнне або перакосу павінны быць выпраўленыя або тэкст не будзе прызнаны, змены нізкачашчынныя яркасці павінна быць высокіх частот фільтруецца, ці этап бинаризация Тессеракта разбурыць вялікую частку старонкі, і цёмныя межы павінны быць выдаленыя ўручную, або яны будуць няслушна вытлумачаны як сімвалы ".

PDF-файлы і сканеры

Рукапісныя нататкі было б больш карысным у фармаце Microsoft Word, таму што вы маглі б зрабіць шмат рэчаў з імі. Напрыклад, Вы можаце змяніць шрыфт, памер і адлегласць паміж імі, выправіць і змяніць свае нататкі, дадаць ілюстрацыі, і гэтак далей. Але калі ў вас няма вельмі акуратна, ясна і вельмі паслядоўны почырк, што, верагодна, не будзе магчыма. Замест, думаць аб пераўтварэнні іх высокай якасці, адсканаваныя PDF файлы, якія можна захоўваць на цвёрдым дыску або ў воблаку.

Вы можаце карміць гэтыя PDF файлы праграмнага забеспячэння OCR і спадзяемся, што ён будзе распазнаваць дастаткова слоў, каб зрабіць вашыя нататкі для пошуку. калі не, Вы, верагодна, прыйдзецца пазначыць іх уручную. У любым выпадку, калі нехта прыйдзе з праграмай OCR, якая можа чытаць ваш почырк - не немагчыма, хоць я ўжо чакаў 30 гадоў для аднаго - вы будзеце гатовыя з вострымі PDF-файлаў, а не кёрлінг арыгіналаў, дзе папера ва ўзросце і чарніла выцвілымі.

Вядома, калі вы збіраецеся сканаваць вашыя нататкі, то вы ўжо павінны мець сканер, або быць гатовым, каб купіць адзін. недарагі Epson або канон сканар з плоскім ложак павінна даць добрыя вынікі, хоць гэта адымае шмат часу, каб сканаваць шмат старонак. Калі вы збіраецеся зрабіць шмат сканавання, Разгледзім ліставую мадэль накшталт Brother ADS-2100 (ад £ 222). Вы таксама можаце атрымаць сканеры, якія ўключаюць OCR, такі як Fujitsu ScanSnap iX500 Дуплекс (ад £ 352), які скануе абодва бакі паперы адразу. (Праграмнае забеспячэнне OCR сканара, як правіла, працуе на кампутары.)

паслугі сканавання

Калі ў вас ёсць, каб купіць прыстойны сканер і, магчыма, добрае праграмнае забеспячэнне якасці аптычнага распазнання тэксту для аднаразовага праекта, складзеце кошт і падзяліць яе на колькасць старонак нататак, каб знайсці кошт старонкі. Гэта сумная праца, таму, магчыма, вам варта дадаць кошт вашага часу. У выніку можа заахвоціць вас адмовіцца ад самой ідэі, або пачаць шукаць для кампаніі, каб зрабіць гэта для вас.

Большасць кампаній, якія прадастаўляюць паслугі сканавання для задавальнення прадпрыемстваў, якія неабходна прыбраць вялікія аб'ёмы папяровых дакументаў. Аднак, некаторыя задаволіць нізкага аб'ёму і хатніх карыстальнікаў. Адным з прыкладаў з'яўляецца Оксфард, сканаванне Geeks, які зараджае 25p на кожнай старонцы для дакументаў да фармату А3. (Адна старонка азначае адзін бок старонкі.) Яны могуць зрабіць OCR ("Захоп тэкставых даных") а таксама. ідэальна, знайсці добрую мясцовую кампанію, дзе вы можаце пакінуць свае нататкі надзейна і збіраць іх потым.

Гэта дарагі маршрут, калі ў вас ёсць шмат паперы: яна можа каштаваць 3000 £ сканаваць змесціва шафы з якія падаюць чатыры скрыні. Але калі ў вас ёсць толькі 100 для 500 старонак заўваг для сканавання, гэта можа быць лепшым варыянтам.

guardian.co.uk © Guardian News & Media Limited 2010

Апублікавана з дапамогай Захавальнік Стужка навін Убудова для WordPress.

Артыкулы па Тэме

22751 0