Alimentado por Guardian.co.ukEste artigo intitulado “Como posso converter minhas anotações manuscritas em documentos do Word?” foi escrita por Jack Schofield, para theguardian.com na quinta-feira 18 de dezembro 2014 16.19 Tempo Universal Coordenado (Universal Time Coordinated

Tenho muitas almofadas A4 de notas manuscritas, que gostaria de converter em documentos do Microsoft Word. Para digitar-los todos em levaria um tempo muito longo. Tenho notado que a capacidade do Google para ler o texto a partir de imagens melhorou muito nos últimos meses. Você está ciente de uma ferramenta do Google ou qualquer outra pessoa que pode fazer um bom trabalho desta, por favor? Michael

A idéia de converter escrita ou texto impresso em texto digital é geralmente chamado OCR para reconhecimento óptico de caracteres, e tem problemas semelhantes para o reconhecimento de fala. Isto quer dizer, se a entrada é perto da perfeição, A saída também pode ser perto da perfeição.

Mas, na prática, ele funciona melhor quando se lida com entradas restritas e / ou em domínios limitados. Por exemplo, é possível reconhecer os nomes em inglês para os números e os nomes das principais cidades do Reino Unido, especialmente se você pode levar as pessoas a escrever cada letra em sua própria caixa pequena. O mesmo software não teria a experiência de domínio para lidar com um médico legista de língua russa que gostava de incluir citações em sânscrito, em sua autópsias manuscrita.

questões de caligrafia

OCR funciona melhor com materiais impressos de alta qualidade e pior de tudo com escrita, para que você não está começando do melhor posição. Em minha experiência, você só pode obter o reconhecimento de escrita para trabalhar bem o suficiente por fazê-lo em tempo real. Que lhe permite treinar o software para reconhecer o seu contributo, enquanto o software também treina para escrever caracteres em formas que ele pode entender. Eu tive algum sucesso com esta abordagem, começando mais de uma década atrás, com Microsoft OneNote (que também pode gravar sua voz em sincronia) em execução no Windows XP Tablet Edition, e mais recentemente com uma caneta digital Livescribe Echo and MyScript software de. Contudo, tudo isso tem mais a ver com estratégias de substituição do teclado do que com OCR.

É geralmente aceite que os melhores programas de OCR são ABBYY FineReader (£ 99) e OmniPage do nuance 18 (£ 79.99) e Ultimate (£ 169.99), embora nem é adequado para reconhecimento de escrita cursiva. Ambas as empresas oferecem versões gratuitas para que você possa testá-los antes de espirrar para fora. Há também Softwriting de CharacTell ($49.95), que a empresa diz é para os estudantes a tomar notas em sala de aula e os profissionais que tomam notas em reuniões. Mas também diz que é projetado "para o reconhecimento de escrita manual não-conectado e texto impresso-machine" (sua ênfase) então eu não apostaria nele lendo suas anotações manuscritas.

Como a maioria, se não todos os programas nesta área, Softwriting tem que ser treinado para reconhecer a escrita manual. Quando se está a processar um documento, ele irá apresentá-lo com palavras que não reconhece, de modo que você pode dizer que o que eles são. Se você tem 250 palavras em uma página eo programa milagrosamente fica 90% deles direita, você ainda terá de corrigir 25 palavras.

Se você quiser tentar algumas páginas como um experimento, então você pode baixar FreeOCR para Windows, embora tenha cuidado para não instalar qualquer crapware que podem ser incluídos. FreeOCR é baseado no motor Tesseract OCR amplamente usados, que foi originalmente desenvolvido pela Hewlett-Packard na Inglaterra na década de 1980. HP tornou open source em 2005, e Google agora mantém o código fonte.

Você também pode usar FreeOCR on-line por meio do upload de arquivos PDF para free-ocr.com. Google Docs e outros serviços também usam o mesmo motor Tesseract OCR.

Wikipedia adverte que "a saída de Tesseract será muito má qualidade, se as imagens de entrada não são pré-processados ​​para adequá-lo: imagens (especialmente screenshots) deve ser dimensionado de tal modo que o texto x altura é pelo menos 20 píxeis, qualquer rotação ou inclinação deve ser corrigida ou nenhum texto será reconhecido, mudanças de baixa frequência de brilho deve ser high-pass filtrada, ou estágio binarização de Tesseract vai destruir grande parte da página, e bordas escuras deve ser removido manualmente, ou eles vão ser interpretado como personagens ".

PDFs e scanners

As suas notas escritas à mão seria mais útil em formato Microsoft Word, porque você pode fazer muitas coisas com eles. Por exemplo, você pode alterar o tipo de letra, tamanho e espaçamento, corrigir e alterar suas notas, adicionar ilustrações, e assim por diante. Mas se você tem extremamente limpo, caligrafia clara e muito consistente, que, provavelmente, não será possível. Ao invés, pensar em convertê-los em alta qualidade, arquivos PDF digitalizados que você pode armazenar em um disco rígido ou na nuvem.

Você pode alimentar esses arquivos PDF para software OCR e espero que ele irá reconhecer palavras suficientes para fazer suas anotações pesquisável. Se não, você provavelmente vai ter que marcá-los manualmente. De qualquer jeito, se alguém vem com um programa de OCR que pode ler a sua escrita manual - não impossível, embora eu já esperei 30 anos para um - você estará pronto com arquivos PDF afiados, em vez de originais que ondulam onde o papel ter envelhecido e a tinta desbotada.

É claro, se você estiver indo para digitalizar suas notas, então você já deve ter um scanner, ou estar preparado para comprar um. Uma pechincha Epson ou Cânone scanner plano deve dar bons resultados, embora seja demorado para digitalizar um monte de páginas. Se você pretende fazer um monte de digitalização, considere um modelo de folha a folha como o Irmão ADS-2100 (a partir de £ 222). Você também pode obter scanners que incluem OCR, tal como Fujitsu ScanSnap iX500 Duplex (a partir de £ 352), que digitaliza ambos os lados do papel de uma só vez. (software OCR do scanner geralmente é executado em seu PC.)

serviços de digitalização

Se você tiver que comprar um scanner decente e talvez boa qualidade de software OCR para um projeto one-off, somar o custo e dividi-lo pelo número de páginas de notas para encontrar o custo por página. É um trabalho chato, então talvez você deve adicionar o custo do seu tempo. O resultado pode pedir-lhe para abandonar toda a idéia, ou começar a procurar uma empresa para fazer isso por você.

A maioria das empresas que fornecem serviços de digitalização de atender a empresas que precisam para limpar grandes volumes de registros em papel. Contudo, alguns atender a baixo volume e usuários domésticos. Um exemplo baseia-Oxford Geeks de digitalização, que cobra 25p por página para documentos até A3 em tamanho. (Uma página significa um lado de uma página.) Eles podem fazer OCR ("Captura de Prova de Dados") também. Idealmente, encontrar uma boa empresa local, onde você pode deixar suas notas de forma segura e recolhê-las posteriormente.

É uma rota caro se você tem um monte de papel: poderia custar £ 3.000 para digitalizar o conteúdo de um armário de arquivo de quatro gavetas. Mas se você só tem 100 para 500 páginas de notas para fazer a varredura, que poderia ser a melhor opção.

guardian.co.uk © Guardian News & Media Limited 2010

Publicado por meio do Guardião News Feed Plugin para WordPress.

29064 0