Pessoal, eu criei esse tópico para explicar como faço tudo isso, porém está aberto a dicas de qualquer coisa relacionada, seja programa, equipamento, método, ou mesmo objeções aos comentários.
Primeiramente, devo explicar o que o título do tópico quer dizer:
Como escanear corretamente
Muita gente acha que escanear é que nem tirar cópia (xerox), é só tascar a fonte original (livro, revista, folha de documento) em qualquer equipamento, gerar o scan, e beleza, tá tudo pronto. Não é assim, deve ser levado em conta o equipamento que está escaneando a fonte, o programa que está fazendo isso, e mesmo a maneira COMO você está escaneando essa fonte.
Talvez isso explique o porquê (especialmente no Brasil) haja uma escassez enorme de material escaneado, ou mesmo por que ainda encontramos por aí muito material pessimamente escaneado.
Livros e afins
O enfoque do tópico é no "escaneamento" de livros mas também servirá para outros tipos de fontes, porém fica a advertência que não escaneei ainda nenhuma revista, e só lidei com 2 livros até agora.
+ gerar arquivos digitais
Não basta escanear, você precisa saber como criar da maneira mais adequada um arquivo que possa ser lido seja no computador, seja num tablet específico. Esse procedimento é o mais demorado de todos, mas não é de forma alguma complicado (nenhum deles é).
Vou tentar ser o mais minucioso possível pra que não reste nenhuma dúvida a respeito.
******************************************************************
******************************************************************
******************************************************************
******************************************************************
Primeiro: a escolha do scanner
A resolução é o aspecto mais relevante na escolha de um scanner, porque quanto maior a mesma, melhor a fidelidade (qualidade, precisão) com que o aparelho irá capturar imagens (afinal, não estamos lidando apenas com texto, existem livros com ilustrações e você pode querer escanear suas fotos pessoais também).
Os scanners de documentos do mercado tem até 600 DPI (pontos por polegada) de resolução óptica. Em termos de custo-benefício, eu optei pela multifuncional (impressora + scanner) da Epson, XP-204, que tem resolução de 1200x2400 se não me engano. Quando vou escanear ele permite fazer com até 1200 DPI, porém o arquivo final fica GIGANTE (exigindo um PC atual pra abrir sem problemas).
Procure por um scanner que apresente uma resolução de pelo menos 600 x 1.200 DPI. Esse que citei custou entre 200-300 reais na época.
A escolha não é um problema, pois a maioria dos scanners nessa faixa de preço tem uma resolução adequada.
- Devo comprar um scanner de mão?
Não. Seguem os motivos, e o uso adequado desse equipamento:
- O scanner de mão custa até mais caro que o de mesa, em alguns casos passando dos R$ 300;
- Você precisa ter habilidade em passar o scanner em cima do papel, pois se não passar em cima dele todo, a imagem ficará cortada, ou ainda torta, obrigando a escanear DE NOVO.
Até dá pra escanear, mas em 90% dos casos você não consegue escanear 100% (de cima até embaixo), é na tentativa-e-muitos-erros. E não digo erro porque sua mão tremeu, e sim erro de não capturar toda a informação contida no papel.
Isso seria aceitável se eu fosse escanear uma folha, mas fatal se o objetivo fosse escanear um livro de 400 páginas.
- Não pode ver como ficará o resultado final. Tem como ver na hora se você ligar na USB de um computador. Aí, após passar o scanner, com um programa do fabricante, ele mostra a imagem gerada. Do contrário, ele salva num cartão de memória, que você precisa tirar dele e ligar no PC pra ver as fotos.
- Pelo menos o modelo que comprei usa pilhas palito. E por relatos que li, essas gastam relativamente rápido.
- A qualidade eu achei inferior à do scanner de mesa, apesar de permitir escanear em resolução parecida.
- O mesmo problema do scanner de mesa pra escanear livros colados. Eu comprei um de mão achando que resolveria isso. Vou explicar essa questão dos livros mais na frente.
- O uso ideal do scanner de mão é pra escanear algum documento na rua, apenas se você não puder levar pra casa e colocar no SEU SCANNER DE MESA.
É essa a única utilidade (ou finalidade) dele. Não servirá para fazer um scan "definitivo" de qualquer coisa.
Serve pra por exemplo, se você é um advogado e precisa escanear a folha de um processo que não vai levar pra casa.
******************************************************************
******************************************************************
******************************************************************
******************************************************************
Segundo: a preparação do material para ser escaneado
Até o momento eu escaneei apenas dois livros colados.
Livro com capa dura é isso:
Os dois livros que analisei estão em português e são novos. Ambos tem em torno de 300-400 páginas. E a capa/contracapa é da mesma grossura do resto.
O que é livro colado? Exatamente isso: colado, e não grampeado, como uma revista. Veja na foto:
Repare que ele não "dobra" no meio das páginas, porque tem cola. Se fosse grampeado, como uma revista, dobraria na metade das páginas (ex: a revista tem 100 páginas, os grampos ficariam na página 50.
REGRA DE OURO: Todo livro, sem exceção, precisa ser descolado antes de ser escaneado.
Por que isso? Simples: se você tentar escanear um livro COLADO, não vai conseguir fazer isso direito, porque quando colocar no vidro do scanner, a página não irá ficar RENTE nele (irá levantar) e a imagem ficará borrada, desfocada, sem nitidez.
Em algum lugar do scan, a imagem ficará assim, e pelo que observei, isso acontece justamente no CANTO ou ainda na parte mais baixa dela. Isso irá impedir a criação de um arquivo DIGITAL com o livro escaneado, ou no mínimo dificultar ao extremo.
Além do resultado final ficar sem fidelidade, ruim. Ou seja: será como se você escaneasse de qualquer jeito. Talvez isso funcione com livros contendo apenas texto e mais nada. Ou ainda aqueles livros que não tem o tamanho de uma folha A4.
Mas quando um scan contém textos, formatações específicas e ilustrações, não.
NÃO MESMO.
Pense o seguinte: quando vai fazer uma tomografia computadorizada, você precisa ficar imóvel e deitado no equipamento. Quando vai escanear da maneira mais correta, é a mesma coisa.
Precisa escanear folha por folha, e não um amontoado de folhas, uma sobre a outra.
A SOLUÇÃO: ENCADERNAR
Volto a frisar que só fiz isso com dois livros e ambos não eram capa-dura. Ao mandar encadernar, gastei aqui R$ 5 por livro. O resultado ficou assim:
Dessa forma, foi possível dobrar página por página e escanear cada uma, sem problema, no vidro do scanner.
O furo é feito no canto da página e a espiral inserida, de forma que se o livro não contém informação alguma lá no cantinho, melhor ainda, mas se contém óbvio que o furinho será no meio dela.
Exemplo de furo em cima do conteúdo do livro, apesar de ser no canto (clique no link para ver):
http://i.imgur.com/CjdAdOK.jpg
Exemplo de página que não utiliza os cantos e que furando, não tem problema algum (clique no link para ver):
http://i.imgur.com/fOpBIvS.jpg
Só que tem um porém - embora assim seja possível escanear e preservar o livro (a menos que alguém saiba como descolar tudo e depois de escanear, mandar encadernar), também tive o mesmo problema dele levantar e desfocar alguma área da página.
Isso porque a espiral também prejudica o scan, obrigando você a escanear de novo em alguns casos. Isso eu notei num livro de quase 400 páginas, mas não observei em outro de 300 onde a espiral ficou pequena.
Logo, o procedimento mais adequado seria:
1) Mandar encadernar, furando o livro todo no canto;
2) Levar tudo solto pra casa. Escanear folha por folha;
3) Levar de novo na gráfica, todas as folhas juntas, pra passar a espiral.
E não furar, passar a espiral, e depois escanear.
Entenderam? Eu farei isso da próxima vez.
******************************************************************
******************************************************************
******************************************************************
******************************************************************
Terceiro: escaneando
REGRA DE OURO: Use sempre 600 DPI, mesmo que a fonte que você pretenda escanear contenha apenas texto.
IMPORTANTE: Eu testei em 300 DPI um livro contendo apenas texto, porém não prestou para seguir o último passo desse guia (OCR), acusando que a fonte estava muito pequena. Por isso, nunca escaneie qualquer material em resolução inferior a 600 DPI (mais que isso não é necessário pelo que verifiquei - a menos que você queira escanear fotos pessoais).
Apenas texto (exemplo):
Texto e imagem eu já postei lá em cima dois exemplos. O tempo que levou pra escanear em 600 DPI aqui foi de uns 2 minutos por página.
A solução mais óbvia seria usar o programa que vem com o scanner e mandar escanear. Porém, além de escanear, você precisa editar o resultado final, pois a imagem pode ser gerada de cabeça pra baixo e você precisa cortar os 4 cantos dela.
A SOLUÇÃO: USAR O ADOBE PHOTOSHOP PARA AS DUAS COISAS
A versão que uso é a CS6 num Windows 8-32 bit, e meu PC é um Core Quad 9450 com 3 GB de RAM. Não sei quanto a outras máquinas e outras versões desse programa. Um motivo pra utilizar o mesmo, além da edição, foi que o programa que vinha com meu scanner não permitia configurar uma resolução mais alta (na época eu usava 1200 DPI pra fotos pessoais).
Como escanear com ele: com o Photoshop aberto vá em: Arquivo/Importar e clique no modelo de seu Scanner.
Abrirá a tela de digitalização de seu Scanner.
Quando terminar de escanear, a fotografia abrirá dentro do Photoshop.
No meu caso, o Photoshop está em inglês. Eu vejo essa tela:
Menu File, Import, clico em WIA SUPPORT...
Nessa tela ele dá duas opções: Open Acquired Image in Photoshop deve ficar marcada (abrir imagem escaneada no Photoshop). Devemos abrir, pois o objetivo é editá-la.
A segunda deve ser desmarcada, pois ele irá criar uma pasta com cada imagem escaneada no formato BMP e com cada uma gastando uns 100 MB. Limpe depois a pasta IMAGENS pois ele irá criar cópias de cada scan lá, gastando espaço do seu HD.
Clicando em Start, ele pergunta QUAL DISPOSITIVO VOCÊ QUER USAR? Clico no ícone do meu e depois em CONFIGURAÇÕES PERSONALIZADAS, coloco 600 DPI.
O ruim é que preciso colocar esse número toda vez. Porque mesmo que você coloque uma vez, na próxima ele mostrará o número padrão que poderá ser diferente. Quer dizer, se eu for escanear 1000 vezes, preciso ir 1000 vezes em CONFIGURAÇÕES PERSONALIZADAS (resolução) e me certificar que está em 600 DPI.
Depois de escanear, aparecerá no Photoshop o documento, e se estiver de cabeça pra baixo, vá em IMAGE - IMAGE ROTATION - 180 graus, pra girar. Não precisa fazer isso se toda vez que for escanear, posicionar o papel do lado correto no vidro.
Outro ajuste que precisa ser feito é nos cantos da imagem, como falei. Digamos que eu queira pegar a imagem acima e recortar o AUTO TONE, removendo o resto.
No Photoshop, clique nesse ícone (ferramenta CROP):
Depois apenas clique e segure até selecionar a área desejada.
Ao soltar, apenas aquela área ficará selecionada.
Dê ENTER para recortar essa área e excluir o restante:
Bem simples. Como eu quero fazer isso nos cantos, digamos que eu tenha essa imagem:
Reparem que ali no canto esquerdo, dá pra ver os furos no papel. No canto direito, não dá.
Usando a ferramenta CROP, eu apenas ARRASTO a linha do canto da esquerda pra direita:
E agora faço o quê? Dou ENTER, pra recortar.
Ficará assim:
Fácil, não? Só precisa ser feito nos 4 cantos da imagem. Leva menos de 1 minuto pra isso.
Após recortar, agora basta salvar a página escaneada.
MENU ARQUIVO (ou FILE) - SALVAR COMO (OBS: Use "salvar como" (Save As no Photoshop em inglês), e não "Salvar/Save").
Escolha JPG.
Aqui basta dar OK, e pronto, arquivo salvo, página escaneada. Eu deixo nessa configuração de qualidade mesmo, fica a seu critério, porém não achei o resultado final ruim salvando em JPG e deixando na qualidade padrão do Photoshop.
Em 600 DPI, o arquivo final seguindo esses passos fica em média com 2 MB.
******************************************************************
******************************************************************
******************************************************************
******************************************************************
Quarto: como criar um "arquivo digital" a partir dos scans, com reconhecimento de caracteres.
REGRAS DE OURO: Não tenha pressa em momento algum. Aqui todo cuidado é pouco. E mesmo após gerar o "arquivo digital", não se desfaça dos scans.
Depois que você escanear todas as páginas do livro e salvar em JPG, deve mantê-las em algum lugar, num backup de segurança. Em momento algum apague esses arquivos, pois no futuro você ou alguém poderá precisar deles para fazer o mesmo procedimento ou mesmo para corrigir erros.
Eliminar os JPGs seria o mesmo que destruir os negativos de uma foto ou filme, que só existe em formato editado. Seria como se eu "apagasse" um cantor (a pessoa) e ficasse apenas com uma gravação de um show ou CD dele. A cópia não é mais importante que o original.
Dica:
1) Compacte todas as imagens em um arquivo. Recomendo usar o WinRAR pra isso:
http://www.baixaki.com.br/download/winrar.htm
2) Renomeie a extensão do arquivo de .RAR para .EXE. Ou se preferir, use a opção de criar arquivo auto-executável no próprio WinRAR. Arquivos auto-executáveis são compactados, mas com extensão EXE. Motivo: o Internet Archive não aceita RAR/ZIP, mas aceita EXE.
3) Crie um cadastro (é gratuito) no Internet Archive:
http://www.archive.org
4) Envie o arquivo para lá. Será seu backup de segurança.
Sobre a criação de um arquivo digital - você precisa do programa ABBYY FineReader pra isso. Ele atualmente está na versão 11. Tenha sempre a última versão para evitar problemas.
COMO CONFIGURAR CORRETAMENTE O ABBYY FINEREADER
A primeira coisa que você deve fazer é deixar o ABBYY configurado direitinho pra que não precise mexer novamente. O objetivo é gerar um arquivo PDF de cada JPG que você escaneou. E no meu caso, foi um livro com texto e ilustrações.
Deixe marcado assim:
Em configurações da imagem, clique em PERSONALIZAR, e deixe assim:
Você deve também (ainda em opções - Avançado - Idioma da interface) - selecionar como idioma o PORTUGUÊS-BRASIL. Ou lá em cima:
Se o livro for em português.
Em hipótese alguma deixe essa configuração em AUTOMÁTICO.
COMO LIDAR COM CADA PÁGINA ESCANEADA
Feito tudo isso, mande abrir um JPG que você escaneou. Digamos que meu livro tenha 400 páginas, e eu estou agora mexendo com a página 41.
A página 41 é essa, clique no link para ver (é a minha original):
http://i.imgur.com/ZmJWWSo.jpg
E é assim que o ABBYY reconhece a mesma:
http://i.imgur.com/w3wmpPW.jpg
Qual é o objetivo aqui? Simples, gerar um PDF em texto, pesquisável, onde eu não tenha apenas uma imagem, e sim texto, imagem, tudo bonitinho, e com tamanho bem menor que os 2 MB do arquivo original.
No final, eu terei as 400 páginas com um tamanho razoável, e vou poder ler tudo isso num tablet (como o iPAD) ou PC.
Eu consegui escanear um livro com umas 300 páginas e gastei ao todo 50 MB. Essas mesmas 300 páginas em JPG (600 DPI) consumiram 720 MB. E o melhor de tudo é que o PDF ficou perfeito, sem erros, sem problema algum na leitura, e igualzinho ao livro original. Preservei as imagens, e apenas dei um retoque nas fontes.
Como eu começo a ajustar essa página 41?
Primeiro de tudo, aqui nessa área o programa está com dificuldades de reconhecer o texto, nessas partes azuladas:
Você deve olhar pro scan da esquerda e ver o que precisa ser ajustado:
Reparem que essa área do livro foi escaneada sem borrar, mas mesmo assim o ABBYY não leu 100%. Vejam como ficou minha correção:
Apliquei os espaços onde precisava e corrigi o "Sicília" que saiu incorreto ali.
Vocês lembram que eu comentei que todo livro precisa ser descolado, ficar RENTE no vidro do scanner, retinho, sem levantar?
Vejam aí um exemplo de canto de imagem desfocada:
E como o ABBYY leu essa parte:
Entenderam agora por que é fundamental que todo livro seja descolado? Nesse caso aí eu escaneei encadernado, mas com a ESPIRAL já colocada. Da próxima vez, eu vou escanear primeiro, e colocar a espiral depois. Entenderam por que isso precisa ser feito? Pra que se economize muito tempo corrigindo textos assim.
Beleza, mas é só isso que a gente precisa fazer no ABBYY?
Infelizmente não. Outros ajustes precisam ser feitos, e isso EM CADA PÁGINA. Se fosse apenas revisar texto, seria rapidinho.
Outra explicação: reparem na imagem da esquerda:
E nessa que será o arquivo gerado:
A da esquerda está selecionando a figura, em vermelho, e em verde, a "área de reconhecimento".
Essa imagem tem créditos em texto, por isso o ABBYY fez o seguinte: reconheceu o mapa, e os créditos ele transformou em texto.
Mas e se eu quiser ao invés de um mapa com texto do lado, ser uma figura só?
Simples: clique em cima da área verde e pressione DELETE:
Repare que não está aparecendo mais nada no arquivo final:
Agora, basta clicar na área vermelha e mover até ENQUADRAR os créditos também.
Vejam como ficou:
E do lado direito, como será o resultado final:
Simples, não? O que era texto nos créditos da imagem virou agora imagem do mapa + créditos. Eu pessoalmente prefiro uma imagem só dos dois porque me poupa tempo de revisar os créditos, até pelo tamanho pequeno da fonte.
Outra coisa: o ABBYY tenta enquadrar imagens como essa do mapa, mas ele sempre deixa um pedaço beeeeeem pequeno cortado. Por via das dúvidas, deixe uma sobra, como nesse exemplo aqui:
Reparem que eu deixei mais cinza de fundo nos quatro cantos desse mapa. Porque o ABBYY corta bem preciso, mas pode deixar algo de fora. E normalmente o ABBYY cortaria só o mapa, deixando os créditos do lado esquerdo de fora. Nada que um pequeno ajuste não resolva.
Próxima dica: REDUZIR O TAMANHO DA FONTE:
Se eu olhasse apenas pro lado esquerdo da tela, diria que o texto não está se chocando com a figura:
Mas eu preciso olhar do lado direito pra saber como será o arquivo final. E repare que está ocorrendo esse choque, sim:
Isso pode ocorrer com um texto de um lado e um do outro. A solução é simples, vá lá em cima e reduza o tamanho da fonte, após selecionar o texto todo.
Nesse exemplo, a fonte é Book Antiqua 9,5. Eu coloquei 9. Vejam como ficou:
Ah, mas quando eu vou saber se é pra reduzir ou não? Simples, imagine que em 100% dos casos você precisa reduzir.
Só que dentro da mesma página, eu tenho um texto menor que o principal:
Esse eu não mexo. Ou se for mexer, eu diminuo 0,5 ponto na fonte dele, da mesma forma que fiz com o outro.
- MAIS DICAS:
P - Digamos que eu tenha uma figura de um mapa, e além de estar vermelha, ela tenha texto em verde (verde = área de reconhecimento) no meio dela. É só deletar os verdes e deixar o vermelho?
R- Não, você deve deletar os verdes e o vermelho. E depois desenhar a figura de novo.
Exemplo de mistura de verde-vermelho:
Vermelho = a imagem de fundo
Verde = imagem também, mas o programa acha que deve virar texto
O resultado final ficaria:
Basta clicar em cima do verde, e deletar. Mas tem que fazer isso no vermelho também, senão no resultado final, borra.
Do lado direito, não tenho nada...
"Desenho" de novo em vermelho aquela área:
E pronto.
Isso pode ocorrer em imagens que pareçam ter texto.
Eu não acho indicado misturar imagem com texto. Se a imagem tem texto dentro dela, eu deixo ela inteira como imagem, e o texto apenas se estiver do lado de fora dela. Mesmo que seja um gráfico com estatísticas, eu prefiro deixar em imagem. Isso também poupa tempo na revisão.
********
P - Como faço pra mudar uma figura pra uma área de reconhecimento e vice-versa?
R - Apenas clique com o botão direito em cima dela e escolha a desejada em ALTERAR TIPO DE ÁREA.
P - Como faço pra editar e salvar vários arquivos ao mesmo tempo?
R - Após abrir vários scans (JPGs), e terminar de editar/revisar, clique lá em cima em SALVAR:
E "criar um arquivo separado para cada página" ou arquivo único.
***************
GERANDO O ARQUIVO FINAL
Aqui eu uso o ADOBE ACROBAT pra juntar todos os arquivos PDF criados pelo ABBYY FineReader. Abro o primeiro PDF, e...
Seleciono o segundo PDF, e especifico onde colocar ele.
E assim vai. Arquivo, Salvar como... e pronto.
Aqui vai um exemplo de 1 página escaneada, e PDF gerado a partir dela:
JPG:
http://i.imgur.com/6BKYnbO.jpg
PDF:
https://www.dropbox.com/s/ap9ywmdk105s2f4/PAG30.pdf
Vejam que dá pra selecionar o texto todinho, e colar em outro lugar. Ou mesmo ao abrir esse PDF num tablet, pesquisar por palavras-chave dentro desse arquivo.
A qualidade final no tablet eu gostei. Uma outra vantagem de se usar o ABBYY e reconhecer os caracteres é que você pode ampliar o texto do ebook ao máximo. Já com imagem, mesmo isso sendo possível, depois de uma certa ampliação, ela ficaria degradada.
No entanto, são poucos os ebooks (PDFs gerados a partir de scans) que tenham passado pela parada do OCR.
CONSIDERAÇÕES FINAIS
Quanto ao tempo pra fazer isso tudo, infelizmente é coisa de 1-2 semanas no mínimo. Eu cheguei a fazer em 1 semana, mas correndo. O procedimento mais demorado é o último, porém eu poderia ter economizado um bom tempo na hora de escanear se tivesse feito folha por folha sem ele estar encadernado primeiro.
Por ser um livro com ilustrações e várias páginas, o tamanho final ficou 50 MB, um pouco grande, mas óbvio que ficaria beeeeeeem menor se a maioria das páginas tivessem apenas texto.
Eu não conheço outros tablets, mas ler um livro no iPAD (fica a dica de reduzir o brilho dele, porque isso é que cansa a vista e desestimula a usar) é ótimo. Infelizmente é pra pouco$$$$$$$, porém compensa e muito se você quer se livrar das versões ultrapassadas em papel de livros e outras coisas.
Por que se dar a todo esse trabalho se você já tem o livro? Não apenas pela praticidade, mas como forma de preservar esse material da melhor maneira possível.
Se você quiser ter uma idéia do que seja um livro mal escaneado, visite o INTERNET ARCHIVE (que já mencionei lá em cima) e baixe qualquer livro de domínio público que o site tenha. Não precisa nem ter um tablet pra entender o que estou falando - abra um deles no seu PC mesmo.
E veja como são extremamente pesados, e lentos pra carregar cada página. Quando a gente lê um livro, virar a página é algo instantâneo. Mas um livro mal escaneado, mesmo que seja pequeno, pode ser um amontoado de imagens (sem reconhecimento de caracteres) que em qualquer equipamento demoram segundos pra serem visualizadas.
Infelizmente, nem tudo são flores, e o reconhecimento de caracteres não é perfeito. Por isso que você precisa revisar direitinho cada página, bater o olho e tentar localizar alguma palavra reconhecida erroneamente.
Pode levar tempo, mas no final compensa, e muito.
Quanto a outros programas ou alternativas não mencionadas no tópico (eu citei programas pagos), desconheço, mas se alguém quiser recomendar, fique à vontade.
Penitante
Geek
Registrado
1.6K Mensagens
246 Curtidas
[Tutorial] Como escanear corretamente livros e afins (+ gerar arquivos digitais)
#1 Por Penitante
14/12/2013 - 15:36