Logo Hardware.com.br
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas

[Tutorial] Como escanear corretamente livros e afins (+ gerar arquivos digitais)

#1 Por Penitante 14/12/2013 - 15:36
Pessoal, eu criei esse tópico para explicar como faço tudo isso, porém está aberto a dicas de qualquer coisa relacionada, seja programa, equipamento, método, ou mesmo objeções aos comentários.

Primeiramente, devo explicar o que o título do tópico quer dizer:

Como escanear corretamente

Muita gente acha que escanear é que nem tirar cópia (xerox), é só tascar a fonte original (livro, revista, folha de documento) em qualquer equipamento, gerar o scan, e beleza, tá tudo pronto. Não é assim, deve ser levado em conta o equipamento que está escaneando a fonte, o programa que está fazendo isso, e mesmo a maneira COMO você está escaneando essa fonte.

Talvez isso explique o porquê (especialmente no Brasil) haja uma escassez enorme de material escaneado, ou mesmo por que ainda encontramos por aí muito material pessimamente escaneado.

Livros e afins

O enfoque do tópico é no "escaneamento" de livros mas também servirá para outros tipos de fontes, porém fica a advertência que não escaneei ainda nenhuma revista, e só lidei com 2 livros até agora.

+ gerar arquivos digitais

Não basta escanear, você precisa saber como criar da maneira mais adequada um arquivo que possa ser lido seja no computador, seja num tablet específico. Esse procedimento é o mais demorado de todos, mas não é de forma alguma complicado (nenhum deles é).

Vou tentar ser o mais minucioso possível pra que não reste nenhuma dúvida a respeito.

******************************************************************
******************************************************************
******************************************************************
******************************************************************

Primeiro: a escolha do scanner

A resolução é o aspecto mais relevante na escolha de um scanner, porque quanto maior a mesma, melhor a fidelidade (qualidade, precisão) com que o aparelho irá capturar imagens (afinal, não estamos lidando apenas com texto, existem livros com ilustrações e você pode querer escanear suas fotos pessoais também).

Os scanners de documentos do mercado tem até 600 DPI (pontos por polegada) de resolução óptica. Em termos de custo-benefício, eu optei pela multifuncional (impressora + scanner) da Epson, XP-204, que tem resolução de 1200x2400 se não me engano. Quando vou escanear ele permite fazer com até 1200 DPI, porém o arquivo final fica GIGANTE (exigindo um PC atual pra abrir sem problemas).

Procure por um scanner que apresente uma resolução de pelo menos 600 x 1.200 DPI. Esse que citei custou entre 200-300 reais na época.

A escolha não é um problema, pois a maioria dos scanners nessa faixa de preço tem uma resolução adequada.

Imagem

- Devo comprar um scanner de mão?

Não. Seguem os motivos, e o uso adequado desse equipamento:

- O scanner de mão custa até mais caro que o de mesa, em alguns casos passando dos R$ 300;

- Você precisa ter habilidade em passar o scanner em cima do papel, pois se não passar em cima dele todo, a imagem ficará cortada, ou ainda torta, obrigando a escanear DE NOVO.

Até dá pra escanear, mas em 90% dos casos você não consegue escanear 100% (de cima até embaixo), é na tentativa-e-muitos-erros. E não digo erro porque sua mão tremeu, e sim erro de não capturar toda a informação contida no papel.

Isso seria aceitável se eu fosse escanear uma folha, mas fatal se o objetivo fosse escanear um livro de 400 páginas.

- Não pode ver como ficará o resultado final. Tem como ver na hora se você ligar na USB de um computador. Aí, após passar o scanner, com um programa do fabricante, ele mostra a imagem gerada. Do contrário, ele salva num cartão de memória, que você precisa tirar dele e ligar no PC pra ver as fotos.

- Pelo menos o modelo que comprei usa pilhas palito. E por relatos que li, essas gastam relativamente rápido.

- A qualidade eu achei inferior à do scanner de mesa, apesar de permitir escanear em resolução parecida.

- O mesmo problema do scanner de mesa pra escanear livros colados. Eu comprei um de mão achando que resolveria isso. Vou explicar essa questão dos livros mais na frente.

- O uso ideal do scanner de mão é pra escanear algum documento na rua, apenas se você não puder levar pra casa e colocar no SEU SCANNER DE MESA.

É essa a única utilidade (ou finalidade) dele. Não servirá para fazer um scan "definitivo" de qualquer coisa.

Serve pra por exemplo, se você é um advogado e precisa escanear a folha de um processo que não vai levar pra casa.

******************************************************************
******************************************************************
******************************************************************
******************************************************************

Imagem

Segundo: a preparação do material para ser escaneado

Até o momento eu escaneei apenas dois livros colados.

Livro com capa dura é isso:

Imagem

Os dois livros que analisei estão em português e são novos. Ambos tem em torno de 300-400 páginas. E a capa/contracapa é da mesma grossura do resto.

O que é livro colado? Exatamente isso: colado, e não grampeado, como uma revista. Veja na foto:

Imagem

Repare que ele não "dobra" no meio das páginas, porque tem cola. Se fosse grampeado, como uma revista, dobraria na metade das páginas (ex: a revista tem 100 páginas, os grampos ficariam na página 50.

Imagem

REGRA DE OURO: Todo livro, sem exceção, precisa ser descolado antes de ser escaneado.

Por que isso? Simples: se você tentar escanear um livro COLADO, não vai conseguir fazer isso direito, porque quando colocar no vidro do scanner, a página não irá ficar RENTE nele (irá levantar) e a imagem ficará borrada, desfocada, sem nitidez.

Em algum lugar do scan, a imagem ficará assim, e pelo que observei, isso acontece justamente no CANTO ou ainda na parte mais baixa dela. Isso irá impedir a criação de um arquivo DIGITAL com o livro escaneado, ou no mínimo dificultar ao extremo.

Além do resultado final ficar sem fidelidade, ruim. Ou seja: será como se você escaneasse de qualquer jeito. Talvez isso funcione com livros contendo apenas texto e mais nada. Ou ainda aqueles livros que não tem o tamanho de uma folha A4.

Mas quando um scan contém textos, formatações específicas e ilustrações, não.

NÃO MESMO.

Imagem

Pense o seguinte: quando vai fazer uma tomografia computadorizada, você precisa ficar imóvel e deitado no equipamento. Quando vai escanear da maneira mais correta, é a mesma coisa.

Precisa escanear folha por folha, e não um amontoado de folhas, uma sobre a outra.

A SOLUÇÃO: ENCADERNAR

Volto a frisar que só fiz isso com dois livros e ambos não eram capa-dura. Ao mandar encadernar, gastei aqui R$ 5 por livro. O resultado ficou assim:

Imagem

Dessa forma, foi possível dobrar página por página e escanear cada uma, sem problema, no vidro do scanner.

O furo é feito no canto da página e a espiral inserida, de forma que se o livro não contém informação alguma lá no cantinho, melhor ainda, mas se contém óbvio que o furinho será no meio dela.

Exemplo de furo em cima do conteúdo do livro, apesar de ser no canto (clique no link para ver):

http://i.imgur.com/CjdAdOK.jpg

Exemplo de página que não utiliza os cantos e que furando, não tem problema algum (clique no link para ver):

http://i.imgur.com/fOpBIvS.jpg

Só que tem um porém - embora assim seja possível escanear e preservar o livro (a menos que alguém saiba como descolar tudo e depois de escanear, mandar encadernar), também tive o mesmo problema dele levantar e desfocar alguma área da página.

Isso porque a espiral também prejudica o scan, obrigando você a escanear de novo em alguns casos. Isso eu notei num livro de quase 400 páginas, mas não observei em outro de 300 onde a espiral ficou pequena.

Logo, o procedimento mais adequado seria:

1) Mandar encadernar, furando o livro todo no canto;

2) Levar tudo solto pra casa. Escanear folha por folha;

3) Levar de novo na gráfica, todas as folhas juntas, pra passar a espiral.

E não furar, passar a espiral, e depois escanear.

Entenderam? Eu farei isso da próxima vez.

******************************************************************
******************************************************************
******************************************************************
******************************************************************

Terceiro: escaneando

REGRA DE OURO: Use sempre 600 DPI, mesmo que a fonte que você pretenda escanear contenha apenas texto.

IMPORTANTE: Eu testei em 300 DPI um livro contendo apenas texto, porém não prestou para seguir o último passo desse guia (OCR), acusando que a fonte estava muito pequena. Por isso, nunca escaneie qualquer material em resolução inferior a 600 DPI (mais que isso não é necessário pelo que verifiquei - a menos que você queira escanear fotos pessoais).

Apenas texto (exemplo):

Imagem

Texto e imagem eu já postei lá em cima dois exemplos. O tempo que levou pra escanear em 600 DPI aqui foi de uns 2 minutos por página.

A solução mais óbvia seria usar o programa que vem com o scanner e mandar escanear. Porém, além de escanear, você precisa editar o resultado final, pois a imagem pode ser gerada de cabeça pra baixo e você precisa cortar os 4 cantos dela.

A SOLUÇÃO: USAR O ADOBE PHOTOSHOP PARA AS DUAS COISAS

A versão que uso é a CS6 num Windows 8-32 bit, e meu PC é um Core Quad 9450 com 3 GB de RAM. Não sei quanto a outras máquinas e outras versões desse programa. Um motivo pra utilizar o mesmo, além da edição, foi que o programa que vinha com meu scanner não permitia configurar uma resolução mais alta (na época eu usava 1200 DPI pra fotos pessoais).

Como escanear com ele: com o Photoshop aberto vá em: Arquivo/Importar e clique no modelo de seu Scanner.

Imagem

Abrirá a tela de digitalização de seu Scanner.

Imagem

Quando terminar de escanear, a fotografia abrirá dentro do Photoshop.

Imagem

No meu caso, o Photoshop está em inglês. Eu vejo essa tela:

Imagem

Menu File, Import, clico em WIA SUPPORT...

Imagem

Nessa tela ele dá duas opções: Open Acquired Image in Photoshop deve ficar marcada (abrir imagem escaneada no Photoshop). Devemos abrir, pois o objetivo é editá-la.

A segunda deve ser desmarcada, pois ele irá criar uma pasta com cada imagem escaneada no formato BMP e com cada uma gastando uns 100 MB. Limpe depois a pasta IMAGENS pois ele irá criar cópias de cada scan lá, gastando espaço do seu HD.

Clicando em Start, ele pergunta QUAL DISPOSITIVO VOCÊ QUER USAR? Clico no ícone do meu e depois em CONFIGURAÇÕES PERSONALIZADAS, coloco 600 DPI.

O ruim é que preciso colocar esse número toda vez. Porque mesmo que você coloque uma vez, na próxima ele mostrará o número padrão que poderá ser diferente. Quer dizer, se eu for escanear 1000 vezes, preciso ir 1000 vezes em CONFIGURAÇÕES PERSONALIZADAS (resolução) e me certificar que está em 600 DPI.

Imagem

Depois de escanear, aparecerá no Photoshop o documento, e se estiver de cabeça pra baixo, vá em IMAGE - IMAGE ROTATION - 180 graus, pra girar. Não precisa fazer isso se toda vez que for escanear, posicionar o papel do lado correto no vidro.

Outro ajuste que precisa ser feito é nos cantos da imagem, como falei. Digamos que eu queira pegar a imagem acima e recortar o AUTO TONE, removendo o resto.

No Photoshop, clique nesse ícone (ferramenta CROP):

Imagem

Depois apenas clique e segure até selecionar a área desejada.

Imagem

Ao soltar, apenas aquela área ficará selecionada.

Imagem

Dê ENTER para recortar essa área e excluir o restante:

Imagem

Bem simples. Como eu quero fazer isso nos cantos, digamos que eu tenha essa imagem:

Imagem

Reparem que ali no canto esquerdo, dá pra ver os furos no papel. No canto direito, não dá.

Usando a ferramenta CROP, eu apenas ARRASTO a linha do canto da esquerda pra direita:

Imagem

E agora faço o quê? Dou ENTER, pra recortar.

Ficará assim:

Imagem

Fácil, não? Só precisa ser feito nos 4 cantos da imagem. Leva menos de 1 minuto pra isso.

Após recortar, agora basta salvar a página escaneada.

MENU ARQUIVO (ou FILE) - SALVAR COMO (OBS: Use "salvar como" (Save As no Photoshop em inglês), e não "Salvar/Save").

Escolha JPG.

Imagem

Aqui basta dar OK, e pronto, arquivo salvo, página escaneada. Eu deixo nessa configuração de qualidade mesmo, fica a seu critério, porém não achei o resultado final ruim salvando em JPG e deixando na qualidade padrão do Photoshop.

Em 600 DPI, o arquivo final seguindo esses passos fica em média com 2 MB.


******************************************************************
******************************************************************
******************************************************************
******************************************************************

Imagem

Quarto: como criar um "arquivo digital" a partir dos scans, com reconhecimento de caracteres.

REGRAS DE OURO: Não tenha pressa em momento algum. Aqui todo cuidado é pouco. E mesmo após gerar o "arquivo digital", não se desfaça dos scans.

Depois que você escanear todas as páginas do livro e salvar em JPG, deve mantê-las em algum lugar, num backup de segurança. Em momento algum apague esses arquivos, pois no futuro você ou alguém poderá precisar deles para fazer o mesmo procedimento ou mesmo para corrigir erros.

Eliminar os JPGs seria o mesmo que destruir os negativos de uma foto ou filme, que só existe em formato editado. Seria como se eu "apagasse" um cantor (a pessoa) e ficasse apenas com uma gravação de um show ou CD dele. A cópia não é mais importante que o original.

Dica:

1) Compacte todas as imagens em um arquivo. Recomendo usar o WinRAR pra isso:
http://www.baixaki.com.br/download/winrar.htm

2) Renomeie a extensão do arquivo de .RAR para .EXE. Ou se preferir, use a opção de criar arquivo auto-executável no próprio WinRAR. Arquivos auto-executáveis são compactados, mas com extensão EXE. Motivo: o Internet Archive não aceita RAR/ZIP, mas aceita EXE.

3) Crie um cadastro (é gratuito) no Internet Archive:

http://www.archive.org

4) Envie o arquivo para lá. Será seu backup de segurança.

Sobre a criação de um arquivo digital - você precisa do programa ABBYY FineReader pra isso. Ele atualmente está na versão 11. Tenha sempre a última versão para evitar problemas.

COMO CONFIGURAR CORRETAMENTE O ABBYY FINEREADER

A primeira coisa que você deve fazer é deixar o ABBYY configurado direitinho pra que não precise mexer novamente. O objetivo é gerar um arquivo PDF de cada JPG que você escaneou. E no meu caso, foi um livro com texto e ilustrações.

Deixe marcado assim:

Imagem

Em configurações da imagem, clique em PERSONALIZAR, e deixe assim:

Imagem

Você deve também (ainda em opções - Avançado - Idioma da interface) - selecionar como idioma o PORTUGUÊS-BRASIL. Ou lá em cima:

Imagem

Se o livro for em português.

Em hipótese alguma deixe essa configuração em AUTOMÁTICO.

COMO LIDAR COM CADA PÁGINA ESCANEADA

Feito tudo isso, mande abrir um JPG que você escaneou. Digamos que meu livro tenha 400 páginas, e eu estou agora mexendo com a página 41.

A página 41 é essa, clique no link para ver (é a minha original):

http://i.imgur.com/ZmJWWSo.jpg

E é assim que o ABBYY reconhece a mesma:

http://i.imgur.com/w3wmpPW.jpg

Qual é o objetivo aqui? Simples, gerar um PDF em texto, pesquisável, onde eu não tenha apenas uma imagem, e sim texto, imagem, tudo bonitinho, e com tamanho bem menor que os 2 MB do arquivo original.

No final, eu terei as 400 páginas com um tamanho razoável, e vou poder ler tudo isso num tablet (como o iPAD) ou PC.

Eu consegui escanear um livro com umas 300 páginas e gastei ao todo 50 MB. Essas mesmas 300 páginas em JPG (600 DPI) consumiram 720 MB. E o melhor de tudo é que o PDF ficou perfeito, sem erros, sem problema algum na leitura, e igualzinho ao livro original. Preservei as imagens, e apenas dei um retoque nas fontes.

Como eu começo a ajustar essa página 41?

Primeiro de tudo, aqui nessa área o programa está com dificuldades de reconhecer o texto, nessas partes azuladas:

Imagem

Você deve olhar pro scan da esquerda e ver o que precisa ser ajustado:

Imagem

Reparem que essa área do livro foi escaneada sem borrar, mas mesmo assim o ABBYY não leu 100%. Vejam como ficou minha correção:

Imagem

Apliquei os espaços onde precisava e corrigi o "Sicília" que saiu incorreto ali.

Vocês lembram que eu comentei que todo livro precisa ser descolado, ficar RENTE no vidro do scanner, retinho, sem levantar?

Vejam aí um exemplo de canto de imagem desfocada:

Imagem

E como o ABBYY leu essa parte:

Imagem

Entenderam agora por que é fundamental que todo livro seja descolado? Nesse caso aí eu escaneei encadernado, mas com a ESPIRAL já colocada. Da próxima vez, eu vou escanear primeiro, e colocar a espiral depois. Entenderam por que isso precisa ser feito? Pra que se economize muito tempo corrigindo textos assim.

Beleza, mas é só isso que a gente precisa fazer no ABBYY?

Infelizmente não. Outros ajustes precisam ser feitos, e isso EM CADA PÁGINA. Se fosse apenas revisar texto, seria rapidinho.

Outra explicação: reparem na imagem da esquerda:

Imagem

E nessa que será o arquivo gerado:

Imagem

A da esquerda está selecionando a figura, em vermelho, e em verde, a "área de reconhecimento".

Essa imagem tem créditos em texto, por isso o ABBYY fez o seguinte: reconheceu o mapa, e os créditos ele transformou em texto.

Mas e se eu quiser ao invés de um mapa com texto do lado, ser uma figura só?

Simples: clique em cima da área verde e pressione DELETE:

Imagem

Repare que não está aparecendo mais nada no arquivo final:

Imagem

Agora, basta clicar na área vermelha e mover até ENQUADRAR os créditos também.

Imagem

Vejam como ficou:

Imagem

E do lado direito, como será o resultado final:

Imagem

Simples, não? O que era texto nos créditos da imagem virou agora imagem do mapa + créditos. Eu pessoalmente prefiro uma imagem só dos dois porque me poupa tempo de revisar os créditos, até pelo tamanho pequeno da fonte.

Outra coisa: o ABBYY tenta enquadrar imagens como essa do mapa, mas ele sempre deixa um pedaço beeeeeem pequeno cortado. Por via das dúvidas, deixe uma sobra, como nesse exemplo aqui:

Imagem

Reparem que eu deixei mais cinza de fundo nos quatro cantos desse mapa. Porque o ABBYY corta bem preciso, mas pode deixar algo de fora. E normalmente o ABBYY cortaria só o mapa, deixando os créditos do lado esquerdo de fora. Nada que um pequeno ajuste não resolva.

Próxima dica: REDUZIR O TAMANHO DA FONTE:

Se eu olhasse apenas pro lado esquerdo da tela, diria que o texto não está se chocando com a figura:

Imagem

Mas eu preciso olhar do lado direito pra saber como será o arquivo final. E repare que está ocorrendo esse choque, sim:

Imagem

Isso pode ocorrer com um texto de um lado e um do outro. A solução é simples, vá lá em cima e reduza o tamanho da fonte, após selecionar o texto todo.

Nesse exemplo, a fonte é Book Antiqua 9,5. Eu coloquei 9. Vejam como ficou:

Imagem

Ah, mas quando eu vou saber se é pra reduzir ou não? Simples, imagine que em 100% dos casos você precisa reduzir.

Só que dentro da mesma página, eu tenho um texto menor que o principal:

Imagem

Esse eu não mexo. Ou se for mexer, eu diminuo 0,5 ponto na fonte dele, da mesma forma que fiz com o outro.

Imagem

- MAIS DICAS:

P - Digamos que eu tenha uma figura de um mapa, e além de estar vermelha, ela tenha texto em verde (verde = área de reconhecimento) no meio dela. É só deletar os verdes e deixar o vermelho?

R- Não, você deve deletar os verdes e o vermelho. E depois desenhar a figura de novo.

Exemplo de mistura de verde-vermelho:

Imagem

Vermelho = a imagem de fundo
Verde = imagem também, mas o programa acha que deve virar texto

O resultado final ficaria:

Imagem

Basta clicar em cima do verde, e deletar. Mas tem que fazer isso no vermelho também, senão no resultado final, borra.

Imagem

Do lado direito, não tenho nada...

Imagem

"Desenho" de novo em vermelho aquela área:

Imagem

E pronto.

Isso pode ocorrer em imagens que pareçam ter texto.

Eu não acho indicado misturar imagem com texto. Se a imagem tem texto dentro dela, eu deixo ela inteira como imagem, e o texto apenas se estiver do lado de fora dela. Mesmo que seja um gráfico com estatísticas, eu prefiro deixar em imagem. Isso também poupa tempo na revisão.

********

P - Como faço pra mudar uma figura pra uma área de reconhecimento e vice-versa?

R - Apenas clique com o botão direito em cima dela e escolha a desejada em ALTERAR TIPO DE ÁREA.

P - Como faço pra editar e salvar vários arquivos ao mesmo tempo?

R - Após abrir vários scans (JPGs), e terminar de editar/revisar, clique lá em cima em SALVAR:

Imagem

E "criar um arquivo separado para cada página" ou arquivo único.

Imagem

***************

GERANDO O ARQUIVO FINAL

Aqui eu uso o ADOBE ACROBAT pra juntar todos os arquivos PDF criados pelo ABBYY FineReader. Abro o primeiro PDF, e...

Imagem

Seleciono o segundo PDF, e especifico onde colocar ele.

Imagem

E assim vai. Arquivo, Salvar como... e pronto.

Aqui vai um exemplo de 1 página escaneada, e PDF gerado a partir dela:

JPG:
http://i.imgur.com/6BKYnbO.jpg

PDF:
https://www.dropbox.com/s/ap9ywmdk105s2f4/PAG30.pdf

Vejam que dá pra selecionar o texto todinho, e colar em outro lugar. Ou mesmo ao abrir esse PDF num tablet, pesquisar por palavras-chave dentro desse arquivo.

A qualidade final no tablet eu gostei. Uma outra vantagem de se usar o ABBYY e reconhecer os caracteres é que você pode ampliar o texto do ebook ao máximo. Já com imagem, mesmo isso sendo possível, depois de uma certa ampliação, ela ficaria degradada.

No entanto, são poucos os ebooks (PDFs gerados a partir de scans) que tenham passado pela parada do OCR.

CONSIDERAÇÕES FINAIS

Quanto ao tempo pra fazer isso tudo, infelizmente é coisa de 1-2 semanas no mínimo. Eu cheguei a fazer em 1 semana, mas correndo. O procedimento mais demorado é o último, porém eu poderia ter economizado um bom tempo na hora de escanear se tivesse feito folha por folha sem ele estar encadernado primeiro.

Por ser um livro com ilustrações e várias páginas, o tamanho final ficou 50 MB, um pouco grande, mas óbvio que ficaria beeeeeeem menor se a maioria das páginas tivessem apenas texto.

Imagem

Eu não conheço outros tablets, mas ler um livro no iPAD (fica a dica de reduzir o brilho dele, porque isso é que cansa a vista e desestimula a usar) é ótimo. Infelizmente é pra pouco$$$$$$$, porém compensa e muito se você quer se livrar das versões ultrapassadas em papel de livros e outras coisas.

Por que se dar a todo esse trabalho se você já tem o livro? Não apenas pela praticidade, mas como forma de preservar esse material da melhor maneira possível.

Imagem

Se você quiser ter uma idéia do que seja um livro mal escaneado, visite o INTERNET ARCHIVE (que já mencionei lá em cima) e baixe qualquer livro de domínio público que o site tenha. Não precisa nem ter um tablet pra entender o que estou falando - abra um deles no seu PC mesmo.

E veja como são extremamente pesados, e lentos pra carregar cada página. Quando a gente lê um livro, virar a página é algo instantâneo. Mas um livro mal escaneado, mesmo que seja pequeno, pode ser um amontoado de imagens (sem reconhecimento de caracteres) que em qualquer equipamento demoram segundos pra serem visualizadas.

Infelizmente, nem tudo são flores, e o reconhecimento de caracteres não é perfeito. Por isso que você precisa revisar direitinho cada página, bater o olho e tentar localizar alguma palavra reconhecida erroneamente.

Pode levar tempo, mas no final compensa, e muito.

Quanto a outros programas ou alternativas não mencionadas no tópico (eu citei programas pagos), desconheço, mas se alguém quiser recomendar, fique à vontade.
Responder
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#2 Por Penitante
18/12/2013 - 18:24
Pessoal, alguns acréscimos/observações sobre esse guia:

- Seria interessante no futuro ver como escanear material em que cada página seja MAIOR que o vidro do scanner.

- Eu retirei a informação de que se deve escanear em 300 DPI se o livro for apenas texto (sem ilustrações de qualquer espécie). Infelizmente nessa qualidade o ABBYY Finereader tem dificuldade em reconhecer os caracteres, já em 600 DPI isso não ocorre. E dá justamente o aviso que a resolução está baixa. Logo, deve-se escanear em 600 DPI também se o livro for só de texto.

Uma forma de economizar tempo seria escanear 2 páginas ao mesmo tempo, se ambas couberem no vidro do scanner, no caso de livros pequenos. Aí seria só o trabalho de no Photoshop mesmo salvar em 2 arquivos diferentes, após recortar.

- Fui na gráfica hoje e me responderam que é possível apenas FURAR cada livro e passar a espiral depois. Vejam na foto um exemplo de páginas soltas, sem a espiral:

Imagem

Isso deve ser feito porque como eu disse, a espiral "levanta" o livro na hora de escanear e isso acaba DESFOCANDO parte(s) da imagem, dificultando mais ainda mexer no ABBYY Finereader.

Só devemos tomar cuidado pra não misturar páginas que não estejam numeradas. Depois eu vou levar na gráfica pra passar a espiral.

- Me disseram que é possível furar livros de capa dura, também. Deixei 3 lá e vou buscar essa semana. Um deles, apesar de ser menor que folha A4, tem 1200 páginas, e nesse caso a maior espiral que eles tem não é da grossura dele. A solução vai ser dividir o livro em dois, claro.

- Alguns livros, como eu também alertei, possuem texto no canto da página, onde justamente a gráfica vai FURAR pra encadernar - mas isso só na parte da capa dura, não nas folhas em si. A gráfica que eu fui me alertou que nessas páginas em particular, o furo seria no meio desses textos.

Em um deles, eu escaneei com o livro COLADO mesmo, só essas páginas, e ficou bom. Mas isso porque é na capa e contracapa. Se fosse na página 200 por exemplo (na folha, não na capa dura), desfocaria porque ao abrir o livro inteiro no vidro, o scanner não alcançaria o canto justamente por conta da cola.

- A princípio eu não quis ter nenhum trabalho e apenas pesquisei os mesmos livros na internet. Mas uma quantidade muito grande de livros não foi sequer escaneada. Não existe, portanto, nem gratuitamente e disponibilizado por alguém, nem oficialmente, pela editora.

- Um pequeno cálculo de tempo gasto: se um livro tem 500 páginas, e leva-se 2 minutos pra escanear, até 1 pra arrumar no Photoshop, e 3 (dá pra levar até menos que isso, mas depende, em alguns casos, o tempo pode ser maior, tem que ver que tipo de conteúdo tem a página), no total perde-se 3.000 minutos só com esse livro, ou 50 horas / mais de 2 dias. Isso sem parar pra nada, claro.

Por isso que eu expliquei que é negócio de no mínimo 1, 2 semanas, se você estiver sem nada pra fazer e se dedicar só a essa tarefa.

- O que leva mais tempo? Corrigir os caracteres detectados? Não. Porque o ABBYY detecta quase 100% do texto como ele está no livro original. A precisão do programa é impressionante.

Somente quando o livro é mal escaneado ou está em condições ruins (como sujo) que ele tem dificuldade. O tempo maior que você vai levar é pra arrumar a fonte ou enquadrar imagens que existam na página. Ou ainda pra desenhar em cima de áreas que o ABBYY não detectou. São esses detalhezinhos que consumirão mais tempo. Mas precisam ser corrigidos, do contrário o resultado final vai ficar ruim.

Então, se for pra arrumar 1 página só de um livro, em menos de 10 minutos no total, até uma criança faz isso. O problema não é a dificuldade. É o tempo gasto.

É que isso aí não é serviço pra uma pessoa só fazer. Uma deveria escanear tudo, OK, mas distribuir pra outras (um grupo, que soubesse mexer no ABBYY e fazer o mesmo) converterem uma quantidade de JPG pra PDF (eu prefiro converter cada página em um PDF separado, depois é que junto tudo).

Por isso que demora tanto, e por isso certamente que tão poucos livros são escaneados (ou BEM escaneados). Isso é pior pra todos, porque o tempo dos livros de papel ocupando espaço, juntando poeira, nada práticos, já passou.
Rogério Guerreiro
Rogério Guer... Super Zumbi Registrado
1.4K Mensagens 1.7K Curtidas
#5 Por Rogério Guer...
20/12/2013 - 09:46
Clicando em Start, ele pergunta QUAL DISPOSITIVO VOCÊ QUER USAR? Clico no ícone do meu e depois em CONFIGURAÇÕES PERSONALIZADAS, coloco 600 DPI.

O ruim é que preciso colocar esse número toda vez. Porque mesmo que você coloque uma vez, na próxima ele mostrará o número padrão que poderá ser diferente. Quer dizer, se eu for escanear 1000 vezes, preciso ir 1000 vezes em CONFIGURAÇÕES PERSONALIZADAS (resolução) e me certificar que está em 600 DPI.


Hmmm... será que o seu scanner não está configurado para uma resolução menor que 600 dpi? Se você puder mudar a resolução padrão do scanner para 600 dpi, pode ser que o Photoshop já reconheça automaticamente essa resolução e você não precise mudar toda hora (só um palpite meu).

Ou talvez o Photoshop mude para resolução de impressão (que, por padrão está configurada para 300 dpi lá em Preferências). Eu não tenho scanner pra testar, mas se quiser tente mudar esse valor para 600 dpi, pra ver se resolve...
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#6 Por Penitante
20/12/2013 - 12:19
Rogério Guerreiro disse:
Hmmm... será que o seu scanner não está configurado para uma resolução menor que 600 dpi? Se você puder mudar a resolução padrão do scanner para 600 dpi, pode ser que o Photoshop já reconheça automaticamente essa resolução e você não precise mudar toda hora (só um palpite meu).

Ou talvez o Photoshop mude para resolução de impressão (que, por padrão está configurada para 300 dpi lá em Preferências). Eu não tenho scanner pra testar, mas se quiser tente mudar esse valor para 600 dpi, pra ver se resolve...
Quando eu clico em configurações personalizadas, ele mostra 100 na caixa de DPI.

É bagunça do Photoshop mesmo, é um saco ter que clicar lá toda vez pra alterar, mas tá desse jeito.

Esse scanner aí consegue escanear até mesmo em 1200 DPI, mas assim o arquivo fica gigante, SE você optar por salvar sem perda de qualidade do JPG. Mas salvando em JPG, fica numa qualidade muito boa (e tipo, uns 10, 20 MB de tamanho), e fotos eu só salvo assim.

Se salvar sem compressão em 1200 DPI, o arquivo fica com mais de 100 MB se não me engano. E fica pesadão pra abrir.

Se me lembro bem, eu escaneei uma vez em 100 DPI ou algo assim e depois ele passou a considerar 100 como o número "padrão" daquela caixa. Mas nos próximos scans mesmo se você alterar pra 600 ele volta pra 100. Talvez exista um jeito de alterar isso pra não ter que mexer toda vez, mas se tem eu não sei.

Infelizmente é mais demorado escanear em 600 DPI (levei uns 2-3 dias pra escanear um livro de quase 300 páginas), mas se escanear em 300 DPI o ABBYY Finereader não reconhece direito os caracteres e manda você aumentar a resolução.

A minha multifuncional é a Epson XP-204, se você pesquisar por aí (não estou encontrando um link agora) deve achar a referência que ela escaneia até em 1200 DPI.

P.S. Já fui no painel de controle e está assim:

Imagem Imagem

É coisa do meu Photoshop, então.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#7 Por Penitante
20/12/2013 - 20:25
Recebi da gráfica hoje os livros com capa dura que mandei furar pra futuramente passar a espiral. Felizmente foi possível furar a capa dura da mesmíssima forma que as folhas normais, sem nenhuma diferença. Inclusive já mandei encadernar (colocar a espiral) em 1 livro que terminei de escanear essa semana, que não tinham colocado a meu pedido DESSA VEZ.

http://i.imgur.com/tX83tMW.jpg

Em um dos casos, eu reparei que eles não deixaram furos, como pode ser visto na imagem abaixo:

http://i.imgur.com/XvvQPct.jpg

Apenas cortaram, ou seja, fiquei com folhas soltas. Eu reclamaria que foi um erro, mas entendi a lógica do que fizeram: se o furo fosse no canto de cada página ficaria ruim, pelo menos nesse caso em particular. Ficaria talvez muito próximo do texto e/ou imagens.

A solução vai ser colocar todas as páginas nisso aqui:

Imagem

Uma pasta com plásticos pra colocar papel dentro.

Os demais livros ficaram perfeitos, iguaizinhos à foto acima, com os furos no canto, sem tocar no texto. Um deles foi um dicionário de umas 700 páginas e o outro um livro menor que uma folha A4, mas com 1.200 páginas, que quando eu for passar a espiral, vai ter que ser dividido em dois.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#8 Por Penitante
06/01/2014 - 17:33
Pessoal, fazendo um adendo a esse guia, eu experimentei escanear 1 página de uma revista de jogos, pois tenho ainda Gamers e outras, e infelizmente vi que nada disso de OCR funciona direito. O esquema correto é esse que alguns sites/pessoas adotaram, de escanear a parada e salvar tudo como imagem (sim, PDF só com imagens), ou seja, sem texto puro, selecionável.

Isso porque a imagem se choca com o texto. Reparem que a área verde pode virar texto, mas ficaria "podando" os lados da imagem que está no centro:

Imagem

Daria pra aplicar um desenho de imagem de fundo aí, ou figura mesmo, porém por melhor que o cara fizesse acho que seria muitíssimo trabalhoso e o resultado final ficaria ruim com certeza.

Quando você vai gerar OCR de livro só de texto, você faz muuuuuuuuuito mais rápido que livro contendo texto e ilustração. Aí entra na questão de se a qualidade do PDF só com imagens que tá na internet é melhor que a sua, se você escanear e salvar. E também se a do cara é lido tranquilo mesmo com qualidade não 100% e a sua terá lag.

Aqui vai um exemplo de 1 página de um PDF só com imagem:

https://dl.dropboxusercontent.com/u/53143167/gamers_58.pdf

O original do cara tem 68 páginas e 56 MB. Só 1 página (eu removi as outras de dentro dele) gastou 926 KB.

Já a mesma página escaneada e salva em 600 DPI (JPG) gastou 4 MB.

Aqui vai a mesma: https://www.dropbox.com/sc/5z2xxpnajiqpqtq/seW60oldPA

Abrindo pelo ABBYY esse JPG e salvando só como imagem dentro de PDF, gastei 740 KB, 20% menos.

https://dl.dropboxusercontent.com/u/53143167/meuscan.pdf

Qual dos dois ficou melhor, eu não parei pra ver. Mas mesmo que o meu tenha ficado melhor, fica a questão do lag na minha geração da parada. Porque toda vez que você vai abrir um PDF com imagem ele demora mais pra carregar a página inteira.

Não sei como esses caras geram PDFs com imagens, mas mesmo com arquivos grandes, eles carregam mais rápido. Talvez porque sejam mais comprimidos, mas isso sacrifica a qualidade.

E pra revistas não rola encadernação pelo que eu vi mesmo. Acho que tem que usar um tira-grampos, e levantar cada grampo no meio dela, tirar, e depois recolocar e dobrar de novo. Esse exemplo aí eu escaneei sem fazer isso, mas fica muito ruim pra ajustar cada página, o cara também perde bem mais tempo e certamente precisa reescanear se não colocar em cima do vidro direito.

Mais uma coisa, eu peguei um terceiro livro didático de umas 200-300 páginas e escaneei todo. Mas esse aí, talvez pela fonte ser branca, o ABBYY não reconheceu o texto dela (foi 1 página só). Mas agora há pouco escaneei de novo e ele fez o reconhecimento direitinho. Isso de não reconhecer direito da primeira vez e na segunda reconhecer escaneando do mesmo jeito nunca tinha ocorrido. E eu escaneei nas duas vezes com o livro descolado.

O não reconhecimento foi gritante, porque ele só reconheceu 1 de várias linhas da página. Talvez tenha sido como eu coloquei em cima do vidro ou o próprio scanner desfocando um scan dentre inúmeros aleatoriamente.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#9 Por Penitante
20/01/2014 - 11:43
E vai aqui uma dica pro pessoal que quer escanear um livro, mas não usar o método de OCR:

Eu testei pelo programa ADOBE FIREWORKS reduzir o tamanho/qualidade dos scans e salvar assim mesmo em PDF. Sendo assim, logo após escanear, em questão de minutos o PDF já ficaria pronto.

O primeiro passo ao escanear é nomear cada página PELA ORDEM. Assim quando for lidar com cada uma, ficaria por exemplo a capa PAGINA0.JPG, a página seguinte como PAGINA1.JPG até chegar em PAGINA290.JPG, vamos colocar assim. Mas isso é já na hora que você estiver escaneando e salvando.

Depois de tudo pronto, com o Fireworks aberto, escolha no menu OPEN o BATCH PROCESS...

http://i.imgur.com/N2avlKE.png

Vejam que nessa tela eu selecionei e cliquei em ADD. Os arquivos apareceram na caixa. Clique em NEXT.

http://i.imgur.com/SJt7vfu.png

Clique em Export, e depois em ADD. Em Scale e depois em ADD. Isso pra que ambos apareçam em INCLUDE IN BATCH, ali na direita.

Próximo passo: vá em Scale e selecione SCALE TO PERCENTAGE. Digite 50 na caixa, como mostra a imagem acima.

http://i.imgur.com/pQ8Iwj1.png

Por último, vá em EXPORT e selecione CUSTOM... Depois clique em EDIT (se a caixa de diálogo não abrir):

http://i.imgur.com/6BvYlgt.png

Selecione JPG e depois digite 50 na caixa. Dê OK.

Depois clique em NEXT.

http://i.imgur.com/PSJ9wEk.png

Clique em BATCH e aguarde até a conclusão. O programa irá converter todos os arquivos JPG (os scans originais em 600 DPI) em versões com 50% de perda de qualidade, e 50% menores. Ele faz isso mesmo se você tem, digamos, 1.000 arquivos JPG, caso tenha selecionado todos.

Assim evita ter que fazer esse ajuste manualmente, em cada um.

Após o término ele irá salvar numa pasta os arquivos modificados e manter os originais.

Último passo: baixe e instale o programa abaixo:

http://fm-pdf.com/jpg-to-pdf-free.html

Com ele aberto, clique em ADD IMAGE e selecione todos os JPG modificados:

http://i.imgur.com/m0FTJYU.png

Clique em OUTPUT e digite o nome do arquivo PDF que será salvo.

Clique em START e aguarde a conclusão. Cuidado pra não selecionar os arquivos fora da ordem, por ex., a página 10 antes da 1. Uma dica é selecionar com a tecla SHIFT todos os arquivos, mas de baixo pra cima, do último para o primeiro.

Vejam que quando eu seleciono de cima pra baixo, ele não adiciona na ordem que eu quero:

http://i.imgur.com/uJHvTW7.png

Já de baixo pra cima, reparem que fica na ordem, direitinho:

http://i.imgur.com/hMN9R4H.png

Alguns cálculos:

- Um livro de 700 páginas (dicionário, ou seja, só texto) escaneado em 600 DPI gastou 1,77 GB. Salvando nesse esquema em PDF, sem OCR, gastou 423 MB.

- Um livro de 320 páginas (semelhante a revistas, ou seja, cada página tem texto e imagem) escaneado em 600 DPI gastou 1,27 GB. Salvando nesse esquema em PDF, sem OCR, gastou 175 MB.

- Um livro de 1.300 páginas (só texto) escaneado em 600 DPI gastou 1,84 GB. Salvando nesse esquema em PDF, sem OCR, gastou 427 MB.

O tamanho final depende do quanto cada página gasta. Uma que contenha imagens/texto pode gastar por ex. 3 MB, e uma só com texto, 1 MB.

- Os mesmos livros com OCR gastariam em torno de 13 MB pro dicionário, 108 MB pro de 320 páginas (gasta tudo isso porque tem muita imagem misturada com texto) e 7 MB pro de 1.300 páginas.

Logo, utilizar o OCR é essencial pra quem precisa não apenas ter as vantagens dele, mas economizar muito espaço de armazenamento.

Outro detalhe: não tem LAG nenhum o arquivo em PDF somente com imagens. E a qualidade final ficou boa pra ser lido num iPAD (tablet).

Quem quiser comparar a qualidade do scan original versus o mesmo arquivo salvo nessas configurações pelo Fireworks, taí os links:

Original em 600 DPI:

http://i.imgur.com/Ot6l4T6.jpg

Reduzido:

http://i.imgur.com/apFUeIf.jpg
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#10 Por Penitante
13/11/2014 - 15:50
Pessoal, um alerta pra quem pretende usar a última versão do Photoshop:

Imagem

A última versão em 64 bit (agora uso um Core i7 e fica rapidinho pra editar e fazer outras coisas, ainda mais num SSD) tem um bug. É a CC 2014, para referência, a 20140508.r.58.x264.

Quando você clica numa das opções já marcadas como mostra a tela acima, o programa fecha automaticamente.

Pesquisando na internet constatei outros usuários com mesmo problema. É possível escanear normal, porém sem alterar essas duas opções. O único inconveniente é que cada arquivo BMP terá o mesmo nome e ficará armazenado numa pasta criada só pra ele, com a data do dia do scan.

Além disso após o scan o arquivo obrigatoriamente abrirá no Photoshop.

Isso é inconveniente porque é possível 1) não abrir automático e 2) criar arquivos com cada final diferente, tipo 001, 002, etc.

Isso em versões diferentes.

EDITADO:

E acabei de descobrir um programa que pode renomear de uma só vez todos os arquivos de uma pasta.

É gratuito: http://www.advancedrenamer.com/download

O método de renomear seria útil nesse caso do Photoshop na versão 64-bit por conta do bug, já que você teria que renomear manualmente todos os BMPs que estão cada um com nome IMG.BMP em uma pasta.

Com o programa aberto, clique com o botão direito e escolha ADICIONAR.

288deed1a0ef78e4dd3a2d3cc3130cfb

Após isso, clique no ícone da pasta IMAGENS, e digite IMG na caixa de pesquisa. Todos os arquivos IMG.BMP de cada diretório aparecerão na lista. Selecione todos e dê OK.

Próximo passo é inserir isso. Menu "Adicionar Método", Novo Nome. Veja na tela abaixo:

b01706b6062c25c30c7e888d4563d139

Percebam que todos os arquivos da pasta IMAGENS do Windows (onde o Photoshop salva após escanear) terão uma ordem. Pode não ser a exata, mas isso já poupa muito tempo de renomeações manuais.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#11 Por Penitante
15/11/2014 - 14:01
E uma nota importante do porquê não se deve escanear com a tampa (do scanner) aberta:

c2b08086c356128afe5239ee962a8878 d45e62ff8da13c0d2c30a20e09f42bc3

(Cliquem para ampliar)

As imagens mostram que com a tampa aberta a folha não é escaneada corretamente, ficando transparente (mistura o outro lado com o escaneado), que arruina o resultado final. Notem que, quando fechada a tampa, a folha é escaneada quase sem isso.

Eu tentei escanear sem fechar a tampa porque ao fechar reparei que as folhas balançam um pouquinho de nada às vezes e o scan "entorta" (bem pouco, mas você nota).
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#15 Por Penitante
16/11/2014 - 15:26
aureoh disse:
Daria também para usar um scanner de mão tipo esse:
Aí você tem como vistualizar o que foi scaneado.
Eu já tive scanner de mão mas vendi. Você não vê se não tiver um PC no local. E pra escanear qualquer coisa é bem ruim de manejar e tem 90% de chances de não fazer isso direito, não recomendo nem pra quem vai levar pra escanear na rua. Melhor fazer isso direitinho, com scanner mesmo, em casa.
Responder Tópico
© 1999-2024 Hardware.com.br. Todos os direitos reservados.
Imagem do Modal