Logo Hardware.com.br
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas

[Tutorial] Como escanear corretamente livros e afins (+ gerar arquivos digitais)

#1 Por Penitante 14/12/2013 - 15:36
Pessoal, eu criei esse tópico para explicar como faço tudo isso, porém está aberto a dicas de qualquer coisa relacionada, seja programa, equipamento, método, ou mesmo objeções aos comentários.

Primeiramente, devo explicar o que o título do tópico quer dizer:

Como escanear corretamente

Muita gente acha que escanear é que nem tirar cópia (xerox), é só tascar a fonte original (livro, revista, folha de documento) em qualquer equipamento, gerar o scan, e beleza, tá tudo pronto. Não é assim, deve ser levado em conta o equipamento que está escaneando a fonte, o programa que está fazendo isso, e mesmo a maneira COMO você está escaneando essa fonte.

Talvez isso explique o porquê (especialmente no Brasil) haja uma escassez enorme de material escaneado, ou mesmo por que ainda encontramos por aí muito material pessimamente escaneado.

Livros e afins

O enfoque do tópico é no "escaneamento" de livros mas também servirá para outros tipos de fontes, porém fica a advertência que não escaneei ainda nenhuma revista, e só lidei com 2 livros até agora.

+ gerar arquivos digitais

Não basta escanear, você precisa saber como criar da maneira mais adequada um arquivo que possa ser lido seja no computador, seja num tablet específico. Esse procedimento é o mais demorado de todos, mas não é de forma alguma complicado (nenhum deles é).

Vou tentar ser o mais minucioso possível pra que não reste nenhuma dúvida a respeito.

******************************************************************
******************************************************************
******************************************************************
******************************************************************

Primeiro: a escolha do scanner

A resolução é o aspecto mais relevante na escolha de um scanner, porque quanto maior a mesma, melhor a fidelidade (qualidade, precisão) com que o aparelho irá capturar imagens (afinal, não estamos lidando apenas com texto, existem livros com ilustrações e você pode querer escanear suas fotos pessoais também).

Os scanners de documentos do mercado tem até 600 DPI (pontos por polegada) de resolução óptica. Em termos de custo-benefício, eu optei pela multifuncional (impressora + scanner) da Epson, XP-204, que tem resolução de 1200x2400 se não me engano. Quando vou escanear ele permite fazer com até 1200 DPI, porém o arquivo final fica GIGANTE (exigindo um PC atual pra abrir sem problemas).

Procure por um scanner que apresente uma resolução de pelo menos 600 x 1.200 DPI. Esse que citei custou entre 200-300 reais na época.

A escolha não é um problema, pois a maioria dos scanners nessa faixa de preço tem uma resolução adequada.

Imagem

- Devo comprar um scanner de mão?

Não. Seguem os motivos, e o uso adequado desse equipamento:

- O scanner de mão custa até mais caro que o de mesa, em alguns casos passando dos R$ 300;

- Você precisa ter habilidade em passar o scanner em cima do papel, pois se não passar em cima dele todo, a imagem ficará cortada, ou ainda torta, obrigando a escanear DE NOVO.

Até dá pra escanear, mas em 90% dos casos você não consegue escanear 100% (de cima até embaixo), é na tentativa-e-muitos-erros. E não digo erro porque sua mão tremeu, e sim erro de não capturar toda a informação contida no papel.

Isso seria aceitável se eu fosse escanear uma folha, mas fatal se o objetivo fosse escanear um livro de 400 páginas.

- Não pode ver como ficará o resultado final. Tem como ver na hora se você ligar na USB de um computador. Aí, após passar o scanner, com um programa do fabricante, ele mostra a imagem gerada. Do contrário, ele salva num cartão de memória, que você precisa tirar dele e ligar no PC pra ver as fotos.

- Pelo menos o modelo que comprei usa pilhas palito. E por relatos que li, essas gastam relativamente rápido.

- A qualidade eu achei inferior à do scanner de mesa, apesar de permitir escanear em resolução parecida.

- O mesmo problema do scanner de mesa pra escanear livros colados. Eu comprei um de mão achando que resolveria isso. Vou explicar essa questão dos livros mais na frente.

- O uso ideal do scanner de mão é pra escanear algum documento na rua, apenas se você não puder levar pra casa e colocar no SEU SCANNER DE MESA.

É essa a única utilidade (ou finalidade) dele. Não servirá para fazer um scan "definitivo" de qualquer coisa.

Serve pra por exemplo, se você é um advogado e precisa escanear a folha de um processo que não vai levar pra casa.

******************************************************************
******************************************************************
******************************************************************
******************************************************************

Imagem

Segundo: a preparação do material para ser escaneado

Até o momento eu escaneei apenas dois livros colados.

Livro com capa dura é isso:

Imagem

Os dois livros que analisei estão em português e são novos. Ambos tem em torno de 300-400 páginas. E a capa/contracapa é da mesma grossura do resto.

O que é livro colado? Exatamente isso: colado, e não grampeado, como uma revista. Veja na foto:

Imagem

Repare que ele não "dobra" no meio das páginas, porque tem cola. Se fosse grampeado, como uma revista, dobraria na metade das páginas (ex: a revista tem 100 páginas, os grampos ficariam na página 50.

Imagem

REGRA DE OURO: Todo livro, sem exceção, precisa ser descolado antes de ser escaneado.

Por que isso? Simples: se você tentar escanear um livro COLADO, não vai conseguir fazer isso direito, porque quando colocar no vidro do scanner, a página não irá ficar RENTE nele (irá levantar) e a imagem ficará borrada, desfocada, sem nitidez.

Em algum lugar do scan, a imagem ficará assim, e pelo que observei, isso acontece justamente no CANTO ou ainda na parte mais baixa dela. Isso irá impedir a criação de um arquivo DIGITAL com o livro escaneado, ou no mínimo dificultar ao extremo.

Além do resultado final ficar sem fidelidade, ruim. Ou seja: será como se você escaneasse de qualquer jeito. Talvez isso funcione com livros contendo apenas texto e mais nada. Ou ainda aqueles livros que não tem o tamanho de uma folha A4.

Mas quando um scan contém textos, formatações específicas e ilustrações, não.

NÃO MESMO.

Imagem

Pense o seguinte: quando vai fazer uma tomografia computadorizada, você precisa ficar imóvel e deitado no equipamento. Quando vai escanear da maneira mais correta, é a mesma coisa.

Precisa escanear folha por folha, e não um amontoado de folhas, uma sobre a outra.

A SOLUÇÃO: ENCADERNAR

Volto a frisar que só fiz isso com dois livros e ambos não eram capa-dura. Ao mandar encadernar, gastei aqui R$ 5 por livro. O resultado ficou assim:

Imagem

Dessa forma, foi possível dobrar página por página e escanear cada uma, sem problema, no vidro do scanner.

O furo é feito no canto da página e a espiral inserida, de forma que se o livro não contém informação alguma lá no cantinho, melhor ainda, mas se contém óbvio que o furinho será no meio dela.

Exemplo de furo em cima do conteúdo do livro, apesar de ser no canto (clique no link para ver):

http://i.imgur.com/CjdAdOK.jpg

Exemplo de página que não utiliza os cantos e que furando, não tem problema algum (clique no link para ver):

http://i.imgur.com/fOpBIvS.jpg

Só que tem um porém - embora assim seja possível escanear e preservar o livro (a menos que alguém saiba como descolar tudo e depois de escanear, mandar encadernar), também tive o mesmo problema dele levantar e desfocar alguma área da página.

Isso porque a espiral também prejudica o scan, obrigando você a escanear de novo em alguns casos. Isso eu notei num livro de quase 400 páginas, mas não observei em outro de 300 onde a espiral ficou pequena.

Logo, o procedimento mais adequado seria:

1) Mandar encadernar, furando o livro todo no canto;

2) Levar tudo solto pra casa. Escanear folha por folha;

3) Levar de novo na gráfica, todas as folhas juntas, pra passar a espiral.

E não furar, passar a espiral, e depois escanear.

Entenderam? Eu farei isso da próxima vez.

******************************************************************
******************************************************************
******************************************************************
******************************************************************

Terceiro: escaneando

REGRA DE OURO: Use sempre 600 DPI, mesmo que a fonte que você pretenda escanear contenha apenas texto.

IMPORTANTE: Eu testei em 300 DPI um livro contendo apenas texto, porém não prestou para seguir o último passo desse guia (OCR), acusando que a fonte estava muito pequena. Por isso, nunca escaneie qualquer material em resolução inferior a 600 DPI (mais que isso não é necessário pelo que verifiquei - a menos que você queira escanear fotos pessoais).

Apenas texto (exemplo):

Imagem

Texto e imagem eu já postei lá em cima dois exemplos. O tempo que levou pra escanear em 600 DPI aqui foi de uns 2 minutos por página.

A solução mais óbvia seria usar o programa que vem com o scanner e mandar escanear. Porém, além de escanear, você precisa editar o resultado final, pois a imagem pode ser gerada de cabeça pra baixo e você precisa cortar os 4 cantos dela.

A SOLUÇÃO: USAR O ADOBE PHOTOSHOP PARA AS DUAS COISAS

A versão que uso é a CS6 num Windows 8-32 bit, e meu PC é um Core Quad 9450 com 3 GB de RAM. Não sei quanto a outras máquinas e outras versões desse programa. Um motivo pra utilizar o mesmo, além da edição, foi que o programa que vinha com meu scanner não permitia configurar uma resolução mais alta (na época eu usava 1200 DPI pra fotos pessoais).

Como escanear com ele: com o Photoshop aberto vá em: Arquivo/Importar e clique no modelo de seu Scanner.

Imagem

Abrirá a tela de digitalização de seu Scanner.

Imagem

Quando terminar de escanear, a fotografia abrirá dentro do Photoshop.

Imagem

No meu caso, o Photoshop está em inglês. Eu vejo essa tela:

Imagem

Menu File, Import, clico em WIA SUPPORT...

Imagem

Nessa tela ele dá duas opções: Open Acquired Image in Photoshop deve ficar marcada (abrir imagem escaneada no Photoshop). Devemos abrir, pois o objetivo é editá-la.

A segunda deve ser desmarcada, pois ele irá criar uma pasta com cada imagem escaneada no formato BMP e com cada uma gastando uns 100 MB. Limpe depois a pasta IMAGENS pois ele irá criar cópias de cada scan lá, gastando espaço do seu HD.

Clicando em Start, ele pergunta QUAL DISPOSITIVO VOCÊ QUER USAR? Clico no ícone do meu e depois em CONFIGURAÇÕES PERSONALIZADAS, coloco 600 DPI.

O ruim é que preciso colocar esse número toda vez. Porque mesmo que você coloque uma vez, na próxima ele mostrará o número padrão que poderá ser diferente. Quer dizer, se eu for escanear 1000 vezes, preciso ir 1000 vezes em CONFIGURAÇÕES PERSONALIZADAS (resolução) e me certificar que está em 600 DPI.

Imagem

Depois de escanear, aparecerá no Photoshop o documento, e se estiver de cabeça pra baixo, vá em IMAGE - IMAGE ROTATION - 180 graus, pra girar. Não precisa fazer isso se toda vez que for escanear, posicionar o papel do lado correto no vidro.

Outro ajuste que precisa ser feito é nos cantos da imagem, como falei. Digamos que eu queira pegar a imagem acima e recortar o AUTO TONE, removendo o resto.

No Photoshop, clique nesse ícone (ferramenta CROP):

Imagem

Depois apenas clique e segure até selecionar a área desejada.

Imagem

Ao soltar, apenas aquela área ficará selecionada.

Imagem

Dê ENTER para recortar essa área e excluir o restante:

Imagem

Bem simples. Como eu quero fazer isso nos cantos, digamos que eu tenha essa imagem:

Imagem

Reparem que ali no canto esquerdo, dá pra ver os furos no papel. No canto direito, não dá.

Usando a ferramenta CROP, eu apenas ARRASTO a linha do canto da esquerda pra direita:

Imagem

E agora faço o quê? Dou ENTER, pra recortar.

Ficará assim:

Imagem

Fácil, não? Só precisa ser feito nos 4 cantos da imagem. Leva menos de 1 minuto pra isso.

Após recortar, agora basta salvar a página escaneada.

MENU ARQUIVO (ou FILE) - SALVAR COMO (OBS: Use "salvar como" (Save As no Photoshop em inglês), e não "Salvar/Save").

Escolha JPG.

Imagem

Aqui basta dar OK, e pronto, arquivo salvo, página escaneada. Eu deixo nessa configuração de qualidade mesmo, fica a seu critério, porém não achei o resultado final ruim salvando em JPG e deixando na qualidade padrão do Photoshop.

Em 600 DPI, o arquivo final seguindo esses passos fica em média com 2 MB.


******************************************************************
******************************************************************
******************************************************************
******************************************************************

Imagem

Quarto: como criar um "arquivo digital" a partir dos scans, com reconhecimento de caracteres.

REGRAS DE OURO: Não tenha pressa em momento algum. Aqui todo cuidado é pouco. E mesmo após gerar o "arquivo digital", não se desfaça dos scans.

Depois que você escanear todas as páginas do livro e salvar em JPG, deve mantê-las em algum lugar, num backup de segurança. Em momento algum apague esses arquivos, pois no futuro você ou alguém poderá precisar deles para fazer o mesmo procedimento ou mesmo para corrigir erros.

Eliminar os JPGs seria o mesmo que destruir os negativos de uma foto ou filme, que só existe em formato editado. Seria como se eu "apagasse" um cantor (a pessoa) e ficasse apenas com uma gravação de um show ou CD dele. A cópia não é mais importante que o original.

Dica:

1) Compacte todas as imagens em um arquivo. Recomendo usar o WinRAR pra isso:
http://www.baixaki.com.br/download/winrar.htm

2) Renomeie a extensão do arquivo de .RAR para .EXE. Ou se preferir, use a opção de criar arquivo auto-executável no próprio WinRAR. Arquivos auto-executáveis são compactados, mas com extensão EXE. Motivo: o Internet Archive não aceita RAR/ZIP, mas aceita EXE.

3) Crie um cadastro (é gratuito) no Internet Archive:

http://www.archive.org

4) Envie o arquivo para lá. Será seu backup de segurança.

Sobre a criação de um arquivo digital - você precisa do programa ABBYY FineReader pra isso. Ele atualmente está na versão 11. Tenha sempre a última versão para evitar problemas.

COMO CONFIGURAR CORRETAMENTE O ABBYY FINEREADER

A primeira coisa que você deve fazer é deixar o ABBYY configurado direitinho pra que não precise mexer novamente. O objetivo é gerar um arquivo PDF de cada JPG que você escaneou. E no meu caso, foi um livro com texto e ilustrações.

Deixe marcado assim:

Imagem

Em configurações da imagem, clique em PERSONALIZAR, e deixe assim:

Imagem

Você deve também (ainda em opções - Avançado - Idioma da interface) - selecionar como idioma o PORTUGUÊS-BRASIL. Ou lá em cima:

Imagem

Se o livro for em português.

Em hipótese alguma deixe essa configuração em AUTOMÁTICO.

COMO LIDAR COM CADA PÁGINA ESCANEADA

Feito tudo isso, mande abrir um JPG que você escaneou. Digamos que meu livro tenha 400 páginas, e eu estou agora mexendo com a página 41.

A página 41 é essa, clique no link para ver (é a minha original):

http://i.imgur.com/ZmJWWSo.jpg

E é assim que o ABBYY reconhece a mesma:

http://i.imgur.com/w3wmpPW.jpg

Qual é o objetivo aqui? Simples, gerar um PDF em texto, pesquisável, onde eu não tenha apenas uma imagem, e sim texto, imagem, tudo bonitinho, e com tamanho bem menor que os 2 MB do arquivo original.

No final, eu terei as 400 páginas com um tamanho razoável, e vou poder ler tudo isso num tablet (como o iPAD) ou PC.

Eu consegui escanear um livro com umas 300 páginas e gastei ao todo 50 MB. Essas mesmas 300 páginas em JPG (600 DPI) consumiram 720 MB. E o melhor de tudo é que o PDF ficou perfeito, sem erros, sem problema algum na leitura, e igualzinho ao livro original. Preservei as imagens, e apenas dei um retoque nas fontes.

Como eu começo a ajustar essa página 41?

Primeiro de tudo, aqui nessa área o programa está com dificuldades de reconhecer o texto, nessas partes azuladas:

Imagem

Você deve olhar pro scan da esquerda e ver o que precisa ser ajustado:

Imagem

Reparem que essa área do livro foi escaneada sem borrar, mas mesmo assim o ABBYY não leu 100%. Vejam como ficou minha correção:

Imagem

Apliquei os espaços onde precisava e corrigi o "Sicília" que saiu incorreto ali.

Vocês lembram que eu comentei que todo livro precisa ser descolado, ficar RENTE no vidro do scanner, retinho, sem levantar?

Vejam aí um exemplo de canto de imagem desfocada:

Imagem

E como o ABBYY leu essa parte:

Imagem

Entenderam agora por que é fundamental que todo livro seja descolado? Nesse caso aí eu escaneei encadernado, mas com a ESPIRAL já colocada. Da próxima vez, eu vou escanear primeiro, e colocar a espiral depois. Entenderam por que isso precisa ser feito? Pra que se economize muito tempo corrigindo textos assim.

Beleza, mas é só isso que a gente precisa fazer no ABBYY?

Infelizmente não. Outros ajustes precisam ser feitos, e isso EM CADA PÁGINA. Se fosse apenas revisar texto, seria rapidinho.

Outra explicação: reparem na imagem da esquerda:

Imagem

E nessa que será o arquivo gerado:

Imagem

A da esquerda está selecionando a figura, em vermelho, e em verde, a "área de reconhecimento".

Essa imagem tem créditos em texto, por isso o ABBYY fez o seguinte: reconheceu o mapa, e os créditos ele transformou em texto.

Mas e se eu quiser ao invés de um mapa com texto do lado, ser uma figura só?

Simples: clique em cima da área verde e pressione DELETE:

Imagem

Repare que não está aparecendo mais nada no arquivo final:

Imagem

Agora, basta clicar na área vermelha e mover até ENQUADRAR os créditos também.

Imagem

Vejam como ficou:

Imagem

E do lado direito, como será o resultado final:

Imagem

Simples, não? O que era texto nos créditos da imagem virou agora imagem do mapa + créditos. Eu pessoalmente prefiro uma imagem só dos dois porque me poupa tempo de revisar os créditos, até pelo tamanho pequeno da fonte.

Outra coisa: o ABBYY tenta enquadrar imagens como essa do mapa, mas ele sempre deixa um pedaço beeeeeem pequeno cortado. Por via das dúvidas, deixe uma sobra, como nesse exemplo aqui:

Imagem

Reparem que eu deixei mais cinza de fundo nos quatro cantos desse mapa. Porque o ABBYY corta bem preciso, mas pode deixar algo de fora. E normalmente o ABBYY cortaria só o mapa, deixando os créditos do lado esquerdo de fora. Nada que um pequeno ajuste não resolva.

Próxima dica: REDUZIR O TAMANHO DA FONTE:

Se eu olhasse apenas pro lado esquerdo da tela, diria que o texto não está se chocando com a figura:

Imagem

Mas eu preciso olhar do lado direito pra saber como será o arquivo final. E repare que está ocorrendo esse choque, sim:

Imagem

Isso pode ocorrer com um texto de um lado e um do outro. A solução é simples, vá lá em cima e reduza o tamanho da fonte, após selecionar o texto todo.

Nesse exemplo, a fonte é Book Antiqua 9,5. Eu coloquei 9. Vejam como ficou:

Imagem

Ah, mas quando eu vou saber se é pra reduzir ou não? Simples, imagine que em 100% dos casos você precisa reduzir.

Só que dentro da mesma página, eu tenho um texto menor que o principal:

Imagem

Esse eu não mexo. Ou se for mexer, eu diminuo 0,5 ponto na fonte dele, da mesma forma que fiz com o outro.

Imagem

- MAIS DICAS:

P - Digamos que eu tenha uma figura de um mapa, e além de estar vermelha, ela tenha texto em verde (verde = área de reconhecimento) no meio dela. É só deletar os verdes e deixar o vermelho?

R- Não, você deve deletar os verdes e o vermelho. E depois desenhar a figura de novo.

Exemplo de mistura de verde-vermelho:

Imagem

Vermelho = a imagem de fundo
Verde = imagem também, mas o programa acha que deve virar texto

O resultado final ficaria:

Imagem

Basta clicar em cima do verde, e deletar. Mas tem que fazer isso no vermelho também, senão no resultado final, borra.

Imagem

Do lado direito, não tenho nada...

Imagem

"Desenho" de novo em vermelho aquela área:

Imagem

E pronto.

Isso pode ocorrer em imagens que pareçam ter texto.

Eu não acho indicado misturar imagem com texto. Se a imagem tem texto dentro dela, eu deixo ela inteira como imagem, e o texto apenas se estiver do lado de fora dela. Mesmo que seja um gráfico com estatísticas, eu prefiro deixar em imagem. Isso também poupa tempo na revisão.

********

P - Como faço pra mudar uma figura pra uma área de reconhecimento e vice-versa?

R - Apenas clique com o botão direito em cima dela e escolha a desejada em ALTERAR TIPO DE ÁREA.

P - Como faço pra editar e salvar vários arquivos ao mesmo tempo?

R - Após abrir vários scans (JPGs), e terminar de editar/revisar, clique lá em cima em SALVAR:

Imagem

E "criar um arquivo separado para cada página" ou arquivo único.

Imagem

***************

GERANDO O ARQUIVO FINAL

Aqui eu uso o ADOBE ACROBAT pra juntar todos os arquivos PDF criados pelo ABBYY FineReader. Abro o primeiro PDF, e...

Imagem

Seleciono o segundo PDF, e especifico onde colocar ele.

Imagem

E assim vai. Arquivo, Salvar como... e pronto.

Aqui vai um exemplo de 1 página escaneada, e PDF gerado a partir dela:

JPG:
http://i.imgur.com/6BKYnbO.jpg

PDF:
https://www.dropbox.com/s/ap9ywmdk105s2f4/PAG30.pdf

Vejam que dá pra selecionar o texto todinho, e colar em outro lugar. Ou mesmo ao abrir esse PDF num tablet, pesquisar por palavras-chave dentro desse arquivo.

A qualidade final no tablet eu gostei. Uma outra vantagem de se usar o ABBYY e reconhecer os caracteres é que você pode ampliar o texto do ebook ao máximo. Já com imagem, mesmo isso sendo possível, depois de uma certa ampliação, ela ficaria degradada.

No entanto, são poucos os ebooks (PDFs gerados a partir de scans) que tenham passado pela parada do OCR.

CONSIDERAÇÕES FINAIS

Quanto ao tempo pra fazer isso tudo, infelizmente é coisa de 1-2 semanas no mínimo. Eu cheguei a fazer em 1 semana, mas correndo. O procedimento mais demorado é o último, porém eu poderia ter economizado um bom tempo na hora de escanear se tivesse feito folha por folha sem ele estar encadernado primeiro.

Por ser um livro com ilustrações e várias páginas, o tamanho final ficou 50 MB, um pouco grande, mas óbvio que ficaria beeeeeeem menor se a maioria das páginas tivessem apenas texto.

Imagem

Eu não conheço outros tablets, mas ler um livro no iPAD (fica a dica de reduzir o brilho dele, porque isso é que cansa a vista e desestimula a usar) é ótimo. Infelizmente é pra pouco$$$$$$$, porém compensa e muito se você quer se livrar das versões ultrapassadas em papel de livros e outras coisas.

Por que se dar a todo esse trabalho se você já tem o livro? Não apenas pela praticidade, mas como forma de preservar esse material da melhor maneira possível.

Imagem

Se você quiser ter uma idéia do que seja um livro mal escaneado, visite o INTERNET ARCHIVE (que já mencionei lá em cima) e baixe qualquer livro de domínio público que o site tenha. Não precisa nem ter um tablet pra entender o que estou falando - abra um deles no seu PC mesmo.

E veja como são extremamente pesados, e lentos pra carregar cada página. Quando a gente lê um livro, virar a página é algo instantâneo. Mas um livro mal escaneado, mesmo que seja pequeno, pode ser um amontoado de imagens (sem reconhecimento de caracteres) que em qualquer equipamento demoram segundos pra serem visualizadas.

Infelizmente, nem tudo são flores, e o reconhecimento de caracteres não é perfeito. Por isso que você precisa revisar direitinho cada página, bater o olho e tentar localizar alguma palavra reconhecida erroneamente.

Pode levar tempo, mas no final compensa, e muito.

Quanto a outros programas ou alternativas não mencionadas no tópico (eu citei programas pagos), desconheço, mas se alguém quiser recomendar, fique à vontade.
Responder
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#16 Por Penitante
17/12/2014 - 21:24
Mais algumas infos que postei em outro fórum, apenas reiterando:

- O Adobe Acrobat é um programa pago, o gratuito é que é o Reader. O Reader não serve para edições.

- Tem sites que juntam imagens enviadas e convertem em PDF, porém nunca é bom usá-los porque sempre tem limitações. Sem contar que pelo Acrobat você faz isso da maneira ideal.

- Pra juntar imagens o programa usado é esse, que é gratuito:
http://fm-pdf.com/jpg-to-pdf-free.html

O modo como isso é feito foi explicado no tópico.

- Exemplo de site que diz juntar imagens e gerar PDF: http://www.convert-jpg-to-pdf.net/

- Nunca é bom usar versões desatualizadas de nenhum programa, pois sempre contém algum bug, ainda mais no caso do ABBYY que mesmo numa versão bem recente ainda assim trocou letras na hora de reconhecer.

Na verdade é preciso revisar o texto inteiro de cada página, o que leva bem mais tempo que bater o olho, pois você não pode corrigir apenas o que ele indicar como "impreciso" (no programa essas áreas estão avermelhadas) na hora do reconhecimento de caracteres e deixar o resto que não sublinhou sem analisar.

- O tamanho do arquivo só é reduzido quando aplicado OCR e SOMENTE SE a maior parte dele não contiver imagens. Muitos livros atuais são recheados de imagens e isso em cada página, de modo que se torna impossível sem comprometer muito a qualidade gerar um arquivo com alguns Megabytes.

- Tem ebook aí com puro texto e centenas de páginas que não consome nem 1 Megabyte, já um dos primeiros que gerei gastou 50 MB mesmo com OCR aplicado em todo ele, porque estava cheio de fotos TAMBÉM.

- Sinceramente, o procedimento que não usa o ABBYY é bem mais prático, apesar de igualmente demorado, o arquivo pode ficar gigante mas pra ler num iPAD ou PC fica perfeito.

- O último ebook que criei foi de um livro de Matemática que no total tinha 642 páginas, levei 1 semana pra gerar um PDF de 218 MB, melhor isso que meses pra arrumar tudo (OCR) e ainda assim pode não ficar bom.

- Eu acho que PDF com OCR só presta quando o livro é puro texto, ainda assim é serviço pra editora do livro fazer, ou um grupo de várias pessoas. Eu fiz só nas primeiras vezes, depois parei DE VEZ.

O problema é que ninguém faz, nem editora e nem leitores, e no Brasil a escassez de ebooks é enorme.

- Esses tamanhos de arquivo podem parecer absurdos mas tendo um iPAD você não vai ter problemas de espaço. O meu é de 64 GB.

- A maior desvantagem do Kindle é essa, nele cabe quase 2 GB. Porém os arquivos que você gera são formiguinhas perto dos elefantes dos PDFs. O Kindle não serve pra ler qualquer PDF, nele você lê MOBI ou o PCR lá que o programa MOBIPOCKET CREATOR gera.

O problema é que a conversão de PDF pra Kindle é sempre imperfeita. Já presenciei cortes de trechos dos PDFs, e se for excessivamente formatado e com imagens vai estragar quando passar por esse programa. O Kindle não mostra, por exemplo, imagens coloridas, e sim em preto-e-branco.

- Já se for pra converter de MOBI ou EPUB pra PDF, eu uso sempre esse site:
http://ebook.online-convert.com/convert-to-pdf

- Calibre nem uso, não presta pra converter.

- Se for pra pegar um texto (arquivo de Bloco de Notas) e converter pra PDF, use esse programa:
http://www.baixaki.com.br/download/free-text-to-pdf-converter.htm

O PDF eu pego e converto pro formato do Kindle com o MOBIPOCKET CREATOR:
http://www.mobipocket.com/en/downloadsoft/productdetailscreator.asp

Essa é uma dica nova que estou dando, pra quem quer apenas pegar um texto qualquer e jogar tanto no iPAD como no KINDLE rapidamente. Fiz isso com artigos da Internet quando precisei estudar algumas matérias.

Reuni os textos e salvei em TXT, depois converti tudo.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#17 Por Penitante
19/01/2015 - 21:08
Eu falei que livros maiores que o scanner seriam um problema, até conhecer um pequeno:

Imagem

Dessa mesma editora eu recebi dois, mas em uma condição que permitia esticar com as mãos as páginas ao máximo e escanear de alguma forma. Ainda que os cantos ficassem ruins, não era um problema considerável.

Porém, esse da foto está como se fosse novo, apesar de ser um livro de décadas. Não dá pra escanear sem furar porque nenhuma página "abre" o bastante pro scanner pegar.

O problema é que se furar aí vai pegar bem no canto do livro, que não está formatado com margem, de modo a dar uma distância entre o conteúdo e o canto de cada folha. Eu nem sei se rola até mesmo furar, porque é coisa de milímetros mesmo, ao furar já pega em qualquer foto que esteja na folha e pode pegar até o texto.

Talvez a solução seja furar, mas não pra passar espiral, e sim fazer um corte reto, tal como foi feito aqui:

http://i.imgur.com/tX83tMW.jpg

Engraçado que eu recebi um livro de igual tamanho, que também cabe na minha mão (esse é bem mais recente), e que foi editado como livros devem ser, com margem, mantendo espaço em branco nos cantos.

Acontece que se eu fizer um corte reto não vai ser mais possível juntar tudo, a menos que você use algo tipo aqueles álbuns de fotografia, pra passar cada página.

Esse é daqueles livros tão bem colados que você não consegue escanear sem mandar encadernar como eu expliquei.

A menos que saiba descolar todo ele.

Depois eu posto o que consegui fazer.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#18 Por Penitante
29/01/2015 - 19:35
Fui na gráfica e infelizmente constatei que essa tática de cortar o livro pra encadernar não funciona com vários. Não só os pequenos que cabem na mão, mas vários livros são editados de um jeito que se você for deixar aqueles furinhos pra passar a espiral não só irá pegar na gravura (não só quando ela toma o espaço de 2 páginas), mas também no próprio texto, o que estragaria o livro de vez.

A solução seria mandar fazer o corte reto, só que aí pra ler o livro de novo você teria que colocar numa pasta, e tratá-lo como se fosse um álbum de fotografias.

Assim:

Imagem

Ao furar assim é que podemos passar a espiral:

http://i.imgur.com/cwSbckP.jpg

Só que nem sempre dá.

Como não quero juntar livros em papel vou mandar fazer o corte reto mesmo, se for o único jeito de escanear e nem der pra passar espiral mais. Porque nele a perda é a mínima possível. É uma pena, mas como só aceito livro escaneado, vou optar por fazer mesmo assim.

Tem muitos livros que dão espaço pra ficar como na segunda foto sem perda alguma, mas deve haver um número igual que não permite isso.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#19 Por Penitante
23/02/2015 - 14:33
E um alerta importante pra quem pensa em escanear revistas ou mesmo livros com páginas de fundo preto: ao tocar com os dedos (mesmo totalmente limpos) eu notei que sempre deixava uma mancha na folha. O pior é que isso acabava saindo no arquivo depois que escaneava.

A solução pra evitar isso (e que usam ao escanear documentos antigos) é uma luva. Improvisei protegendo os dedos com um plástico, como pode ser visto na foto (cliquem nas duas para ampliar):

Imagem Imagem

Com relação às revistas, eu disse que tinha dúvidas se era possível escanear, mas é, repetindo o mesmo procedimento dos livros.

Fazem na gráfica um corte reto, levo as folhas soltas pra casa, escaneio, trago de volta e só assim faço os furos pra passar a espiral. Nas primeiras vezes que escaneei haviam feito um corte já com os furos, o que foi errado.

O perigo é que dependendo do livro há grandes chances de pegar nas letras ou no conteúdo, já que revistas por ex. sempre tem alguma ilustração que toma espaço de 2 páginas (na verdade é uma só, dividida pelos grampos). Mas isso é o de menos se o objetivo é escanear.

Sobre os livros bem pequenos (felizmente são minoria), não dá pra encadernar mesmo.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#21 Por Penitante
06/08/2015 - 13:47
Pessoal, segue aqui uma dica final pra quem quer criar ebooks pro KINDLE.

Após criar um cadastro no site da Amazon.com.br, é possível enviar pra "nuvem" (deixar armazenado no servidor deles) os ebooks que você tenha, e pelo Kindle mesmo baixar cada um. Assim pode-se economizar espaço no aparelho, só baixando aqueles que interessem. Sendo que o envio é feito por email, dentro das configurações da sua conta você recebe um email personalizado, tipo [EMAIL]minhaconta@kindle.com[/EMAIL], e envia como anexo os ebooks pra ele, sendo convertidos pela própria Amazon e armazenados lá.

Eu havia proposto aqui o uso do MOBIPOCKET READER, só que isso não é prático, pois são criados arquivos de extensão .PCR, e o envio só poderia ser feito via USB. Na época eu desconhecia o sistema da nuvem.

Além disso, não dá pra ver (pelo menos não descobri ainda) como fica o .PCR depois de criado no Windows, além da conversão de um PDF sempre ficar ruim pra MOBI ou qualquer formato.

O que aconselho é procurar sempre pelo ebook em extensão .ePuB ou .MOBI. Se estiver em MOBI você pode enviar até mesmo por USB pro Kindle. Se enviar EPUB pra Amazon ela não aceita.

Aí basta visitar esse site e mandar converter o EPUB pra MOBI, primeiro:
http://ebook.online-convert.com/convert-to-mobi

*******

Porém, no caso de você querer criar um ebook já pronto pro Kindle em MOBI, como fazer? Pelo ABBYY FINEREADER, se for criação de ebook OCR, deve ser possível escolher além de PDF outros formatos.

Mas o que me refiro não é a escanear, revisar e depois criar o MOBI. É criar um MOBI a partir de um PDF que exista, ou mesmo de um site na internet.

Ou seja, eu tenho o PDF/site com todo o texto (ao invés de imagens), ou então 90% texto E algumas imagens. Não preciso usar o ABBYY FINEREADER. O que fazer?

******

Bom, vou dar um exemplo de página na internet:
http://www.theabsolute.net/minefield/woman.html

Se eu quiser converter isso aí em ebook pro Kindle:

1) Caso tenha imagens, eu escolho no navegador (preferível o Firefox, mas outros podem ser usados) a opção Salvar página da Web Completa. Se escolher Salvar página da Web, Somente HTML ele não vai salvar imagens. É preferível sempre optar pela opção COMPLETA. Para salvar, o atalho do navegador é control + S.

2) Faça o download desses programas:

http://www.baixaki.com.br/download/nvu.htm

http://www.baixaki.com.br/download/sigil.htm

O primeiro é um editor de páginas da internet e o segundo irá auxiliar na conversão.

3) O NVU pode ser usado pra editar cada página. A edição fica ao cargo de cada um, podendo ser adicionado texto, retirado algum item, ou simplesmente corrigido. Note que o site do ABSOLUTE que eu indiquei tem atalhos pra cada "capítulo", e isso seria o índice do ebook. Opte por deixar a página da web com isso, pois facilitará que você avance até um ponto desejado e não tenha que procurar em meio a muitas páginas sempre.

4) Depois de mexer no NVU, use o SIGIL para abrir a página e escolha SALVAR COMO. Ele irá salvar no formato ePUB.

5) Use o programa CALIBRE:
http://calibre-ebook.com/download

Para converter o ePUB em MOBI. Adicione o ePUB a ele, e com botão direito escolha Converter livros - Converter individualmente.

Coloque em Formato de Saída a opção MOBI. Preencha o título e autor(es). Em Configurações de Página, escolha como perfil de saída o KINDLE PAPERWHITE:

Imagem

Apenas isso, após terminar de criar, botão direito e Abrir conteúdo da pasta. O MOBI estará lá.

*********

Uma última dica é baixar esse programa:
http://jarrin.net/MOBIeditor

Caso você queira apenas editar o título, nome do autor, data de lançamento... de um arquivo. Caso tenha feito algo errado ou o arquivo que pegou não venha com dados corretos (ou nenhum). O MOBIEDITOR irá abrir o MOBI e você poderá editar isso, salvando como MOBI de novo.

******

Frisando novamente: caso o ebook que você obtenha esteja com extensão ePUB, basta converter pra MOBI aqui:
http://ebook.online-convert.com/convert-to-mobi

E enviar pra nuvem ou via USB pro KINDLE. Caso esteja em PDF, a conversão poderá até rolar, mas não vai ficar boa.

Sobre o iPAD, é bom lembrar que na APP STORE ele tem um aplicativo KINDLE que simula o mesmo, e que pode ser usado para também baixar da nuvem da AMAZON. O iPAD, como eu já disse, é que deve ser usado pra ler PDFs, especialmente os que só tem imagem e tamanho bem maior que os ebooks do KINDLE.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#22 Por Penitante
26/09/2015 - 10:57
Pessoal, segue mais uma dica pra quem costuma ler PDFs num iPAD: baixe o app FOXTIT MOBILE. Eh melhor que o IBOOKS, possui mais recursos, dentre eles a possibilidade de selecionar um trecho (palavra) e ver o significado no dicionario, algo que o KINDLE tem (inclusive no app do KINDLE para o iPAD) mas o IBOOKS nao.

Somente esses livros abaixo eu nao consegui reproduzir no FOXIT sem problemas (o texto fica todo junto), mas ja avisei aos desenvolvedores do bug. Provavelmente eh relativo a forma como eles foram criados, a formataçao dos mesmos:

Sociologia_Hoje_-_Ensino_Medio_-_Vol._Unico_-_2013
Historia_Geral_e_do_Brasil_-_Claudio_Vicentino_e_Gianpaolo_Dorigo_-_2013 (em 3 volumes)
Geografia_Geral_e_do_Brasil_-_Versao_Digital_-_Ensino_Medio_-_2013 (em 3 volumes)

Todos foram feitos da mesma forma. Os demais ebooks que testei foram lidos sem quaisquer problemas, sendo ebooks de mais variados tipos, em ingles, portugues, com e sem OCR, de variados tamanhos...

Pra transferir ebooks eu uso o aplicativo (tambem gratuito na APPLE STORE) Documents, da empresa READDLE. Pra armazenar os arquivos, eu recomendo usar ou Dropbox ou Google Drive.

Eu passei tudo que tinha no DROPBOX pro Google Drive, pois enquanto o primeiro tem inicialmente 2 GB de armazenamento gratuito, o Google Drive fornece 15 GB. E da pra criar mais de uma conta, seria cadastro da GOOGLE, aquele que permite usar Youtube e outras coisas. Voce cria um email do GMAIL na hora de criar uma conta (tentei com email pessoal, mas nao consegui finalizar o cadastro).

Depois de baixar pelo DOCUMENTS, basta mandar COPIAR pro FOXIT (ou IBOOKS) e deletar a copia que fica no DOCUMENTS.

******

E so pra constar, se em materia de PDFs eu reuni 2193 ebooks (sem contar 320 numa pasta chamada FORA DO IPAD, MAS NO KINDLE), de arquivos MOBI (servem apenas pro KINDLE) eu reuni 655. Entao, a diferença do numero de ebooks disponiveis somente em PDF (somente imagem, ou OCR) pros outros eh brutal. Por isso que nao da pra ter so um Kindle e dispensar um iPAD, se o objetivo eh ler ebooks.
Penitante
Penitante Geek Registrado
1.6K Mensagens 246 Curtidas
#23 Por Penitante
24/10/2017 - 15:30
Um update importante pra esse tópico:

- Quem usa a multifuncional L395 da Epson (que é mais cara que essas antigas tipo XP-204, só que mais econômica por usar aqueles tanques) tem a mesma qualidade de scanner, só que melhor, mais rápido dependendo do documento e da resolução. O negócio é tão bom que quando eu coloco duas folhas distintas ele consegue salvar até mesmo em dois arquivos diferentes.

- Pra escanear em resoluções altas continua demorado, por ex. pra ser em 1200 DPI leva uns 5 minutos. Mas aí é até compreensível, dada a complexidade.

- O programa que vem com a impressora, o tal Epson Scan (agora na versão 2) foi melhorado.

- O Photoshop mesmo na última versão não consegue escanear (nessa L395) em resolução maior que 300 DPI (pelo WIA). Verifiquei se havia como mudar isso nesse programa e mesmo no Windows (uso o 10, de 64 bit), sendo que no painel de controle os perfis de digitalização estão travados em 300 DPI. Não achei como. Então deve ser frescura do Windows, ou algo complexo que só resolva com reinstalação de driver, o que pessoalmente duvido, pois instalei tudo bonitinho.

Já no Epson Scan 2 você escaneia acima de 300 numa boa. Considerando as melhorias do programa eu diria que o Photoshop deixou de ser necessário pra escanear qualquer coisa, sendo útil apenas para editar os arquivos. O Epson Scan 2 salva já em JPG.

- Eu testei aqui um livro que mistura textos e fotos. Ao escanear no modo "fotografia" é possível que em alguns momentos o scanner ignore o texto e apenas salve a imagem daquela página.

Exemplo:
https://imgur.com/a/gfkLo

Além disso pode-se perceber que a imagem acima está com muito brilho.

- Já no modo "documento" (e em 1200 DPI) a mesma página é escaneada na sua totalidade, e como dá pra ver pelo link abaixo, em cores vivas:
https://www.dropbox.com/s/oldiz3g8rs1i1nx/LIVRODEFOTOSDESUPERGIRL0013-A.jpg?dl=0

Então sempre escolham o modo "documento" mesmo quando o material que precisar ser escaneado consistir principalmente de imagens.

Segue a tela do programa:
0dd27a0dac604535641c17e23e352bce
Responder Tópico
© 1999-2024 Hardware.com.br. Todos os direitos reservados.
Imagem do Modal