Extraindo imagens de arquivos PDF no Ubuntu via linha de comando

Baixei um visualizador de quadrinhos para meu PSP, mas infelizmente (ou felizmente, pelo motivo desta postagem), ele não oferece suporte para arquivos em PDF.

Então procurei um extrator de imagens de arquivos PDF e encontrei uma série de programas que modificavam, extraiam textos e visualizavam arquivos no formato PDF. Mas nenhum que oferecesse simplicidade na extração das imagens de dentro destes arquivos em PDF.

Alguns desses, como o PDF Editor e o GIMP, até oferecem a opção de extração de arquivo por arquivo, mas, imaginem extrair 70, 80… 100 páginas/imagens ou mais, e uma a uma, de um PDF!

Foi quando encontrei comentários sobre o pacote poppler-utils, cujo um dos comandos, tem por finalidade exportar arquivos PDF para HTML, consequentemente, extraindo individualmente todas as imagens num único passo!

Poppler-utils é um pacote padrão e muito provavelmente você já deve tê-lo instalado no sistema. Mas caso não tenha, usuários de Debian e derivados podem recorrer ao apt-get:

# apt-get install poppler-utils

Após a instalação deste pacote, basta criar um diretório qualquer, gravar seu arquivo PDF dentro, abrir um terminal dentro deste diretório e rodar o seguinte comando:

$ pdftohtml ARQUIVO.pdf QUALQUER_NOME.html

Pronto! O comando “desmontará” seu arquivo PDF em arquivos texto no formato HTML, extraindo todos as imagens pra dentro do diretório.

Fonte: http://www.vivaolinux.com.br/dica/Extraindo-imagens-de-arquivos-PDF-no-Ubuntu-via-linha-de-comando

Deixe um comentário