Come cercare nei PDF su Linux con pdfgrep

Mattepuffo's logo
Come cercare nei PDF su Linux con pdfgrep

Come cercare nei PDF su Linux con pdfgrep

Per cercare all'interno di un file PDF, possiamo tranquillamente usare grep.

Ma esiste un programma più specifico, che per certi versi possiamo considerare un'estensione di grep stesso: pdfgrep!

Per installarlo su Debian:

# aptitude installa pdfgrep

Su Archlinux:

# pacman -Sy pdfgrep

A questo punto, per ricercare qualcosa:

$ pdfgrep -ni commerciale test.pdf
1:Commerciale -> Ordini.
1:Commerciale -> Crea ordine:
1:su Commerciale -> Clienti.
2:page, sia andando su Commerciale -> Aggiungi cliente.
2:Potete visualizzare i listini andando su Commerciale -> scegliete listino per

Con l'opzione -i indichiamo di non considerare maiuscole / miscole; con -n formattiamo meglio l'output, aggiungendo anche il numero di pagina.

Possiamo anche cercare in tutti i PDF di una directory:

$ pdfgrep -niR commerciale /home/matte/Desktop
/home/matte/Desktop/test.pdf:1:Commerciale -> Ordini.
/home/matte/Desktop/test.pdf:1:Commerciale -> Crea ordine:
/home/matte/Desktop/test.pdf:1:su Commerciale -> Clienti.
/home/matte/Desktop/test.pdf:2:page, sia andando su Commerciale -> Aggiungi cliente.
/home/matte/Desktop/test.pdf:2:Potete visualizzare i listini andando su Commerciale -> scegliete listino per

Usando l'opzione -R ed indicando la cartella dove risiendono i PDF.

In questo caso viene anche indicato il file nel quale viene trovato il testo (nel mio caso è sempre lo stesso file).

Ovviamente le possibilità sono praticamente infinite, perchè possiamo collegarlo a qualsiasi altro comando, esattamente come con grep.

La differenza tra grep e pdfgrep, nel caso dei PDF, è che opera per pagine e non per linee.

Enjoy!


Condividi

Commentami!