Descrizione

WaybackPDF è un piccolo strumento Python utilizzato per recuperare e scaricare file PDF archiviati per un determinato nome di dominio. Utilizza la “Wayback Machine” di archive.org. Questo strumento si basa su questa ricerca OpenFacto e fortemente ispirato dal lavoro di @yannguegan . Il suo primo script caricato non è più raggiungibile e mancava di alcune verifiche sui file raccolti, causando errori. Questi sono i due motivi per cui ho ricodificato lo strumento e l’ho caricato.

Prerequisito e installazione

Devi solo installare requestsil modulo poiché gli altri utilizzati sono integrati.

pip3 install requests

Quindi, esegui semplicemente quanto segue per installare.

git clone https://github.com/Haax9/WaybackPDF.git
cd waybackPDF/
pip install -r requirements.txt

Lo strumento è stato inizialmente sviluppato per Python3. Potrebbe contenere alcuni bug, forse a seconda della struttura dei dati raccolti (nomi di file PDF ecc.). Non esitare a dare un feedback se ne trovi qualcuno.

Utilizzo

$ python3 waybackPDF.py --help
usage: waybackPDF.py [-h] -d DOMAIN [-o OUTPUT] [--http HTTP] [-r RESUME]

OSINT tool to download archived PDF files from archive.org for a given
website.

optional arguments:
  -h, --help            show this help message and exit
  -d DOMAIN, --domain DOMAIN
                        The target domain you are looking for files
  -o OUTPUT, --output OUTPUT
                        Optional output directory (Default is the domain name)
  --http HTTP           Use HTTP instead of HTTPS for the target domain. The
                        default behavior uses HTTPS
  -r RESUME, --resume RESUME
                        Start downloading at a given index and skip X previous
                        files

Esempio

l modo più semplice per eseguire lo strumento e ottenere file PDF è il seguente.

$ python3 waybackPDF.py --domain yeswehack.com

[+] Web Archive PDF Downloader 
[+] Target domain : yeswehack.com
[+] Output directory : yeswehack.com/

[*] Requesting PDF list...
[+] 2 PDFs found

[*] Downloading Files...
[+] (1/2) Saved bulletin-20120625001714.pdf
[+] (2/2) Saved YesWeHack-Comm-Presse-20140715174404.pdf

[*] Everything's done !
[*] Happy analysis !

Tuttavia, per alcuni motivi (l’esecuzione precedente si è arrestata in modo anomalo, il targeting di file specifici ecc…) potrebbe essere necessario eseguire lo strumento e saltare alcuni file. L’ --resumeopzione è qui per quello. Fornisci semplicemente il numero di file che desideri ignorare e lo strumento inizierà a scaricare da questo indice.

$ python3 waybackPDF.py --domain yeswehack.com --resume 1

[+] Web Archive PDF Downloader
[+] Target domain : yeswehack.com
[+] Output directory : yeswehack.com/

[*] Requesting PDF list...
[+] 2 PDFs found

[*] Downloading Files...

[*] Resume switch on, skipping the first 1 file(s)
[+] (1/1) Saved YesWeHack-Comm-Presse-20140715174404.pdf

[*] Everything's done !
[*] Happy analysis !

 

https://github.com/Haax9/WaybackPDF

Twitter
Visit Us
LinkedIn
Share
YOUTUBE