Come trovare pagine nascoste sui siti Web

Nel 2016, Google ha gestito oltre 3,2 trilioni di query di ricerca, ma i risultati forniti dal motore di ricerca rappresentavano solo una frazione dei contenuti disponibili online. Molte delle informazioni disponibili online non sono accessibili dai motori di ricerca, quindi è necessario utilizzare strumenti speciali o indagare da soli sui siti Web per trovare queste pagine nascoste. Conosciuto come il deep web, queste informazioni nascoste rappresentano fino a 5.000 volte ciò che è disponibile utilizzando le tipiche tecniche di ricerca.

Tipi di contenuti nascosti

Le pagine nascoste dei siti web rientrano in categorie che descrivono il motivo per cui rimangono invisibili ai motori di ricerca.

Alcuni costituiscono contenuti dinamici, offerti solo quando un visitatore invia una richiesta specifica su un sito Web che utilizza un codice basato su database per presentare risultati mirati. Ad esempio, queste pagine potrebbero includere risultati di acquisto basati su combinazioni specifiche di criteri di prodotto. I motori di ricerca non sono progettati per tenere traccia e memorizzare le informazioni archiviate in questi database. Per trovare queste pagine, dovresti andare sul sito Web e cercare le informazioni specifiche che stai cercando o utilizzare un servizio di ricerca orientato al database come Bright Planet.

Alcune pagine non hanno collegamenti che le collegano a fonti ricercabili. Le risorse temporanee, come più versioni di siti Web in fase di sviluppo, possono rientrare in questa categoria, così come i siti Web mal progettati. Ad esempio, se qualcuno ha creato una pagina Web e l'ha caricata sul server del sito Web, ma non è riuscito ad aggiungere un collegamento alle pagine correnti del sito Web, nessuno saprebbe che era lì, compresi i motori di ricerca.

Ancora più pagine richiedono credenziali di accesso per visualizzarle o raggiungerle, come i siti in abbonamento. I web designer designano pagine e sezioni di siti come off limits per i motori di ricerca, eliminandoli di fatto dall'essere trovati con mezzi convenzionali. Per accedere a queste pagine, in genere è necessario creare un account prima di ottenere l'autorizzazione per accedervi.

Utilizzo di file Robots.txt

I motori di ricerca eseguono la scansione delle pagine di un sito Web e ne indicizzano il contenuto in modo che possa essere visualizzato in risposta alle query. Quando il proprietario di un sito web desidera escludere alcune parti del suo dominio da queste procedure di indicizzazione, aggiunge gli indirizzi di queste directory o pagine a uno speciale file di testo denominato robots.txt, archiviato nella radice del suo sito. Poiché la maggior parte dei siti Web include un file robots indipendentemente dal fatto che vi aggiungano esclusioni, è possibile utilizzare il nome prevedibile del documento per visualizzarne il contenuto.

Se si digita "[nome dominio]/robots.txt" senza le virgolette nella riga della posizione del browser, sostituendo "[nome dominio]" con l'indirizzo del sito, il contenuto del file robots appare spesso nella finestra del browser dopo si preme il tasto "Invio". Le voci precedute da "disallow" o "nofollow" rappresentano parti del sito che rimangono inaccessibili tramite un motore di ricerca.

Hacking di siti Web fai-da-te

Oltre ai file robot.txt, puoi spesso trovare contenuti altrimenti nascosti digitando indirizzi web per pagine e cartelle specifiche nel tuo browser web. Ad esempio, se stavi guardando il sito web di un artista e hai notato che ogni pagina utilizzava la stessa convenzione di denominazione, come gallery1.html, gallery2.html, gallery4.html, potresti essere in grado di trovare una galleria nascosta digitando la pagina " galleria3.html." nel tuo browser web.

Allo stesso modo, se vedi che il sito Web utilizza le cartelle per organizzare le pagine, come example.com/content/page1.html, con "/content" come cartella, potresti essere in grado di visualizzare la cartella stessa digitando il sito Web e la cartella , senza una pagina, come "example.com/content/" nel tuo browser web. Se l'accesso alla cartella non è stato disabilitato, potresti essere in grado di navigare tra le pagine che contiene, così come le pagine in eventuali sottocartelle, per trovare contenuti nascosti.