Secondo un recente rapporto della CNN, alcuni ricercatori universitari affermano che i siti più comunemente utilizzati su Internet costituiscono meno dell'1% del World Wide Web.
Siti come Wikipedia, Youtube, Google, Yahoo e Facebook rappresentano solo la parte "superficiale dell'acqua".
Il Web profondo è il vasto oceano sottostante.
L'interesse per il Deep Web è cresciuto negli ultimi anni, soprattutto alla luce delle indagini dell'FBI e la successiva chiusura di market quali Silk Road nel 2013 e Silk Road 2 nel 2014 con fondatore Ross Ulbricht condannato a sette anni per il riciclaggio di denaro, traffico di stupefacenti, pirateria informatica e cospirazione.
Tuttavia, il Deep Web non è solo Silk Road.
Il Deep Web è un insieme di banche dati che non possono essere indicizzati o identificati dai motori di ricerca standard come Google e Yahoo.
Accedere ad una Darknet richiede, come saprete, un software specifico: TOR, Freenet, I2P, Osiris, anoNet, etc
Quando si utilizzano questi software, gli utenti non sono monitorati dagli indirizzi IP.
Secondo una ricerca di CNBC, il Deep Web è circa 400 volte più grande del World Wide Web.
Trend Micro ha scoperto 38 milioni di "contenuti" collegati a 576.000 URL, per decine di miliardi di pagine.
Il rapporto afferma che i siti in lingua inglese costituiscono oltre il 60% del Deep Web.
Siti russi 7%, seguito da siti francesi 5,5%.
La società Tiversa, fondata nel 2003, ha il compito di monitorare e raccogliere informazioni anche sulle parti d'Internet più nascoste.
DIFFERENZA TRA DEEP WEB E DARK WEB
Si potrebbe distinguere anche tra Deep Web e Dark Web, che è un sottoinsieme del Deep Web, perché anch'esso non è indicizzato, ma richiede ulteriori strumenti per accedervi (come l'autenticazione o proxy software specifici).
Sotto un punto di vista semplicistico, il Web di superficie è tutto ciò che un motore di ricerca riesce a trovare mentre il Deep Web è tutto ciò che non viene indicizzato.
Ci sono una serie di ragioni per cui un motore di ricerca non riesce a trovare i dati sul Web.
Generalmente database governativi e librerie contengono enormi quantità di dati etichettabili come "files Deep Web" non accessibili.
Ad esempio "North Dakota Court Record Search" e "Florida Medical License Database" sono chiari esempi di siti con contenuti non indicizzati
Google non riesce ad esempio a trovare le pagine che stanno dietro questi due siti (ma ce ne sono a migliaia di migliaia. Basta che fate un salto qui: Accedere Al Deep Web Senza Software).
La maggior parte dei contenuti che si trovano nel Deep Web si trovano ad esempio in questi siti ma non sono indicizzati (duole ricordare che in molti casi si tratta di contenuti legalissimi perchè comprendono anche database, pagine webmail, forum web ristretti, conti bancari, reti intranet, etc.).
Dunque sono pagine di siti visionabili con il normale browser ma solo conoscendo il link esatto della pagina (a volte non basta perchè la pagina potrebbe essere protetta da password).
Non tutte le informazioni e le pagine di un sito web devono essere indicizzate sui motori di ricerca.
Alcune pagine web contengono informazioni riservate per motivi di sicurezza (password, database, dati sensibili, etc ).
Quando il crawler di un motore di ricerca scansiona una risorsa, la indicizza e la rende pubblicamente visibile sui risultati delle ricerche.
Per evitare questa situazione è necessario bloccare l'indicizzazione sulle risorse sensibili del sito web. Per non indicizzare le pagine si utilizza il file Robots.txt oppure l'attributo Noindex nel metatag robots del documento.
Il file robots è un file di testo, si trova nella cartella principale del sito web.
Può essere modificato o creato con un editor di testo.
Nel 1994 gli iscritti ad una lista di discussione di robot web inventarono un metodo per indicare ai bot dei motori di ricerca che certi contenuti di un sito sono off-limits.
Lo standard di esclusione di robot, serve ad evitare che i bot scansionino determinate directory.
Ad esempio le directory, guadagni e video:
User-agent: *
Disallow: /guadagni/
Disallow: /video/
Un errore comune è dimenticare l’ultimo “/”.
Inserendo il valore disallow nel file robots si può deindicizzare un'intera directory del sito oppure una singola pagina.
In poche parole è sufficiente fornire l'indirizzo relativo della risorsa dopo il comando Disallow.
User-agent: *
Disallow: /indirizzo_cartella
Disallow: /indirizzo_pagina.html
Il metatag robots si trova nella sezione del documento Html.
Inserendo l'attributo noindex nel metatag robot del documento, si comunica allo spider di non indicizzare la pagina sul motore di ricerca.
Il metatag robots è utile per cancellare dall'indice soltanto alcuni documenti specifici e non tutti. Quando il bot trova uno di questi segnali, non indicizza il contenuto della pagina web oppure lo elimina dal database del motore di ricerca, se era stato già stato indicizzato in precedenza.
Altre tecniche per "oscurare" una pagina è l'utilizzo di password, la funzione "nofollow" e l'X Robots Tag nell'intestazione HTTPS.
Viste alcune delle tante tecniche che permettono di nascondere le pagine, spieghiamo cos'è il Dark Web (o Darknet) ovvero una piccola porzione del Deep Web che è stata intenzionalmente non solo nascosta ma anche resa inaccessibile tramite i browser standard (Chrome, Opera, IE, Edge, etc).
I siti più noti si trovano nella rete Tor (ma non solo).
Le attività illecite vengono svolte qui, essendo Tor e software analoghi...anonimi.
Come si sarà capito la differenza sostanziale (se così la vogliam chiamare) con il Deep Web è che, i siti oltre ad essere nascosti, sono anche inaccessibili con i normali browser.
In realtà non si tratta di una differenza perchè il Dark Web è un sottoinsieme del Deep Web.
Nessun commento:
Posta un commento