Come bloccare i motori di ricerca (con immagini)

Sommario:

Come bloccare i motori di ricerca (con immagini)
Come bloccare i motori di ricerca (con immagini)

Video: Come bloccare i motori di ricerca (con immagini)

Video: Come bloccare i motori di ricerca (con immagini)
Video: Come aprire file con estensione sconosciuta 2024, Aprile
Anonim

I motori di ricerca sono dotati di robot, noti anche come spider o bot, che scansionano e indicizzano le pagine web. Se il tuo sito o pagina è in fase di sviluppo o contiene contenuti sensibili, potresti voler impedire ai bot di eseguire la scansione e l'indicizzazione del tuo sito. Scopri come bloccare interi siti Web, pagine e collegamenti con file robots.txt e bloccare pagine e collegamenti specifici con tag html. Continua a leggere per scoprire come impedire a bot specifici di accedere ai tuoi contenuti.

Passi

Metodo 1 di 2: Blocco dei motori di ricerca con file robots.txt

576315 1
576315 1

Passaggio 1. Comprendere i file robots.txt

Un file robots.txt è un file di testo semplice o ASCII che informa gli spider dei motori di ricerca a cosa possono accedere sul tuo sito. I file e le cartelle elencati in un file robots.txt potrebbero non essere scansionati e indicizzati dagli spider dei motori di ricerca. Potrebbe essere necessario un file robots.txt se:

  • Vuoi bloccare contenuti specifici dagli spider dei motori di ricerca.
  • Stai sviluppando un sito live e non sei disposto a far scansionare e indicizzare il sito dagli spider dei motori di ricerca
  • Vuoi limitare l'accesso a bot affidabili.
576315 2
576315 2

Passaggio 2. Crea e salva un file robots.txt

Per creare il file, avvia un editor di testo normale o un editor di codice. Salva il file come: robots.txt. Il nome del file deve essere tutto minuscolo.

  • Non dimenticare la "s".
  • Quando salvi il file, scegli l'estensione “'.txt”'. Se stai usando Word, seleziona l'opzione "Testo normale".
576315 3 1
576315 3 1

Passaggio 3. Scrivi un file robots.txt completamente disabilitato

È possibile impedire a tutti gli spider dei motori di ricerca affidabili di eseguire la scansione e l'indicizzazione del tuo sito con un robots.txt "completamente disabilitato". Scrivi le seguenti righe nel tuo file di testo:

    Agente utente: * Non consentire: /

  • L'utilizzo di un file robots.txt "completamente disabilitato" non è fortemente raccomandato. Quando un bot, come Bingbot, legge questo file, non indicizzerà il tuo sito e il motore di ricerca non visualizzerà il tuo sito web.
  • Agenti utente: questo è un altro termine per gli spider dei motori di ricerca o robot
  • *: l'asterisco significa che il codice si applica a tutti gli user-agent
  • Non consentire: /: la barra indica che l'intero sito è vietato ai bot
576315 4 1
576315 4 1

Passaggio 4. Scrivere un file robots.txt con autorizzazione condizionale

Invece di bloccare tutti i bot, prendi in considerazione la possibilità di bloccare spider specifici da determinate aree del tuo sito. I comuni comandi di autorizzazione condizionale includono:

  • Blocca un bot specifico: sostituisci gli asterischi accanto a Agente utente insieme a googlebot, googlebot-notizie, immagine-googlebot, bingbot, o teoma.
  • Blocca una directory e il suo contenuto:

    Agente utente: * Disallow: /directory-campione/

  • Blocca una pagina web:

    Agente utente: * Disallow: /private_file.html

  • Blocca un'immagine:

    Agente utente: googlebot-image Disallow: /images_mypicture.jpg

  • Blocca tutte le immagini:

    Agente utente: googlebot-image Disallow: /

  • Blocca un formato di file specifico:

    Agente utente: * Non consentire: /p*.gif$

576315 5
576315 5

Passaggio 5. Incoraggia i bot a indicizzare e scansionare il tuo sito

Molte persone vogliono accogliere, invece di bloccare, gli spider dei motori di ricerca perché vogliono che il loro intero sito venga indicizzato. Per farlo, hai tre opzioni. Innanzitutto, puoi disattivare la creazione di un file robots.txt: quando il robot non trova un file robots.txt, continuerà a eseguire la scansione e l'indicizzazione dell'intero sito. In secondo luogo, puoi creare un file robots.txt vuoto: il robot troverà il file robots.txt, riconoscerà che è vuoto e continuerà a eseguire la scansione e l'indicizzazione del tuo sito. Infine, puoi scrivere un file robots.txt con autorizzazione completa. Usa il codice:

    Agente utente: * Non consentire:

  • Quando un bot, come googlebot, legge questo file, si sentirà libero di visitare l'intero sito.
  • Agenti utente: questo è un altro termine per gli spider dei motori di ricerca o robot
  • *: l'asterisco significa che il codice si applica a tutti gli user-agent
  • Non consentire: il comando disallow vuoto indica che tutti i file e le cartelle sono accessibili
576315 6
576315 6

Passaggio 6. Salva il file txt nella radice del tuo dominio

Dopo aver scritto il file robots.txt, salva le modifiche. Carica il file nella directory principale del tuo sito. Ad esempio, se il tuo dominio è www.tuodominio.com, inserisci il file robots.txt in www.tuodominio.com/robots.txt.

Metodo 2 di 2: blocco dei motori di ricerca con meta tag

576315 7
576315 7

Passaggio 1. Comprendere i meta tag dei robot HTML

Il meta tag robots consente ai programmatori di impostare i parametri per i bot o gli spider dei motori di ricerca. Questi tag vengono utilizzati per impedire ai bot di indicizzare e scansionare un intero sito o solo parti del sito. Puoi anche utilizzare questi tag per impedire a uno specifico spider del motore di ricerca di indicizzare i tuoi contenuti. Questi tag vengono visualizzati nella parte superiore del file HTML.

Questo metodo è comunemente usato dai programmatori che non hanno accesso alla directory principale di un sito web

576315 8
576315 8

Passaggio 2. Blocca i bot da una singola pagina

È possibile impedire a tutti i bot di indicizzare una pagina e/o di seguire i collegamenti di una pagina. Questo tag è comunemente usato quando un sito live è in fase di sviluppo. Una volta completato il sito, si consiglia vivamente di rimuovere questo tag. Se non rimuovi il tag, la tua pagina non sarà indicizzata o ricercabile tramite i motori di ricerca.

  • Puoi impedire ai bot di indicizzare la pagina e di seguire uno qualsiasi dei link:
  • Puoi impedire a tutti i bot di indicizzare la pagina:
  • Puoi impedire a tutti i bot di seguire i link della pagina:
576315 9
576315 9

Passaggio 3. Consenti ai bot di indicizzare una pagina, ma non di seguirne i collegamenti

Se permetti ai bot di indicizzare la pagina, la pagina verrà indicizzata; se impedisci agli spider di seguire i link, il percorso del link da questa pagina specifica ad altre pagine si interromperà. Inserisci la seguente riga di codice nell'intestazione:

576315 10
576315 10

Passaggio 4. Lascia che gli spider dei motori di ricerca seguano i link ma non indicizzino la pagina

Se consenti ai bot di seguire i link, il percorso di collegamento da questa pagina specifica ad altre pagine rimarrà intatto; se impedisci loro di indicizzare la pagina, la tua pagina web non apparirà nell'indice. Inserisci la seguente riga di codice nell'intestazione:

576315 11
576315 11

Passaggio 5. Blocca un singolo collegamento in uscita

Per nascondere un singolo collegamento in una pagina, incorpora a rel tag all'interno del tag di collegamento. Potresti voler utilizzare questo tag per bloccare i collegamenti su altre pagine che portano alla pagina specifica che desideri bloccare.

    Inserisci collegamento alla pagina bloccata

576315 12
576315 12

Passaggio 6. Blocca uno spider specifico del motore di ricerca

Invece di bloccare tutti i bot dalla tua pagina web, potresti voler impedire a un bot di eseguire la scansione e l'indicizzazione della pagina. Per fare ciò, sostituisci "'robot"' all'interno del meta tag con il nome di un bot specifico. Esempi inclusi: googlebot, googlebot-notizie, immagine-googlebot, bingbot, e teoma.

576315 13
576315 13

Passaggio 7. Incoraggia i bot a eseguire la scansione e l'indicizzazione della tua pagina

Se vuoi assicurarti che la tua pagina venga indicizzata e che i suoi collegamenti vengano seguiti, puoi inserire un follow-allow meta “robot” tag nella tua intestazione. Usa il seguente codice:

Consigliato: