Hogyan lehet megelőzni az indexelés webhely egy fájlt át életvezetési (hautoshki on

Egy kis elmélet

Talán nem titok, hogy a keresők nem működik valós időben. A bejáró folyamatosan elkerüli új oldalakat hozza a szövegeket a kereső adatbázis, és frissíti a források már az adatbázisba. Ezért az új helyszín a keresők nem azonnal.

Jellemzően a bejáró felfedez egy új site másvalaki linket vagy felveszik a speciális formája a keresők (úgynevezett „addurilki” a kifejezés „add url” - add url).

Amint web crawler eltalálja a helyszínen, azonnal robots.txt fájlt kér. Ha nem találja meg - működik az alapértelmezett. Ezért a robots.txt fájl néha egy fájlt, kivéve a keresőmotorok.

A robots.txt fájl blokkolására használt indexelő egyes oldalak és egész szakaszok a helyszínen, valamint a sebességváltó a keresési robot fájl sitemap.xml (sitemap fájlt).

A robots.txt fájl használata

Nézzük meg a munkát a robots.txt fájl példák.

Tilalma indexelése az egész oldalon

Letiltásához indexelése az egész oldalon kell lennie a robots.txt, hogy a következő sorokat:

Tilalma indexelés egyedi mappa

Vedd User-agent határozza meg, ki tilos indexálás (helyett egy csillaggal * felírható ide „Yandex” vagy „Googlebot”), és a bejegyzés „nem megengedett” írja le, hogy mit tilos indexálás.

User-agent: *
Tiltása: / private /

Ban indexelés bizonyos típusú fájlokat

Ebben az esetben ez nagyon hasznos lesz letiltani az indexelés típusú oldalakra „index.php”. Elvileg.

Ezt meg lehet tenni az alábbiak szerint:

User-agent: *
Engedélyezés: / $
Hagyjuk: /*.php$
Hagyjuk: /*.jpg$
Hagyjuk: /*.gif$
Hagyjuk: /*.xml$
Letiltás: /index.php?*

Transfer lánctalpas sitemap.xml fájl

Nem lakunk az írás a fájlt. Tegyük fel, hogy ezzel a fájllal érti. Megmutatjuk az egyik átviteli mód a fájl kereső rendszer, azaz az átviteli fájl segítségével robots.txt. Ehhez a robots.txt hozzá a következő sort:

Magától értetődik, hogy a sitemap.xml fájl létezik, és helyesen írta.