megfelelő konfigurációs

előző ◈ a következő

Az önreklámozás és előmozdítása a webhely fontos, hogy ne csak létrehozni egyedi tartalmat, vagy szelekciós lekérdezések Yandex statisztika, hanem kellő figyelmet kell fordítania az ilyen mutatókat a keresők indexelése erőforrás, mert ez attól is függ, a folyamatos siker az egész promóció.

Te és én rendelkezésre álló két alapvető eszköz, amellyel tudunk kezelni ezt a folyamatot. Először is, természetesen, a robots.txt fájl, amely segít bennünket abban, hogy betiltsák az index, amely tartalmazza a fő tartalomra (tartalom motor fájlokat és másolat), és ez róla, és lesz szó ebben a cikkben, de azon kívül, hogy van egy másik egy fontos eszköz - sitemap (Sitemap xml).

Miért fontos kezelni a webhely indexelése

A fent említett eszközök rendkívül fontos a sikeres projekt, és ez nem egy állítás. A cikket Sitemap xml (loc. Cit) I példaként a nagyon fontos tanulmányt a leggyakoribb műszaki hibák kezdő webmesterek ott a második és a harmadik helyen (miután nem egyedi tartalommal) csak ezek hiányában a fájlok Robotok és saytmap vagy azok nem megfelelő készítmények előállítására.

Meg kell nagyon világosan érthető, hogy nem minden a tartalmát a web-projekt (fájlok és könyvtárak) létrehozott bármely hajtómű, hozzáférhetővé kell tenni a kereső robotok.

A jó megoldás az lenne, hogy tiltsanak be minden felesleges robots.txt (minden betű a nevét kell kisbetűvel - anélkül, hogy nagybetűvel).

By the way, ha azt szeretnénk, hogy megtanulják, hogyan kell nézni a fájlt a projekt a hálózaton, hogy elég lesz hozzá, hogy a honlap Urlu végződő fajta /robots.txt. Ez hasznos lehet, megértéséhez, hogy mi legyen benne.

Azonban meg kell jegyezni, hogy a különböző motorok, ezt a fájlt fogja eltérő (motor mappák le akarja tiltani az index lesz a továbbiakban különbözőképpen különböző CMS). Ezért, ha azt szeretnénk, hogy meghatározzák a legjobb a robotok, mint például a fórum a SMF, valamint annak szükségességét, hogy tanulmányozza egyetlen fórum épül ez a motor.

Irányelvek és szabályok írásban robots.txt fájlt (letiltja, a felhasználó-szer, host)

A robotok nem komplex szintaxis, amely részletesen meghatároz, például egy segítség Yandex. Általában ez azt jelzi, hogy a kereső bot alábbiakban ismertetjük irányelvek: a bot neve ( „User-agent”), mely engedélyt ( „Allow”), és megtiltotta (tiltása), valamint a széles körben használt „Oldaltérkép”, jelezve, hogy a keresőmotorok, pontosan ott, ahol a map fájlt.

Egy másik hasznos, hogy pont ezt a fájlt, néhány tükrök vebproekta elsősorban a speciális irányelv „Host”, amely megérti csak Yandex. Még ha a források nincsenek tükrök, hasznos lenne, amely jelzi az írásmód a fő - a www vagy anélkül. mert ez is egyfajta tükrözés. Ez az, amit mondtam részletesen a cikk a 301-es átirányítás a domain WWW és nélküle.

Most beszéljünk egy kicsit a szintaxis a fájl. A robots.txt fájlban a következők:

<поле>:<пробел><значение><пробел>
A helyes kód tartalmaznia kell legalább az egyik irányelv «tiltása» minden egyes tétel után «User-agent». Üres fájl jelenti engedélyt index az egész oldalon.

User-agent: *
Ha azt szeretnénk, hogy «a User-agent» bizonyos feltételekhez csak néhány a bot, például Yandex, meg kell írni:

User-agent: Yandex
Hajó minden kereső saját nevét (például a Rambler StackRambler). Itt adok egy listát a leghíresebb közülük:

A nagy keresőprogramok néha mellett a fő bot is vannak bizonyos esetekben az indexelő blogok, hírek, képek, stb A sok információ, hogy a faj a robotok meríthet ehhez az erőforráshoz.

Íme néhány egyszerű példát a használatára irányelvek magyarázatot tetteit.

1. Az alábbi kód lehetővé teszi az összes botok index a teljes tartalom kivétel nélkül. Ez adott egy üres tiltása irányelvet.

2. Az alábbi kódot, másrészt teljesen megtiltani keresőprogramokon hozzá az index oldal Ez a forrás. Tiltása állítja, hogy „/” az érték mezőben.

4. A könyvtár «kép» fogják tiltani az alábbi példát, valamint a fájlok és könyvtárak kezdődő «kép» karakterekből azaz fájlok: .. «Image.htm», «images.htm», katalógusok: «image »,«images1»,«image34»stb.) ..:

5. A leíró módon Allow-tiltása irányelvek, akkor a karakterek „*” és „$”, kérve, ezért bizonyos logikai kifejezések. „*” Szimbólummal áll bármely (beleértve az üres is) karaktersor. A következő példa kikapcsolja az összes keresők indexelése kiterjesztésű fájlok «.aspx»:

Annak érdekében, hogy elkerüljék a kellemetlen problémát tükrözi a helyszínen javasoljuk, hogy adjon Host irányelv robots.txt, ami azt jelzi, Yandex bot a fő tükör. A szabályok szerint az írás a bejegyzéseket a User-agent legyen legalább egy tiltása irányelv (általában fel az üres, semmi tiltja)

attól függően, hogy mi a legjobb az Ön számára.

Van egy másik módja annak, hogy konfigurálja (engedélyezze vagy tiltsa le) az indexelés egyedi oldalak honlap Yandex, és a Google. Ehhez belsejében «HEAD» címke csatolt a kívánt weboldal Robots metacímkével a megfelelő paramétereket, és így megismételjük az összes dokumentum, amely alkalmazni kívánja az adott szabály (tilalom vagy engedéllyel). Úgy tűnhet, mint ez:

Már csak két pár paramétereket ebben meta tag: [no] index és [no] követni:

Egy blog a WordPress, beállíthatja a robotok meta tag, így a plug-All in One SEO Pack. Nos, azt tette az elmélet, és itt az ideje, hogy lépni a gyakorlatban, azaz kidolgozásánál optimális robots.txt Joomla SMF és a WordPress.

Mint tudjuk, a projektek alapján létrehozott egy motor (Joomla, WordPress, SMF, stb), sok támogató eszközöket nem hordoznak semmilyen terhelést informatív.

Ha nem tiltja le az indexelés az összes ezt a szemetet, az előírt időn keresőmotorok index a webhely, akkor fordított brute motor fájlokat (keresni neki egy információs komponens, vagyis tartalom).

De a lényeg az, hogy a legtöbb CMS tartalom nem egy fájlban tárolja, és az adatbázis, amelyhez a keresőrobotok nem tudja elérni. Climb szemetet tárgyak motor bot kimerítette a rendelkezésre álló idő, és menj el üres kézzel.

Yandex és a Google, az index, meg a másolatokat, és lépéseket tehetnek néhány pessimizatsii az erőforrás nagy számuk (ők is nem vadásznak, hogy megtalálják a gabona a trágya halom).

Ha a projekt alapját bármelyik motor, az ismétlődő tartalom fordulnak elő nagy valószínűséggel, és ezért kell harcolni, beleértve a robots.txt tilalmat. és különösen a meta-tag, mert az első esetben a Google lehet tiltani, és figyelmen kívül hagyja, de a meta tag nem érdekli, ő nem lenne képes (művelt).

Például WordPress oldalak nagyon hasonló tartalom lehet bejutni a keresési index, ha hagyjuk indexelés és tartalom oszlopok, és a tartalmát a tag archívumot és tartalmát az ideiglenes fájlokat.

De ha a meta-tag a fent leírt módon, hogy hozzon létre egy tiltás az archív címkék és ideiglenes fájlt (akkor hagyja a címkéket, és megtiltja tartalom indexelése fejezetek), a párhuzamos a tartalom nem létezik. Erre a célra WordPress legjobb, hogy kihasználják a plug-All in One SEO Pack, olvassa el a leírást, amely már meg éppen a szöveget.

Még nehezebb ugyanazzal a tartalommal a helyzet forumnye motor SMF. Ha nem finomhangolása (tiltás) robotok, akkor a keresés lesz több másolatát az azonos üzenetét. A Joomla is az úton, néha van egy probléma párhuzamos közös dokumentumok és azok a nyomtatandó másolatok.

Összefoglalva azt mondják, hogy a robotok fájl lehet beállítani globális szabályok korlátozzák a hozzáférést a teljes site könyvtár, vagy fájlok és mappák, akiknek a neve jelen bizonyos karakterek (maszk). Példák a feladatokra ilyen tiltás, akkor láthatjuk fölött.

Ha le szeretné tiltani az indexelés egy oldalt hasznos a névadó meta-tag, amely előírt a header (HEAD címkéi között) a kívánt dokumentumot. Részletek a szintaxis a meta tag, lásd éppen a szöveget.

Helyes robots.txt Joomla, WordPress és SMF

Most nézzük meg konkrét példákat robotok tervezett különböző motorok - Joomla, WordPress és SMF. Természetesen mind a három lehetőség a CMS különböző lesz lényegében (ha nem radikálisan) különböznek egymástól. Azonban mindegyikük egy dolog közös, és ez a pillanat kapcsolódik a kereső Yandex.

mert A RuNet Yandex van elég sok súlyt, meg kell, hogy vegye figyelembe az összes árnyalatokat munkája, és akkor majd Host irányelvet. Ez kifejezetten arra utal, hogy a kereső a fő tükör a webhelyen.

Mert azt javasoljuk, hogy egy külön blog felhasználói ágens, csak azokat a Yandex (User-agent: Yandex). Ez annak a ténynek köszönhető, hogy más keresőmotorok nem érti a fogadó, és következésképpen annak felvételét a User-agent rekord, hogy valamennyi keresők (User-agent: *), vezethet negatív következményeit és helytelen indexelés.

Mint ahogy az a valóságban - nehéz megmondani, mert az álláskeresési algoritmusok - a dolog önmagában, ezért a legjobb, hogy nem javasoltak. De ebben az esetben kellene sokszorosítani direktiveUser-agent: Yandex minden szabályt, hogy van beállítva User-agent: *. Ha elhagyja a User-agent: Yandex tiltása kiüríteni. ahogy teszik Yandex menni sehova, és fogás minden az index.

Mielőtt rátérnénk a konkrét lehetőségek, szeretem emlékeztetni, hogy ellenőrizze a működését a robots.txt tudsz Yandex és a Google webmester webmesterek. Itt megadhatja URL konkrentnye életét, és lásd (csekk), hogy a kereső, hogy adjunk nekik, hogy az index, vagy ezt a műveletet sikeresen betiltották akkor a csoda-fájlt.

A helyes beállítás a robots.txt Forum SMF

Egy fórum a motor, SMF korrekt lesz a fájl olvasása (melyet a technikai támogatás fórum ebben a témában):

Megjegyzendő, hogy ez a lehetőség azt az esetet, amikor az SMF fórum telepítve egy könyvtárat a fő oldalon a fórumon. Ha a fórum nem a könyvtár, távolítson el minden a szabályok / fórum.

Barátságos URL az SMF lehet aktiválni vagy deaktiválni az admin fórum kattintva a következő útvonalon: mutasson a „Funkciók és beállítások”, megtalálja a tétel „Allow barátságos URL”, ahol ki vagy törölje a menü alján a bal oldali oszlopban az admin.

Van egy másik lehetőség robots.txt SMF (de talán még nem teljesen bevizsgált):

Mint látható, ebben a fájlban, Host irányelv célja kizárólag Yandex, benne van a User-agent az összes keresők. Én valószínűleg még mindig hozzá egy külön irányelv User-agent csak Yandex, ismételje meg a szabályokat. De dönteni magad.

annak a ténynek köszönhető, hogy a kereső a Yahoo (Slurp - ez a neve a kereső bot) ellenőrzi a szerver sok patakok, ami hátrányosan befolyásolja a teljesítményt.

Ez a szabály Crawl-delay irányelv lehetővé teszi, hogy meghatározza a bot Yahoo minimális időtartam (másodpercben), a befecskendezés végén egy dokumentum, és az elején a következő injekció. Ez enyhíti a terhelés a szerveren.

Letiltani nyomtatható formában ajánlom, hogy ne az alábbi lépéseket (a végrehajtására kell nyitnia néhány SMF fájlokat szerkesztésre a FileZilla program).

A Forrás / Printpage.php találják fájl (például egy beépített kereső Notepad ++) vonal:

fatal_lang_error (472, hamis);
Behelyezése azonnal alatta:

$ Context [ 'robot_no_index'] = true;
A Témák / nazvanie_vashey_temy_oformleniya / Printpage.template.php fájl található a sort:

”, $ összefüggésben [ 'character_set]
Helyezze be a következő sort alatta:

És helyezze be a következő sort:

Még több információt erről a lehetőségről, akkor robots.txt fájl elolvasása után szál orosz nyelvű támogatási fórumot.

Helyes robots.txt Joomla

Ajánlott Joomla fájl így néz ki:

Elvileg van gyakorlatilag minden veszik figyelembe, és jól működik. Az egyetlen dolog, szükség van arra, hogy külön szabály User-agent: Yandex behelyezés Host irányelvet, amely meghatározza a fő tükör Yandex, valamint adja meg az utat, hogy a Webhelytérkép fájlt.

Ezért a végleges formájában a megfelelő robotok Joomla, véleményem szerint, így kell kinéznie:

Ja, és vegye figyelembe, hogy a második kiviteli nincs irányelv Disallow: / images /, így a tiltás indexelő képek a webhelyen. Elfelejtettem első összpontosítani a figyelmét, de emlékeztetett kedves Alex.

Teljesen egyetértek vele, hogy ha a képek egyedi és szeretné a látogatók megtalálni a webhely még a képkereső által Yandex és Google, el kell távolítania ezt a szabályt az állomány, de ne felejtsük el, hogy regisztrálja az összes kép attribútumok Alt és címe az IMG tag.

Amikor létrehoz egy online áruház Joomla alapú VirtueMart komponens én szembesülnek azzal a ténnyel, hogy az index a keresők elkezdett nyomtatható változatát az oldalakon ezen nagyon magazin. Gombot, ami nyomtatható oldal, szükséges volt (mert az ügyfél akarta), így már csak egy lehetőség azok tilalmat robots.txt.

De ez nem volt nehéz. A tény az, hogy hozzon létre egy nyomtatási változat Jumla használja ugyanazt az URL weboldal, kivéve egyet: a referencia nem az index.php, és index2.php. Így nem végzik sablont terhelés, azaz jeleníti meg csak a tartalmát a teljes képernyőt.

Ezért, hogy megtiltsák print VirtueMart adtam hozzá a következő szabály:

Robots.txt WordPress

Nem egy példát egy fájlt, hogy a fejlesztők ajánlani. Te magad is látni. Sok blogger nem korlátozzák botoktól Yandex és a Google a saját területén a tartalom WordPress motort. Leggyakrabban megtalálja blogokban robotok automatikusan kitölti a plugin Google XML Sitemaps.

Ezért itt adom a saját verzióját, és el kell döntenie, hogy használja azt ebben a formában, vagy a csípés, hogy illeszkedjen az Ön igényeinek:

Eddig az indexálás a blog ezen verziójával robots.txt voltam teljesen elégedett. Én ugyanazt a nevet használja, és a meta tag (tettem hozzá azt a oldal fejlécében az idővel és a tag archives).

A regisztrációhoz a címke robotok, nem folyamodnak szerkesztése WordPress motor kódot. Ez nem volt szükség, mert a Mindez lehet tenni egyszerűen beállításával vagy eltávolítja a jelölések a megfelelő bekezdésekben a csodálatos bővítmény - All in One SEO Pack.

Ossza meg ezt a cikket barátaival

Kapcsolódó cikkek

előző ◈ a következő