Fișierul robots txt corect pentru joomla 3. Să ne uităm la semnele de sintaxă care stabilesc regulile de indexare

Astăzi vreau să vorbesc despre un fenomen atât de popular precum Twitter. Pentru webmasteri, această rețea socială poate ajuta la atragerea de vizitatori suplimentari pe site-ul dvs., precum și pe alte rețele sociale. De exemplu, precum și, precum și Twitter pot servi ca un fel de analog.

De exemplu, din câte știu eu, mulți vizitatori ai blogului meu urmăresc actualizările acestuia prin acest serviciu de microblogging. Dar pentru ca acest lucru să funcționeze așa cum ar trebui, va trebui să înțelegeți ce este Twitter, cum să vă înregistrați cu el și cum să îl utilizați.

Apropo, recent formularul de înregistrare și interfața acestui serviciu au fost traduse complet în rusă, ceea ce este o veste bună. Adevărat, când a fost scris acest articol, această rețea de socializare nu era încă prietenoasă cu limba rusă, așa că a trebuit să rescriu și să adaug ceva.

Ce este Twitter și cum să-l folosești?

Deci, ce este Twitter În primul rând, este un serviciu conceput pentru comunicare. A înlocuit (sau pe lângă) rețelele de socializare tradiționale obosite, iar publicul său crește ca un bulgăre de zăpadă. Acum, probabil că este dificil să întâlnești o persoană care nu a auzit niciodată de el sau de servicii similare de microblogging (FriendFeed etc.).

Cu toate acestea, pentru mulți, esența acestor servicii rămâne neclară și, prin urmare, merită să răspundeți la întrebarea „Ce este Twitter” mai detaliat. În această serie de articole, voi încerca să vorbesc în detaliu despre cum să vă înregistrați în ea (acum în rusă), cum să lucrați cu el, cum să obțineți abonați (adepți), cum să postați automat titlurile materialelor noi pe dvs. site-ul în el (aceasta va fi) .

Twitter a fost creat în 2006, iar până la începutul lui 2007 câștigase deja suficientă popularitate. Este uneori caracterizat drept microblogging datorită faptului că dimensiunea mesajului lăsat în el este limitată la 140 de caractere. Datorită acestei limitări, mesajele Twitter care utilizează servicii speciale arată cam așa: http://bit.ly/4J2b1R.

Datorită lungimii scurte a mesajelor, comunicarea prin intermediul acestuia este foarte convenabilă de pe un telefon mobil. De fapt, Twitter a fost conceput pentru asta, pentru că... are o limită de 140 de caractere pe mesaj, iar într-un telefon mobil, după cum știți, limita este de 160 de caractere (în mesajele SMS). Restul de 20 de caractere pot fi folosite pentru numele expeditorului.

Dar pentru a face acest lucru, va trebui să furnizați numele și parola pentru a vă accesa e-mailul. Cutia mea poștală principală se află pe Gmail, dar cumva nu am îndrăznit să-i transfer parola pe Twitter.

Dacă decideți să faceți acest pas, atunci, se pare, pe baza agendei dvs., vor fi găsiți toți utilizatorii din aceasta care au și un cont în acest serviciu de microblogging. Ei bine, le poți adăuga prietenilor tăi.

De când a fost scris acest articol, Twitter nu numai că a început să accepte limba rusă, dar a dobândit o nouă interfață. Prin urmare, imediat după înregistrarea cu succes, veți fi direcționat către o pagină în partea de sus a căreia vor fi pictograme pentru următorii pași.

Pasul descris în paragraful anterior se numește acum „Prieteni” și este numerotat 3:

Noua interfață are un nou pas care se deschide după înregistrare - „Interese”. În această filă ne puteți spune ce subiecte sunt interesante pentru dvs. Deschizând unul dintre subiectele propuse, vei vedea feedurile disponibile în acesta.

Pentru a vă abona la ele va trebui doar să faceți clic pe butonul "Citire" situat în apropiere. Ca urmare, butonul își va schimba aspectul și va apărea inscripția „Citește” pe el:

Cum se schimbă fundalul pentru Twitter?

În mod implicit, fundalul profilului dvs. va fi albastru, dar îl puteți modifica, precum și culoarea panourilor, culoarea fontului și linkurile de pe pagina dvs., la discreția dvs. De exemplu, Twitter-ul meu arată ca Aşa.

De asemenea, puteți vedea cum arăta interfața acestui serviciu înainte. Pentru a face acest lucru, va trebui să selectați opțiunea „Pentru vechiul Twitter” din lista derulantă de lângă „Nume de utilizator” (situat în colțul din dreapta sus):

Pentru a personaliza designul paginii dvs., selectați elementul „Setări” din meniul de sus (vezi captura de ecran de mai sus), iar în fereastra care se deschide, selectați elementul „Design”.

Pentru a personaliza fundalul paginii tale Twitter, poți folosi opțiunile oferite făcând clic pe ele. Dacă niciunul dintre fundalurile propuse nu este pe placul dvs., atunci puteți utiliza fișierul grafic ca fișier .

Pentru a face acest lucru, faceți clic pe butonul „Schimbați imaginea de fundal” de sub miniaturile de fundal, faceți clic pe butonul „Selectați fișierul” și găsiți fișierul grafic dorit pe computer.

Făcând clic pe butonul „Schimbați culorile designului” din setările Twitter din dreapta sub miniaturi, veți putea:

  1. umpleți fundalul cu o singură culoare, pe care o puteți selecta făcând clic pe pătratul etichetat „fond”
  2. setați culoarea textului în paginile contului dvs. făcând clic pe pătratul etichetat „text”
  3. selectați o culoare pentru toate linkurile făcând clic pe pătratul etichetat „linkuri”
  4. Puteți selecta culoarea de fundal și culoarea chenarului pentru bara laterală din dreapta pe pagina dvs. web Twitter făcând clic pe pătratele „bară” și, respectiv, „chenar”.

După ce ați terminat de făcut delicii estetice, nu uitați să salvați modificările făcând clic pe butonul corespunzător din partea de jos. Nu l-am observat la început și, în consecință, a trebuit să configurez din nou fundalul și designul contului meu de Twitter. În aceeași fereastră de setări, în fila „Profil”, puteți atașa un avatar selectând imaginea dorită în zona „Imagine”.

Selectați „Profil” din meniul de setări de sus. Aici puteți modifica datele existente ale profilului și vă recomand, de asemenea, să adăugați adresa proiectului dvs. web în câmpul „Mai multe informații URL”. Remarcabil, o va face.

Dar, în ultima vreme, motoarele de căutare încă mai pot lua în considerare, într-o măsură sau alta, backlink-urile de la acest serviciu de microblogging, care are .

Cum să folosești Twitter (acum în rusă)?

Selectând elementul „Notificări” din meniul de setări de sus, puteți configura: despre ce evenimente vi se vor trimite mesaje prin e-mail, de exemplu, când cineva se abonează la feedul dvs. (vă urmărește). Direct din scrisoarea trimisă, puteți accesa pagina web a acestei persoane făcând clic pe numele acesteia:

După ce ați citit conținutul mesajelor sale, puteți decide dacă vă abonați sau nu la feedul său Twitter. Pentru a vă abona va trebui să faceți clic pe butonul "Citire"(în versiunea în limba engleză a interfeței - „Follow”, de unde urmează picioarele termenilor, follow sau follower cresc) în partea de sus a ferestrei:

Abonarea la mesaje de la un utilizator sau, cu alte cuvinte, „Urmărirea” pe cineva pe Twitter (Urmărește) înseamnă să adaugi pe cineva la lista ta de contacte. Acesta este ceea ce tocmai am făcut făcând clic pe butonul „Urmărește”.

Dar acel utilizator nu va putea vedea știrile tale până când nu te adaugă la lista de contacte. Cel mai simplu mod de a crea o listă de contacte pe Twitter este să adaugi persoane cu interese similare. Le vei adăuga și ei te vor adăuga pe tine.

Pentru a face acest lucru, puteți utiliza căutarea Twitter - http://search.twitter.com/. Introduceți interesele dvs. în bara de căutare și, ca urmare, veți primi o listă imensă de locuitori ai acestui serviciu care sunt interesați de același lucru. Cererile, desigur, pot fi introduse și în limba rusă.

De îndată ce adăugați persoane în lista dvs. de contacte, mesajele acestora vor apărea în feedul dvs. Pentru a intra în fluxul dvs. de știri trebuie doar să accesați TWITTER.COM, să faceți clic pe linkul „Autentificare” din partea de sus a ferestrei și să introduceți numele de utilizator și parola specificate în timpul înregistrării.

Dacă browserul își amintește login-ul și parola, atunci după ce accesați adresa de mai sus veți fi imediat dus la fluxul de știri cu mesaje de la acei utilizatori Twitter pe care îi urmăriți.

Dacă nu vă plac postările unui utilizator și nu doriți să le mai citiți, vă puteți dezabona de la primirea de mesaje de la acest utilizator accesând pagina lui (feed). Pentru a face acest lucru, va trebui să faceți clic fie pe numele lui, fie pe avatarul său din mesaj. Pe pagina sa de Twitter, treceți mouse-ul peste butonul „Urmărire”, care se va schimba în "Anula", și faceți clic pe el:

Există și alte câteva butoane mici acolo care vă vor ajuta să primiți mesaje de la acel utilizator pe telefonul mobil etc. Îți poți scrie mesajul pe Twitter în formularul din partea de sus pagina de start cu inscriptia "Ce se întâmplă?". Când începeți să tastați un mesaj, veți vedea în partea dreaptă jos a acestui formular numărul de caractere care mai pot fi introduse. În, dar pentru aceasta va trebui să le aveți întotdeauna la îndemână, deoarece nu veți găsi un tooltip încorporat precum VKontakte în această rețea socială.

Pentru a răspunde la un mesaj existent pe Twitter, pur și simplu mutați cursorul mouse-ului peste el și faceți clic pe inscripția care apare în partea de jos a mesajului "Răspuns"(în engleză - „Răspuns”).

După aceasta, numele utilizatorului căruia îi veți scrie un răspuns va fi adăugat automat în formularul de răspuns, iar acest nume va fi precedat de un semn @, ceea ce înseamnă că acesta este, de fapt, un răspuns.

Adesea mesajele sunt citite prin programe specializate, și nu printr-un browser de internet. Există destul de multe astfel de programe. Can trimite mesaje private prin Twitter, care nu va fi văzut de alți utilizatori. Pentru a face acest lucru, destinatarul trebuie să vă urmărească, apoi puteți pe pagina sa web, prin analogie cu metoda de dezabonare discutată chiar mai sus, să faceți clic pe săgeata de lângă butonul asemănător cu un soare și să selectați „Nume utilizator mesaj direct” din meniul drop- lista jos.

Pentru a rezuma, putem face o generalizare și spunem că Twitter este un serviciu care este un amestec exploziv de blog și ICQ. Dar totuși, acesta nu este cu adevărat un blog. Este un mijloc de comunicare și de obținere a informațiilor. Cu el, puteți întâlni persoane care vă interesează, chiar dacă nu sunteți adăugați unul la lista de contacte a celuilalt.

Dacă persoana pe care o dorești nu este abonată la actualizările tale, poți în continuare să răspunzi la mesajele acesteia, pur și simplu lipindu-le în formularul de răspuns. nume cu semnul @ în față. Ca urmare, el te va observa și vei putea termina de a folosi orice formă convenabilă pentru tine (icq etc.).

Ei bine, pe lângă asta, desigur, Twitter poate aduce vizitatori pe site-ul tău într-o sumă proporțională cu numărul de urmăritori dacă, de exemplu, ai configurat postarea automată a titlurilor noilor tale materiale. Dar vă voi spune despre asta și asta și vă voi stabili să postați acolo titlurile articolelor noi de pe site-ul dvs. în articolul următor.

Apropo, dezvoltatorii Twitter au lansat recent un alt proiect social, deși destinat utilizatorilor de gadgeturi mobile - . Acum câștigă rapid popularitate, așa că vă sfătuiesc să citiți articolul legat de el pentru a putea, ca să zic așa, să țineți pasul cu viața...

Mult succes pentru tine! Ne vedem curând pe paginile site-ului blogului

S-ar putea să fiți interesat

FriendFeed - ce este, înregistrarea, configurarea unui canal și comunicare, precum și postarea automată a mesajelor de pe site pe Twitter
Cum am crescut traficul pe site la 300 de persoane pe zi?
Gestionarea reputației în motoarele de căutare (metode SERM)
Rotapost - câștigați bani pentru bloguri prin vânzarea de link-uri sau prin promovarea unui site web prin schimbul Rotapost
Forumuri SEO, bloguri și rețele sociale - ce să citești și de unde să obții informații despre promovarea site-ului web
Yandex ești o dragă, dar Google este mai bun și alte glume de căutare Pr.Sape - cum să cumperi link-uri permanente și să postezi articole, precum și cum să-ți adaugi site-ul la schimbul Pr Sape și să începi să câștigi bani
Cum să promovezi singur un site web și gratuit
Cum să scrieți articole în WordPress - editori vizuali și Html, titluri și evidențierea cuvintelor cheie
Evaluări ale site-urilor și blogurilor - unde să adăugați site-ul, blogul sau forumul

În 2006, a avut loc prima transmitere a unui mesaj scurt - un tweet. Acest lucru s-a întâmplat pe 21 martie, la ora 20:50, ora Pacificului. În acest moment, Jack Dorsey a transmis mesajul: „doar îmi configurez twttr”. Așa a început epoca Twitter.

Twitter este o rețea socială, al cărei „truc” este că utilizatorii pot lăsa doar mesaje scurte, de maximum 140 de caractere.

Și dacă depășesc, atunci ce? Atunci intră în vigoare regula de a fi simplu și concis. Dar această regulă funcționează empiric. Adică, pe de o parte, funcționează, dar pe de altă parte, nu. Un mesaj prea lung poate fi împărțit în două sau trei mesaje scurte. Și există în această formă.

În general, posibilitățile acestei rețele de socializare sunt mult mai largi decât s-ar putea imagina. La început, doar mesajele puteau fi publicate. Ulterior sistemul a fost îmbunătățit și au început să fie adăugate fotografii și fișiere video. În plus, puteți adăuga link-uri către text.

De ce este necesar acest lucru?

S-ar părea, de ce ar fi necesar acest lucru?! Dar, în realitate, acest format a găsit rapid aplicație. Comentarii, glume, opinii - oamenilor le plac toate acestea. Și Twitter este conceput doar pentru asta.

Tocmai din această concizie, oameni celebri au început să folosească activ rețeaua de socializare: politicieni, muzicieni, scriitori și reprezentanți ai altor profesii publice. La urma urmei, pe de o parte, trebuie să fie deschise și, pe de altă parte, să nu provoace nimic inutil.

Cum să vă înregistrați

1. Deschiderea site-ului oficial twitter.com, completați formularul mic din partea dreaptă și faceți clic pe „Înregistrare”.

2. Dacă totul este completat corect (există o pasăre lângă fiecare articol), faceți clic din nou pe „Înregistrare”.

3. Sistemul vă va cere apoi să furnizați un număr de telefon.

Puteți sări peste acest pas, dar este mai bine să adăugați numărul dvs. În caz contrar, pagina dvs. poate fi piratată în orice moment.

4. Și ultima etapă este alegerea unui login. Trebuie să veniți cu un nume în limba engleză pentru Twitter, unul care nu este încă în sistem. Puteți alege una dintre cele enumerate în „Recomandări”.

De asemenea, puteți sări peste acest pas, dar apoi sistemul va atribui un nume aleatoriu Twitter-ului dvs. De obicei nu este foarte frumos. De acord, este mult mai frumos când numele este @nazvanie și nu așa: @bCbMjODYcAfqqAb

Asta este! Rămâne să faci câteva setări (răspunde la câteva întrebări) și pagina ta personală este gata.

De asemenea, puteți să vă abonați la paginile altor persoane, cum ar fi postări, să le comentați și să retweete (repostați pe pagina dvs.).

Tweeturi ale unor oameni celebri

Voi începe cu celebritățile noastre autohtone:

Înainte de a face modificări la fișierul robot.txt, cred că ar fi util să spunem ce fel de fișier este și pentru ce este necesar. Cei care sunt deja familiarizați cu acest fișier pot sări peste prima parte a textului.

Robots.txt ce este acest fișier și pentru ce este?

Acesta este un fișier text obișnuit care este necesar exclusiv pentru motoarele de căutare, servește pentru a indica (sau, dacă doriți, recomandări) pentru a căuta roboți ce și cum să indexeze. Multe depind de un fișier robot.txt compus corect, cu ajutorul acestuia, puteți închide site-ul de la roboții de căutare sau, dimpotrivă, permiteți accesarea cu crawlere doar a anumitor secțiuni ale site-ului. Prin urmare, pregătirea sa competentă este una dintre sarcinile prioritare în optimizarea site-ului SEO.

Pentru a edita corect fișierul robots.txt, mai întâi trebuie să decideți locația acestuia. Pentru orice site, inclusiv cele create în CMS Joomla 3, acest fișier se află în directorul rădăcină (folderul) site-ului. După instalarea Joomla 3, acest fișier este deja prezent, dar conținutul său este departe de a fi ideal.

Sintaxa fișierului Robots.txt

În Joomla 3, fișierul robots.txt din versiunea de bază conține doar cele mai de bază lucruri, conținutul său este cam așa:

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

La începutul fișierului poate exista mai mult text, dar este, să spunem, comentat cu simbolul „#”. Mai simplu spus, o linie care conține simbolul „#” la început nu este luată în considerare de roboții de căutare și poate fi ștearsă în siguranță pentru a reduce dimensiunea fișierului. Astfel, fișierul robot.txt de bază va avea exact conținutul specificat mai sus. Să ne uităm la fiecare rând.

Prima linie conține directiva User-agent, ai cărei parametri sunt numele robotului care va indexa site-ul. Astfel, directivele care o urmează vor fi procesate doar de robotul specificat. Pot exista mulți parametri, dar să luăm în considerare doar cei de care avem nevoie:

  • Agent utilizator: *#Acest parametru cu valoarea „*” spune că textul de după această linie va conține informații pentru toți roboții fără excepție.

Acest parametru are alte valori, dintre care cele mai comune sunt robotul Yandex și Google:

  • Agent utilizator: Yandex#așa cum sugerează și numele, parametrul este destinat roboților Yandex și pentru toți roboții, dintre care Yandex are mai mult de 10, nu văd niciun rost să-i luăm pe fiecare separat.
  • Agent utilizator: Googlebot#și acesta este principalul robot de indexare al Google.

Este de remarcat faptul că, dacă nu specificați directiva User-agent, atunci roboții vor crede că au voie să acceseze cu crawlere întregul site, adică accesul nu este limitat. Deci nu o neglija.

Următoarea directivă Nu permiteți, este necesar să împiedicăm roboții de căutare să indexeze anumite secțiuni, acesta joacă un rol foarte important, deoarece Joomla este renumit pentru crearea de pagini duplicat.

Aici se termină directivele din fișierul robots.txt de bază, dar există mai mult de două. Nu voi descrie totul, voi scrie doar ceea ce este cu adevărat necesar pentru indexarea corectă a site-urilor pe Joomla. 

Compilarea fișierului robots.txt corect pentru Joomla 3

Vă voi salva de textul inutil și vă voi da imediat un exemplu de fișier robots.txt și voi adăuga comentarii la rândurile:

User-agent: * # indicăm că următoarele directive sunt destinate tuturor roboților fără excepție Gazdă: site # Directiva indică oglinda principală a site-ului, conform recomandărilor Yandex este recomandabil să o plasați după directivele Allow și Allow Disallow: /administrator Disallow: /component/slogin/* #interdicția de a ocoli paginile din stânga create de componenta de autorizare Slogin (dacă nu există o astfel de componentă, atunci eliminați directiva) Disallow: /component/jcomments/ #Interziceți descărcarea roboților pagini create de componenta JComments (eliminați dacă nu este utilizat) Disallow: /component/users #În același mod, interziceți ocolirea altor pagini din stânga Disallow: /bin/ #Interziceți ocolirea folderelor de sistem Disallow: /cache Disallow: /cli Disallow: /includes Disallow: /instalare Disallow: /language Disallow: /layouts Disallow: /libraries Disallow: /logs Disallow: / tmp Disallow: /components Disallow: /modules Disallow: /plugins Disallow: /component/content Disallow: /component/contact Disallow: /404 #închide eroarea 404 din ochii robotului Disallow: /index.php? #urls cu parametri, Joomla poate crea foarte multe astfel de pagini, acestea nu ar trebui incluse în indexul Disallow: /*? #urls with questions Disallow: /*% #urls with percentages Disallow: /*& #urls with & Disallow: /index.php #elimină duplicatele, nici acestea nu ar trebui să fie acolo Disallow: /index2.php #duplicates again Permite: / *.js* #Această directivă permite roboților să indexeze fișierele cu extensiile specificate. Permite: /*.css* Permite: /*.png* Permite: /*.jpg* Permite: /*.gif* Permite: /index.php?option=com_jmap&view=sitemap&format=xml #Permite ocolirea hărții site-ului, altfel în în cazul în care va fi interzis..php?option=com_jmap&view=sitemap&format=xml #Această directivă are scopul de a indica funcționarea locației de stocare pentru harta site-ului în format xml

Acesta este aproximativ fișierul robot.txt folosit pe acest site, în el sunt enumerate ca permitând, deci directive prohibitive, indicat oglinda principală a site-ului, și de asemenea calea către harta site-ului. Desigur, totul este individual pentru fiecare site și pot exista mult mai multe directive. Dar folosind acest exemplu, puteți înțelege principiile de bază ale lucrului cu fișierul „robot txt” și, în viitor, puteți distribui interdicții sau permisiuni către anumite pagini special pentru site-ul dvs.

Aș dori să adaug că, spre deosebire de recomandările Yandex, că este mai bine să plasați directiva Gazdă după directivele Disallow și Allow, am plasat-o în continuare aproape în vârf. Și am făcut asta după ce, după încă o accesare cu crawlere a site-ului de către un robot, Yandex m-a informat că nu a găsit această directivă. Indiferent dacă a fost o eroare temporară sau altceva, nu am verificat și am returnat această directivă în vârf.

Fiți atenți la ultima directivă, al cărei nume este Sitemap, este necesar să indicați robotului de căutare locația hărții site-ului, acesta este un punct foarte important. Ce este un fișier Sitemap și care este rolul acestuia în promovarea site-ului web poate fi citit

Fișierul robots.txt este un fișier text pentru a controla comportamentul motoarelor de căutare atunci când accesează cu crawlere un site. Folosind directoare interzise, ​​puteți închide de la scanare pagini individuale ale site-ului, secțiunile acestuia și site-ul în ansamblu. Cu toate acestea, interdicția este închisă indexarea pagini numai pentru roboții Yandex.

Despre fișierul robots.txt

Nu ar trebui să amânați pașii de pregătire a site-ului pentru indexare până când nu îl umpleți cu materiale. Pregătirea de bază a unui site pentru indexare se poate face imediat după crearea site-ului.

Principalul instrument de gestionare a motoarelor de căutare Google, Yandex, Bing și altele este fișierul text robots.txt. Fișierul robots.txt vă permite să controlați ce motoarele de căutare ar trebui să acceseze cu crawlere și ce ar trebui să ocolească. Yandex citește directivele fișierului robots.txt nu numai pentru permisiunea de accesare cu crawlere, ci și pentru permisiunea de a indexa paginile. Dacă o pagină este interzisă de roboți, după un timp, Yandex o va elimina din index dacă există și nu o va indexa dacă pagina nu este în index.

Fișierul robots.txt este fișier text plasat la rădăcina site-ului. Conform anumitor reguli, prescrie ce material de pe site-ul motoarele de căutare ar trebui să scaneze și ce material ar trebui să fie „evitat”. Trebuie să setați regulile pentru comportamentul motorului de căutare în legătură cu materialul site-ului din fișierul robots.txt.

Ca să vezi cum Fișierul robots.txt arată ca (dacă se află în directorul site-ului), doar în linia browserului la numele site-ului, adăugați robots.txt printr-o bară oblică.

Fișierul robots.txt este creat după anumite reguli. Aceste reguli se numesc sintaxa fișierului. Puteți vizualiza sintaxa detaliată a fișierului robots.txt pe Yandex ( https://help.yandex.ru/webmaster/?id=996567). Aici mă voi concentra asupra regulilor de bază care vă vor ajuta să creați un fișier robots.txt pentru un site web Joomla.

Reguli pentru crearea unui fișier robots.txt

În primul rând, permiteți-mi să vă atrag atenția: fișierul robots.txt trebuie creat individual, ținând cont de particularitățile structurii site-ului și ale politicii sale de promovare. Versiunea propusă a fișierului este condiționată și aproximativă și nu poate pretinde universalitate.

Fiecare linie din fișier se numește directivă. Directivele fișierului robots.txt arată astfel:

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

Un fișier robots.txt gol înseamnă că întregul site este indexat.

S-ar părea că e ceva rău aici. Permiteți motoarele de căutare să acceseze cu crawlere și să indexeze tot materialul site-ului. Dar e bine atâta timp cât site-ul este gol. Cu umplerea sa cu materiale, editarea constantă, încărcarea fotografiilor, ștergerea materialelor, articolele care nu mai au legătură cu site-ul, paginile duplicate, arhivele vechi și alte materiale de gunoi sunt indexate. Motoarelor de căutare nu le place acest lucru, în special paginile duplicate, și chiar și în spatele acestui „gunoi” materialul principal se poate pierde.

Directivele fișierului Robots.txt

  • „User-agent” este o adresă personală sau generală către motoarele de căutare.
  • „Permite” sunt directive permisive;
  • „Disallow” sunt directive de interzicere.

Directiva „User-agent”.

Dacă motorul de căutare nu este specificat în linia User-agent, există un asterisc (*) în linia „User-agent”, ceea ce înseamnă că toate directivele din fișierul robots.txt se aplică tuturor motoarelor de căutare.

Puteți seta reguli de indexare pentru un anumit motor de căutare. De exemplu, regulile pentru Yandex ar trebui să fie scrise în directiva „User-agent”, deci

Agent utilizator: Yandex

Voi da un exemplu de alte motoare de căutare care pot fi înregistrate în directorul „User-agent”.

  • Google Googlebot
  • Yahoo!
  • Slurp (sau Yahoo! Slurp)
  • AOL Slurp
  • MSN MSNBot
  • Live MSNBot
  • Întreabă-l pe Teoma
  • Scooter AltaVista
  • Alexa ia_archiver
  • Lycos Lycos
  • Yandex Yandex
  • Rambler StackRambler
  • Mail.ru Mail.Ru
  • Aport Aport Webalta

WebAlta (WebAlta Crawler/2.0) Important!

Fișierul robots.txt este necesar și trebuie să conțină o directivă „Disallow”. Chiar dacă întregul fișier robots.txt este gol, directiva „Disallow” ar trebui să fie în el.

Să ne uităm la semnele de sintaxă care definesc regulile de indexare

  • Sunt permise următoarele caractere speciale: asterisc (*); bară oblică (/); și ($).
  • Simbolul asterisc (*) înseamnă „oricare”, „toate”.
  • Simbolul ($) anulează (*)

Numai simbolul slash (/) înseamnă directorul rădăcină al site-ului, la fel cum separatorul slash (/) arată căile către fișierele pentru care este scrisă regula.

De exemplu, linia:

Nu permiteți:

Înseamnă o interdicție „pentru nimeni”, adică nicio interdicție pentru întregul site. Și linia:

Nu permite: /

Înseamnă o interdicție „pentru toată lumea”, adică o interdicție pentru toate folderele și fișierele de pe site. Șir ca:

Creează complet o interdicție a întregului folder /components/, care se află la: http://your_site/components/

Și aici este linia

class="eliadunit">Disallow: /components

Creează o interdicție a folderului „componente” și a tuturor fișierelor și folderelor care încep cu „componente”. De exemplu: „components56”;”components77”.

Dacă adăugăm „Disallow” la exemplele date de directoare pentru care motorul de căutare a fost creată această regulă, obținem un fișier robots.txt gata făcut

Agent utilizator: Yandex Disallow:

Acesta este un fișier robots.txt, ceea ce înseamnă că motorul de căutare Yandex poate indexa întregul site fără excepție.

Și așa sunt scrise rândurile:

Agent utilizator: Yandex Disallow: /

Dimpotrivă, Yandex interzice complet indexarea întregului site.

Principiul este clar, voi privi câteva exemple și la sfârșit voi oferi fișierele clasice robots.txt pentru Yandex și Google.

Următorul exemplu este fișierul robots.txt al unui șablon (tocmai instalat) site-ului Joomla

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

Acest fișier robots.txt definește reguli pentru toate motoarele de căutare și interzice indexarea a 15 foldere de site situate în directorul rădăcină (rădăcină) al site-ului.

Informații suplimentare în fișierul robots.txt

În fișierul robots.txt, trebuie să indicați motoarelor de căutare adresa Sitemap-ului și domeniul oglindă pentru motorul de căutare Yandex.

  • Harta site-ului: http://exempl.com/sitemap.xml.gz
  • Harta site-ului: http://exempl.com/sitemap.xml

Separat, puteți crea un robots.txt pentru Yandex pentru a include o directivă Gazdă și pentru a specifica o oglindă a site-ului în ea.

Gazdă: www.your-site.com# înseamnă că oglinda principală a site-ului de pe www.

Gazdă: site-ul tău.com#înseamnă că domeniul principal al site-ului fără www.

WebAlta (WebAlta Crawler/2.0) Când scrieți fișierul robots.txt, nu uitați să lăsați un spațiu după două puncte și totul după două puncte trebuie scris cu litere mici.

WebAlta (WebAlta Crawler/2.0)Încercați să nu utilizați fișiere șablon robots.txt preluate de pe Internet (cu excepția robots.txt de la Joomla în mod implicit). Fiecare fișier robots.txt trebuie compilat individual și editat în funcție de traficul site-ului și de analiza SEO a acestuia.

La sfârșitul articolului voi da un exemplu de fișier robots.txt corect pentru un site Joomla.

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /tmp/ Disallow: /templates/ Agent utilizator: Yandex Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /templates/ Disallow: /*?* Gazdă: domen.ru (sau https: //domen.ru) Harta site-ului: http://domen.ru/sitemap.xml (sau https://domen.ru/sitamap.xml)

Concluzii

În ciuda tradițiilor, observ că pentru a bloca paginile site-ului de la indexare, utilizați instrumente interne CSM. Toți editorii de conținut au inserarea etichetelor noindex, nofollow.

  • închiderea întregului site în timpul creării acestuia;
  • închiderea site-ului de la motoarele de căutare inutile;
  • închiderea secțiilor personale;
  • reducerea sarcinii pe server (directiva crawl-delay).
  • închiderea indexării paginilor de paginare, sortare și căutare;
  • Închideți paginile duplicate numai pentru Yandex și utilizați instrumentele CMS pentru Google;
  • Nu încercați să eliminați pagini și secțiuni din indexul Google. Acest lucru funcționează numai pentru Yandex.

Drept urmare, observ din nou că fișierul robots.txt pentru site-ul Joomla este compilat individual. Pentru a începe, utilizați versiunea în casetă a fișierului robots.txt.disc, pe care îl redenumiți în robots.txt și îl împărțiți în două secțiuni, una pentru Yandex și a doua pentru toți ceilalți roboți. Pentru Yandex, asigurați-vă că adăugați directorul Gazdă, indicând oglinda principală a site-ului din acesta.

Pentru a afla dacă există robots.txt pe site, pur și simplu adăugați „/robots.txt” în bara de adrese a browserului, vizualizarea completă arată astfel: „http://yoursite.ru/robots. TXT". Aproape fiecare resursă de Internet are acest fișier robots.txt, acesta este cel care determină și oferă robotului de căutare capacitatea de a indexa sau nu secțiunile și categoriile unui site web. Robots.txt configurat prost sau pur și simplu lăsat implicit poate da uneori rezultate proaste în rezultatele căutării sub formă de pagini duplicat, pagini de paginare și așa mai departe. Toate acestea pot duce la filtre și sancțiuni din partea motorului de căutare, dacă în Google acest lucru este puțin probabil, atunci în Yandex, din cauza robots.txt incorect, puteți dispărea cu ușurință din rezultatele căutării.

Ce este robots.txt?

Robots.txt- un fișier *.txt situat în folderul rădăcină al site-ului dvs. Fișierul robots.txt conține o serie de instrucțiuni pentru roboții de căutare care le spun cum să indexeze un site web. Robots.txt alcătuit corect este cheia pentru indexarea cu succes a proiectului dvs. pe Internet!

Reguli și termeni robots.txt

La începutul fișierului robots.txt este indicată cea mai semnificativă directivă, care determină numele robotului de căutare - User-agent. Dacă resursa dvs. nu aparține segmentului vorbitor de limbă rusă, directiva se va numi -User-agent: * (pentru toți roboții de căutare), iar pentru Yandex adăugăm numele Yandex la User-agent - User-agent: Yandex .

Apoi urmați directivele PermiteŞi Nu permiteți, care determină posibilitatea de indexare. Directivă Permite permite indexare și Interzice interzice.

Dacă fișierul robots.txt este gol sau pur și simplu lipsește, robotul de căutare va indexa întregul site, inclusiv paginile nedorite inutile care nu ar trebui să fie în rezultatele căutării.

Directivă Gazdă determină oglinda principală a site-ului web și este citită numai de robotul motorului de căutare Yandex.

Ultima parte importantă a fiecărui fișier robots.txt din Joomla este directiva Harta site-ului. Sitemap-ul este cel care ajută la evitarea conținutului duplicat și îi spune robotului Yandex adresele corecte pentru materiale noi. Harta site-ului Joomla este specificată în format XML.

Agent utilizator: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Gazdă: vash_sait.ru (sau www.vash_sait.ru) Sitemap: http://calea către harta dvs. XML Format User-agent: * Permite: /*.css?*$ Permite : /*.js?*$ Permite: /*.jpg?*$ Permite: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language / Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component / Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Sitemap: http://path to your XML format map