✅ Robots.txt vai robotu izslēgšanas standarts un meklētājprogrammu pārmeklēšana

Satura rādītājs

Sveiki, es sāku ar šo pamācību vietnē robots.txt, es ceru, ka jums tas patiks

Ļaujiet visiem robotiem apmeklēt visus failus, kas tiek glabāti tīmekļa saknes direktorijā:

 User-agent: * Neatļaut:

Novērst piekļuvi visiem robotiem un visiem saknes direktorijā saglabātajiem failiem:

 User-agent: * Neatļaut: /

Atļaujiet piekļūt tikai vienam robotam, šajā piemērā tikai Google varēs pārmeklēt

 User-agent: googlebot Disallow: User-agent: * Disallow: /

Populārākajiem robotiem ir nosaukums, ko lietot lietotāja aģentā
googlebot => Google
msnbot => MSN meklēšana
yahoo-slurp => Yahoo!
skrubis => Skrubējiet tīmekli
robozilla => DMOZ pārbaudītājs
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Ir arī specifiskāki roboti, piemēram, attēlos redzamie
googlebot-image => Google attēls
googlebot-mobile => Google Mobile
Vēl viens piemērs, ka visas apakšdirektorijas, kurās ir aizstājējzīme (/), ir jābloķē, tikai šīs, izņemot visus citus failus un direktorijus, kas nesatur aizstājējzīmi, parasti tiek bloķēti sistēmas vai aizmugures direktoriji:

 User-agent: * Neatļaut: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Novērst konkrēta faila izsekošanu

 User-agent: * Neatļaut: /page.htm

To bieži izmanto, ja vēlamies izslēgt lapu, kas rada kļūdu 404, vai noņemt lapu no meklēšanas rezultātiem, tādējādi neļaujot to pārmeklēt.
Pārvaldiet pārmeklēšanas robotu biežumu
No Google analītika un no tīmekļa pārvalki jūs varat redzēt statistiku, kā arī redzēt, ka dažreiz dažiem robotiem ir vajadzīgs ilgs laiks, lai pārskatītu mūsu vietni un iesniegtu pieprasījumus serverim, roboti patērē joslas platumu un resursus tā, it kā viņi būtu tikai vēl viens apmeklētājs.
Ir veids, kā roboti nekontrolējas, mēs varam pateikt katram
User-agent: googlebot Pārmeklēšanas aizkave: 30
Ar to mēs informējam Google robotu, lai starp katru pārmeklēšanu nogaidītu 30 sekundes. Esiet piesardzīgs, jo pārmeklēšanas aizkave, iespējams, netiek atbalstīta visās meklētājprogrammās, Bing un Google.
Oficiālā vietne robots.txt Tas ir http://www.robotstxt.org/, kur mēs atradīsim visu robotu nosaukumus, specifikācijas par kodu. Šeit atklājas, ka roboti kalpo, lai standartizētu tos, kas ir jāseko, un tiek izmantoti citās platformās, lai izsekotu un apstiprinātu html, apstiprinātu saites, indeksētu informāciju, atjauninātu saturu meklētājprogrammās, aizsargātu vietnes.Vai jums patika šī apmācība un palīdzējāt tai?Jūs varat apbalvot autoru, nospiežot šo pogu, lai sniegtu viņam pozitīvu punktu