فایل robots.txt چیست و چگونه می توانیم آن را بسازیم یا ویرایش کنیم؟

robots.txt

robots.txt یک فایل متنی است که وب مسترها، برای آموزش نحوه خزیدن (Crowl) ربات های وب (معمولاً ربات های موتور جستجو) در صفحات وب سایت خود، این فایل را ایجاد می کنند. پرونده robots.txt بخشی از پروتکل (REP) است. پروتکل (REP)، گروهی از استانداردهای وب می باشد که چگونگی خزیدن روبات ها در وب سایت، دسترسی و فهرست بندی مطالب را تنظیم می کنند و آن محتوا را در اختیار کاربران قرار می دهند.

REP همچنین شامل راهنما هایی مانند روبات های متا، دستورالعمل های صفحه و راهنمای سایت برای نحوه برخورد موتورهای جستجو با پیوندها (مانند “dofollow” یا “nofollow”) می باشد. در عمل، پرونده های robots.txt نشان می دهند که user agents (نرم افزار خزنده وب) در کدام قسمت ها از یک وب سایت می توانند بخزند.

وجود فایل robots.txt و پیکربندی صحیح آن، برای سئو سایت بسیار مهم است و باید به آن توجه نمود. این فایل مستقیما با ربات های خزنده موتورهای جستجو در ارتباط است و پیکربندی نادرست آن می تواند به سئو سایت شما ضربه وارد کند.

فایل robots.txt

[User-agent: [user-agent name
[Disallow: [URL string not to be crawled

این دو خط با هم یک پرونده کامل robots.txt به حساب می آیند. هرچند که یک پرونده روبات می تواند حاوی چندین خط از عوامل و دستورالعمل های کاربر باشد (به عنوان مثال، اجازه نمی دهد یا اجازه می دهد در قسمت های مختلف سایت خزیدن داشته باشد، تاخیر در خزیدن و غیره).

در یک پرونده robots.txt، هر مجموعه از دستورالعمل های user agents به عنوان یک مجموعه گسسته، در خط های جدا از هم ظاهر می شوند:

پرونده robots.txt

در یک پرونده robots.txt با چندین دستورالعمل، هر قانون مجاز یا مجاز نیست فقط مربوط به User agent مشخص شده در آن خط می باشد. اگر پرونده حاوی یک قانون است که برای بیش از یک user agent اعمال می شود، خزنده فقط به خاص ترین گروه دستورالعمل ها توجه خواهد کرد.

  در اینجا مثالی وجود دارد:

نمونه robots.txt

Msnbot ،discobot و Slurp همه به طور اختصاصی فراخوانی می شوند، بنابراین یوزر ایجنت های آن ها فقط به دستورالعمل هایی توجه می کنند که برای آن ها نوشته شده اند. بقیه نیز دستورالعمل های موجود در یوزر ایجنت کلی را دنبال می کنند:

در اینجا چند نمونه از اقدامات robots.txt برای یک سایت نمونه به آدرس www.example.com آورده شده است:

Robots.txt file URL: www.example.com/robots.txt

مسدود کردن همه خزنده های وب از تمام محتوا

 * : User-agent 
/  : Disallow

استفاده از این ترکیب در یک پرونده robots.txt به همه خزندگان وب می گوید که هیچ صفحه‌ ای را در www.example.com، از جمله صفحه اصلی، نخزند.

اجازه دسترسی همه خزندگان وب به همه محتوا

 * : User-agent
  : Disallow 

استفاده از این ترکیب در یک پرونده robots.txt به خزندگان وب می گوید که تمام صفحات در سایت www.example.com، از جمله صفحه اصلی، را بخزند.

مسدود کردن یک خزنده وب خاص از یک پوشه خاص

User-agent: Googlebot
/Disallow: /example-subfolder

این دستور به خزنده های گوگل (نام کاربر عامل Googlebot) می گوید صفحه هایی را که حاوی رشته /www.example.com/example-subfolder هستند، را نخزند.

مسدود کردن یک خزنده وب خاص از یک صفحه خاص وب سایت

User-agent: Bingbot
 Disallow: /example-subfolder/blocked-page.html

این دستور به خزنده بینگ (نام کاربری بینگ) می گوید که از خزیدن در صفحه خاص www.example.com/example-subfolder/blocked-page جلوگیری کند.

*** چند نکته مهم ***

  • برای اینکه این فایل توسط ربات ها پیدا شود، لازم است که آن را در بالاترین سطح پوشه های وب سایت خود قرار دهید.
  • Robots.txt حساس به بزرگی و کوچکی حروف است یعنی پرونده باید “robots.txt” نامگذاری شود (نه Robots.txt و robots.TXT یا موارد دیگر).
  • برخی از user agents ممکن است پرونده robots.txt شما را نادیده بگیرند. این امر به ویژه در مورد خزنده های مبهم تر مانند روبات های مخرب یا اسکنرهای آدرس ایمیل رایج است.
  • پرونده robots.txt/ در دسترس عموم است یعنی کافی است robots.txt/ را به انتهای هر دامنه اصلی اضافه کنید تا دستورالعمل های این وب سایت را مشاهده کنید (لبته اگر وب سایت این پرونده را داشته باشد). این بدان معنی است که هر کسی می تواند ببیند صفحات شما چه کاری انجام می دهد یا تمایل به خزیده نشدن کدام صفحات دارید، بنابراین از آنها برای مخفی کردن اطلاعات کاربری خود استفاده نکنید.
  • هر زیر دامنه از یک دامنه root باید پرونده های جداگانه robots.txt مخصوص به خود را داشته باشند. این بدان معنی است که هر دو blog.example.com و shembull.com باید پرونده های robots.txt خود را داشته باشند. (در blog.example.com/robots.txt و example.com/robots.txt)
  • * به معنی تمام ربات های جستجوگر است.
  • این نکته را مد نظر داشته باشید که در پایان نام فولدر ها از کاراکتر / استفاده کنید.
  • فایل robots.txt بهترین مکان برای تعریف نقشه سایت شما است. شما در این جا می توانید آدرس نقشه های مختلف سایت خود را برای ربات های خزنده، تعریف کنید. مثل تصویر زیر:
بررسی Robots.txt

چند اصطلاح رایج در این فایل

چند اصطلاح رایج وجود دارد که به احتمال زیاد در پرونده روبات ها قرار دارد. آنها شامل موارد زیر هستند :

User-agent : مشخص کننده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.

Disallow : نشان دهنده آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.

Allow (فقط برای Googlebot قابل اجرا است) : دستور برای اطلاع دادن به Googlebot می تواند به یک صفحه یا زیر پوشه دسترسی پیدا کند حتی اگر صفحه اصلی یا زیر پوشه آن مجاز نیست.

چرا به robots.txt احتیاج دارید؟

پرونده های Robots.txt دسترسی خزنده را به مناطق خاصی از سایت شما کنترل می کنند. در حالی که اگر به طور تصادفی Googlebot را از خزیدن در کل سایت خود محروم کنید ممکن است بسیار خطرناک باشد، برخی مواقع وجود دارد که یک پرونده robots.txt می تواند بسیار مفید باشد.

فایل robots.txt

برخی موارد استفاده از robots.txt در زیر بیان شده است:

  • جلوگیری از نمایش محتوای تکراری در SERP (توجه داشته باشید که روبات های متا معمولاً انتخاب بهتری برای این کار هستند)
  • نگه داشتن صفحات نتایج جستجوی داخلی در SERP عمومی
  • مشخص کردن نقشه سایت یا سایت ها
  • جلوگیری از ایندکس کردن فایل های خاص در وب سایت خود از موتورهای جستجو (تصاویر، PDF و غیره)
  • اگر در سایت شما هیچ نیازی وجود ندارد که بخواهید دسترسی User-agent را کنترل کنید، ممکن است، هیچ وقت به این فایل احتیاج نداشته باشید.

بررسی فایل robots.txt

اگر مطمئن نیستید که این پرونده را دارید یا خیر می توانید به سادگی این مسئله را تست کنید. دامنه اصلی خود را تایپ کرده، سپس به انتهای URL آن robots.txt/ را اضافه کنید. به عنوان مثال، پرونده روبات های Moz در moz.com/robots.txt قرار دارد. اگر هیچ صفحه txt. ظاهر نشد، در حال حاضر این صفحه در وب سایت شما وجود ندارد.

نحوه ایجاد پرونده robots.txt

نحوه ایجاد این پرونده

برای ایجاد و تست این فایل می توانید از google webmasters tools استفاده کنید. گوگل وب مستر ابزاری با عنوان robots.txt testing tool قرر داده است که به شما کمک می کند فایل robots.txt را به آسانی ایجاد کرده و تست نمائید. این ابزار در بخش crawl گوگل وب مستر قابل روئیت است. در این قسمت شما می توانید فایلی که با عنوان robots.txt وجود دارد را بررسی کرده، اطلاعات این فایل را تغییر دهید یا توسط این ابزار آنها را چک کنید. توجه کنید که پس از اعمال تغییرات لازم است فایل تغییر یافته را در سرور خود آپلود نمایید تا تاثیرات آن در سایت شما ظاهر شود.

Total
0
Shares
پست قبلی
hsts

HSTS چیست و چگونه کمک کننده انتقال امن به HTTPS است؟

پست بعدی
نحوه فوروارد کردن ایمیل از Cpanel

نحوه فوروارد کردن ایمیل از Cpanel

پست های مرتبط