robots.txt یک فایل متنی است که وب مسترها، برای آموزش نحوه خزیدن (Crowl) ربات های وب (معمولاً ربات های موتور جستجو) در صفحات وب سایت خود، این فایل را ایجاد می کنند. پرونده robots.txt بخشی از پروتکل (REP) است. پروتکل (REP)، گروهی از استانداردهای وب می باشد که چگونگی خزیدن روبات ها در وب سایت، دسترسی و فهرست بندی مطالب را تنظیم می کنند و آن محتوا را در اختیار کاربران قرار می دهند.
REP همچنین شامل راهنما هایی مانند روبات های متا، دستورالعمل های صفحه و راهنمای سایت برای نحوه برخورد موتورهای جستجو با پیوندها (مانند “dofollow” یا “nofollow”) می باشد. در عمل، پرونده های robots.txt نشان می دهند که user agents (نرم افزار خزنده وب) در کدام قسمت ها از یک وب سایت می توانند بخزند.
وجود فایل robots.txt و پیکربندی صحیح آن، برای سئو سایت بسیار مهم است و باید به آن توجه نمود. این فایل مستقیما با ربات های خزنده موتورهای جستجو در ارتباط است و پیکربندی نادرست آن می تواند به سئو سایت شما ضربه وارد کند.
[User-agent: [user-agent name [Disallow: [URL string not to be crawled
این دو خط با هم یک پرونده کامل robots.txt به حساب می آیند. هرچند که یک پرونده روبات می تواند حاوی چندین خط از عوامل و دستورالعمل های کاربر باشد (به عنوان مثال، اجازه نمی دهد یا اجازه می دهد در قسمت های مختلف سایت خزیدن داشته باشد، تاخیر در خزیدن و غیره).
در یک پرونده robots.txt، هر مجموعه از دستورالعمل های user agents به عنوان یک مجموعه گسسته، در خط های جدا از هم ظاهر می شوند:
در یک پرونده robots.txt با چندین دستورالعمل، هر قانون مجاز یا مجاز نیست فقط مربوط به User agent مشخص شده در آن خط می باشد. اگر پرونده حاوی یک قانون است که برای بیش از یک user agent اعمال می شود، خزنده فقط به خاص ترین گروه دستورالعمل ها توجه خواهد کرد.
در اینجا مثالی وجود دارد:
Msnbot ،discobot و Slurp همه به طور اختصاصی فراخوانی می شوند، بنابراین یوزر ایجنت های آن ها فقط به دستورالعمل هایی توجه می کنند که برای آن ها نوشته شده اند. بقیه نیز دستورالعمل های موجود در یوزر ایجنت کلی را دنبال می کنند:
در اینجا چند نمونه از اقدامات robots.txt برای یک سایت نمونه به آدرس www.example.com آورده شده است:
Robots.txt file URL: www.example.com/robots.txt
* : User-agent
/ : Disallow
استفاده از این ترکیب در یک پرونده robots.txt به همه خزندگان وب می گوید که هیچ صفحه ای را در www.example.com، از جمله صفحه اصلی، نخزند.
* : User-agent
: Disallow
استفاده از این ترکیب در یک پرونده robots.txt به خزندگان وب می گوید که تمام صفحات در سایت www.example.com، از جمله صفحه اصلی، را بخزند.
User-agent: Googlebot
/Disallow: /example-subfolder
این دستور به خزنده های گوگل (نام کاربر عامل Googlebot) می گوید صفحه هایی را که حاوی رشته /www.example.com/example-subfolder هستند، را نخزند.
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
این دستور به خزنده بینگ (نام کاربری بینگ) می گوید که از خزیدن در صفحه خاص www.example.com/example-subfolder/blocked-page جلوگیری کند.
چند اصطلاح رایج وجود دارد که به احتمال زیاد در پرونده روبات ها قرار دارد. آنها شامل موارد زیر هستند :
User-agent : مشخص کننده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow : نشان دهنده آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.
Allow (فقط برای Googlebot قابل اجرا است) : دستور برای اطلاع دادن به Googlebot می تواند به یک صفحه یا زیر پوشه دسترسی پیدا کند حتی اگر صفحه اصلی یا زیر پوشه آن مجاز نیست.
پرونده های Robots.txt دسترسی خزنده را به مناطق خاصی از سایت شما کنترل می کنند. در حالی که اگر به طور تصادفی Googlebot را از خزیدن در کل سایت خود محروم کنید ممکن است بسیار خطرناک باشد، برخی مواقع وجود دارد که یک پرونده robots.txt می تواند بسیار مفید باشد.
اگر مطمئن نیستید که این پرونده را دارید یا خیر می توانید به سادگی این مسئله را تست کنید. دامنه اصلی خود را تایپ کرده، سپس به انتهای URL آن robots.txt/ را اضافه کنید. به عنوان مثال، پرونده روبات های Moz در moz.com/robots.txt قرار دارد. اگر هیچ صفحه txt. ظاهر نشد، در حال حاضر این صفحه در وب سایت شما وجود ندارد.
برای ایجاد و تست این فایل می توانید از google webmasters tools استفاده کنید. گوگل وب مستر ابزاری با عنوان robots.txt testing tool قرر داده است که به شما کمک می کند فایل robots.txt را به آسانی ایجاد کرده و تست نمائید. این ابزار در بخش crawl گوگل وب مستر قابل روئیت است. در این قسمت شما می توانید فایلی که با عنوان robots.txt وجود دارد را بررسی کرده، اطلاعات این فایل را تغییر دهید یا توسط این ابزار آنها را چک کنید. توجه کنید که پس از اعمال تغییرات لازم است فایل تغییر یافته را در سرور خود آپلود نمایید تا تاثیرات آن در سایت شما ظاهر شود.