کاربرد فایل Robots.txt چیست ؟
یکی از فایلهایی که به طور مستقیم روی سئوی سایت تاثیر فراوانی دارد و اگر اشتباه تنظیم شود، باعث خسارتهای جبران ناپذیری روی سایت ما خواهد شد، سند robots.txt است. این سند به عبارت ساده، به خزندههای موتورهای جستجو میگوید که از چه قسمتهای سایت بازدید کنند و آنها را بررسی کنند و چه قسمتهایی از سایت را بررسی نکنند.
در سال ۱۹۹۴ قراردادی با عنوان Robots Exclusion Standard ایجاد شد که به واسطهٔ آن وبسایتها با خزندهها و دیگر رباتهای رایانهای ارتباط برقرار کنند. در این قرارداد، دستوراتی در قالب یک سند متنی txt معمولی روی ریشهٔ سایت گذاشته میشود که توسط دیگران قابل رؤیت باشد. ساخت آن بسیار ساده است و شما هم میتوانید برای سایت خود یکی از آنها را بسازید.
البته نکتهٔ بسیار مهم این است که وجود سند robots.txt تمامی خزندهها و رباتها را از بررسی برخی از صفحات سایت، محروم نمیکند. فقط آنهایی که به این قرارداد پایبند هستند این سند را بررسی میکنند. مثلاً رباتهای مخرب یا نرم افزارهایی که در صدد سرقت محتوای یک سایت هستند، اصلاً به robots.txt توجهی نمیکنند. یا رباتهایی که به دنبال اسپم هستند. اما خزندههای موتورهای جستجو تا حد زیادی به آن پایبندند و اگر شما دستور دهید به آنها که از صفحات خاصی از سایتتان بازدید نکنند، سعی میکنند به حرف شما گوش دهند.
هر چند که برای خزندههای موتورهای جستجو دستورات عدم بازدید درون فایل robots.txt به این معنا نیست که اصلاً آنها را بررسی نمیکنند! به این دلیل که همچنان این صفحات برای هر کسی میتواند توسط مرورگر قابل دسترس باشد، توسط موتورهای جستجو بررسی میشوند. اما حتماً از آوردن آن صفحات در نتایج جستجوی خود خودداری میکنند. به همین دلیل میتوان گفت بررسی و عمل به دستورات فایل robots.txt تقریباً سلیقهای است و زیاد نباید روی آن تمرکز نمود.
مثلاً اگر قصد دارید یک صفحه را واقعاً از دید دیگران مخفی کنید، بهتر است روی ان صفحه رمز بگذارید یا از دیگر روشهایی که سیستمهای مدیریت محتوا در اختیارتان میگذارند، استفاده نمایید. در ادامه کمی راجع به ساختار سند robots.txt بیشتر خواهید دانست.
ساختار فایل robots.txt
همانطور که گفته شد این سند یک فایل متنی ساده است که توسط هر نرم افزار ویرایشگر متن ساده مثل notepad میتوان آن را ساخت که حتماً باید پسوند txt داشته باشد. یعنی نام کامل آن robots.txt باشد. محتوای این سند از دو قسمت کلی تشکیل شده است:
- User-agent : که مشخص میکند دستور مورد نظر برای چه نوع رباتهایی است.
- Directives : دستورات اصلی که برای ربات مورد نظر مشخص میکند به کدام قسمتها دسترسی داشته باشد و به کدامیک خیر.
به مثال زیر توجه کنید:
User-agent: Googlebot
Disallow: /
خط اول مشخص میکند که دستور موجود در خط بعدی به خزندهٔ موتور جستجوی گوگل یعنی Googlebot داده شده است. به زبان ساده همین دو خط کد به خزندههای گوگل دستور میدهد که هیچ کدام از صفحات سایت را بررسی نکنند. دستورات دیگری هم اگر باشند، بعد از خط دوم خواهند آمد.
علاوه بر دستور Disallow میتوان از دستور Allow (به معنای اجازه دادن) هم استفاده کرد. از ترکیب این دو دستور، به راحتی برای هر خزندهای دستور خاص خود را میتوان صادر نمود. هر خزنده برای خود نامی دارد. مثلاً نام خزندهٔ موتور جستجوی بینگ Bingbot نام دارد. برای مقدار Uesr-againt به سادگی میتوان مقدار * را قرار داد تا همهٔ خزندهها را شامل گردد.
جمع بندی
پس دانستیم که فایل robots.txt که نقش حیاتیای در سئوی سایت دارد، میتوان به اجرای دستورات ما توسط خزندهٔ موتور جستجو کمک کند. مثلاً مواقعی هست که نمیخواهید برخی از صفحات سایتتان مورد تفتیش خزندهٔ موتور جستجو واقع شود. پس دستور Disallow در فایل robots.txt میتواند به کمک شما بیاید. در ابزارهای وبمستر موتورهای جستجو مثل Google Search Console امکان رصد این فایل که روی فضای میزبانی سایت قرار دارد وجود دارد و خطاهای آن را به شما نمایش میدهد.