فایل robot.txt یکی از مهم ترین موارد در سئو یک وب سایت می باشد که وجود آن برای سایت بسیار ضروری است در ادامه این مطلب بطور کامل به توضیح این فایل و چرا وجود آن برای وب سایت حیاتی می باشد میپردازیم.
فایل robot.txt چیست
اصلی ترین وظیفه فایل robots.txt محدود کردن دسترسی روبات های گوگل و سایر موتورهای جستجو به محتویات سایت شماست. این روبات ها بصورت کاملا اتوماتیک عمل کرده و قبل از ورود به هر سایت یا صفحه ای از وجود فایل robots.txt بر روی آن و محدود نبودن دسترسی محتوا مطمئن میشوند.
بطور دقیق تر فایل Robots.txt فایلی برای گزارش ساختار صفحات وب سایت به رباتهای کراولر (crawler) موتورهای جستجو است تا بتوانند متوجه شوند که کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند. این فایل کاملا فایل دسترسی است و میتوانید اطلاعات داخل آن را بخوانید و یا ویرایش کنید و افراد مختلف نیز صرفا با اضافه کردن این پسوند به لینک وبسایت شما میتوانند آن را به سادگی ببینند.
فایل Robots.txt در واقع به رباتها اطلاع میدهد که کجا میتوانند فایلهای نقشه XML سایت را پیدا کنند و در این میان کدام صفحات نباید کراول شوند. قبل از اینکه رباتهای موتورهای جستجو نظیر بینگ و یا گوگل صفحات وب را کراول کنند ابتدا فایل Robots.txt را بررسی کرده و اگر این فایل وجود داشته باشد مطابق با اطلاعات نوشته شده در آن اقدام به ایندکس کردن صفحات میکنند.
Robots.txt در حقیقت جزو مهارتهای اولیه به حساب میآید که متخصصین سئو آن را یاد میگیرند و یکی از صدها بخش سئو سایت میباشد. اما متاسفانه با استفاده نادرست از این فایل در بسیاری از موارد نتایجی که از آن گرفته میشود یا منفی و مخرب است و یا عملا هیچ تاثیری در سئو ندارد.
به همین دلیل در ادامه به چندین نکته مهم در هنگام ساخت این فایل خواهیم پرداخت تا شما بتوانید با در نظر گرفتن این موارد از نتایج مخرب این فایل بر روی هاست خود جلوگیری نمایید.
ریسک امنیتی فایل Robot.txt
فایل Robots.txt یک ضرورت نیست ولی یک ابزار جالب توجه است و رباتهای موتورهای جستجو خیلی وابسته به آن هستند. اما گاهی میتواند به ضرر سایتها تمام شود.
به طور مثال ؛ اگر یک نفر در نظر داشته باشد به صفحاتی از وب سایت شما دسترسی پیدا کند که شما این صفحات را در فایل ربات بلاک کردهاید یقیناً برای شناسایی این صفحات میتواند به راحتی از این فایل استفاده کند. خیلیها فکر میکنند که از طریق فایلهای ربات ، می توانند از اطلاعات محرمانه خود مراقبت میکنند در حالی که کاملا برعکس است و برخی رباتها میتوانند از این اطلاعات شما سوءاستفاده کنند.
کیسهای مختلف دیگری هم وجود دارند که در آنها به دلیل عدم امنیت فایلهای Robot.txt اگر به دست رقبای شما بیفتد میتواند به ضرر شما تمام شود. برای کاهش این خطرات چه باید کرد؟
فایل Robots.txt به شما کمک نمیکند تا یک URL را از ایندکس موتورهای جستجو حذف کنید و همچنین از موتورهای جستجو در برابر اضافه کردن یک URL جلوگیری نمیکند. پس فایل ربات صرفاً برای جلوگیری از کراول نیست و موتورهای جستجو در هر صورت صفحات شما را ایندکس و کراول میکنند اما با فایل ربات به آنها اطلاع میدهید که این صفحات را در نتایج جستجو نمایش ندهد.
استفاده از Nofollow و Disallow به طور همزمان
در چند مورد نادر که در یک صفحه همزمان از تگهای Nofollow و ربات Disallow استفاده میشود ممکن است مشکلاتی به وجود بیاید. به طوری که اگر به طور همزمان استفاده شود گوگل در نتایج جستجو چنین پیغامی را نمایش میدهد که «توضیحی برای این صفحه در دسترس نیست» و در کارکرد کلی سایت شما تاثیر میگذارد. باید دقت داشته باشید که صفحات شما همزمان از این دو تگ و ربات استفاده نکنند تا صفحات به درستی به موتورهای جستجو معرفی شوند.
استفاده از Noindex در فایل robot.txt
اگر از تگ Noindex استفاده کنید مستقیما به رباتهای کراولر اعلام میکنید که این صفحه نباید در نتایج جستجو نمایش داده شود. یعنی کراولر صفحه شما را کراول و شناسایی میکند اما حق ندارد محتوای شما را در نتایج نشان دهد. این مورد برای صفحات محرمانه با دسترسی عمومی بسیار مناسب است. برای صفحاتی محرمانهای که نباید به صورت عمومی نمایش داده شوند ایجاد پسورد و یا شناسایی IP پیشنهاد میشود. از Disallow برای مسیرها استفاده کنید نه صفحات خاص
با لیست کردن برخی صفحات خاص و استفاده از Disallow در حقیقت شما به رباتهای مخرب و هکرها میگویید که این صفحات سایت مهم هستند و نباید به آنها دسترسی پیدا کنید و آنها به راحتی این صفحات را پیدا میکنند. اما اگر مسیرها و دایرکتوریها را Disallow کنید این رباتها صرفاً میتوانند صفحه دایرکتوری را ببینند و امکان دیدن سایر صفحات وجود ندارد. توجه داشته باشید که حتما از یک صفحه 404 یا صفحات مشابه برای دایرکتوریهایی که قرار نیست ایندکس شوند اما وجود دارند ، استفاده نمایید.
همونطور که در عکس بالا مشاهده میکنید، در سایتی که از فایل robots.txt استفاده نشده روبات های موتورهای جستجو همه ی صفحات را ایندکس می کنند در صورتی که با استفاده از این فایل میشه این ایندکس ها رو برای پوشه های مختلف کنترل کرد. از این فایل همچنین برای جلوگیری از ایندکس شدن تکراری صفحات با url های مختلف استفاده میشه. پس توجه کنید اگر نتوانید به درستی از این فایل استفاده کنید ممکن است در امنیت و سئوی سایت شما تاثیر منفی داشته باشد پس اصول و قواعد آن را حتما رعایت کنید.