robots.txt چیست؟
- robots.txt یک فایل متنی کاملا ساده است.
- به کمک robots.txt میتوانید به موتورهای جستجو اطلاع دهید که از کرال (خزش) یک یا چندین صفحه از سایت شما خودداری کنند.
- بیشتر موتورهای جستجوی معتبر مانند گوگل، بینگ و یاهو از درخواستهای robots.txt پیروی میکنند.
چرا فایل robots.txt مهم است؟
بیشتر وبسایتها به فایل robots.txt نیاز ندارند.
چون گوگل به طور معمول توانایی پیدا کردن و ایندکس کردن تمام صفحات مهم وبسایت شما را دارد.
همچنین، به طور خودکار از ایندکس کردن صفحات غیرمهم یا نسخههای تکراری از دیگر صفحات نیز خودداری خواهد کرد.
به چه دلیل از فایل Robot.txt استفاده می کنیم؟
در ادامه به معرفی چند دلیل برای استفاده از فایل Robot.txt می پردازیم.
مدیریت دسترسی موتور های جستجوی گوگل
اصلی ترین دلیل استفاده از این فایل، مدیریت دسترسی موتور های جستجوی گوگل است؛ همانطور که گفتیم، زمانی که یک وبمستر یا مدیر سایت قصد انتشار صفحه ای را در سایت خود دارد و آن صفحه برخی از قوانین سئو را اصطلاحا زیر سوال می برد، باید از دستورات موجود در فایل Robots.txt استفاده کند.
بهینه سازی سایت بوسیله Robots.txt
در طول روز، صد ها و شاید هزاران ربات ارسال شده توسط گوگل وارد سایت ها می شوند و اطلاعات سایت را برای گوگل می برند؛ برای مثال، زمانی که 1000 ربات توسط گوگل وارد سایتتان شوند، بدون شک عملکرد بهینه و سرعت بارگذاری صفحات شما با افت شدیدی مواجه خواهد شد.
در این شرایط است که برای بهینه سازی عملکرد سایت، باید ربات های موتور جستجوی گوگل را محدود کرد؛ برای انجام این کار هم باید از فایل Robots.txt استفاده کرد.
مدیریت لینک ها و آدرس ها (URL) با Robots.txt
قطعا مدیریت تعداد زیادی URL و لینک برای مدیران وبسایت ها کار نسبتا دشواری است؛ شما با استفاده از Robot.txt می توانید به مدیریت لینک ها و آدرس های سایتتان بپردازید و هر زمان که احساس نیاز کردید، در آن تغییر ایجاد کنید.
یکی از تکنیک هایی که در سئو مورد استفاده قرار می گیرد، URL Cloacking نام دارد که برای پنهان کردن آدرس صفحات از دید موتور های جستجو و کاربران کاربرد دارد.
اگر یک سئو کار حرفه ای نیستید، به هیچ عنوان سمت استفاده از این روش نروید؛ این تکنیک یکی از تکنیک های سئوی کلاه سیاه به حساب می آید و حتما باید توسط افراد حرفه ای و متخصص انجام شود.
در غیر این صورت ممکن است سایت شما برای همیشه از نتایج گوگل محو و پنالتی شود که نتیجه آن بر باد رفتن زحمات شما خواهد بود.
در URL Cloacking از روشی استفاده می شود که شرایط و قوانین گوگل را کاملا نقض می کند و به همین دلیل است که به آن روش سئوی کلاه سیاه می گویند.
به حداکثر رساندن بودجه خزش
اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه crawl مواجه شوید. با مسدود کردن صفحات بیاهمیت با robots.txt، گوگل بات میتواند بیشتر بودجه خزشِ شما را صرف صفحاتی کند که واقعاً مهم هستند.
چگونه فایل Robot.txt را ایجاد کنیم؟
از آن جایی که فایل Robot.txt یک فایل متنی ساده است، ایجاد کردن آن کار دشواری نیست؛ برای انجام این کار نیاز به یک ویرایشگر متن ساده مانند Notepad دارید. در این ویرایشگر صفحه ای را باز کنید و یک برگه خالی را با نام robots.txt ذخیره کنید؛ سپس وارد cPanel شوید و بعد public_html را برای دسترسی به دایرکتوری روت سایت، باز کنید.
بعد از اینکه public_html را باز کردید، فایل را به داخل آن بکشید؛ توجه داشته باشید که به عنوان مالک سایت، باید بتوانید به تمام قسمت های فایل دسترسی داشته باشید و آن را بخوانید، ویرایش کنید و بنویسید. لازم به ذکر است که این دسترسی ها را هیچ شخصی به غیر از مالک سایت نباید داشته باشد. در ادامه ی مقاله نحوه ساخت فایل ربات را با دستورات آن آورده ایم.
دستور های موجود در فایل Robot.txt
به طور کلی، دو نوع دستور برای این فایل ها داریم؛ اولین دستور برای محدود کردن موتور های جستجو از کراول کردن است و دومین دستور هم برای اجازه دادن به موتور های جستجو برای کراول کردن خواهد بود.
همانطور که گفته شد با استفاده از این فایل و دو دستور بالا، می توانید به ربات های گوگل بگویید که صفحه مورد نظر شما را ایندکس کنند و یا ایندکس نکنند.
توجه داشته باشید که قبل از دستور دادن، باید اول نام ربات را بیاورید و سپس دستور مورد نظر را بدهید. برای انجام این کار باید از دستور زیر بهره بگیرید:
User-agent: *
شاید برایتان سوال پیش بیاید که ” * ” به چه دلیل در ابتدای عبارت آمده است؛ این علامت تمام ربات های موتور جستجو را به نوعی صدا می زند. از آن جایی که ربات های موتور جستجو انواع مختلفی دارند، برای خطاب قرار دادن آن ها باید نامشان را بلد باشید.
در حالی که نیازی به بلدن بودن نامشان نیست، با آوردن علامت ” * ” در ابتدای دستور ” User-agent: * “، تمام ربات های موتور جستجو را خطاب قرار می دهید.
دستور دیس الو (Disallow)
دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود.
در برخی شرایط، مشکلاتی برای یکی از صفحات شما پیش می آید که باید آن را برطرف کنید؛ قبل از برطرف کردن حتما باید دستور Disallow را در فایل Robot.txt اجرا کنید.
در صورتی که مشکل صفحه را حل نکنید و دستور دیس الو را هم اجرا نکنید، صفحه مورد نظر در گوگل ایندکس می شود و ممکن است به سئو سایت شما ضربه بزند.
دستور Allow
دستور Allow دقیقا برعکس دستور Disallow عمل می کند؛ این دستور به ربات های موتور جستجوی گوگل اجازه ایندکس کردن را می دهد.
توجه داشته باشید، زمانی که صفحه ای در سایت شما مشکل فنی یا سئویی دارد، نباید دستور Allow را اجرا کنید؛ زیرا در این شرایط ربات های موتور جستجو صفحه را ایندکس می کنند و نتیجه آن آسیب دیدن رتبه سایت شما در نتایج گوگل خواهد بود.
دستور Crawl-delay
Crawl-delay به موتور های جستجو دستور می دهد که صفحه ای را با تاخیر ایندکس کنند؛ این دستور زمانی کاربرد دارد که صفحه شما دارای مشکل است و می خواهید آن را برطرف کنید.
با اجرای دستور Crawl-delay بعد از برطرف کردن مشکل، صفحه شما توسط ربات های موتور جستجوی گوگل کراول و ایندکس خواهد شد.
در این دستور شما زمان تاخیر را هم به ربات ها اعلام می کنید؛ البته این دستور برای رباتی مانند Googlebot قابل اجرا نیست و برای انجام آن باید از ابزاری مانند گوگل سرچ کنسول بهره بگیرید.
برای مثال زمانی که دستور ” crawl-delay: 120 ” را در فایل Robot.txt اجرا می کنید، به موتور های جستجو می فهمانید که هر صفحه را با فاصله 120 ثانیه از هم ایندکس کنند. (بعد از هر ایندکس 120 ثانیه صبر کنند و سپس صفحه دیگری را ایندکس کنند)
دستور Sitemap
دستور سایت مپ(نقشه سایت) برای معرفی کردن نقشه سایت (سایت مپ) به کراولر ها کاربرد دارد. نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود). به همان روشی که یک روبات. فایل txt کار می کند، نقشه سایت به موتورهای جستجو اجازه می دهد تا در فهرستی از تمام صفحات وب سایت شما در یک مکان بخزند.
زمانی که دستور ” *:User-agent” را اجرا می کنید و تمام ربات های موتور جستجوی گوگل را خطاب قرار می دهید، باید یکی از چهار دستور بالا را به فایل بیفزایید.
توجه داشته باشید که ترتیب دستورات در فایل باید رعایت شود؛ در فایل ابتدا باید دستور های محدود کننده مانند Disallow قرار بگیرد و سپس دستور هایی که ربات های موتور جستجوی گوگل را برای خزیدن و ایندکس مجاز می کند (مانند Allow)، قرار داده شود.
برای اینکه اجازه دسترسی به سایت را به موتور جستجوی گوگل ندهید، باید از دستور زیر استفاده کنید:
User-agent: * Disallow: /
در شرایطی که می خواهید کراول کردن یک فولدر از بخش های سایت را محدود کنید (توجه داشته باشید که با اجرای این دستور، تمام بخش های سایت به غیر از فولدر مورد نظر توسط موتور جستجوی گوگل کراول خواهد شد)، باید دستور زیرا را اجرا کنید:
User-agent: * Disallow: /folder/
در بعضی عکس های سایت شما مشکلاتی دارند و کراول شدن آن عکس ها توسط موتور جستجوی گوگل به سئوی سایت آسیب می زند؛ در این شرایط باید دستوری را اجرا کنید که تمام ربات های موتور جستجو از ایندکس کردن آن عکس ها محدود شوند. برای انجام این کار دستور زیر را اجرا کنید:
User-agent: googlebot-images Disallow: /photos
نحوه ایجاد فایل Robots.txt
همانطور که بالاتر به بهترین دستورات فایل ربات اشاره کردیم، بهترین کار برای شروع، پیروی از مراحل زیر می باشد:
- یک فایل Robots.txt ایجاد کنید
- اولین قدم شما این است که واقعاً فایل robots.txt خود را ایجاد کنید.
- به عنوان یک فایل متنی، در واقع می توانید با استفاده از دفترچه یادداشت ویندوز یک فایل ایجاد کنید.
- مهم نیست که در نهایت چگونه فایل robots.txt خود را می سازید، فرمت آن دقیقاً یکسان است:
user agent: X Disallow: Y
- User-agent ربات خاصی است که شما با آن صحبت می کنید.
- هر چیزی که بعد از “Disallow” می آید صفحات یا بخش هایی هستند که می خواهید مسدود کنید.
یک مثال :
user agent: googlebot Disallow: /images
- این قانون به Googlebot میگوید که پوشه تصویر وبسایت شما را ایندکس نکند.
- همچنین میتوانید از یک ستاره (*) برای صحبت با تمام رباتهایی که در وبسایت شما توقف میکنند استفاده کنید.
*:User agent Disallow: /images
پیدا کردن فایل Robots.txt خود را آسان کنید
هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید.
از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.
اما برای افزایش شانس یافتن فایل robots.txt، توصیه می کنم آن را در این آدرس قرار دهید:
https://example.com/robots.txt
(توجه داشته باشید که فایل robots.txt شما به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از یک “r” کوچک در نام فایل استفاده کنید)
سوالات متداول
robot.txt یک فایل متنی است که برای سئو استفاده میشود و حاوی دستوراتی برای روباتهای فهرستکننده موتورهای جستجو است که صفحاتی را مشخص میکند که میتوانند یا نمیتوانند ایندکس شوند.
یک فایل robots. txt مجموعه ای از دستورالعمل ها برای ربات ها است. این فایل در source files اکثر وب سایت ها قرار دارد. robots. txt بیشتر برای مدیریت فعالیتهای رباتهای خوب مانند خزندههای وب در نظر گرفته شدهاند، زیرا رباتهای بد احتمالاً دستورالعملها را دنبال نمیکنند.
برای سه حالت زیر از robot.txt استفاده کنید. در غیر اینصورت احتمالا متا تگ نوایندکس گزینه بهتری برای شما باشد.
- استفاده از robot.tx برای پیاده سازی روی منابع چندرسانه ای مانند فیلم ها و فایل های PDF
- نیاز به محدود کردن بودجه کراول تعداد زیادی از برگه ها
- موارد خاص که در کل نیاز به خزش ندارند
برای جلوگیری از ایندکس شدن مقالات خاص در سایت خود توسط همه ربات ها، از متا تگ زیر استفاده کنید: <meta name=”robots” content=”noindex, nofollow”>. همچنین برای جلوگیری از خزش ربات ها در تصاویر یک مقاله خاص، از متا تگ زیر استفاده کنید: <meta name=”robots” content=”noimageindex”>.