همه چیز در مورد فایل robots.txt

کاربرد فایل  robots.txt
میانبر

کاربرد فایل  robots.txt این هست که  به ربات های خزنده گوگل می‌گوید که به کدام URLها در سایت شما دسترسی داشته باشند. کاربرد اصلی فایل  robots.txtاین هست که دسترسی هایی را به بخش هایی از سایت ببندیم. به عبارتی دیگر کاربرد اصلی فایل ربات برای بستن یک نوع از آدرس صفحات میباشد به عنوان مثال دسته بندی های خاص یا دسته هایی که آدرس های مشابهی دارند

حال ممکن است برایتان سوال شود که از فایل ربات برای جلوگیری از نمایش یک صفحه وب در گوگل استفاده میکنند؟ در این خصوص باید بگوییم خیر بلکه  از تگ noindex استفاده میکنند.

اگر از یک سیستم مدیریت محتوا (CMS) مانند وردپرس استفاده می‌کنید، ممکن است نیازی به ویرایش مستقیم فایل robots.txt نداشته باشید البته به شرط نصب کردن افزونه هایی سئویی مثل یوآست یا رنک مث. در عوض،  وردپرس  یک فایل پیش فرض رابه عنوان فایل robots.txt ارائه میدهد که در آن دستور خاصی نوشته نشده است. اگر که میخواهید دستور خاصی در آن بنویسید این کار را باید دستی انجام دهید.در صورت نیاز میتوانید مقاله نکات نوشتن محتوای خوب را بخوانید.

کاربرد فایل  robots.txt

نکته: برای ویرایش فایل ربات حتما این کار را با مشورت با یک سئوکار انجام دهید.

فایل robots.txt برای چه کاری استفاده می‌شود؟

فایل robots.txt در درجه اول برای  دسترسی خزنده ها به سایت شما استفاده می‌شود و معمولاً، بسته به نوع فایل، برای جلوگیری از نمایش یک فایل در گوگل به کار می‌رود:

کاربرد فایل روبات برای صفحات مختلف و فایل ها

صفحه وب می‌توانید از یک فایل robots.txt برای صفحات وب سایت خودتان (مانند HTML، PDF یا سایر فرمت‌های غیررسانه‌ای که گوگل می‌تواند بخواند) استفاده کنید تا  دسترسی خزنده های موتور جست و جو را به  سایت خود محدود کنید ، به خصوص اگر فکر میکنید خزنده های گوگل به سایت شما دسترسی دارند و این صفحات را را خزش  میکنند که کاربرد سئو ندارند و یا صرفا به علت کدنویسی سایت باز شده اند(به عنوان مثال :صفحات کوئری محوربهتراست با دستورهای مناسب  این دسترسی ها بسته شوند) به همین خاطر میتوانید از دستورات فایل ربات robots.txt استفاده کنید.

هشدار: از فایل robots.txt به عنوان راهی برای مخفی کردن صفحات وب خود (از جمله فایل‌های PDF و سایر فرمت‌های متنی که توسط گوگل پشتیبانی می‌شوند) از نتایج جستجوی گوگل استفاده نکنید. اگر صفحات دیگر با متن توصیفی به صفحه شما لینک دهند، گوگل همچنان می‌تواند URL را بدون بازدید از صفحه ایندکس کند. اگر می‌خواهید صفحه خود را از نتایج جستجو مسدود کنید، از روش دیگری مانند محافظت با رمز عبور یا تگ noindex استفاده کنید.

اگر قصد دارید که صفحه ای از سایت شما ایندکس نشود میتوانید ازتگ no indexاستفاده کنید و رمز عبور تعیین کنید، URL آن همچنان می‌تواند در نتایج جستجو ظاهر شود، اما نتیجه جستجو در سرپ گوگل نخواهد داشت. فایل‌های تصویری، ویدیویی، PDF و سایر فایل‌های غیر HTML که در صفحه مسدود شده وجود دارند نیز از خزیدن مستثنی می‌شوند، مگر اینکه توسط صفحات دیگری که اجازه خزیدن دارند، به آن‌ها ارجاع داده شده باشد (به عنوان مثال یک عکس مشابه در یک صفحه دیگر وجود دارد آنگاه گوگل آن را در آن صفحه میخواند). اگر صفحه ای در فایل ربات مسدود شود باز گوگل میتواند آن را بخواند اما در نتایج جست و جو نشان نمیدهد به اصلاح کرال میکند اما رتبه دهی نمیکند.

فایل رسانه‌ای از یک فایل robots.txt برای مدیریت بودجه خزش استفاده کنید، همچنین میتوانید برای جلوگیری از نمایش فایل‌های تصویری، ویدیویی و صوتی در نتایج جستجوی گوگل. این کار مانع از لینک دادن سایر صفحات یا کاربران به فایل تصویری، ویدیویی یا صوتی شما نخواهد شد. فایل تصویری HTML , PDF هر چه که در آن صفحه هست مسدود میشود و نمایش داده نمیشود مگر اینکه در صفحات دیگری این فایل ها استفاده شده باشند.
بستن دسترسی کدها می‌تونین از یه فایل robots.txt استفاده کنین تا فایلای منبع مثل عکسای بی‌اهمیت، اسکریپتا یا فایلای استایل رو ببندین، اگه فکر می‌کنین صفحاتی که بدون این منابع بارگیری می‌شن، خیلی تحت تاثیر از دست دادنشون قرار نمی‌گیرن. اما اگه نبود این منابع باعث بشه خزنده گوگل سخت ‌تر صفحه رو بفهمه، نبندینشون، وگرنه گوگل نمی‌تونه صفحاتی که به اون منابع وابسته هستن رو خوب تحلیل کنه. بهتر هست دسترسی به این صفحات را به صورت کلی نبندین زیرا ممکن است موجب ایجاد مشکل در ریسپانسیو صفحه وب برای خزنده ها گردد.

درک محدودیت‌های فایل robots.txt

قبل از اینکه یک فایل robots.txt ایجاد یا ویرایش کنید، با این روش مسدودسازی بیشتر آشنا شوید. بسته به اهداف و شرایط شما، ممکن است بخواهید مکانیسم‌های دیگری را برای اطمینان از اینکه URLهای شما در وب قابل یافتن نیستند، در نظر بگیرید.

  • قوانین robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشوند.
  • دستورالعمل‌های موجود در فایل‌های robots.txt نمی‌توانند رفتار ربات های خزنده را در سایت شما اجباری کنند؛ اطاعت از آن‌ها به عهده خزنده است. در حالی که گوگل ‌بات و سایر خزنده‌های وب معتبر از دستورالعمل‌های موجود در یک فایل robots.txt پیروی می‌کنند، ممکن است سایر خزنده‌ها این کار را نکنند. بنابراین، اگر می‌خواهید اطلاعات را از خزنده‌های وب ایمن نگه دارید، بهتر است از روش‌های مسدودسازی دیگری مانند محافظت از فایل‌های خصوصی در سرور خود با رمز عبور استفاده کنید.
  • صفحه‌ای که در robots.txt دسترسی آن بسته شده است، اگر از سایت‌های دیگر به آن لینک داده شود، همچنان می‌تواند ایندکس شود. در حالی که گوگل محتوای مسدود شده توسط یک فایل robots.txt را نمی‌خزد و ایندکس نمی‌کند، ممکن است همچنان یک URL  که در سایتی دیگر است را بیابد و ایندکس کند بنابراین از تگ متا noindex یا هدر پاسخ noindex استفاده کنید، یا صفحه را به طور کامل موتور جستجو نادیده بگیرید.

شما می‌توانید با استفاده از یک فایل robots.txt کنترل کنید که کدام فایل‌ها برای خزنده‌ها در سایت شما قابل دسترسی باشند.

یک فایل robots.txt در ریشه سایت شما قرار دارد. بنابراین، برای سایت www.example.com، فایل robots.txt در آدرس www.example.com/robots.txt قرار می‌گیرد. robots.txt یک فایل متنی ساده است که از استاندارد منع ربات‌ها (Robots Exclusion Standard) پیروی می‌کند. یک فایل robots.txt شامل یک یا چند قانون است. هر قانون دسترسی همه یا یک خزنده خاص را به یک مسیر فایل مشخص در دامنه یا زیردامنه میزبانی‌کننده فایل robots.txt مسدود یا مجاز می‌کند. مگر اینکه در فایل robots.txt خود خلاف آن را مشخص کنید، دسترسی به همه فایل‌ها به طور پیش فرض برای خزیدن مجاز است.

در اینجا یک فایل robots.txt ساده با دو قانون آورده شده است:

راهنمای نوشتن و ارسال فایل robots.txt

User-agent: Googlebot

Disallow: /nogooglebot/

User-agent: *

Allow: /

Sitemap: https://www.example.com/sitemap.xml

معنی این فایل robots.txt

  • خزنده با نام کاربری Googlebot اجازه دسترسی به هیچ URLای که با  /nogooglebot شروع می‌شود را ندارد.
  • تمام خزنده‌های دیگر اجازه دارند کل سایت را بخزند. این خط می‌توانست حذف شود و نتیجه یکسان می‌بود؛ رفتار پیش‌فرض این است که خزنده‌ها اجازه دارند کل سایت را بخزند.
  • فایل نقشه سایت در آدرس  https://www.example.com/sitemap.xml قرار دارد.

راهنمایی برای ساخت یک فایل ربات

ایجاد یک فایل robots.txt   در دسترس و مفید به طور کلی شامل چهار مرحله است:

  1. یک فایل با نام robots و پسوند .txt در نوت پد بسازید.
  2. قواعد را به فایل robots.txt اضافه کنید.
  3. فایل robots.txt را در ریشه سایت خود بارگذاری کنید.
  4. فایل robots.txt را آزمایش کنید.

ایجاد یک فایل robots.txt

You can use almost any text editor to create a robots.txt file. For example, Notepad, TextEdit, vi, and emacs can create valid robots.txt files. Don’t use a word processor; word processors often save files in a proprietary format and can add unexpected characters, such as curly quotes, which can cause problems for crawlers. Make sure to save the file with UTF-8 encoding if prompted during the save file dialog.

ترجمه: شما می‌توانید از تقریباً هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید. برای مثال، Notepad، TextEdit، vi و emacs می‌توانند فایل‌های robots.txt معتبری ایجاد کنند اطمینان حاصل کنید که هنگام ذخیره فایل، در صورت درخواست، آن را با رمزگذاری UTF-8 ذخیره کنید.

منبع: https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt

قواعد یک فایل ربات

  • نام فایل باید robots.txt باشد.
  • سایت شما فقط می‌تواند یک فایل robots.txt داشته باشد.
  • فایل robots.txt باید در ریشه هاست سایتی که اعمال می‌شود قرار گیرد. برای مثال، برای کنترل خزیدن در تمام URLهای زیر https://www.example.com/، فایل robots.txt باید در آدرس https://www.example.com/robots.txt قرار گیرد. این فایل نمی‌تواند در یک زیرشاخه قرار گیرد (برای مثال، در https://example.com/pages/robots.txt). اگر در مورد نحوه دسترسی به ریشه سایت خود مطمئن نیستید یا به مجوز انجام این کار نیاز دارید، با ارائه‌دهنده خدمات میزبانی وب خود تماس بگیرید. اگر نمی‌توانید به ریشه سایت خود دسترسی پیدا کنید، از یک روش مسدودسازی جایگزین مانند تگ‌های meta استفاده کنید.
  • نکته: برای دسترسی به ریشه هاست وارد هاست سایت خود شوید و پس از آن وارد فایل منیجر شوید سپس وارد فایل public html شوید و در همان جا فایل ربات و آپلود نمایید.
  • یک فایل robots.txt می‌تواند در یک ساب دامنه (برای مثال، https://site.example.com/robots.txt) یا در پورت‌های غیر استاندارد (برای مثال، https://example.com:8181/robots.txt) قرار گیرد.
  • یک فایل robots.txt فقط برای مسیرهای درون پروتکل، هاست و پورتی که در آن قرار دارد اعمال می‌شود. یعنی، قوانین موجود در https://example.com/robots.txt فقط برای فایل‌های موجود در https://example.com/ اعمال می‌شود، نه برای زیردامنه‌ها مانند https://m.example.com/
  • یک فایل robots.txt باید یک فایل متنی با رمزگذاری UTF-8 باشد گوگل ممکن است کاراکترهایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد، که به طور بالقوه قوانین robots.txt را نامعتبر می‌کند. بنابراین از کارکتر های غیر مجاز همچون اشکال یا فونت های غیر رسمی استفاده نکنید.

کاربرد فایل  robots.txt

نحوه نوشتن قوانین robots.txt

برای آنکه مشخص کنید ربات ها به کدام بخش های سایت دسترسی دارند باید این دسترسی ها را طبق قوانینی ایجاد کنید.

  • یک فایل robots.txt از یک یا چند گروه (مجموعه قوانین) تشکیل شده است.
  • هر گروه از چندین قانون (که به عنوان دستورالعمل نیز شناخته می‌شوند) تشکیل شده است که هر قانون در یک خط قرار دارد. هر گروه با یک خط User-agent  شروع می‌شود که هدف گروه‌ها را مشخص می‌کند.
  • یک گروه اطلاعات زیر را ارائه می‌دهد:
    • این گروه برای چه ربات هایی اعمال می‌شود.
    • کدام دایرکتوری‌ها یا فایل‌هایی را خزنده می‌تواند به آنها دسترسی داشته باشد.
    • کدام دایرکتوری‌ها یا فایل‌هایی را خزنده نمی‌تواند به آنها دسترسی داشته باشد.
  • خزنده‌ها قوانین را به صورت ابتدا به انتها میخوانند یعنی فایل ربات را از بالا به پایین میخوانند بنابراین اگر که چندین دسترسی که در یک دسترسی اصلی وجود دارد را ببندید خزنده ها این قوانین را با هم ترکیب میکنند به عنوان مثال برای بستن domain.com/category/page/3 و نوشتن این دستور به سه شکل domain.com/category/page و domain.com/category میتوانید به راحتی domain.com/category را ببندید ولی حتما چک کنید که اگر دسترسی به یک سر دسته را میبندید برای سایتتان مشکل ایجاد نشود.
  • فرض پیش ‌فرض این است که یک خزنده می‌تواند هر صفحه یا دایرکتوری را که توسط قانون disallow مسدود نشده است، بخزد.
  • قوانین به حروف بزرگ و کوچک حساس هستند. برای مثال، disallow: /file.asp  برای https://www.example.com/file.asp  اعمال می‌شود، اما برای https://www.example.com/FILE.asp  اعمال نمی‌شود.
  • کاراکتر # علامت شروع یک کامنت است. کامنت در طول پردازش نادیده گرفته می‌شوند.
  • خزنده‌های گوگل از قوانین زیر در فایل‌های robots.txt پشتیبانی می‌کنند:
    • استفاده از user-agent الزامی است این دستور مشخص میکند که قوانین را باید کدام یک از مرورپر ها بخوانند. این اولین خط  در بین قوانین است. استفاده از علامت ستاره (*) شامل تمامی خزنده ها به جز خزنده‌های مختلف AdsBot میشود، که باید به طور صریح نامگذاری شوند. برای مثال:
  • # مثال 1: فقط Googlebot را مسدود کنید
  • User-agent: Googlebot
  • Disallow: /
  • # مثال 2: Googlebot و Adsbot را مسدود کنید
  • User-agent: Googlebot
  • User-agent: AdsBot-Google
  • Disallow: /
  • # مثال 3: تمام خزنده‌ها را به جز AdsBot مسدود کنید (خزنده‌های AdsBot باید به طور صریح نامگذاری شوند)
  • User-agent: *
  • Disallow: /
    • دستور Disallow دستور عدم خزش میباشد. اگر قانون به یک صفحه اشاره دارد، باید نام کامل صفحه همانطور که در مرورگر نشان داده می‌شود باشد. باید با کاراکتر / شروع شود و اگر به یک دایرکتوری اشاره دارد، باید با علامت / به پایان برسد.
    • دستور allow: به باز کردن یک دسترسی اشاره دارد برای یک صفحه واحد، نام کامل صفحه را همانطور که در مرورگر نشان داده می‌شود مشخص کنید. باید با کاراکتر / شروع شود و اگر به یک دایرکتوری اشاره دارد، باید با علامت / به پایان برسد.
    • دستور sitemap که میتوانید لینک یک سایت مپ یا چند مورد باشد.  نقشه‌ سایت روش خوبی برای نشان دادن محتوایی هستند که گوگل باید بخزد، برخلاف محتوایی که می‌تواند یا نمی‌تواند بخزد.
  • Sitemap: https://example.com/sitemap.xml
  • Sitemap: https://www.example.com/sitemap.xml
    • تمام قوانین، به جز sitemap، از علامت عام (*) برای پیشوند، پسوند یا کل رشته یک مسیر پشتیبانی می‌کنند.
    • خطوطی که با هیچ یک از این قوانین مطابقت ندارند نادیده گرفته می‌شوند.

بارگذاری فایل robots.txt

پس از ذخیره فایل robots.txt در رایانه خود، آماده هستید تا آن را برای خزنده‌های موتور جستجو در دسترس قرار دهید. نحوه بارگذاری فایل robots.txt در سایت شما به معماری سایت و سرور شما بستگی دارد. ولی معمولا برای آپلود سایت مپ باید به هاست وارد شوید سپس وارد فایل منیجر شوید و در نهایت وارد پوشه public html وارد شوید و در همان جا فایل را آپلود نمایید.

پس از بارگذاری فایل robots.txt، آزمایش کنید که آیا به طور عمومی قابل دسترسی است و آیا گوگل می‌تواند آن را بخواند.

آزمایش نشانه گذاری robots.txt

برای آزمایش اینکه آیا فایل robots.txt تازه بارگذاری شده شما به طور عمومی قابل دسترسی است، یک صفحه (یا در مرورگر خود باز کنید و به محل فایل robots.txt بروید. برای مثال، https://example.com/robots.txt. اگر محتویات فایل robots.txt خود را مشاهده می‌کنید، یعنی فایل درست است.

ارسال فایل robots.txt به گوگل

پس از بارگذاری و آزمایش فایل robots.txt خود، خزنده‌های گوگل به طور خودکار فایل robots.txt شما را پیدا کرده و شروع به استفاده از آن می‌کنند. شما نیازی به انجام هیچ کاری ندارید. اگر فایل robots.txt خود را به‌روزرسانی کرده‌اید و نیاز دارید تا نسخه کش شده گوگل را در اسرع وقت تازه کنید، میتوانید در سرچ کنسول فایل خود را قرار دهید برای اینکار میتوانید به آموزش جامع سرچ کنسول مراجعه نمایید.

قوانین مفید robots.txt

در اینجا چند قانون مفید رایج robots.txt آورده شده است:

جلوگیری از خزیدن کل سایت یا مسدود کردن دسترسی خزنده‌ها به کل سایت به خاطر داشته باشید که در برخی موارد، ممکن است بخواهید تا خزنده ها سایت شما را نخوانند به عنوان مثال وقتی که سایت در دست طراحی است.

توجه: این مورد شامل خزنده‌های مختلف AdsBot نمیشود، که باید به طور صریح نامگذاری شوند.

User-agent: *

Disallow: /

معنی این بخش از فایل robots.txt این است که:

User-agent: * : این خط به تمام خزنده‌های وب (با علامت ستاره *) اشاره می‌کند.

Disallow: / : این خط به تمام خزنده‌ها دستور می‌دهد که از دسترسی به هیچ بخشی از سایت (با علامت اسلش / که نشان دهنده ریشه سایت است) خودداری کنند.

به عبارت دیگر، این تنظیمات به تمام ربات‌های جستجوگر می‌گوید که اجازه ندارند هیچ صفحه‌ای از این سایت را بخزند و محتوای آن را بررسی کنند. با این حال، همانطور که در ابتدا گفته شد، ممکن است برخی از URLها همچنان خوانده شوند، حتی اگر ربات‌ها آن‌ها را نخزیده باشند.

 

جلوگیری از خزیدن یک پوشه و محتویات آن یا مسدود کردن دسترسی خزنده‌ها به یک دایرکتوری و تمام فایل‌ها و زیرپوشه‌های درون آن برای جلوگیری از خزیدن کل یک پوشه، یک اسلش را به جلو (/) به انتهای نام پوشه اضافه کنید.

User-agent: *

Disallow: /calendar/

Disallow: /junk/

Disallow: /books/fiction/contemporary/

معنی این بخش از فایل robots.txt این است که:

User-agent: * : این خط به تمام خزنده‌های وب اشاره می‌کند.

Disallow: /calendar/ : این خط به تمام خزنده‌ها دستور می‌دهد که از دسترسی به پوشه /calendar/ و تمام محتویات آن (فایل‌ها و زیرپوشه‌ها) خودداری کنند.

Disallow: /junk/ : این خط به تمام خزنده‌ها دستور می‌دهد که از دسترسی به پوشه /junk/ و تمام محتویات آن خودداری کنند.

Disallow: /books/fiction/contemporary/ : این خط به تمام خزنده‌ها دستور می‌دهد که از دسترسی به پوشه /books/fiction/contemporary/ و تمام محتویات آن خودداری کنند.

 

اجازه دسترسی به یک خزنده خاص یا مجاز کردن یک ربات خاص برای دسترسی به سایت فقط ربات خبری گوگل (googlebot-news) اجازه دارد کل سایت را بخزد.

User-agent: Googlebot-news

Allow: /

 

User-agent: *

Disallow: /

معنی این بخش از فایل robots.txt این است که:

User-agent: Googlebot-news: این خط به طور خاص به خزنده خبری گوگل اشاره می‌کند.

Allow: /: این خط به خزنده خبری گوگل اجازه می‌دهد تا به تمام بخش‌های سایت (ریشه سایت با علامت اسلش / نشان داده شده است) دسترسی داشته باشد و آن را بخزد.

User-agent: *: این خط به تمام خزنده‌های وب دیگر (به جز googlebot-news) اشاره می‌کند.

Disallow: /: این خط به تمام خزنده‌های دیگر دستور می‌دهد که از دسترسی به هیچ بخشی از سایت خودداری کنند.

به عبارت دیگر، این تنظیمات فقط به ربات خبری گوگل اجازه می‌دهد تا محتوای سایت را بررسی کند و سایر ربات‌های جستجوگر از دسترسی به کل سایت منع شده‌اند.

 

اجازه دسترسی به یک خزنده خاص یا مجاز کردن یک ربات خاص برای دسترسی به سایت ربات غیرضروری (Unnecessarybot) اجازه خزیدن سایت را ندارد، اما تمام ربات‌های دیگر مجاز هستند.

User-agent: Unnecessarybot

Disallow: /

 

User-agent: *

Allow: /

معنی این بخش از فایل robots.txt این است که:

User-agent: Unnecessarybot: این خط به طور خاص به خزنده با نام Unnecessarybot اشاره می‌کند.

Disallow: /: این خط به خزنده Unnecessarybot دستور می‌دهد که از دسترسی به هیچ بخشی از سایت (ریشه سایت با علامت اسلش / نشان داده شده است) خودداری کند.

User-agent: *: این خط به تمام خزنده‌های وب دیگر (به جز Unnecessarybot) اشاره می‌کند.

Allow: /: این خط به تمام خزنده‌های دیگر اجازه می‌دهد تا به تمام بخش‌های سایت (ریشه سایت با علامت اسلش / نشان داده شده است) دسترسی داشته باشند و آن را بخزند.

به عبارت دیگر، این تنظیمات تمام ربات‌های جستجوگر را به جز Unnecessarybot مجاز به بررسی محتوای سایت می‌کند و Unnecessarybot از دسترسی به کل سایت منع شده است.

 

جلوگیری از خزیدن یک صفحه وب خاص یا مسدود کردن دسترسی خزنده‌ها به یک صفحه مشخص در سایت برای مثال، از خزیدن صفحه useless_file.html که در آدرس https://example.com/useless_file.html قرار دارد، و صفحه other_useless_file.html در پوشه junk جلوگیری کنید.

User-agent: *

Disallow: /useless_file.html

Disallow: /junk/other_useless_file.html

معنی این بخش از فایل robots.txt این است که:

User-agent: *: این خط به تمام خزنده‌های وب اشاره می‌کند.

Disallow: /useless_file.html: این خط به تمام خزنده‌ها دستور می‌دهد که از دسترسی به صفحه وب خاص با نام useless_file.html در ریشه سایت خودداری کنند.

Disallow: /junk/other_useless_file.html: این خط به تمام خزنده‌ها دستور می‌دهد که از دسترسی به صفحه وب خاص با نام other_useless_file.html که در داخل پوشه junk/ قرار دارد، خودداری کنند.

به عبارت دیگر، این تنظیمات مانع از آن می‌شود که تمام ربات‌های جستجوگر این دو صفحه وب مشخص را بخزند و محتوای آن‌ها را بررسی کنند. سایر صفحات سایت همچنان برای خزیدن در دسترس خواهند بود.

 

جلوگیری از خزیدن کل سایت به جز یک زیرپوشه خاص یا مسدود کردن دسترسی خزنده‌ها به تمام بخش‌های سایت به جز یک دایرکتوری مشخص خزنده‌ها فقط اجازه دسترسی به زیرپوشه public را دارند.

User-agent: *

Disallow: /

Allow: /public/

معنی این بخش از فایل robots.txt این است که:

User-agent: *: این خط به تمام خزنده‌های وب اشاره می‌کند.

Disallow: /: این خط در ابتدا به تمام خزنده‌ها دستور می‌دهد که از دسترسی به هیچ بخشی از سایت (ریشه سایت با علامت اسلش / نشان داده شده است) خودداری کنند.

Allow: /public/: این خط سپس یک استثنا ایجاد می‌کند و به تمام خزنده‌ها اجازه می‌دهد تا به پوشه public/ و تمام محتویات آن (فایل‌ها و زیرپوشه‌ها) دسترسی داشته باشند و آن را بخزند.

به عبارت دیگر، این تنظیمات به تمام ربات‌های جستجوگر اجازه می‌دهد تا فقط محتوای موجود در پوشه public را بررسی کنند و از دسترسی به سایر بخش‌های سایت منع می‌شوند.

 

مسدود کردن یک تصویر خاص از نمایش در جستجوی تصاویر گوگل برای مثال، از نمایش تصویر dogs.jpg در جستجوی تصاویر گوگل جلوگیری کنید.

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

معنی این بخش از فایل robots.txt این است که:

User-agent: Googlebot-Image: این خط به طور خاص به خزنده تصاویر گوگل اشاره می‌کند.

Disallow: /images/dogs.jpg: این خط به خزنده تصاویر گوگل دستور می‌دهد که از دسترسی و در نتیجه، احتمالاً نمایش تصویر dogs.jpg واقع در مسیر /images/dogs.jpg خودداری کند.

به عبارت دیگر، این تنظیمات به ربات جستجوی تصاویر گوگل می‌گوید که این تصویر خاص را بررسی نکند، که می‌تواند منجر به عدم نمایش آن در نتایج جستجوی تصاویر گوگل شود. توجه داشته باشید که این فقط بر جستجوی تصاویر گوگل تأثیر می‌گذارد و ممکن است تصویر همچنان در سایر موتورهای جستجو یا از طریق دسترسی مستقیم به URL قابل مشاهده باشد.

 

مسدود کردن نمایش تمام تصاویر سایت شما در جستجوی تصاویر گوگل User-agent: Googlebot-Image:  به ربات خزنده تصاویر گوگل اشاره می‌کند.

Disallow: /: این خط به ربات خزنده تصاویر گوگل دستور می‌دهد که از دسترسی به هیچ بخشی از سایت (با علامت اسلش / که نشان دهنده ریشه سایت است) خودداری کند.

بنابراین، این تنظیمات مانع از آن می‌شود که ربات تصاویر گوگل بتواند هیچ تصویری را در سایت شما بخزد و در نتیجه، نمی‌تواند آن‌ها را در نتایج جستجوی تصاویر گوگل فهرست کند.

همین منطق برای ویدیوها نیز صادق است: برای اینکه گوگل بتواند ویدیوهای شما را فهرست کند، باید بتواند آن‌ها را بخزد. اگر دسترسی خزنده ویدیوی گوگل را مسدود کنید، ویدیوهای شما در نتایج جستجوی ویدیو گوگل ظاهر نخواهند شد. برای مسدود کردن خزیدن ویدیوها، باید از User-agent: Googlebot-Video و قانون Disallow: / استفاده کنید.

 

جلوگیری از خزیدن فایل‌هایی با نوع فایل مشخص به عنوان مثال، جلوگیری از خزیدن تمام فایل‌های با پسوند .gif.

User-agent: Googlebot Disallow: /*.gif$

 

جلوگیری از خزیدن کل سایت، اما اجازه دادن به Mediapartners-Google پیاده‌سازی او صفحات شما را از نتایج جستجو پنهان می‌کند، اما ربات خزنده وب Mediapartners-Google همچنان می‌تواند آن‌ها را تجزیه و تحلیل کند تا تصمیم بگیرد چه تبلیغاتی به بازدیدکنندگان سایت شما نشان دهد.

User-agent: *

Disallow: /

 

User-agent: Mediapartners-Google

Allow: /

 

از کاراکترهای عام (*) و ($) برای مطابقت دادن با URLهایی که به یک رشته خاص ختم می‌شوند استفاده کنید به عنوان مثال، جلوگیری از دسترسی به تمام فایل‌های با پسوند .xls.

User-agent: Googlebot

Disallow: /*.xls$

 

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *