کاربرد فایل robots.txt این هست که به ربات های خزنده گوگل میگوید که به کدام URLها در سایت شما دسترسی داشته باشند. کاربرد اصلی فایل robots.txtاین هست که دسترسی هایی را به بخش هایی از سایت ببندیم. به عبارتی دیگر کاربرد اصلی فایل ربات برای بستن یک نوع از آدرس صفحات میباشد به عنوان مثال دسته بندی های خاص یا دسته هایی که آدرس های مشابهی دارند
حال ممکن است برایتان سوال شود که از فایل ربات برای جلوگیری از نمایش یک صفحه وب در گوگل استفاده میکنند؟ در این خصوص باید بگوییم خیر بلکه از تگ noindex استفاده میکنند.
اگر از یک سیستم مدیریت محتوا (CMS) مانند وردپرس استفاده میکنید، ممکن است نیازی به ویرایش مستقیم فایل robots.txt نداشته باشید البته به شرط نصب کردن افزونه هایی سئویی مثل یوآست یا رنک مث. در عوض، وردپرس یک فایل پیش فرض رابه عنوان فایل robots.txt ارائه میدهد که در آن دستور خاصی نوشته نشده است. اگر که میخواهید دستور خاصی در آن بنویسید این کار را باید دستی انجام دهید.در صورت نیاز میتوانید مقاله نکات نوشتن محتوای خوب را بخوانید.

نکته: برای ویرایش فایل ربات حتما این کار را با مشورت با یک سئوکار انجام دهید.
فایل robots.txt برای چه کاری استفاده میشود؟
فایل robots.txt در درجه اول برای دسترسی خزنده ها به سایت شما استفاده میشود و معمولاً، بسته به نوع فایل، برای جلوگیری از نمایش یک فایل در گوگل به کار میرود:
کاربرد فایل روبات برای صفحات مختلف و فایل ها
| صفحه وب | میتوانید از یک فایل robots.txt برای صفحات وب سایت خودتان (مانند HTML، PDF یا سایر فرمتهای غیررسانهای که گوگل میتواند بخواند) استفاده کنید تا دسترسی خزنده های موتور جست و جو را به سایت خود محدود کنید ، به خصوص اگر فکر میکنید خزنده های گوگل به سایت شما دسترسی دارند و این صفحات را را خزش میکنند که کاربرد سئو ندارند و یا صرفا به علت کدنویسی سایت باز شده اند(به عنوان مثال :صفحات کوئری محوربهتراست با دستورهای مناسب این دسترسی ها بسته شوند) به همین خاطر میتوانید از دستورات فایل ربات robots.txt استفاده کنید.
هشدار: از فایل robots.txt به عنوان راهی برای مخفی کردن صفحات وب خود (از جمله فایلهای PDF و سایر فرمتهای متنی که توسط گوگل پشتیبانی میشوند) از نتایج جستجوی گوگل استفاده نکنید. اگر صفحات دیگر با متن توصیفی به صفحه شما لینک دهند، گوگل همچنان میتواند URL را بدون بازدید از صفحه ایندکس کند. اگر میخواهید صفحه خود را از نتایج جستجو مسدود کنید، از روش دیگری مانند محافظت با رمز عبور یا تگ noindex استفاده کنید. اگر قصد دارید که صفحه ای از سایت شما ایندکس نشود میتوانید ازتگ no indexاستفاده کنید و رمز عبور تعیین کنید، URL آن همچنان میتواند در نتایج جستجو ظاهر شود، اما نتیجه جستجو در سرپ گوگل نخواهد داشت. فایلهای تصویری، ویدیویی، PDF و سایر فایلهای غیر HTML که در صفحه مسدود شده وجود دارند نیز از خزیدن مستثنی میشوند، مگر اینکه توسط صفحات دیگری که اجازه خزیدن دارند، به آنها ارجاع داده شده باشد (به عنوان مثال یک عکس مشابه در یک صفحه دیگر وجود دارد آنگاه گوگل آن را در آن صفحه میخواند). اگر صفحه ای در فایل ربات مسدود شود باز گوگل میتواند آن را بخواند اما در نتایج جست و جو نشان نمیدهد به اصلاح کرال میکند اما رتبه دهی نمیکند. |
| فایل رسانهای | از یک فایل robots.txt برای مدیریت بودجه خزش استفاده کنید، همچنین میتوانید برای جلوگیری از نمایش فایلهای تصویری، ویدیویی و صوتی در نتایج جستجوی گوگل. این کار مانع از لینک دادن سایر صفحات یا کاربران به فایل تصویری، ویدیویی یا صوتی شما نخواهد شد. فایل تصویری HTML , PDF هر چه که در آن صفحه هست مسدود میشود و نمایش داده نمیشود مگر اینکه در صفحات دیگری این فایل ها استفاده شده باشند. |
| بستن دسترسی کدها | میتونین از یه فایل robots.txt استفاده کنین تا فایلای منبع مثل عکسای بیاهمیت، اسکریپتا یا فایلای استایل رو ببندین، اگه فکر میکنین صفحاتی که بدون این منابع بارگیری میشن، خیلی تحت تاثیر از دست دادنشون قرار نمیگیرن. اما اگه نبود این منابع باعث بشه خزنده گوگل سخت تر صفحه رو بفهمه، نبندینشون، وگرنه گوگل نمیتونه صفحاتی که به اون منابع وابسته هستن رو خوب تحلیل کنه. بهتر هست دسترسی به این صفحات را به صورت کلی نبندین زیرا ممکن است موجب ایجاد مشکل در ریسپانسیو صفحه وب برای خزنده ها گردد. |
درک محدودیتهای فایل robots.txt
قبل از اینکه یک فایل robots.txt ایجاد یا ویرایش کنید، با این روش مسدودسازی بیشتر آشنا شوید. بسته به اهداف و شرایط شما، ممکن است بخواهید مکانیسمهای دیگری را برای اطمینان از اینکه URLهای شما در وب قابل یافتن نیستند، در نظر بگیرید.
- قوانین robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشوند.
- دستورالعملهای موجود در فایلهای robots.txt نمیتوانند رفتار ربات های خزنده را در سایت شما اجباری کنند؛ اطاعت از آنها به عهده خزنده است. در حالی که گوگل بات و سایر خزندههای وب معتبر از دستورالعملهای موجود در یک فایل robots.txt پیروی میکنند، ممکن است سایر خزندهها این کار را نکنند. بنابراین، اگر میخواهید اطلاعات را از خزندههای وب ایمن نگه دارید، بهتر است از روشهای مسدودسازی دیگری مانند محافظت از فایلهای خصوصی در سرور خود با رمز عبور استفاده کنید.
- صفحهای که در robots.txt دسترسی آن بسته شده است، اگر از سایتهای دیگر به آن لینک داده شود، همچنان میتواند ایندکس شود. در حالی که گوگل محتوای مسدود شده توسط یک فایل robots.txt را نمیخزد و ایندکس نمیکند، ممکن است همچنان یک URL که در سایتی دیگر است را بیابد و ایندکس کند بنابراین از تگ متا noindex یا هدر پاسخ noindex استفاده کنید، یا صفحه را به طور کامل موتور جستجو نادیده بگیرید.
شما میتوانید با استفاده از یک فایل robots.txt کنترل کنید که کدام فایلها برای خزندهها در سایت شما قابل دسترسی باشند.
یک فایل robots.txt در ریشه سایت شما قرار دارد. بنابراین، برای سایت www.example.com، فایل robots.txt در آدرس www.example.com/robots.txt قرار میگیرد. robots.txt یک فایل متنی ساده است که از استاندارد منع رباتها (Robots Exclusion Standard) پیروی میکند. یک فایل robots.txt شامل یک یا چند قانون است. هر قانون دسترسی همه یا یک خزنده خاص را به یک مسیر فایل مشخص در دامنه یا زیردامنه میزبانیکننده فایل robots.txt مسدود یا مجاز میکند. مگر اینکه در فایل robots.txt خود خلاف آن را مشخص کنید، دسترسی به همه فایلها به طور پیش فرض برای خزیدن مجاز است.
در اینجا یک فایل robots.txt ساده با دو قانون آورده شده است:
راهنمای نوشتن و ارسال فایل robots.txt
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
معنی این فایل robots.txt
- خزنده با نام کاربری Googlebot اجازه دسترسی به هیچ URLای که با /nogooglebot شروع میشود را ندارد.
- تمام خزندههای دیگر اجازه دارند کل سایت را بخزند. این خط میتوانست حذف شود و نتیجه یکسان میبود؛ رفتار پیشفرض این است که خزندهها اجازه دارند کل سایت را بخزند.
- فایل نقشه سایت در آدرس https://www.example.com/sitemap.xml قرار دارد.
راهنمایی برای ساخت یک فایل ربات
ایجاد یک فایل robots.txt در دسترس و مفید به طور کلی شامل چهار مرحله است:
- یک فایل با نام robots و پسوند .txt در نوت پد بسازید.
- قواعد را به فایل robots.txt اضافه کنید.
- فایل robots.txt را در ریشه سایت خود بارگذاری کنید.
- فایل robots.txt را آزمایش کنید.
ایجاد یک فایل robots.txt
You can use almost any text editor to create a robots.txt file. For example, Notepad, TextEdit, vi, and emacs can create valid robots.txt files. Don’t use a word processor; word processors often save files in a proprietary format and can add unexpected characters, such as curly quotes, which can cause problems for crawlers. Make sure to save the file with UTF-8 encoding if prompted during the save file dialog.
ترجمه: شما میتوانید از تقریباً هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید. برای مثال، Notepad، TextEdit، vi و emacs میتوانند فایلهای robots.txt معتبری ایجاد کنند اطمینان حاصل کنید که هنگام ذخیره فایل، در صورت درخواست، آن را با رمزگذاری UTF-8 ذخیره کنید.
منبع: https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt
قواعد یک فایل ربات
- نام فایل باید robots.txt باشد.
- سایت شما فقط میتواند یک فایل robots.txt داشته باشد.
- فایل robots.txt باید در ریشه هاست سایتی که اعمال میشود قرار گیرد. برای مثال، برای کنترل خزیدن در تمام URLهای زیر https://www.example.com/، فایل robots.txt باید در آدرس https://www.example.com/robots.txt قرار گیرد. این فایل نمیتواند در یک زیرشاخه قرار گیرد (برای مثال، در https://example.com/pages/robots.txt). اگر در مورد نحوه دسترسی به ریشه سایت خود مطمئن نیستید یا به مجوز انجام این کار نیاز دارید، با ارائهدهنده خدمات میزبانی وب خود تماس بگیرید. اگر نمیتوانید به ریشه سایت خود دسترسی پیدا کنید، از یک روش مسدودسازی جایگزین مانند تگهای meta استفاده کنید.
- نکته: برای دسترسی به ریشه هاست وارد هاست سایت خود شوید و پس از آن وارد فایل منیجر شوید سپس وارد فایل public html شوید و در همان جا فایل ربات و آپلود نمایید.
- یک فایل robots.txt میتواند در یک ساب دامنه (برای مثال، https://site.example.com/robots.txt) یا در پورتهای غیر استاندارد (برای مثال، https://example.com:8181/robots.txt) قرار گیرد.
- یک فایل robots.txt فقط برای مسیرهای درون پروتکل، هاست و پورتی که در آن قرار دارد اعمال میشود. یعنی، قوانین موجود در https://example.com/robots.txt فقط برای فایلهای موجود در https://example.com/ اعمال میشود، نه برای زیردامنهها مانند https://m.example.com/
- یک فایل robots.txt باید یک فایل متنی با رمزگذاری UTF-8 باشد گوگل ممکن است کاراکترهایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد، که به طور بالقوه قوانین robots.txt را نامعتبر میکند. بنابراین از کارکتر های غیر مجاز همچون اشکال یا فونت های غیر رسمی استفاده نکنید.

نحوه نوشتن قوانین robots.txt
برای آنکه مشخص کنید ربات ها به کدام بخش های سایت دسترسی دارند باید این دسترسی ها را طبق قوانینی ایجاد کنید.
- یک فایل robots.txt از یک یا چند گروه (مجموعه قوانین) تشکیل شده است.
- هر گروه از چندین قانون (که به عنوان دستورالعمل نیز شناخته میشوند) تشکیل شده است که هر قانون در یک خط قرار دارد. هر گروه با یک خط User-agent شروع میشود که هدف گروهها را مشخص میکند.
- یک گروه اطلاعات زیر را ارائه میدهد:
- این گروه برای چه ربات هایی اعمال میشود.
- کدام دایرکتوریها یا فایلهایی را خزنده میتواند به آنها دسترسی داشته باشد.
- کدام دایرکتوریها یا فایلهایی را خزنده نمیتواند به آنها دسترسی داشته باشد.
- خزندهها قوانین را به صورت ابتدا به انتها میخوانند یعنی فایل ربات را از بالا به پایین میخوانند بنابراین اگر که چندین دسترسی که در یک دسترسی اصلی وجود دارد را ببندید خزنده ها این قوانین را با هم ترکیب میکنند به عنوان مثال برای بستن domain.com/category/page/3 و نوشتن این دستور به سه شکل domain.com/category/page و domain.com/category میتوانید به راحتی domain.com/category را ببندید ولی حتما چک کنید که اگر دسترسی به یک سر دسته را میبندید برای سایتتان مشکل ایجاد نشود.
- فرض پیش فرض این است که یک خزنده میتواند هر صفحه یا دایرکتوری را که توسط قانون disallow مسدود نشده است، بخزد.
- قوانین به حروف بزرگ و کوچک حساس هستند. برای مثال، disallow: /file.asp برای https://www.example.com/file.asp اعمال میشود، اما برای https://www.example.com/FILE.asp اعمال نمیشود.
- کاراکتر # علامت شروع یک کامنت است. کامنت در طول پردازش نادیده گرفته میشوند.
- خزندههای گوگل از قوانین زیر در فایلهای robots.txt پشتیبانی میکنند:
- استفاده از user-agent الزامی است این دستور مشخص میکند که قوانین را باید کدام یک از مرورپر ها بخوانند. این اولین خط در بین قوانین است. استفاده از علامت ستاره (*) شامل تمامی خزنده ها به جز خزندههای مختلف AdsBot میشود، که باید به طور صریح نامگذاری شوند. برای مثال:
- # مثال 1: فقط Googlebot را مسدود کنید
- User-agent: Googlebot
- Disallow: /
- # مثال 2: Googlebot و Adsbot را مسدود کنید
- User-agent: Googlebot
- User-agent: AdsBot-Google
- Disallow: /
- # مثال 3: تمام خزندهها را به جز AdsBot مسدود کنید (خزندههای AdsBot باید به طور صریح نامگذاری شوند)
- User-agent: *
- Disallow: /
-
- دستور Disallow دستور عدم خزش میباشد. اگر قانون به یک صفحه اشاره دارد، باید نام کامل صفحه همانطور که در مرورگر نشان داده میشود باشد. باید با کاراکتر / شروع شود و اگر به یک دایرکتوری اشاره دارد، باید با علامت / به پایان برسد.
- دستور allow: به باز کردن یک دسترسی اشاره دارد برای یک صفحه واحد، نام کامل صفحه را همانطور که در مرورگر نشان داده میشود مشخص کنید. باید با کاراکتر / شروع شود و اگر به یک دایرکتوری اشاره دارد، باید با علامت / به پایان برسد.
- دستور sitemap که میتوانید لینک یک سایت مپ یا چند مورد باشد. نقشه سایت روش خوبی برای نشان دادن محتوایی هستند که گوگل باید بخزد، برخلاف محتوایی که میتواند یا نمیتواند بخزد.
- Sitemap: https://example.com/sitemap.xml
- Sitemap: https://www.example.com/sitemap.xml
-
- تمام قوانین، به جز sitemap، از علامت عام (*) برای پیشوند، پسوند یا کل رشته یک مسیر پشتیبانی میکنند.
- خطوطی که با هیچ یک از این قوانین مطابقت ندارند نادیده گرفته میشوند.
بارگذاری فایل robots.txt
پس از ذخیره فایل robots.txt در رایانه خود، آماده هستید تا آن را برای خزندههای موتور جستجو در دسترس قرار دهید. نحوه بارگذاری فایل robots.txt در سایت شما به معماری سایت و سرور شما بستگی دارد. ولی معمولا برای آپلود سایت مپ باید به هاست وارد شوید سپس وارد فایل منیجر شوید و در نهایت وارد پوشه public html وارد شوید و در همان جا فایل را آپلود نمایید.
پس از بارگذاری فایل robots.txt، آزمایش کنید که آیا به طور عمومی قابل دسترسی است و آیا گوگل میتواند آن را بخواند.
آزمایش نشانه گذاری robots.txt
برای آزمایش اینکه آیا فایل robots.txt تازه بارگذاری شده شما به طور عمومی قابل دسترسی است، یک صفحه (یا در مرورگر خود باز کنید و به محل فایل robots.txt بروید. برای مثال، https://example.com/robots.txt. اگر محتویات فایل robots.txt خود را مشاهده میکنید، یعنی فایل درست است.
ارسال فایل robots.txt به گوگل
پس از بارگذاری و آزمایش فایل robots.txt خود، خزندههای گوگل به طور خودکار فایل robots.txt شما را پیدا کرده و شروع به استفاده از آن میکنند. شما نیازی به انجام هیچ کاری ندارید. اگر فایل robots.txt خود را بهروزرسانی کردهاید و نیاز دارید تا نسخه کش شده گوگل را در اسرع وقت تازه کنید، میتوانید در سرچ کنسول فایل خود را قرار دهید برای اینکار میتوانید به آموزش جامع سرچ کنسول مراجعه نمایید.
قوانین مفید robots.txt
در اینجا چند قانون مفید رایج robots.txt آورده شده است:
| جلوگیری از خزیدن کل سایت یا مسدود کردن دسترسی خزندهها به کل سایت | به خاطر داشته باشید که در برخی موارد، ممکن است بخواهید تا خزنده ها سایت شما را نخوانند به عنوان مثال وقتی که سایت در دست طراحی است.
توجه: این مورد شامل خزندههای مختلف AdsBot نمیشود، که باید به طور صریح نامگذاری شوند. User-agent: * Disallow: / معنی این بخش از فایل robots.txt این است که: User-agent: * : این خط به تمام خزندههای وب (با علامت ستاره *) اشاره میکند. Disallow: / : این خط به تمام خزندهها دستور میدهد که از دسترسی به هیچ بخشی از سایت (با علامت اسلش / که نشان دهنده ریشه سایت است) خودداری کنند. به عبارت دیگر، این تنظیمات به تمام رباتهای جستجوگر میگوید که اجازه ندارند هیچ صفحهای از این سایت را بخزند و محتوای آن را بررسی کنند. با این حال، همانطور که در ابتدا گفته شد، ممکن است برخی از URLها همچنان خوانده شوند، حتی اگر رباتها آنها را نخزیده باشند.
|
| جلوگیری از خزیدن یک پوشه و محتویات آن یا مسدود کردن دسترسی خزندهها به یک دایرکتوری و تمام فایلها و زیرپوشههای درون آن | برای جلوگیری از خزیدن کل یک پوشه، یک اسلش را به جلو (/) به انتهای نام پوشه اضافه کنید.
User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ معنی این بخش از فایل robots.txt این است که: User-agent: * : این خط به تمام خزندههای وب اشاره میکند. Disallow: /calendar/ : این خط به تمام خزندهها دستور میدهد که از دسترسی به پوشه /calendar/ و تمام محتویات آن (فایلها و زیرپوشهها) خودداری کنند. Disallow: /junk/ : این خط به تمام خزندهها دستور میدهد که از دسترسی به پوشه /junk/ و تمام محتویات آن خودداری کنند. Disallow: /books/fiction/contemporary/ : این خط به تمام خزندهها دستور میدهد که از دسترسی به پوشه /books/fiction/contemporary/ و تمام محتویات آن خودداری کنند.
|
| اجازه دسترسی به یک خزنده خاص یا مجاز کردن یک ربات خاص برای دسترسی به سایت | فقط ربات خبری گوگل (googlebot-news) اجازه دارد کل سایت را بخزد.
User-agent: Googlebot-news Allow: /
User-agent: * Disallow: / معنی این بخش از فایل robots.txt این است که: User-agent: Googlebot-news: این خط به طور خاص به خزنده خبری گوگل اشاره میکند. Allow: /: این خط به خزنده خبری گوگل اجازه میدهد تا به تمام بخشهای سایت (ریشه سایت با علامت اسلش / نشان داده شده است) دسترسی داشته باشد و آن را بخزد. User-agent: *: این خط به تمام خزندههای وب دیگر (به جز googlebot-news) اشاره میکند. Disallow: /: این خط به تمام خزندههای دیگر دستور میدهد که از دسترسی به هیچ بخشی از سایت خودداری کنند. به عبارت دیگر، این تنظیمات فقط به ربات خبری گوگل اجازه میدهد تا محتوای سایت را بررسی کند و سایر رباتهای جستجوگر از دسترسی به کل سایت منع شدهاند.
|
| اجازه دسترسی به یک خزنده خاص یا مجاز کردن یک ربات خاص برای دسترسی به سایت | ربات غیرضروری (Unnecessarybot) اجازه خزیدن سایت را ندارد، اما تمام رباتهای دیگر مجاز هستند.
User-agent: Unnecessarybot Disallow: /
User-agent: * Allow: / معنی این بخش از فایل robots.txt این است که: User-agent: Unnecessarybot: این خط به طور خاص به خزنده با نام Unnecessarybot اشاره میکند. Disallow: /: این خط به خزنده Unnecessarybot دستور میدهد که از دسترسی به هیچ بخشی از سایت (ریشه سایت با علامت اسلش / نشان داده شده است) خودداری کند. User-agent: *: این خط به تمام خزندههای وب دیگر (به جز Unnecessarybot) اشاره میکند. Allow: /: این خط به تمام خزندههای دیگر اجازه میدهد تا به تمام بخشهای سایت (ریشه سایت با علامت اسلش / نشان داده شده است) دسترسی داشته باشند و آن را بخزند. به عبارت دیگر، این تنظیمات تمام رباتهای جستجوگر را به جز Unnecessarybot مجاز به بررسی محتوای سایت میکند و Unnecessarybot از دسترسی به کل سایت منع شده است.
|
| جلوگیری از خزیدن یک صفحه وب خاص یا مسدود کردن دسترسی خزندهها به یک صفحه مشخص در سایت | برای مثال، از خزیدن صفحه useless_file.html که در آدرس https://example.com/useless_file.html قرار دارد، و صفحه other_useless_file.html در پوشه junk جلوگیری کنید.
User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html معنی این بخش از فایل robots.txt این است که: User-agent: *: این خط به تمام خزندههای وب اشاره میکند. Disallow: /useless_file.html: این خط به تمام خزندهها دستور میدهد که از دسترسی به صفحه وب خاص با نام useless_file.html در ریشه سایت خودداری کنند. Disallow: /junk/other_useless_file.html: این خط به تمام خزندهها دستور میدهد که از دسترسی به صفحه وب خاص با نام other_useless_file.html که در داخل پوشه junk/ قرار دارد، خودداری کنند. به عبارت دیگر، این تنظیمات مانع از آن میشود که تمام رباتهای جستجوگر این دو صفحه وب مشخص را بخزند و محتوای آنها را بررسی کنند. سایر صفحات سایت همچنان برای خزیدن در دسترس خواهند بود.
|
| جلوگیری از خزیدن کل سایت به جز یک زیرپوشه خاص یا مسدود کردن دسترسی خزندهها به تمام بخشهای سایت به جز یک دایرکتوری مشخص | خزندهها فقط اجازه دسترسی به زیرپوشه public را دارند.
User-agent: * Disallow: / Allow: /public/ معنی این بخش از فایل robots.txt این است که: User-agent: *: این خط به تمام خزندههای وب اشاره میکند. Disallow: /: این خط در ابتدا به تمام خزندهها دستور میدهد که از دسترسی به هیچ بخشی از سایت (ریشه سایت با علامت اسلش / نشان داده شده است) خودداری کنند. Allow: /public/: این خط سپس یک استثنا ایجاد میکند و به تمام خزندهها اجازه میدهد تا به پوشه public/ و تمام محتویات آن (فایلها و زیرپوشهها) دسترسی داشته باشند و آن را بخزند. به عبارت دیگر، این تنظیمات به تمام رباتهای جستجوگر اجازه میدهد تا فقط محتوای موجود در پوشه public را بررسی کنند و از دسترسی به سایر بخشهای سایت منع میشوند.
|
| مسدود کردن یک تصویر خاص از نمایش در جستجوی تصاویر گوگل | برای مثال، از نمایش تصویر dogs.jpg در جستجوی تصاویر گوگل جلوگیری کنید.
User-agent: Googlebot-Image Disallow: /images/dogs.jpg معنی این بخش از فایل robots.txt این است که: User-agent: Googlebot-Image: این خط به طور خاص به خزنده تصاویر گوگل اشاره میکند. Disallow: /images/dogs.jpg: این خط به خزنده تصاویر گوگل دستور میدهد که از دسترسی و در نتیجه، احتمالاً نمایش تصویر dogs.jpg واقع در مسیر /images/dogs.jpg خودداری کند. به عبارت دیگر، این تنظیمات به ربات جستجوی تصاویر گوگل میگوید که این تصویر خاص را بررسی نکند، که میتواند منجر به عدم نمایش آن در نتایج جستجوی تصاویر گوگل شود. توجه داشته باشید که این فقط بر جستجوی تصاویر گوگل تأثیر میگذارد و ممکن است تصویر همچنان در سایر موتورهای جستجو یا از طریق دسترسی مستقیم به URL قابل مشاهده باشد.
|
| مسدود کردن نمایش تمام تصاویر سایت شما در جستجوی تصاویر گوگل | User-agent: Googlebot-Image: به ربات خزنده تصاویر گوگل اشاره میکند.
Disallow: /: این خط به ربات خزنده تصاویر گوگل دستور میدهد که از دسترسی به هیچ بخشی از سایت (با علامت اسلش / که نشان دهنده ریشه سایت است) خودداری کند. بنابراین، این تنظیمات مانع از آن میشود که ربات تصاویر گوگل بتواند هیچ تصویری را در سایت شما بخزد و در نتیجه، نمیتواند آنها را در نتایج جستجوی تصاویر گوگل فهرست کند. همین منطق برای ویدیوها نیز صادق است: برای اینکه گوگل بتواند ویدیوهای شما را فهرست کند، باید بتواند آنها را بخزد. اگر دسترسی خزنده ویدیوی گوگل را مسدود کنید، ویدیوهای شما در نتایج جستجوی ویدیو گوگل ظاهر نخواهند شد. برای مسدود کردن خزیدن ویدیوها، باید از User-agent: Googlebot-Video و قانون Disallow: / استفاده کنید.
|
| جلوگیری از خزیدن فایلهایی با نوع فایل مشخص | به عنوان مثال، جلوگیری از خزیدن تمام فایلهای با پسوند .gif.
User-agent: Googlebot Disallow: /*.gif$
|
| جلوگیری از خزیدن کل سایت، اما اجازه دادن به Mediapartners-Google | پیادهسازی او صفحات شما را از نتایج جستجو پنهان میکند، اما ربات خزنده وب Mediapartners-Google همچنان میتواند آنها را تجزیه و تحلیل کند تا تصمیم بگیرد چه تبلیغاتی به بازدیدکنندگان سایت شما نشان دهد.
User-agent: * Disallow: /
User-agent: Mediapartners-Google Allow: /
|
| از کاراکترهای عام (*) و ($) برای مطابقت دادن با URLهایی که به یک رشته خاص ختم میشوند استفاده کنید | به عنوان مثال، جلوگیری از دسترسی به تمام فایلهای با پسوند .xls.
User-agent: Googlebot Disallow: /*.xls$
|