در این مقاله سعی داریم در مورد فایل robots.txt صحبت نماییم.
Website owners use the robots.txt file to give instructions about their site to web robots
فایل robots.txt به ربات های وب دستوراتی در مورد وبسایت میدهد.حال این ربات ها میتوانند به شما احترام بگذارند و به این دستورات عمل کنند و یا آنها را نادیده بگیرند( بر اثر تجربه شخصی تا به حال موردی پیش نیامده که ربات ها دستورات خواسته شده را انجام ندهند )
میخواهیم با هم دیگه این فایل رو بسازیم و همه کدهای داخل اون رو تجزیه و تحلیل کنیم.
داخل هاست خودتون بشین و در روت هاست (root) یک فایل به نام robots.txt بسازید.
روت هاست (root) کجاست؟
– وارد هاست خود شوید (دایرکت ادمین و یا cpanel) سپس وارد public_html شوید.به این قسمت روت هاست میگویند.
چگونه در cpanel فایل robots.txt را بسازم؟
– در روت هاست از قسمت منوی بالا New File را بزنید و درون فیلد New File Name ، نام robots.txt را بزنید و سپس Create New File را بزنید.فایل شما ساخته شد.حال بر روی فایل خود یکبار کلیک نمایید و از طریق منوی بالا بر روی Code Editor کلیک نمایید.در این محل کدهای خود را قرار خواهیم داد.
چگونه در direct admin فایل robots.txt را بسازم؟
– وارد روت هاست خود شوید.در پایینی ترین قسمت نوشته شده(دایرکت ادمین به زبان فارسی) : “ایجاد فایل جدید”.درون این فیلد robots.txt را تایپ کرده و بر روی دکمه “ایجاد” کلیک نمایید.پس از ایجاد فایل دوباره وارد روت هاست شده و فایل مورد نظر را بیابید و بر روی Edit که در روبروی آن قابل مشاهده است کلیک نمایید.در این محل کدهای خود را قرار خواهیم داد.
حالا وقتی ربات ها میخواهند وارد وبسایت شما بشوند اول فایل robots.txt رو بررسی میکنند.
(ربات ها اول قوانین شما را مطالعه میکنند و طبق آن ها عمل میکنند)
آموزش فایل robots.txt
حالا وقت آن رسیده که کدهای خودمون رو داخل این فایل قرار بدهیم.
با یک مثال ساده شروع میکنیم:
User-agent: *
Disallow: /
: اول بریم سراغ مقاله های انگلیسی
The “User-agent: *” means this section applies to all robots
The “Disallow: /” tells the robot that it should not visit any pages on the site
* :user-agent یعنی کدهای این قسمت بر روی تمامی ربات های موجود اعمال بشه!(ربات های موتور جستجوگر گوگل ، ربات های موتور جستجوگر یاهو و ……….)
قسمت دوم نیز ( / :Dissallow ) داره میگه حق ندارید صفحات این وبسایت رو ببینید!
پس در کل این دو خط این معنی رو میده : هیچ کدام از ربات های موجود در وب نباید این وبسایت را بررسی کنند(تمامی صفحات وبسایت)
پس ما با استفاده از فایل robots.txt میتونیم از ربات ها درخواست کنیم فایل ها و یا folder های ما رو بررسی نکنند.
در مثال زیر من از تمامی ربات ها درخواست میکنم تا پوشه های گفته شده را بررسی و ایندکس نکنند.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /seoarzan/
.ها باید در یک خط باشند Disallow هر کدام از
حالت نوشتاری زیر کاملا غلط است:
Disallow: /cgi-bin/ /tmp/
با توجه به حرف هایی که زدیم ، قطعه کد زیر دسترسی تمامی ربات ها را به سایت می بندد.
User-agent: *
Disallow: /
و قطعه کد زیر به تمامی ربات ها اجازه میدهد که وبسایت را بررسی و ایندکس نمایند:
User-agent: *
Disallow:
ما حتی میتوانیم دسترسی نوعی خاص از ربات ها را به وبسایت ببندیم و یا باز کنیم برای مثال ربات گوگل.در قطعه کد زیر من دسترسی ربات های گوگل را باز میگذارم و دسترسی تمامی ربات های دیگر به غیر از گوگل به وبسایت را میبندم.
User-agent: Google
Disallow:
User-agent: *
Disallow: /
اگر از سیستم مدیریت محتوای وردپرس استفاده میکنید.تنها استفاده از کد زیر برای شما کفایت میکند :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
یک کار مهمی هم که میشه داخل فایل robots.txt انجام داد ، معرفی کردن سایت مپ (sitemap) به ربات ها می باشد.
با استفاده از کد زیر سایت مپ خود را به ربات ها معرفی میکنیم :
Sitemap: https://seoarzan.com/sitemap.xml
به جای seoarzan.com نیز آدرس وبسایت خود را قرار دهید
خب پس صورت کامل یک فایل robots.txt برای سیستم مدیریت محتوای وردپرس به این صورت خواهد بود :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seoarzan.com/sitemap.xml
حال فایلتون رو ذخیره کنید.اگر درست کار کرده باشید باید بتونید فایل ساخته شده خودتون رو در آدرس زیر پیدا کنید :
http://adresWebsiteShoma.ir/robots.txt