Robots.txt là gì và hướng dẫn cài đặt

File robots.txt là gì ?

Sau khi tao web mien phi coi website của bạn như một ngôi nhà thì file Robots.txt chính là nội quy khi vào ngôi nhà đó. Việc đầu tiên mà khi khách(Spider của các máy tìm kiếm) đến nhà là phải đọc nội quy của ngôi nhà để biết chủ nhà có cho phép nó vào tham quan hay không ? Và nếu có thì cho vào những phòng nào và những phòng nào không được vào !

Chính vì vậy việc cấu hình file Robots.txt hợp lý là một việc rất quan trọng. Nếu website của bạn có những thông tin nhạy cảm, không muốn public thì hãy thiết lập ở đây. Ngoài ra cấu hình hợp lý còn giúp bạn rất tốt trong SEO.

Vai trò của file robots.txt

Cách cài đặt file robots.txt

Robots.txt là  một file văn bản có cấu trúc rất đơn giản, đặt ngay sau tên miền (ví dụ: http://inet.vn/robots.txt), được tạo bởi công cụ Notepad, dưới đây là một cấu trúc file đơn giản:

User-agent: *
Disallow: /audio/
Disallow: /login.html/

  • User-agent: là đối tượng bot được phép vào website. Có rất nhiều loại bot như: Googlebot (Google), Googlebot-Image(Google),  Yandex(SE của Nga), Bingbot(Bing)/Yahoo Slurp(Yahoo)... Ở đây sử dụng dấu "*" có nghĩa là cho phép tất cả các bot đều được truy cập vào.
  • Disallow: Chặn không cho bot truy cập vào. "/audio/"-chặn không cho truy cập vào thư mục audio, "login.html"-chặn bot truy cập vào trang login.html.

Những cú pháp thông dụng

  • Khóa toàn bộ site

Disallow: /

  • Chặn 1 thư mục và mọi thứ nằm trong nó

Disallow: /audio/

  • Chặn 1 trang

Disallow: /admin.html

  • Loại bỏ 1 hình từ  Google Images

User-agent: Googlebot-Image
Disallow: /images/hot.jpg

  • Bỏ tất cả các hình từ Google Images:

User-agent: Googlebot-Image  
Disallow: /

  • Chặn 1 file hình bất kỳ, ví dụ .jpg

User-agent: Googlebot  
Disallow: /*.jpg$

Chú ý khi tạo file robots.txt

  • Phân biệt chữ hoa, chữ thường.

  • Không được viết thừa, thiếu khoảng trắng.

  • Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh, rất dễ gây nhầm lẫn cho bot.

  • Mỗi một câu lệnh nên viết trên 1 dòng.

 

Tham khảo dịch vụ của iNET

 

Chúc bạn tạo và sử dụng file robots.txt hiệu quả.