Đây là câu đầu tiên bạn vào phần cài đặt file Robots.txt Blogspot thông báo cho các bạn “Cảnh báo! Hãy sử dụng một cách thận trọng. Việc sử dụng sai các tính năng này có thể khiến blog của bạn bị công cụ tìm kiếm bỏ qua”. Một câu thông báo ngắn ngủi cũng đủ nói lên tầm quan trọng của file Robots.txt.
{tocify} $title={Nội dung bài viết}
Robots.txt là gì?
Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ Blog/Website của họ. Nó hoạt động theo cách tương tự như các “Thẻ tiêu đề robot tùy chỉnh”. Điểm khác biệt chính giữa chúng là các tập tin “Robots.txt tùy chỉnh” sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các “Thẻ tiêu đề robot tùy chỉnh” chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).
$ads={1}
Ý nghĩa các dòng lệnh nhỏ trong robots.txt
User-agent: Tên loại bot ví dụ: Googlebot, Bingbot,…
Allow: (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Disallow: Không cho phép
Sitemap: Đường dẫn sơ đồ của trang web.
Ghi chú: Dấu * thay cho chuỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có một cái tên như googlebot, bingbot, coccocbot… nếu muốn chặn một loại bot cụ thể chúng ta sẽ khai báo tên cụ thể của loại bot đó.
Việc tùy chỉnh file robots.txt giúp cho việc đưa những thông tin tốt chất lượng có chọn lọc giúp cho website uy tín hơn theo mục tiêu tình huống và giai đoạn phát triển website của bạn.{alertSuccess}
1. Chặn các liên kết đối thủ có thể tạo ra để chơi xấu bạn
Cú pháp: mặc định của robots.txt blogspot đã có sẵn khi bạn chưa tiến hành chỉnh sửa.
User-agent: *
Disallow: /search{codeBox}
2. Bạn có thể tạm thời chặn index toàn bộ website trong giai đoạn xây dựng còn giang dở tránh google update những thông tin chưa chuẩn ảnh hưởng đến hình ảnh doanh nghiệp
User-agent: *
Disallow: /{codeBox}
3. Bạn có thể chặn những những thư mục hay bài viết kém chất lượng do đi copy về kéo view
User-agent: *
Disallow: /phim{codeBox}
Ý nghĩa: chặn toàn bộ những bài viết nào có chứa từ phim sau dấu /
4. Sử dụng để chặn các công cụ thu thập liên kết như AHREFS
User-agent: AhrefsBot
Disallow: /{codeBox}{codeBox}
5. Sử dụng khi giấu đường link dowload có trả phí mà bạn không muốn google index công bố rộng rãi giả sử tôi cần giấu file pdf
User-agent: *
Disallow: *.pdf{codeBox}
Thực hiện tùy chỉnh robots.txt tối ưu chuẩn seo cho Blogspot
Các bạn vào Cài đặt -> Tùy chọn tìm kiếm -> Robots.txt tùy chỉnh -> chọn chỉnh sửa. Bạn copy đoạn bên dưới vào:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=8
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://www.truongblogger.top/posts/default?orderby=UPDATED
Sitemap: https://www.truongblogger.top/sitemap.xml
Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1&max-results=500{codeBox}
Note: bạn nhớ thay https://www.truongblogger.top thành địa chỉ trang của bạn.{alertInfo}
Giải thích chi tiết đoạn trên
- User-agent: Mediapartners-Google
- Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
- User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
- Allow: / -> Tức là cho phép bots có thể index nội dung trên trang web.
- Allow: / -> Cho phép đọc trang /search/label/
- Disallow: /search* -> Chặn trang tìm kiếm
- Allow: /search -> Cho phép đọc trang bài viết mới
- Disallow: *archive.html -> Chặn index trang lưu trữ (ở đây tôi bỏ dòng này và vẫn index lưu trữ)
- Disallow: *?m=0 -> chặn index trang có giá trị domain.com?m=0
- Allow: /search/label/ -> Cho phép index trang nhãn
- Allow: *max-results=10 -> Cho phép Index trang nhãn có max-results=10 (vì mình muốn trang như thế)
Dành cho các site không index các trang *max-results=* Disallow:
- *max-results=* -> Chặn index đuôi max-results=10, max-results=20, max-results=xxx. Thường dùng cho code phân trang.
- Disallow: *max-results=* -> Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
- Disallow: *archive.html -> Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của Blogspot.
- Disallow: *?m=0 -> Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
- 2 mục sitemap -> Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner.
Riêng đối với blogger sử dụng nguồn cấp dữ liệu qua Atom và mỗi lần cấp là tối đa 500 bài nên ta mới khai báo thêm như sau:
Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=501&max-results=500
Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1001&max-results=500
Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1501&max-results=500{codeBox}
Mẫu robots.txt của một số trang blog xem cách họ đặt
Các blog tùy chỉnh cho SEO label
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search?updated-min=*
Disallow: /search?updated-max=*
Disallow: /search/label/*?max-results=*
Disallow: /search/label/*?updated-min=*
Disallow: /search/label/*?updated-max=*
Disallow: *archive.html
Allow: /
Sitemap: https://www.truongblogger.top/feeds/posts/default?orderby=UPDATED{codeBox}
Hành trình Seo Top
User-agent: Mediapartners-Google
Disallow: /
User-agent: *
Allow: /
Allow: /search
Disallow: /*?updated-max=*
Disallow: /*&max-results=*
Disallow: /*archive.html
Sitemap: hhttps://www.truongblogger.top/feeds/posts/default?orderby=UPDATED{codeBox}
Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh
Bạn vào Cài đặt -> Tùy chọn tìm kiếm -> Thẻ tiêu đề robot tùy chỉnh -> chọn Thay đổi.
Bạn tích vào các vị trí như trên rồi Lưu thay đổi.
Ý nghĩa của tag trên
- all - Cho phép công cụ tìm kiếm lập chỉ mục.
- noindex - Không hiển thị trang này trong kết quả tìm kiếm.
- nofollow - Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
- none - Tương tự như nonidex và nofollow.
- noarchive - Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
- nosnippet - Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
- noodp - Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
- notranslate - Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
- noimageindex - Không lập chỉ mục cho hình ảnh trên trang này.
- unavailable_after - Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.
Lời khuyên: Bạn để nguyên không đụng gì đến nó cũng rất tốt và đỡ tốn thời gian trừ khi có một kế hoạch rất dài hạn hãy đào sâu rồi lựa chọn.{alertWarning}