Cách sử dụng Robots.txt để tối ưu SEO trên Blogspot

Robot.txt là một file cài đặt trong thư mục gốc để hướng dẫn cho các công cụ tìm kiếm được phép lấy phần thông tin dữ liệu nào ở bên trong website.

Đây là câu đầu tiên bạn vào phần cài đặt file Robots.txt Blogspot thông báo cho các bạn “Cảnh báo! Hãy sử dụng một cách thận trọng. Việc sử dụng sai các tính năng này có thể khiến blog của bạn bị công cụ tìm kiếm bỏ qua”. Một câu thông báo ngắn ngủi cũng đủ nói lên tầm quan trọng của file Robots.txt.

Cách sử dụng Robots.txt để tối ưu SEO trên Blogspot

{tocify} $title={Nội dung bài viết}

Robots.txt là gì?

Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ Blog/Website của họ. Nó hoạt động theo cách tương tự như các “Thẻ tiêu đề robot tùy chỉnh”. Điểm khác biệt chính giữa chúng là các tập tin “Robots.txt tùy chỉnh” sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các “Thẻ tiêu đề robot tùy chỉnh” chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).

$ads={1}

Ý nghĩa các dòng lệnh nhỏ trong robots.txt

User-agent: Tên loại bot ví dụ: Googlebot, Bingbot,…

Allow: (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.

Disallow: Không cho phép

Sitemap: Đường dẫn sơ đồ của trang web.

Ghi chú: Dấu * thay cho chuỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có một cái tên như googlebot, bingbot, coccocbot… nếu muốn chặn một loại bot cụ thể chúng ta sẽ khai báo tên cụ thể của loại bot đó.

Việc tùy chỉnh file robots.txt giúp cho việc đưa những thông tin tốt chất lượng có chọn lọc giúp cho website uy tín hơn theo mục tiêu tình huống và giai đoạn phát triển website của bạn.{alertSuccess}

1. Chặn các liên kết đối thủ có thể tạo ra để chơi xấu bạn

Cú pháp: mặc định của robots.txt blogspot đã có sẵn khi bạn chưa tiến hành chỉnh sửa.

User-agent: *

Disallow: /search{codeBox}

2. Bạn có thể tạm thời chặn index toàn bộ website trong giai đoạn xây dựng còn giang dở tránh google update những thông tin chưa chuẩn ảnh hưởng đến hình ảnh doanh nghiệp

User-agent: *

Disallow: /{codeBox}

3. Bạn có thể chặn những những thư mục hay bài viết kém chất lượng do đi copy về kéo view

User-agent: *

Disallow: /phim{codeBox}

Ý nghĩa: chặn toàn bộ những bài viết nào có chứa từ phim sau dấu /

4. Sử dụng để chặn các công cụ thu thập liên kết như AHREFS

User-agent: AhrefsBot

Disallow: /{codeBox}{codeBox}

5. Sử dụng khi giấu đường link dowload có trả phí mà bạn không muốn google index công bố rộng rãi giả sử tôi cần giấu file pdf

User-agent: *

Disallow: *.pdf{codeBox}

Thực hiện tùy chỉnh robots.txt tối ưu chuẩn seo cho Blogspot

Các bạn vào Cài đặt -> Tùy chọn tìm kiếm -> Robots.txt tùy chỉnh -> chọn chỉnh sửa. Bạn copy đoạn bên dưới vào:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Allow: /search

Disallow: /search*

Allow: /

Allow: *max-results=8

Allow: /search/label/

Disallow: *archive.html

Disallow: *?updated-max*

Disallow: *?m=0

Sitemap: https://www.truongblogger.top/posts/default?orderby=UPDATED

Sitemap: https://www.truongblogger.top/sitemap.xml

Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1&max-results=500{codeBox}

Note: bạn nhớ thay https://www.truongblogger.top thành địa chỉ trang của bạn.{alertInfo}

Giải thích chi tiết đoạn trên

  1. User-agent: Mediapartners-Google
  2. Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
  3. User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
  4. Allow: / -> Tức là cho phép bots có thể index nội dung trên trang web.
  5. Allow: / -> Cho phép đọc trang /search/label/ 
  6. Disallow: /search* -> Chặn trang tìm kiếm 
  7. Allow: /search  -> Cho phép đọc trang bài viết mới 
  8. Disallow: *archive.html  -> Chặn index trang lưu trữ (ở đây tôi bỏ dòng này và vẫn index lưu trữ)
  9. Disallow: *?m=0  -> chặn index trang có giá trị domain.com?m=0 
  10. Allow: /search/label/   -> Cho phép index trang nhãn 
  11. Allow: *max-results=10 -> Cho phép Index trang nhãn có max-results=10 (vì mình muốn trang như thế) 

Dành cho các site không index các trang *max-results=* Disallow

  • *max-results=*  -> Chặn index đuôi max-results=10, max-results=20, max-results=xxx. Thường dùng cho code phân trang.
  • Disallow: *max-results=* -> Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
  • Disallow: *archive.html -> Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của Blogspot.
  • Disallow: *?m=0 -> Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
  • 2 mục sitemap -> Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner.

Riêng đối với blogger sử dụng nguồn cấp dữ liệu qua Atom và mỗi lần cấp là tối đa 500 bài nên ta mới khai báo thêm như sau:

Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1&max-results=500

Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=501&max-results=500

Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1001&max-results=500

Sitemap: https://www.truongblogger.top/atom.xml?redirect=false&start-index=1501&max-results=500{codeBox}

Mẫu robots.txt của một số trang blog xem cách họ đặt

Các blog tùy chỉnh cho SEO label

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search?updated-min=*

Disallow: /search?updated-max=*

Disallow: /search/label/*?max-results=*

Disallow: /search/label/*?updated-min=*

Disallow: /search/label/*?updated-max=*

Disallow: *archive.html

Allow: /

Sitemap: https://www.truongblogger.top/feeds/posts/default?orderby=UPDATED{codeBox}

Hành trình Seo Top

User-agent: Mediapartners-Google

Disallow: /

User-agent: *

Allow: /

Allow: /search

Disallow: /*?updated-max=*

Disallow: /*&max-results=*

Disallow: /*archive.html

Sitemap: hhttps://www.truongblogger.top/feeds/posts/default?orderby=UPDATED{codeBox}

Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh

Bạn vào Cài đặt -> Tùy chọn tìm kiếm -> Thẻ tiêu đề robot tùy chỉnh -> chọn Thay đổi.

Cách sử dụng Robots.txt để tối ưu SEO trên Blogspot
Cách sử dụng Robots.txt để tối ưu SEO trên Blogspot
Cách sử dụng Robots.txt để tối ưu SEO trên Blogspot

Bạn tích vào các vị trí như trên rồi Lưu thay đổi.

Ý nghĩa của tag trên

  • all - Cho phép công cụ tìm kiếm lập chỉ mục.
  • noindex - Không hiển thị trang này trong kết quả tìm kiếm.
  • nofollow - Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
  • none - Tương tự như nonidex và nofollow.
  • noarchive - Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
  • nosnippet - Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
  • noodp - Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
  • notranslate - Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
  • noimageindex - Không lập chỉ mục cho hình ảnh trên trang này.
  • unavailable_after - Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.

Lời khuyên: Bạn để nguyên không đụng gì đến nó cũng rất tốt và đỡ tốn thời gian trừ khi có một kế hoạch rất dài hạn hãy đào sâu rồi lựa chọn.{alertWarning}

QTV

Xin chào các bạn. Khi bạn ghé thăm đến đây thì những gì ở đây là những thứ bạn đang cần tìm kiếm. Bạn chỉ mất khoảng 2 phút để có thể hiểu và làm được. Nhưng mình mất 2 giờ đồng hồ để tạo ra chúng. Vậy nên nếu thấy bài viết hay hãy chia sẻ giúp mình nhé! google facebook

Đăng nhận xét Hãy là người "bóc tem"

Gửi kèm ảnh chụp màn hình để được hỗ trợ tốt nhất. Up ảnh lên trang Upload Image, sao chép link ảnh vào khung bình luận.

Báo link hỏng | Hỗ trợ kỹ thuật | Khắc phục quá giới hạn lượt tải
TruongBlogger là website chia sẻ miễn phí các thủ thuật phần mềm cũng như phần cứng trong lĩnh vực công nghệ. Các phần mềm được chia sẻ trên TruongBlogger nên dùng cho mục đích dùng thử. Nếu thấy phần mềm tốt, hãy mua bản quyền để ủng hộ tác giả.
"Thăm ngàn, kẹp ngần nhưng vẫn không đủ chai ni (trả nợ)" bạn hãy tắt AdsBlock và dành thời gian click QUẢNG CÁO để ủng hộ mình nhé!