Hướng dẫn tạo file robots.txt cho WordPress
04/12/2019 13:46 | Luợt xem : 22
Muốn website chắc chắn xuất hiện trên Search Engine Result Pages thì người dùng cần để Bots di chuyển đến những trang quan trọng trên website. File robots.txt có khả năng quản lý truy cập của những Bots này tới trang cần thiết. Trong bài viết sau đây, BKNS sẽ giúp bạn hiểu rõ hơn về file robots.txt và cách tạo file robots.txt cho WordPress. Hãy khám phá ngay nhé!
Mục lục
1. File robots.txt là gì? Tại sao nên sử dụng file robots.txt?
Khi một website được tạo mới, Search Engine sẽ gửi Bots (con bọ máy tính) đến để quét qua và tạo ra bản đồ chứa các trang trong website đó. Điều đó giúp chúng biết được trang web nào cần thể hiện kết quả khi có người tìm từ khóa liên quan.
WordPress cho phép Plugins giải quyết vấn đề nảy sinh khi website chứa nhiều thành phần không cần thiết. Việc tạo file robots.txt cho wordpress giúp Search Engine Bots chỉ truy cập vào những trang quan trọng trên website. Ngay cả khi không cài file robots.txt thì trình tìm kiếm sẽ vẫn thực hiện việc quét website của bạn nhưng hiệu quả sẽ không cao. Bởi vì, Bots sẽ index toàn bộ nội dung và quét đến cả những nơi bạn không muốn người khác truy cập vào.
Nếu không có file robots.txt thì sẽ có rất nhiều loại Bots đến để quét toàn bộ website. Điều đó ảnh hưởng không tốt đến hiệu năng hoạt động của website đó, tốc độ load trang sẽ bị chậm hơn nhiều. Do đó, tạo file robots.txt WordPress chuẩn thực sự cần thiết nếu muốn website của bạn hoạt động hiệu quả.
2. File robots.txt nằm ở đâu?
File robots.txt sẽ được tạo ra ngay dưới thư mục gốc của máy chủ khi bạn tạo website WordPress. Truy cập file robots.txt cơ bản ở đường dẫn:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
=> Phần sau dấu * là quy tắc được áp dụng cho mọi loại Bots. File sẽ thông báo cho Bots biết là chúng không được phép vào trong thư mục /wp-admin/ và /wp-includes/. Không được truy cập vào 2 file này là vì chúng chứa rất nhiều thông tin riêng tư, nhạy cảm.
File robots.txt là một file ảo do WordPress tự tạo nên và mặc định khi cài đặt. Dù file vẫn đang hoạt động bình thường thì người dùng cũng không thể chỉnh sửa được. Thông thường, file robots.txt sẽ được đặt ở thư mục gốc (public_html và www hoặc tên website). Nếu muốn tạo thêm file robots.txt thì cần tạo một file mới để thay thế file cũ trong thư mục gốc đó.
3. Quy tắc nên thêm vào file robots.txt WordPress
Sau khi tạo file robots.txt wordpress, bạn cần mở một trình soạn thảo văn bản và lưu một file trống có tên robot.txt. Tiếp theo, bạn cần thêm một số quy tắc vào tập tin đó, lưu lại và upload lên thư mục gốc của Domain. Search Engine sẽ tiến hành kiểm tra tập tin robot.txt mỗi khi chúng thu thập thông tin từ blog hay website. Với mỗi Domain phụ và các giao thức khác nhau nên tạo các file robots.txt riêng biệt. Các quy tắc cơ bản nên thêm vào file robots.txt là:
- User-agent: xác định công cụ tìm kiếm mà quy tắc được áp dụng
- Allow: cho phép công cụ tìm kiếm thu thập thông tin, lập chỉ mục
- Disallow: không cho phép công cụ tìm kiếm thu thập thông tin, lập chỉ mục
Dấu * có thể được sử dụng để đại diện cho tất cả công cụ tìm kiếm. Bạn có thể thêm vào sau file robots.txt dòng sau để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ website hay blog:
User-agent:* Disallow: /
Công cụ tìm kiếm có thể truy cập vào toàn bộ website hay blog nếu website hay blog đó sử dụng chỉ thị Disallow không có dấu (/).
Ví dụ:
User-agent:* Disallow:
Để ngăn chặn việc thu thập dữ liệu với các đường dẫn hay thư mục cụ thể, bạn chỉ cần thêm thư mục hay đường dẫn vào phía sau Disallow. Bởi vì. Robots.txt sử dụng đường dẫn tương đối chứ không phải đường dẫn tuyệt đối. Dấu (/) thay thế cho thư mục gốc hoặc Domain nên áp dụng quy tắc này cho toàn bộ website hay blog của bạn. Sau đây là ví dụ quy định công cụ tìm kiếm không được phép truy cập thông tin của thư mục images:
User-agent:* Disallow:/images/
4. Mẫu file robots.txt chuẩn cho wordpress
Sau đây, BKNS sẽ giới thiệu với bạn mẫu file robots.txt chuẩn cho WordPress và được rất nhiều Blogger WordPress ưu ái sử dụng. Bạn hoàn toàn có thể dùng nó cho website hay blog WordPress của mình nhưng bạn nên chú ý tùy biến nó sao cho phù hợp với mỗi hoàn cảnh khác nhau. Mẫu file robots.txt chuẩn dành cho WordPress như sau:
User-agent”: * Disallow: /wp-admin/ Disallow: /readme.html Disallow: /license.txt Disallow: /?s=* Allow: /wp-admin/admin-ajax.php Allow: /wp-admin/images/* Sitemap: http://bkns.com/sitemap_index.xml
Lưu ý: Google sẽ có nhận định không chính xác về giao diện website hay blog của bạn nếu bạn thực hiện việc chặn Google và các công cụ tìm kiếm thu thập dữ liệu trong các thư mục /wp-content/plugins và /wp-content/themes.
Công cụ tìm kiếm thường index những chủ đề trong Forum. Thông thường người ta thường Disallow để Google không phải index hàng trăm chủ đề mà người sử dụng tạo ra hàng ngày.
5. Tạo file robots.txt cho wordpress bằng cách nào?
5.1 Sử dụng Yoast SEO để tạo file robots.txt cho wordpress
Yoast SEO là Plugin tốt nhất dành cho SEO – Search Engine Optimization. Plugin này giúp người dùng xuất bản được nhiều nội dung hữu ích để “giữ chân” người đọc được lâu hơn và thân thiện với công cụ tìm kiếm. Plugin này luôn sẵn sàng thay đổi cùng với sự thay đổi liên tục của SEO. Cũng chính vì tính tiện dụng mà Yoast SEO nhận được sự ưu ái của đông đảo người dùng.
Sử dụng Yoast SEO để tạo file robots.txt wordpress khá đơn giản. Các bước cụ thể như sau:
- Cài đặt thành công Yoast SEO
- Chuyển tới tab SEO
- Dashboard => Tools
- File Editor
- Click vào link => đến trang mới để chỉnh sửa file .htaccess
- Click vào Create robots.txt file => tạo file robots.txt
- Yoast SEO sẽ đặt giá trị mặc định và ghi đè lên file robots.txt ảo
- Chọn Save changes to robots.txt
5.2 Dùng Plugin All in One SEO Pack để tạo file robots.txt cho wordpress
Trong WordPress SEO, All in one SEO Pack là Plugin rất nổi tiếng. Plugin này bao gồm tổng hợp tính năng của Yoast SEO nhưng lại nhẹ hơn. Bởi vậy, tạo file robots.txt với Plugin này sẽ rất đơn giản và nhanh chóng. Các bước cài đặt file robots.txt cho WordPress bằng Plugin All in One Pack như sau:
- Dashboard => Setup Manager
- Tìm tùy chọn robots.txt
- Click Activate
- Click vào Robots.txt mới xuất hiện dưới menu file robots.txt
- Thêm rules mới, lưu thay đổi hoặc cũng có thể xóa nó đi
- Phần nội dung sẽ mờ đi và bạn chưa thể thay đổi trực tiếp file robots.txt này
- All in One SEO có nhiều tính năng có tác dụng chặn Bots độc hại, bạn chỉ cần vào All in One SEO là sẽ tìm thấy:
5.3 Tạo, Upload file robots.txt WordPress thông qua FTP
Nếu bạn không muốn cài thêm Plugin, bạn có thể thực hiện tạo và upload file robots.txt thủ công qua FTP. Các bước thực hiện như sau:
- Mở Text Editor (NotePad hay TextEdit)
- Lưu tên bất kỳ và chọn loại file là txt
- Qua FTP để kết nối đến website
- Kết nối thành công => Click vào thư mục public_html
- Upload file robots.txt từ máy tính tới máy chủ hoặc nhấn chuột phải vào file sau đó chọn Upload
6. Kiểm tra file robots.txt và gửi lên Google Console
Sau khi tạo và upload thành công file robots.txt, bạn nên kiểm tra xem nó có bị lỗi hay không bằng Google Search Console. Search Console là tools được cung cấp bởi Google. Bộ tools này có tác dụng kiểm tra nội dung website xem nó hiển thị như thế nào với trình tìm kiếm. Một trong số tools này được dùng để kiểm tra file robots.txt. Các bước kiểm tra file robots.txt và gửi lên Google Console như sau:
- Đăng nhập Search Console
- Tìm và chọn “Sơ đồ trang web“
- Tìm “Sơ đồ trang web mới” và chèn URL của sitemap vào
- Bấm “Gửi“
- Sau đó, bạn đợi Google kiểm tra và thông báo kết quả (file lỗi hoặc file chuẩn). Nếu sitemap của bạn chuẩn và được GG phê duyệt thì sẽ được ghi “thành công” như trong ảnh trên
Như vậy, khi một website được tạo mới, Search Engine sẽ gửi Bots (con bọ máy tính) đến để quét qua và tạo ra bản đồ chứa các trang trong website đó. File robots.txt thiết lập bộ chỉ dẫn cho Search Engine Bots chỉ truy cập vào những trang quan trọng trên website.
Trên đây, BKNS đã chia sẻ cho bạn cách tạo file robots.txt cho wordpress. Nếu vẫn còn điều gì băn khoăn về file robots.txt cũng như cách tạo, bạn đừng ngại để lại bình luận bên dưới để BKNS kịp thời giải đáp. Truy cập website bkns.vn thường xuyên để cập nhật thêm nhiều bài viết hữu ích liên quan đến thiết kế, quảng cáo, lưu trữ website và giải pháp mạng nhé!
>> Tìm hiểu thêm: