Duplicate Content là gì? Nguyên nhân Duplicate Content có hại cho SEO và 15 cách khắc phục vấn đề

Là dân làm content và SEO chuyên nghiệp, chắc hẳn bạn đã không ít lần nghe qua cụm từ “Duplicate Content”. Tuy nhiên, có thể bạn chưa biết, nhưng vấn đề này không chỉ những người trong ngành mới cần chú ý, mà nó cũng là 1 mối quan tâm đối với mọi ngành nghề, mọi doanh nghiệp.

Nhắc đến Duplicate Content, có khá nhiều nhận định cả chủ quan và khách quan về vấn đề này, ví dụ như: 

  • Duplicate là đạo văn, là copy, là ăn cắp ý tưởng của người khác
  • Nội dung bị Duplicate Content sẽ 100% gây hại đến website, có thể bị Google phạt.

Tuy nhiên, bạn cần phải hiểu rõ bản chất của Duplicate Content là gì để có những tư duy đúng đắn về thuật ngữ này. Bài viết dưới đây sẽ giúp bạn làm rõ mọi băn khoăn về vấn đề này!

Đầu tiên, Duplicate Content là gì?

Hiểu theo nghĩa đen thì Duplicate Content chính là những nội dung trên một hoặc nhiều website khác nhau nhưng lại tương tự hoặc hoàn toàn giống nhau. Đây là tình trạng không hiếm gặp khi càng ngày càng xuất hiện rất nhiều website cùng viết về 1 chủ đề, và người viết hầu như tham khảo những bài viết của đối thủ để sao chép, viết lại theo ý của mình. Dần dần, lượng thông tin bị bão hòa, mọi cách viết đều được hiểu theo cùng một ý nghĩa, và Google không hề khó khăn khi nhận ra điều đó.

Tuy nhiên, hiểu theo nghĩa rộng hơn thì Duplicate Content là nội dung mang lại ít hoặc không có giá trị đối với khách truy cập. Vì thế, các trang có ít hoặc không có nội dung hữu ích cũng được xem là Duplicate Content.

Tại sao Duplicate Content có hại cho SEO?

Duplicate Content có thể làm ảnh hưởng xấu đến SEO vì hai lý do dưới đây:

  • Khi có nhiều phiên bản nội dung thì rất khó để công cụ tìm kiếm xác định được nên index phiên bản nào. Cũng như hiển thị phiên bản nào trong trang kết quả. Điều này làm giảm hiệu suất của tất cả các phiên bản nội dung bởi chúng đang cạnh tranh lẫn nhau.
  • Các công cụ tìm kiếm sẽ gặp khó khăn khi hợp nhất số liệu liên kết. Ví dụ như mức độ liên quan, mức độ ảnh hưởng và mức độ tin cậy cho nội dung. Đặc biệt là khi các website khác liên kết với nhiều phiên bản nội dung đó.

Google có phạt Duplicate Content không?

Duplicate Content sẽ gây ảnh hưởng xấu đến hiệu suất SEO của website của bạn. Tuy nhiên, không phải 100% bạn sẽ bị Google phạt khi rơi vào tình trạng Duplicate Content. Vấn đề này sẽ phụ thuộc vào việc liệu bạn có cố tình sao chép từ trang web khác hay không, hay bạn đang sử dụng một vài kỹ thuật trong website của mình nhưng không cố tình “đánh lừa” Google thì không cần lo lắng về việc bị Google phạt.

Nếu bạn đã sao chép một lượng lớn nội dung website khác. Thì chắc chắn bạn đang đứng ở ranh giới mỏng manh. Bởi Google đã từng lên tiếng về vấn đề Duplicate Content như sau:

“Duplicate content trên một website không phải là cơ sở để áp dụng hình phạt. Google chỉ phạt khi website sử dụng Duplicate Content để đánh lừa và thao túng kết quả của công cụ tìm kiếm.

Nếu website của bạn đang gặp vấn đề về Duplicate content và bạn không tuân theo các khuyến cáo của Google. Thì chúng tôi sẽ lựa chọn phiên bản nội dung tốt nhất để hiển thị trong kết quả tìm kiếm”.

Cách Check Duplicate Content trên website

Duplicate Content là nội dung xuất hiện trên nhiều vị trí trực tuyến. Điều này có nghĩa là các website khác nhau. Nếu bạn đăng nội dung của mình nhiều nơi thì sẽ dẫn đến Duplicate Content.

Nếu bạn sao chép nội dung những người khác và đăng lên website của mình, hoặc họ đăng những nội dung của bạn lên website của họ thì đều bị xem là Duplicate Content.

Vậy làm sao để Check Duplicate Content xem nội dung của mình có bị mắc lỗi Duplicate Content hay không?

Sử dụng Google để Check Duplicate Content

Cách nhanh chóng để kiểm tra xem một trang có bị xem là chứa nội dung trùng lặp (Duplicate Content) hay không chính là sao chép khoảng 10 từ đầu tiên của câu và để chúng vào dấu ngoặc kép. Sau đó, search chúng trên Google. 

Nếu các website khác hiển thị tốt tương tự như website của bạn. Google sẽ đánh giá xem trang nào là trang nguồn gốc và hiển thị nó trước. Nếu website của bạn không được hiển thị đầu tiên nghĩa là đã gặp vấn đề Duplicate Content.

Các Tool miễn phí hỗ trợ Check Duplicate Content Online

Trước khi đăng bài viết, bạn nên kiểm tra nội dung của mình bằng các công cụ kiểm tra đạo văn. Dưới đây là các công cụ miễn phí mà bạn có thể dùng để Check Duplicate Content Online.

  1. Copyscape – Với công cụ Check Duplicate Content Online này, bạn chỉ mất khoảng vài giây là đã có thể kiểm tra nội dung có trùng lặp với những nội dung đã được đăng lên. Công cụ so sánh này sẽ làm nổi bật nội dung trùng lặp, cũng như ghi rõ trùng lặp bao nhiêu phần trăm.
  2. Plagspotter – Công cụ này có thể xác định được các trang có nội dung trùng lặp trên website. Đây là một công cụ tuyệt vời để xác định được website nào đã đánh cắp nội dung từ website của bạn. Nó cũng cho phép tự động theo dõi các URL của mình hàng tuần để xác định Duplicate Content.
  3. Duplichecker – Công cụ này kiểm tra nhanh chóng tính duy nhất của nội dung mà bạn dự định đăng lên website của mình. Những người dùng đã đăng ký công cụ này có thể thực hiện tối đa 50 lượt tìm kiếm/ngày.
  4. Siteliner – Công cụ này giúp ta có thể kiểm tra toàn bộ website của mình 1 lần/tháng để tìm lỗi Duplicate Content. Nó cũng có thể kiểm tra được các liên kết bị hỏng. Và xác định được những trang nổi bật nhất đối với các công cụ tìm kiếm.
  5. Smallseotools – Có nhiều công cụ SEO, bao gồm cả công cụ kiểm tra đạo văn giúp bạn xác định được các đoạn nội dung giống hệt nhau.

Nguyên nhân dẫn đến lỗi Duplicate Content và cách khắc phục

Có rất nhiều nguyên nhân dẫn đến lỗi Duplicate Content mặc dù bạn không hề cố tình đạo văn. Dưới đây là 15 lỗi thường gặp nhất và cách để bạn khắc phục chúng:

1. Faceted/Filtered Navigation

Faceted Navigation – Hay còn gọi là điều hướng nhiều chiều. Là nơi mà người dùng có thể lọc và sắp xếp các mục trên trang. Các website thương mại điện tử thường sử dụng nó rất nhiều.

Loại điều hướng này gắn các tham số vào cuối URL. Ví dụ:

điều hướng navigation, nguyên nhân  dẫn đến duplicate contentĐiều hướng có tham số cuối URL

Bởi vì thường có nhiều sự kết hợp của các bộ lọc. Điều hướng nhiều chiều dẫn đến Duplicate Content hoặc gần trùng lặp.

Cùng xem xét 2 ví dụ dưới đây để hiểu rõ hơn về nguyên nhân này nhé:

  • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked
  • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked

Các URL này là duy nhất, nhưng nội dung lại gần như giống hệt nhau.

Ngoài ra, thứ tự của các tham số thường không quan trọng. Ví dụ: bạn có thể truy cập cùng một trang khi sử dụng 1 trong 2 URL sau:

  • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL
  • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

Cách sửa chữa:

Faceted navigation là một vấn đề rất phức tạp. Nếu bạn nghi ngờ đây chính là nguyên nhân dẫn đến Duplicate Content. Hãy quyết định xem bạn muốn Google index những trang nào. Sau đó, hãy tăng số lượng trang hữu ích được index và bỏ đi những trang không cần thiết.

2. Tracking Parameters

Các URL được tham số hóa cũng được sử dụng để theo dõi. Ví dụ, ta có thể sử dụng thông số UMT để theo dõi lượt truy cập trong phần chiến dịch bản tin của Google Analytics:

Ví dụ: example.com/page?utm_source=newsletter

Cách sửa chữa:

Chuẩn hóa các URL được tham số hóa của bạn để có được các phiên bản thân thiện với SEO mà không cần có các thông số theo dõi.

3. Session IDs

Session IDs lưu trữ thông tin về khách truy cập vào website. Chúng thường nối một chuỗi dài vào URL như sau:

Ví dụ: example.com?sessionId=jow8082345hnfn9234

Cách khắc phục:

Chuẩn hóa các URL để có được các phiên bản thân thiện với SEO.

4. HTTPS với HTTP và non-www với www

Bạn có thể truy cập vào website bằng một trong 4 biến thể dưới đây:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

Phiên bản sử dụng HTTPS chính là hai URL đầu tiên. Dù là dùng phiên bản có www hay không có www thì bạn vẫn có thể truy cập website được.

Tuy nhiên, nếu bạn không cấu hình chính xác máy chủ. Thì website của bạn sẽ có thể được truy cập bằng những biến thể này. Điều này thực sự không tốt và có thể dẫn đến vấn đề Duplicate Content.

Cách sửa chữa:

Sử dụng chuyển hướng để đảm bảo website của bạn chỉ có thể được truy cập bằng một phiên bản duy nhất.

5. URL phân biệt chữ hoa chữ thường

URL phân biệt chữ hoa chữ thường nghĩa là 3 URL dưới đây đều khác nhau:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

Cách sửa chữa:

Nhất quán với các liên kết nội bộ (nghĩa là không liên kết nội bộ với nhiều phiên bản URL). Nếu cách này không giải quyết được vấn đề Duplicate Content là gì nữa, thì có thể thử chuẩn hóa hoặc chuyển hướng.

6. Dấu gạch chéo theo sau so với dấu gạch chéo không theo sau

Google không xem xét đến vấn đề các URL có hay không có dấu gạch chéo theo sau. Điều đó có nghĩa là Google xem 2 URL dưới đây như một:

  • example.com/page/
  • example.com/page

Nếu nội dung của bạn có thể được truy cập bằng cả hai URL thì sẽ dẫn đến lỗi Duplicate Content. Để Check Duplicate Content xem đây có phải sự cố hay không, hãy thử dùng cả URL có và không có dấu gạch chéo theo sau.

Ví dụ: Nếu bạn cố gắng tải bài đăng của mình bằng URL không có dấu gạch chéo, nó sẽ chuyển hướng đến URL có dấu gạch chéo.

Cách sửa chữa:

Chuyển hướng phiên bản không mong muốn. Ví dụ: Không có dấu gạch chéo theo sau, sang phiên bản mong muốn (ví dụ: có dấu gạch chéo theo sau). Bạn cũng nên đảm bảo luôn luôn nhất quán các liên kết nội bộ. Hãy chọn một phiên bản duy nhất và sử dụng xuyên suốt cho tất cả các URL.

7. URL thân thiện với bản in

URL thân thiện với bản in có nội dung giống như bản gốc. Và nó đơn giản chỉ là một URL khác mà thôi.

  • example.com/page
  • example.com/print/page

Cách sửa chữa:

Chuẩn hóa các phiên bản thân thiện thành phiên bản bản gốc.

8. URL thân thiện với thiết bị di động

Tương tự như các URL thân thiện với bản in thì các URL thân thiện với thiết bị di động cũng là trùng lặp.

Ví dụ:

  • example.com/page
  • m.example.com/page

Cách sửa chữa:

Chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng rel=“alternate” để nhắc nhở Google rằng URL thân thiện với thiết bị di động là phiên bản thay thế cho phiên bản nội dung trên máy tính để bàn.

9. URL AMP

Các trang thiết bị di động được tăng tốc (AMP) cũng là các bản trùng lặp.

Ví dụ:

  • example.com/page
  • example.com/amp/page

Cách khắc phục:

Chuẩn hóa phiên bản AMP thành phiên bản không sử dụng AMP. Sử dụng rel=”amphtml” để thông báo với Google rằng các URL AMP là phiên bản thay thế cho các nội dung không chứa AMP.

Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ canonical tự tham chiếu (self-referencing canonical tag).

10. Tag và Category Pages

Hầu hết các CMS (Hệ quản trị nội dung) đều tạo các trang có các thẻ chuyên dụng khi bạn sử dụng thẻ.

Điều này không phải lúc nào cũng dẫn đến Duplicate Content nhưng đôi khi nó cũng gây ra vấn đề này. Ví dụ như khi có một trang trên website mà lại được gắn đến hai thẻ, khi đó sẽ dẫn đến 2 đường link đều trỏ về 1 bài viết giống nhau. Đây chính là lỗi khiến trang web của bạn dễ dàng bị đánh giá là “Duplicate content”.

Cách sửa chữa:

Có 2 cách giải quyết như sau:

  1. Không sử dụng thẻ. Bởi chúng có rất ít hoặc thậm chí là không có giá trị gì.
  2. Không index các trang có nhiều thẻ. Điều này sẽ không giải quyết được vấn đề ngân sách thu nhập dữ liệu bởi Google sẽ vẫn dành thời gian thu thập những trang này.

Lưu ý rằng các trang danh mục có thể dẫn đến vấn đề tương tự như các trang có nhiều thẻ. Ví dụ như:

  • https://www.xs-stock.co.uk/adidas/
  • https://www.xs-stock.co.uk/brands/Chelsea-FC.html

Cả 2 trang này gần như là giống hệt nhau vì không có sản phẩm nào được liệt kê trong cả 2 danh mục. Do đó, tất cả những gì chúng ta nhìn thấy chỉ là bản sao mẫu đã được soạn sẵn.

Cách sửa chữa:

Sử dụng số lượng vừa phải các danh mục trên website hoặc thậm chí là không index các trang danh mục của bạn.

11. URL hình ảnh đính kèm

Nhiều CMS tạo ra các trang dành riêng cho tệp đính kèm hình ảnh. Những trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao chép mẫu.

Bởi vì bản sao này giống nhau xuyên suốt tất cả các trang được tạo tự động nên nó dẫn đến Duplicate Content.

Cách sửa chữa:

Tắt các trang dành riêng cho hình ảnh trong CMS. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin như Yoast.

12. Nhận xét được phân trang

WordPress và các CMS cho phép nhận xét được phân trang. Điều này cũng dẫn đến Duplicate Content bởi vì nó tạo ra nhiều phiên bản của cùng một URL.

Ví dụ:

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Cách sửa:

Tắt phân trang nhận xét hoặc không lập chỉ mục những trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.

13. Localization

Nếu bạn phân bổ một nội dung tương tự cho nhiều người ở nhiều quốc gia nhưng sử dụng chung một ngôn ngữ (ví dụ: tiếng Anh) thì cũng sẽ dẫn đến vấn đề Duplicate Content.

Ví dụ: Bạn có thể thiết kế từng phiên bản website khác nhau cho người dùng ở Mỹ, Anh và Úc. Mỗi phiên bản dành cho mỗi quốc gia này sẽ gần như trùng lặp nhau và chỉ khác nhau ở một vài điểm nhỏ.

Chẳng hạn như sử dụng từ “đô la” trong nội dung dành cho người Mỹ và “bảng Anh” trong nội dung dành cho người Anh.

Tuy nhiên, theo John Mueller thì nội dung bản dịch không phải là Duplicate Content.

Cách sửa:

Sử dụng thẻ Hreflang để thông báo cho các công cụ tìm kiếm biết về mối quan hệ giữa các biến thể.

14. Trang kết quả tìm kiếm

Rất nhiều website có hộp tìm kiếm. Việc sử dụng những hộp này thường tạo ra một URL tìm kiếm được tham số hóa.

Ví dụ: example.com?q=search-term

Cách khắc phục:

Sử dụng thẻ Meta Robot để xóa các trang tìm kiếm khỏi danh sách chỉ mục của Google hoặc chặn quyền truy cập vào các trang chứa kết quả tìm kiếm trong tệp robots.txt. Hạn chế liên kết nội bộ đến các trang chứa kết quả tìm kiếm trên website của bạn.

15. Môi trường Staging

Môi trường Staging là một phiên bản trùng hoặc gần trùng lặp của website được sử dụng với mục đích thử nghiệm.

Ví dụ: Hãy tưởng tượng rằng bạn muốn cài đặt một Plugin mới hoặc thay đổi một vài code trên website của mình. Tất nhiên là bạn không muốn hiển thị chúng ra website của mình bởi mỗi ngày, có hàng ngàn khách truy cập vào xem nó.

Do đó, hãy kiểm tra những thay đổi trong môi trường staging trước. Tuy nhiên, môi trường Staging lại ảnh hưởng đến SEO khi Google vẫn index chúng và dẫn đến vấn đề Duplicate Content.

Cách khắc phục:

Để bảo vệ môi trường Staging. Bạn nên sử dụng xác thực HTTP, danh sách trắng các địa chỉ IP hoặc quyền truy cập VPN. Nếu nó vẫn được index thì hãy sử dụng lệnh ngăn index tự động để xóa nó.

Lời kết

Bài viết trên đây đã giúp bạn làm sáng tỏ phần nào về bản chất của Duplicate content và các lỗi thường gặp cũng như cách khắc phục chúng. Do đó, bạn nên sử dụng các tool check đạo văn, cũng như rà soát kỹ lưỡng các vấn đề được nêu trên để website đạt được hiệu quả SEO tốt nhất..

Chúc các bạn thành công!

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *