Najczęstsze powody duplikacji treści – jak sobie z nimi radzić?

Duplikacja treści to coraz większy problem dla właścicieli witryn internetowych i nie chodzi tu wyłącznie o serwisy e-commerce, które są najbardziej narażone na to zjawisko (ze względu na ich wielkość). Problem dotyka również nieduże serwisy, a nawet strony firmowe. Artykuł ten jest pierwszym, z cyklu artykułów, w których poruszymy temat duplicate content. W kolejnym tekście opiszemy problem, jaki może pojawić się w przypadku kopiowania naszej treści przez inne serwisy. Dziś natomiast zajmiemy się problemem duplikacji treści występującym w obrębie jednej witryny.

Główne problemy wynikające z duplikacji treści

• W momencie natrafienia na zduplikowaną treść w obrębie jednej witryny, robot Google sam decyduje, która ze stron zawiera oryginalną treść. Zdarza się, iż czasem robot wybiera błędnie, tym samym w wynikach wyszukiwania pojawia się niewłaściwy URL.

• W przypadku wystąpienia dużej ilości powtórzonej treści, roboty wyszukiwarek mogą być mniej skuteczne w poszukiwaniu unikalnej treści. Skutkiem takiego zjawiska będą rzadsze wizyty robotów wyszukiwarek na naszej stronie. O konsekwencjach takiego działania nie trzeba chyba pisać… 🙂

• W przypadku, gdy linki zewnętrzne kierują do różnych podstron z tą samą treścią, musimy liczyć się ze stratą „link juice”. Najczęstszym przykładem tego zjawiska jest występowanie strony głównej pod kilkoma adresami URL.

• Kolejnym problemem w przypadku serwisów z dużą ilością zduplikowanej treści może być ilość wykorzystywanego transferu przez roboty wyszukiwarek. Każdego dnia wiele robotów odwiedza twój serwis, a pobierając niepotrzebnie powielone treści, mogą one spowolnić działanie twojej strony i zdecydowanie zwiększyć zużycie transferu.

Na poniższych grafikach znajdują się dwa przykładowe wykresy z GWT, przedstawiające liczbę kilobajtów pobraną przez Googlebota w ciągu dnia. Jeśli weźmiemy pod uwagę roboty innych wyszukiwarek, szybko można wywnioskować, że ograniczenie w serwisie niepotrzebnej treści pozwoli nam zaoszczędzić sporo transferu i pieniędzy.

Najczęstsze powody występowania duplicate content

Z łatwością można wyróżnić wiele przyczyn występowania powielonej treści w obrębie jednego serwisu – przeważnie są to przyczyny natury technicznej. Dzieje się tak, ponieważ developerzy bardzo często nie kładą dużego nacisku na aspekty optymalizacji serwisu.

(1) Ten sam produkt dostępny pod kilkoma adresami URL

Jest to jeden z najczęściej występujących przykładów duplicate content w serwisach e-commerce. Wynika on z faktu, iż poruszając się po sklepie możemy dostać się do strony produktu z wielu kategorii. Innymi słowy, istnieje wiele różnych ścieżek, które umożliwią nam dotarcie do konkretnego adresu URL.

Załóżmy, iż chcemy kupić niebieską bluzę męską.

Przykładami adresów, poprzez które możemy dostać się do upragnionej strony mogą być:
http://www.domena.pl/bluzy/produkt-45
http://www.domena.pl/bluzy/meskie/produkt-45
http://www.domena.pl/bluzy/meskie/niebieskie/produkt-45
http://www.domena.pl/bluzy/niebieskie/produkt-45
http://www.domena.pl/bluzy/niebieskie/meskie/produkt-45

Oczywiście jest to tylko przykład i w wielu przypadkach jeden produkt może posiadać dużo więcej adresów URL.

Rozwiązanie: w takim przypadku sugerujemy – w miarę możliwości – przebudowę struktury adresów URL w taki sposób, aby wszystkie produkty znajdowały się w jednym katalogu, np. domena.pl/produkty/. Tym samym, niezależnie od ścieżki jaką obierzemy, zawsze na końcu dostaniemy adres w formie http://www.domena.pl/produkty/produkt-45. Rozwiązanie to niestety rzadko wdrażane jest w istniejących już serwisach.

Kolejnym sposobem na uniknięcie duplikacji treści stron produktowych jest wprowadzenie stron kanonicznych, czyli preferowanych wersji pewnego zestawu stron o podobnej lub tej samej treści. Aby to wykonać w nagłówkach stron, które są duplikacją, należy umieścić poniższy kod:

< link rel=”canonical” href=”http://www.domena.pl/wlasciwy-adres” / >

Informujemy tym samym robota Google, iż adres http://www.domena.pl/wlasciwy-adres jest oryginalną stroną produktu.

(2) Adres URL z WWWi bez WWW

Jest to kolejny, bardzo częsty przykład występowania powtórzonej treści. Należy pamiętać, że Google traktuje adresy http://www.domena.pl oraz http://domena.pl jako dwie zupełnie oddzielne strony.

Rozwiązanie: W takim przypadku należy zdecydować się na jeden adres np. http://www.domena.pl oraz utworzyć przekierowanie 301 z http://www.domena.pl. Warto zwrócić tu uwagę, iż przekierowanie to należy wykonać w formie 1:1, czyli poszczególne strony w jednym serwisie przekierować na odpowiadające im strony w drugim. Poniżej znajdziecie przykłady przekierowań w pliku .htaccess.

Przekierowanie z WWW na bez WWW

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^twojadomena.pl [NC]
RewriteRule ^(.*)$ http://twojadomena.pl%{REQUEST_URI} [R=301,L]

Przekierowanie bez WWW na wersję z WWW

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^www.twojadomena.pl [NC]
RewriteRule ^(.*)$ http://www.twojadomena.pl%{REQUEST_URI} [R=301,L]

(3) Paginacja

Nie pamiętamy już chyba serwisu, który nie miałby problemu z paginacją. Wszystko rozchodzi się tu o to, która z podstron (1,2,3 a może 10) jest najważniejsza i która z nich powinna pojawiać się najwyżej w wynikach wyszukiwania.

Dodatkowo, w większości przypadków wszystkie te strony posiadają te same meta dane: tytuł oraz opis.

Rozwiązanie: W tym przypadku nie musimy decydować się na jedno konkretne rozwiązanie. Mamy wybór pomiędzy zastosowaniem rel=”canonical” lub meta tagów rel=”next” i rel=”prev”. Ze względu, iż strony kanoniczne opisane były we wcześniejszym przykładzie, tym razem posłużymy się tagami rel=”next” i rel=”prev”, które również umieszczamy w sekcji head strony.

Wdrożenie tego rozwiązania nie należy do bardzo skomplikowanych. Wystarczy postępować według schematu:

•    Na pierwszej stronie paginacji umieszczamy wyłącznie tag rel=”next”.
•    Na ostatniej stronie paginacji powinien znajdować się wyłącznie tag rel=”prev”.
•    Na pozostałych stronach dodajemy oba tagi „next” i „prev”, które powinny odpowiednio wskazywać na stronę następną i poprzednią.

(4) Strony do druku

Z tym problemem spotykamy się równie często, co z wymienionymi wcześniej przykładami. Zdarza się, iż CMS udostępnia użytkownikom możliwość wydrukowania treści.

Najczęściej klikając w link Drukuj przekierowani zostajemy do nowej podstrony z tą samą treścią, a jednak o innym adresie URL np.:

http://www.domena.pl/artykul1
http://www.domena.pl/artykul1-drukuj

Rozwiązanie: W tym przypadku sugerujemy wprowadzenie rel=”canonical”, jest to jedno z miejsc, w których przekierowanie 301 się nie sprawdza. Wyobraźcie sobie, gdyby ktoś chciał wydrukować zawartość strony i po kliknięciu Drukuj, przekierowany byłby na poprzednią stronę. W przypadku, gdy opcja drukowania wydaje się nieistotna dla serwisu, można ją po prostu usunąć.

(5) Linki afiliacyjne / parametry śledzące w adresach URL

Zapewne większość z Was miała do czynienia z afiliacją i zdaje sobie sprawę, że śledzenie odbywa się w tym przypadku dzięki modyfikacji adresów URL, a dokładniej mówiąc – na dodaniu parametru do adresu np. www.domena.pl/?partnerid-7653 gdzie element ?partnerid-7653 przechowywany jest przez cały czas poruszania się użytkownika po stronie. Może to oczywiście doprowadzić do wystąpienia duplikacji treści.

Rozwiązanie: Jednym z rozwiązań jest umieszczenie parametru określającego id partnera po znaku # zamiast ?. Jak wiemy, wszystko co znajduje się po znaku # nie jest indeksowane przez robota Google.

Kolejnym, troszkę bardziej skomplikowanym rozwiązaniem problemu może być utworzenie przekierowania 301 (w momencie kliknięcia w link odsyłający do naszej strony) na stronę bez parametru określającego id partnera. Parametr ten natomiast może być przechowywany w plikach cookies.

W poszukiwaniu duplikacji

Po pierwsze – Google

Najprostszym sposobem na wykrycie duplikacji treści w naszym serwisie jest wyszukanie w Google kilku losowych zdań. Wykorzystując treść z naszego serwisu w połączeniu z operatorem site: możemy sprawdzić czy tekst został powielony na innych podstronach. Posłużmy się przykładem z naszej strony firmowej.

Najlepiej będzie, gdy czynność tę powtórzymy z kilkoma podstronami. Więcej na temat zaawansowanych zapytań w Google znajdziecie tutaj.

Po drugie – Narzędzia Google dla Webmasterów

Więcej szczegółów na temat tego narzędzia i sposobów poszukiwania duplikacji treści znajdziecie w naszych poprzednich artykułach: Narzędzia Google dla Webmasterów – dlaczego warto ich używać? oraz Google Webmaster Tools, jako źródło informacji o technicznej kondycji serwisu.

Po trzecie – Xenu

To niewielki program służący do znajdowania niedziałających linków na naszej stronie. Nie jest to jednak jego jedyna funkcja, przesyłając raport do Excela możemy wyfiltrować sobie wszystkie strony ze zduplikowanymi tytułami bądź opisami. Soft do pobrania tutaj.

Po czwarte – Google Analytics

W poszukiwaniu duplikacji musimy udać się do kategorii Treść-> Zawartość witryny -> Wszystkie strony

Następnie, wybrać wymiar dodatkowy: Tytuł strony. Dalej pozostaje nam tylko wyeksportowanie danych do Excela i wyfiltrowanie duplikatów.

Ponadto, w kategorii Odbiorcy-> Technologia-> Sieć, wybierając wymiar dodatkowy: Nazwa hosta, możemy sprawdzić czy nie mamy problemu z duplikacją całej domeny.

Jak pewnie wszyscy z Was zauważyli, Google już od jakiegoś czasu kładzie duży nacisk na jakość treści. Raczy nas nieustannymi „atakami zwierzątek”, zmuszając do poprawy jakości naszych stron. Dlatego też z pewnością i rok 2013 będzie tym, w którym dobra treść zyska na znaczeniu. Przy tym wszystkim nie możemy zapomnieć oczywiście o problemie duplicate content. Mamy nadzieję, że po przeczytaniu tego artykułu nie będziecie mieli kłopotów ze zidentyfikowaniem miejsca wystąpienia tego problemu i będziecie potrafili sami go rozwiązać.

—
Mateusz Rzetecki, SEO Specialist w Bluerank

Spodobał Ci się artykuł? Udostępnij go:

Najczęstsze powody duplikacji treści – jak sobie z nimi radzić?

Zobacz także:

Social = wyszukiwarka. Jak Gen Z zmieniło sposób szukania informacji i co to oznacza dla SEO w social mediach?

E-E-A-T or Be Eaten: SEO na nowych zasadach w świecie AI