Jak posprzątać duplicate content – Darmowe narzędzie do scrapowania SERPów

22.08.2013

Inspiracją do stworzenia poniższego skryptu była walka z duplicate content, który wkradł się do jednego ze sklepów naszego Klienta. Popularny sklep IAI-shop nie zadbał o to, aby po uruchomieniu oficjalnej wersji sklepu zablokować dostęp dla robotów i przekierować roboczy adres theavenue.iai-shop.com do oficjalnego adresu sklepu theavenue.pl.

Z tego powodu Googlebot zaindeksował obie wersje i wygląda to mniej więcej tak:

theavenue

Wersja robocza ma nawet o 30 zaindeksowanych podstron więcej… Zatem na dzień dobry mamy pod górkę.

Nie muszę chyba nikomu tłumaczyć, dlaczego zduplikowana treść nie jest nam na rękę, co ciekawe problem nie dotyczy tylko naszego Klienta, ale wielu innych (zapewne w wielu przypadkach nieświadomych) Klientów tego sklepu internetowego – 1 440 000 wyników mówi samo za siebie:

IAI-serpy

Czas posprzątać ten bałagan. Zrobiliśmy przekierowanie z panelu administracyjnego, ale co dalej z wynikami wyszukiwania? Aby wymusić szybką zmianę adresów w indeksie postanowiliśmy spingować wszystkie zaindeksowane adresy zaczynające się od theavenue.iai-shop.com. W tym celu powstała potrzeba stworzenia skryptu, który zaciągałby listę wszystkich adresów URL wyświetlanych w SERPach na zapytanie site:theavenue.iai-shop.com, żeby później ‚zaprosić’ tam roboty indeksujące. Coś na zasadzie: ‚Hej robocie, jesteśmy już tylko pod jednym adresem, wyświetlaj nas prawidłowo’. Mogliśmy również pobrać mapę strony i podmienić nieaktualne adresy na nowe, ale za stworzeniem skryptu przemawiały dodatkowe korzyści – chociażby możliwość pobierania listy katalogów po footprintach i fakt, że nigdzie w sieci nie znaleźliśmy sprawnego narzędzia (poza płatnym FMine) o podobnym działaniu.

W efekcie mamy całkiem zgrabne narzędzie do scrapowania SERPów na dowolne zapytanie (skrypt ma ograniczenie do 100 wyników, ale można go zwiększyć przy użyciu proxy). Plik wrzucamy na serwer, następnie do adresu URL dopisujemy parametr ?q=[zapytanie] i voilà! Mamy gotową listę do importu. Enjoy!

lista URLi

Zastosowań skryptu jest mnóstwo, na powyższym zrzucie ekranu mamy gotową listę katalogów webmini. Autorem skryptu jest Jędrzej Mikus.

POBIERZ SKRYPT

PS. Podobny efekt (podpatrzony na https://www.seerinteractive.com/) dla 100 wyników możemy uzyskać poprzez stworzenie nowego arkusza excel w google docs, a następnie wpisania nastepującej formuły =ImportXML(„https://www.google.com/search?q=test&num=10”, „//cite”)

4
Dodaj komentarz

avatar
3 Comment threads
1 Thread replies
0 Followers
 
Most reacted comment
Hottest comment thread
3 Comment authors
Jędrzej MikusFilipPaweł Rabinek Recent comment authors
  Subskrybuj  
najnowszy najstarszy oceniany
Powiadom o
Jędrzej Mikus
Użytkownik

W przypadku Google Docs uzyskamy 10wyników, aby otrzymać sto wyników:
&num=100

W przypadku //cite uzyskamy linki bez http:// i prawdopodobnie brak pełnego adresu w przypadku zmiennych
/index.php?id=1 będzie /index.php

Paweł Rabinek
Gość

Ale takich skryptów i programów jest cała masa. Choćby najprostszy ScrapeBox.

Jędrzej Mikus
Użytkownik

Są szybsze, są wolniejsze. Większość nie działa bo opiera się na szablonie strony, który często jest zmieniany lub szybko banowany.
Z płatnych – jak najbardziej, ale na pewno nie Scrapebox. Google ogranicza wyniki do 1000 wyników więc nie pobierzemy całego site’u jak pełną wersją naszego skryptu.

Pełny skrypt został wykonany tak aby crawlować całą stronę poprzez cURL, zebrane adresy miały automatycznie zmieniane domeny z theavenue.pl na theavenue.iai-shop.com, następnie wykonywano automatycznie zapytanie do Google sprawdzające czy strona jest zindeksowana. Jeśli jest, wtedy zostawała automatycznie pingowana.

Filip
Gość

Niestety dobrą treść kradli na potęgę. Teraz może troszkę się zmieniło bo skopiowany artykuł już nie jest tak dobry jak oryginał.

CONTENT SOLUTIONS

Sp. z o.o. sp. k.

WROCŁAW

kontakt@contentsolutions.pl

+48 730 302 301

ADRES:

ul. Pieszycka 5a

50-537 Wrocław

Porozmawiajmy

o rozwiązaniach dopasowanych do Twoich potrzeb


Informacja ogólna

Ta strona korzysta z plików cookie, abyśmy mogli zapewnić Ci najlepszą możliwą obsługę. Informacje o plikach cookies są przechowywane w przeglądarce użytkownika i służą do wykonywania funkcji, takich jak komunikacja marketingowa i pomaganie naszemu zespołowi w zrozumieniu, które sekcje witryny są dla niego najbardziej interesujące i użyteczne. Nigdy nie otrzymujemy i nie przechowujemy danych osobowych takich jak imię, nazwisko, dokładny adres osób fizycznych, nie mamy również dostępu do numerów IP –  wszystkie informacje są anonimowe.

Możesz dostosować wszystkie ustawienia plików cookies dla używanych przez nas narzędzi, korzystając z poniższych ustawień.

Hotjar

Hotjar to narzędzie służące do analityki ruchu w witrynie. Dzięki niemu wiemy, które informacje najbardziej interesują odwiedzających naszą stronę i możemy lepiej przystosować ją do ich potrzeb. W tym celu NIE są pobierane żadne prywatne informacje – użytkownik poruszający się po stronie jest zupełnie anonimowy.

Google Analytics

Google Analytics to kolejne narzędzie służące do analityki ruchu w witrynie. Wykorzystywany jest na portalach internetowych, witrynach firmowych, a nawet blogach.  Google Analytics NIE gromadzi danych osobowych. Nam pozwala dowiedzieć się przede wszystkim, co na naszej stronie interesuje naszych klientów, jak do nas trafiają i jak dużo osób nas odwiedza.

Zmień ustawienia cookies