Inspiracją do stworzenia poniższego skryptu była walka z duplicate content, który wkradł się do jednego ze sklepów naszego Klienta. Popularny sklep IAI-shop nie zadbał o to, aby po uruchomieniu oficjalnej wersji sklepu zablokować dostęp dla robotów i przekierować roboczy adres theavenue.iai-shop.com do oficjalnego adresu sklepu theavenue.pl.
Z tego powodu Googlebot zaindeksował obie wersje i wygląda to mniej więcej tak:
Wersja robocza ma nawet o 30 zaindeksowanych podstron więcej… Zatem na dzień dobry mamy pod górkę.
Nie muszę chyba nikomu tłumaczyć, dlaczego zduplikowana treść nie jest nam na rękę, co ciekawe problem nie dotyczy tylko naszego Klienta, ale wielu innych (zapewne w wielu przypadkach nieświadomych) Klientów tego sklepu internetowego – 1 440 000 wyników mówi samo za siebie:
Czas posprzątać ten bałagan. Zrobiliśmy przekierowanie z panelu administracyjnego, ale co dalej z wynikami wyszukiwania? Aby wymusić szybką zmianę adresów w indeksie postanowiliśmy spingować wszystkie zaindeksowane adresy zaczynające się od theavenue.iai-shop.com. W tym celu powstała potrzeba stworzenia skryptu, który zaciągałby listę wszystkich adresów URL wyświetlanych w SERPach na zapytanie site:theavenue.iai-shop.com, żeby później ‚zaprosić’ tam roboty indeksujące. Coś na zasadzie: ‚Hej robocie, jesteśmy już tylko pod jednym adresem, wyświetlaj nas prawidłowo’. Mogliśmy również pobrać mapę strony i podmienić nieaktualne adresy na nowe, ale za stworzeniem skryptu przemawiały dodatkowe korzyści – chociażby możliwość pobierania listy katalogów po footprintach i fakt, że nigdzie w sieci nie znaleźliśmy sprawnego narzędzia (poza płatnym FMine) o podobnym działaniu.
W efekcie mamy całkiem zgrabne narzędzie do scrapowania SERPów na dowolne zapytanie (skrypt ma ograniczenie do 100 wyników, ale można go zwiększyć przy użyciu proxy). Plik wrzucamy na serwer, następnie do adresu URL dopisujemy parametr ?q=[zapytanie] i voilà! Mamy gotową listę do importu. Enjoy!
Zastosowań skryptu jest mnóstwo, na powyższym zrzucie ekranu mamy gotową listę katalogów webmini. Autorem skryptu jest Jędrzej Mikus.
PS. Podobny efekt (podpatrzony na https://www.seerinteractive.com/) dla 100 wyników możemy uzyskać poprzez stworzenie nowego arkusza excel w google docs, a następnie wpisania nastepującej formuły =ImportXML(„https://www.google.com/search?q=test&num=10”, „//cite”)
W przypadku Google Docs uzyskamy 10wyników, aby otrzymać sto wyników:
&num=100
W przypadku //cite uzyskamy linki bez http:// i prawdopodobnie brak pełnego adresu w przypadku zmiennych
/index.php?id=1 będzie /index.php
Ale takich skryptów i programów jest cała masa. Choćby najprostszy ScrapeBox.
Są szybsze, są wolniejsze. Większość nie działa bo opiera się na szablonie strony, który często jest zmieniany lub szybko banowany.
Z płatnych – jak najbardziej, ale na pewno nie Scrapebox. Google ogranicza wyniki do 1000 wyników więc nie pobierzemy całego site’u jak pełną wersją naszego skryptu.
Pełny skrypt został wykonany tak aby crawlować całą stronę poprzez cURL, zebrane adresy miały automatycznie zmieniane domeny z theavenue.pl na theavenue.iai-shop.com, następnie wykonywano automatycznie zapytanie do Google sprawdzające czy strona jest zindeksowana. Jeśli jest, wtedy zostawała automatycznie pingowana.
Niestety dobrą treść kradli na potęgę. Teraz może troszkę się zmieniło bo skopiowany artykuł już nie jest tak dobry jak oryginał.