Wpis z mikrobloga

Podczas ładowania strony przez skryp, mam cały czas kod odpowiedzi 404, albo 409. Ładuje przez proxy, ale nie wiem czemu niechce działać.

W przeglądarce odpalam przez proxy działa, a przez skrpyt nie...

Ustawiłem http_proxy na serwer docelowy i dalej nic..

Ma ktoś jakieś pomysły jak to obejść?

#python #programowanie #scrapy #webcrawler
  • 24
@siteman: ogólnie to dostałem bana na stronie i wpisując w consoli głupie scrapy shell "link do podstrony" zwraca mi błąd 409 za to wpisując link do strony głownej zwraca 400
Teraz kwestia tego czy to wina skryptu czy proxy. Spróbuj z innym proxy. Jak nie działa to sprawdź skrypt. Znajdź przykład w sieci który będzie działał z jakimś proxy i jakąś stroną. Potem sprawdź czy działa z Twoją stroną. Powinno działać. Potem zmień proxy na Twoje. Jak nie działa to wina proxy, jak działa to zrobione.
@siteman: Ok teraz mam tak, że jak wchodzę przez shella na główna serwisu w którym mam bana, to mam 200, ale jak już na jakąś podstronę to 404....

Szukać dalej innego severa proxy? ( ͡° ʖ̯ ͡°)
Sprawdź inny proxy. Ale bardziej wygląda to na że trzeba ustawić nagłówki user agent itp. Może jest jakieś zabezpieczenie przed scrappowaniem.
@siteman: Jakie mogę jeszcze nagłówki dorzucić? bo mam serwer proxy który działa w przeglądarce, a przez skrypt nie( pokazuje mi sie gówno stronka ) z kodem 200
A ustawiasz go poprawnie co do literki? Np. Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.11 (KHTML, like Gecko) Chrome/9.0.570.1 Safari/534.11