Wpis z mikrobloga

Dostałem zlecenie na napisanie prostego crawlera na pewną stronkę. Problem w tym, że strona ta posiada zabezpieczenie, że po ~40 dowolnych wejść na stronę wywala captchę. Czy jest jakiś sposób na obejście tego? Nie chciałem poświęcać nadto czasu na coś, co prawdopodobnie się nie uda, ale blokada prawdopodobnie jest na IP i odświeża się dopiero po 24 godzinach. Aktualizować dane muszę regularnie, więc czekanie nie wchodzi w grę, vpn z masą adresów byłby ponad budżet klienta.
Jak taki Google indeksuje strony mające takie zabezpieczenia? Jest jakiś sposób na ominięcie tego?

#programowanie #webdev #php
  • 17
Problem w tym, że strona ta posiada zabezpieczenie, że po ~40 dowolnych wejść na stronę wywala captchę.


@Jurix: a w praktyce ile razy trzeba by wpisywać captchę, ile stron orientacyjnie crawlujesz - bo inaczej jeśli 200 stron musisz przeskanować codziennie, a inaczej jeśli 200000
@Marlboras: @Jurix: plus samo to, ze nie masz jsa evalowanego moze być problemem. Sprawdź tez czy to czysta captcha czy jakaś owijka + captcha np jak robi datadome. Wyedy 2captcha moze sobie nie poradzić.
Moze pomóc spojrzenie na to jak ustawiaja agenta w np puppeter stealth itp.
Czasami po prostu za dużo roboty.