Wpis z mikrobloga

W wolnej chwili ściągnąłem sobie w #python wszystkie oferty osobówek z otomoto, żeby mieć nowy dataset do zabawy. Aktualnie przeglądam sobie dane w poszukiwaniu ciekawostek i tak wygląda przebieg Audi A4 B8, a wiek samochodu.

Czyli co, przez pierwsze 4 lata przedstawiciel handlowy na leasingu katuje po 40k rocznie, a potem jakiś dziadziuś na spokojnie po 10k robi? xD

Jakie macie inne wytłumaczenie poza fałszowaniem przebiegu na ogromną skalę? Może czegoś nie widzę?

Zainteresowanym chętnie podeślę kod do otomoto.

#motoryzacja #ciekawostki #programowanie
LuvDesk - W wolnej chwili ściągnąłem sobie w #python wszystkie oferty osobówek z otom...

źródło: comment_BwTchPLbnUGMukEfjFYDJ1c8aRzTpGuU.jpg

Pobierz
  • 29
210k ofert, najpierw poszedł skrypt do zgarnięcia wszystkich URL ofert, a potem drugi do scrapowania HTMLa każdej.

Całość zajęła ok 20h. Pewnie da się szybciej, ale po prostu zostawiłem kompa na noc, a jak wróciłem następnego dnia z pracy to było gotowe. Nie zauważyłem blokad IP, a odpytywało ok. 3 oferty na sekundę.
@LuvDesk: Bo tak jest, diesle robią po 30-40k km rocznie przez pierwsze lata ale to nie jest wielki procent, żadnym problemem nie jest kupno diesla 10 letniego z 200k km prawdziwego przebiegu.
@LuvDesk ci co duzo uzywaja auta to sprzedaja szybko, zanim zacznie sie psuc, stad duzo mlodych z relatywnie wysokim przebiegiem ( a oszustwa swoja droga, ale nie az w takiej skali jak sie wydaje)
@filozof900: 1514

Pozostałe A4:
B8 (2007-2015) 1514
B6 (2000-2004) 1251
B7 (2004-2007) 1185

A4 B8 po latach:
2007.0 6
2008.0 341
2009.0 252
2010.0 199
2011.0 166
2012.0 174
2013.0 155
2014.0 168
2015.0 76
2016.0 1

W całym datasecie:
Astra 6360
Passat 5598
Golf 5340
Seria 3 5197

@d1l4x: Gotowe.

Dzisiaj wieczorem i jutro postaram się wyciągnąć więcej rzeczy, jak macie pomysły to piszcie.
@LuvDesk: filtrowałeś po marce czy scrapowałeś całość? interesuje mnie ostatnimi czasy wzrost zainteresowania Toyotą Sienną, też w kontekście tego, że szykuję się do kupna i może wyłapałbym jakieś negatywne trendy (one są stricte na rynek USA więc u nas zwykle po dzwonie), a w sumie nie pomyślałem żeby się przejechać pytongiem po serwisach ogłoszeniowych...
xpatha


@LuvDesk: możliwe. Ja jak kiedyś robiłem takie coś to pobierałem w nieco inny sposób. Nie wchodziłem na każde ogłoszenie osobno, tylko pobierałem dane z podstrony, na której były ogłoszenia (po 32 na stronę). Miało to tę wadę, że markę i model wyciągałem z nazwy.

I jakbyś miał chwilkę to podeślij mi kod albo dane :)