Wpis z mikrobloga

Skopiuj link

14.08.2019, 10:20:55

Mirki,

znów #python i troszkę #webscraping

d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','','');

Jest to część javascriptu, potrzebuję z tego

1. /aippliki/EPGEN33-0en.pdf - wyciągnąć to i dodać string przed
2. Wyciągnąć tytuł pliku "Teren górzysty..."
3. Mam kilkaset takich linków i potrzebowałbym to zautomatyzować.

urllib pozwolił mi ściągnąć źródło tej strony, ale beautifulsoup nie parsuje javascriptu. Generalnie poradziłem sobie z wyodrębnieniem tych linijek które by mnie interesowały.
Wrzuciłem sobie to w tablicę.

Moja idea była taka, by wrzucić każdą linijkę w tablicę i splitować to po przecinku. Wówczas - zakładając że każda linijka miałaby te informacje na tych samych pozycjach można by na sztywno odczytywać konkretne wartości z tablic.

JanuszChrystus

14.08.2019, 11:18:27

@kamil_zdun: https://html.python-requests.org/ do parsowania JS albo wyrazenie regularne do pobrania odpowiednich wartosci https://regex101.com/ polecam tutaj powklejac linijki, z ktorych chcesz sciagnac dane a pozniej baw sie regexem do wyluskania tego co chcesz.

kamil_zdun

14.08.2019, 11:52:01

@JanuszChrystus: Dziękuję Januszu! Generalnie jak będę miał już potworzone linki do pdfów i tytuły, to będę chciał wszystko pościągać na local, tworząc wcześniej drzewo katalogów takie jak w oryginale. Znasz moduł d.Tree do stron?

goodsamaritanin

14.08.2019, 12:03:56

Jak wyżej, najprościej użyć modułu re do obsługi Regex. W oficjalnej dokumentacji masz bardzo prosto opisane jak używać. Polecam też: https://www.regular-expressions.info/reference.html

kamil_zdun

14.08.2019, 14:57:43

@goodsamaritanin:

linkTable = re.findall(r",'a(.*?)pdf",soup1)
print("a"+linkTable[0]+"pdf")

dziękuwa :)
Teraz tylko polecieć z pętlą i spoczko :)

keczub_

14.08.2019, 19:49:42

@kamil_zdun: A co ciekawego robisz, jesli mozna zapytac ? Tworzysz bazę przeszkód lotniczych ?

kamil_zdun

18.08.2019, 11:48:43

@keczub_: nie, chcę zapisywać pliki aip na dysku do dostępu online

Aktywne Wpisy

Aktywne Znaleziska

Europejska misja na Marsa bez udziału Rosji. Podjęto kluczową decyzję

Gigantyczne osiedle na terenach FSO. Miejsca parkingowe rodzą kontrowersje

Wyborcza atakuje Kongres Mężczyzn

Niewolnictwo XXI wieku! Tesla wyłączyła autopilota za karę

Stworzył system fotoradarów. Wraca i będzie stawiał gdzie tylko się da.

Popularne tagi