Wpis z mikrobloga

Mirki,

znów #python i troszkę #webscraping

d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','','');
Jest to część javascriptu, potrzebuję z tego

1. /aippliki/EPGEN33-0en.pdf - wyciągnąć to i dodać string przed
2. Wyciągnąć tytuł pliku "Teren górzysty..."
3. Mam kilkaset takich linków i potrzebowałbym to zautomatyzować.

urllib pozwolił mi ściągnąć źródło tej strony, ale beautifulsoup nie parsuje javascriptu. Generalnie poradziłem sobie z wyodrębnieniem tych linijek które by mnie interesowały.
Wrzuciłem sobie to w tablicę.

Moja idea była taka, by wrzucić każdą linijkę w tablicę i splitować to po przecinku. Wówczas - zakładając że każda linijka miałaby te informacje na tych samych pozycjach można by na sztywno odczytywać konkretne wartości z tablic.
  • 6
@JanuszChrystus: Dziękuję Januszu! Generalnie jak będę miał już potworzone linki do pdfów i tytuły, to będę chciał wszystko pościągać na local, tworząc wcześniej drzewo katalogów takie jak w oryginale. Znasz moduł d.Tree do stron?