d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','',''); Jest to część javascriptu, potrzebuję z tego
1. /aippliki/EPGEN33-0en.pdf - wyciągnąć to i dodać string przed 2. Wyciągnąć tytuł pliku "Teren górzysty..." 3. Mam kilkaset takich linków i potrzebowałbym to zautomatyzować.
urllib pozwolił mi ściągnąć źródło tej strony, ale beautifulsoup nie parsuje javascriptu. Generalnie poradziłem sobie z wyodrębnieniem tych linijek które by mnie interesowały. Wrzuciłem sobie to w tablicę.
Moja idea była taka, by wrzucić każdą linijkę w tablicę i splitować to po przecinku. Wówczas - zakładając że każda linijka miałaby te informacje na tych samych pozycjach można by na sztywno odczytywać konkretne wartości z tablic.
@kamil_zdun: https://html.python-requests.org/ do parsowania JS albo wyrazenie regularne do pobrania odpowiednich wartosci https://regex101.com/ polecam tutaj powklejac linijki, z ktorych chcesz sciagnac dane a pozniej baw sie regexem do wyluskania tego co chcesz.
@JanuszChrystus: Dziękuję Januszu! Generalnie jak będę miał już potworzone linki do pdfów i tytuły, to będę chciał wszystko pościągać na local, tworząc wcześniej drzewo katalogów takie jak w oryginale. Znasz moduł d.Tree do stron?
znów #python i troszkę #webscraping
d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','','');
Jest to część javascriptu, potrzebuję z tego
1. /aippliki/EPGEN33-0en.pdf - wyciągnąć to i dodać string przed
2. Wyciągnąć tytuł pliku "Teren górzysty..."
3. Mam kilkaset takich linków i potrzebowałbym to zautomatyzować.
urllib pozwolił mi ściągnąć źródło tej strony, ale beautifulsoup nie parsuje javascriptu. Generalnie poradziłem sobie z wyodrębnieniem tych linijek które by mnie interesowały.
Wrzuciłem sobie to w tablicę.
Moja idea była taka, by wrzucić każdą linijkę w tablicę i splitować to po przecinku. Wówczas - zakładając że każda linijka miałaby te informacje na tych samych pozycjach można by na sztywno odczytywać konkretne wartości z tablic.
linkTable = re.findall(r",'a(.*?)pdf",soup1)
print("a"+linkTable[0]+"pdf")
dziękuwa :)
Teraz tylko polecieć z pętlą i spoczko :)