Wpis z mikrobloga

Skopiuj link

14.07.2022, 00:11:16

#datascience

Hej Mirki, tak sobie dlubie proste ETL w #pandas #numpy #python i glowkuje jak tu skrocic czas ladowania trzech duzych (1GB kazdy 900k x 200) CSV. Jedyne co przychodzi mi jeszcze do glowy to dorzucenie multiprocesingu bo duzo sie dzieje, z %pruna widze ze w tej chwili CPU jest waskim gardlem. Probowalem w prymitywny sposob zaladowac to w multi rozrzucajac kazdy plik na osobny proces ale naturalnie zabraklo RAMu, wiem, ze musze zchunkowac pliki i rozdystrybuowac chunki do workerow, probowalem chunksize= ale cos mi to nie bardzo chce w multi biegac. Bede jeszcze jutro probowal z np.arraysplit.

moj csvread wyglada tak:

paths = os.path.join(VOLUME_CSV, "volume PN FY*.csv")
files = glob.glob(paths)

def csv_reader(file): 
 df = pd.read_csv(file, 
 low_memory=False,
 cache_dates=True,
 thousands=',',
 infer_datetime_format=True,
 parse_dates=["Funded date", "Maturity date"], 
 dtype=col_types,
 true_values=['Y'],
 false_values=['N'],
 na_values=['-'],
 index_col=False
 )
 return df
df = pd.concat(map(csv_reader, files), ignore_index=True).reset_index(drop=True)

Czy macie jakis boiler plate jak to ugrysc, dobre rady, slowo na pocieszenie? Jak to zoptymalizowac. Wrzucilem pytanie na stacka ale narazie cisza:

https://stackoverflow.com/questions/72944450/pandas-chunks-from-multiple-files-to-list-collection-to-process-them-with-mult

Jeszcze jedno, chce to zrobic bez Daska, bede chcial dorzucic tam jeszcze jakies operacje ale generalnie wiekszosc manipulacji mam z uzycie wektoryzacji wiec nie warto ich ruszac.

Z gory dziekuje za pomoc.

blazek

d.....z

konto usunięte 14.07.2022, 05:17:18

@hoszak: zobacz na rozwiązania w tym wątku: https://stackoverflow.com/questions/6475328/how-can-i-read-large-text-files-line-by-line-without-loading-it-into-memory

A.....c

konto usunięte 16.07.2022, 20:55:50

@hoszak: Spróbuj Polars, sporo szybsza biblioteka, wrapper Rust-a.
https://www.pola.rs/

Ewentualnie Pyarrow - https://arrow.apache.org/docs/python/generated/pyarrow.csv.read_csv.html

hoszak

16.07.2022, 21:03:53

@devopsiarz: dzieki, to nie to czego szukam

@Acrylic: Zostaje w Pythonie, kolejne niepowodzenia w napisaniu tego skryptu z multiprocessingiem pchaja mnie w kierunku Dask'a lub PyArrowa, dzieki

A.....c

konto usunięte 16.07.2022, 21:24:18

@hoszak: Z ciekawości, czemu nie chcesz używać Dask-a?

Polars jest naprawdę spoko, piszę się w tym jak Pandas, u nas w firmie właśnie migrujemy z Pandas na Polars gdzie się da.

Możesz też użyć Ray lub bardziej high level Modin. Generalnie nie wiem jaki przyrost wydajności cię interesuje, na pewno jakbyś miał pliki w formacie Parquet to byłoby lepiej.

hoszak

hoszak

16.07.2022, 22:43:48

@Acrylic: Ujme to tak, moja firma jest bardzo konserwatywna pod wzgledem technologii :). W tej chwili przenosze ETL z Power Query do Pandasa, dostalem zgode na Pandasa bo sa na rynku ludzie ktorzy w tym pisza, no i jeszcze jestdzial od ML, tak na wszelki wypadek jak bym chcial sie zawinac. Mialem nie implementowac dodatkowych bibliotek w obawie przed brakiem wsparcia. Tak naprawde najchetniej to co robie zrobilbym na SQLu ale

konto usunięte

hoszak

21.07.2022, 15:54:25

@Acrylic: siema, pobawilem sie troche Polarisem, chodzi piekielnie szybko, bardzo obiecujace. Ale czasem tracebacki wali takie, ze nie wiadomo o co chodzi, trzeba debugowac. Widac, ze jeszcze troche brakuje dojrzalosci. Nie wiem czy to przypadlosci pythonowego API czy w Ruscie daje te same tracebacki ale brak wskaznika jakiegokolwiek odnosnie kolumny, nr kolumny czy jakiegokolwiek wskazania o ktora chodzi konczy sie debugowaniem albo szukaniem igly w stogu siana. Mam 50 kolumn bool.

konto usunięte

pejczi

26.07.2022, 13:14:47 via iOS

@hoszak: A nie mozesz tego przemigrowac na Databricksy/innego Sparka?

hoszak

26.07.2022, 13:30:01

@pejczi: To jest troche taka rada jak, "a czemu tego nie napiszesz w C?" :). Ja nawet chetnie bym powalczyl z Databricks czy Sparkiem, ale to nie ja tutaj ustalam zasady, umowilismy sie, ze bedzie w Pandasie bo on oferuje stosunkowo niski prog wejscia i duze wsparcie. Troche poeksperymentowalem z Polarsem bo on jest blizniaczo podobny do Pandasa. Spark na pewno jest ciekawa alternatywa ale nie bedzie na to zgody, o

pejczi

26.07.2022, 13:30:48 via iOS

@hoszak: Predzej znajdziesz ludzi od ETLa w Sparku/Databricks niz pandasie ( ͡° ͜ʖ ͡°)

hoszak

26.07.2022, 13:45:39

@pejczi: mysle, ze firma w ktorej pracuje bardziej patrzy kategoriami: "predzej ktos z Excela/PowerQuery przysposobi sie do Pandasa niz my bedziemy chcieli zaplacic za eksperta w Sparku" :)

pejczi

pejczi

26.07.2022, 13:50:04 via iOS

@hoszak: na koniec dnia i tak wydadza pol banki na consulting bo wywali im sie projekt :)

hoszak

26.07.2022, 14:08:27

@pejczi: uczciwie powiem, ze dla mnie to jest porazka bo to wszystko po prostu powinno siedziec na SQLu i do tych potrzeb wydaje sie to byc najrozsadniejsze rozwiazanie. Z niejasnych dla mnie przyczyn nie chca tego zrobic. Na consulting poszlo, podejrzewam juz duzo wiecej.