Cześć,

Czy ktoś z was miał okazję pracować z technologią hadoop w kontekście zadań związanych z tematyką Machine Learning ? jeśli tak to jak wyglądał proces tworzenia modeli, obróbki danych od początku rozpoczęcia ciągu technicznego ?

Jak rozumiem Hadoop to jest jakby to powiedzieć ogromny magazyn na przechowywanie dosłownie różnych danych z różnych systemów dane te mogą być ustrukturyzowane, nieustrukturyzowane itp. wchodzą oni to jak dobrze rozumiem przestrzeni HDFS na surowo, i
Cześć, dostałem mały projekt w pracy w pysparku. Mała transformacja danych i wrzucenie wyników do nowej tabeli. W punktach opiszę co trzeba zrobić:
1. 4 uniony
2. Pobrać tabelę z mappingiem
3. Zrobić joina (te 4 uniony i mapping)
5. Przerobić 2 kolumny na podstawie wartości, i dodać dwie puste kolumny
4. Wykonać prostą agregacje danych -> groupby po 5 kolumnach.
6. Wrzucić wyniki do nowej tabeli

Tabela z unionami ma łącznie
Apache Ambari


@PiotrokeJ: To już jest kwestia samego zarządzania (wybacz ale nie mam pojęcia jak to inaczej ubrać w słowa) translacją samego SQL na MapReduce na Hadoopie.

W tym przypadku Hadoop trochę inaczej ogarnia takie zapytanie niż spark. Dlatego jak odpalasz coś bezpośrednio na hadoopie to możesz dostać wyniki (błędne lub dobre), a w sparku już nie.

W bardzo prostych słowach i bardzo ogólnie (pomijając wszelkie niuanse) wytłumaczono to tutaj:
https://searchdatamanagement.techtarget.com/definition/SQL-on-Hadoop
  • Odpowiedz
czy ktoś może polecić serwisy, za które faktycznie warto zapłacić, z zaawansowanymi kursami #programowanie w #python lub budową aplikacji na #aws / #azure / #gcp które mają własne labki/sandboxa do odpalania zadań podczas nauki? cloud native apps jako priorytet, materiały o #bigdata #hadoop lub #machinelearning jako dodatkowy bonus ( ͡° ͜ʖ ͡°)
jak dotąd testowałem linuxacademy.com (aka. acloudguru), szukam czegoś nowego

#naukaprogramowania #cloud
@mmichal: plusem udemy jest to, że później masz bezterminowo dostęp, a tu tylko jak płacisz, trzeba się streszczać z robienie kursów, wydając te 2k to trzeba by trzaskać ze 4 kursy miesięcznie żeby się "opłacało" ( ͡° ͜ʖ ͡°)
  • Odpowiedz
#bigdata #hadoop #linux
Witam może ktoś z was był szukam jakiegoś szkolenia z Cloudery aby się odbyło do końca tego roku. Czy ktoś może był g w tym roku na takim szkoleniu i poleca lub wie gdzie takie szkolenia się odbywają. Compedium nie ma terminów. Ew. jakie inne szkolenie warto zrobić aby wejść w rozwiązania hadoop jako administrator.
  • Odpowiedz
Hej mirki, zainteresowałem się bazami danych i ich analizą. Jestem totalnie zielony, nie umiem też into #programowanie ani #informatyka

Chciałbym poznać zagadnienie analizy danych pod kątem youtuba, czy innych social mediów. Chciałbym wykorzystać tę wiedzę przy prowadzeniu kanału na YT, bądź fanpage na facebooku. Nie wiem sam, jakie są możliwości zbierania danych, ani co można z nich wyczytać. Ciekawi mnie to po prostu.

Szukałem poradników na youtubie, ale są dla mnie za
  • Odpowiedz
#programowanie #nosql #hadoop

Dlaczego warto znać nierelacyjne bazy danych?

Cześć:)
Nagrałem właśnie materiał o nierelacyjnych bazach danych. W nagraniu poznasz odpowiedzi na m.in:
Co to takiego jest baza nosql?
Czy warto się jej uczyć?
Jakie są rodzaje nierelacyjnych baz danych?

W 15-minutowym materiale znajduje się oczywiście dużo więcej wiedzy:) Zainteresowanych zapraszam do oglądania tutaj: https://www.youtube.com/watch?v=78EOiGTTtQI&list=PL8g9gILZp1OI9h68Pv7xxsgvdb1Vm3XkE&index=22
nieinformatyk - #programowanie #nosql #hadoop

Dlaczego warto znać nierelacyjne baz...
  • Odpowiedz
Elo Mirki,
pracuje ktoś jako big data engineer? Łatwo się przekwalifikować z Data Scientista? Mam doświadczenie głównie w developmencie w Sparku, ale raczej Python, ok. 2 lata. W jakich językach piszecie? Dominuje Scala czy raczej Java? Jak wyglądają codzienne zadania?
#hadoop #bigdata #datascience #programowanie
Jak wyglądają codzienne zadania?

Zrozum biznes, napisz kod tak aby dało się go utrzymać (zrozumieć, zmienić, rozwinąć). Czyli tak jak kazdy inny software engineer tylko z innymi technologiami.

W jakich językach piszecie?

Scala

Dominuje Scala czy raczej Java?

Ciężko powiedzieć, widuje mniej więcej po równo. Javowców się łatwiej zatrudnia, Scalowe API jest przyjaźniejsze dla developera.
  • Odpowiedz
@haka65: Nope, jedyne co wiem to że kod data scientistów z którymi pracowałem nie nadawał sie do niczego. Tzn wymagał przepisania od 0 gdy miał iść na produkcję. Ale to raczej nic nie znaczy w tym przypadku.

Generalnie uwazam ze nie ma się czego bać, dużo jest developerów samouków więc i DS jako DE da rade.
  • Odpowiedz
/ Big Data DevOps Administrator (middle, senior)

Kto: GetInData
Widełki: 10 000 - 16 000 PLN netto + szereg benefitów
Lokalizacja: Warszawa, Puławska 39
✍️Umowa: B2B
Kogo szukają?

Kogoś kto lubi wdrażać, zarządzać i rozbudowywać platformy Big Data składające z technologii open-source m.in. Hadoop (HDP, CDH), Kafka, Nifi, Flink, Spark, Hive. Najlepiej w zautomatyzowany sposób np. przy użyciu Ansible oraz zgodnie najwyższymi standardami związanymi z bezpieczeństwem, bezawaryjnością oraz wysoką wydajnością.

Mile widziane
via Wykop Mobilny (Android)
  • 2
@Jobviously: ciekawa oferta, ale 16k dla seniora w takiej technologii to moim zdaniem za mało. HDP, Kafka i Nifi wymagają naprawdę ogromnej wiedzy i doświadczenia.
  • Odpowiedz
#naukaprogramowania #java #spark #hadoop #deeplearning #ksiazki
1: Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White ; [tłumaczenie Tomasz Walczak].
2: Zwinna analiza danych : Apache Hadoop dla każdego / Russell Jurney ; [tłumaczenie: Przemysław Szeremiota].
3: Spark : zaawansowana analiza danych / Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills ; [tłumaczenie: Andrzej Watrak].
4: Poznajemy Sparka / Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia ; [przekład
Witajcie Mirki i Mirabelki

Pracujemy w branży IT i zajmujemy się #bigdata, analizując / przetwarzając duże bazy danych i wyciągając z nich wnioski, co nie jest takie łatwe jak się może wydawać :)
Na co dzień w każdej firmie istnieje jakaś baza danych która po prostu "puchnie" zwiększając swoje rozmiary przekraczające czasem kompetencje GoogleSheeta, czy mySQLa. Wtedy wkraczamy my!

Jako, że jesteśmy tutaj nowi i jest taki zwyczaj to chcielibyśmy zrobić
#raspberrypi #arm #linux #hadoop #bigdata
Nareszcie, po długim okresie zbierania podzespołów, udało mi się uruchomić mój pierwszy cluster raspberry pi. W założeniu sprzęt ma służyć głównie do nauki i testowania różnych aplikacji powiązanych z Big Data. Dodatkowo w przyszłości planuję pobawić się Dockerem. Po kilku dniach walki z konfiguracją, stwierdzam, że był to bardzo dobry pomysł, nauczyłem się wielu nowych rzeczy i zapewne wielu się jeszcze nauczę. Polecam wszystkim, których zawsze interesowało
figiel - #raspberrypi #arm #linux #hadoop #bigdata
Nareszcie, po długim okresie zbie...

źródło: comment_KkWaqOtJSjfbpz4A615Fm4TExax2kfyG.jpg

Pobierz
#programowanie
#hadoop

mirki mam na vm postawionego linuxa ze sparkiem i hadoopem problem jest taki że nie mogę wysyłać plików przez hdfs web ui z poziomu windowsa, mogę wejść do web ui, dodac katalog ale pliku nie chce wysłać ;/ natomiast na linuxie mogę wrzucać pliki przez web ui. Co może być nie tak??? jak wrzucę plik na linuxie to jest git i mogę korzystać z niego przez hdfs://
piterRRR - #programowanie 
#hadoop

mirki mam na vm postawionego linuxa ze sparkie...

źródło: comment_lUCXMX38FieYo6TCix0czaNMPQTSTgp4.jpg

Pobierz
Za pomocą MapReduce'a chce przekształcić plik csv (by dało to co pandas.unstack(), zmiana formatu tabeli z "szerokiego" na "wąską i długą"), napisałem prosty mapper i reducer, działa, tylko że wiersze w wyniku są oddzielone pustymi liniami.
Jak można to tak zredukować, żeby otrzymać plik a'la csv, bez pustych linii?

#hadoop #python #programowanie #datascience