Wpis z mikrobloga

najpopularniejszy


@rurek49: zależy od przyjętego podziału.
Według tego najpopularniejsza jest regresja: https://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html (ale nic dziwnego jak cały Machine Learning z tego korzysta, to taki "ogólny" algorytm)

najprostszy


Też zależy. Są różne wersje i implementacje. Jeśli ma to być do celów prezentacji to ja bym wziął kNN lub k-means. Jest dużo materiałów, ładne wykresy powstają, da się zrozumieć. Jak wejdziesz w jakiegoś Bayesa, to się zakopiesz w matematyce.

A może PageRank przejdzie?
@biwalencik: z tego co się już dowiedziałem to kNN to algorytm do klasyfikacji danych. Dlaczego miałby nie działać przy wielkich zbiorach danych?
Nie atakuje Cię czy coś, tylko się zastanawiam :P
@rurek49 No wiec wszystko jasne. Big data sa przechowywane w bardzo charakterystyczny sposob. Mamy niejako dwie warstwy (w uproszczeniu):
1. HDFS (system plikow hadoop)
2. MapReduce - warstwa wyszukujaca i agregujaca informacje z nodow HDFS.

Sadzilem, ze to o ten algorytm do znajdowania danych/ informacji w rozproszonym systemie plikow Ci chodzi. Tobie zas chodzilo o roznorodne algorytmy obrobki danych. Niekoniecnie tych big.
@biwalencik: tzn facet z którym mam zajęcia powiedział to co i Ty mi pisałeś o kNN, lecz uznał że też służy do obróbki danych, więc możemy do celów prezentacji uznać że kNN mieści się w temacie. Mimo wszystko, tak jak piszesz. MapReduce to typowo algorytm pod Big Data :)