Wpis z mikrobloga

Apache Spark 2.0.0 wydany! A w wydaniu ponad 2500 poprawek od ponad 300 osób.

Zmian bardzo dużo, m.in.:
1. Dodanie Structured Streaming
2. Pełna obsługa SQL2003
3. Kolejny etap projektu Tungsten, m.in. Whole-stage Code Generation
4. Przyspieszenie czytania z plików Parquet i ORC
5. Obsługa zapisu modeli Spark ML
6. Natywna obsługa plików CSV
7. Ulepszenie zarządzania pamięcią
8. I wiele innych - w ogłoszeniu jest napisane, że łącznie Spark jest szybszy o 2 do 10 razy w porównaniu do 1.6

Notka wydania: http://spark.apache.org/releases/spark-release-2-0-0.html
Link do pobrania: http://spark.apache.org/downloads.html

Pliki mogą się trochę propagować na poszczególne serwery, także póki co czasami można dostać 404

#spark #apachespark #bigdata