Wpis z mikrobloga

**Buduję otwartą i zdecentralizowaną* bazę danych na temat Tesli za pomocą Dolt'a i ich DoltHuba**, szukam osób chcących pomóc :)

zalążki mojego repozytorium: https://www.dolthub.com/repositories/noisy/tesla

Generalnie rzecz biorąc, 3 tygodnie temu @imlmpe w swoim newsletterze #unknownews wspomniał o:

9) DOLT - git dla baz danych. Ciekawy i ambitny pomysł.

https://github.com/dolthub/dolt

INFO: obsługa narzędzia bardzo przypomina typowego gita. Wykonujesz zmiany na bazie, które w każdej chwili możesz commitować lub rollbackować. Można robić gałęzie, tagi itp.



Z racji, że kocham gita... od razu mi się ten koncept spodobał. Wydaje mi się, że tak jak git na swój sposób zrewolucjonizował rozwój oprogramowania, tak moim zdaniem dolt ma potencjał by wynieść Data Collection na nowy poziom. Mamy XXI wiek i wchodzimy w erę AI i ML słysząc jak bardzo wiele osób twierdzi, że "Data is the new oil". Stwierdziłem, że fajnie będzie się pobawić tym narzędziem i zobaczyć jak się ono sprawdza w kooperacji.

Jednak by ludziom się chciało zbierać informacje na jakiś temat... musi być to temat interesujący i tak szybko stwierdziłem, że ciekawym pomysłem może być zbieranie informacji na temat Tesli, Elona Muska a pewnie później także na temat SpaceX.

Jakich danych, zapytacie? Wszystko co można włożyć do SQLowej tabeli.

- timeline poszczególnych produktów: np. kiedy do danego modelu została wprowadzona dana funkcjonalność, etc
- informacje na temat superchargerów i innych ładowarek
- informacje na temat tego ile Tesla wyprodukowała i sprzedała swoich samochodów (a także jak sobie radzi jej konkurencja)
- lista wywiadów Elona (pomyślałem, że dobrze przy okazji było by zrobić ich archiwum za pomocą sieci #ipfs). Może w przyszłości ludzie nawet zrobią ich transkrypcje....(?)
- informacje na temat ceny akcji Tesli i wyników finansowych spółki #gielda
- statystyki na temat pożarów i wypadków Tesli (tak co by można było się opierać na twardych faktach i liczbach)
- lista tweetów Elona, z co ważniejszymi adnotacjami
- lista obietnic Elona

itp, itd.

Generalnie wszystkie te informacje są w internecie. Część z nich ma nawet dedykowane strony. Chcę spróbować zacząć te dane umieszczać w jednym miejscu. Jeżeli dobrze pójdzie to z biegem czasu ludzie sami zamiast tworzyć własne dane, może sami zaczną kontrybuować i tworzyć pull requesty do Doltowego repozytorium. Szansa, że to przerodzi się w jakiś większy projekt... jest dość mała, ale nie zerowa.

Sam biorę się za to, bo widzę w tym swoją rolę w ten sposób, by na początku pobawić się w zbieranie różnych danych powiedzmy przez miesiąc... niektóre zbieranie danych zautomatyzować... generalnie by pokazać jak to można robić... a później przyjąć raczej pozycję Linusa Torvalda na rozwojem kernela - czyli generalnie głównie zajmować się decydowaniem tego, jakie pull requesty by wchodziły do repo, a jakie nie :)

Na razie zacząłem skromnie od dwóch 3 tabel:

+-------------------------------+
| Table
+-------------------------------+
| deliveries__global_by_quarter
| information_source
| stock_price
+-------------------------------+
stock_price - dlatego, że dodawanie kolejnych wierszy do tej tabeli mogłem już sobie zautomatyzować.
deliveries__global_by_quarter - dlatego, że to dla niektórych dość istotne dane. Na razie dane z roczników 2010-2016. Do jutra powinna być skończona.
information_source - dodałem przy okazji jako tabelę pomocniczą, do której będzie można wrzucać informacje, skąd konkretne dane zostały zaczerpnięte.

więcej info wkrótce... :)

#tesla #spacex #elonmusk #programowanie #bazydanych #dolt
  • 10
@PiersiowkaPelnaZiol: jeżeli interesują Cię jakieś konkretne dane na temat Tesli, to mógłbyś pomóc je zbierać.

Generalnie do takiej bazy bardzo łatwo da się samemu wrzucić coś z pliku .csv, a do takiego pliku bardzo łatwo wyeksportować dane z Excela/Google Docs itp.

Osoby z podłożem it mogą mieć łatwiej z automatyzacją zbierania niektórych danych. Jak np. napisałem sobie skrypt, który sam będzie pobierał inforamcje o cenie akcji Tesli i sam to wrzucał.
@ghost717: W django zrobiłem sobie modele do konkretnych tabel w bazie. Więc skrypty pythonowe, które mogą korzystać z djangowego ORMa:

https://github.com/noisy/dolt-testa

Ale generalnie skrypt można napisać w dowolnym języku, który np. albo stworzy plik csv, albo który sam wrzuci do bazy doltowej, która działa i ma interfejs jak mysql.

Tak wrzucone dane powinno się potem wrzucić na brancha doltowego... i zrobić pull requesta do głównego repo. I gitara gra
Ale generalnie skrypt można napisać w dowolnym języku, który np. albo stworzy plik csv, albo który sam wrzuci do bazy doltowej, która działa i ma interfejs jak mysql.


@noisy: głównie miałem na myśli owy przykładowy skrypt w pythonie do generowania csv/xls ( ͡º ͜ʖ͡º)

Bo te dane pobierasz z konkretnego url czy jak?
głównie miałem na myśli owy przykładowy skrypt w pythonie do generowania csv/xls ( ͡º ͜ʖ͡º)


@ghost717: to by było raptem pare lini.

Bo te dane pobierasz z konkretnego url czy jak?


zależy jakie dane. Te które potrzebowałem, akurat mogłem pobrać bezpośrendnio w formie cvs.