•  
    y.....y

    -11

    pokaż komentarz

    Zainstalować normalny system.

  •  

    pokaż komentarz

    Jakich wad sprzętu? Co to za bełkot? Sprzęt może przestać działać, z powodów mechanicznych albo dlatego, że coś się spali, ale nie zdarza się, aby z powodu sprzętu występowały jakieś przekłamania w obliczeniach (chyba, że jest to wadą konstrukcyjną ale wtedy jest w 100% powtarzalne, więc zachowanie nadal jest stabilne).

    •  

      pokaż komentarz

      @darkelf: co do wadliwego sprzętu to nie musi się on zachowywać deterministycznie. Przykładowo uszkodzony bit pamięci może dawać losową wartość przy odczycie.

      I wcale nie piszę o czymś takim, że na 50% będzie to 0 i na 50% będzie 1 bo takie coś można szybko wyłapać ale może być tak, że w 999999 na 1000000 operacji oddaje to co było w nim zapisane a raz na milion jego wartość samoistnie przeskakuje z 1 na 0.

    •  

      pokaż komentarz

      @darkelf: co do wadliwego sprzętu to nie musi się on zachowywać deterministycznie. Przykładowo uszkodzony bit pamięci może dawać losową wartość przy odczycie.

      I wcale nie piszę o czymś takim, że na 50% będzie to 0 i na 50% będzie 1 bo takie coś można szybko wyłapać ale może być tak, że w 999999 na 1000000 operacji oddaje to co było w nim zapisane a raz na milion jego wartość samoistnie przeskakuje z 1 na 0.
      @mnlf: i gdzie sie z tym przypadkiem spotkałeś? Konkrety, nie bajki.

    •  

      pokaż komentarz

      @darkelf: u mnie w pracy, tester zgłaszał błąd, nawet nagrał film bo występował on rzadko i po nieokreślonym czasie (czasem po kilku minutach czasem po kilku godzinach). Próby odtworzenia na innym komputerze nie przyniosły rezultatu.

      Korzystając z debugera i jego komputera dało się wyizolować fragment kodu w którym błąd występował, wystarczająco krótki aby dało się formalnie dowieść jego poprawności.

      No to został sprawdzony sprzęt, memtest86 niczego nie wykrył nawet zostawiony na całą dobę, ale mprime raz na kilka godzin w dawał niepoprawny wynik (więc już wiedzieliśmy że wina sprzętu a nie nasza). Z ciekawości koledzy jeszcze się pobawili i wyszło, że obniżenie taktowania procesora nie pomaga, nie wina RAMu bo na innym zachowuje się podobnie, ale pomogło wyłączenie cache 3 poziomu, stąd wniosek że prawdopodobnie uszkodzona była pamięć cache.

    •  

      pokaż komentarz

      @mnlf: Ciekawy problem - mieliście inna stację roboczą z takim samym procesorem na której kod działał zawsze poprawnie? Bo może zwyczajnie trafiliście na buga w kompilatorze, albo np. wersję starszą niż procesor?

    •  

      pokaż komentarz

      @darkelf: Błędy sprzętu są nawet wykorzystywane do osiągania przewidywalnych celów.

      @mnlf: Akurat dwa dni temu zainteresowałem się tym tematem. Nie znam się na produkcji półprzewodników ale według tego co mówi @leeusr na dzisiejszym poziomie zagęszczenia komórek pamięci na krzemie istnieje dość duże prawdopodobieństwo że któraś z komórek będzie fabrycznie wadliwa. W takim razie kości RAM muszą mieć jakiś sprzętowy mechanizm remapowania wadliwych komórek / sektorów na podstawie danych korekcyjnych wprowadzonych w fabryce lub aktualnych selftestów wykonywanych co jakiś czas. Może informacje o położeniu uszkodzonych komórek / sektorów zapisywane są do pamięci szeregowej na module RAM? Masz jakieś informacje na temat takich sprzętowych mechanizmów BadRAM?

    •  

      pokaż komentarz

      @AdireQ: Bez przesady z tym ukrywaniem błędnych bitów. Można bezbłędnie wyprodukować procesor w 22nm to można też dużo prostrze kości ddr4 w 20nm. To kwestia kontroli jakości.

      Przy tak dużej walce o opóźnienia pamięci (bo to transfer pomiędzy pamięcią i cpu jest teraz największym ograniczeniem dla wydajności) to jest na prawdę wielce nieprawdopodobne żeby był tam dodatkowy mechanizm inny niż ECC. Błedy skorygowane przez ECC są liczone i raportowane w serwerach więc nie można wypuścić wadliwej kości, bo wróci szybko do producenta.

    •  

      pokaż komentarz

      @orcus: No to zdania są podzielone. Ja też od zawsze uważałem że układy wychodzące z fabryki są wolne od wad. Trzeba by znaleźć jakiegoś speca od fabrykacji w wielkiej skali integracji i go zapytać.

      Przy tak dużej walce o opóźnienia pamięci (bo to transfer pomiędzy pamięcią i cpu jest teraz największym ograniczeniem dla wydajności) to jest na prawdę wielce nieprawdopodobne żeby był tam dodatkowy mechanizm inny niż ECC

      @orcus: Taki hipotetyczny sprzętowy remaper mógłby siedzieć w dekoderze adresów i tłumaczyć w czasie rzeczywistym (adresy też są chyba przez moment trzymane w jakiejś kolejce FIFO?). Choć rzeczywiście przy tak wysokich częstotliwościach każda bramka ma znaczenie.

    •  

      pokaż komentarz

      @AdireQ: Gdzieś widziałem przejście ze skali mikro do makro w wykonaniu google - wesług nich samo ECC spowodowało spadek wydajności pamięxi o 3-5%. Tutaj mówimy o generycznym remapowaniu - zanim nie wyprodukujesz to nie wiesz które adresy będą wadliwe. To raczej nie jest układ który zaliczyłbym do prostych.

    •  

      pokaż komentarz

      Ciekawy problem - mieliście inna stację roboczą z takim samym procesorem na której kod działał zawsze poprawnie?
      @orcus: nawet nie jedną a 20

      @AdireQ: pamięć to nie dysk, sama nie wykonuje selftestów bo zwykle sama z siebie się nie psuje, ale jeśli uszkodzenie wykryje się w fabryce to można na stałe wyłączyć niektóre obszary i sprzedać jako 2x mniejszą - tyle że nie wiem czy ktoś tak robi z pamięciami. Na pewno robi się tak z procesorami i sprzedaje się je jako tańsze wersje z mniejszym cache albo z mniejszą liczbą rdzeni, albo bez wbudowanej grafiki, mimo że te rzeczy fizycznie są tylko że popsute.

    •  

      pokaż komentarz

      @AdireQ: pamietam z wykładów architektury że takie są, szcegółów możzesz poszukać w książce np w anatomia pc lub na forum elektroda

  •  

    pokaż komentarz

    1. Wzrost liczby tranzystorów nie powoduje już od dawna logarytmicznego wzrostu wydajności (patrz wykres niżej).
    2. Z tymi błędami to albo ja jestem mega niedoinformowany, albo autor nie ma pojęcia o czym pisze. Procesor nie popełnia błędów od czasu do czasu, a już na pewno nie ma dedykowanego sprzętu do sprawdzania go. Nawet wyżyłowany procesor będzie działał poprawnie, pod warunkiem oczywiście, że nie dochodzi do żadnych uszkodzeń.

    źródło: extremetech.com

    •  

      pokaż komentarz

      @WhirPool: Autor nie wie do końca o czym pisze. Są dwie opcje które przyszły mi do głowy:
      - Wyeliminowanie pamięci ECC. W tej chwili do serwerów kupuje się moduły np. 8GB ale fizycznie na kościach jest 10GB. 2GB za które ktoś musiał zapłacić idą na korekcję błędów pamięci.
      - Przyszłość. Zbliżamy się do kresu naszych procesów technologicznych przy produkcji procesorów. Intel od jakiegoś czasu mówi o tym, że więcej tranzystorów nie da się upchnąć, bo kolejne ich zmniejszenie spowoduje niestabilną pracę co przekłada się na "przeskakiwanie" bitów.

    •  

      pokaż komentarz

      @orcus: Zgadza się ;) Nie można w nieskończoność zmniejszać procesu technologicznego, ponieważ zmniejsza się napięcie potrzebne do zmiany i może dojść do zakłóceń w pewnych warunkach. Jest cała gałąź nauki zajmująca się zakłóceniami urządzeń - Kompatybilność Elektromagnetyczna. Wszystkie urządzenia na rynku muszą być oznaczone tym certyfikatem CE, ale w praktyce lepiej nie zbliżać się do granicy zakłóceń i producenci procesorów tego nie robią. Teraz wydajność zwiększa się poprzez szeroko rozumianą współbieżność.

    •  

      pokaż komentarz

      @WhirPool: @orcus dlatego też intel (?) próbuje z procesorami 3d, czyli całe kości są nakładane jeden na drugi, chyba taka sama struktura jest w MB Air, tyle że zamiast procka jest ram, gdzie masz procek i nad prockiem dosłownie kość ramu.

    •  

      pokaż komentarz

      @orcus: mnie zastanawia, po co bardziej miniaturyzować procesory? jakby nie można ich zrobić po prostu większych? przecież obudowa komputera i tak w 80% jest pusta?

    •  

      pokaż komentarz

      @matowoszary: Jak powiększysz procesor to będzie on pobierał więcej prądu i przede wszystkim wytwarzał więcej ciepła, którego zwyczajnie nie da się w standardowy sposób odprowadzić z procesora. Alternatywne sposoby chłodzenia też mają swoje ograniczenia i w tej chwili high-endowe procesory nie nadają się do chłodzenia powietrzem.

  •  

    pokaż komentarz

    Rdzenie, zwiększać liczbę rdzeni! Milion rdzeni razy 10GHz = komputer sto milionów gigaherców. Problem nauko? ( ͡° ͜ʖ ͡°)

  •  

    pokaż komentarz

    Jakoś mi się to nie widzi. Bo kasa kasa kasa
    Czy ktoś kupi sprzęt który będzie wyraźnie droższy (mniejszy proces technologiczny, więcej tranzystorów) który będzie drożej i ciężej oprogramować (część programów zostanie przepisane, część zniknie bo się nie opłaci przepisać, a przepisanie będzie kosztować) a może być tylko trochę lepszy bo większość czasu procek "się sprawdza".
    W przypadku PC-tów to już od kilku lat tak naprawdę tylko gracze powoli ciągną sprzęt - innym więcej niż 2x1.6 GHz nigdy nie będzie potrzebne do szczęścia. W przypadku ośrodków naukowych - sporo kodów jest zrównoleglonych - tam do szczęścia wystarczą SSD zamiast HDD i wielordzeniowe procesory zasysające mniej prądu - zakup sprzętu potrafi być ułamkiem tego co koszt utrzymania.

    •  

      pokaż komentarz

      @ostatni_lantianin: Chyba jednak nie masz bladego pojęcia o kosztach zakupów I utrzymania tego typu sprzętu. Koszty utrzymania wynoszą mniej więcej 1/4 ceny zakupu o ile kupujemy sprzęt w miarę świeży na rynku, z serwisem na 5 lat i liczymy 5-cio letni okres amortyzacji i to licząc koszt zakupu samego sprzętu bez budynku, klimatyzacji, podtrzymania. Chociaż w sumie 400% to też ułamek...

    •  

      pokaż komentarz

      część programów zostanie przepisane, część zniknie bo się nie opłaci przepisać, a przepisanie będzie kosztować

      @ostatni_lantianin: Chyba że mechanizmy samotestowania zostaną zaimplementowane na poziomie kompilatora.

      innym więcej niż 2x1.6 GHz nigdy nie będzie potrzebne do szczęścia.

      @ostatni_lantianin: A widziałeś podglądarki 3D natywnie działające w przeglądarkach internetowych? W sumie to określenie "2x1.6 GHz" i wciskanie wszędzie SSD jest mocno Januszowate.

    •  

      pokaż komentarz

      @orcus: Wydaje mi się że zależy od skali. W przypadku centrów które używają komputerów serwerowych mają własną infrastrukturę to jest racja. Za to kumpel pracował w labie i mówił że u nich wydatek główny to prąd - dlaczego - serwery to PC-ty kupione po kosztach, a naprawy to - wymiany dysków + lutowanie kondesatorów na płycie. Sądzę że serwery mimo że mniej awaryjne wychodzą drożej :)
      @AdireQ:
      Ale kto tego używa. Kiedy 99% ludzi zajeżdza CPU - jak grają. A co robią jak nie grają - łażą po necie piszą w Wordzie, do tego nie trzeba potwora. Tak naprawdę net to też zło konieczne bo moim zdaniem jest przesycony gównoskryptami i flashoreklamami które tylko jedzą zasoby. Gdyby się postarać to poza grami te dwa rdzenie by styknęły większości populacji - z czego ten drugi raczej byłby na wypadek jak jakiś program przypadkiem coś zmuli. Co do SSD - to się nie zgodzę, o ile w przypadku Januszy SSD to zabawka która daje +5 do ładowania aplikacji o tyle przy przerabianiu danych czas w jakim czekasz na danę może grać dużą rolę.

    •  

      pokaż komentarz

      @ostatni_lantianin: Warto to sobie policzyć. Koszt zakupu superkomputera nawet biorąc pod uwagę to, że trzeba go połączyć siecią i zapewnić współdzielony storage jest porównywalny do stada domowych PC (też dobrej klasy - patrzyłem na zakup i7-4790K + GTX770) o tej samej mocy. Oczywiście nie liczę klawiatury, monitorów etc.

      Co ciekawe współczesny superkomputer robi około 6 razy więcej operacji zmiennoprzecinowych na W pobranej mocy niż taki PC.

      Warto to podrzucić koledze z labu. To są liczby przemawiające za outsourcowaniem obliczeń w postaci wykupienia mocy lub nawet konsolidacji, czyli dołożenia swojego sprzętu do superkomputera na etapie zakupów.

      Teraz co do SSD - to się zwyczajnie nie opłaca. Mamy dwie opcje:
      - Wsadzenie dysków SSD bezpośrednio do serwerów. Powoduje to spore utrudnienia przy zrównoleglaniu kodu (bo dane musisz też dystrybuować) oraz ohromne straty - nawet jeśli 75% kodu potrafi skorzystać z wydajności tych dysków to masz 25% inwestycji która się marnuje. To jest podzielenie sumarycznej wydajności dysków na "worki". Zawsze powoduje to straty.
      - Wrzucenie ich do macierzy i budowa systemu współdzielonego. To nie dzieli wydajności, czyli strat nie powinno być, ale powoduje inny problem. Musimy teraz zakładać utylizację dysków na poziomie bliskim 100%. Żaden dysk domowy tego nie wytrzyma. Dopiero od niedawna producenci zgadzają się podpisywać SLA na dyski enterprise na 5 lat. Te dyski są dużo droższe i kupujesz np. 600GB z których 400GB jest zablokowane na relokację komórek. W tej samej cenie masz 3 dyski HDD po 2 albo 3TB każdy i o sumarycznej wydajności zbliżonej do tej z SSD zakładając mocno sekwencyjny profil zapisów i odczytów (czyli większość zastosowań w tym naukowe). Jedyny minus to objętość i waga tych dysków. Koszt półek do macierzy jest znikomy a kontrolery skaluje się i tak pod wydajność a nie liczbę dysków.

      Podsumowując - dyski SSD tylko do domu lub do mało sekwencyjnych zastosowań jak relacyjne bazy danych z pierdyliardami indeksów i zapytań.

    •  

      pokaż komentarz

      @orcus: Dlatego SSD to niestety przyszłość, ale jestem dobrej myśli.
      Co do kolegi z labu - to on tych kompów nie kupuje. Takie #coolstory:
      - kilka lat temu chcieli rozbudować ten swój "superkomputer", oczywiście padło kilka opcji - serwer, wynajęcie i szereg pecetów. Z wynajęciem to od początku było wiadomo że nie przejdzie bo admin by stracił robotę (a to niestety taki level admina że nie potrafi skopiować ukrytych katalogów przez konsolę). Swoją drogą admin adminuje tam całą siecią i burdel tam mają nieziemski. Z tego co mi mówił to system kolejkowy mają od roku bo przez długi czas admin uważał że reszta userów jest "za głupia" na system kolejkowy - więc jak coś robili to była to pętla po bashu + aplikacje odpalane w screenie :).
      W każdym razie historia była jeszcze ciekawsza - otóż zakupili kilkanaście kompów średniej klasy. I wiesz co się stało? - przez kilka lat nikomu nie chciało się ruszyć dupy i złożyć je do kupy, poinstalować soft, w końcu jak jakiś ambitniejszy doktorant się znalazł to okazało się że połowa kompów nie odpala (a było już po gwarancji) a średnio się opłacało je remontować skoro na rynku były już dużo mocniejsze maszyny.