Wpis z mikrobloga

Hej, jeśli śledzicie informacje o kolejnych lmm, to pewnie was to zainteresuje.

Otóż kolejne źródło podaje, że OpenAI mogło testować GPT-4 na danych treningowych, zwłaszcza w aspekcie problemów programistycznych.

Temat ten podejmował wcześniej Horace He, który po wstępnym testowaniu GPT4 odkrył, że model rozwiązuje 10/10 problemów Codeforces sprzed 2021 roku i 0/10 najnowszych problemów (których nigdy wcześniej nie widział).

Tutaj link do threada:

https://twitter.com/cHHillee/status/1635790335535374336

Nowe badania Narayana z Princeton to potwierdzają. Jak piszą:

"Jako kolejny dowód na poparcie tezy prezentowanej przez Horace Ha, przetestowaliśmy GPT-4 na problemach Codeforces z różnych okresów w 2021 roku. Odkryliśmy, że może on regularnie rozwiązywać problemy z łatwej kategorii z przed 5 września, ale żadnych problemów po 12 września".

Koniec trenowania miał miejsce we wrześniu 2021, a więc model nie jest w stanie rozwiązać ani jednego nowego problemu programistycznego.

Dalej piszą oni, jeszcze ciekawsze rzeczy, otóż:

"W rzeczywistości możemy definitywnie pokazać, że model zapamiętał problemy w swoim zbiorze treningowym: po podaniu promptu z tytułem problemu na Codeforces, GPT-4 podaje link do dokładnego konkursu, w którym występuje ten problem".

Łamie to ogólnoprzyjętą zasadę, że nie testuje się na danych treningowych, bo system w taki sposób nie wnioskuje, ale zapamiętuje. Jest to także dość istotne w innych benchmarkach, które model może nie "rozwiązywać za pomocą wnioskowania", ale zwyczajnie wyciągać odpowiedzi z danych treningowych. Autorzy wskazują, że np. proste zmiany w treści pytań w MBA, które są nieistotne dla człowieka, sprawiają że model się gubi, co tylko dowodzi prezentowanej hipotezy.

Tutaj link do threada:

https://twitter.com/random_walker/status/1637929631037927424?s=46&t=m4xgLKFgqFafJXbRTotN1Q&fbclid=IwAR2iWkxaQuvjp7_rR2jdWlxUZYPCgpLgliG0lP5lAFWOwYT5OZ6ycYRZ2no

i artykułu:

https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks

#programowanie #chatgpt #programista15k #sztucznainteligencja
Pobierz JamesJoyce - Hej, jeśli śledzicie informacje o kolejnych lmm, to pewnie was to zainte...
źródło: Zrzut ekranu 2023-03-26 213827
  • 49
@JamesJoyce: Masz racje spłyciłem temat, ale właśnie o to mi chodzi. Ja wole żeby cytował dokładnie a nie zmyślał bez sensu, bo akurat w mojej pracy to bardziej mi sie przydaje. żeby znalazł kawałek informacji (isniejacvy klocek) i dopasował go tak żebey pasował do mojej budowli.

@zobq tak, dane testowe nie mają żadnego znaczenia, dla jakości odpowiedzi. Służą do tego żeby ustawić proces trenowania:
- jak długo trenować
- jakie parametry
Nigdzie nie napisałem żadnej rzeczy, które implikujesz. Ani, że to si, ani reszty "doliny niesamowitości" etc.


@JamesJoyce: w tym miejscu:

odkrył, że model rozwiązuje 10/10 problemów Codeforces sprzed 2021 roku i 0/10 najnowszych problemów (których nigdy wcześniej nie widział).


Sam fakt, że osoba, którą cytujesz oczekiwała poprawnego rozwiązania nowego problemu informatycznego, oznacza, że nie wie on jak działa ChatGPT.

Dla naukowców z OpenAI sukcesem nie jest to, że algorytm udziela poprawnej
@CXLV ale o czym Ty mówisz? Dokładnie w taki sposób testuje się modele uczenia maszynowego. Przykładowo uczysz je rozpoznawać koty, a po wytrenowaniu pokazujesz nowego kota, który przypomina te ze zbioru treningowego, żeby sprawdzić czy nauczył się reprezentacji tego czym może być kot i czy odpowie poprawnie. To jest powód dla którego dane uczące dzieli się na zbiór treningowy i testowy (i czasem jeszcze walidujący). Otóż by wiedzieć, że model rozwiązuje nowe
@JamesJoyce: jeżeli mialbyś pojęcie jak działa ChatGPT, to nie przyszłoby ci do głowy oczekiwać, że rozwiąże nowy problem informatyczny. On nie ma żadnej emergentnej wiedzy eksperckiej, która byłaby w stanie rozwiązać taki problem.
@CXLV: Ok, widzę, że rozmowa jest bez sensu, skoro twoim jedynym argumentem jest to, że ktoś czegoś nie rozumie. Pracuję naukowo i zawodowo przy Data Science od ponad 5 lat. Ty natomiast mylisz pojęcia. Modele językowe nie rozwiązują żadnych "nowych problemów informatycznych". Co to w ogóle znaczy? Nikt tego nie twierdzi. Nikt nie mówi też o żadnej emergentnej wiedzy, poza tobą.

Mają one robić dokładnie to samo co każdy inny model
@JamesJoyce: ale tu nie chodzi wcale o krytykę modelu GPT4. To co oni krytykują, to twierdzenia zawarte w innym artykule, że gpt4 ma bardzo wysoka skuteczność w testach zawodowych, dochodząca do ponad 90%. Tymczasem wychodzi na jaw, że te testy były częścią zbioru trenującego, więc GPT4 tak naprawdę niczego nie rozwiązał, a jedynie wyszukał rozwiązania, które widział wcześniej. To tak jakby ktoś wykradł pytania przed testem i nauczyłbyś się odpowiedzi na