Wpis z mikrobloga

Skopiuj link

26.03.2023, 19:52:49

Hej, jeśli śledzicie informacje o kolejnych lmm, to pewnie was to zainteresuje.

Otóż kolejne źródło podaje, że OpenAI mogło testować GPT-4 na danych treningowych, zwłaszcza w aspekcie problemów programistycznych.

Temat ten podejmował wcześniej Horace He, który po wstępnym testowaniu GPT4 odkrył, że model rozwiązuje 10/10 problemów Codeforces sprzed 2021 roku i 0/10 najnowszych problemów (których nigdy wcześniej nie widział).

Tutaj link do threada:

https://twitter.com/cHHillee/status/1635790335535374336

Nowe badania Narayana z Princeton to potwierdzają. Jak piszą:

"Jako kolejny dowód na poparcie tezy prezentowanej przez Horace Ha, przetestowaliśmy GPT-4 na problemach Codeforces z różnych okresów w 2021 roku. Odkryliśmy, że może on regularnie rozwiązywać problemy z łatwej kategorii z przed 5 września, ale żadnych problemów po 12 września".

Koniec trenowania miał miejsce we wrześniu 2021, a więc model nie jest w stanie rozwiązać ani jednego nowego problemu programistycznego.

Dalej piszą oni, jeszcze ciekawsze rzeczy, otóż:

"W rzeczywistości możemy definitywnie pokazać, że model zapamiętał problemy w swoim zbiorze treningowym: po podaniu promptu z tytułem problemu na Codeforces, GPT-4 podaje link do dokładnego konkursu, w którym występuje ten problem".

Łamie to ogólnoprzyjętą zasadę, że nie testuje się na danych treningowych, bo system w taki sposób nie wnioskuje, ale zapamiętuje. Jest to także dość istotne w innych benchmarkach, które model może nie "rozwiązywać za pomocą wnioskowania", ale zwyczajnie wyciągać odpowiedzi z danych treningowych. Autorzy wskazują, że np. proste zmiany w treści pytań w MBA, które są nieistotne dla człowieka, sprawiają że model się gubi, co tylko dowodzi prezentowanej hipotezy.

Tutaj link do threada:

https://twitter.com/random_walker/status/1637929631037927424?s=46&t=m4xgLKFgqFafJXbRTotN1Q&fbclid=IwAR2iWkxaQuvjp7_rR2jdWlxUZYPCgpLgliG0lP5lAFWOwYT5OZ6ycYRZ2no

i artykułu:

https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks

#programowanie #chatgpt #programista15k #sztucznainteligencja

JamesJoyce - Hej, jeśli śledzicie informacje o kolejnych lmm, to pewnie was to zainte... — **źródło:** Zrzut ekranu 2023-03-26 213827

zibizz1

27.03.2023, 13:22:16 via Wykop

@JamesJoyce: Masz racje spłyciłem temat, ale właśnie o to mi chodzi. Ja wole żeby cytował dokładnie a nie zmyślał bez sensu, bo akurat w mojej pracy to bardziej mi sie przydaje. żeby znalazł kawałek informacji (isniejacvy klocek) i dopasował go tak żebey pasował do mojej budowli.

@zobq tak, dane testowe nie mają żadnego znaczenia, dla jakości odpowiedzi. Służą do tego żeby ustawić proces trenowania:
- jak długo trenować
- jakie parametry

JamesJoyce

CXLV

27.03.2023, 21:24:18 via Wykop

Nigdzie nie napisałem żadnej rzeczy, które implikujesz. Ani, że to si, ani reszty "doliny niesamowitości" etc.

@JamesJoyce: w tym miejscu:

odkrył, że model rozwiązuje 10/10 problemów Codeforces sprzed 2021 roku i 0/10 najnowszych problemów (których nigdy wcześniej nie widział).

Sam fakt, że osoba, którą cytujesz oczekiwała poprawnego rozwiązania nowego problemu informatycznego, oznacza, że nie wie on jak działa ChatGPT.

Dla naukowców z OpenAI sukcesem nie jest to, że algorytm udziela poprawnej

JamesJoyce

28.03.2023, 05:49:59 via iOS

@CXLV ale o czym Ty mówisz? Dokładnie w taki sposób testuje się modele uczenia maszynowego. Przykładowo uczysz je rozpoznawać koty, a po wytrenowaniu pokazujesz nowego kota, który przypomina te ze zbioru treningowego, żeby sprawdzić czy nauczył się reprezentacji tego czym może być kot i czy odpowie poprawnie. To jest powód dla którego dane uczące dzieli się na zbiór treningowy i testowy (i czasem jeszcze walidujący). Otóż by wiedzieć, że model rozwiązuje nowe

zobq

CXLV

28.03.2023, 14:50:47 via Wykop

@JamesJoyce: jeżeli mialbyś pojęcie jak działa ChatGPT, to nie przyszłoby ci do głowy oczekiwać, że rozwiąże nowy problem informatyczny. On nie ma żadnej emergentnej wiedzy eksperckiej, która byłaby w stanie rozwiązać taki problem.

JamesJoyce

28.03.2023, 15:17:23 via Wykop

@CXLV: Ok, widzę, że rozmowa jest bez sensu, skoro twoim jedynym argumentem jest to, że ktoś czegoś nie rozumie. Pracuję naukowo i zawodowo przy Data Science od ponad 5 lat. Ty natomiast mylisz pojęcia. Modele językowe nie rozwiązują żadnych "nowych problemów informatycznych". Co to w ogóle znaczy? Nikt tego nie twierdzi. Nikt nie mówi też o żadnej emergentnej wiedzy, poza tobą.

Mają one robić dokładnie to samo co każdy inny model

Krolik

28.03.2023, 19:29:25 via Wykop

@JamesJoyce: ale tu nie chodzi wcale o krytykę modelu GPT4. To co oni krytykują, to twierdzenia zawarte w innym artykule, że gpt4 ma bardzo wysoka skuteczność w testach zawodowych, dochodząca do ponad 90%. Tymczasem wychodzi na jaw, że te testy były częścią zbioru trenującego, więc GPT4 tak naprawdę niczego nie rozwiązał, a jedynie wyszukał rozwiązania, które widział wcześniej. To tak jakby ktoś wykradł pytania przed testem i nauczyłbyś się odpowiedzi na

Ulfric_Stormcloak

28.03.2023, 19:35:56 via Wykop

Otóż kolejne źródło podaje, że OpenAI mogło testować GPT-4 na danych treningowych, zwłaszcza w aspekcie problemów programistycznych.

@JamesJoyce: serio ludzie myślą że mogło być inaczej? :p

JamesJoyce

28.03.2023, 20:05:39 via Wykop

@Krolik: Tak jest. Rozwiązywanie zadań programistycznych jest jedynie przykładem

JamesJoyce

28.03.2023, 21:13:29 via Wykop

@Ulfric_Stormcloak: dotychczas z reguły było inaczej

Aktywne Wpisy

Cinoski

Cinoski +117

4 godz. temu

Po 7 godzinach czekania na sorze przyjęli do szpitala mamę różowej po zawale ze znaczną niepełnosprawnością.
Przestaje mnie dziwić popularność znachorów.

TeselACC

TeselACC +150

2 godz. i 10 min temu

Dopiero dzisiaj dowiedziałem się że #pdk nie znaczy padaka tylko pozdro dla kumatych. Używałem tego źle przez lata. Wychodzi na to że ewidentnie nie jestem kumaty. Ale za to wiele wiadomości nagle nabralo sensu
#pdk #wstydliwewyznania #lepiejpoznonizwcale

Aktywne Wpisy

Aktywne Znaleziska

Grzywna i rok wykluczenia z zawodu - kara za przepchnięcie aktywistów ciężarówką

Warto przypomnieć jak bombardowanie Gazy było rozrywką dla Izraelskich rodzin.

Ultranowoczesna acz niepełnosprytna skrytka na broń.

Areczku luki prawne są dla korporacji. Dla Ciebie są wysokie podatki!

Europosłowie PIS głosowali ZA jedzeniem robaków BŁĄD W MATRIXIE

Popularne tagi