Aktywne Wpisy
Cinoski +117
Po 7 godzinach czekania na sorze przyjęli do szpitala mamę różowej po zawale ze znaczną niepełnosprawnością.
Przestaje mnie dziwić popularność znachorów.
Przestaje mnie dziwić popularność znachorów.
TeselACC +150
Dopiero dzisiaj dowiedziałem się że #pdk nie znaczy padaka tylko pozdro dla kumatych. Używałem tego źle przez lata. Wychodzi na to że ewidentnie nie jestem kumaty. Ale za to wiele wiadomości nagle nabralo sensu
#pdk #wstydliwewyznania #lepiejpoznonizwcale
#pdk #wstydliwewyznania #lepiejpoznonizwcale
Otóż kolejne źródło podaje, że OpenAI mogło testować GPT-4 na danych treningowych, zwłaszcza w aspekcie problemów programistycznych.
Temat ten podejmował wcześniej Horace He, który po wstępnym testowaniu GPT4 odkrył, że model rozwiązuje 10/10 problemów Codeforces sprzed 2021 roku i 0/10 najnowszych problemów (których nigdy wcześniej nie widział).
Tutaj link do threada:
https://twitter.com/cHHillee/status/1635790335535374336
Nowe badania Narayana z Princeton to potwierdzają. Jak piszą:
"Jako kolejny dowód na poparcie tezy prezentowanej przez Horace Ha, przetestowaliśmy GPT-4 na problemach Codeforces z różnych okresów w 2021 roku. Odkryliśmy, że może on regularnie rozwiązywać problemy z łatwej kategorii z przed 5 września, ale żadnych problemów po 12 września".
Koniec trenowania miał miejsce we wrześniu 2021, a więc model nie jest w stanie rozwiązać ani jednego nowego problemu programistycznego.
Dalej piszą oni, jeszcze ciekawsze rzeczy, otóż:
"W rzeczywistości możemy definitywnie pokazać, że model zapamiętał problemy w swoim zbiorze treningowym: po podaniu promptu z tytułem problemu na Codeforces, GPT-4 podaje link do dokładnego konkursu, w którym występuje ten problem".
Łamie to ogólnoprzyjętą zasadę, że nie testuje się na danych treningowych, bo system w taki sposób nie wnioskuje, ale zapamiętuje. Jest to także dość istotne w innych benchmarkach, które model może nie "rozwiązywać za pomocą wnioskowania", ale zwyczajnie wyciągać odpowiedzi z danych treningowych. Autorzy wskazują, że np. proste zmiany w treści pytań w MBA, które są nieistotne dla człowieka, sprawiają że model się gubi, co tylko dowodzi prezentowanej hipotezy.
Tutaj link do threada:
https://twitter.com/random_walker/status/1637929631037927424?s=46&t=m4xgLKFgqFafJXbRTotN1Q&fbclid=IwAR2iWkxaQuvjp7_rR2jdWlxUZYPCgpLgliG0lP5lAFWOwYT5OZ6ycYRZ2no
i artykułu:
https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks
#programowanie #chatgpt #programista15k #sztucznainteligencja
@zobq tak, dane testowe nie mają żadnego znaczenia, dla jakości odpowiedzi. Służą do tego żeby ustawić proces trenowania:
- jak długo trenować
- jakie parametry
@JamesJoyce: w tym miejscu:
Sam fakt, że osoba, którą cytujesz oczekiwała poprawnego rozwiązania nowego problemu informatycznego, oznacza, że nie wie on jak działa ChatGPT.
Dla naukowców z OpenAI sukcesem nie jest to, że algorytm udziela poprawnej
Mają one robić dokładnie to samo co każdy inny model
@JamesJoyce: serio ludzie myślą że mogło być inaczej? :p