Polscy naukowcy opracowali duży model językowy bardziej wydajny niż ChatGPT

Mowa o LongLLaMa, który oparto na oprogramowaniu OpenLLaMA, stworzonym przez Meta – właściciela Facebooka. Ten duży model językowy opracowany przez naukowców z UW, PAN i IDEAS NCBR ma pozwolić obsługiwać 64 razy więcej tekstu niż ChatGPT. To zapowiada nowy krok w rozwoju modeli językowych.

capre z dodany: 25.09.2023, 13:09:25

107
Odpowiedz

Komentarze (107)

najlepsze

MiedzygalaktycznyMors

25.09.2023, 13:26:36 via Wykop

Proponuję nazwę Model Łągiewki !

mk321

25.09.2023, 21:44:55 via Wykop

@MiedzygalaktycznyMors: Polski Zderzak Hadronów Łągiewki

Boobees

25.09.2023, 15:38:57 via Wykop

o! kolejny "grafen" na miare naszych mozliwosci!

wieczny-student

25.09.2023, 15:11:34 via Wykop

Przecież są już modele oparte na LLama która mają 100k kontekstu.

kwanty

25.09.2023, 20:28:34 via Wykop

Przecież są już modele oparte na LLama która mają 100k kontekstu.

@wieczny-student: Nie ilość a jakość się liczy. Modele o bardzo długim kontekście są zawsze realizowane nie wprost ale pewnym "trikiem". Jeżeli chciałbyś skalować "normalnie" to attention matrix będzie miało rozmiar 100k x 100k, bo to jest kwadratowa macierze od długości kontekstu. Ani się taka nie zmieści w pamięci ani nie będziesz mógł jej wytrenować.

Dlatego robi się różne uproszczenia, streszczenia,

kwanty

26.09.2023, 06:33:24 via Wykop

dobra, wygląda jakbyś się znał na modelach językowych. Czy możesz wytłumaczyć skąd czat gpt zna kontekst?

@moj_wykopowy_login: W bardzo dużym skrócie - oblicza ważność (wpływ) każdego słowa z każdym pozostałym w kontekście. Dlatego w klasycznych transformersach musi być macierz kwadratowa bo jak masz 100 wyrazów w kontekście to musisz obliczyć wpływ każdego ze 100 wyrazów na wszystkie pozostałe.

W jaki sposób oblicza wpływ tych wyrazów na wszystkie pozostałe? Podczas trenowania "przygląda"

Janusz_Rekina

25.09.2023, 21:19:37 via Wykop

Nie wiem po co ci Polacy tworzą te wszystkie wynalazki a nic z tego nie maja Xd

zwykly_szarak

25.09.2023, 21:51:28 via Wykop

@Janusz_Rekina: a właśnie że mają, propozycję pracy na Stanford itd.

janek_kenaj

25.09.2023, 21:52:09 via Wykop

@Janusz_Rekina: Po to by zachodnie korporacje mogły na tym zarobić.

SheriffOfficeWykopaliskoDepartament

25.09.2023, 22:39:10 via Wykop

o dobrze że ktoś to wreszcie nazywa po imieniu
to nie żadna sztuczna inteligencja tylko model językowy, algorytm xd

moj_wykopowy_login

25.09.2023, 23:24:23 via Wykop

-2

@SheriffOfficeWykopaliskoDepartament: model jezykowy z kontekstem

LukaszZelezny

25.09.2023, 21:21:04 via Wykop

Proponuję go nazwać Janusz

KlausSchwab2

25.09.2023, 22:44:51 via Wykop

@LukaszZelezny: januszllama

glass3

26.09.2023, 10:25:07 via Wykop

@LukaszZelezny: lepiej Grażynka, zawsze jest bardziej wygadana od Janusza i zawsze ma swoje ostatnie zdanie ( ͡° ͜ʖ ͡°)

hipolit-cacek

25.09.2023, 18:34:15 via Wykop

Polscy naukowcy opracowali duży model językowy bardziej wydajny niż ChatGPT

- ChatGPT co sądzisz o tym, że Polscy naukowcy opracowali duży model językowy bardziej wydajny niż Ty masz?
- Je...ni rasiści nie mają o niczym pojęcia! xD

elektryczny_mariusz

25.09.2023, 21:02:40 via Wykop

@hipolit-cacek:

- ChatGPT co sądzisz o tym, że Polscy naukowcy opracowali duży model językowy bardziej wydajny niż Ty masz?

chat liczy, mieli, myśli

a u was arabów i hindi na granicy biją!

NdFeB

25.09.2023, 21:46:20 via Wykop

ChatGPT co sądzisz o tym, że Polscy naukowcy opracowali duży model językowy bardziej wydajny niż Ty masz?

@hipolit-cacek: nic, bo i tak na tym nie zarobią

wyjechany

25.09.2023, 22:18:46 via iOS

Powodzenia w kosztach potrzebnych do trenowaniu modelu.

Protectorx

26.09.2023, 11:22:39 via Wykop

@wyjechany: Niestety będzie gorzej bo rynek GPU zdominowany jest przez jedno korpo

wyjechany

27.09.2023, 13:08:32 via iOS

@Protectorx gorzej dla kogo?

mozis

26.09.2023, 03:27:47 via Wykop

Nazwa już przygotowana pod sprzedaż chińskiej firmy ( ͡º ͜ʖ͡º)

lukasj

26.09.2023, 08:33:35 via Wykop

Skoro już jesteśmy w temacie "AI" a raczej zaawansowanych modeli językowych itd. Od czego polecacie zacząc żeby to ogarniać? Np żeby postawić taki model lokalnie? Albo jak wytrenować modele pod specyficzne potrzeby? Jak modyfikować odpowiedzi takiego modelu?

Np do dwóch zastosowań - dajmy na to taki przykład:
1) pomoc przy programowaniu bez zbędnych dodatkowych opisów - typu pisze mu funkcje jaka ma napisać (czyli co funkcja ma robić itd) i ją tworzy.

brakloginuf

26.09.2023, 12:30:11 via Wykop

@lukasj: nie masz sprzetu na to

EstradaOrNada

26.09.2023, 12:57:21 via Wykop

@lukasj: niedługo rusza druga edycja AI Devs - poszukaj ich materiałów na youtube - może Ci podpasuje i się zapiszesz. Ja uczestniczyłem w pierwszej edycji i bardzo sobie cenię zdobytą wiedzę.