Zaczęło się od LLMów, czeli od dużych modeli językowych, rozumiejących tylko tekst i nic więcej.
Potem były multimodalne LLMy, które odrobinę rozumiały obraz, poza samym tekstem. Następnie dołożono do nich rozumienie dźwięku i wideo. I dostaliśmy - multimodalne LLMy.
Następnie przyszła warstwa rozumująca, z pojedynczym łańcuchem mysli - LRMy, by obecnie najlepsze LRMy rozumowały równolegle - z wieloma łańcuchami myśli.
Aż do niedawna jednak, rozumienie werbalne (tekstu) było jednak w takich multimodalnych LRMach dominujące,

























Ciekawe ile jeszcze dowiemy sie o wadach podejścia ai zautomatyzuje wszystko. Otóż wszystkie mają ten sam problem: nie potrafią odróżnić starych informacji od nowych.
Prosty przykład z medycyny:
Ciśnienie krwi pacjenta: 120 przy przyjęciu 128 po 10 minutach 125 przy wypisie.