biznes finanse technologie praca handel Eko Energetyka polska i świat
Obserwuj nas na:
BiznesINFO.pl > Technologie > OpenAI prezentuje GPT-4o. Czego się spodziewać po nowym modelu?
Maciej Olanicki
Maciej Olanicki 14.05.2024 09:21

OpenAI prezentuje GPT-4o. Czego się spodziewać po nowym modelu?

Sam Altman
Fot. Getty Images/TechCrunch/Brian Ach (CC BY 2.0 DEED)

OpenAI zaprezentowało wczoraj przedsmak nowego wariantu dużego modelu językowego GPT o nazwie GPT-4o. Według szefa OpenAI, Sama Altmana, jest to LLM, którego możliwości można porównać do Samanthy ze świetnego filmu “Her”. Mowa o nowej generacji inteligentnego asystenta, który przetwarza tekst, dźwięk i obraz wideo.

OpenAI prezentuje GPT-4o

Cechą wyróżniającą GPT-4o ("o" od omni) na tle innych wariantów GPT zaprezentowanych wcześniej przez OpenAI jest to, że pracuje on w wielu trybach jednocześnie. Wcześniej, aby przetwarzać tekst, mowę lub obraz, konieczne było zaangażowanie do tego trzech różnych wariantów dużego modelu językowego. GPT-4o to zmienia - dane wejściowe przetwarzane są w ramach jednego modelu, z którego korzysta się za pomocą jednego interfejsu. Główną metodą posługiwania się modelem ma być głos - narzędzie stawia na interakcję przez konwersację, jednak już w mowie, a nie jak miało to miejsce w ChatGPT - w piśmie.

Już wcześniej aktywność Altmana w serwisie X wskazywała na to, że nowość będzie miała wiele wspólnego z uniwersalnym asystentem Samantha znanym z filmu “Her”. Przypomnijmy, że tam główny bohater korzystał z niewielkiej bezprzewodowej słuchawki, by rozmawiać ze sztuczną inteligencją na dowolny temat - od pozyskiwania informacji, przez automatyzację zadań na relacjach towarzyskich, a w końcu romantycznych kończąc.

Polski konkurent dla ChatGPT do kosza? Minister cyfryzacji ma obawy

Uniwersalny asystent, który ma głos

Czy tak rozbudowane możliwości będzie miało także GPT-4o? Zdaniem Altmana nowy model stał się dla niego najbardziej naturalnym sposobem wchodzenia w interakcje z maszyną, jakiej kiedykolwiek doświadczył. Spore wrażenie robią także opublikowane materiały promocyjne. W ramach jednej aplikacji mobilnej można rozmawiać z modelem, może on analizować na bieżąco obraz z kamery smartfonu, rozpoznawać emocje odbiorcy (co swoją drogą jest zakazane na terenie EU na mocy aktu o sztucznej inteligencji) i żywo reagować z użyciem damskiego lub męskiego głosu.

Zastosowania można mnożyć: od codziennej asysty, czyli spełnienia obietnicy danej i zapomnianej przez Siri czy Asystenta Google, przez niezwykle sprawne tłumaczenia maszynowe, w których GPT-4o działa niemal jak tłumacz symultaniczny, do zaawansowanego przetwarzania obrazu. Oczywiście to czas pokaże, jak w model sprawuje się w praktyce. Zwłaszcza że już dopatrzono się pierwszych sztuczek - 4o może tak naprawdę używać dwóch modeli, pierwszego o bardzo niskiej latencji i drugiego, właściwego, tak aby jak najszybciej reagować na dane wejściowe, co jest bardzo efektowne, a dopiero późnej przetwarzać prompty.

Możliwości i dostępność GPT-4o

Efektowność - to chyba najważniejszy wniosek płynący z wczorajszych prezentacji OpenAI. Oczywiście nie brakuje już prognoz dotyczących wpływu modelu na zachowania społeczne czy też, że GPT-4o to w zasadzie koniec barier językowych. Pół żartem, pół serio mówi się o tym, że relacja z 4o będzie zastępować relacje międzyludzkie, co znów jest realizacją scenariusza “Her”. Szum wokół premiery OpenAI jest ogromny, ale być może lepiej podsumowują ją słowa samego Altmana:

ChatGPT dało nam przykład tego, co jest możliwe z interfejsami językowymi; Ta nowa rzecz sprawia wrażenie czegoś zupełnie nowego. Jest szybka, sprytna, naturalna i pomocna.

Tylko tyle i aż tyle. ChatGPT nie odmienił świata w sposób, jaki przewidywano. Po półtora roku od premiery i kilku iteracjach nadal jest bardzo głupi i często nie potrafi porównać wielkości dwóch liczb naturalnych, a szum wokół pierwszych odsłon publicznych dużych modeli językowych częściowo ucichł. Podobnie do nadmuchanych oczekiwań wobec GPT-4o warto podchodzić z rezerwą. Zwłaszcza że zgodnie z nowym zwyczajem Doliny Krzemowej, premiera niewiele ma wspólnego z udostępnieniem usługi na rynku.

Na razie możliwości 4o będą trafiać do ChatGPT - stopniowo i w ograniczonym zakresie, bowiem tylko w ramach interfejsu tekstowego oraz z wykorzystaniem statycznego obrazu. Po stronie użytkownika zmieni się więc niewiele, można spodziewać się większej skuteczności i szybkości. Tryb głosowy, a więc chyba największy wyróżnik 4o, udostępniony zostanie w ciągu nadchodzących tygodni na razie wyłącznie subskrybentom ChatGPT Plus. 

Powiązane
pałac prezydencki
Najnowszy sondaż prezydencki. Polacy wydali werdykt. Lider odstaje od konkurencji
Donald Trump polonia
Jest decyzja Trumpa ws. Polaków. Tylu opuści USA i wróci do kraju, oto dane
BiznesINFO.pl
Obserwuj nas na: