Kalifornijska kompanija za razvoj veštačke inteligencije Open AI predstavila je na svojoj veb stranici multimodalni model generativne veštačke inteligencije Dži-Pi-Ti-4o (GPT-4o), koji može da analizira zvuk, sliku i tekst u realnom vremenu.
U planu je uvođenje u njihove proizvode u narednim nedeljama.
Open AI ističe da je Dži-Pi-Ti-4o (“o” je oznaka za “omni”, odnosno “sveobuhvatan”) korak ka mnogo prirodnoj interakciji između čoveka i računara, pošto prihvata kao ulaz svaku kombinaciju teksta, zvuka i slike i generiše multimodalni odgovor.
“Ovo je prvi put da zaista pravimo ogroman korak napred kada je u pitanju jednostavnost korišćenja”, istakla je teh
Novi AI model će umeti da prepozna i emocije u glasu korisnika, da brže i kvalitetnije nego ranije komunicira na 50 različitih jezika , kao i da značajno poboljša mogućnosti postojećeg četbota Chat GPT.
Izvršni direktor Open AI Sem Altman je ranije najavio na društvenoj mreži X da je kompanija “naporno radila” na nekim novim stvarima za koje misli da će se svideti ljudima.
“Osećam da je to magija”, napisao je Altman.