Nowa funkcja w ChatGPT
25 marca 2024 roku OpenAI wprowadziło nową funkcję w swoim narzędziu ChatGPT, umożliwiającą użytkownikom generowanie i edytowanie obrazów. Nowość oparta jest na modelu GPT-4o, który zastępuje dotychczasowe rozwiązanie DALL·E 3. Choć zmiana nie została wprowadzona z wielką pompą, eksperci zwracają uwagę, że może ona znacząco wpłynąć na sposób, w jaki wykorzystujemy sztuczną inteligencję w codziennej pracy twórczej.
Czytelny tekst w obrazach
Największą różnicą w porównaniu do poprzednich wersji jest zdolność modelu do dokładnego odwzorowywania tekstów w obrazach. Wcześniej AI miała trudności z poprawnym rysowaniem liter i cyfr – napisy na grafikach często przypominały zniekształcone znaki. GPT-4o radzi sobie z tym znacznie lepiej, co otwiera nowe zastosowania: od tworzenia zaproszeń, przez generowanie plakatów, aż po przygotowywanie prostych materiałów reklamowych bez udziału grafika.
Większa precyzja i możliwość edycji
Nowy model jest również bardziej precyzyjny w rozumieniu poleceń tekstowych. Użytkownik może określić nie tylko temat obrazu, ale także jego styl (np. ilustracyjny, realistyczny, szkicowy), kompozycję czy kolorystykę. Co więcej, możliwa jest interaktywna edycja wygenerowanego wcześniej obrazu – wystarczy wskazać, co ma zostać zmienione, a model odpowiednio dostosuje grafikę. To szczególnie przydatna funkcja dla osób pracujących projektowo, które chcą szybko przetestować różne wersje wizualne jednej koncepcji.
Komentarz eksperta
"Nowe umiejętności ChataGPT w kwestii tworzenia obrazków pokazują, że mamy do czynienia z zaciętą walką na rynku dostawców rozwiązań Sztucznej Inteligencji.Tego samego dnia gdy ogłaszano aktualizacje OpenAI, świat technologii zachwycał się nowym modelem Reve Image 1.0, który jako jeden z pierwszych rozwiązał m.in. problem generowania tekstu na obrazkach Pięć godzin później ta "przełomowa" funkcjonalność została ogłoszona przez OpenAI. Nowe zdolności ChataGPT mogą też zagrozić obecnym liderom w generowaniu zdjęć takim jak MidJourney czy Leonardo." mówi Dawid Adach , co-founder CognVis.AI
Kontrowersje wokół kopiowania stylów
Wraz z rosnącymi możliwościami generowania obrazów pojawiają się również pytania natury etycznej i prawnej. Jednym z gorętszych tematów jest kopiowanie charakterystycznych stylów graficznych znanych marek, takich jak Studio Ghibli, Simpsonowie czy Disney. Choć użytkownicy mogą z łatwością wygenerować ilustracje "w stylu" danego twórcy, wiele środowisk artystycznych i prawniczych wskazuje na ryzyko naruszenia praw autorskich oraz dewaluacji pracy oryginalnych artystów. Niektóre studia już zapowiedziały działania przeciwko komercyjnemu wykorzystywaniu takich grafik, argumentując, że choć model nie "kopiuje" bezpośrednio gotowych dzieł, to wykorzystuje ich estetykę bez zgody twórców. Dla OpenAI i innych firm rozwijających AI oznacza to konieczność wypracowania jasnych zasad dotyczących stylów referencyjnych i ich zastosowań.
Nowe ryzyka związane z fałszywymi dokumentami
Nowa precyzja w generowaniu obrazów otwiera również pole do nadużyć – użytkownicy zaczynają zgłaszać przypadki, w których ChatGPT potrafi wygenerować grafikę przypominającą autentyczny paragon sklepowy. Taki dokument może być łudząco podobny do oryginału – z uwzględnieniem logo, układu, czcionki czy daty zakupu. To rodzi poważne obawy: ktoś, komu właśnie skończyła się gwarancja na produkt, mógłby wygenerować nowy "paragon" z aktualną datą, a następnie próbować reklamować towar. Podobnie, możliwe jest tworzenie fałszywych dowodów zakupu w celu wyłudzenia zwrotów pieniędzy – na przykład w firmach, gdzie rozlicza się wydatki służbowe na podstawie paragonów. Choć OpenAI podkreśla, że przeciwdziała tego typu nadużyciom, pojawiające się przypadki pokazują, że technologia wymaga jeszcze dopracowania w zakresie odpowiedzialnego i bezpiecznego użytkowania.
"To już nie jest tylko zabawa grafiką – to realne zagrożenie dla systemów bezpieczeństwa. Jeśli model potrafi wygenerować dokument przypominający paszport, który przechodzi automatyczną weryfikację, to mamy do czynienia z potencjalnym narzędziem do oszustw na masową skalę. Firmy muszą szybko dostosować swoje systemy KYC do nowych realiów, a twórcy modeli AI powinni ograniczać możliwość generowania tego typu treści" – ostrzega Dawid Adach, współzałożyciel CognVis.AI.
Bezpieczeństwo i weryfikowalność treści
Nie mniej istotna jest kwestia bezpieczeństwa. OpenAI wdrożyło mechanizm osadzania metadanych C2PA w każdym wygenerowanym obrazie. Dzięki temu możliwe jest sprawdzenie pochodzenia pliku graficznego – informacja o tym, że powstał przy użyciu AI, jest jawna i możliwa do zweryfikowania. To element większej strategii walki z dezinformacją i zapobiegania tworzeniu fałszywych treści wizualnych, które mogłyby zostać wykorzystane w niewłaściwy sposób, na przykład w kontekście wyborów lub kampanii medialnych.
Dostępność i dalszy rozwój
Na ten moment dostęp do funkcji mają użytkownicy wersji płatnych – ChatGPT Plus, Pro oraz Team. OpenAI planuje jednak sukcesywnie udostępniać możliwości generowania obrazów także użytkownikom wersji darmowej, choć nie podano jeszcze konkretnej daty.
Nowy etap w rozwoju AI
GPT-4o to krok w stronę tzw. multimodalnej sztucznej inteligencji, czyli takiej, która integruje różne formy przetwarzania informacji – tekst, obraz, a docelowo również dźwięk czy wideo. Oznacza to, że granica między tym, co tekstowe, a tym, co wizualne, zaczyna się zacierać, a użytkownik może tworzyć treści w sposób bardziej zbliżony do naturalnej komunikacji. Nowa funkcja z pewnością znajdzie zastosowanie nie tylko w pracy twórczej, ale również w edukacji, marketingu, mediach społecznościowych czy projektowaniu usług.