🎯 Definicja

GPT-4 to multimodalny model językowy dużej skali (Large Multimodal Model) stworzony przez OpenAI. Jest następcą GPT-3.5. Potrafi analizować zarówno tekst, jak i obrazy (Vision), oraz wykazuje znacznie lepsze zdolności rozumowania (Reasoning) i kodowania w porównaniu do poprzedników.

🔑 Kluczowe punkty

  • Reasoning: Potrafi rozwiązywać zagadki logiczne i zdawać egzaminy (np. adwokacki Bar Exam) na poziomie 90. percentyla.
  • Większe okno kontekstowe: Pamięta znacznie więcej tekstu z rozmowy (do 128k tokenów w wersji Turbo).
  • Multimodalność: “Widzi” zdjęcia i potrafi je opisywać.

📚 Szczegółowe wyjaśnienie

GPT-4 jest modelem “MoE” (Mixture of Experts) - choć OpenAI tego oficjalnie nie potwierdza, branża spekuluje, że składa się z wielu mniejszych modeli specjalistycznych, a router decyduje, którego użyć do danego pytania. Dzięki temu jest potężny, ale wciąż efektywny w inferencji. Jest podstawą wersji ChatGPT Plus oraz Microsoft Copilot.

💡 Przykład zastosowania

Użytkownik wrzuca zdjęcie zawartości lodówki. GPT-4 rozpoznaje składniki (jajka, mleko, szpinak) i generuje przepis na omlet ze szpinakiem, uwzględniając te składniki. GPT-3 (tekstowy) nie byłby w stanie tego zrobić bez ręcznego opisania zdjęcia przez człowieka.

📌 Źródła

  • OpenAI GPT-4 Technical Report.

👽 Brudnopis

  • Obecnie (2024/2025) standardem staje się GPT-4o (“Omni”) - szybszy i natywnie multimodalny (audio/wideo/tekst w jednym modelu).
  • Koszt API GPT-4 jest znacznie wyższy niż modeli mniejszych (GPT-4o-mini / GPT-3.5), więc używa się go do zadań wymagających “inteligencji”, a nie prostego przetwarzania tekstu.