🎯 Definicja

Instruction Tuned LLM (Instruction-Tuned Large Language Model) to model językowy przetrenowany lub dostrojony specjalnie pod kątem rozumienia i wykonywania poleceń użytkownika wyrażonych w języku naturalnym. Proces ten, znany jako instruction tuning, zwiększa użyteczność i sterowalność LLM w zastosowaniach praktycznych – np. w czatbotach, asystentach AI czy interfejsach w stylu „prompt-pytanie → odpowiedź”.

🔑 Kluczowe punkty

Instruction tuned LLM są dostrajane do wykonywania zadanych poleceń (np. „Stwórz listę…”, „Wytłumacz jak…”, „Zamień to na kod…”).
Trening uwzględnia pary: instrukcja → oczekiwane działanie, zamiast tradycyjnych danych predykcyjnych (np. następne słowo).
Modele te są lepiej przystosowane do interakcji z użytkownikiem w stylu zeroshot/fewshot/in-context learning.
Znane przykłady to: OpenAI InstructGPT, ChatGPT, FLAN-T5, LLaMA 2-Chat, Mistral-Instruct, Databricks Dolly.
Instruction tuning nie zawiera RLHF (fine-tuningu przez feedback ludzi), ale bywa etapem poprzedzającym RLHF.

📚 Szczegółowe wyjaśnienie

Instruction Tuning — jak to działa?

Instruction tuning polega na przetrenowaniu LLM na dedykowanych parach:

Input: Naturalnie sformułowana instrukcja (prompt)
Output: Oczekiwana odpowiedź, zgodna z intencją użytkownika

Przykład pary do instrukcji:

Instrukcja: Wygeneruj 3 możliwe nazwy dla startupu zajmującego się analityką danych.
Oczekiwany output: DataWiz, InsightForge, MetricsFox

Trening odbywa się na zbiorach zawierających dziesiątki tysięcy takich promptów. Przykładowe zbiory:

FLAN Collection
Self-Instruct
Databricks Dolly Dataset
OpenAssistant Conversations

Instruction tuning może być samodzielny lub łączony z technikami:

SFT (Supervised Fine-Tuning)
RLHF, gdzie tuning służy jako etap 1 (awareness of instructions).

Czym różni się Instruction-Tuned LLM od bazowego?

Cecha	LLM (bazowy)	Instruction-Tuned LLM
Styl interakcji	Kontynuacja tekstu	Reagowanie na polecenia
Przykład użycia	Generuj kolejne zdanie	„Podsumuj poniższy tekst…”
Trening	Predykcja następnego tokena	Dopasowanie do sformułowanej instrukcji
Użyteczność dla użytkownika	Niższa	Wyższa (bardziej naturalny „czat”)

Główne zastosowania

Czatboty i interfejsy konwersacyjne
Agenci AI wykonujący złożone zadania (np. planowanie, kodowanie)
Samoopisujące się API i pipeline danych
Narzędzia wspierające decyzje, analizy, przetwarzanie dokumentów
In-context few-shot reasoning + chain-of-thought

💡 Przykład zastosowania

W firmie doradczej wdrożono LLaMA-2-Chat, który był instruction-tuned. Użytkownicy mogą zadawać pytania w stylu:
„Podsumuj dane kwartalne sprzedaży według regionu i wyciągnij 3 główne wnioski.”
Model odpowiada logicznie, krok po kroku, przestrzegając instrukcji struktury odpowiedzi. Wersja base model była mniej responsywna i wymagała bardziej precyzyjnego promptowania.

📌 Źródła

https://arxiv.org/abs/2203.02155 (InstructGPT, Ouyang et al.)
https://huggingface.co/blog/instruction-tuning
https://github.com/openai/summarize-from-feedback
https://www.databricks.com/blog/introducing-dolly-instruction-tuned-llm

👽 Brudnopis

instruction tuning ≠ RLHF (etap przed, nad/pod)
prompt: “Zrób X” — LLM wie, że musi wykonać instrukcję, nie tylko kontynuować tekst
flan-t5 jako OTP do zadaniowości
modele tuned ≠ base = dużo łatwiejsze w użyciu out-of-the-box
trening często z crowdsourcingiem lub pseudo-labels (self-instruct)
każda aplikacja B2B potrzebuje interfejsu LLM → instrukcje mają sens via fine-tune
vs cot/cof/s.cot: instruction tuning boostuje „gotowość do rozumienia celu”

Quartz 4

Explorer

Instruction Tuned LLM