🎯 Definicja

LoRA to technika taniego douczania (Fine-Tuning) wielkich modeli AI. Zamiast trenować cały model (co wymaga superkomputera), trenujemy tylko malutki “dodatek” (Adapter), który waży kilka megabajtów. Wynik działa prawie tak samo dobrze, a kosztuje ułamek ceny.

🔑 Kluczowe punkty

  • Zamrożenie modelu: Główny model (np. Llama 70B) pozostaje nienaruszony.
  • Macierze A i B: LoRA dodaje dwie małe macierze do warstw sieci neuronowej. Uczymy tylko ich.
  • Przenośność: Możesz mieć jeden model bazowy i 50 malutkich adapterów (jeden do pisania wierszy, drugi do SQL, trzeci do medycyny).

📚 Szczegółowe wyjaśnienie

Tradycyjny Fine-Tuning zmienia wagi całego modelu (np. 70 miliardów parametrów). Wymaga to setek gigabajtów pamięci VRAM (wiele kart A100). LoRA zmienia np. 0.1% parametrów. Dzięki temu można douczyć model Llama 7B na pojedynczej (dobrej) karcie graficznej w domu. Narzędzie QLoRA idzie krok dalej, kwantyzując model bazowy do 4 bitów, co jeszcze bardziej obniża wymagania sprzętowe.

💡 Przykład zastosowania

Firma chce mieć własne AI, które mówi “firmowym żargonem”. Biorą model Mistral 7B (Open Source). Używają LoRA na zbiorze swoich maili. Po 2 godzinach treningu (koszt $5 w chmurze) mają plik adapter.bin (50 MB). Wgrywają adapter do modelu i AI zaczyna pisać jak pracownik firmy.

📌 Źródła

  • “LoRA: Low-Rank Adaptation of Large Language Models” (Microsoft Paper).

👽 Brudnopis

  • LoRA to standard w świecie Open Source AI (HuggingFace PEFT).