Co nowego?

Niniejszy artykuł przedstawia kolekcję podstawowych modeli językowych o parametrach od 7B do 65B.

Modele są trenowane na bilionach tokenów z publicznie dostępnych zbiorów danych.

Praca (Hoffman et al. 2022) pokazuje, że biorąc pod uwagę budżet obliczeniowy, mniejsze modele wytrenowane na znacznie większej ilości danych mogą osiągnąć lepszą wydajność niż ich większe odpowiedniki. W pracy tej zaleca się trenowanie modeli 10B na 200B tokenów. Jednak w artykule LLaMA stwierdzono, że wydajność modelu 7B nadal poprawia się nawet po 1T tokenów.

Niniejsza praca koncentruje się na modelach treningowych (LLaMA), które osiągają najlepszą możliwą wydajność przy różnych budżetach wnioskowania, poprzez trening na większej liczbie tokenów.

Możliwości i kluczowe wyniki

Ogólnie rzecz biorąc, LLaMA-13B przewyższa GPT-3(175B) w wielu testach porównawczych, mimo że jest 10 razy mniejsza i możliwa do uruchomienia na jednym GPU. LLaMA 65B jest konkurencyjna w stosunku do modeli takich jak Chinchilla-70B i PaLM-540B.

Paper: LLaMA: Open and Efficient Foundation Language Models(opens in a new tab) Code: https://github.com/facebookresearch/llama(opens in a new tab)

Referencje