Co nowego?
Niniejszy artykuł przedstawia kolekcję podstawowych modeli językowych o parametrach od 7B do 65B.
Modele są trenowane na bilionach tokenów z publicznie dostępnych zbiorów danych.
Praca (Hoffman et al. 2022) pokazuje, że biorąc pod uwagę budżet obliczeniowy, mniejsze modele wytrenowane na znacznie większej ilości danych mogą osiągnąć lepszą wydajność niż ich większe odpowiedniki. W pracy tej zaleca się trenowanie modeli 10B na 200B tokenów. Jednak w artykule LLaMA stwierdzono, że wydajność modelu 7B nadal poprawia się nawet po 1T tokenów.
Niniejsza praca koncentruje się na modelach treningowych (LLaMA), które osiągają najlepszą możliwą wydajność przy różnych budżetach wnioskowania, poprzez trening na większej liczbie tokenów.
Możliwości i kluczowe wyniki
Ogólnie rzecz biorąc, LLaMA-13B przewyższa GPT-3(175B) w wielu testach porównawczych, mimo że jest 10 razy mniejsza i możliwa do uruchomienia na jednym GPU. LLaMA 65B jest konkurencyjna w stosunku do modeli takich jak Chinchilla-70B i PaLM-540B.
Paper: LLaMA: Open and Efficient Foundation Language Models(opens in a new tab) Code: https://github.com/facebookresearch/llama(opens in a new tab)
Referencje
- Koala: A Dialogue Model for Academic Research(opens in a new tab) (April 2023)
- Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data(opens in a new tab) (April 2023)
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality(opens in a new tab) (March 2023)
- LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention(opens in a new tab) (March 2023)
- GPT4All(opens in a new tab) (March 2023)
- ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge(opens in a new tab) (March 2023)
- Stanford Alpaca(opens in a new tab) (March 2023)