🎯 Definicja
Tokenizacja to tłumaczenie tekstu (zrozumiałego dla ludzi) na liczby (zrozumiałe dla modelu).
Model nie widzi słowa “Kot”. Widzi liczbę 1532.
Tekst jest cięty na kawałki (Tokeny).
🔑 Kluczowe punkty
- To nie są słowa: Token to często ~0.75 słowa (w angielskim). Krótkie słowa to 1 token. Długie to 2-3 tokeny.
- Koszt: Płacisz za tokeny (wejściowe i wyjściowe).
- Limit: Model ma “Context Window” (np. 128k tokenów). Nic więcej się nie zmieści.
📚 Szczegółowe wyjaśnienie
Najpopularniejszy algorytm to BPE (Byte Pair Encoding).
Szuka najczęstszych par znaków i łączy je w token.
Przykład: “Tokenizacja” może być pocięta na Token + i + zacja.
Dla języka polskiego tokenizacja jest często mniej wydajna (zużywa więcej tokenów na to samo zdanie) niż dla angielskiego, bo słowa są bardziej skomplikowane gramatycznie.
💡 Przykład zastosowania
Liczysz koszt użycia API GPT-4. Tekst: “Napisz mi raport.” (3 słowa). Tokeny:
Napiszmiraport.Razem 4-5 tokenów. Wchodzisz na OpenAI Tokenizer i sprawdzasz.
📌 Źródła
- Hugging Face Tokenizers Doc.
👽 Brudnopis
- Problemy z tokenizacją powodują śmieszne błędy LLM. Np. model może nie umieć przeliterować słowa “Lollipop” od tyłu, bo widzi je jako jeden token
Lollipopi nie wie, z jakich liter się składa.