Połączenie Chain-of-Thought Prompting i narzędzi w sposób przeplatany okazało się być silnym i solidnym podejściem do rozwiązywania wielu zadań z LLM. Podejścia te zazwyczaj wymagają ręcznego tworzenia demonstracji specyficznych dla zadania i starannie oskryptowanego przeplatania generacji modeli z użyciem narzędzi. Paranjape proponują nową strukturę, która wykorzystuje frozen LLM do automatycznego generowania pośrednich kroków rozumowania jako programu.

ART działa w następujący sposób:

  • biorąc pod uwagę nowe zadanie, wybiera demonstracje wieloetapowego rozumowania i użycia narzędzi z biblioteki zadań
  • w czasie testu wstrzymuje generowanie za każdym razem, gdy wywoływane są narzędzia zewnętrzne i integruje ich wyniki przed wznowieniem generowania.

ART zachęca model do uogólniania na podstawie demonstracji w celu dekomponowania nowego zadania i używania narzędzi w odpowiednich miejscach, w sposób zero-shot. Ponadto ART jest rozszerzalny, ponieważ umożliwia również ludziom naprawianie błędów w krokach rozumowania lub dodawanie nowych narzędzi poprzez prostą aktualizację bibliotek zadań i narzędzi. Proces ten został przedstawiony poniżej:

ART znacznie przewyższa Few-Shot Prompting i automatyczny Chain-of-Thought Prompting w niewidocznych zadaniach w benchmarkach BigBench i MMLU, a także przewyższa wydajność ręcznie tworzonych Chain-of-Thought Prompting, gdy włączona jest informacja zwrotna od człowieka.

Poniżej znajduje się tabela przedstawiająca wydajność ART w zadaniach BigBench i MMLU: