Abstrakt

Rozwój dużych modeli językowych generuje coraz większe zapotrzebowanie na dane tekstowe, które są wykorzystywane do ich trenowania czy dostrajania. Aby móc wykorzystać takie dane, trzeba je wcześniej pozyskać, odpowiednio przygotować, a następnie udostępnić do użytku. Tak złożony proces wymaga również odpowiednich narzędzi, które umożliwiają jego przeprowadzenie, dlatego skupimy się na przedstawieniu jednego z nich, które powstało w ramach projektu Spichlerz. Pakiet PyPI „Speakleash” w obecnej formie jest nie tylko odpowiedzialny za dostęp do zgromadzonych przez nas zbiorów danych, ale także dostarcza funkcjonalności, które pozwalają na wstępną pracę nad nimi. W naszej prezentacji omówimy realia tworzenia pakietu PyPI, oraz poruszymy wyzwania, z jakimi przyszło nam się zmierzyć. Począwszy od stworzenia pierwszej, funkcjonalnej wersji pakietu, aż po jego kolejne iteracje, które obejmowały kompleksową refaktoryzację, zmiany w architekturze, czy optymalizację wydajności. Na koniec przedstawimy również praktyczne zastosowania oraz funkcjonalności pakietu „Speakleash” w oparciu o dostarczone przez nas datasety.

Opinia

Notes