NLP

Nowa i ekscytująca zawartość
Dlaczego transformator Hugging Face?
- Czy w tym wykładzie będziemy dostrajać wstępnie wytrenowany model NLP za pomocą HF zamiast biblioteki fastai?
- Dlaczego warto używać transformatora zamiast biblioteki fastai?
- Czy Jeremy jest w trakcie integracji transformera z biblioteką fastai?
- Czy transformer ma taką samą warstwową architekturę jak fastai? Czy jest to wystarczająco wysoki poziom?
- Dlaczego dobrze jest korzystać z biblioteki dość wysokiego poziomu (nie tak wysokiego jak fastai)?
Zrozumienie dostrajania
- Czy mamy podstawy do zrozumienia szczegółów dostrajania?
- Jak rozumieć wstępnie wytrenowany model pod względem pewności parametrów? 03:51
- Czy dostrajanie próbuje zwiększyć parametry, które nie są pewne?
ULMFiT: pierwszy dostrojony model NLP
- Gdzie ten model został po raz pierwszy opracowany i nauczany?
- Kto napisał artykuł?
- Jaki jest jego wpływ?
Krok 1 ULMFiT: model językowy od podstaw
- Jaki jest pierwszy model językowy w kroku pierwszym?
- Co model próbuje przewidzieć? Jaki jest zbiór danych?
- Dlaczego to zadanie jest tak trudne? 06:10
- Ile wiedzy musi zrozumieć model, aby przewidywać?
- Jak dobrze ten pierwszy model może przewidywać w kroku pierwszym?
Krok 2: dopracowanie pierwszego modelu na IMDB
- Jak Jeremy zbudował drugi model językowy?
- Od czego zaczął się drugi model? Jaki był zestaw danych dla drugiego modelu?
- Co dobrze przewidywał drugi model?
Krok 3: włączenie modelu językowego do klasyfikacji
Etykiety modeli językowych
- Jakie są etykiety dla zbiorów danych pierwszych dwóch modeli?
Modele transformatorowe a ULMFiT
- Kiedy po raz pierwszy pojawiły się transformatory?
- Co wykorzystują modele transformatorowe?
- Czego transformery nie próbują przewidzieć (uzasadnienie w części 2)?
- Jak transformery zmodyfikowały swój zbiór danych i co przewidują? 09:41
- Czy ULMFiT i Transformers naprawdę różnią się znacznie w kwestii przewidywania?
- Jak bardzo różnią się 3 kroki między ULMFiT i Transformers?
Co wie model
- Czego mogą nauczyć się niższe i wyższe warstwy parametrów/wag? 11:08
- Co robimy z tymi warstwami wag dla uczenia transferowego? 13:20
- Artykuł Zeilera i Fergusa
NLP dla początkujących w konkursie Kaggle
- Wykorzystanie konkursu Kaggle do wprowadzenia NLP dla początkujących, czyż to nie niesamowite!
- Dlaczego powinniśmy traktować konkurs Kaggle bardziej poważnie? 15:06
- Jakie zadania w świecie rzeczywistym może wykonywać klasyfikacja NLP? 15:57
Zbadaj zestaw danych konkursowych
- Co znajduje się w zbiorze danych konkursu?
- Jak wygląda klasyfikacyjny zbiór danych?
- Co możemy przewidzieć na temat “kotwicy” i “celu”?
- Jaką wartość przewidzieć?
- Dlaczego tak naprawdę nie jest to prosta klasyfikacja?
- Jaki jest pożytek z “kontekstu”?
Strategia modelu
- Jak zmodyfikować zbiór danych, aby przekształcić problem podobieństwa w problem klasyfikacji?
- Czy zawsze powinniśmy próbować rozwiązać problem, przekształcając go w znany nam problem?
Przygotowanie notebooka
- Kiedy i jak używać GPU w Kaggle?
- Dlaczego Jeremy poleca Paperspace zamiast Kaggle jako stację roboczą?
- Jak łatwo Jeremy sprawił, że można pobrać zestaw danych Kaggle i pracować na Paperspace lub lokalnie?
- Jak korzystać z pythona i basha w tej samej komórce jupytera?
Pobieranie surowego zbioru danych do dokumentów
- Jak sprawdzić co znajduje się w folderze dataset?
- Dlaczego ważne jest, aby przeczytać wprowadzenie danych konkurencji, które jest często pomijane?
- Jak odczytać plik csv za pomocą pandas? 24:30
- Jakie są cztery kluczowe biblioteki do nauki o danych w Pythonie? 24:46
- Jaką inną książkę oprócz fastbooka poleca Jeremy? 25:36
- Dlaczego warto ją przeczytać?
- Jak uzyskać dostęp do zbioru danych i wyświetlić go w ramce danych? 26:39
- Jak “opisać” zbiór danych? Co on nam ogólnie mówi? 27:10
- Co na początku oznaczała dla Jeremiego liczba unikalnych próbek danych? 27:57
- Jak utworzyć pojedynczy ciąg znaków w oparciu o strategię modelu? 28:26
- Jak odwołać się do kolumny ramki danych podczas odczytu i zapisu danych kolumnowych?
Tokenizacja: Intro
- Jak przekształcić ciągi/dokumenty w liczby dla sieci neuronowej?
- Czy najpierw dzielimy ciąg na słowa?
- Jaki jest problem ze słowami w języku chińskim?
- Czym są słowniki w porównaniu z podzielonymi słowami?
- Co zrobić ze słownictwem?
- Dlaczego chcemy, aby słownictwo było zwięzłe, a nie zbyt duże?
- Co w dzisiejszych czasach ludzie wolą zamiast słów w słowniku?
Tokenizacja podsłów przez Transformer
- Jak przekształcić naszą ramkę danych w “zbiór danych” Hugging Face?
- Jak wygląda zbiór danych HF?
- Czym jest tokenizacja? Co ona robi?
- Dlaczego powinniśmy wybrać wstępnie wytrenowany model przed tokenizacją?
- Dlaczego musimy używać słownictwa modelu zamiast tworzyć własne?
- Jak podobne jest centrum modelu HF do TIMM? 33:10
- Jakie są rady Jeremy’ego dotyczące korzystania z HF model hub?
- Czy niektóre modele są ogólnie dobre dla większości praktycznych problemów? 34:17
- Kiedy modele NLP zaczęły być faktycznie bardzo przydatne? 34:35
- Dlaczego nie wiemy zbyt wiele o tych modelach, które potencjalnie są dobre dla większości rzeczy?
- Dlaczego powinniśmy wybrać mały model na początek?
- Jak uzyskać tokeny, słownictwo i powiązane informacje o wstępnie wytrenowanym modelu? 36:04
- Jak tokenizować zdanie według stylu modelu?
- Po podzieleniu dokumentu na listę słowników, czy zamieniamy listę słowników na listę liczb? Numeracja 38:30
- Czy na podstawie przykładów tokenizacji można zrozumieć, czym jest subword vs word?
- Jak tokenizować wszystkie dokumenty za pomocą obliczeń równoległych? 38:50
- Biorąc pod uwagę, że kolumna wejściowa to dokument, co znajduje się w kolumnie input_id?
Specjalne traktowanie danych wejściowych?
- Czy musimy stosować jakieś specjalne zabiegi podczas tworzenia dokumentu lub danych wejściowych ze zbioru danych?
- Co w przypadku, gdy dokument jest bardzo długi?
Uruchamianie ULMFiT na dużych dokumentach
- W czym ULMFiT jest najlepszy?
- Dlaczego ULMFiT może pracować na dużych dokumentach szybko i bez dużej ilości GPU?
- Jak duży jest duży dokument?
Niektóre niejasne dokumentacje biblioteki Transformer
Najważniejszy pomysł w ML
- Czy jest to pomysł posiadania oddzielnych zestawów danych treningowych, testowych i walidacyjnych?
Underfitting vs Overfitting
- Jak utworzyć funkcję wykreślającą funkcję wielomianową ze zmienną stopnia?
- Co to są wielomiany pierwszego, drugiego i trzeciego stopnia?
- Co Jeremy sądzi o sklearn? Kiedy go używać? 47:37
- Co to jest niedopasowanie? Dlaczego zbyt prosty model jest problemem lub jest systematycznie stronniczy? 48:12
- Co to jest overfitting? Jak wygląda nadmierne dopasowanie? 48:58
- Co jest przyczyną nadmiernego dopasowania?
- Łatwo jest wykryć niedopasowanie, ale jak odfiltrować nadmierne dopasowanie od funkcji, którą chcemy?
Walidacja: unikanie nadmiernego dopasowania na zestawie treningowym
- Jak uzyskać zestaw danych walidacyjnych i z niego korzystać?
- Dlaczego należy zachować ostrożność podczas korzystania z innych bibliotek niż fastai?
Jak i dlaczego stworzyć dobry zestaw walidacyjny?
- Czy wiesz, że po prostu losowe 20% zbioru danych jako zestaw walidacyjny nie jest wystarczająco dobre?
- Na przykład, czy nie powinieneś wybrać zestawu danych walidacyjnych, aby Twój model mógł przewidywać przyszłość, a nie przeszłość?
- Dlaczego konkurs Kaggle jest świetnym i rzeczywistym sposobem na docenienie korzystania z zestawu walidacyjnego w celu uniknięcia nadmiernego dopasowania?
- W jaki sposób zestaw walidacyjny może pomóc uniknąć nadmiernego dopasowania w 2 konkursie Kaggle na rzeczywistych problemach? 54:44
- Uważaj, gdy dotykasz walidacji krzyżowej 56:03
- Dlaczego należy zachować ostrożność podczas korzystania z gotowych narzędzi bibliotecznych do losowego wybierania zestawu walidacyjnego?
- Post o walidacji autorstwa Rachel
Zestaw testowy: unikaj nadmiernego dopasowania na zestawie walidacyjnym
- Do czego służy zestaw testowy?
- Dlaczego jest potrzebny, skoro mamy zestaw walidacyjny?
- Kiedy lub w jaki sposób można nadmiernie dopasować zestaw walidacyjny? lub
- Dlaczego zestaw walidacyjny nie wystarcza do przezwyciężenia nadmiernego dopasowania modelu?
- Dlaczego Kaggle przygotowuje dwa zestawy testowe? lub
- Dlaczego Kaggle uważa, że dwa zestawy testowe wystarczą do odfiltrowania modeli z nadmiernym dopasowaniem?
Funkcje metryk a funkcje strat
- Jak używamy zestawu walidacyjnego do sprawdzania wydajności modelu?
- Czy konkurs Kaggle wybierze metryki dla ciebie?
- Czy metryka powinna być naszą funkcją straty?
- Jakiego rodzaju funkcji należy użyć jako funkcji straty? (wyboista vs gładka)
- Tak więc, zawsze bądź świadomy: strata, którą twój model próbuje pokonać, może nie być tą samą funkcją do oceny twojego modelu.
- Dlaczego jedna metryka zawsze nie wystarcza i może powodować wiele problemów?
Metryka: nie można jej wyczuć z matematyki
- Czym jest korelacja Pearsona (r) i jak ją interpretować?
- Co może nauczyć Cię jak zachowuje się r, jego funkcja matematyczna czy jego wydajność na zbiorach danych?
- Wykres z 1000 losowymi punktami danych czy wykres z całym milionem punktów danych?
- Jak uzyskać współczynnik korelacji dla każdej zmiennej do każdej innej zmiennej? 1:06:27
- Jak odczytać macierz współczynnika korelacji?
- Jak uzyskać pojedynczy współczynnik korelacji między dwiema rzeczami?
- Jak określić jak dobry jest współczynnik korelacji? 1:07:45
- Na co zwrócić uwagę (linia tendencji, odchylenia wokół linii, wartości odstające)?
- Jak stworzyć przezroczystość na wykresie?
- Jak możemy stwierdzić na innym przykładzie, że r jest bardzo wrażliwe na wartości odstające? 1:09:47
- Jak bardzo usunięcie lub zepsucie kilku wartości odstających może wpłynąć na wyniki w r? lub
- Dlaczego trzeba uważać na każdy wiersz danych, gdy mamy do czynienia z r?
- Czy możemy wiedzieć, jak dobre jest r = 0,34 lub r = -0,2 bez wykresu?
- Nie zapomnij o prawidłowym formacie danych dla HF
Podział na trening i walidację HF
- Jak wykonać losowy podział z HF?
- Czy Jeremy omówi prawidłowy podział w innym notatniku?
Trenowanie modelu
- Czego używać do trenowania modelu w HF?
- Co to jest partia i rozmiar partii?
- Jak duży powinien być rozmiar partii?
- Jak znaleźć dobry współczynnik uczenia? (szczegóły w przyszłym wykładzie)
- Gdzie przygotować wszystkie argumenty treningowe w bibliotece HF?
- Jakiego typu zadań używamy do wyboru modelu?
- Jak utworzyć uczącego się lub trenera po modelu?
- Jak trenować?
- Dlaczego wyniki metryk są tak dobre już od pierwszej epoki?
Radzenie sobie z wartościami odstającymi
- Czy powinniśmy przeprowadzić drugą analizę wartości odstających, zamiast po prostu je usuwać?
- Czym tak naprawdę są wartości odstające w prawdziwym świecie?
- Czy wartości odstające zwykle nie dostarczają nam wielu zaskakująco przydatnych informacji niż w ograniczającym sensie statystycznym?
- Jaka jest rada Jeremy’ego na temat wartości odstających?
Przewidywanie i przesyłanie
- Jak prognozować za pomocą HF?
- Czy zawsze powinniśmy sprawdzać dane wyjściowe predykcji, a także dane wejściowe zestawu testowego?
- Jaki jest najczęstszy problem z danymi wyjściowymi? (właściwe rozwiązanie może być w następnym wykładzie)
- Jakie jest proste rozwiązanie?
- Jak przesłać swoją odpowiedź do Kaggle?
Ogromne możliwości w badaniach i biznesie
Nadużycia NLP
- Czy chatboty NLP mogą stworzyć 99% czatów online, które prawie nie różnią się od prawdziwych ludzi?
- Czy GTP-3 może tworzyć jeszcze dłuższą i bardziej wyrafinowaną prozę, która jest jeszcze bardziej podobna do ludzkiej?
- W jaki sposób generowane maszynowo opinie publiczne mogą wpływać na politykę publiczną lub prawo?
Problemy z num_labels w bibliotece HF

Quartz 4

Explorer

NLP

Graph View