Technika oceny wiarygodności modelu posadowienia opracowanego w MIT

Opracowanie techniki oceny wiarygodności modeli fundamentów przed zastosowaniem do konkretnych zadań z Laboratorium AI mit i MIT-IBM Watson

Badacze z mit i Laboratorium AI MIT-IBM Watson opracowali nową technikę oceny niezawodności modeli fundamentów przed zastosowaniem ich do określonych zadań, wykorzystując algorytm do oceny spójności modelu. Rozwiązanie to może pomóc w ograniczeniu błędów w sytuacjach krytycznych dla bezpieczeństwa i umożliwić lepszy wybór modelu bez konieczności testowania na rzeczywistych danych.

Photo by: Domagoj Skledar/ arhiva (vlastita)

Badacze z MIT i MIT-IBM Watson AI Lab opracowali technikę oceny niezawodności modeli podstawowych (foundation models) przed ich zastosowaniem do określonego zadania. Osiągają to poprzez analizę zestawu modeli podstawowych, które nieznacznie się od siebie różnią. Algorytm ocenia spójność reprezentacji, które każdy model uczy się na tych samych danych testowych. Jeśli reprezentacje są spójne, model jest uznawany za niezawodny.

Porównując swoją technikę z najnowocześniejszymi metodami, badacze odkryli, że ich metoda jest lepsza w uchwyceniu niezawodności modeli podstawowych w różnych zadaniach klasyfikacyjnych.

Ta technika pozwala użytkownikom zdecydować, czy model należy zastosować w określonym środowisku, bez konieczności testowania na rzeczywistych danych. Jest to szczególnie przydatne w sytuacjach, w których dane mogą nie być dostępne z powodu problemów z prywatnością, takich jak dane zdrowotne. Ponadto technika może rankingować modele według wyników niezawodności, co pozwala użytkownikom wybrać najlepszy model do swojego zadania.

„Wszystkie modele mogą popełniać błędy, ale modele, które wiedzą, kiedy się mylą, są bardziej przydatne. Problem kwantyfikacji niepewności lub niezawodności jest bardziej wyzwaniem dla tych modeli podstawowych, ponieważ ich abstrakcyjne reprezentacje są trudne do porównania. Nasza metoda pozwala na kwantyfikację, jak niezawodna jest reprezentacja modelu dla dowolnych danych wejściowych,” mówi główny autor Navid Azizan, profesor w MIT i członek Laboratorium Systemów Informacji i Decyzji (LIDS).

Wraz z nim nad pracą pracowali również główny autor Young-Jin Park, doktorant w LIDS; Hao Wang, naukowiec badawczy w MIT-IBM Watson AI Lab; i Shervin Ardeshir, starszy naukowiec badawczy w Netflix. Praca zostanie zaprezentowana na Konferencji o Niepewności w Sztucznej Inteligencji.

Pomiar Konsensusu
Tradycyjne modele uczenia maszynowego są trenowane do wykonywania określonego zadania. Te modele zazwyczaj dają konkretne przewidywania na podstawie danych wejściowych. Na przykład, model może powiedzieć, czy dane zdjęcie zawiera kota lub psa. W tym przypadku ocena niezawodności może być tak prosta, jak sprawdzenie ostatecznego przewidywania.

Ale modele podstawowe są inne. Model jest wstępnie trenowany przy użyciu ogólnych danych, w środowisku, w którym jego twórcy nie znają wszystkich zadań, do których zostanie zastosowany. Użytkownicy dostosowują go do swoich specyficznych zadań po jego wstępnym przeszkoleniu.

Aby ocenić niezawodność modeli podstawowych, badacze zastosowali podejście zespołowe, trenując kilka modeli, które dzielą wiele cech, ale nieznacznie się różnią.

„Nasza idea jest podobna do pomiaru konsensusu. Jeśli wszystkie te modele podstawowe dają spójne reprezentacje dla dowolnych danych w naszym zestawie danych, możemy powiedzieć, że model jest niezawodny,” mówi Park.

Ale napotkali problem: jak porównać abstrakcyjne reprezentacje?
„Te modele dają tylko wektor, składający się z kilku liczb, więc nie możemy ich łatwo porównać,” dodaje.

Rozwiązali problem, używając idei zwanej spójnością sąsiedztwa.

W swoim podejściu badacze przygotowują zestaw niezawodnych punktów odniesienia do testowania w zespole modeli. Następnie, dla każdego modelu, badają punkty odniesienia znajdujące się blisko reprezentacji modelu dla punktu testowego.

Obserwując spójność sąsiednich punktów, mogą ocenić niezawodność modelu.

Wyrównywanie Reprezentacji
Modele podstawowe mapują punkty danych na to, co jest znane jako przestrzeń reprezentacji. Jednym ze sposobów myślenia o tej przestrzeni jest kula. Każdy model mapuje podobne punkty danych w to samo miejsce w swojej kuli, więc obrazy kotów idą w jedno miejsce, a obrazy psów w inne.

Ale każdy model mapowałby zwierzęta inaczej w swojej kuli, więc podczas gdy koty mogłyby być grupowane w pobliżu Bieguna Południowego jednej kuli, inny model mógłby mapować koty gdzieś na półkuli północnej.

Badacze używają sąsiednich punktów jako kotwic do wyrównania tych kul, aby mogli porównać reprezentacje. Jeśli sąsiedzi punktu danych są spójni w różnych reprezentacjach, możemy być pewni niezawodności modelu dla tego punktu.

Kiedy testowali to podejście na szerokim zakresie zadań klasyfikacyjnych, odkryli, że było ono znacznie bardziej spójne niż metody bazowe. Ponadto nie było ono zmieszane przez trudne punkty testowe, które inne metody myliły.

Co więcej, ich podejście można wykorzystać do oceny niezawodności dla dowolnych danych wejściowych, dzięki czemu można ocenić, jak dobrze model działa dla określonego typu osoby, takiej jak pacjent z określonymi cechami.

„Nawet jeśli wszystkie modele mają średnie wyniki, z perspektywy indywidualnej, preferujesz ten, który najlepiej działa dla tej osoby,” mówi Wang.

Jednym ograniczeniem jest konieczność trenowania zespołu modeli podstawowych, co jest kosztowne obliczeniowo. W przyszłości planują znaleźć bardziej efektywne sposoby budowy wielu modeli, być może poprzez użycie małych perturbacji jednego modelu.

„Z obecnym trendem wykorzystywania modeli podstawowych do ich reprezentacji w celu wspierania różnych zadań — od dostrajania po generowanie z uzupełnianiem z wyszukiwania — temat kwantyfikacji niepewności na poziomie reprezentacji staje się coraz ważniejszy, ale wyzwaniem, ponieważ same reprezentacje nie mają podstawy. Zamiast tego, ważne jest, jak reprezentacje różnych wejść są ze sobą powiązane, idea, którą ta praca zgrabnie ujmuje poprzez proponowany wynik spójności sąsiedztwa,” mówi Marco Pavone, profesor nadzwyczajny w Departamencie Aeronautyki i Astronautyki na Uniwersytecie Stanford, który nie był zaangażowany w tę pracę. „To obiecujący krok w kierunku wysokiej jakości kwantyfikacji niepewności dla modeli reprezentacyjnych, i jestem podekscytowany, widząc przyszłe rozszerzenia, które mogą funkcjonować bez potrzeby zespołów modeli, aby naprawdę umożliwić to podejście w modelach o rozmiarach foundation.”

Ta praca była częściowo finansowana przez MIT-IBM Watson AI Lab, MathWorks i Amazon.

Znajdź nocleg w pobliżu

Czas utworzenia: 17 lipca, 2024

Opracowanie techniki oceny wiarygodności modeli fundamentów przed zastosowaniem do konkretnych zadań z Laboratorium AI mit i MIT-IBM Watson

Znajdź nocleg w pobliżu

Redakcja nauki i technologii

Wydarzenia Chorwacja

Greencajt 2026 w Zagrzebiu otwiera dyskusję o zrównoważonym rozwoju, konkurencyjności biznesu i odpowiedzialności wobec społeczeństwa

Zagreb Classic 2026 na Placu Króla Tomisława przynosi dwa tygodnie bezpłatnych koncertów pod gołym niebem

Mistrzostwa Europy w gimnastyce sportowej w Zagrzebiu gromadzą ponad 600 sportowców z ponad 40 krajów

Altroke Food Festival w Novi Vinodolskim przynosi cztery dni street foodu, muzyki i programu dla rodzin

Zagraniczni dziennikarze w ramach Złotego Pióra odwiedzili Zamek Trsat i dodatkowo skierowali uwagę na Rijekę

Festiwal WSZYSCY raZEM CHORWACKIE NAJLEPSZE od 1 do 3 maja w Vukovarze przynosi dziedzictwo, muzykę i wspólnotę

Nowa tablica informacyjna przy św. Ivanie Turninie w Gajanie ożywia ważny lokalitet dziedzictwa kulturowego regionu Vodnjanština

Długi weekend w Krku przynosi storytellingowy spacer, gastro trasę i rowerowy objazd wyspy

Opracowanie techniki oceny wiarygodności modeli fundamentów przed zastosowaniem do konkretnych zadań z Laboratorium AI mit i MIT-IBM Watson

Znajdź nocleg w pobliżu

Powiązane