Postavke privatnosti

Opracowanie techniki oceny wiarygodności modeli fundamentów przed zastosowaniem do konkretnych zadań z Laboratorium AI mit i MIT-IBM Watson

Badacze z mit i Laboratorium AI MIT-IBM Watson opracowali nową technikę oceny niezawodności modeli fundamentów przed zastosowaniem ich do określonych zadań, wykorzystując algorytm do oceny spójności modelu. Rozwiązanie to może pomóc w ograniczeniu błędów w sytuacjach krytycznych dla bezpieczeństwa i umożliwić lepszy wybór modelu bez konieczności testowania na rzeczywistych danych.

Opracowanie techniki oceny wiarygodności modeli fundamentów przed zastosowaniem do konkretnych zadań z Laboratorium AI mit i MIT-IBM Watson
Photo by: Domagoj Skledar/ arhiva (vlastita)

Badacze z MIT i MIT-IBM Watson AI Lab opracowali technikę oceny niezawodności modeli podstawowych (foundation models) przed ich zastosowaniem do określonego zadania. Osiągają to poprzez analizę zestawu modeli podstawowych, które nieznacznie się od siebie różnią. Algorytm ocenia spójność reprezentacji, które każdy model uczy się na tych samych danych testowych. Jeśli reprezentacje są spójne, model jest uznawany za niezawodny.

Porównując swoją technikę z najnowocześniejszymi metodami, badacze odkryli, że ich metoda jest lepsza w uchwyceniu niezawodności modeli podstawowych w różnych zadaniach klasyfikacyjnych.

Ta technika pozwala użytkownikom zdecydować, czy model należy zastosować w określonym środowisku, bez konieczności testowania na rzeczywistych danych. Jest to szczególnie przydatne w sytuacjach, w których dane mogą nie być dostępne z powodu problemów z prywatnością, takich jak dane zdrowotne. Ponadto technika może rankingować modele według wyników niezawodności, co pozwala użytkownikom wybrać najlepszy model do swojego zadania.

„Wszystkie modele mogą popełniać błędy, ale modele, które wiedzą, kiedy się mylą, są bardziej przydatne. Problem kwantyfikacji niepewności lub niezawodności jest bardziej wyzwaniem dla tych modeli podstawowych, ponieważ ich abstrakcyjne reprezentacje są trudne do porównania. Nasza metoda pozwala na kwantyfikację, jak niezawodna jest reprezentacja modelu dla dowolnych danych wejściowych,” mówi główny autor Navid Azizan, profesor w MIT i członek Laboratorium Systemów Informacji i Decyzji (LIDS).

Wraz z nim nad pracą pracowali również główny autor Young-Jin Park, doktorant w LIDS; Hao Wang, naukowiec badawczy w MIT-IBM Watson AI Lab; i Shervin Ardeshir, starszy naukowiec badawczy w Netflix. Praca zostanie zaprezentowana na Konferencji o Niepewności w Sztucznej Inteligencji.

Pomiar Konsensusu
Tradycyjne modele uczenia maszynowego są trenowane do wykonywania określonego zadania. Te modele zazwyczaj dają konkretne przewidywania na podstawie danych wejściowych. Na przykład, model może powiedzieć, czy dane zdjęcie zawiera kota lub psa. W tym przypadku ocena niezawodności może być tak prosta, jak sprawdzenie ostatecznego przewidywania.

Ale modele podstawowe są inne. Model jest wstępnie trenowany przy użyciu ogólnych danych, w środowisku, w którym jego twórcy nie znają wszystkich zadań, do których zostanie zastosowany. Użytkownicy dostosowują go do swoich specyficznych zadań po jego wstępnym przeszkoleniu.

Aby ocenić niezawodność modeli podstawowych, badacze zastosowali podejście zespołowe, trenując kilka modeli, które dzielą wiele cech, ale nieznacznie się różnią.

„Nasza idea jest podobna do pomiaru konsensusu. Jeśli wszystkie te modele podstawowe dają spójne reprezentacje dla dowolnych danych w naszym zestawie danych, możemy powiedzieć, że model jest niezawodny,” mówi Park.

Ale napotkali problem: jak porównać abstrakcyjne reprezentacje?
„Te modele dają tylko wektor, składający się z kilku liczb, więc nie możemy ich łatwo porównać,” dodaje.

Rozwiązali problem, używając idei zwanej spójnością sąsiedztwa.

W swoim podejściu badacze przygotowują zestaw niezawodnych punktów odniesienia do testowania w zespole modeli. Następnie, dla każdego modelu, badają punkty odniesienia znajdujące się blisko reprezentacji modelu dla punktu testowego.

Obserwując spójność sąsiednich punktów, mogą ocenić niezawodność modelu.

Wyrównywanie Reprezentacji
Modele podstawowe mapują punkty danych na to, co jest znane jako przestrzeń reprezentacji. Jednym ze sposobów myślenia o tej przestrzeni jest kula. Każdy model mapuje podobne punkty danych w to samo miejsce w swojej kuli, więc obrazy kotów idą w jedno miejsce, a obrazy psów w inne.

Ale każdy model mapowałby zwierzęta inaczej w swojej kuli, więc podczas gdy koty mogłyby być grupowane w pobliżu Bieguna Południowego jednej kuli, inny model mógłby mapować koty gdzieś na półkuli północnej.

Badacze używają sąsiednich punktów jako kotwic do wyrównania tych kul, aby mogli porównać reprezentacje. Jeśli sąsiedzi punktu danych są spójni w różnych reprezentacjach, możemy być pewni niezawodności modelu dla tego punktu.

Kiedy testowali to podejście na szerokim zakresie zadań klasyfikacyjnych, odkryli, że było ono znacznie bardziej spójne niż metody bazowe. Ponadto nie było ono zmieszane przez trudne punkty testowe, które inne metody myliły.

Co więcej, ich podejście można wykorzystać do oceny niezawodności dla dowolnych danych wejściowych, dzięki czemu można ocenić, jak dobrze model działa dla określonego typu osoby, takiej jak pacjent z określonymi cechami.

„Nawet jeśli wszystkie modele mają średnie wyniki, z perspektywy indywidualnej, preferujesz ten, który najlepiej działa dla tej osoby,” mówi Wang.

Jednym ograniczeniem jest konieczność trenowania zespołu modeli podstawowych, co jest kosztowne obliczeniowo. W przyszłości planują znaleźć bardziej efektywne sposoby budowy wielu modeli, być może poprzez użycie małych perturbacji jednego modelu.

„Z obecnym trendem wykorzystywania modeli podstawowych do ich reprezentacji w celu wspierania różnych zadań — od dostrajania po generowanie z uzupełnianiem z wyszukiwania — temat kwantyfikacji niepewności na poziomie reprezentacji staje się coraz ważniejszy, ale wyzwaniem, ponieważ same reprezentacje nie mają podstawy. Zamiast tego, ważne jest, jak reprezentacje różnych wejść są ze sobą powiązane, idea, którą ta praca zgrabnie ujmuje poprzez proponowany wynik spójności sąsiedztwa,” mówi Marco Pavone, profesor nadzwyczajny w Departamencie Aeronautyki i Astronautyki na Uniwersytecie Stanford, który nie był zaangażowany w tę pracę. „To obiecujący krok w kierunku wysokiej jakości kwantyfikacji niepewności dla modeli reprezentacyjnych, i jestem podekscytowany, widząc przyszłe rozszerzenia, które mogą funkcjonować bez potrzeby zespołów modeli, aby naprawdę umożliwić to podejście w modelach o rozmiarach foundation.”

Ta praca była częściowo finansowana przez MIT-IBM Watson AI Lab, MathWorks i Amazon.

Find accommodation nearby

Creation time: 17 July, 2024

Science & tech desk

Our Science and Technology Editorial Desk was born from a long-standing passion for exploring, interpreting, and bringing complex topics closer to everyday readers. It is written by employees and volunteers who have followed the development of science and technological innovation for decades, from laboratory discoveries to solutions that change daily life. Although we write in the plural, every article is authored by a real person with extensive editorial and journalistic experience, and deep respect for facts and verifiable information.

Our editorial team bases its work on the belief that science is strongest when it is accessible to everyone. That is why we strive for clarity, precision, and readability, without oversimplifying in a way that would compromise the quality of the content. We often spend hours studying research papers, technical documents, and expert sources in order to present each topic in a way that will interest rather than burden the reader. In every article, we aim to connect scientific insights with real life, showing how ideas from research centres, universities, and technology labs shape the world around us.

Our long experience in journalism allows us to recognize what is truly important for the reader, whether it is progress in artificial intelligence, medical breakthroughs, energy solutions, space missions, or devices that enter our everyday lives before we even imagine their possibilities. Our view of technology is not purely technical; we are also interested in the human stories behind major advances – researchers who spend years completing projects, engineers who turn ideas into functional systems, and visionaries who push the boundaries of what is possible.

A strong sense of responsibility guides our work as well. We want readers to trust the information we provide, so we verify sources, compare data, and avoid rushing to publish when something is not fully clear. Trust is built more slowly than news is written, but we believe that only such journalism has lasting value.

To us, technology is more than devices, and science is more than theory. These are fields that drive progress, shape society, and create new opportunities for everyone who wants to understand how the world works today and where it is heading tomorrow. That is why we approach every topic with seriousness but also with curiosity, because curiosity opens the door to the best stories.

Our mission is to bring readers closer to a world that is changing faster than ever before, with the conviction that quality journalism can be a bridge between experts, innovators, and all those who want to understand what happens behind the headlines. In this we see our true task: to transform the complex into the understandable, the distant into the familiar, and the unknown into the inspiring.

NOTE FOR OUR READERS
Karlobag.eu provides news, analyses and information on global events and topics of interest to readers worldwide. All published information is for informational purposes only.
We emphasize that we are not experts in scientific, medical, financial or legal fields. Therefore, before making any decisions based on the information from our portal, we recommend that you consult with qualified experts.
Karlobag.eu may contain links to external third-party sites, including affiliate links and sponsored content. If you purchase a product or service through these links, we may earn a commission. We have no control over the content or policies of these sites and assume no responsibility for their accuracy, availability or any transactions conducted through them.
If we publish information about events or ticket sales, please note that we do not sell tickets either directly or via intermediaries. Our portal solely informs readers about events and purchasing opportunities through external sales platforms. We connect readers with partners offering ticket sales services, but do not guarantee their availability, prices or purchase conditions. All ticket information is obtained from third parties and may be subject to change without prior notice. We recommend that you thoroughly check the sales conditions with the selected partner before any purchase, as the Karlobag.eu portal does not assume responsibility for transactions or ticket sale conditions.
All information on our portal is subject to change without prior notice. By using this portal, you agree to read the content at your own risk.