CodeSteer: mit AI Trainer dla inteligentniejszych modeli LLM

Przełomowy CodeSteer mit: inteligentny „trener”, który uczy wielkojęzycznych modeli rozwiązywania problemów

Wielkie modele językowe (LLM) stanowią szczyt dzisiejszej technologii sztucznej inteligencji, demonstrując niezwykłą zdolność do rozumienia i generowania tekstu. Ich umiejętność rozumowania tekstowego pozwala im zrozumieć kontekst dokumentów i dostarczać logiczne, spójne odpowiedzi. Jednakże, pomimo tej zaawansowanej technologii, te same modele często napotykają na niemożliwe do pokonania przeszkody, gdy stają przed najprostszymi problemami matematycznymi lub logicznymi. Paradoks polega na tym, że rozumowanie tekstowe, ich podstawowa siła, jest często nieodpowiednim narzędziem do rozwiązywania zadań obliczeniowych lub algorytmicznych.

Chociaż niektóre zaawansowane LLM, takie jak GPT-4, są w stanie generować kod programistyczny w językach takich jak Python w celu rozwiązywania zapytań symbolicznych, kluczowe wyzwanie pozostaje: modele nie zawsze wiedzą, kiedy właściwe jest użycie kodu zamiast tekstu, ani jaki typ kodu byłby najskuteczniejszy dla danego problemu. Wydaje się, że te potężne modele językowe potrzebują swoistego "trenera" lub "mentora", który kierowałby je w stronę optymalnej techniki rozwiązywania problemów. Właśnie w tym miejscu na scenę wkracza innowacyjne rozwiązanie z Massachusetts Institute of Technology (MIT).

Inteligentny asystent dla modeli językowych

Naukowcy z MIT opracowali system o nazwie CodeSteer, inteligentnego asystenta zaprojektowanego do prowadzenia wielkiego modelu językowego przez proces wyboru między generowaniem tekstu a kodem programistycznym, aż do uzyskania poprawnego rozwiązania zapytania. CodeSteer, który sam jest mniejszym, wyspecjalizowanym modelem językowym, działa poprzez automatyczne generowanie serii instrukcji (promptów), aby iteracyjnie kierować pracą większego, potężniejszego LLM. Po każdym kroku CodeSteer analizuje bieżące i poprzednie odpowiedzi modelu i dostarcza wskazówek do poprawy lub ulepszenia rozwiązania, kontynuując ten proces, aż uzna, że odpowiedź jest poprawna i kompletna.

To podejście okazało się niezwykle skuteczne. Badania wykazały, że uzupełnienie większego LLM o system CodeSteer zwiększyło jego dokładność w zadaniach symbolicznych o ponad 30 procent. Testowane zadania obejmowały szeroki zakres problemów, od mnożenia liczb i rozwiązywania łamigłówek Sudoku po zadania logiczne, takie jak układanie klocków. Istotne jest również to, że system ten pozwolił mniej zaawansowanym modelom przewyższyć bardziej zaawansowane modele o ulepszonych zdolnościach rozumowania, ale bez zewnętrznego prowadzenia.

Ten postęp ma potencjał, by drastycznie poprawić zdolności rozwiązywania problemów przez LLM, zwłaszcza w przypadku złożonych zadań, które są niezwykle trudne do rozwiązania wyłącznie za pomocą rozumowania tekstowego. Przykłady takich zadań obejmują generowanie ścieżek dla robotów w niepewnych środowiskach lub optymalizację harmonogramów dostaw w ramach złożonego międzynarodowego łańcucha dostaw.

"Jesteśmy świadkami wyścigu w rozwoju coraz lepszych modeli zdolnych do wszystkiego, ale my przyjęliśmy komplementarne podejście" - powiedziała Chuchu Fan, profesor nadzwyczajny aeronautyki i astronautyki (AeroAstro) i główny badacz w Laboratorium Systemów Informacyjnych i Decyzyjnych (LIDS) na MIT. "Naukowcy spędzili lata na opracowywaniu skutecznych technologii i narzędzi do rozwiązywania problemów w wielu dziedzinach. Naszym celem jest umożliwienie LLM wyboru odpowiednich narzędzi i metod oraz wykorzystanie wiedzy innych w celu poprawy własnych zdolności."

Nad pracą naukową dotyczącą tych badań, która zostanie zaprezentowana na Międzynarodowej Konferencji Uczenia Maszynowego, oprócz profesor Fan pracowali również doktorant LIDS Yongchao Chen, doktorant AeroAstro Yilun Hao, doktorantka z Uniwersytetu Illinois w Urbana-Champaign Yueying Liu oraz naukowiec z MIT-IBM Watson AI Lab, Yang Zhang.

Jak działa "trener" dla LLM?

Aby zrozumieć problem, który rozwiązuje CodeSteer, wystarczy zadać LLM proste pytanie: która liczba jest większa, 9.11 czy 9.9? Korzystając z rozumowania tekstowego, model często udzieli błędnej odpowiedzi. Jednakże, jeśli zostanie mu polecone użycie kodu programistycznego do odpowiedzi, wygeneruje i wykona prosty skrypt w Pythonie do porównania dwóch liczb i bez problemu dojdzie do prawidłowego rozwiązania.

Ponieważ początkowo były trenowane do rozumienia i przewidywania języka ludzkiego, LLM są bardziej skłonne do odpowiadania na zapytania za pomocą tekstu, nawet gdy kod byłby znacznie bardziej efektywny. Chociaż poprzez proces dostrajania (fine-tuning) nauczyły się generować kod, często generują niepoprawną lub mniej wydajną wersję wymaganego kodu.

Zamiast próbować ponownego trenowania potężnych LLM, takich jak GPT-4 czy Claude, w celu poprawy tych zdolności, co jest niezwykle kosztownym i złożonym procesem, naukowcy z MIT zdecydowali się na bardziej subtelne rozwiązanie. Dostroili mniejszy, "lżejszy" model językowy, który służy jako przewodnik dla większego modelu, kierując go między tekstem a kodem. Dostrajanie mniejszego modelu nie zmienia podstawowej architektury większego LLM, co eliminuje ryzyko naruszenia jego pozostałych, już udoskonalonych zdolności.

"Inspirację znaleźliśmy również u ludzi. W sporcie trener może nie być lepszy od gwiazdy drużyny, ale wciąż może udzielać przydatnych rad, aby prowadzić sportowca. Ta metoda kierowania działa również w przypadku LLM" - wyjaśnia Yongchao Chen.

Ten "trener", CodeSteer, działa w tandemie z większym LLM. Najpierw przegląda zapytanie i określa, czy do rozwiązania problemu bardziej odpowiedni jest tekst czy kod, i jaki rodzaj kodu byłby najlepszy. Następnie generuje specyficzną instrukcję (prompt) dla większego LLM, nakazując mu użycie określonej metody kodowania lub rozumowania tekstowego. Większy model postępuje zgodnie z tą instrukcją, generuje odpowiedź i wysyła ją z powrotem do CodeSteer w celu weryfikacji. Jeśli odpowiedź jest nieprawidłowa, CodeSteer kontynuuje generowanie nowych instrukcji, zachęcając LLM do wypróbowania różnych podejść, które mogłyby rozwiązać problem. Może to obejmować na przykład włączenie algorytmu wyszukiwania lub określonego ograniczenia do kodu Pythona, aż do osiągnięcia poprawnego wyniku.

"Odkryliśmy, że większy LLM często próbuje być 'leniwy' i używać krótszego, mniej efektywnego kodu, który nie przeprowadzi poprawnego obliczenia symbolicznego. Zaprojektowaliśmy CodeSteer, aby uniknąć tego zjawiska" - dodaje Chen. Aby zapewnić jakość, system zawiera również "kontrolera symbolicznego", który ocenia złożoność wygenerowanego kodu i wysyła sygnał do CodeSteer, jeśli kod jest zbyt prosty lub nieefektywny. Ponadto naukowcy wbudowali mechanizm samokontroli odpowiedzi, który zachęca LLM do generowania dodatkowego kodu, który obliczy odpowiedź i w ten sposób potwierdzi jej poprawność.

Radzenie sobie ze złożonymi zadaniami i tworzenie nowych benchmarków

Podczas rozwoju systemu CodeSteer zespół badawczy stanął przed nieoczekiwanym wyzwaniem: brakiem odpowiednich zbiorów danych (datasetów) do dostrajania i testowania modelu. Większość istniejących benchmarków nie precyzowała, czy dane zapytanie można najlepiej rozwiązać za pomocą tekstu czy kodu. Z tego powodu naukowcy musieli stworzyć własne zasoby.

Zebrali korpus 37 złożonych zadań symbolicznych, w tym rozumowanie przestrzenne, matematykę, logiczne wnioskowanie o kolejności i optymalizację, i na tej podstawie zbudowali własny zbiór danych o nazwie SymBench. Wdrożyli podejście dostrajania, które wykorzystuje SymBench w celu maksymalizacji wydajności CodeSteer.

W eksperymentach CodeSteer przewyższył wszystkie dziewięć metod bazowych, z którymi go porównywano, i podniósł średnią dokładność z 53,3% do imponujących 86,4%. Wykazał podobną wydajność nawet w zadaniach, których nigdy wcześniej nie widział, a także na różnych typach wielkich modeli językowych. Co więcej, model ogólnego przeznaczenia ulepszony przez CodeSteer może osiągnąć wyższą dokładność niż najnowocześniejsze modele, które są specjalnie zaprojektowane do złożonego rozumowania i planowania, i to przy znacznie niższym zużyciu obliczeniowym.

"Nasza metoda wykorzystuje własne zdolności LLM. Rozszerzając LLM o zdolność inteligentnego korzystania z kodowania, możemy wziąć model, który jest już bardzo potężny, i jeszcze bardziej poprawić jego wydajność" - podkreśla Chen.

Eksperci spoza zespołu MIT również uznali wagę tego osiągnięcia. Jinsung Yoon, naukowiec w Google Cloud AI, który nie był zaangażowany w pracę, skomentował: "Autorzy przedstawiają eleganckie rozwiązanie kluczowego wyzwania związanego z używaniem narzędzi w LLM. Ta prosta, ale wpływowa metoda pozwala najnowocześniejszym LLM osiągnąć znaczną poprawę wydajności bez potrzeby bezpośredniego dostrajania."

Podobne zdanie podziela Chi Wang, starszy naukowiec w Google DeepMind, który również nie brał udziału w badaniach. "Ich sukces w trenowaniu mniejszego, wyspecjalizowanego modelu do strategicznego prowadzenia większych, zaawansowanych modeli jest szczególnie wpływowy. Ta inteligentna współpraca między różnymi 'agentami' AI otwiera drogę do bardziej solidnych i wszechstronnych zastosowań w złożonych scenariuszach rzeczywistego świata."

Patrząc w przyszłość, naukowcy planują dalszą optymalizację CodeSteer w celu przyspieszenia jego iteracyjnego procesu udzielania instrukcji. Ponadto badają, jak skutecznie dostroić pojedynczy model, który miałby wewnętrzną zdolność do przełączania się między rozumowaniem tekstowym a generowaniem kodu, zamiast polegać na osobnym asystencie. Te badania, wspierane częściowo przez amerykańskie Biuro Badań Morskich i MIT-IBM Watson AI Lab, stanowią znaczący krok w kierunku tworzenia bardziej wszechstronnej i niezawodnej sztucznej inteligencji.

Znajdź nocleg w pobliżu

Czas utworzenia: 18 lipca, 2025

Przełomowy CodeSteer mit: inteligentny „trener”, który uczy wielkojęzycznych modeli rozwiązywania problemów

Inteligentny asystent dla modeli językowych

Jak działa "trener" dla LLM?

Radzenie sobie ze złożonymi zadaniami i tworzenie nowych benchmarków

Znajdź nocleg w pobliżu

AI Ana Vau

Wydarzenia Chorwacja

Zadar znów błyszczy: mistrz kraju Ante Butić, Chorwacja w Makao 2026 przy wsparciu Rady Turystycznej Hrabstwa Zadar

Jesień w Poręcu: Sport Fest, IRONMAN 70.3 i Puchar Europy Majorette Cup wypełniają Salę Žatika i Ośrodek Zelena

Šibenik gości 19. kongres chorwackich kempingów 27-29 października 2025 r.: zrównoważony rozwój, inwestycje i innowacje

Pierwsze spotkanie grup tamburitza w Zagrzebiu: Kud Vrapčanci, FA Bilje, HSPD Podgorac i HKPD Bosiljak w CZKIO Susedgrad

Adi Šoše w Karlovacu: koncert walentynkowy 13 lutego 2026 roku w ŠSD Rakovac z największymi przebojami i wystawną produkcją

Kvarner przed 2026 rokiem jako europejski region gastronomii: szkolenia w Rijece i Pierścieniu Rijeki podnoszą standardy

Nie jestem taki /Hallway to Nowhere: chorwacka premiera w Zagrzebiu i rozpoczęcie dystrybucji w kinach od 16 października

Motovun: 14. Festiwal terana i trufli 18 i 19 października 2025 oferuje degustacje, spacery i program muzyczny

Przełomowy CodeSteer mit: inteligentny „trener”, który uczy wielkojęzycznych modeli rozwiązywania problemów

Inteligentny asystent dla modeli językowych

Jak działa "trener" dla LLM?

Radzenie sobie ze złożonymi zadaniami i tworzenie nowych benchmarków

Znajdź nocleg w pobliżu

Powiązane