Rewolucyjny postęp w rozumieniu mechanizmów komórkowych i potencjalnie nowe kierunki w diagnostyce i leczeniu chorób rysują się dzięki innowacyjnemu podejściu, które wykorzystuje moc sztucznej inteligencji. Naukowcy opracowali zaawansowaną metodę obliczeniową, która z wyjątkową precyzją potrafi przewidzieć lokalizację niemal każdego białka w ludzkiej komórce. Model ten, wytrenowany na podstawie wspólnego rozumienia zachowania białek i komórek, otwiera drzwi do szybszej i skuteczniejszej identyfikacji stanów patologicznych oraz rozwoju nowych strategii terapeutycznych.
Pytanie, gdzie białko znajduje się w komórce, nie jest tylko akademickie; ma ono głębokie implikacje dla funkcji komórkowej i, w konsekwencji, dla zdrowia. Błędna lokalizacja białka, czyli jego umieszczenie w nieodpowiednim przedziale komórkowym, może być wyzwalaczem lub znaczącym czynnikiem w rozwoju szeregu ciężkich schorzeń. Na przykład w chorobie Alzheimera, gromadzenie się określonych białek w niewłaściwych miejscach w komórkach mózgowych prowadzi do neurodegeneracji. Podobnie w mukowiscydozie, wadliwe białko nie dociera do swojej prawidłowej lokalizacji na błonie komórkowej, co powoduje zaburzenie transportu jonów. W kontekście nowotworów, nieprawidłowa dystrybucja białek może stymulować niekontrolowany wzrost i podział komórek lub umożliwiać komórkom rakowym unikanie odpowiedzi immunologicznej.
Biorąc pod uwagę, że pojedyncza ludzka komórka zawiera około 70 000 różnych białek i ich wariantów, ręczna identyfikacja lokalizacji każdego z nich stanowi ogromne wyzwanie. Tradycyjne metody eksperymentalne zwykle umożliwiają testowanie tylko niewielkiej liczby białek naraz, czyniąc proces niezwykle kosztownym, długotrwałym i pracochłonnym. Każdy eksperyment wymaga starannego przygotowania, specyficznych odczynników i zaawansowanego sprzętu, a wyniki często dają tylko fragment obrazu złożonej organizacji wewnątrzkomórkowej.
Nowa generacja technik obliczeniowych i Atlas ludzkich białek
Aby przyspieszyć i uprościć to złożone zadanie, rozwijane są nowe generacje technik obliczeniowych. Opierają się one na modelach uczenia maszynowego, które wykorzystują obszerne zbiory danych z informacjami o tysiącach białek i ich lokalizacjach, zmierzonych w różnych liniach komórkowych. Jednym z największych i najważniejszych takich zasobów jest Atlas ludzkich białek (Human Protein Atlas). Ten wszechstronny katalog zawiera dane o subkomórkowym zachowaniu ponad 13 000 białek w ponad 40 różnych typach linii komórkowych. Pomimo swojej imponującej wielkości, Atlas ludzkich białek do tej pory zdołał zbadać zaledwie około 0,25 procent wszystkich możliwych kombinacji białek i linii komórkowych w swojej bazie danych. To jasno wskazuje na ogrom niezbadanego obszaru i potrzebę bardziej zaawansowanych narzędzi, które mogą skutecznie mapować pozostałą część wszechświata białek.
W obliczu tego wyzwania badacze z renomowanych instytucji, takich jak MIT, Uniwersytet Harvarda i Broad Institute (wspólny instytut MIT i Harvarda) opracowali nowe podejście obliczeniowe. Ich metoda umożliwia skuteczne badanie pozostałego, wciąż niezmapowanego obszaru wewnątrzkomórkowej lokalizacji białek. Kluczową zaletą tego nowego podejścia jest zdolność przewidywania lokalizacji dowolnego białka w dowolnej ludzkiej linii komórkowej, nawet w przypadkach, gdy ani specyficzne białko, ani konkretna linia komórkowa nie były wcześniej testowane eksperymentalnie. Stanowi to znaczący krok naprzód w stosunku do istniejących metod.
Precyzja na poziomie pojedynczej komórki
Technika, którą opracowali, idzie o krok dalej niż wiele istniejących metod opartych na sztucznej inteligencji, ponieważ lokalizuje białko na poziomie pojedynczej komórki, zamiast dostarczać średnią ocenę dla wszystkich komórek danego typu. Ta możliwość lokalizacji na poziomie pojedynczej komórki ma ogromne znaczenie. Na przykład umożliwia precyzyjne określenie położenia białka w konkretnej komórce rakowej po zastosowaniu terapii, co może dostarczyć kluczowych informacji na temat skuteczności leczenia i mechanizmów oporności. Zrozumienie heterogeniczności w populacji komórek, nawet w obrębie tej samej linii komórkowej lub tkanki, jest kluczowe dla rozwoju spersonalizowanych podejść medycznych.
Zespół badawczy połączył model języka białkowego ze specjalnym rodzajem modelu widzenia komputerowego, aby uchwycić bogate i szczegółowe informacje o białku i komórce. Model języka białkowego analizuje sekwencję aminokwasów tworzącą białko, wydobywając informacje o jego strukturze i właściwościach, które określają jego skłonność do określonych przedziałów komórkowych. Z drugiej strony, model widzenia komputerowego, znany jako model uzupełniania obrazu (image inpainting model), analizuje obrazy komórki zabarwione specyficznymi markerami, aby zebrać informacje o stanie tej komórki – jej typie, indywidualnych cechach i ewentualnej obecności stresu lub zmian patologicznych. Końcowym rezultatem, który otrzymuje użytkownik, jest obraz komórki z wyróżnionym obszarem wskazującym przewidywaną lokalizację białka. Ponieważ lokalizacja białka jest często wskaźnikiem jego statusu funkcjonalnego, technika ta może pomóc badaczom i klinicystom w skuteczniejszej diagnostyce chorób, identyfikacji cząsteczek docelowych dla nowych leków oraz umożliwić biologom lepsze zrozumienie związku między złożonymi procesami biologicznymi a dystrybucją białek w komórce.
Yitong Tseo, doktorant w programie Biologii Obliczeniowej i Systemowej MIT oraz jeden z głównych autorów pracy opublikowanej na ten temat w czasopiśmie Nature Methods 15 maja 2025 r., podkreśla: "Można by przeprowadzać te eksperymenty lokalizacji białek na komputerze bez konieczności wchodzenia do laboratorium, miejmy nadzieję oszczędzając miesiące wysiłku. Chociaż nadal trzeba by zweryfikować przewidywanie, technika ta mogłaby działać jako wstępne badanie przesiewowe tego, co należy przetestować eksperymentalnie."
Obok Tsea, jako główna autorka pracy podpisana jest Xinyi Zhang, doktorantka na Wydziale Elektrotechniki i Informatyki (EECS) oraz w Centrum Erica i Wendy Schmidt przy Broad Institute. Wśród autorów są również Yunhao Bai z Broad Institute oraz starsi autorzy Fei Chen, adiunkt na Harvardzie i członek Broad Institute, oraz Caroline Uhler, profesor inżynierii na katedrze Andrew i Erny Viterbi w EECS oraz w Instytucie Danych, Systemów i Społeczeństwa (IDSS) na MIT, która jest również dyrektorem Centrum Erica i Wendy Schmidt oraz badaczką w Laboratorium Systemów Informacyjnych i Decyzyjnych (LIDS) MIT.
Współpraca zaawansowanych modeli: Wprowadzenie do PUPS
Wiele istniejących modeli przewidywania zachowania białek jest ograniczonych tym, że mogą dokonywać przewidywań tylko na podstawie danych o białkach i komórkach, na których zostały wytrenowane, lub nie są w stanie precyzyjnie określić lokalizacji białek w pojedynczej komórce. Aby przezwyciężyć te ograniczenia, badacze stworzyli dwuczęściową metodę przewidywania subkomórkowej lokalizacji dotychczas nieznanych białek, nazwaną PUPS (Prediction of Unseen Proteins' Subcellular localization - Predykcja Subkomórkowej Lokalizacji Niewidzianych Białek).
Pierwsza część PUPS wykorzystuje model sekwencji białkowej. Model ten został zaprojektowany tak, aby uchwycić właściwości białka, które determinują jego lokalizację, a także jego trójwymiarową strukturę, na podstawie tworzącego go łańcucha aminokwasów. Sekwencja aminokwasowa jest podstawową informacją, która dyktuje, jak białko się zwinie i jakie funkcje będzie pełnić, włączając w to sygnały kierujące je wewnątrz komórki.
Druga część systemu obejmuje model uzupełniania obrazu (image inpainting model). Jest to zaawansowany model widzenia komputerowego, pierwotnie zaprojektowany do wypełniania brakujących części obrazu. W tym kontekście model analizuje trzy różnie zabarwione obrazy komórki, aby zebrać kluczowe informacje o jej stanie. Obrazy te zwykle przedstawiają jądro (za pomocą markera takiego jak DAPI), mikrotubule (ważne składniki cytoszkieletu) i siateczkę śródplazmatyczną (kluczowy organellum do syntezy i transportu białek). Analizując te markery, model uzyskuje wgląd w typ komórki, jej indywidualne cechy morfologiczne oraz wykrywa, czy komórka znajduje się pod wpływem jakiejś formy stresu, co może wpływać na dystrybucję białek.
Następnie PUPS łączy reprezentacje, czyli cyfrowe opisy, utworzone z każdego z tych dwóch modeli – modelu sekwencji białkowej i modelu obrazu komórki. Łącząc te informacje, system przewiduje, gdzie białko znajduje się w konkretnej, pojedynczej komórce. Do wizualizacji tego przewidywania wykorzystuje się dekoder obrazu, który generuje obraz wyjściowy. Na tym obrazie wyraźnie zaznaczony jest obszar, w którym PUPS przewiduje lokalizację badanego białka.
"Różne komórki w obrębie jednej linii komórkowej wykazują różne cechy, a nasz model jest w stanie zrozumieć tę subtelność", wyjaśnia Tseo. Ta zdolność rozróżniania indywidualnych wariacji komórkowych jest kluczowa dla precyzyjnej analizy.
Użytkownik systemu PUPS musi wprowadzić sekwencję aminokwasów tworzącą białko będące przedmiotem zainteresowania oraz trzy obrazy markerów komórkowych – jeden dla jądra, jeden dla mikrotubul i jeden для siateczki śródplazmatycznej. Po wprowadzeniu tych danych PUPS przeprowadza resztę analizy i generuje przewidywanie lokalizacji.
Głębsze zrozumienie poprzez innowacyjny proces uczenia się
Podczas procesu trenowania modelu PUPS badacze zastosowali kilka innowacyjnych technik, aby nauczyć go skutecznego łączenia informacji z obu składowych modeli. Celem było umożliwienie PUPS dokonania uzasadnionego przypuszczenia co do lokalizacji białka, nawet jeśli nigdy wcześniej nie "widział" tego konkretnego białka lub linii komórkowej.
Jedna z tych technik polega na przydzieleniu modelowi dodatkowego zadania podczas treningu: jawnego nazwania przedziału lokalizacji, takiego jak jądro komórkowe, mitochondria czy aparat Golgiego. Zadanie to jest wykonywane równolegle z głównym zadaniem uzupełniania obrazu (przewidywania, gdzie białko znajduje się na obrazie). Wykazano, że ten dodatkowy krok pomaga modelowi skuteczniej się uczyć i rozwijać lepsze ogólne zrozumienie możliwych przedziałów komórkowych i sygnałów, które kierują do nich białka. Analogią może być nauczyciel, który prosi uczniów nie tylko o narysowanie wszystkich części kwiatu, ale także o napisanie ich nazw. Ten dodatkowy wymóg nazewnictwa wzmacnia naukę i zrozumienie.
Ponadto fakt, że PUPS jest jednocześnie trenowany na danych dotyczących białek i linii komórkowych, pomaga mu rozwinąć głębsze zrozumienie tego, gdzie białka zazwyczaj lokalizują się na obrazie komórki. System uczy się rozpoznawać subtelne wzorce i korelacje między cechami białka (wynikającymi z jego sekwencji) a cechami wizualnymi komórki (wynikającymi z obrazów markerów).
Imponujące jest to, że PUPS potrafi nawet samodzielnie zrozumieć, w jaki sposób różne części sekwencji białkowej oddzielnie przyczyniają się do jego ogólnej lokalizacji. Oznacza to, że model potrafi zidentyfikować specyficzne motywy aminokwasowe lub domeny w obrębie białka, które działają jak "kody pocztowe", kierując białko do miejsca przeznaczenia w komórce.
"Większość innych metod zwykle wymaga, aby najpierw mieć marker dla białka, więc już widziałeś je w swoich danych treningowych. Nasze podejście jest wyjątkowe, ponieważ potrafi generalizować jednocześnie na białka i linie komórkowe", podkreśla Zhang. Ta zdolność generalizacji do niewidzianych przypadków jest kluczową zaletą PUPS.
Ponieważ PUPS potrafi generalizować na białka, których nie napotkał podczas treningu, jest w stanie wychwycić zmiany w lokalizacji spowodowane unikalnymi mutacjami białkowymi nieuwzględnionymi w Atlasie ludzkich białek. Jest to szczególnie ważne w badaniu chorób genetycznych, w których mutacje mogą zmieniać zachowanie białka, w tym jego wewnątrzkomórkową dystrybucję.
Badacze potwierdzili zdolność PUPS do przewidywania subkomórkowej lokalizacji nowych białek w dotychczas niewidzianych liniach komórkowych, przeprowadzając eksperymenty laboratoryjne i porównując wyniki. Porównanie z istniejącą, podstawową metodą sztucznej inteligencji wykazało, że PUPS średnio wykazywał mniejszy błąd przewidywania dla testowanych białek. Te wyniki walidacji potwierdzają solidność i dokładność nowego modelu.
Przyszłe kierunki i potencjalne zastosowania
Patrząc w przyszłość, zespół badawczy planuje dalsze doskonalenie PUPS. Jednym z celów jest umożliwienie modelowi zrozumienia interakcji białko-białko, czyli tego, jak białka oddziałują na siebie nawzajem i jak te interakcje mogą wpływać na ich wspólną lokalizację. Pracują również nad tym, aby PUPS mógł przewidywać lokalizację wielu białek jednocześnie w jednej komórce, dostarczając w ten sposób bardziej złożonego obrazu organizacji komórkowej.
Długoterminowa wizja obejmuje przeszkolenie PUPS do dokonywania przewidywań nie tylko na hodowanych komórkach w warunkach laboratoryjnych, ale także na próbkach żywej tkanki ludzkiej. Taki postęp miałby ogromne znaczenie для diagnostyki klinicznej i rozwoju terapii, umożliwiając analizę lokalizacji białek w rzeczywistym kontekście biologicznym pacjenta. Zrozumienie, jak białka zachowują się w złożonym środowisku tkanek, z różnymi typami komórek i interakcjami międzykomórkowymi, otworzyłoby nowe perspektywy dla medycyny spersonalizowanej. Ta pionierska praca na styku sztucznej inteligencji, biologii komórkowej i medycyny obiecuje transformację naszego podejścia do badania, diagnozowania i leczenia chorób, stawiając moc analizy predykcyjnej w służbie ludzkiego zdrowia.
Badania zostały sfinansowane przez Centrum Erica i Wendy Schmidt przy Broad Institute, Narodowe Instytuty Zdrowia (NIH), Narodową Fundację Nauki (NSF), Burroughs Wellcome Fund, Fundację Searle Scholars, Harvard Stem Cell Institute, Merkin Institute, Biuro Badań Morskich oraz Departament Energii USA.
Źródło: Massachusetts Institute of Technology
Greška: Koordinate nisu pronađene za mjesto:
Czas utworzenia: 16 maja, 2025