Вилікувати Альцгеймера і Паркінсона. Як ШІ став претендентом на Нобелівку
Стартап DeepMind, який менше семи років назад купила компанія Google, вирішив проблему, з якою біохіміки намагалися впоратися майже пів століття
Штучний інтелект (ШІ) і медицина — ці два наукових напрямки, що розвиваються паралельно, повинні були колись перетнутися. І нарешті це сталося. Нейромережа AlphaFold вперше в історії навчилася передбачати тривимірну структуру білків по їх одновимірній амінокислотній послідовності, роблячи це набагато швидше і дешевше, ніж сучасні колективи біохіміків з усіма своїми лабораторіями.
У результаті медики отримали перспективу навчитися лікувати хвороби типу Альцгеймера і Паркінсона. А також, підкреслимо, знайти ефективні способи боротьби з коронавірусом.
Відставання в тисячу разів
Білки, що необхідні для життя, підтримуть практично всі його функції. З точки зору хімії, це величезні молекули, що представляють собою згорнуті складним чином ланцюжки амінокислот.
Кожен білок характеризується власною амінокислотною послідовністю, яку називають також первинною структурою. Розшифровкою амінокислотної послідовності вчені займаються з середини минулого століття. У 1958 р. британський біохімік Фредерік Сенгер отримав Нобелівську премію з хімії за видатне досягнення в цьому напрямку — встановлення первинної структури інсуліну, яке відкрило шлях до синтетичного отримання інсуліну і інших гормонів.
З тих пір роботи в цьому напрямку просуваються все більш високими темпами. Цьому допомогло з'ясування того факту, що амінокислотна послідовність запрограмована в генах. Революція в геноміці уможливила зчитування первинної структури білків, так би мовити, в промисловому масштабі. Величезні обсяги даних про амінокислотні послідовності стали доступні в результаті широкомасштабних робіт з секвенування ДНК, таких як проєкт "Геном людини". До теперішнього часу в базі даних Universal Protein (UniProt) представлена первинна структура вже 180 млн білків.
Однак функції білка визначаються не тільки його хімічним складом і амінокислотною послідовністю. Багато в чому вони залежать від його унікальної тривимірної структури, в яку скручується і укладається первинна структура. За формою своєї тривимірної структури білки діляться в основному на глобулярні і фібрилярні. Глобулярні білки мають еліпсовидну форму, як у м'яча для регбі, а фібрилярні (ниткоподібні) — витягнуту, як у палички або веретена.
Розгадуванням тривимірної структури білків вчені зайнялися ще в 1950-ті. І тут теж були швидко досягнуті вражаючі успіхи. Британські біохіміки Макс Перуц і Джон Кендрю за свої дослідження структури глобулярних білків удостоїлися Нобелівської премії з хімії в 1962 р. Однак темпи просування по цьому напряму в тисячу разів нижчі, ніж по розшифровці амінокислотної послідовності. На даний момент в Protein Data Bank (PDB) представлені тривимірні структури 170 тис. білків. Тобто розгадана тривимірна структура лише у менш ніж 0,1% відомих білків (у 170 тис. з 180 млн).
І це притому що всі ці роки тривимірна структура білків була предметом інтенсивних наукових досліджень з використанням різних експериментальних методів, таких як ядерний магнітний резонанс і рентгенівська кристалографія. Нещодавно до них додалася кріоелектронна мікроскопія високої роздільної здатності, що дозволяє визначати структуру біомолекул у розчині. За її розвиток отримали Нобелівську премію з хімії 2017 р. три біохіміка: американець Йоахім Франк, швейцарець Жак Дюбоше і британець Річард Хендерсон.
Однак всі ці методи вимагають багаторічної копіткої роботи великих дослідницьких колективів та використання спеціалізованого обладнання вартістю в мільйони доларів. Саме тому і накопичилося тисячократне відставання бази тривимірних структур від бази первинних структур.
Ідея довжиною в пів століття
Чи існує якийсь чудовий спосіб обійтися без трудомістких і дорогих експериментів, щоб передбачити тривимірну структуру білка? Ідея такого способу народилася, як не парадоксально, завдяки експериментам.
У 1972 р. Нобелівську премію з хімії отримали три американці — Крістіан Анфінсен, Вільям Стайн і Станфорд Мур — за різнобічні дослідження рибонуклеази (цей білок відіграє ключову роль у багатьох біологічних процесах). Зокрема, Анфінсен отримав половину премії "за роботу з дослідження рибонуклеази, особливо взаємозв'язку між амінокислотною послідовністю і її біологічно активними конферментамі". Простіше кажучи, він вивчив взаємозв'язок між первинною і тривимірною структурою рибонуклеази.
У своїй промові на присудженні Нобелівської премії Анфінсен висловив припущення, що не тільки у рибонуклеази, а у всіх білків амінокислотна послідовність повністю визначає тривимірну структуру. Ця гіпотеза викликала пошук, що триває вже майже пів століття, — пошук можливості передбачити за допомогою комп'ютерних обчислень тривимірну структуру білка, грунтуючись виключно на його одновимірній амінокислотній послідовності.
Звичайно, завдання, яке поставив Анфінсен, виходило далеко за межі можливостей науки в той час. Однак у міру розвитку обчислювальної техніки все більше число дослідників замислювалися над цією проблемою і намагалися приступити до її вирішення.
З 1994 р. у США кожні два роки проводиться CASP (Critical Assessment of protein Structure Prediction — "Критична оцінка передбачення структури білка") — масштабний експеримент, який об'єктивно тестує методи передбачення тривимірної структури. У цьому проєкті беруть участь на постійній основі вже понад 100 дослідницьких груп.
По суті, це чемпіонат світу з рішення завдання Анфінсена. Все проходить по суворим канонам наукових змагань. Усім учасникам пропонується однаковий тест — близько сотні білків, чию тривимірну структуру потрібно передбачити. Базовий принцип CASP — відсутність у учасників будь-якої попередньої інформації про білок, крім амінокислотної послідовності. З цієї причини в CASP використовується подвійний сліпий метод — ні організатори, ні експерти, ні учасники не знають структури білків, що текстують, до закінчення стадії прогнозів. Потім експерти порівнюють передбачення учасників з експериментально визначеною структурою.
Кількісна характеристика якості передбачення — GDT (global distance test). Говорячи спрощено, це відсоток амінокислотних залишків (тобто елементів амінокислотної послідовності), чиє просторове положення передбачене правильно. Тобто максимальний можливий результат — це 100 GDT. За словами співзасновника і президента CASP, професора Мерілендського університету Джона Моулта, пророкування, що отримало оцінку близько 90 GDT, неофіційно вважається конкурентоспроможним з результатами, отриманими за допомогою експериментальних методів.
Однак на шляху до жаданих 90 GDT вчені міцно застрягли. У 2006-2016 рр. результати кращих команд коливалися в межах близько 30-40 GDT. І ніякого прогресу не спостерігалося.
Нейромережа перевершила людей
І ось тут у нашій історії з'являється компанія Google. На початку 2014 р. вона придбала за більш ніж $400 млн лондонський стартап DeepMind, заснований у 2010 р. та займається розробкою систем штучного інтелекту.
Підтримка Google дозволила стартапу братися за найважчі завдання. З 2016 р. команда DeepMind поставила перед собою амбітну мету перемоги в CASP. І за два роки ця мета була досягнута. У DeepMind створили нейромережу AlphaFold, яка в грудні 2018 р. була визнана переможницею чергових, 13-х за рахунком змагань CASP. Вона досягла рекордного результату — майже 60 GDT.
Звичайно, це ще не означало рішення задачі Анфінсена. Але медіа вже передчували початок нової ери наукового і медичного прогресу. У січні 2020 р. у журналі Nature вийшла стаття, в якій розробники AlphaFold поділилися своїми методами.
До наступних змагань CASP-14, що розпочалися в травні 2020 р. команда DeepMind підготувала вдосконалену нейромережу AlphaFold. Вона була натренована за допомогою глибокого навчання: їй задавали один за іншим білки з бази PDB, вона намагалася пророкувати їх тривимірну структуру і вчилася на власних помилках, поступово наближаючись до досконалості.
30 листопада були оприлюднені результати CASP-14. Нейромережа AlphaFold по всіх цілях отримала середній бал 92,4 GDT. Це означає, що її прогнози мають середню помилку приблизно 0,16 нанометра, що можна порівняти з шириною атома (0,1 нанометра). Навіть для дуже складних білкових мішеней, що відносяться до найбільш складної категорії вільного моделювання, AlphaFold досягла середнього бала 87,0 GDT.
Організатори CASP визнали цей результат рішенням завдання Анфінсена. Тобто вчені тепер мають у своєму розпорядженні довгоочікуваний метод передбачення тривимірної структури білка за його амінокислотною послідовностю.
Професор Моулт не приховує своїх емоцій. "Ми застрягли на одній проблемі — як складаються білки — майже на 50 років. Дуже особливий момент бачити, як DeepMind пропонує рішення для цього, — після того як ти особисто працював над цією проблемою так довго і після стількох зупинок і пробуксовок, коли задавався питанням, доберемося ми коли-небудь до цього", — каже співзасновник CASP.
Результат AlphaFold — це фактично досягнення нобелівського рівня. І якщо не сама нейромережа, то хоча б її розробники, можливо, увійдуть до списку номінантів на Нобелівську премію.
"Ця обчислювальна робота являє собою приголомшливий крок вперед у вирішенні проблеми згортання білків, грандіозного завдання біології 50-річної давності. Це сталося на десятиліття раніше, ніж передбачали багато фахівців у цій галузі. Буде цікаво побачити, як це фундаментально змінить біологічні дослідження", — говорить президент Королівського товариства (це британський аналог академії наук) біохімік Вінки Рамакришнан, який, до речі, в 2009 р. отримав Нобелівську премію з хімії.
Нові перспективи для медицини
Уміння передбачати тривимірну структуру білка допоможе зрозуміти, як хвороби виникають і поширюються в організмі. Наприклад, хвороба Паркінсона розвивається через накопичення в деяких нейронах (клітинах мозку) білка альфа-синуклеїну: він скручується і утворює всередині нейронів токсичні клубки — тільця Леві. Але як саме з'являється цей білок, вчені до цих пір точно не знають. Розуміння тривимірної структури білка допоможе відповісти на це питання.
Або візьмемо хворобу Альцгеймера. Вона породжується по одній гіпотезі накопиченням білка бета-амілоїду, за іншою — відхиленнями в структурі тау-білка. Точна роль цих двох білків у розвитку хвороби невідома. З'ясування їх тривимірної структури має допомогти навчитися діагностувати хворобу Альцгеймера на ранніх стадіях і створити ефективні ліки.
Подібних прикладів можна навести безліч, включаючи діабет, муковісцидоз і хворобу Гантінгтона. Крім того, особливо гостра потреба в терміновому прогнозі тривимірної структури білків виникає в разі раптових пандемій.
Команда DeepMind вже використовувала нейромережу AlphaFold для передбачення тривимірних структур кількох білків, які виробляються в клітинах, уражених коронавірусом. У числі цих білків — ORF3a і ORF8, тривимірна структура яких була потім перевірена експериментально. Пророцтва AlphaFold з високим ступенем точності збіглися з результатами експериментів.
У даний час DeepMind готує статтю з описом своєї системи для публікації в рецензованому журналі. Після цього досвід створення подібних нейромереж зможуть освоїти науково-дослідні колективи та біотехнологічні компанії по всьому світу.
"Білкова біологія фантастично складна і не піддається простій характеристиці, — підкреслює керівник проєкту AlphaFold Джон Джампер. — Робота нашої команди демонструє, що методи машинного навчання нарешті можуть відповідати складності опису цих неймовірних білкових машин. І ми щиро раді бачити, які нові прориви в області здоров'я людини і фундаментальної біології вони принесуть".
Варто відзначити ще й те, що людство отримало переконливий аргумент на користь штучного інтелекту. Це вже не ігри та забави.
"Кінцева мета DeepMind завжди полягала в тому, щоб створити штучний інтелект, а потім використовувати його для поглиблення наших знань про навколишній світ за рахунок прискорення темпів наукових відкриттів, — говорить засновник і керівник DeepMind Деміс Хассабіс. — Для нас AlphaFold є перший доказ цієї тези. Це досягнення — наш перший великий прорив у давній грандіозній задачі науки, яка, як ми сподіваємося, зробить великий реальний вплив на розуміння хвороб і відкриття ліків".