AlphaFold — революційне досягнення штучного інтелекту в біології
У клітинах людського організму безперервно функціонують мільярди «молекулярних машин». Вони забезпечують здатність очей сприймати світло, нейронів — передавати імпульси, а також дають змогу зчитувати генетичну інформацію з ДНК, що робить кожну людину унікальною1.
Ідеться про білки — фундаментальні блоки, які лежать в основі всіх біологічних процесів людського організму1.
Десятиліттями вчені намагалися знайти метод, який дав би змогу надійно прогнозувати структуру білка на основі послідовності його амінокислот. Цей грандіозний науковий виклик відомий як «проблема згортання білків»1.
Розв'язання цієї проблеми має надзвичайне значення, оскільки швидке та надійне прогнозування структури білків сприятиме розробленню нових ліків і дослідженню захворювань через призму молекулярної біології та біоінформатики2.
Стисло про будову білків
Структура білка — це своєрідне «намисто», утворене лінійною послідовністю амінокислот, з’єднаних між собою пептидними зв’язками у поліпептидні ланцюги. Послідовність амінокислот є унікальною для кожного білка і визначається генетичним кодом ДНК1.
Взаємодія 20 стандартних амінокислот змушує поліпептидний ланцюг складатися у «спонтанне оригамі», формуючи складні завитки та петлі тривимірної структури білка1.
Проблема згортання білків
Під час своєї промови на врученні Нобелівської премії з хімії 1972 року Крістіан Бемер Анфінсен заявив, що теоретично амінокислотна послідовність білка має повністю визначати його структуру. Ця гіпотеза дала поштовх п'ятдесятирічним пошукам можливості комп'ютерного прогнозування тривимірної структури білка. Проте основна проблема полягала в тому, що кількість способів, якими білок здатен згорнутися, є надзвичайно численною3.
У 1969 році американський молекулярний біолог Сайрус Левінталь зазначив, що для перерахування всіх можливих конфігурацій білка шляхом випадкового пошуку знадобиться більше часу, ніж вік Всесвіту. Однак на практиці білки згортаються спонтанно і дуже швидко, іноді за мілісекунди — це явище називають парадоксом Левінталя3.
Запуск всесвітнього експерименту з Критичного аналізу методів для структурних передбачень білків (CASP) у 1994 році став поштовхом у дослідженні даного напряму. Відтоді десятки міжнародних учених змагаються за створення найточнішого методу прогнозування структури білків2,3.
У 2018 році британські розробники штучного інтелекту (ШІ) DeepMind посіли перше місце на CASP13, а їх система ШІ AlphaFold досягла найвищої точності серед усіх представлених3
Уже за 2 роки, під час CASP14, AlphaFold2 зміг спрогнозувати структуру білків із похибкою лише в 1,6 ангстрема, тобто в 0,16 нанометра — розміром з атом. Це перевершило всі інші обчислювальні методи. Вперше досягнута точність відповідала тій, яку забезпечують експериментальні методи, такі як кріоелектронна мікроскопія, ядерний магнітний резонанс чи рентгенівська кристалографія, що є вартісними, складними та потребують років дослідження3.
Що придумали DeepMind
AlphaFold — це система штучного інтелекту для прогнозування структури білків, механізм якої передбачає кілька ключових аспектів3:
Використання загальнодоступного сховища амінокислотних послідовностей та відомих і невідомих структур білків
Білок розглядають як «просторовий граф» — математичну структуру, яка демонструє взаємодію між об’єктами у просторі. Кожна амінокислота в білку представлена як вузол, а ребра графа демонструють, як амінокислоти з’єднані між собою у тривимірній структурі білка
Приклад геометричного графа —
однієї з найпростіших моделей просторової мережі
Застосування нейронної мережі, що заснована на механізмі уваги, тобто здатна зосереджуватись на ключових аспектах даних, які вона аналізує. Мережа навчена працювати самостійно за принципом «з кінця в кінець» та інтерпретувати структуру графа, водночас адаптуючи нову інформацію, отриману під час аналізу
Система використовує еволюційно пов'язані послідовності, багаторазове вирівнювання послідовностей та представлення пар амінокислотних залишків для створення точної структури графа
Основною метрикою, яку CASP використовує для вимірювання точності прогнозів, є Глобальний тест відстані (GDT), який варіює від 0 до 100. Простими словами, GDT — це відсоток амінокислотних залишків, розташованих у межах допустимої відстані від правильного положення3.
За результатами CASP14, AlphaFold2 досягла середнього бала 92,4 GDT по всіх цілях, що стало надважливим відкриттям і вразило науковий світ3
Приклади моделей білків, де синій — комп’ютерне прогнозування, а зелений — експериментальні дані3
Зображення взяте з сайту https://deepmind.google/
Які переваги для медицини
Більшість методів розроблення ліків орієнтуються на інформацію про тривимірну будову біомішені та способи впливу на неї. Прогнозовано, що система AlphaFold дасть змогу розробляти нові діючі речовини, поглиблювати розуміння захворювань і методів лікування, базуючись на особливостях невідомих білкових структур2.
За участю системи вже отримано вагомі результати, як-от1:
Встановлення будови білків вірусу SARS-CoV-2, що дало вченим змогу зрозуміти його вплив, визначити методи лікування та розробити нові вакцини
Отримання знань про структуру гемоглобіну, що дало розуміння механізму мутації, здатної спричинити серповидноклітинну анемію, і методів її лікування
Аналіз фотосинтетичного реакційного центру, який розширив розуміння процесу фотосинтезу
Вважають, що у довгостроковій перспективі прогнозування структури білка також допоможе розробити синтетичні білки, що перероблятимуть відходи та вироблятимуть біопаливо2
AlphaFold — це технологія, яка трапляється раз на покоління, вона здатна передбачити структуру білка з неймовірною швидкістю та точністю. Такий стрибок уперед демонструє, як обчислювальні методи спроможні змінити дослідження в біології та які високопотенційні перспективи мають для прискорення процесу відкриття ліків3
Основні тези
CASP (Critical Assessment of protein Structure Prediction) — Критичний аналіз методів для структурних передбачень білків
GDT (Global Distance Test) — Глобальний тест відстані
ДНК — дезоксирибонуклеїнова кислота
RNA (РНК) — рибонуклеїнова кислота
ШІ — штучний інтелект