В своей речи о присуждении Нобелевской премии 1972 года американский биохимик Кристиан Анфінсен сказал: однажды станет возможным предсказать трехмерную структуру любого белка по последовательности его аминокислотных строительных блоков. Теперь, почти через 50 лет, исследователи показали, что программное обеспечение, основанное на искусственном интеллекте (ИИ), может создавать точные белковые структуры тысячами — достижение, которое реализует мечту Анфинсена и является прорывом науки 2021 года.
С сотнями тысяч белков только в человеческом организме такой прогресс будет иметь широкие возможности для применения, предлагая понимание основ биологии и выявляя новые перспективные лекарственные препараты.
Белковые структуры когда-то можно было определить только с помощью кропотливых лабораторных анализов. Но теперь их можно быстро рассчитать для десятков тысяч белков и комплексов взаимодействующих белков.
«Это кардинальное изменение для структурной биологии», — говорит Гаэтано Монтеліоне, структурный биолог из Политехнического института Ренсселера.
Дэвид Бейкер, Университет Вашингтона, Сиэтл, вычислительный биохимик, который возглавлял один из проектов прогнозирования, добавляет, что благодаря изобилию легкодоступных структур изменятся все области вычислительной и молекулярной биологии.
Белки-это рабочие лошадки биологии. Они сокращают наши мышцы, превращают пищу в клеточную энергию, доставляют кислород в нашу кровь и борются с микробными захватчиками.
Однако, несмотря на их разнообразные таланты, все белки начинаются с одной и той же базовой формы: линейной цепочки из 20 различных видов аминокислот, соединенных вместе в последовательности, закодированной в нашей ДНК.
После сборки на клеточных фабриках, называемых рибосомами, каждый цепочка состоит в уникальную, изысканно сложную 3d форму. Эти формы определяют, как белки взаимодействуют с другими молекулами, определяют их роль в клетке.
Работа Анфинсена и других ученых показала, что взаимодействие между аминокислотами приводит белки в их окончательную форму. Но, учитывая огромное количество возможных взаимодействий между каждым отдельным звеном цепи и всеми остальными, даже белки скромного размера могут принимать астрономическое количество возможных форм.
В 1969 году американский молекулярный биолог Сайрус Левинтал подсчитал, что потребуется больше времени, чем возраст Вселенной, чтобы белковая цепочка прошла через них одну за другой — даже в бешеном темпе. Но в природе каждый белок надежно сворачивается только в одну уникальную форму, обычно в одно мгновение.
Биологи привлекают компьютерные модели
В 1950-х годах исследователи начали отображать трехмерные структуры белков, анализируя, как рентгеновские лучи рикошетят от атомов молекул. Этот метод, известный как рентгеновская кристаллография, вскоре стал ведущим подходом; сегодня центральное хранилище этой области, Банк данных о белках, содержит около 185 000 экспериментально решенных структур.
Но картирования структур может занять годы и стоить сотни тысяч долларов за белок. Чтобы ускорить этот процесс, в 1970-х годах ученые начали создавать компьютерные модели, чтобы предсказать, как будет сворачиваться белок.
Изначально это было возможно только для маленьких белков или коротких сегментов более крупных. Однако к 1994 году компьютерные модели стали достаточно сложными, чтобы запустить конкурс «критическая оценка прогнозирования структуры белка» (CASP). Организаторы предоставили разработчикам моделей аминокислотные последовательности десятков белков. В конце мероприятия результаты разработчиков моделей сопоставляли с последними экспериментальными данными рентгеновской кристаллографии и новыми методами, такими как спектроскопия ядерного магнитного резонанса и криоэлектронная микроскопия (крио-ЭМ).
Баллы выше 90 считались наравне с экспериментально решенными структурами.
Ранние результаты были скромными, со средними баллами ниже 60. Но со временем разработчики моделей научились улучшать свои расчеты. Например, участки аминокислот, разделяемые двумя белками, часто сворачиваются аналогичным образом. Если белок с неизвестной структурой разделяет, скажем, 50% своей аминокислотной последовательности с белком, который имеет известную структуру, последний может служить «шаблоном» для руководства компьютерными моделями.
Еще одно важное открытие пришло в результате эволюции. Исследователи поняли, что если одна аминокислота изменилась в белке, поделенном близькоспорідненими организмами, такими как шимпанзе и люди, аминокислоты, расположенные вблизи свернутой в молекуле, тоже должны были бы измениться, чтобы сохранить форму и функцию белка.
Это означает, что исследователи могут сузить форму белка, ища аминокислоты, которые эволюционируют одновременно: даже если они находятся далеко друг от друга в развернутом цепи, они, скорее всего, являются соседями в конечной трехмерной структуре.
Искусственный интеллект выходит на сцену биологии
С 2018 года на сцену вышла AlphaFold, программа, управляемая искусственным интеллектом. Программа, разработанная дочерней компанией Google DeepMind, учится на базах данных экспериментально решенных структур. В своем первом соревновании ее средний балл был близок к 80, и она выиграла 43 из 90 матчей против других алгоритмов.
В 2020 году ее преемник AlphaFold2 засиял еще ярче. Оснащен сетью из 182 процессоров, оптимизированных для машинного обучения, AlphaFold2 набрал средний балл 92,4, что соответствует экспериментальным методам.
«Я никогда не думал, что увижу это в своей жизни», — сказал тогда Джон Молт, структурный биолог из Университета Мэриленда, Шейди Гроув, и соучредитель CASP.
В этом году прогнозы искусственного интеллекта перешли в овердрайв. В середине июля Бейкер и его коллеги сообщили, что их программа искусственного интеллекта RoseTTAFold разгадала структуры сотен белков, все из класса распространенных лекарственных мишеней.
Через неделю ученые DeepMind сообщили, что они сделали то же самое для 350 000 белков, обнаруженных в организме человека — 44% всех известных человеческих белков.
В ближайшие месяцы они ожидают, что их база данных вырастет до 100 миллионов белков по всем видам, что составляет почти половину от общего числа, которое, как считается, существует.
Следующим шагом является прогнозирование того, какие из этих белков работают вместе и как они взаимодействуют. DeepMind уже делает именно это. В новой публикации ученые представили 4433 белковых комплексов, раскрывающих, какие белки связываются друг с другом — и как. В ноябре RoseTTAFold добавила в список еще 912 комплексов.
Код для AlphaFold2 и RoseTTAFold теперь доступен для общественности, помогая другим ученым включиться в игру. В ноябре исследователи из Германии и Соединенных Штатов использовали AlphaFold2 и cryo-EM для составления карты структуры комплекса ядерных пор, состоящей из 30 различных белков, которые контролируют доступ к ядру клетки.
В августе китайские исследователи использовали AlphaFold2 для картирования структур почти 200 белков, ДНК, которые могут быть вовлечены во все — от репарации ДНК в экспрессии генов.
В прошлом месяце материнская компания Google, Alphabet, запустила новое предприятие, которое будет использовать предполагаемые белковые структуры для разработки новых лекарственных препаратов. И команда Бейкера использует свое программное обеспечение для создания новых белковых последовательностей, которые будут состоять в стабильные структуры, что может привести к созданию новых противовирусных препаратов и катализаторов.
Даже сейчас ученые, изучающие SARS-CoV-2, используют AlphaFold2 для моделирования эффекта мутаций в спаечном белке варианта Омикрона. Вставляя в белок аминокислоты большего размера, мутации изменили его форму — возможно, достаточно, чтобы антитела не связывались с ним и нейтрализовали вирус.
Белковые структуры не статичны; они изгибаются и скручиваются, выполняя свою работу, и моделирование этих изменений остается сложной задачей. И все еще остается сложной задачей визуализировать большинство крупных мультипротеїнових комплексов, которые выполняют множество функций в клетках.
Но взрыв достижений, основанных на искусственном интеллекте, в этом году открывает невиданный ранее взгляд на танец жизни и навсегда изменит биологию и медицину.
По материалам: Science