Представьте, что вы хотите создать лекарство. Разработку лекарственных препаратов с заранее заданными свойствами называют драг-дизайном. Лекарство, попав в организм человека, должно воздействовать на причину болезни. На молекулярном уровне это нарушение работы каких-то белков и генов, их кодирующих. В драг-дизайне это называют мишенью. Если лекарство противовирусное, то оно должно как-то мешать вирусам встраивать свой геном в человеческий. Тогда мишенью будет уже белок вируса. Структура встраивающегося белка вируса известна, и даже известно, какое место у него самое важное — сайт связывания. Если вставить в это место, в сайт связывания, «затычку» в виде определённой молекулы химического соединения, то белок не сможет «вживиться» в геном человека, и вирус умрёт. Получается, находишь «затычку» — будет у тебя лекарство от болезни.
Но как найти нужные молекулы? Исследователям здесь на помощь приходят огромные базы веществ. Для отбора берутся специальные программы, которые, используя приближения квантовой химии, оценивают место и силу, с которой сможет прицепиться молекула-«затычка» к белку. Но оказывается, что в базах есть только форма вещества, а для адекватной оценки этим программам требуется ещё и информация о состоянии всех атомов и соединений в молекуле. Задачей определения этих состояний и занимается разработанная исследователями компьютерная система Knodle. С помощью новых технологий можно сузить область поиска с сотен тысяч веществ всего до сотни. Эту сотню уже проверить и получить, например, Ралтегравир — лекарство, с 2011 года активно используемое для профилактики ВИЧ.
Принцип действия пакета Knodle.
Со школы все привыкли видеть органические вещества как буквы с палочками (структура вещества) и также понимать, что на самом деле никаких палочек нет. Ведь каждая палочка — это связь электронов, которые подчиняются законам квантовой химии. В случае одной простой молекулы, вроде такой, как в иллюстрации к статье, опытный химик интуитивно чувствует, какие должны быть гибридизации (со сколькими соседними атомами есть соединение), и за несколько часов кропотливой работы со справочниками может восстановить в ней все связи. Он умеет это делать, потому что видел сотни и сотни похожих соединений и знает, что если кислород «вот так вот торчит» — то, скорее всего, он связан двойной связью. В своей работе аспирантка МФТИ Мария Кадукова и научный сотрудник лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин решили доверить такую интуицию компьютеру, используя для этого технологии машинного обучения.
Сравните «Твёрдый полый предмет с ручкой, отверстием сверху и удлинением сбоку, в конце которого тоже отверстие» и «Сосуд для приготовления чая». И то и другое достаточно хорошо определяет, что такое чайник, но второе объяснение проще, и в него больше верится. Так же и в машинном обучении: самый лучший алгоритм обучения — это самый простой из работающих. Поэтому исследователи выбрали нелинейный метод опорных векторов (SVM) — метод, который себя зарекомендовал в распознавании рукописного текста и изображений. На вход ему давали расположения соседних атомов, а на выходе получали гибридизацию.
Хорошее обучение требует множества примеров, и учёные составили их из 7605 соединений с известной структурой и состояниями атомов. «В этом кроется решающая сила разработанного пакета, так как при обучении на большей базе результат распознавания лучше. Сейчас Knodle находится на шаг впереди подобных себе программ: он допускает всего 3,9% ошибок, тогда как ближайший конкурент — 4,7%», — объясняет Мария Кадукова. И это не единственное преимущество. Программный комплекс легко изменять под конкретную задачу. Например, в данный момент Knodle не работает с веществами, содержащими металлы, потому что эти соединения относительно редки. Но если окажется, что лекарство от Альцгеймера станет заметно эффективней, если в нем будет металл, то для адаптации программы потребуется лишь набрать базу с металлическими соединениями. Поэтому остаётся только догадываться, для какой неизлечимой на данный момент болезни найдут лекарство, используя этот инструмент.
Источник: mipt.ruКак получить трехмерную модель белка / ©Youtube