
Как машинное обучение помогает создавать лекарства: интервью с Натальей Зенковой
Подбор антител против рака с помощью нейросетей и анализ структуры белков благодаря компьютерному коду кажутся чем-то фантастичным. Но это рутинные задачи Отдела машинного обучения BIOCAD.
Команда под руководством Натальи Зенковой решает задачи, которые и сейчас многим кажутся нереальными. Подробнее о буднях биотех-космолета читайте в статье.
Чем занимается Отдел машинного обучения
BIOCAD разрабатывает в том числе препараты на основе антител. Это сложный процесс, поэтому опишу его в упрощенном виде.
Есть раковая клетка, и на ее поверхности находится определенный белок. Можно создать антитело, которое свяжется с этим белком и подаст иммунной системе сигнал уничтожить эту клетку. Один из традиционных способов получения таких антител — иммунизация лам. Да, именно лам: у этих животных сильный иммунный ответ, и они крайне редко болеют онкологическими заболеваниями. Лама вырабатывает антитела, которые затем выделяют, очищают и тестируют в лаборатории. При этом ламовьи антитела напрямую не идут в клинические исследования — впереди еще долгий этап доработки белков: гуманизация и оптимизация полученных антител.

Вот здесь и приходит на помощь машинное обучение. Мы пытаемся сократить этот путь, создавая антитела вычислительным способом — in silico, как говорят ученые.
Звучит как фантастика. Я тоже так думала, пока не начала разбираться. Оказывается, это вполне реально.
Наш отдел решает две основные задачи.
Первая: дизайн антител «с нуля». У нас есть только мишень, больше ничего. Нужно придумать антитело, которое будет хорошо с ней взаимодействовать. Мы берем открытые данные о белках, выделяем закономерности, обучаем нейросети. На выходе у нас получаются кандидаты для тестирования в лаборатории.
Вторая: оптимизация существующих антител. Например, антитело может быть получено из животной модели, и при введении человеку оно способно вызвать сильную иммунную реакцию, вплоть до анафилактического шока — состояния, сопровождающегося удушьем, резким падением артериального давления и риском летального исхода. Поэтому антитело необходимо «гуманизировать» — изменить его так, чтобы оно стало ближе к человеческому, сохранив при этом способность блокировать мишень.

При гуманизации в антителе делают замены, чтобы доля «человеческих» аминокислот в его цепях выросла — обычно до ≥85%: VH и VL на схеме — вариабельные домены тяжелой (heavy) и легкой (light) цепей антитела
Обе задачи требуют понимания структуры белков, их взаимодействия, умения предсказывать, как изменится поведение молекулы при тех или иных наших манипуляциях. Это то, что хорошо получается у нейросетей.
Но есть нюанс. Данных о белках в целом много, а вот кристаллических структур антител — значительно меньше. Это первая сложность. Вторая — даже если у нас есть перспективное антитело-кандидат, найденное моделями машинного обучения и прошедшее внутренние фильтры, все равно необходима экспериментальная проверка в лаборатории. Поэтому мы тесно взаимодействуем с лабораториями и Отделом структурной биоинформатики — без них результатов не будет.
Год назад у нас не было собранного пайплайна для дизайна антител. Даже приблизительно. Мы работали с сильными ограничениями, часто импровизировали. За текущий год мы собрали весь пайплайн целиком. От входных данных до кандидатов, готовых к тестированию. Это огромный прогресс.
Но это только половина дела. Нужно проверить, что пайплайн работает. Для этого мы отправляем в лаборатории молекулы-кандидаты и получаем обратную связь. Вот это и происходит сейчас.
И когда из лаборатории приходит результат, что наш кандидат действительно хорошо связывается с мишенью, это вау-момент. Так мы осознаем, что наша работа имеет смысл.
Что помогает в работе
В последнее время большие языковые модели стали must-have инструментом. Не потому что они решают наши основные задачи — они этого не делают. Но они сильно помогают в поиске информации.
Я активно использую их для того, чтобы быстрее разобраться в новых аспектах биологии, найти нужные статьи, понять, как другие команды решают похожие задачи. Это экономит время.
Большие нейросети — это не конкуренты, а союзники. Они не решат за нас задачу дизайна антител. Но они помогают нам быстрее работать.
Отдел машинного обучения тогда и сейчас
Я математик по образованию, окончила СПбГУ. После этого работала в разных компаниях, занимаясь машинным обучением. Со временем я поняла, что хочу применять эти навыки в биотехе — более осязаемой сфере, чем абстрактные модели.
До этого я работала в научной лаборатории компании JetBrains, которая занималась машинным обучением. Там не было специалистов по структурной биоинформатике и собственных лабораторий, поэтому мне было важно попасть в среду, где наука напрямую соединяется с экспериментом.

В 2022 году пришла в BIOCAD разработчиком. В том году осенью мы с директором Департамента вычислительной биологии Александром Надолинским решили сделать вертикальную иерархию, и я начала набирать людей в команду.
Искала людей с нужными навыками. Многие в команде окончили СПбГУ — кафедру статистического моделирования матмеха, факультет математики и компьютерных наук или экономический факультет. Другие пришли из корпоративной магистратуры BIOCAD на базе Высшей школы экономики (ВШЭ). Они учились по программе «Вычислительная биология и биоинформатика».

За год мы собрали команду. К текущему году удалось построить систему, которая выдает результаты. Это был сложный процесс, но я горжусь тем, что получилось.
Сегодня в команде семь человек. Это в основном математики. Но не те, кто решает абстрактные задачи. Это люди, которые понимают биологию, могут писать код, готовы разбираться в новых методах.
Важно помнить, что мы работаем не исключительно ради науки. От нас ждут коммерческого результата.
Я и сама стараюсь что-то «делать руками». Иногда пишу код, но времени на это все меньше. Большую часть дня я занимаюсь менеджментом — организую и планирую работу, провожу рабочие встречи и принимаю решения.
Самый неожиданный навык, который пригодился в работе, — это умение понимать, кто что умеет делать, и вовремя делегировать. Звучит просто, но это не так. Нужно знать, какую задачу дать человеку, чтобы он мог ее решить, получить опыт, но не застрять.
Какие люди нужны отделу
Кадры — это главный вызов. Биоинформатиков мало.
Мы работаем с магистратурой ВШЭ. Программа готовит людей с физико-математическим и «программистским» бэкграундом и учит их биоинформатике. Сейчас у нас два выпускника этой программы и один студент. Они начинающие специалисты, но уже с отличным базовым пониманием процессов.
Также ищем людей через обычные каналы — рекомендации, конференции, научные сообщества. Но это сложнее, потому что нужны довольно специфические навыки.
Мы относимся к Департаменту вычислительной биологии. И здесь царит особая атмосфера. Это место, где можно подойти к коллеге, поделиться идеей — и нередко решение находится уже в процессе разговора: достаточно вслух сформулировать проблему. Коллеги дают обратную связь, предлагают свои варианты, загораются проектом. И это гораздо круче, чем работать в одиночку.
Люди науки — это разносторонние люди. Когда слышишь, что человек — математик, ожидаешь, что дальше математики его ничего не интересует. Но оказывается, что зачастую это крайне эмпатичные люди с огромным количеством интересов: музыка, спорт, искусство, языки.
Я тоже стараюсь не ограничиваться только работой. Занимаюсь фигурным катанием и учу французский язык. Французский пришел из детства: я занималась классической хореографией, и там все термины были на этом языке. Мне кажется, французский такой же красивый, как балет.

Блиц руководителя
Три слова, которые описывают машинное обучение в биоинформатике?
— Сложно, интересно, непредсказуемо.
Лучший способ объяснить сложную идею человеку без технического бэкграунда?
— Представить, что ты пытаешься объяснить это маленькому ребенку.
Какой научный прорыв вдохновляет больше всего?
— В 2024 году Нобелевскую премию по химии присудили за разработку AlphaFold2 — инструмента, который предсказывает структуры белков. Это напрямую связано с тем, чем мы занимаемся.
AlphaFold показал, что машинное обучение может решать фундаментальные задачи в биологии. Это вдохновляет и показывает, что мы на правильном пути.
Любимый формат работы?
— Когда я была на удаленке во время ковида, это было ужасно. Работа, спорт, отдых — все в одном месте. Ты никогда не заканчиваешь работать. Продуктивность падает, потому что ты растягиваешь задачи, которые мог бы решить быстрее. Сейчас я работаю в гибридном формате: три дня в офисе, два — дома. Дома легче сосредоточиться на задачах. Но в офис приезжаю для встреч и обсуждений.
Любимый ритуал перед рабочим днем?
— Идеальный рабочий день начинается с того, что я выспалась и вовремя пришла в офис. Завариваю кофе. Лайфхак: добавляю дольку лимона в американо. Это сглаживает горечь, кофе становится приятнее. Потом желательно, чтобы за окном было солнечно. И главное — поздороваться с коллегами, выпить с ними кофе. Это задает тон всему дню.



