zenkova_cover_big

Как машинное обучение помогает создавать лекарства: интервью с Натальей Зенковой

Подбор антител против рака с помощью нейросетей и анализ структуры белков благодаря компьютерному коду кажутся чем-то фантастичным. Но это рутинные задачи Отдела машинного обучения BIOCAD.

Команда под руководством Натальи Зенковой решает задачи, которые и сейчас многим кажутся нереальными. Подробнее о буднях биотех-космолета читайте в статье.


Чем занимается Отдел машинного обучения

BIOCAD разрабатывает в том числе препараты на основе антител. Это сложный процесс, поэтому опишу его в упрощенном виде.

Есть раковая клетка, и на ее поверхности находится определенный белок. Можно создать антитело, которое свяжется с этим белком и подаст иммунной системе сигнал уничтожить эту клетку. Один из традиционных способов получения таких антител — иммунизация лам. Да, именно лам: у этих животных сильный иммунный ответ, и они крайне редко болеют онкологическими заболеваниями. Лама вырабатывает антитела, которые затем выделяют, очищают и тестируют в лаборатории. При этом ламовьи антитела напрямую не идут в клинические исследования — впереди еще долгий этап доработки белков: гуманизация и оптимизация полученных антител.

Вот здесь и приходит на помощь машинное обучение. Мы пытаемся сократить этот путь, создавая антитела вычислительным способом — in silico, как говорят ученые.

Звучит как фантастика. Я тоже так думала, пока не начала разбираться. Оказывается, это вполне реально.

Наш отдел решает две основные задачи.

Первая: дизайн антител «с нуля». У нас есть только мишень, больше ничего. Нужно придумать антитело, которое будет хорошо с ней взаимодействовать. Мы берем открытые данные о белках, выделяем закономерности, обучаем нейросети. На выходе у нас получаются кандидаты для тестирования в лаборатории.

Вторая: оптимизация существующих антител. Например, антитело может быть получено из животной модели, и при введении человеку оно способно вызвать сильную иммунную реакцию, вплоть до анафилактического шока — состояния, сопровождающегося удушьем, резким падением артериального давления и риском летального исхода. Поэтому антитело необходимо «гуманизировать» — изменить его так, чтобы оно стало ближе к человеческому, сохранив при этом способность блокировать мишень.

При гуманизации в антителе делают замены, чтобы доля «человеческих» аминокислот в его цепях выросла — обычно до ≥85%: VH и VL на схеме — вариабельные домены тяжелой (heavy) и легкой (light) цепей антитела

Обе задачи требуют понимания структуры белков, их взаимодействия, умения предсказывать, как изменится поведение молекулы при тех или иных наших манипуляциях. Это то, что хорошо получается у нейросетей.

Но есть нюанс. Данных о белках в целом много, а вот кристаллических структур антител — значительно меньше. Это первая сложность. Вторая — даже если у нас есть перспективное антитело-кандидат, найденное моделями машинного обучения и прошедшее внутренние фильтры, все равно необходима экспериментальная проверка в лаборатории. Поэтому мы тесно взаимодействуем с лабораториями и Отделом структурной биоинформатики — без них результатов не будет.

Год назад у нас не было собранного пайплайна для дизайна антител. Даже приблизительно. Мы работали с сильными ограничениями, часто импровизировали. За текущий год мы собрали весь пайплайн целиком. От входных данных до кандидатов, готовых к тестированию. Это огромный прогресс.

Но это только половина дела. Нужно проверить, что пайплайн работает. Для этого мы отправляем в лаборатории молекулы-кандидаты и получаем обратную связь. Вот это и происходит сейчас.

И когда из лаборатории приходит результат, что наш кандидат действительно хорошо связывается с мишенью, это вау-момент. Так мы осознаем, что наша работа имеет смысл.


Что помогает в работе

В последнее время большие языковые модели стали must-have инструментом. Не потому что они решают наши основные задачи — они этого не делают. Но они сильно помогают в поиске информации.

Я активно использую их для того, чтобы быстрее разобраться в новых аспектах биологии, найти нужные статьи, понять, как другие команды решают похожие задачи. Это экономит время.

Большие нейросети — это не конкуренты, а союзники. Они не решат за нас задачу дизайна антител. Но они помогают нам быстрее работать.


Отдел машинного обучения тогда и сейчас

Я математик по образованию, окончила СПбГУ. После этого работала в разных компаниях, занимаясь машинным обучением. Со временем я поняла, что хочу применять эти навыки в биотехе — более осязаемой сфере, чем абстрактные модели.

До этого я работала в научной лаборатории компании JetBrains, которая занималась машинным обучением. Там не было специалистов по структурной биоинформатике и собственных лабораторий, поэтому мне было важно попасть в среду, где наука напрямую соединяется с экспериментом.


В 2022 году пришла в BIOCAD разработчиком. В том году осенью мы с директором Департамента вычислительной биологии Александром Надолинским решили сделать вертикальную иерархию, и я начала набирать людей в команду.

Искала людей с нужными навыками. Многие в команде окончили СПбГУ — кафедру статистического моделирования матмеха, факультет математики и компьютерных наук или экономический факультет. Другие пришли из корпоративной магистратуры BIOCAD на базе Высшей школы экономики (ВШЭ). Они учились по программе «Вычислительная биология и биоинформатика».


За год мы собрали команду. К текущему году удалось построить систему, которая выдает результаты. Это был сложный процесс, но я горжусь тем, что получилось.

Сегодня в команде семь человек. Это в основном математики. Но не те, кто решает абстрактные задачи. Это люди, которые понимают биологию, могут писать код, готовы разбираться в новых методах.

Важно помнить, что мы работаем не исключительно ради науки. От нас ждут коммерческого результата.

Я и сама стараюсь что-то «делать руками». Иногда пишу код, но времени на это все меньше. Большую часть дня я занимаюсь менеджментом — организую и планирую работу, провожу рабочие встречи и принимаю решения.

Самый неожиданный навык, который пригодился в работе, — это умение понимать, кто что умеет делать, и вовремя делегировать. Звучит просто, но это не так. Нужно знать, какую задачу дать человеку, чтобы он мог ее решить, получить опыт, но не застрять.


Какие люди нужны отделу

Кадры — это главный вызов. Биоинформатиков мало.

Мы работаем с магистратурой ВШЭ. Программа готовит людей с физико-математическим и «программистским» бэкграундом и учит их биоинформатике. Сейчас у нас два выпускника этой программы и один студент. Они начинающие специалисты, но уже с отличным базовым пониманием процессов.

Также ищем людей через обычные каналы — рекомендации, конференции, научные сообщества. Но это сложнее, потому что нужны довольно специфические навыки.


Мы относимся к Департаменту вычислительной биологии. И здесь царит особая атмосфера. Это место, где можно подойти к коллеге, поделиться идеей — и нередко решение находится уже в процессе разговора: достаточно вслух сформулировать проблему. Коллеги дают обратную связь, предлагают свои варианты, загораются проектом. И это гораздо круче, чем работать в одиночку.

Люди науки — это разносторонние люди. Когда слышишь, что человек — математик, ожидаешь, что дальше математики его ничего не интересует. Но оказывается, что зачастую это крайне эмпатичные люди с огромным количеством интересов: музыка, спорт, искусство, языки.


Я тоже стараюсь не ограничиваться только работой. Занимаюсь фигурным катанием и учу французский язык. Французский пришел из детства: я занималась классической хореографией, и там все термины были на этом языке. Мне кажется, французский такой же красивый, как балет.

Блиц руководителя

Три слова, которые описывают машинное обучение в биоинформатике?

— Сложно, интересно, непредсказуемо.

Лучший способ объяснить сложную идею человеку без технического бэкграунда?

— Представить, что ты пытаешься объяснить это маленькому ребенку.

Какой научный прорыв вдохновляет больше всего?

— В 2024 году Нобелевскую премию по химии присудили за разработку AlphaFold2 — инструмента, который предсказывает структуры белков. Это напрямую связано с тем, чем мы занимаемся.

AlphaFold показал, что машинное обучение может решать фундаментальные задачи в биологии. Это вдохновляет и показывает, что мы на правильном пути.

Любимый формат работы?

— Когда я была на удаленке во время ковида, это было ужасно. Работа, спорт, отдых — все в одном месте. Ты никогда не заканчиваешь работать. Продуктивность падает, потому что ты растягиваешь задачи, которые мог бы решить быстрее. Сейчас я работаю в гибридном формате: три дня в офисе, два — дома. Дома легче сосредоточиться на задачах. Но в офис приезжаю для встреч и обсуждений.

Любимый ритуал перед рабочим днем?

— Идеальный рабочий день начинается с того, что я выспалась и вовремя пришла в офис. Завариваю кофе. Лайфхак: добавляю дольку лимона в американо. Это сглаживает горечь, кофе становится приятнее. Потом желательно, чтобы за окном было солнечно. И главное — поздороваться с коллегами, выпить с ними кофе. Это задает тон всему дню.

МЫ ИСПОЛЬЗУЕМ ФАЙЛЫ COOKIE
Мы используем cookie для персонализации сервисов и удобства пользователей. Вы можете запретить сохранение cookie в настройках своего браузера. Подробнее