Ведущий специалист по данным и моделям / Senior Applied Scientist
| в Кситест (посмотреть профиль) | |
| Город | г. Москва, Russian Federation |
| Опубликовано |
23.03.2026 |
| Категория |
Биоинформатика
|
| Тип вакансии |
Полная занятость
|
| Адрес | м. Добрынинская , м. Павелетская |
Обязанности

Кситест — лидер геномной селекции в России и СНГ, единственная компания с международной аккредитацией ICAR. Мы повышаем продуктивность и здоровье сельскохозяйственных животных с помощью геномных оценок племенной ценности. Среди наших клиентов — крупнейшие агрохолдинги страны.
Мы ищем сильного специалиста в команду, отвечающую за аналитическое ядро продукта: пайплайны обработки данных, модели прогноза, математическую оптимизацию и исследовательские задачи.
Вам предстоит участвовать во всех частях разработки продукта — от проектирования пайплайнов и моделей до контроля качества результатов, которые получают клиенты. У вас будет прямое влияние на решения, определяющие развитие исследовательской части продукта, и возможность формировать планы и видение этого направления.
Чем предстоит заниматься:
- Проектировать и развивать пайплайны обработки генотипов, загрузки фенотипов, расчёт племенных оценок.
- Поддерживать и улучшать модельное ядро: BLUP / ssGBLUP, оценка дисперсионных компонент, селекционные индексы.
- Развивать инфраструктуру данных: миграция промежуточного хранилища на колоночные СУБД (ClickHouse), проектирование схем, обеспечение идемпотентности и воспроизводимости пайплайнов.
- Вести исследовательскую работу: проверка гипотез по улучшению точности оценок, новые модели, новые признаки.
- Работать с задачами математической оптимизации (подбор пар, минимизация инбридинга, формирование племенного ядра).
- Обеспечивать контроль качества на всех этапах: от сырых данных до финальных индексов, которые видит клиент.
Почему стоит рассмотреть вакансию
- Уникальный домен. Геномная селекция — одна из немногих областей, где модели и инженерия данных напрямую меняют реальный мир: продуктивность стад, здоровье животных, экономику целых регионов.
- Влияние на продукт. Возможность формировать видение и планы исследовательской части продукта, а не просто выполнять задачи по списку.
- Нетривиальные задачи. Смешанные модели на десятках тысяч животных, комбинаторная оптимизация подбора пар, импутация генотипов, мультитрейтовые корреляции.
Требования
Обязательно:
- 5+ лет опыта в разработке систем обработки данных на Python.
- Опыт проектирования и поддержки промышленных пайплайнов (загрузка, трансформация, модели, аналитика) — не только ноутбуки и прототипы.
- Сильный SQL (оконные функции, CTE, оптимизация запросов, работа со схемами).
- Опыт работы с колоночными или аналитическими СУБД (ClickHouse, Vertica, BigQuery, DuckDB).
- Уверенное владение статистикой, машинным обучением или математической оптимизацией в промышленном контексте.
- Опыт миграции или рефакторинга существующих пайплайнов без остановки работающей системы.
- Самостоятельность: способность разобраться в чужом коде, в незнакомом домене, принять решение и довести до результата.
Большой плюс:
- Опыт в биоинформатике, количественной генетике или смежных областях (медицинская генетика, популяционная генетика).
- Знание BLUP/GBLUP, анализа родословных, работы с SNP-данными.
- Опыт с вероятностными моделями (байесовский вывод, MCMC, EM-алгоритм).
- Опыт в доменах с высокой ценой ошибки, где неточность в данных имеет реальные последствия.
Стек и контекст
- Python (pandas, NumPy, SciPy, SQLAlchemy, boto3) — основной язык всех пайплайнов.
- PostgreSQL — продуктовая БД, сложные аналитические SQL-запросы.
- ClickHouse — целевая СУБД для аналитического хранилища.
- Apache Airflow — оркестрация пайплайнов.
- MiXBLUP — движок смешанных моделей для расчёта племенных оценок.
- PLINK, KING, Beagle — биоинформатические инструменты для анализа генотипов.
- TensorFlow Probability, cvxpy, MOSEK — вероятностные модели и оптимизация.
- S3 — хранение генотипных данных.
Не обязательно знать всё из списка. Обязательно — уметь быстро разбираться в незнакомых инструментах и доменах.
Зарплата
Как проходит отбор
1. Рассмотрение заявки.
2. Техническое интервью (90 мин): два кейса — системный дизайн аналитического пайплайна и исследовательская задача с погружением в домен.
3. Встреча с руководителем компании (30 мин).
Откликайтесь, если хотите развивать аналитическое ядро компании, которая меняет сельское хозяйство с помощью генетики.
Условия
Формат: гибрид (офис в центре Москвы + удалёнка)
График: 5/2
Зарплата: по результатам собеседования.

23.03.2026
Экспресс Linux для NGS
Машинное обучение и продвинутый Python
Ученый Будущего: Интеграция AI в научную работу