Ксения К.

Начинающий биоинформатик, упорно грызущий гранит науки.

Ищу работу в биоинформатическом поприще,  в которую бы могла погрузиться с головой.

Последнее обновление резюме 26.11.2023
Адрес Москва, Russian Federation
Электронная почта Заблокировано
Телефон Заблокировано
Соцсеть или сайт Заблокировано

Опыт

АНО КРР "Мой район"
Аналитик данных
Июн 2023 - Текущий
• Выгрузка и обработка данных о продажах из хранилища с помощью SQL и последующая обработка и
анализ с помощью Python
• Ведение регулярной отчетности для руководства - автоматическая отправка ежедневных отчетов,
проведение аналитики еженедельных и ежемесячных продаж (SQL, Python), выполнение ad-hoc
запросов
• Прогнозирование объемов продаж с использованием статистических методов
• Создание Telegram-ботов для автоматизации рутинных задач
НИУ ВШЭ
Стажер-исследователь
Апр 2022 - Май 2023
• Улучшение модели глубинного обучения с помощью алгоритмов, основанных на правилах, для
исправления ошибок в английских текстах
ООО "Атлас"
Младший аналитик
Ноя 2021 - Ноя 2022
• Построение моделей машинного обучения для предсказания генетической предрасположенности к заболеваниям на основе полигенной оценки риска (Pandas, Sklearn, Plink, R, Matplotlib)
• Создание алгоритмов автоматизации процессов (Python)

Образование

НИУ ВШЭ
Анализ данных в биологии и медицине
Авг 2022 - Июн 2024
GPA: 8.05

Пройденные курсы:
• Практическая биоинформатика (Mega, Алгоритмы выравнивания, Знакомство с
биоинформатическими базами данных)
• Методы машинного обучения в биоинформатике (PCA Analysis, Chip-Seq Analysis, BioPython)
• Глубинное обучение (предобученные модели, немного CV)
• Программирование на языке R (статистические тесты)
• Введение в молекулярную биологию
• Прикладная статистика
• Сравнительная геномика
• NGS (в процессе)

Тема диплома:
"Модели глубинного обучения для полигенной оценки риска на симулированных данных"
Цель: выявить, как популяция влияет на полигенный и риск и определить лучшую модель предсказания.
Данные смоделированы для трех популяций: Африканской, Европейской и Азиатской. Генотип
смоделирован с помощью Hapgen2 на базе данных HapMap3. Фенотип смоделирован с помощью
PhenotypeSimulator (веса SNP имели одинаковый вес для всех популяций, чтобы оценить вклад генотипа).
Различия генотипа в смоделированных данных были подтверждены методом PCA компонент, посчитанных с помощью Plink.

Статистически значимые SNP были также посчитаны с помощью Plink.
В работе были использованы такие архитектуры как многослойный перспетрон, CNN и RNN. Также были использованы алгоритмы машинного обучения: Logistic Regression, SVM, Decision Trees.

Выводы: популяция имеет сильное значение при подсчете PRS. Лучшие модели - SVM и многослойный
персептрон.
НИУ ВШЭ
Фундаментальная и компьютерная лингвистика
Авг 2018 - Июн 2022
Тема диплома:
"Разработка алгоритмов автоматического перевода разметки текстов корпуса REALEC, полученной в результате применения системы Heptabot: пунктуационные теги".
В работе было выделено 12 блоков пунктуационных ошибок, допускающимися при написании текстов на английском языке. Для каждого блока были написаны собственные алгоритмы исправления ошибки, тега и области ошибки.

В чем вы сильны?

Имею опыт работы в биоинформатике, NLP и классическом анализе данных. Навыки: Python, Plink, SQL, Deep learning, Machine Learning, R, Linux. 

Интересен полигенный риск и новые подходы в его расчете.