Мария Д.

Data Scientist / Bioinformatist

Работу на полный день (желательно удаленно) 

Последнее обновление резюме 20.08.2021
Адрес Москва, Russian Federation
Электронная почта Заблокировано
Телефон Заблокировано
Соцсеть или сайт Заблокировано

Опыт

Napoleon it
Data Scientist / Bioinformatist
Июл 2020 - Текущий
1. Analysis of DNA and RNA sequencing data for scientific purposes.
2. Search for pathogenic mutations in the exome of a patient with epilepsy, determination of changes in
protein folding as a result of this mutation.
3. Development of models for predicting gene knockdown efficiency using shRNA.
4. Development of a model to determine differential gene expression in patients with aortic valve
calcification problems.
5. Development of software for the reconstruction and analysis of three-dimensional models of presynaptic
terminals based on data from electron microscopy of serial sections and electron tomography.
Responsibilities:
- Writing code to parse DNASeq results
- Search for pathogenic mutations
- Literature analysis
- Determination of the effect of the found mutations on the folding of the target protein
- Writing code for RNASeq analysis
- Development of a model for the analysis of differential gene expression
- Development and training of a neural network to predict the efficiency of gene knockdown using shRNA
- Biological imaging
Napoleon it
Data Scientist
Окт 2018 - Текущий
1. Development of software for the detection and recognition of goods and prices on photographs of shelves
in grocery stores using neural networks and other machine learning and computer vision algorithms.
2. Development and training of a mathematical model for automatic reading of text in photographs of price
tags of various quality.
3. Development of mathematical models for detection, classification of people in the video stream.
4. Software development for the generation of new jewelry designs, demand prediction and creation of a
recommendation system.
5. Development of algorithms and models for collecting information from advertising booklets.
6. Development of mathematical models to predict the performance of a new store, depending on location.
7. Development of software for calculating the effective selling price of an apartment, depending on the
characteristics of the apartment, location, as well as offers and prices of competitors. Development of an
algorithm for the automatic collection of information about an apartment with a technological plan and
advertising booklets.
8. Development of mathematical models to predict the performance of a new employee, as well as the
likelihood of dismissal of current employees.
9. Development of mathematical models for predicting the likelihood of an accident at work due to the fault
of the employee.
10. Development of mathematical models for the search for similar photos in the database to speed up the
search system.
11. Development of mathematical models for classifications of messages and automatic responses in the
chat bot.
12. Writing algorithms for working with photos, videos, text and audio data. Getting information from
complex types of data (photo and text, audio and text).
13. Work with geodata.
14. Writing parsers to collect and prepare information.
15. Conducting training lectures on machine learning and management courses for new employees.
16. The study of modern techniques in the field of deep learning and machine learning, reading scientific
articles, viewing materials of relevant conferences.
ООО «МОЛЛ»
Data Scientist
Апр 2017 - Окт 2018
1. Development of a system for forecasting demand for grocery products: factor analysis, development of
algorithms and models, writing code in Microsoft SQL Server, testing and maintenance.
2. Development of a forecasting system for demand for non-food products in Python: development of
forecasting modules using k-means methods, linear regression, random forest, gradient boosting, etc. (using
the sklearn, xgboost, H2O libraries).
3. Development of a time series analysis and forecasting system using recurrent neural networks (using the
Keras, TensorFlow libraries) /
4. Development of algorithms for automatic analysis of sales data in SQL and Python: loading data from a
database, mathematical analysis, plotting graphs and tables, loading results into a database or providing
custom reports.
5. Visualization of analytical reports in QlikView for the end user.
6. Database development: development of models, creation of necessary tables, relationships between
tables, automatic tasks, database administration in the framework of projects under development.
7. Development of an algorithm for clustering products by belonging to custom baskets in Python.
8. Work on the development of an algorithm for classifying buyers by interest groups.
9. Writing user documentation: a description of the algorithms, user guides, manuals for administrators,
technical tasks, creating presentations
Magnitogorsk Iron and Steel Works
Data Scientist
Авг 2011 - Фев 2017
1. Data preparation and training of an intelligent system for the localization and classification of defects in
photographs of metal rolling surface.
2. Developing a mathematical model and writing Python code to localize low-contrast defects in photos of the metal surface (the model allowed the system to distinguish defects from pollution and water).
3. Development of algorithms for calculating the influence of technological parameters and their
combination on the likelihood of surface defects. Regression analysis of processes. Writing technology
instructions.

Образование

Moscow Institute of Physics and Technology
Phystech School of Biological and Medical Physics, Bioinformatics, magistracy
Сен 2020 - Текущий
Magnitogorsk Nosov State Technical University
Institute of Energy and Automation, Devices and methods of quality control and diagnostics
Сен 2006 - Июл 2011

В чем вы сильны?

Занимаюсь анализом данных и машинным обучением более 10 лет, имею опыт работы с различными типами данных: табличные, временные ряды, изображения, текст, биологические данные. Последние несколько лет активно использую в своей работе
различные фреймворки для глубокого обучения: tensorflow, pytorch, keras, в том числе для разработки генеративных моделей и обучения с подкреплением.
С 2020 года занимаюсь биоинформатическими проектами, учусь в магистратуре МФТИ по специальности “биоинформатика”.

За последний год я участвовала в следующих биоинформатических проектах:
1. Разработка моделей для предсказания эффективности ингибирования трансляции mRNA с помощью miRNA/shRNA. Модель основана на нейронной сети с несколькими входами. содержащей сверточные и рекуррентные слои.
Данная модель предсказывает эффективность в диапазоне от 0 до 1 с
точностью 86%. В настоящее время готовится к выпуску сервис для ее
использования. Также в процессе разработки были определены ключевые факторы, влияющие на эффективность, готовится к выпуску научная статья.
Результаты работы модели уже частично подтверждены экспериментально.
Сейчас разрабатываю вторую часть данного проекта по предсказанию
взаимодействий miRNA и lncRNA. Работа ведется совместно с лабораторией регенеративной медицины института Цитологии РАН и Сколково.
2. Разработка пайплайна по анализу RNASeq (bulk и single cell) данных для пациентов с проблемами кальцификации сердечного клапана. Пайплайн включает в себя полный анализ от ридов до конечных результатов.
Разработаны модели на основе градиентного бустинга, логистической
регрессии и нейронных сетей для определения значимых генов и путей, вовлеченных в данный процесс и подбору малых молекул для ингибирования.
Работа ведется совместно с лабораторией регенеративной медицины института Цитологии РАН.
3. Анализ данных DNASeq для пациентов с эпилепсией. Написание пайплайна
для получения значимых вариантов, анализ литературы, написание статьи.
Анализ изменения фолдинга белка и его взаимодействия с лигандами. В рамках данной задачи написан код для автоматического поиска информации в научных статьях. Также есть опыт работы с данными для раковых больных.
Работа ведется совместно с лабораторией регенеративной медицины института Цитологии РАН.
4. Разработка моделей для реконструкция и анализа трехмерных моделей пресинаптических окончаний на основе данных электронной микроскопии серийных срезов и электронной томографии. Исследование структурных отличий пресинаптических окончаний, полученных из индуцированных клеток и клеток мозга. Работа ведется совместно с Институтом медицинской физики и
биофизики, Мюнстер и Федеральным центром мозга и нейротехнологий, Москва.

Расскажите о себе что-нибудь еще: публикации, конференции, хобби

List of publications: http://elibrary.ru/author_items.asp?authorid=681795&pubrole=100&show_refs=1
Online courses
Dyakova Mariya • Resume updated 25 May 2021 at 10:10
1. Math and Python for data analysis
(https://www.coursera.org/account/accomplishments/certificate/JGFSJ9LDWTNP);
2. Training on marked data
(https://www.coursera.org/account/accomplishments/certificate/WGPR848GM9VZ)
3. Search for structure in the data
(https://www.coursera.org/account/accomplishments/certificate/E2AY7X44L9DJ)
4. Python Programming https://stepik.org/cert/152038?auth=registration
5. Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning
https://coursera.org/share/d2c358b044c1a75a1ea6a6c682f29b2f
6. Introduction to Deep Learning https://coursera.org/share/0b5c0d7ee8a3e5ad21a988be4d03c648
7. Deep learning on the fingers (without certificate).

 

ACHIEVEMENTS • the best expert of MMK in 2013, 2015 and 2016 ( analysis section).
• winner of international conferences in 2013 (two nominations), 2015 and 2016 (analysis section);
• victory in the federal competition "UMNIK" section "Information Technology" in 2014. Theme of work
was the development of software for the quality control of the surface of rolled metal. Within the
framework of the project, a software was developed to localize and classify defects in metal surface
images. Also were created method and software for calibration of the optical quality control system.
• the author of dozens of scientific articles for Russian and foreign journals.
• participation in international conferences.
• the author of patents for the utility model №139676 and the certificate of state registration of the
computer program №2013611869