Нас часто спрашивают, как стать биоинформатиком. Кроме списка «Где учиться», мы составили список слов, которые нужно знать (а лучше — понимать) начинающему биоинформатику, чтобы вести светские беседы:
- Статистика: случайные величины, математическое ожидание и дисперсия, распределения, виды распределений (равномерное, биномиальное, геометрическое, гипергеометрическое, пуассоновское, нормальное, хи-квадрат), pvalue, нулевая гипотеза, статистические критерии (Стьюдента, Фишера, Уилкоксона, Манна-Уитни, Колмогорова, гипергеометрический тест), дисперсионный анализ, ANOVA, корреляции (Пирсона, Спирмена).
- Машинное обучение: тестовая выборка, обучающая выборка, формула Байеса, (обобщенные) линейные модели, регрессия, классификация, кластеризация, k-means, метод опорных векторов (SVM), random forest, нейронные сети.
- Анализ данных: нормализация, методы нормализации, проверка на нормальность, PCA/MDS-анализ, аутлаеры, бутстреппинг, FDR, fold change, pvalue adjusted (B, BH, Holm), enrichment analysis.
- Графики: boxplot, barplot, scatter plot, PCA, MDS, heatmap, volcano plot
- Биология: SNP, аллель, гетерозигота, выравнивание, покрытие, филогенетические деревья, дифференциальная экспрессия/сплайсинг/whatever, tissue/organ/human/whatever-specific.
Что мы забыли? Пишите в комментариях!
Если светская беседа вдруг зайдет на тему структурной биоинформатики, то полезно будет знание:
— на чьей ты стороне в вековом противостоянии GROMACS — AMBER — NAMD
— что лучше — NPT ансамбль или NVT
— как вести дискуссию на тему того, какая вода достовернее: TIP3P или TIP4PEW
— что значат страшные слова INPCRD и PRMTOP
Список очень хороший, но я боюсь что для совсем новичком может быть пугающим. Математика и статистика, конечно очень важны. Советую всем браться за нее как можно сельнее.
Для меня пункты 1, 3 и 4 суммируеться одним словом (буквой) — R language. Всем рекомендую учить и пользоваться им. Этот язык не только поможем вам закончить универ — аспирантуру, но так же поможет найти хорошую работу и не только в науке.
При небольшом усилии можно легко суммировать и манипулировать данными и видеть их в графиках — это очень помогает понять данных.
R packages must know !
— tidyr
— dplyr
— readr
— ggplot2
`install.packages(c(«tidyr», «dplyr», «readr», «ggplot2»))` # установка
`library(dplyr)` # загрузка
`?dplyr` # помощь
Особо не разглядел многого про Геномикс (Genomics). Ключевые слова там:
— Секвинирование РНК и ДНК (RNA-seq and DNA-seq)
— Потом выравнивание
— Потом нахождения дифференциальной экспрессии генов (одна из популярных аппликация РНК-сек)
Хочу заметить что статистика без условно центральный элемент, но хотел бы напомнить что дружба с командная строкой вам так же очень пригодиться:
— Unix like machine — Apple/Linux
— BASH (Bourne Again SHell) «язык» который понимает shell и на котором так же как и в R можно писать скрипты
Ну все -> echo все !
все !
sudo poweroff