Стать рукопожатным биоинформатиком

test123

Нас часто спрашивают, как стать биоинформатиком. Кроме списка «Где учиться», мы составили список слов, которые нужно знать (а лучше — понимать) начинающему биоинформатику, чтобы вести светские беседы:

Статистика: случайные величины, математическое ожидание и дисперсия, распределения, виды распределений (равномерное, биномиальное, геометрическое, гипергеометрическое, пуассоновское, нормальное, хи-квадрат), pvalue, нулевая гипотеза, статистические критерии (Стьюдента, Фишера, Уилкоксона, Манна-Уитни, Колмогорова, гипергеометрический тест), дисперсионный анализ, ANOVA, корреляции (Пирсона, Спирмена).
Машинное обучение: тестовая выборка, обучающая выборка, формула Байеса, (обобщенные) линейные модели, регрессия, классификация, кластеризация, k-means, метод опорных векторов (SVM), random forest, нейронные сети.
Анализ данных: нормализация, методы нормализации, проверка на нормальность, PCA/MDS-анализ, аутлаеры, бутстреппинг, FDR, fold change, pvalue adjusted (B, BH, Holm), enrichment analysis.
Графики: boxplot, barplot, scatter plot, PCA, MDS, heatmap, volcano plot
Биология: SNP, аллель, гетерозигота, выравнивание, покрытие, филогенетические деревья, дифференциальная экспрессия/сплайсинг/whatever, tissue/organ/human/whatever-specific.

Что мы забыли? Пишите в комментариях!

2 комментария

Александр 16.03.2016 в 16:05

Если светская беседа вдруг зайдет на тему структурной биоинформатики, то полезно будет знание:
— на чьей ты стороне в вековом противостоянии GROMACS — AMBER — NAMD
— что лучше — NPT ансамбль или NVT
— как вести дискуссию на тему того, какая вода достовернее: TIP3P или TIP4PEW
— что значат страшные слова INPCRD и PRMTOP

Кирилл 30.06.2016 в 16:27

Список очень хороший, но я боюсь что для совсем новичком может быть пугающим. Математика и статистика, конечно очень важны. Советую всем браться за нее как можно сельнее.

Для меня пункты 1, 3 и 4 суммируеться одним словом (буквой) — R language. Всем рекомендую учить и пользоваться им. Этот язык не только поможем вам закончить универ — аспирантуру, но так же поможет найти хорошую работу и не только в науке.
При небольшом усилии можно легко суммировать и манипулировать данными и видеть их в графиках — это очень помогает понять данных.

R packages must know !

— tidyr
— dplyr
— readr
— ggplot2

`install.packages(c(«tidyr», «dplyr», «readr», «ggplot2»))` # установка
`library(dplyr)` # загрузка
`?dplyr` # помощь

Особо не разглядел многого про Геномикс (Genomics). Ключевые слова там:

— Секвинирование РНК и ДНК (RNA-seq and DNA-seq)
— Потом выравнивание
— Потом нахождения дифференциальной экспрессии генов (одна из популярных аппликация РНК-сек)

Хочу заметить что статистика без условно центральный элемент, но хотел бы напомнить что дружба с командная строкой вам так же очень пригодиться:

— Unix like machine — Apple/Linux
— BASH (Bourne Again SHell) «язык» который понимает shell и на котором так же как и в R можно писать скрипты

Ну все -> echo все !
все !
sudo poweroff

Напишите свой комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.