Стать рукопожатным биоинформатиком

Нас часто спрашивают, как стать биоинформатиком. Кроме списка «Где учиться», мы составили список слов, которые нужно знать (а лучше — понимать) начинающему биоинформатику, чтобы вести светские беседы:

  1. Статистика: случайные величины, математическое ожидание и дисперсия, распределения, виды распределений (равномерное, биномиальное, геометрическое, гипергеометрическое,  пуассоновское, нормальное,  хи-квадрат), pvalue, нулевая гипотеза, статистические критерии (Стьюдента, Фишера, Уилкоксона, Манна-Уитни, Колмогорова, гипергеометрический тест), дисперсионный анализ, ANOVA, корреляции (Пирсона, Спирмена).
  2. Машинное обучение: тестовая выборка, обучающая выборка, формула Байеса, (обобщенные) линейные модели, регрессия, классификация, кластеризация, k-means, метод опорных векторов (SVM), random forest, нейронные сети.
  3. Анализ данных: нормализация, методы нормализации, проверка на нормальность, PCA/MDS-анализ, аутлаеры, бутстреппинг, FDR, fold change, pvalue adjusted (B, BH, Holm), enrichment analysis.
  4. Графики: boxplot, barplot, scatter plot, PCA, MDS, heatmap, volcano plot
  5. Биология: SNP, аллель, гетерозигота, выравнивание, покрытие, филогенетические деревья, дифференциальная экспрессия/сплайсинг/whatever, tissue/organ/human/whatever-specific.

Что мы забыли? Пишите в комментариях!

Автор

Вита Степанова

Руководитель учебного центра Бластима. Аспирант Сколтеха.

2 комментария

  1. Александр

    Если светская беседа вдруг зайдет на тему структурной биоинформатики, то полезно будет знание:
    — на чьей ты стороне в вековом противостоянии GROMACS — AMBER — NAMD
    — что лучше — NPT ансамбль или NVT
    — как вести дискуссию на тему того, какая вода достовернее: TIP3P или TIP4PEW
    — что значат страшные слова INPCRD и PRMTOP

  2. Список очень хороший, но я боюсь что для совсем новичком может быть пугающим. Математика и статистика, конечно очень важны. Советую всем браться за нее как можно сельнее.

    Для меня пункты 1, 3 и 4 суммируеться одним словом (буквой) — R language. Всем рекомендую учить и пользоваться им. Этот язык не только поможем вам закончить универ — аспирантуру, но так же поможет найти хорошую работу и не только в науке.
    При небольшом усилии можно легко суммировать и манипулировать данными и видеть их в графиках — это очень помогает понять данных.

    R packages must know !

    — tidyr
    — dplyr
    — readr
    — ggplot2

    `install.packages(c(«tidyr», «dplyr», «readr», «ggplot2»))` # установка
    `library(dplyr)` # загрузка
    `?dplyr` # помощь

    Особо не разглядел многого про Геномикс (Genomics). Ключевые слова там:

    — Секвинирование РНК и ДНК (RNA-seq and DNA-seq)
    — Потом выравнивание
    — Потом нахождения дифференциальной экспрессии генов (одна из популярных аппликация РНК-сек)

    Хочу заметить что статистика без условно центральный элемент, но хотел бы напомнить что дружба с командная строкой вам так же очень пригодиться:

    — Unix like machine — Apple/Linux
    — BASH (Bourne Again SHell) «язык» который понимает shell и на котором так же как и в R можно писать скрипты

    Ну все -> echo все !
    все !
    sudo poweroff

Напишите свой комментарий