Nextflow
Основные компоненты
Директивы
./main.nf
process FASTQC {
container 'biocontainers/fastqc:v0.11.5'
tag "FASTQC on $sample_id"
}
Каналы
./main.nf
ch = Channel.of(1, 2, 3) ch.view()
Процессы
process < name > {
[ directives ]
input:
< process inputs >
output:
< process outputs >
when:
< condition >
[script|shell|exec]:
"""
< user script to be executed >
"""
}
- directives/Директивы — это начальные декларации, определяющие необязательные параметры.
- input/Вход определяет ожидаемый входной канал(ы)
- output/Выход определяет ожидаемый выходной канал(ы)
- when/Когда является необязательным оператором предложения, разрешающим условные процессы
- script|shell|exec/Скрипт — это строковый оператор, определяющий команду, которая должна быть выполнена задачей процесса.
Операторы
Channel
.of(1, 2, 3, 4)
.map { it -> it * it }
.view()
Модули
include { SPLITLETTERS } from './modules.nf'
include { SPLITLETTERS; CONVERTTOUPPER } from './modules.nf'
include { CONVERTTOUPPER as CONVERTTOUPPER_one } from './modules.nf'
Конфигурация
./nextflow.config
propertyOne = 'world'
anotherProp = "Hello $propertyOne"
customPath = "$PATH:/my/app/folder"
// comment a single line
params.foo = 'Hello'
env.ALPHA = 'some value'
process.container = 'nextflow/rnaseq-nf'
docker.enabled = true
// Настройки пакетного планировщика
process {
cpus = 10
memory = 8.GB
container = 'biocontainers/bamtools:v2.4.0_cv3'
withName: FOO {
memory = { 4.GB * task.cpus }
}
}
- library: загрузите образ контейнера из сервиса Singularity Library. * shub: загрузите образ контейнера из Singularity Hub. (не работает)
- docker: загрузите образ контейнера из Docker Hub и преобразуйте его в формат Singularity. * docker-daemon: извлеките образ контейнера из локальной установки Docker и преобразуйте его в файл образа Singularity.
# Docker
Варианты работы:
Dockerfile
./Dockerfile
FROM debian:bullseye-slim LABEL image.author.name "Your Name Here" LABEL image.author.email "your@email.here" RUN apt-get update && apt-get install -y curl cowsay
Запуск
$ docker build -t my-image . $ docker run my-image cowsay Hello Docker! $ docker run -it my-image bash
$ nextflow run script2.nf -with-docker my-image
./nextflow.config
Repositories
$ docker pull quay.io/biocontainers/ubuntu:24.04
Singularity/Apptainer
Singularity/Apptainer — это среда выполнения контейнера, предназначенная для работы в высокопроизводительных вычислительных центрах обработки данных, где использование Docker, как правило, не допускается из-за ограничений безопасности.
Singularity реализует модель выполнения контейнера, похожую на Docker. Однако она использует совершенно другой дизайн реализации.
./my-image.sif
Bootstrap: docker From: debian:bullseye-slim %environment export PATH=$PATH:/usr/games/ %labels AUTHOR <your name> %post apt-get update && apt-get install -y locales-all curl cowsay curl -sSL https://github.com/COMBINE-lab/salmon/releases/download/v1.0.0/salmon-1.0.0_linux_x86_64.tar.gz | tar xz \ && mv /salmon-*/bin/* /usr/bin/ \ && mv /salmon-*/lib/* /usr/lib/
$ sudo singularity build my-image.sif Singularity $ singularity exec my-image.sif cowsay 'Hello Singularity' $ singularity shell my-image.sif $ singularity pull docker://debian:bullseye-slim
$ nextflow run script7.nf -with-singularity nextflow/rnaseq-nf
./nextflow.config
Repositories
$ singularity run https://depot.galaxyproject.org/singularity/ubuntu:24.04
Conda
Conda — популярный менеджер пакетов и сред. Встроенная поддержка Conda позволяет рабочим процессам Nextflow автоматически создавать и активировать среду(ы) Conda, учитывая зависимости, указанные каждым процессом.
conda init
./env.yml
name: nf-tutorial
channels:
- conda-forge
- defaults
- bioconda
dependencies:
- bioconda::salmon=1.5.1
- bioconda::fastqc=0.11.9
- bioconda::multiqc=1.12
- conda-forge::tbb=2020.2
$ conda env create --file env.yml $ conda env list
$ nextflow run script7.nf -with-conda ./
Другой способ создания сред, подобных conda, — это использование Dockerfile и micromamba.
./Dockerfile
FROM mambaorg/micromamba:0.25.1
COPY --chown=$MAMBA_USER:$MAMBA_USER env.yml /tmp/env.yml
RUN micromamba create -n nf-tutorial
RUN micromamba install -y -n nf-tutorial -f /tmp/env.yml && \
micromamba clean --all --yes
ENV PATH /opt/conda/envs/nf-tutorial/bin:$PATH
Repositories
$ conda install -c conda-forge -c bioconda ubuntu==24.04
BioContainers
Repositories
# Docker Swarm
Отсутствует поддержка в Nextflow
# Kubernetes
# Slurm
Slurm — это отказоустойчивая и высокомасштабируемая система управления кластером и планирования заданий с открытым исходным кодом для больших и малых кластеров Linux. Slurm не требует никаких изменений ядра для своей работы и является относительно самодостаточной. Как менеджер рабочей нагрузки кластера, Slurm имеет три ключевые функции. Во-первых, он выделяет пользователям эксклюзивный и/или неэксклюзивный доступ к ресурсам (вычислительным узлам) на определенный период времени, чтобы они могли выполнять работу. Во-вторых, он предоставляет фреймворк для запуска, выполнения и мониторинга работы (обычно параллельной работы) на наборе выделенных узлов. Наконец, он разрешает конфликты за ресурсы, управляя очередью ожидающих работ.
Демоны slurmd обеспечивают отказоустойчивую иерархическую связь. Пользовательские команды включают: sacct, sacctmgr, salloc, sattach, sbatch, sbcast, scancel, scontrol, scrontab, sdiag, sh5util, sinfo, sprio, squeue, sreport, srun, sshare, sstat, strigger и sview. Все команды могут выполняться в любом месте кластера.
OAR
OAR — это универсальный менеджер ресурсов и задач (также называемый пакетным планировщиком) для кластеров HPC и других вычислительных инфраструктур (например, экспериментальных испытательных стендов распределенных вычислений, где универсальность является ключевым фактором).
# HyperQueue
HyperQueue — это инструмент, разработанный для упрощения выполнения больших рабочих процессов (графов задач) на кластерах HPC. Он позволяет выполнять большое количество задач простым способом, без необходимости вручную отправлять задания в пакетные планировщики, такие как Slurm или PBS. Вы указываете, что именно вы хотите вычислить, а HyperQueue автоматически запрашивает вычислительные ресурсы и динамически распределяет нагрузку задач по всем выделенным узлам и ресурсам. HyperQueue также может работать без Slurm/PBS как общий распределенный механизм выполнения задач.
# HTCondor
HTCondor — это программная система, которая создает среду высокопроизводительных вычислений (HTC). Она эффективно использует вычислительную мощность машин, подключенных через сеть, будь то отдельный кластер, набор кластеров в кампусе, облачные ресурсы, как автономные, так и временно присоединенные к локальному кластеру, или международные сети. Мощь исходит из способности эффективно использовать общие ресурсы с распределенным владением.
# Flux
Flux — это гибкая структура для управления ресурсами, созданная для вашего сайта. Структура состоит из набора проектов, инструментов и библиотек, которые могут использоваться для создания настраиваемых менеджеров ресурсов для центров высокопроизводительных вычислений. В отличие от традиционных менеджеров ресурсов, Flux может работать как параллельное задание в большинстве пусковых установок, поддерживающих MPI, в том числе в самом Flux. Это не только делает пакетные скрипты и рабочие процессы для Flux переносимыми на другие менеджеры ресурсов (просто запустите Flux как задание), но также означает, что пакетные задания имеют в своем распоряжении все функции полного менеджера ресурсов, как будто у них есть целый кластер.
./nextflow.config
manifest {
mainScript = 'demo.nf'
homePage = 'https://github.com/nextflow-io/nextflow/tree/master/docker/flux'
description = 'Demo using Nextflow with Flux'
}
process {
executor = 'flux'
}
./main.nf
workflow {
breakfast = Channel.of '🥞️', '🥑️', '🥧️', '🍵️', '🍞️'
haveMeal(breakfast)
}
process haveMeal {
debug true
input:
val food
script:
"""
printf '$food for breakfast!'
"""
}
$ nextflow -c nextflow.config run main.nf