Это старая версия документа!
Nextflow
Основные компоненты
Директивы
./main.nf
process FASTQC { container 'biocontainers/fastqc:v0.11.5' tag "FASTQC on $sample_id" }
Каналы
./main.nf
ch = Channel.of(1, 2, 3) ch.view()
Процессы
process < name > { [ directives ] input: < process inputs > output: < process outputs > when: < condition > [script|shell|exec]: """ < user script to be executed > """ }
- directives/Директивы — это начальные декларации, определяющие необязательные параметры.
- input/Вход определяет ожидаемый входной канал(ы)
- output/Выход определяет ожидаемый выходной канал(ы)
- when/Когда является необязательным оператором предложения, разрешающим условные процессы
- script|shell|exec/Скрипт — это строковый оператор, определяющий команду, которая должна быть выполнена задачей процесса.
Операторы
Channel .of(1, 2, 3, 4) .map { it -> it * it } .view()
Модули
include { SPLITLETTERS } from './modules.nf' include { SPLITLETTERS; CONVERTTOUPPER } from './modules.nf' include { CONVERTTOUPPER as CONVERTTOUPPER_one } from './modules.nf'
Конфигурация
./nextflow.config
propertyOne = 'world' anotherProp = "Hello $propertyOne" customPath = "$PATH:/my/app/folder" // comment a single line params.foo = 'Hello' env.ALPHA = 'some value' process.container = 'nextflow/rnaseq-nf' docker.enabled = true // Настройки пакетного планировщика process { cpus = 10 memory = 8.GB container = 'biocontainers/bamtools:v2.4.0_cv3' withName: FOO { memory = { 4.GB * task.cpus } } }
- library: загрузите образ контейнера из сервиса Singularity Library. * shub: загрузите образ контейнера из Singularity Hub. (не работает)
- docker: загрузите образ контейнера из Docker Hub и преобразуйте его в формат Singularity. * docker-daemon: извлеките образ контейнера из локальной установки Docker и преобразуйте его в файл образа Singularity.
# Docker
Варианты работы:
Dockerfile
./Dockerfile
FROM debian:bullseye-slim LABEL image.author.name "Your Name Here" LABEL image.author.email "your@email.here" RUN apt-get update && apt-get install -y curl cowsay
Запуск
$ docker build -t my-image . $ docker run my-image cowsay Hello Docker! $ docker run -it my-image bash
$ nextflow run script2.nf -with-docker my-image
./nextflow.config
Repositories
$ docker pull quay.io/biocontainers/ubuntu:24.04
Singularity/Apptainer
Singularity/Apptainer — это среда выполнения контейнера, предназначенная для работы в высокопроизводительных вычислительных центрах обработки данных, где использование Docker, как правило, не допускается из-за ограничений безопасности.
Singularity реализует модель выполнения контейнера, похожую на Docker. Однако она использует совершенно другой дизайн реализации.
./my-image.sif
Bootstrap: docker From: debian:bullseye-slim %environment export PATH=$PATH:/usr/games/ %labels AUTHOR <your name> %post apt-get update && apt-get install -y locales-all curl cowsay curl -sSL https://github.com/COMBINE-lab/salmon/releases/download/v1.0.0/salmon-1.0.0_linux_x86_64.tar.gz | tar xz \ && mv /salmon-*/bin/* /usr/bin/ \ && mv /salmon-*/lib/* /usr/lib/
$ sudo singularity build my-image.sif Singularity $ singularity exec my-image.sif cowsay 'Hello Singularity' $ singularity shell my-image.sif $ singularity pull docker://debian:bullseye-slim
$ nextflow run script7.nf -with-singularity nextflow/rnaseq-nf
./nextflow.config
Repositories
$ singularity run https://depot.galaxyproject.org/singularity/ubuntu:24.04
Conda
Conda — популярный менеджер пакетов и сред. Встроенная поддержка Conda позволяет рабочим процессам Nextflow автоматически создавать и активировать среду(ы) Conda, учитывая зависимости, указанные каждым процессом.
conda init
./env.yml
name: nf-tutorial channels: - conda-forge - defaults - bioconda dependencies: - bioconda::salmon=1.5.1 - bioconda::fastqc=0.11.9 - bioconda::multiqc=1.12 - conda-forge::tbb=2020.2
$ conda env create --file env.yml $ conda env list
$ nextflow run script7.nf -with-conda ./
Другой способ создания сред, подобных conda, — это использование Dockerfile и micromamba.
./Dockerfile
FROM mambaorg/micromamba:0.25.1 COPY --chown=$MAMBA_USER:$MAMBA_USER env.yml /tmp/env.yml RUN micromamba create -n nf-tutorial RUN micromamba install -y -n nf-tutorial -f /tmp/env.yml && \ micromamba clean --all --yes ENV PATH /opt/conda/envs/nf-tutorial/bin:$PATH
Repositories
$ conda install -c conda-forge -c bioconda ubuntu==24.04
BioContainers
Repositories
# Docker Swarm
Отсутствует поддержка в Nextflow
# Kubernetes
# Slurm
Slurm — это отказоустойчивая и высокомасштабируемая система управления кластером и планирования заданий с открытым исходным кодом для больших и малых кластеров Linux. Slurm не требует никаких изменений ядра для своей работы и является относительно самодостаточной. Как менеджер рабочей нагрузки кластера, Slurm имеет три ключевые функции. Во-первых, он выделяет пользователям эксклюзивный и/или неэксклюзивный доступ к ресурсам (вычислительным узлам) на определенный период времени, чтобы они могли выполнять работу. Во-вторых, он предоставляет фреймворк для запуска, выполнения и мониторинга работы (обычно параллельной работы) на наборе выделенных узлов. Наконец, он разрешает конфликты за ресурсы, управляя очередью ожидающих работ.
Демоны slurmd обеспечивают отказоустойчивую иерархическую связь. Пользовательские команды включают: sacct, sacctmgr, salloc, sattach, sbatch, sbcast, scancel, scontrol, scrontab, sdiag, sh5util, sinfo, sprio, squeue, sreport, srun, sshare, sstat, strigger и sview. Все команды могут выполняться в любом месте кластера.
OAR
OAR — это универсальный менеджер ресурсов и задач (также называемый пакетным планировщиком) для кластеров HPC и других вычислительных инфраструктур (например, экспериментальных испытательных стендов распределенных вычислений, где универсальность является ключевым фактором).
# HyperQueue
HyperQueue — это инструмент, разработанный для упрощения выполнения больших рабочих процессов (графов задач) на кластерах HPC. Он позволяет выполнять большое количество задач простым способом, без необходимости вручную отправлять задания в пакетные планировщики, такие как Slurm или PBS. Вы указываете, что именно вы хотите вычислить, а HyperQueue автоматически запрашивает вычислительные ресурсы и динамически распределяет нагрузку задач по всем выделенным узлам и ресурсам. HyperQueue также может работать без Slurm/PBS как общий распределенный механизм выполнения задач.
# HTCondor
HTCondor — это программная система, которая создает среду высокопроизводительных вычислений (HTC). Она эффективно использует вычислительную мощность машин, подключенных через сеть, будь то отдельный кластер, набор кластеров в кампусе, облачные ресурсы, как автономные, так и временно присоединенные к локальному кластеру, или международные сети. Мощь исходит из способности эффективно использовать общие ресурсы с распределенным владением.
# Flux
Flux — это гибкая структура для управления ресурсами, созданная для вашего сайта. Структура состоит из набора проектов, инструментов и библиотек, которые могут использоваться для создания настраиваемых менеджеров ресурсов для центров высокопроизводительных вычислений. В отличие от традиционных менеджеров ресурсов, Flux может работать как параллельное задание в большинстве пусковых установок, поддерживающих MPI, в том числе в самом Flux. Это не только делает пакетные скрипты и рабочие процессы для Flux переносимыми на другие менеджеры ресурсов (просто запустите Flux как задание), но также означает, что пакетные задания имеют в своем распоряжении все функции полного менеджера ресурсов, как будто у них есть целый кластер.
./nextflow.config
manifest { mainScript = 'demo.nf' homePage = 'https://github.com/nextflow-io/nextflow/tree/master/docker/flux' description = 'Demo using Nextflow with Flux' } process { executor = 'flux' }
./main.nf
workflow { breakfast = Channel.of '🥞️', '🥑️', '🥧️', '🍵️', '🍞️' haveMeal(breakfast) } process haveMeal { debug true input: val food script: """ printf '$food for breakfast!' """ }
$ nextflow -c nextflow.config run main.nf