nextclade

Analyze viral sequences to track evolution

TLDR

Align sequences to user provided reference, outputting the alignment to a file

$ nextclade run [path/to/sequences.fa] [[-r|--input-ref]] [path/to/reference.fa] [[-o|--output-fasta]] [path/to/alignment.fa]

Create a TSV report, auto-downloading the latest dataset

$ nextclade run [path/to/fasta] [[-d|--dataset-name]] [dataset_name] [[-t|--output-tsv]] [path/to/report.tsv]

List all available datasets

$ nextclade dataset list

Download the latest SARS-CoV-2 dataset

$ nextclade dataset get [[-n|--name]] sars-cov-2 [[-o|--output-dir]] [path/to/directory]

Use a downloaded dataset, producing all outputs

$ nextclade run [[-D|--input-dataset]] [path/to/dataset_directory] [[-O|--output-all]] [path/to/output_directory] [path/to/sequences.fasta]

Run on multiple files

$ nextclade run [[-d|--dataset-name]] [dataset_name] [[-t|--output-tsv]] [path/to/output_tsv] -- [path/to/input_fasta_1 path/to/input_fasta_2 ...]

Try reverse complement if sequence does not align

$ nextclade run --retry-reverse-complement [[-d|--dataset-name]] [dataset_name] [[-t|--output-tsv]] [path/to/output_tsv] [path/to/input_fasta]

SYNOPSIS

nextclade <SUBCOMMAND> [OPTIONS]

run
    Main analysis subcommand for sequences

dataset
    Manage analysis datasets (get, list, update)

--help, -h
    Print help information

--version, -V
    Print version information

--dataset-name <NAME>
    Dataset name (e.g. 'sars-cov-2')

--dataset-url <URL>
    URL to zip dataset

--input-sequences <PATH>
    Input FASTA/FASTQ sequences

--input-reference <PATH>
    Custom reference FASTA

--output-tsv <PATH>
    Tab-separated results

--output-csv <PATH>
    Comma-separated results

--output-json <PATH>
    JSON results

--output-fasta <PATH>
    Aligned FASTA output

--output-tree <PATH>
    Phylogenetic tree (Nexus)

--threads <N>
    Number of CPU threads

--include-endpoint-mutations
    Include mutations outside gene regions

--output-basename <STR>
    Base name for all outputs

DESCRIPTION

Nextclade is a fast, scalable command-line tool for analyzing viral genomes, especially SARS-CoV-2. It processes FASTA/FASTQ input sequences to perform:

• Clade assignment (Nextstrain, WHO)
• Mutation calling (nucleotide/aa substitutions)
• Quality control (scoring missing data, divergences)
• Alignment to reference genomes
• Pango lineage inference

Using predefined datasets (genes, references, trees), it outputs results in TSV, CSV, JSON, aligned FASTA, and phylogenetic trees (Nexus/Newick). Supports multi-threading for high-throughput surveillance.

Part of the Nextstrain ecosystem, it's used globally for COVID-19 tracking. Datasets auto-update for latest variants. Install via Conda, Cargo, or binaries. Handles thousands of sequences efficiently on standard hardware.

nextclade

Analyze viral sequences to track evolution

TLDR

SYNOPSIS

PARAMETERS

DESCRIPTION

CAVEATS

DATASETS

OUTPUTS

INSTALLATION

HISTORY

SEE ALSO