distributed/ddp/benchmark.py

*da0073e9SAndroid Build Coastguard Worker#!/usr/bin/env python3
*da0073e9SAndroid Build Coastguard Worker#
*da0073e9SAndroid Build Coastguard Worker# Measure distributed training iteration time.
*da0073e9SAndroid Build Coastguard Worker#
*da0073e9SAndroid Build Coastguard Worker# This program performs a sweep over a) a number of model architectures, and
*da0073e9SAndroid Build Coastguard Worker# b) an increasing number of processes. This produces a 1-GPU baseline,
*da0073e9SAndroid Build Coastguard Worker# an 8-GPU baseline (if applicable), as well as measurements for however
*da0073e9SAndroid Build Coastguard Worker# many processes can participate in training.
*da0073e9SAndroid Build Coastguard Worker#
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport argparse
*da0073e9SAndroid Build Coastguard Workerimport itertools
*da0073e9SAndroid Build Coastguard Workerimport json
*da0073e9SAndroid Build Coastguard Workerimport os
*da0073e9SAndroid Build Coastguard Workerimport shlex
*da0073e9SAndroid Build Coastguard Workerimport subprocess
*da0073e9SAndroid Build Coastguard Workerimport sys
*da0073e9SAndroid Build Coastguard Workerimport time
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport numpy as np
*da0073e9SAndroid Build Coastguard Workerimport torchvision
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.distributed as dist
*da0073e9SAndroid Build Coastguard Workerimport torch.nn as nn
*da0073e9SAndroid Build Coastguard Workerimport torch.optim as optim
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef allgather_object(obj):
*da0073e9SAndroid Build Coastguard Worker    out = [None for _ in range(dist.get_world_size())]
*da0073e9SAndroid Build Coastguard Worker    dist.all_gather_object(out, obj)
*da0073e9SAndroid Build Coastguard Worker    return out
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef allgather_run(cmd):
*da0073e9SAndroid Build Coastguard Worker    proc = subprocess.run(shlex.split(cmd), capture_output=True)
*da0073e9SAndroid Build Coastguard Worker    assert proc.returncode == 0
*da0073e9SAndroid Build Coastguard Worker    return allgather_object(proc.stdout.decode("utf-8"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef allequal(iterator):
*da0073e9SAndroid Build Coastguard Worker    iterator = iter(iterator)
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        first = next(iterator)
*da0073e9SAndroid Build Coastguard Worker    except StopIteration:
*da0073e9SAndroid Build Coastguard Worker        return True
*da0073e9SAndroid Build Coastguard Worker    return all(first == rest for rest in iterator)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef benchmark_process_group(pg, benchmark, use_ddp_for_single_rank=True):
*da0073e9SAndroid Build Coastguard Worker    torch.manual_seed(pg.rank())
*da0073e9SAndroid Build Coastguard Worker    torch.cuda.manual_seed(pg.rank())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    model = benchmark.create_model()
*da0073e9SAndroid Build Coastguard Worker    data = [(benchmark.generate_inputs(), benchmark.generate_target())]
*da0073e9SAndroid Build Coastguard Worker    criterion = nn.CrossEntropyLoss()
*da0073e9SAndroid Build Coastguard Worker    optimizer = optim.SGD(model.parameters(), 0.001, momentum=0.9, weight_decay=1e-4)
*da0073e9SAndroid Build Coastguard Worker    if use_ddp_for_single_rank or pg.size() > 1:
*da0073e9SAndroid Build Coastguard Worker        model = torch.nn.parallel.DistributedDataParallel(
*da0073e9SAndroid Build Coastguard Worker            model,
*da0073e9SAndroid Build Coastguard Worker            device_ids=[torch.cuda.current_device()],
*da0073e9SAndroid Build Coastguard Worker            broadcast_buffers=False,
*da0073e9SAndroid Build Coastguard Worker            process_group=pg,
*da0073e9SAndroid Build Coastguard Worker            bucket_cap_mb=benchmark.bucket_size,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    measurements = []
*da0073e9SAndroid Build Coastguard Worker    warmup_iterations = 5
*da0073e9SAndroid Build Coastguard Worker    measured_iterations = 10
*da0073e9SAndroid Build Coastguard Worker    for inputs, target in data * (warmup_iterations + measured_iterations):
*da0073e9SAndroid Build Coastguard Worker        start = time.time()
*da0073e9SAndroid Build Coastguard Worker        output = model(*inputs)
*da0073e9SAndroid Build Coastguard Worker        loss = criterion(output, target)
*da0073e9SAndroid Build Coastguard Worker        loss.backward()
*da0073e9SAndroid Build Coastguard Worker        optimizer.step()
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.synchronize()
*da0073e9SAndroid Build Coastguard Worker        measurements.append(time.time() - start)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Throw away measurements for warmup iterations
*da0073e9SAndroid Build Coastguard Worker    return measurements[warmup_iterations:]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef run_benchmark(benchmark, ranks, opts):
*da0073e9SAndroid Build Coastguard Worker    group = dist.new_group(ranks=ranks, backend=benchmark.distributed_backend)
*da0073e9SAndroid Build Coastguard Worker    measurements = []
*da0073e9SAndroid Build Coastguard Worker    if dist.get_rank() in set(ranks):
*da0073e9SAndroid Build Coastguard Worker        if not opts:
*da0073e9SAndroid Build Coastguard Worker            opts = {}
*da0073e9SAndroid Build Coastguard Worker        measurements = benchmark_process_group(group, benchmark, **opts)
*da0073e9SAndroid Build Coastguard Worker    dist.destroy_process_group(group)
*da0073e9SAndroid Build Coastguard Worker    dist.barrier()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Aggregate measurements for better estimation of percentiles
*da0073e9SAndroid Build Coastguard Worker    return list(itertools.chain(*allgather_object(measurements)))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef sweep(benchmark):
*da0073e9SAndroid Build Coastguard Worker    # Synthesize the set of benchmarks to run.
*da0073e9SAndroid Build Coastguard Worker    # This list contain tuples for ("string prefix", [rank...]).
*da0073e9SAndroid Build Coastguard Worker    benchmarks = []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def append_benchmark(prefix, ranks, opts=None):
*da0073e9SAndroid Build Coastguard Worker        prefix = f"{len(ranks):4} GPUs -- {prefix}"
*da0073e9SAndroid Build Coastguard Worker        benchmarks.append((prefix, ranks, opts))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def local_print(msg):
*da0073e9SAndroid Build Coastguard Worker        if dist.get_rank() == 0:
*da0073e9SAndroid Build Coastguard Worker            print(msg, end="", flush=True)  # noqa: E999
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def print_header():
*da0073e9SAndroid Build Coastguard Worker        local_print("\n")
*da0073e9SAndroid Build Coastguard Worker        local_print("%22s" % "")
*da0073e9SAndroid Build Coastguard Worker        for p in [50, 75, 90, 95]:
*da0073e9SAndroid Build Coastguard Worker            local_print("%14s%10s" % ("sec/iter", "ex/sec"))
*da0073e9SAndroid Build Coastguard Worker        local_print("\n")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def print_measurements(prefix, nelem, measurements):
*da0073e9SAndroid Build Coastguard Worker        measurements = sorted(measurements)
*da0073e9SAndroid Build Coastguard Worker        local_print("%8s:" % prefix)
*da0073e9SAndroid Build Coastguard Worker        for p in [50, 75, 90, 95]:
*da0073e9SAndroid Build Coastguard Worker            v = np.percentile(measurements, p)
*da0073e9SAndroid Build Coastguard Worker            local_print("  p%02d:  %1.3fs  %6d/s" % (p, v, nelem / v))
*da0073e9SAndroid Build Coastguard Worker        local_print("\n")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Every process runs once by themselves to warm up (CUDA init, etc).
*da0073e9SAndroid Build Coastguard Worker    append_benchmark("  warmup", [dist.get_rank()], {"use_ddp_for_single_rank": False})
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Single machine baselines
*da0073e9SAndroid Build Coastguard Worker    append_benchmark("  no ddp", range(1), {"use_ddp_for_single_rank": False})
*da0073e9SAndroid Build Coastguard Worker    append_benchmark("   1M/1G", range(1))
*da0073e9SAndroid Build Coastguard Worker    append_benchmark("   1M/2G", range(2))
*da0073e9SAndroid Build Coastguard Worker    append_benchmark("   1M/4G", range(4))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Multi-machine benchmarks
*da0073e9SAndroid Build Coastguard Worker    for i in range(1, (dist.get_world_size() // 8) + 1):
*da0073e9SAndroid Build Coastguard Worker        append_benchmark("   %dM/8G" % i, range(i * 8))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Run benchmarks in order of increasing number of GPUs
*da0073e9SAndroid Build Coastguard Worker    print_header()
*da0073e9SAndroid Build Coastguard Worker    results = []
*da0073e9SAndroid Build Coastguard Worker    for prefix, ranks, opts in sorted(benchmarks, key=lambda tup: len(tup[1])):
*da0073e9SAndroid Build Coastguard Worker        # Turn range into materialized list.
*da0073e9SAndroid Build Coastguard Worker        ranks = list(ranks)
*da0073e9SAndroid Build Coastguard Worker        measurements = run_benchmark(benchmark, ranks, opts)
*da0073e9SAndroid Build Coastguard Worker        if "warmup" not in prefix:
*da0073e9SAndroid Build Coastguard Worker            print_measurements(prefix, benchmark.batch_size, measurements)
*da0073e9SAndroid Build Coastguard Worker            results.append({"ranks": ranks, "measurements": measurements})
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return results
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass Benchmark:
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, device, distributed_backend, bucket_size):
*da0073e9SAndroid Build Coastguard Worker        self.device = device
*da0073e9SAndroid Build Coastguard Worker        self.batch_size = 32
*da0073e9SAndroid Build Coastguard Worker        self.distributed_backend = distributed_backend
*da0073e9SAndroid Build Coastguard Worker        self.bucket_size = bucket_size
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __str__(self):
*da0073e9SAndroid Build Coastguard Worker        raise NotImplementedError
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def create_model(self):
*da0073e9SAndroid Build Coastguard Worker        raise NotImplementedError
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def generate_inputs(self):
*da0073e9SAndroid Build Coastguard Worker        raise NotImplementedError
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def generate_target(self):
*da0073e9SAndroid Build Coastguard Worker        raise NotImplementedError
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TorchvisionBenchmark(Benchmark):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, device, distributed_backend, bucket_size, model):
*da0073e9SAndroid Build Coastguard Worker        super().__init__(
*da0073e9SAndroid Build Coastguard Worker            device,
*da0073e9SAndroid Build Coastguard Worker            distributed_backend,
*da0073e9SAndroid Build Coastguard Worker            bucket_size,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.model = model
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __str__(self):
*da0073e9SAndroid Build Coastguard Worker        return f"{self.model} with batch size {self.batch_size}"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def create_model(self):
*da0073e9SAndroid Build Coastguard Worker        return torchvision.models.__dict__[self.model]().to(self.device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def generate_inputs(self):
*da0073e9SAndroid Build Coastguard Worker        return [torch.rand([self.batch_size, 3, 224, 224], device=self.device)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def generate_target(self):
*da0073e9SAndroid Build Coastguard Worker        return torch.tensor([1] * self.batch_size, dtype=torch.long, device=self.device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef main():
*da0073e9SAndroid Build Coastguard Worker    parser = argparse.ArgumentParser(description="PyTorch distributed benchmark suite")
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--rank", type=int, default=os.environ["RANK"])
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--world-size", type=int, required=True)
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--distributed-backend", type=str, default="nccl")
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--bucket-size", type=int, default=25)
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--master-addr", type=str, required=True)
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--master-port", type=str, required=True)
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--model", type=str)
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--json", type=str, metavar="PATH", help="Write file with benchmark results"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    args = parser.parse_args()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    num_gpus_per_node = torch.cuda.device_count()
*da0073e9SAndroid Build Coastguard Worker    assert num_gpus_per_node == 8, "Expected 8 GPUs per machine"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # The global process group used only for communicating benchmark
*da0073e9SAndroid Build Coastguard Worker    # metadata, like measurements. Not for benchmarking itself.
*da0073e9SAndroid Build Coastguard Worker    dist.init_process_group(
*da0073e9SAndroid Build Coastguard Worker        backend="gloo",
*da0073e9SAndroid Build Coastguard Worker        init_method=f"tcp://{args.master_addr}:{args.master_port}",
*da0073e9SAndroid Build Coastguard Worker        rank=args.rank,
*da0073e9SAndroid Build Coastguard Worker        world_size=args.world_size,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    output = allgather_run("nvidia-smi topo -m")
*da0073e9SAndroid Build Coastguard Worker    if not allequal(output):
*da0073e9SAndroid Build Coastguard Worker        print('Output of "nvidia-smi topo -m" differs between machines')
*da0073e9SAndroid Build Coastguard Worker        sys.exit(1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.rank == 0:
*da0073e9SAndroid Build Coastguard Worker        print("-----------------------------------")
*da0073e9SAndroid Build Coastguard Worker        print("PyTorch distributed benchmark suite")
*da0073e9SAndroid Build Coastguard Worker        print("-----------------------------------")
*da0073e9SAndroid Build Coastguard Worker        print()
*da0073e9SAndroid Build Coastguard Worker        print(f"* PyTorch version: {torch.__version__}")
*da0073e9SAndroid Build Coastguard Worker        print(f"* CUDA version: {torch.version.cuda}")
*da0073e9SAndroid Build Coastguard Worker        print(f"* Distributed backend: {args.distributed_backend}")
*da0073e9SAndroid Build Coastguard Worker        print(f"* Maximum bucket size: {args.bucket_size}MB")
*da0073e9SAndroid Build Coastguard Worker        print()
*da0073e9SAndroid Build Coastguard Worker        print("--- nvidia-smi topo -m ---")
*da0073e9SAndroid Build Coastguard Worker        print()
*da0073e9SAndroid Build Coastguard Worker        print(output[0])
*da0073e9SAndroid Build Coastguard Worker        print("--------------------------")
*da0073e9SAndroid Build Coastguard Worker        print()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    torch.cuda.set_device(dist.get_rank() % 8)
*da0073e9SAndroid Build Coastguard Worker    device = torch.device("cuda:%d" % (dist.get_rank() % 8))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    benchmarks = []
*da0073e9SAndroid Build Coastguard Worker    if args.model:
*da0073e9SAndroid Build Coastguard Worker        benchmarks.append(
*da0073e9SAndroid Build Coastguard Worker            TorchvisionBenchmark(
*da0073e9SAndroid Build Coastguard Worker                device=device,
*da0073e9SAndroid Build Coastguard Worker                distributed_backend=args.distributed_backend,
*da0073e9SAndroid Build Coastguard Worker                bucket_size=args.bucket_size,
*da0073e9SAndroid Build Coastguard Worker                model=args.model,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        for model in ["resnet50", "resnet101", "resnext50_32x4d", "resnext101_32x8d"]:
*da0073e9SAndroid Build Coastguard Worker            benchmarks.append(
*da0073e9SAndroid Build Coastguard Worker                TorchvisionBenchmark(
*da0073e9SAndroid Build Coastguard Worker                    device=device,
*da0073e9SAndroid Build Coastguard Worker                    distributed_backend=args.distributed_backend,
*da0073e9SAndroid Build Coastguard Worker                    bucket_size=args.bucket_size,
*da0073e9SAndroid Build Coastguard Worker                    model=model,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    benchmark_results = []
*da0073e9SAndroid Build Coastguard Worker    for benchmark in benchmarks:
*da0073e9SAndroid Build Coastguard Worker        if args.rank == 0:
*da0073e9SAndroid Build Coastguard Worker            print(f"\nBenchmark: {str(benchmark)}")
*da0073e9SAndroid Build Coastguard Worker        result = sweep(benchmark)
*da0073e9SAndroid Build Coastguard Worker        benchmark_results.append(
*da0073e9SAndroid Build Coastguard Worker            {
*da0073e9SAndroid Build Coastguard Worker                "model": benchmark.model,
*da0073e9SAndroid Build Coastguard Worker                "batch_size": benchmark.batch_size,
*da0073e9SAndroid Build Coastguard Worker                "result": result,
*da0073e9SAndroid Build Coastguard Worker            }
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Write file with benchmark results if applicable
*da0073e9SAndroid Build Coastguard Worker    if args.rank == 0 and args.json:
*da0073e9SAndroid Build Coastguard Worker        report = {
*da0073e9SAndroid Build Coastguard Worker            "pytorch_version": torch.__version__,
*da0073e9SAndroid Build Coastguard Worker            "cuda_version": torch.version.cuda,
*da0073e9SAndroid Build Coastguard Worker            "distributed_backend": args.distributed_backend,
*da0073e9SAndroid Build Coastguard Worker            "bucket_size": args.bucket_size,
*da0073e9SAndroid Build Coastguard Worker            "benchmark_results": benchmark_results,
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker        with open(args.json, "w") as f:
*da0073e9SAndroid Build Coastguard Worker            json.dump(report, f)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == "__main__":
*da0073e9SAndroid Build Coastguard Worker    main()