docs-site/website/versioned_docs/version-3.1.0

id: version-3.1.0_Chinese-benchmark-train title: Benchmark for Distributed Training original_id: benchmark-train

项目：我们使用深度卷积神经网络ResNet-50。它有50个卷积层，用于图像分类。它需要3.8个GFLOPs来通过网络处理一张图像（尺寸为224x224）。输入的图像大小为224x224。

硬件方面：我们使用的是AWS的p2.8xlarge实例，每个实例有8个Nvidia Tesla K80 GPU，共96GB GPU内存，32个vCPU，488GB主内存，10Gbps网络带宽。

衡量标准：我们衡量不同数量worker的每次迭代时间，以评估SINGA的可扩展性。Batch-size固定为每个GPU32个。采用同步训练方案。因此，有效的batch-size是32N，其中N是GPU的数量。我们与一个流行的开源系统进行比较，该系统采用参数服务器拓扑结构。选择第一个GPU作为服务器。

Benchmark Experiments
可扩展性测试。条形为吞吐量，折线形为通信成本。