加速AI模型训练:DapuStor SSD + BaM 技术
在图和数据分析、推荐系统 、机器视觉等领域,通常需要利用 GPU进行多种多样的 AI 模型训练。在模型训练时,数据加载到显存的速度和效率是影响训练时间的关键因素。由于训练数据集的大小可能高达数十TB,远大于 GPU 内存(HBM),因此必须对完整的数据集进行拆分,并在模型训练程序的每次迭代过程中,及时向GPU交付指定的数据子集。要做到这一点,目前主要有两类方法: 1. 依靠CPU调度,从驱动
DapuStor
DapuStor . 2024-08-16 1 7 8378
- 1