> For the complete documentation index, see [llms.txt](https://sliu583.gitbook.io/blog/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://sliu583.gitbook.io/blog/specific-work/shivarams-group/group-papers/lists.md).

# Lists

- [Wavelet: Efficient DNN Training with Tick-Tock Scheduling](https://sliu583.gitbook.io/blog/specific-work/shivarams-group/group-papers/lists/wavelet-efficient-dnn-training-with-tick-tock-scheduling.md): https://mlsys.org/virtual/2021/oral/1586
- [GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability](https://sliu583.gitbook.io/blog/specific-work/shivarams-group/group-papers/lists/gpu-lifetimes-on-titan-supercomputer-survival-analysis-and-reliability.md): https://dl.acm.org/doi/abs/10.5555/3433701.3433755
- [ZeRO-Infinity and DeepSpeed: Unlocking unprecedented model scale for deep learning training](https://sliu583.gitbook.io/blog/specific-work/shivarams-group/group-papers/lists/zero-infinity-and-deepspeed-unlocking-unprecedented-model-scale-for-deep-learning-training.md): https://www.microsoft.com/en-us/research/blog/zero-infinity-and-deepspeed-unlocking-unprecedented-model-scale-for-deep-learning-training/
- [ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning](https://sliu583.gitbook.io/blog/specific-work/shivarams-group/group-papers/lists/zero-infinity-breaking-the-gpu-memory-wall-for-extreme-scale-deep-learning.md): https://arxiv.org/pdf/2104.07857.pdf
- [KungFu: Making Training inDistributed Machine Learning Adaptive](https://sliu583.gitbook.io/blog/specific-work/shivarams-group/group-papers/lists/kungfu-making-training-indistributed-machine-learning-adaptive.md): https://www.usenix.org/system/files/osdi20-mai.pdf