2023-04-13 17:58
你没用过吧 13亿数据用起来跟弱智差不多还不能读取自己的库,这玩意早就有了
重点是可以在消费级GPU上训练
一杯咖啡,训完13亿参数版ChatGPT
如果你只有大约1-2小时的咖啡或午餐休息时间,也可以尝试使用DeepSpeed-Chat训练一个「小玩具」。
团队特地准备了一个针对1.3B模型的训练示例,可在消费级GPU上进行测试。最棒的是,当你从午休回来时,一切都已准备就绪。
python train.py --actor-model facebook/opt-1.3b --reward-model facebook/opt-350m --num-gpus 1
配备48GB显存的消费级NVIDIA A6000 GPU:
一个GPU Node,半天搞定130亿参数