中国电信人工智能研究院推出全国产化大模型 TeleChat2-115B

中国电信人工智能研究院(下文称 TeleAI)官方公众号2024年9月28日宣布,成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 —— 星辰语义大模型 TeleChat2-115B。这项科研成果标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。

全国产化平台的训练与优化

TeleChat2-115B 基于中国电信自研的天翼云 “息壤一体化智算服务平台” 和人工智能公司 “星海 AI 平台” 训练完成。据介绍,其在保证训练精度的前提下利用多种优化手段提升模型训练效率和稳定性,实现了 GPU 同等算力计算效率超 93% ,模型有效训练时长占比超 98%。

针对超大参数模型训练,TeleAI 采用了大量小模型进行 Scaling,进而验证不同模型结构的有效性。同时,在数据配比方面,基于小模型实验结果反馈,采用回归预测模型,得到较优数据配比。这就像是在模型训练的 “赛道” 上,TeleAI 通过不断优化策略和资源配置,让每一步都跑得更加稳健和高效。

后训练阶段的创新方法

在后训练阶段,TeleAI 通过一系列创新方法不断提升模型的性能和质量。首先,针对数学、代码和逻辑推理等内容,合成了大量问答数据,用于监督式微调(SFT)的第一阶段模型训练。其次,采用迭代式更新策略,使用模型对提示词数据进行指令复杂性提升与多样性扩充,从而提升答案质量和模型的适应性。

通过模型合成和人工标注的结合,TeleAI 不断优化模型的答案质量,并利用拒绝采样技术获取优质的 SFT 数据及奖励模型(RM)代表性数据。这些数据被进一步用于 SFT 训练和偏好对齐(DPO)训练,以确保模型在实际应用中的效果不断迭代和提升。

未来展望

TeleAI 表示,TeleChat2-115B 的成功不仅展示了中国在人工智能领域的技术实力,也为国产大模型的研发和应用提供了坚实基础。未来,TeleAI 将继续致力于自主创新,推动全国产化人工智能技术的发展,进一步提升我国在全球科技竞争中的地位。

通过此次发布的 TeleChat2-115B,TeleAI 希望能够为更多的科研机构和企业提供强大的技术支持,助力各行各业实现智能化升级。这一成就标志着中国电信在人工智能领域迈出了重要一步,也为国产大模型的未来发展描绘了美好的蓝图。

总的来说,TeleChat2-115B 的问世不仅是中国电信人工智能研究院的一大突破,更是我国在人工智能技术领域的一次重要实践。它不仅实现了全国产化替代,更为全球的 AI 研究和应用开辟了新的路径。在未来的日子里,TeleAI 将继续以科技创新为驱动,不断推动人工智能技术的发展和进步,为实现智能化社会贡献力量。