BERT 焕新生:Hugging Face、英伟达与约翰霍普金斯大学推出 ModernBERT
BERT 的新时代
12 月 29 日消息,Hugging Face、英伟达和约翰霍普金斯大学研究人员联手为 Hugging Face 上的热门编码器模型 BERT 推出了全新版本 ModernBERT,号称在满足效率的同时新增支持处理长达 8192 个 Token 的上下文。尽管 BERT 模型自 2018 年发布以来仍被业界广泛使用,并且是 Hugging Face 上下载量第二大的模型(仅次于 RoBERTa),每月下载量超 6800 万次,但这款模型如今已有些落后。
ModernBERT 的诞生
在 BERT 模型首次发布 6 年后的今天,Hugging Face 和其他团队借鉴了近年来业界 LLM 的进展,对 BERT 模型架构和训练过程进行改进,最终公布了 ModernBERT 模型以接替原版 BERT 模型。开发团队表示,ModernBERT 不仅继承了 BERT 的优点,还通过支持处理更长的上下文,使得其在多种分类测试和向量检索测试中都达到了目前业界领先水平。
训练与性能提升
据悉,相关开发团队使用了 2 万亿个 Token 来训练 ModernBERT,使得该模型在多种分类测试和向量检索测试中都达到了目前业界领先水平。目前开发团队共计公布了两个版本的模型,分别是 1.39 亿参数和 3.95 亿参数版本。这些改进不仅提升了模型的性能,还使其能够更好地处理复杂和长文本任务。
总结
BERT 模型在发布 6 年后迎来了新的升级版本 ModernBERT,由 Hugging Face、英伟达和约翰霍普金斯大学联手推出。ModernBERT 不仅在效率上有所提升,还支持处理更长的上下文,使其在多种测试中达到了业界领先水平。对于依赖 BERT 模型的开发者和研究人员来说,ModernBERT 无疑是一个强大的新工具,助力他们在自然语言处理领域取得更大突破。