百川智能推出全新大模型，上下文窗口长度达192K

商业三易生活网 2023-10-31 08:59

日前，百川智能方面宣布推出Baichuan2-192K大模型。据了解，该模型上下文窗口长度达192K，能够处理约35万个汉字，是Claude2（目前支持长上下文窗口的最优秀大模型，支持100K上下文窗口、实测约8万字）的4.4倍，是GPT-4（支持32K上下文窗口、实测约2.5万字）的14倍，号称是目前全球最长的上下文窗口。

据悉，上下文窗口长度是大模型的核心技术之一，通过更大的上下文窗口，大模型能够结合更多上下文内容获得更丰富的语义信息，更好的捕捉上下文的相关性、消除歧义，进而更加准确、流畅的生成内容。

除上下文窗口长度外，Baichuan2-192K在长窗口文本生成质量、长上下文理解，以及长文本问答、摘要等方面也表现优异。在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上，Baichuan2-192K表现良好，有7项取得SOTA，全面领先Claude2。此外LongEval的评测结果显示，在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能，而其他开源或者商用模型在窗口增长后效果都出现了近乎直线下降的情况。

值得一提的是，不同于其他大模型为扩大上下文窗口而损害性能，Baichuan2-192K通过对算法和工程的优化，实现了上下文窗口长度和模型性能之间的平衡，做到了窗口长度和模型性能的同步提升。

具体而言，在算法方面，百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案，能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插，在保证分辨率的同时增强了模型对长序列依赖的建模能力。在长文本困惑度标准评测数据PG-19上，当窗口长度扩大、Baichuan2-192K的序列建模能力持续增强。

而在工程方面，在自主开发的分布式训练框架基础上，百川智能整合目前市场上所有先进的优化技术，包括张量并行、流水并行、序列并行、重计算以及Offload功能等，独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况，自动寻找最适合的分布式策略，极大降低了长窗口训练和推理过程中的显存占用。

据悉，Baichuan2-192K 将以API调用和私有化部署的方式提供给企业用户，目前百川智能已启动Baichuan2-192K的API内测，开放给法律、媒体、金融等行业的核心合作伙伴。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】