英伟达发布了强大的开源人工智能模型,可与OpenAI和谷歌等行业领导者的专有模型竞争。
该公司新推出的NVLM 1.0系列大型多模态语言模型,以720亿参数的NVLM-D-72B为首,在视觉和语言任务中表现卓越,同时还增强了纯文本功能。
研究人员解释:“我们推出了NVLM 1.0,这是一系列前沿级多模态大型语言模型,在视觉语言任务上取得了最先进的成果,可与领先的专有模型(例如GPT-4o)和开放获取模型相媲美。”
通过公开模型权重并承诺发布训练代码,英伟达打破了先进AI系统封闭的趋势。这一决定让研究人员和开发者获得了前所未有的接触尖端技术的机会。
NVLM-D-72B模型在处理复杂的视觉和文本输入方面表现出了令人印象深刻的适应性。研究人员提供了一些示例,突出了该模型解释模因、分析图像和逐步解决数学问题的能力。
值得注意的是,NVLM-D-72B在经过多模态训练后,在纯文本任务上的表现有所提高。虽然许多类似模型的文本性能有所下降,但NVLM-D-72B在关键文本基准测试中将其准确率平均提高了4.3分。
研究人员指出:“NVLM-D-1.0-72B在纯文本数学和编码基准测试中比其文本主干有了显著的改进”,并强调了一个关键优势。
英伟达决定公开如此强大的模型,这可能会加速整个领域的AI研究和开发。通过提供可与资金雄厚的科技公司专有模型相媲美的模型,英伟达可能会让较小的公司和独立研究人员为 AI进步做出更大贡献。
此外NVLM项目还引入了创新的架构设计,包括结合不同多模态处理技术的混合方法,这一发展可能会影响该领域未来的研究方向。
来源:93913
稿件/商务合作: 向前(微信 Shixiangqian7)电话:18700987744
创始人:张明军(微信 13720775110)
更多精彩内容,请关注ARinChina微信公众号(ID:X增强现实)
我的微信
这是我的微信扫一扫
评论