阿里推出数学专用AI模型，据称表现优于OpenAI和谷歌LLM

2024年8月12日16:06:43

摘要

阿里旨在通过推出一组名为Qwen2-Math的数学专用大型语言模型来提高人工智能开发的标准，其声称该模型可超越OpenAI GPT-4o。

阿里云计算部门Qwen团队在开发者平台GitHub发布帖子：“过去一年，我们投入了大量精力研究和增强大型语言模型的推理能力，特别关注其解决算术和数学问题的能力。”

Qwen2-Math建立在阿里6月发布的Qwen2的基础上，涵盖了基于参数规模的三种模型。参数是机器学习术语，指训练期间人工智能系统中存在的变量，有助于确定数据提示如何产生所需的输出。

根据Qwen团队帖子，参数数量最多的模型Qwen2-Math-72B-Instruct在数学基准测试中的表现优于美国开发的专有LLM，其中包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama -3.1-405B。

帖子写道：“我们希望Qwen2-Math能够为AI社区解决复杂的数学问题做出贡献。”

该帖子称，Qwen2-Math AI模型在英语和语文、数学基准上进行了测试。其中包括GSM8K，一个包含8500个高质量语言多样化小学数学问题的数据集；OlympiadBench，一个高水平双语多模态科学基准；以及高考内容。

通义千向第三方开发者开放已有一年多时间，开源让公众可以访问程序的源代码，允许第三方软件开发者修改或共享其设计、修复损坏的链接或扩展其功能。

7月，Qwen2-72B-Instruct在SuperClue LLM排名中仅次于GPT-4o和Claude 3.5 Sonnet。SuperClue是一个基准测试平台，根据计算、逻辑推理、编码和文本理解等指标对模型进行评估。

SuperClue称，中国和美国人工智能模型之间的差距似乎正在缩小，今年上半年，国内在推进LLM方面取得了重大进展。

美国加州大学伯克利分校支持的人工智能模型研究机构LMSYS于7月发布的另一项测试显示，Qwen2-72B排名第20位，OpenAI、Anthropic和谷歌的专有模型占据了前10名的大部分位置。

8月

我的微信

这是我的微信扫一扫

登录 注册 找回密码