一觉睡醒,OpenAI发布了新模型,GPT-4o mini,3.5正式退场。
用几句话就能总结。
能力接近GPT-4,价格是原来的1/4。
GPT-4o mini 以 API 的方式发布,支持图片和文字,最长 128k
好像也没其他亮点了,近期OpenAI被anthropic、Gemini Flash频繁抢占市场,GPT-4o mini纯粹为了刷刷存在感。
其他AI视频平台靠粉丝贡献内容,Sora每天自导自演大片。
模型测试
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准 MMLU 上的得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务中表现出色,优于市场上之前的小型模型。在测量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 得分为 75.5%,Claude Haiku 得分为 71.7%。在测量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 得分为 71.5%,Claude Haiku 得分为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
LMSYS 对比
在LMSYS竞技场测试一下GPT-4o mini的表现。
仍然无法解答9.11和9.9谁比较大。
为确保公平比较,我们选用了一个规模相当的小型模型进行对照测试。
知识问答
数学问题
一道小学奥数题,都答对了,但解题思路好像不一样。
编程能力
编程能力持平
创意写作
没有样本提示的文字表达能力依然地烂。
OpenAI发布了GPT-4o mini,Mistral联手英伟达推出12B小模型Nemo,性能赶超Gema和Llama-3 8B。
AI大模型竞争越来越激烈,但参数却越来越小。
可灵已经在国外疯传,anthropic、Gemini Flash抢占了市场,OpenAI就发布了一个迷你4o就草草收场,真淡定啊,真不顾用户感受啊。
网友评论