ChatGPT官网

OpenAI发布GPT-4o mini,3.5正式退场,网友却开心不起来

chatgpt2024-10-08 07:39:45171
我要的是Sora和 GPT-5您给了我们 GPT-4o mini

一觉睡醒,OpenAI发布了新模型,GPT-4o mini,3.5正式退场。

用几句话就能总结。

  • 能力接近GPT-4,价格是原来的1/4。

  • GPT-4o mini 以 API 的方式发布,支持图片和文字,最长 128k

好像也没其他亮点了,近期OpenAI被anthropic、Gemini Flash频繁抢占市场,GPT-4o mini纯粹为了刷刷存在感。

其他AI视频平台靠粉丝贡献内容,Sora每天自导自演大片。

模型测试

推理任务:GPT-4o mini 在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准 MMLU 上的得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

数学和编码能力:GPT-4o mini 在数学推理和编码任务中表现出色,优于市场上之前的小型模型。在测量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 得分为 75.5%,Claude Haiku 得分为 71.7%。在测量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 得分为 71.5%,Claude Haiku 得分为 75.9%。

多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

LMSYS 对比

在LMSYS竞技场测试一下GPT-4o mini的表现。

仍然无法解答9.11和9.9谁比较大。

为确保公平比较,我们选用了一个规模相当的小型模型进行对照测试。

知识问答

数学问题

一道小学奥数题,都答对了,但解题思路好像不一样。

编程能力

编程能力持平

创意写作

没有样本提示的文字表达能力依然地烂。

OpenAI发布了GPT-4o mini,Mistral联手英伟达推出12B小模型Nemo,性能赶超Gema和Llama-3 8B。

AI大模型竞争越来越激烈,但参数却越来越小。

可灵已经在国外疯传,anthropic、Gemini Flash抢占了市场,OpenAI就发布了一个迷你4o就草草收场,真淡定啊,真不顾用户感受啊。

本文链接:https://www.rongxin.vip/openai_sora_64.html

gpt-4o mini模型gpt-4o minigpt4omini

相关文章

网友评论