GPT-4在考试中击败90%的人类

每经编辑：毕陆名

3月15日，#GPT4做一个网站只要十秒#登上热搜。

当地时间周二（3月14日），人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。几乎所有的办公室案头工作，GPT-4无所不能。比如，10秒钟就能做出一个网站，程序员们也该失业了？每个人都该看一下昨天（3月14日）GPT4的发布会，下面摘出来的这两分钟时间，演示的是：

1、在草稿本上用纸笔画出一个非常粗糙的草图；

图片来源：视频截图

2、拍照告诉GPT我要做一个网站长这样，给我生成网站代码；

3、网站做完，总共历时十秒钟左右。

图片来源：视频截图

此外，该公司还表示，GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI还称，GPT-4参加了多种基准考试测试，包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分高于88%的应试者。

OpenAI周二表示，在内部评估中，GPT-4产生正确回应的可能性要比GPT-3.5高出40%。而且GPT-4是多模态的，同时支持文本和图像输入功能。OpenAI称，GPT-4比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。

据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。

例如，GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。

OpenAI表示，已经与多家公司合作，要将GPT-4结合到他们的产品中，包括Duolingo、Stripe和Khan Academy。GPT-4模型也将以API的形式，提供给付费版ChatGPT Plus的订阅用户。开发者可以注册，用它打造应用。微软此后表示，新款的必应（Bing）搜索引擎将运行于GPT-4系统之上。

OpenAI表示，虽然两个版本在日常对话中看起来很相似，但当任务复杂到一定程度时，差异就表现出来了，GPT-4更可靠、更有创造力，能够处理更微妙的指令。“在我们的内部评估中，它产生正确回应的可能性比GPT-3.5高40%。”

此外，GPT-4还有了一个质的飞跃——可以开始处理图像。经常使用ChatGPT的人肯定知道，它只能处理文本，但GPT-4开始接受图像作为输入介质。在OpenAI提供的一个示例中，GPT-4准确地回答了几个网络meme为什么搞笑的问题（虽然解释得并不好笑）。