热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
不要听任何反对者的话,Gemini 3 在各种编码任务上都非常出色。从网页应用的用户界面、Swift 的 iOS 开发,到 Python 的后端代码,以及与 AI/ML 相关的任何内容,它都非常强大,擅长遵循规则和使用工具。
似乎每当发布一个主要的前沿模型时,总会有一群试图追逐名声的人谈论它是多么“令人失望”,以及它如何未能完成他们的宠物任务。通常你会发现,他们在提示方面表现糟糕,或者他们的任务完全是愚蠢的,与现实生活毫无相关。
有一些例外,比如 Llama4,显然对任何试用三分钟的人来说都是糟糕的。但人们对 GPT-5 也这么说,而这显然是错误的。这就像股市一样,人们对持怀疑态度和反对意见的人更感兴趣。负面情绪更容易吸引注意。
重要的是(至少对于编码而言)模型对那些已经擅长使用类似模型进行软件开发的人来说有多好,以及他们在对各种现实、真实世界任务进行几小时尝试后的理性意见,而不是愚蠢的陷阱问题。
要真正了解模型的一致性和自主性,以及它展现出的自主性和“毅力与决心”,需要花费一些真实的时间和大量的独立试验(这也与代理的使用有关,比如 Cursor 与 Gemini-CLI),以及它在工具方面的可靠性。
Gemini 3 在所有这些维度上都表现出色。谷歌通过这种模式为自己创造了巨大的市场价值,特别是因为他们能够在自己的定制硅片上以成本价托管它。
其他人要在价格-性能曲线上达到这一点将会非常困难(几乎不可能)。即使GPT-6在某种程度上更聪明,支付“英伟达税”并给詹森90%的毛利后,OpenAI的托管成本也会使其在帕累托原则上显得不足。
12.29K
热门
排行
收藏

