作者|高飞
去年这个时候,投资圈曾经有过一个“投模型还是投应用”的辩论。现在看来,这是一个无意义的议题,因为技术生态的逻辑已经变了。
多数人仍然习惯用传统的“两层思维”生态架构来思考大模型:系统基座在下面,面向用户的应用在上面,二者泾渭分明。
历史上看,这种二分法是对的:
1. DOS 操作系统面世时,没有可执行的 “.com” 或 “.exe” 程序,用户根本无从交互;
2. Windows 问世时,也没有人会拿一个操作系统单独“空跑”。哪怕是当年经典的“纸牌”和“扫雷”,也是微软为了让大众理解并熟悉图形界面,不得不自己编写的小应用;
3. iOS 让智能手机成为一种基础设施,但首批吸引用户使用的,还是纸飞机、拍照,甚至打电话这些关键应用;
4. 云计算概念提出来后,人们谈论的都是基于云的 SaaS 和各种网站,用不了多久就变成“这家公司用 AWS 跑后台”这样的陈述。云计算本身并没有变成一个直接面向大众的入口。
但是,AI 之所以是一场技术革命,就意味着它会颠覆我们已有的常识。我认为,两层架构在这个时代已经失效。
举个例子:OpenAI 的 ChatGPT 从一开始发布时,就既是一个模型,又是一个面向大众的消费级应用。
你不需要再去下载任何“子程序”才能让 ChatGPT 跑起来;只需要在对话框输入文字(提示工程,Prompt Engineering),它就能执行推理或生成内容。它甚至创造了最快达到 1 亿月活用户的新纪录。这是一个毫无争议的应用。
但它同时也是一种模型,OpenAI提供了 API 调用,让无数应用可以基于它构建。
当我们说 “DeepSeek” 时,既可能指一种在 LMarena、AIME 榜单上排名靠前的前沿推理模型,也可以指一款曾登顶中美等多个国家 iOS 应用商店的 App。
所以,下次再有人问:“我们该投大语言模型还是应用层?”也许可以告诉他,这不是一个非此即彼的问题。在这个领域里,模型就是应用,应用也就是模型。
如果你在做模型,你的用户并不需要了解多少编译、链接或 SDK 之类的东西,就能够通过自然语言提示来使用它。
反过来,如果你在做 AI 应用,其实最终还是在向用户交付一项“大模型”能力,无论你使用的是提示工程、强化学习、工作流、Agent,还是别的“套壳”手段,底层都还是那台贯通一切的“大脑”。
模型与应用的边界正在塌陷,用户甚至不知道,或者并不在意自己是在“跑模型”还是在“用程序”。
但是,除了投资规模,做应用也并不比做基座模型廉价,因为在这个时代,切换一个模型底座并不比换辆车开更难。几乎你使用的所有 AI 应用,都提供了在后台切换模型的设置选项。
你能在云计算时代想象这些吗?一个网站提供了切换不同云主机访问?还记得适配安卓、iOS 等不同系统、不同尺寸的手机有多难吗?
只不过,应用开发者还是需要一点戒备。你的产品最好不要在“智能演化”的延长线上。就像山姆·奥特曼(Sam Altman)所说:如果基座模型变得更好,你的应用也应该同步变得更好,而不是被彻底替代、不再被需要。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。