巨头AI，受困于巨头垄断

最近一直在折腾 LLM 的本地部署，所以时常在群里分享一些心得。然后就有人问我为什么执着于本地部署 AI。我直接的回答是：

这个需求当然是真实的，但我其实不止有这个需求需要本地部署 AI，只不过这个需求是被各家线上模型所禁止的，所以也是我第一个想到的本地部署的刚需。

实际上，目前日常使用过程中，实际让我使用体验下降的，是以下一些场景：

ChatGPT 很好，但它的 Web Browsing 功能强制绑定了 Bing。Bing 作为搜索引擎非常差，尤其是在中文领域。这意味着使用 ChatGPT Plus 进行搜索，就像是让一个大学生在竹简里找寻答案。
Bard 的搜索很好，因为它依托 Google。因此它的模型虽然不如 GPT，但使用它的体验就像是高中生在替我用 Google，肯定比大学生替我找竹简要好。但它严格遵守 Robots.txt 对网页的访问限制。这意味着，我无法将一篇微信公众号的文章链接发给它让它总结。
Grok 的优势也很明显，因为它能直接调用 X（Twitter）的搜索结果，这意味着它的外挂知识库是分钟级更新的，你能从它那里得到一些”刚刚发生的事情“的答案。我也不愿意为了这样一个优势单独每月付费。
文心一言在某种程度上也有优势，因为它能调用百度热搜，这意味着它对国内热点事件有更好的响应能力。

看起来，每家巨头，或者说线上 AI 都在模型的基础上基于自己的业务或利益相关做了一些特化。

但这种“优势”，其实是通过给对家制造“劣势”形成的。ChatGPT 的搜索之所以没有 Bard 效果好，是因为如果 ChatGPT 要接入 Google 搜索，就要给 Google 交纳高昂的搜索 API 费用。同样，马斯克也会给 X（Twitter）的 API 定一个天价，以保障 Bard 和 ChatGPT 在这一领域始终不能与 Grok 竞争。

如果对应到国内互联网，战争会进一步升级，这甚至都”不是钱“的事儿。百度永远不会把搜索接口给腾讯混元，腾讯也不会让文心一言读取微信公众号文章。

这在很大程度上反映了过去 20 年互联网发展的结果：一个寡头垄断，并彼此互不承认的赛博世界。

在移动互联网时代，用户已经习惯了这些商业公司在产品层面上无视对方的做法。二维码不能发，链接不能直接点击要复制，甚至链接都不能发，要复制一些什么”口令“，在评论区对暗号发私信。

我不可能因为在微信里打不开抖音链接，就不看抖音。我也不可能因为在小红书里不让发淘宝二维码，我就不在淘宝买东西。

垄断巨头之间的马奇诺防线，长期以来除了给用户带来麻烦之外，实际上在商业上只起到了一个”防突袭“的作用。避免了此前商业竞争实践中的一些，被对方从自己的 App 里一键拉客，导致用户一日哗变的现象。

但是，这却给巨头们自己的 AI 带上了重重的枷锁。

因为当我们讨论这一轮 AI 的时候，用户对它的想象就是 AGI，是通用人工智能，是一个至少在赛博空间里可以像人一样行动的代理——如果我可以看这篇微信文章，我的 AI 就应该可以看，否则这个 AI 对我就没用。

这意味着，如果巨头们之间不能打破商业壁垒让自己的 AI 在对方的地盘上行事，那么所有它们的在线模型无论是 GPT 还是 Gemini 还是文心一言，都会败给开源的本地部署模型，或者是第三方提供的模型。

我来举一个具体的场景来说明这一点：旅行计划。

经常出差或旅游的朋友们都知道，出行前安排行程其实是心理门槛最高的一个动作。当 AI 爆发的时候，可能不止用户，很多创业者也想过，AI 是否可以一键帮我们定制行程，甚至通过 API 的方式来帮我们直接预订机票、酒店和景区门票。

但现实是，这样的 AI 最有可能是携程或飞猪做出来。原因正如上面我列举的现有的那一堆巨头 AI 的优势那样。因为只有携程和飞猪，拥有实时更新的机票和酒店数据库，并且能够直接在系统内完成”下单“这样的操作。

从自身业务的角度考虑，飞猪和携程是绝对不会把这些数据作成 API 提供给独立的创业者的。

但如果飞猪和携程推出了一个这样的问答式生成行程与订单的旅行 AI，我会用吗？

答案是不会。

因为规划行程还有一个前置步骤，就是我要去小红书搜索目标地点到底有啥好玩的。在确定了究竟要玩什么之后，我还要在飞猪和携程之间来回切换以确保价格最低。有时，我还要用百度地图来确认在一个目的地城市内，几个景点之间的距离和移动方式来确定景点的取舍与顺序。

所以可想而知，飞猪和携程各自推出的 AI，根本不可能完成消费者对旅游攻略的个性化闭环。

它最多能做到的，是帮助用户在搜索界面更直观的进行搜索。而对于经常旅游和出差的朋友来说，这可能还不如自己直接在结构化搜索中勾选限制条件。更不用说，我还想在携程和飞猪之间比价，这更是单一平台AI所不可能做到的。

在旅游这个场景下，我需要的通用AI是什么：

我问 AI 春节去哪玩人少。
AI 去抖音和小红书上分别搜索”春节小众旅游城市“，汇总结果，生成一个备选列表给我第一次回答。
我说我可能对义乌、鞍山和淮南感兴趣，给我介绍一下这三个城市有啥可玩的。
AI 分别再去小红书上搜这三座城市，并给我三个稍微详细一点的介绍。
我决定去义乌，AI 去携程查机票价格、时间，并按照之前得到的义乌的景点介绍，去大众点评获得景点的营业时间，然后在百度地图里获得景点间的移动时间，安排日内行程。
我再进行几轮对话，对行程和景点进行微调（比如我不想早起）。
AI 生成最终行程。
我确认。
它开始下单。

这样梳理下来你就会发现，没有任何一家处于寡头垄断地位的互联网巨头能够推出这样的 AI。因为如果携程出，那么飞猪就会屏蔽它。如果飞猪出，携程也会屏蔽它。小红书出，则大众点评就会屏蔽它。

那么，唯一的可能是什么呢？

就是这个 AI Agent 是本地部署的或者它不属于任何巨头，它在用户的电脑或手机上，模拟用户的点击，模拟用户的滑动，模拟用户的视觉，完全凌驾于所有的 App 或网站之上，无视任何商业竞争导致的屏蔽。

它甚至应该能做到，在微信里读到了一个抖音链接，它会自动选择复制，打开抖音，而不是直接点击链接。真正做到，我能做什么我的 Agent 就能做什么。

这似乎并不是非常困难的事情，因为今年李飞飞曾经做了一个通过 LLM 来操作物理世界中机械臂的原型 VoxPoser。而 LLM 操作虚拟世界要比物理世界简单很多，简单说就是 LLM 指挥按键精灵。

尤其是在 GPT-4 Turbo 推出 Function Call 之后，也许现在就已经可以做出 Demo。但整体的工作量应该还是比较大，会导致每次请求的价格较高。而价格，一直是 Agent 类 AI 最大的障碍。

但如果我们乐观的预计 AI 的降本增效速度能维持 2023 年水平 2～3 年的话，那么成本也就不是问题了。

但在法律和合规层面上，如果这个产品背后接入的是 OpenAI 这样的中央托管式的 MaaS 服务，那么还是有可能会被禁止。因此，最好的结果还是终端芯片的跃升与模型的进一步优化，使得至少 PC 端的本地部署大模型能实现较好的 Agent 效果。

那时，互联网诞生以来的寡头垄断格局可能要天翻地覆了。并且，我暂时看不到巨头反击的方法。

Update 2023.12.25：

在本文发布的 10 天之后，有两个界面操作型 Agent 上线。

分别是来自腾讯团队的 App Agent，以及智谱团队的 CogAgent。

两个项目的目标都是Text To Human-like Interactions，即通过自然语言生成互动行为。

头图来自 DALL-E 3

取消回复

精选评论

mo

2023/12/15

不是那么懂 AI，但是看到你今天发的文章，想到了前两天看到的另一个文章，再次，我不懂 AI。https://mp.weixin.qq.com/s/XSlR2vuxcAGgJmSRg6W-Xg

正在加载……

回复
igno

2023/12/15

mozilla 也有做了一个单文件 llm 本地部署的实验方案 https://hacks.mozilla.org/2023/11/introducing-llamafile/

正在加载……

回复
Charles

2023/12/16

够呛。
巨头之所以不互通，本质上是为了让自己的数据或者服务保持黏性，从而形成护城河得到商业利益。以前仅靠人力无法突破这种黏性，如果未来 AI 可以突破，那么巨头一定进行提供反制措施，比如每秒访问次数或者获取的数据量，来区别 AI 和自然人。
表面上是技术问题，实际上是商业问题、社会形态问题。

正在加载……

回复
1. 评论尸
  
  2023/12/16
  
  但这里面有个悖论，就是如果AGI无法做到像人一样访问互联网，那么它就不能被称为AGI。而如果巨头想要限制一个能像人一样使用互联网的AGI，那本质上就是要继续给人类用户增加使用门槛，这件事也会损伤它们自身。
  其实现在，某些产品的商业竞争屏蔽已经是在这种平衡下最严得状态了。再加高一点的话，反而会给一些竞品带来好处。
  
  正在加载……
  
  回复
  1. Charles
    
    2023/12/16
    
    本地部署 AI 应用可并不是像人那样使用互联网，因为AI 带来的算力提升，突破了自然人的极限，使得自然人可以变成高效搜集处理信息的超级人类，也就突破了过去的商业规则基础（护城河）。就好比通过程序去抢券抢票，破坏了游戏规则。
    巨头并不需要限制 AI 像人一样使用互联网，AI 本身就是提升人使用互联网效率的。巨头需要的是，在这种新的生产力下，如何去构建新的生产关系。
    商业利益分配变化，就是去适应这种生产力变化。
    比如以前自然人处理数据低效，可以数据不互通保持粘性但免费访问；但现在 AI 处理数据高效，黏性消失但必须付费获取数据，数据就像石油成了资源。
    这也仅仅是商业模式的一种变化，我认为技术的革新和社会的转型，也可能会催生新的商业模式来适应。
    
    正在加载……
    
    回复
2. 评论尸
  
  2023/12/16
  
  突然想到 Sam Altman 的worldcoin就是靠虹膜验证来发布，也就是他认为这一轮AI会将人工智能在赛博空间推进到完全无法与人类智能做区分的程度。
  
  正在加载……
  
  回复
fgh

2023/12/21

本地应该是受限于显卡吧，现在家用显卡处理大型语言模型还是挺够呛的。

正在加载……

回复
1. 评论尸
  
  2023/12/21
  
  看最近一年开源模型的优化，我觉得在可预期的范围内还是有望做到每台 PC 里都有本地 AI 的。
  
  正在加载……
  
  回复