巨头AI,受困于巨头垄断

最近一直在折腾 LLM 的本地部署,所以时常在群里分享一些心得。然后就有人问我为什么执着于本地部署 AI。我直接的回答是:

这个需求当然是真实的,但我其实不止有这个需求需要本地部署 AI,只不过这个需求是被各家线上模型所禁止的,所以也是我第一个想到的本地部署的刚需。

实际上,目前日常使用过程中,实际让我使用体验下降的,是以下一些场景:

  • ChatGPT 很好,但它的 Web Browsing 功能强制绑定了 Bing。Bing 作为搜索引擎非常差,尤其是在中文领域。这意味着使用 ChatGPT Plus 进行搜索,就像是让一个大学生在竹简里找寻答案。
  • Bard 的搜索很好,因为它依托 Google。因此它的模型虽然不如 GPT,但使用它的体验就像是高中生在替我用 Google,肯定比大学生替我找竹简要好。但它严格遵守 Robots.txt 对网页的访问限制。这意味着,我无法将一篇微信公众号的文章链接发给它让它总结。
  • Grok 的优势也很明显,因为它能直接调用 X(Twitter)的搜索结果,这意味着它的外挂知识库是分钟级更新的,你能从它那里得到一些”刚刚发生的事情“的答案。我也不愿意为了这样一个优势单独每月付费。
  • 文心一言在某种程度上也有优势,因为它能调用百度热搜,这意味着它对国内热点事件有更好的响应能力。

看起来,每家巨头,或者说线上 AI 都在模型的基础上基于自己的业务或利益相关做了一些特化。

但这种“优势”,其实是通过给对家制造“劣势”形成的。ChatGPT 的搜索之所以没有 Bard 效果好,是因为如果 ChatGPT 要接入 Google 搜索,就要给 Google 交纳高昂的搜索 API 费用。同样,马斯克也会给 X(Twitter)的 API 定一个天价,以保障 Bard 和 ChatGPT 在这一领域始终不能与 Grok 竞争。

如果对应到国内互联网,战争会进一步升级,这甚至都”不是钱“的事儿。百度永远不会把搜索接口给腾讯混元,腾讯也不会让文心一言读取微信公众号文章。

这在很大程度上反映了过去 20 年互联网发展的结果:一个寡头垄断,并彼此互不承认的赛博世界。

在移动互联网时代,用户已经习惯了这些商业公司在产品层面上无视对方的做法。二维码不能发,链接不能直接点击要复制,甚至链接都不能发,要复制一些什么”口令“,在评论区对暗号发私信。

我不可能因为在微信里打不开抖音链接,就不看抖音。我也不可能因为在小红书里不让发淘宝二维码,我就不在淘宝买东西。

垄断巨头之间的马奇诺防线,长期以来除了给用户带来麻烦之外,实际上在商业上只起到了一个”防突袭“的作用。避免了此前商业竞争实践中的一些,被对方从自己的 App 里一键拉客,导致用户一日哗变的现象。

但是,这却给巨头们自己的 AI 带上了重重的枷锁。

因为当我们讨论这一轮 AI 的时候,用户对它的想象就是 AGI,是通用人工智能,是一个至少在赛博空间里可以像人一样行动的代理——如果我可以看这篇微信文章,我的 AI 就应该可以看,否则这个 AI 对我就没用。

这意味着,如果巨头们之间不能打破商业壁垒让自己的 AI 在对方的地盘上行事,那么所有它们的在线模型无论是 GPT 还是 Gemini 还是文心一言,都会败给开源的本地部署模型,或者是第三方提供的模型。

我来举一个具体的场景来说明这一点:旅行计划。

经常出差或旅游的朋友们都知道,出行前安排行程其实是心理门槛最高的一个动作。当 AI 爆发的时候,可能不止用户,很多创业者也想过,AI 是否可以一键帮我们定制行程,甚至通过 API 的方式来帮我们直接预订机票、酒店和景区门票。

但现实是,这样的 AI 最有可能是携程或飞猪做出来。原因正如上面我列举的现有的那一堆巨头 AI 的优势那样。因为只有携程和飞猪,拥有实时更新的机票和酒店数据库,并且能够直接在系统内完成”下单“这样的操作。

从自身业务的角度考虑,飞猪和携程是绝对不会把这些数据作成 API 提供给独立的创业者的。

但如果飞猪和携程推出了一个这样的问答式生成行程与订单的旅行 AI,我会用吗?

答案是不会。

因为规划行程还有一个前置步骤,就是我要去小红书搜索目标地点到底有啥好玩的。在确定了究竟要玩什么之后,我还要在飞猪和携程之间来回切换以确保价格最低。有时,我还要用百度地图来确认在一个目的地城市内,几个景点之间的距离和移动方式来确定景点的取舍与顺序。

所以可想而知,飞猪和携程各自推出的 AI,根本不可能完成消费者对旅游攻略的个性化闭环。

它最多能做到的,是帮助用户在搜索界面更直观的进行搜索。而对于经常旅游和出差的朋友来说,这可能还不如自己直接在结构化搜索中勾选限制条件。更不用说,我还想在携程和飞猪之间比价,这更是单一平台AI所不可能做到的。

在旅游这个场景下,我需要的通用AI是什么:

  1. 我问 AI 春节去哪玩人少。
  2. AI 去抖音和小红书上分别搜索”春节 小众 旅游城市“,汇总结果,生成一个备选列表给我第一次回答。
  3. 我说我可能对义乌、鞍山和淮南感兴趣,给我介绍一下这三个城市有啥可玩的。
  4. AI 分别再去小红书上搜这三座城市,并给我三个稍微详细一点的介绍。
  5. 我决定去义乌,AI 去携程查机票价格、时间,并按照之前得到的义乌的景点介绍,去大众点评获得景点的营业时间,然后在百度地图里获得景点间的移动时间,安排日内行程。
  6. 我再进行几轮对话,对行程和景点进行微调(比如我不想早起)。
  7. AI 生成最终行程。
  8. 我确认。
  9. 它开始下单。

这样梳理下来你就会发现,没有任何一家处于寡头垄断地位的互联网巨头能够推出这样的 AI。因为如果携程出,那么飞猪就会屏蔽它。如果飞猪出,携程也会屏蔽它。小红书出,则大众点评就会屏蔽它。

那么,唯一的可能是什么呢?

就是这个 AI Agent 是本地部署的或者它不属于任何巨头,它在用户的电脑或手机上,模拟用户的点击,模拟用户的滑动,模拟用户的视觉,完全凌驾于所有的 App 或网站之上,无视任何商业竞争导致的屏蔽。

它甚至应该能做到,在微信里读到了一个抖音链接,它会自动选择复制,打开抖音,而不是直接点击链接。真正做到,我能做什么我的 Agent 就能做什么。

这似乎并不是非常困难的事情,因为今年李飞飞曾经做了一个通过 LLM 来操作物理世界中机械臂的原型 VoxPoser。而 LLM 操作虚拟世界要比物理世界简单很多,简单说就是 LLM 指挥按键精灵。

尤其是在 GPT-4 Turbo 推出 Function Call 之后,也许现在就已经可以做出 Demo。但整体的工作量应该还是比较大,会导致每次请求的价格较高。而价格,一直是 Agent 类 AI 最大的障碍。

但如果我们乐观的预计 AI 的降本增效速度能维持 2023 年水平 2~3 年的话,那么成本也就不是问题了。

但在法律和合规层面上,如果这个产品背后接入的是 OpenAI 这样的中央托管式的 MaaS 服务,那么还是有可能会被禁止。因此,最好的结果还是终端芯片的跃升与模型的进一步优化,使得至少 PC 端的本地部署大模型能实现较好的 Agent 效果。

那时,互联网诞生以来的寡头垄断格局可能要天翻地覆了。并且,我暂时看不到巨头反击的方法。

Update 2023.12.25:

在本文发布的 10 天之后,有两个界面操作型 Agent 上线。

分别是来自腾讯团队的 App Agent,以及智谱团队的 CogAgent

两个项目的目标都是Text To Human-like Interactions,即通过自然语言生成互动行为。

头图来自 DALL-E 3

评论尸 的头像

如果你觉得本文有信息增量,请:

喜欢作者

 

精选评论

  1. mo 的头像

    不是那么懂 AI,但是看到你今天发的文章,想到了前两天看到的另一个文章,再次,我不懂 AI。https://mp.weixin.qq.com/s/XSlR2vuxcAGgJmSRg6W-Xg

  2. igno 的头像

    mozilla 也有做了一个单文件 llm 本地部署的实验方案 https://hacks.mozilla.org/2023/11/introducing-llamafile/

  3. Charles 的头像

    够呛。
    巨头之所以不互通,本质上是为了让自己的数据或者服务保持黏性,从而形成护城河得到商业利益。以前仅靠人力无法突破这种黏性,如果未来 AI 可以突破,那么巨头一定进行提供反制措施,比如每秒访问次数或者获取的数据量,来区别 AI 和自然人。
    表面上是技术问题,实际上是商业问题、社会形态问题。

    1. 评论尸 的头像

      但这里面有个悖论,就是如果AGI无法做到像人一样访问互联网,那么它就不能被称为AGI。而如果巨头想要限制一个能像人一样使用互联网的AGI,那本质上就是要继续给人类用户增加使用门槛,这件事也会损伤它们自身。
      其实现在,某些产品的商业竞争屏蔽已经是在这种平衡下最严得状态了。再加高一点的话,反而会给一些竞品带来好处。

      1. Charles 的头像

        本地部署 AI 应用可并不是像人那样使用互联网,因为AI 带来的算力提升,突破了自然人的极限,使得自然人可以变成高效搜集处理信息的超级人类,也就突破了过去的商业规则基础(护城河)。就好比通过程序去抢券抢票,破坏了游戏规则。
        巨头并不需要限制 AI 像人一样使用互联网,AI 本身就是提升人使用互联网效率的。巨头需要的是,在这种新的生产力下,如何去构建新的生产关系。
        商业利益分配变化,就是去适应这种生产力变化。
        比如以前自然人处理数据低效,可以数据不互通保持粘性但免费访问;但现在 AI 处理数据高效,黏性消失但必须付费获取数据,数据就像石油成了资源。
        这也仅仅是商业模式的一种变化,我认为技术的革新和社会的转型,也可能会催生新的商业模式来适应。

    2. 评论尸 的头像

      突然想到 Sam Altman 的worldcoin就是靠虹膜验证来发布,也就是他认为这一轮AI会将人工智能在赛博空间推进到完全无法与人类智能做区分的程度。

  4. fgh 的头像

    本地应该是受限于显卡吧,现在家用显卡处理大型语言模型还是挺够呛的。

    1. 评论尸 的头像

      看最近一年开源模型的优化,我觉得在可预期的范围内还是有望做到每台 PC 里都有本地 AI 的。