上周,我发了一篇 AI 生成的文章。
讲的是在 AI 时代,文字的消费速度和生产速度终于赶上了短视频。
那篇文章至少 80% 的文字是 AI 生成的,我在文章的结尾直接说明了这一点,于是不出意外的,在评论区里至少有一半的评论在做“AI 鉴定”。
比如这个:

再比如这个:

还有这个:

相信在最近今年写过稿子的创作者对类似这样的 AI 鉴定评论都已经非常熟悉了。我完全没有针对我自己的读者的意思,但遗憾的是,在评论区对上一篇文章具体段落进行的 AI 鉴定几乎全部失败。
简单来说,所有在上一篇文章中被指出不够人味,不像我文风的段落,都是我写的。
实际上让我非常震惊的是,几个指出具体段落“AI 味儿太重”的评论,精准的从全篇 AI 中挑出了我自己手工改的部分。比如开头的第五段,还有“写作的 5G 时代”和“华丽墨水”的部分。
还有一些在后台没放出来,甚至有一位关注我 5 年以上的老读者,在这场鉴定中都掷出了错误的骰子,这是为什么呢?
原因可能出乎意料:AI 已经能够很好的模拟我的风格了,但“真正的我”却不一定遵循我的风格。
我从 2013 年开始用这个 ID 发表一些作品,但至今,发表在这个 ID 下的公开文章不超过 100 篇,平均每年 8.3 篇,可以说是一个非常低产的自媒体作者。当我把我的所有文字都喂给 AI 进行风格学习的时候,AI 能在几秒钟里充分吸取这 100 篇文章的精髓,归纳其中我自己都未发现的规律和表达方法,最终呈现出比“现在的我”更“我”的文字。
这非常容易理解,我甚至自己去看自己 10 年前的文章都会感到非常陌生,想不出“当时为什么会用这个词”,但 AI 却会将其作为“我风格的一部分”进行参考。
那么,AI 鉴定还有必要吗?
鉴定 AI 毫无用处
直白来讲,在我看来,鉴定内容是否由 AI 创作更像是一种赛博时代的刻舟求剑。
我们不妨仍旧从我自己的文章说起,为什么鉴定我的内容是否由 AI 创作毫无意义呢?
很简单,任何以“评论尸”这个 ID 发表出来的文章,无论其内容让你觉得“这很评论尸”还是“这味儿不对”,它都代表了我当下的观点和判断,是我认可并愿意署上我名字的作品。
如果它的风格与读者印象中的“评论尸”有所不同,原因可能有很多:可能是我最近在尝试新的表达方式,可能是我对某个问题的看法发生了转变,当然,也可能是其中一部分或大部分内容由 AI 辅助生成。但无论如何,是我,而不是某个模型,对这篇文章的最终呈现负责。
即便现在这篇文章大部分仍旧是由 AI 生成的,你读到的是“评论尸”的文章,而不是一份等待你批改的“AI 模仿评论尸风格测试卷”。
而“评论尸”的文章是否对读者有价值,并不仰仗评论尸使用什么工具写作——如果我持续性发布毫无价值的文章,即便每篇都是我自己手写的,也不可避免的会被读者厌弃。
而这种逻辑,并不仅仅适用于个人写作。我们可以轻易地将其扩展到其他更严肃、更需要真实性的领域。
比如新闻报道。
我们都痛恨假新闻,都希望媒体能提供真实、客观的信息,AI 生成似乎从字面意义上就和“真相”相去甚远。
但是,至少稍微想一下就知道,AI 在可以制造假新闻的同时,也可以成倍速的提升真新闻的生产速度:记者采访之后,甚至可以一笔不写,直接将录音丢给 ChatGPT,让它直接生成基于真实采访和事件的真正稿子。
这样的稿子过不了 AI 生成鉴定,但却是实打实的真新闻。
相反,一篇由某个“资深记者”坐在办公室里,对着键盘凭空捏造、添油加醋编出来的“独家新闻”,每一个字都是“纯手工打造”,洋溢着“人味儿”,它就是真新闻了吗?显然不是。
在新闻领域,我们真正关注的,是信息的来源是否可靠,事实陈述是否准确,逻辑链条是否完整,是否存在刻意的误导和偏见。至于这篇稿子是记者一字一句敲出来的,还是在 AI 辅助下完成的,反而是次要问题。
再来看看学术论文领域。这里似乎是 AI 鉴定的“重灾区”,毕竟学术诚信关乎整个知识体系的根基。但同样,简单粗暴地用“AI 生成比例”来衡量一篇论文的价值,也是一种懒惰且无效的办法。
对于理科论文,其核心价值在于实验的可重复性和理论的创新性。一篇描述新材料、新药物或者新算法的论文,无论写得多么文采飞扬、滴水不漏,如果其他实验室的科学家按照论文中描述的方法,无法重复出相同或相似的实验结果,那么这篇论文在学术上就是站不住脚的,甚至可能是学术欺诈。
反过来说,如果一项研究确实取得了突破性进展,实验数据扎实可靠,逻辑推导严谨无误,甚至可以被研究者完美复现。那么作者在撰写论文时,使用了 AI 工具来生成全文,会削弱其学术价值吗?恐怕不会,甚至可能因此而获得更多科研奖项。
对于文科论文,情况稍有不同,但也遵循相似的逻辑。文科论文的价值,主要体现在其提出的观点、分析框架或研究方法是否具有新颖性和启发性,能否为我们理解世界、解决问题提供有益的视角。
一篇文学评论,如果能对经典作品提出令人耳目一新的解读,发掘出前人未曾注意到的深层意涵;一篇社会学研究,如果能构建一个更具解释力的理论模型来分析复杂的社会现象;一篇经济学论文,如果能提出一种更精准的预测方法或更有效的政策建议——这样的论文,无论其写作过程是否使用 AI,都是有价值的。

前段时间,在抖音和快手上都流行起了一系列 AIGC 的怪物短片,这类抽象的怪物短视频被中国网友称为“外国山海经”。与那些试图将图像和视频与真实世界模拟的滴水不漏的作品不同,“外国山海经”是一系列“一眼假”的作品。
但这并不妨碍它在 Tiktok 和抖音上都收获了数百亿次的播放,原因自然是这些 AI 小视频在实用性层面上满足了人们在短视频场景的原初需求——图一乐。
这在某种程度上验证了我之前在《鼠巢,AIGC,可颂猫,短视频》中的观点,从实用性角度讲,AI 并不需要完全模拟人类创作者的风格,因为随着时代变迁,人类读者的审美迁移可能会导致他们更喜欢 AI 生成的东西。
所以,绕了一圈回到最初的问题:鉴定 AI 有用吗?从实用性的角度看,在绝大多数情况下,这更像是一种心理安慰或者技术上的“洁癖”。一段文字、一篇报道、一份研究,其真正的价值在于它所承载的信息、思想和功能。
如果它对你有用,能给你带来启发,帮助你理解事物,那么它是人写的还是 AI 写的,又有多大关系呢?
我们为什么喜欢鉴定 AI?
但话又说回来了,为什么自 ChatGPT 上线以来,“AI 鉴定”类评论总是充斥着各大社交媒体的评论区呢?
一个显而易见的事实是,人们对 AI 生成的内容普遍存在一种系统性的偏见。这种偏见并非空穴来风,自 2023 年以来,已经有多项研究已经证实了这一现象。
比如今年 3 月发表的一篇心理学论文就非常直白,标题就叫《用户更喜欢大语言模型生成的内容——直到他们知道这是 AI 生成的》(Users Favor LLM-Generated Content—Until They Know It’s AI)。研究中指出,“当 AI 来源被揭示时,这种(对 AI 内容的)偏好会显著降低,这表明评估性判断受到内容来源披露的影响,而不仅仅是其质量。” 换句话说,同样的内容,一旦被打上“AI 生成”的标签,就仿佛戴上了一副有色眼镜。
在 2025 年中的另一份论文(Ai Bias for Creative Writing: Subjective Assessment Versus Willingness to Pay),详细描述了他们的实验:
他们让参与者读同一篇 GPT-4 写的故事。一组人被告知这是人类作家写的,另一组则被告知是 AI 写的。结果,被告知是 AI 写的那组,对故事的评价(比如创意、真实感)明显更差,尽管故事内容完全一样。这说明,单单一个“AI创作”的标签,就能让人戴上有色眼镜,评价更苛刻。
这种偏见的存在,使得“AI 鉴定”行为本身就带上了一层预设的立场:我们似乎总是在期待找出 AI 的“非人之处”,以印证其“不过如此”或者“终究是机器”的判断。但问题是,这种偏见从何而来?
一个可能的解释是,这源于一种深刻的“人类中心主义”。
在 2023 年一项关于 AI 画作的论文(Human perception of art in the age of artificial intelligence)中出现了这样一种奇怪的现象:
- 在不告知作品来源的情况下,要求参与者选出更喜欢的一幅。参与者显著偏好 AI 创作的画作。
- 明确告知其中一幅是 AI 生成的,要求判断是哪一幅。参与者能显著识别哪副画作是 AI 创作的。
这意味着,人们更喜欢 AI 画作,但在给予提示的情况下,又能分辨 AI 画作。
原论文没有对这种矛盾的现象做出合理的解释,将其归结为“人类中心主义”,即 AI 无法模仿人类的某些人类性的东西,而人可能对这类东西具有更强的偏好性。
但在我看来,这可能意味着,在更广泛的社交场合下,表达“我不喜欢看 AI 作品”可能是一种表演行为。
刚好,我还找到了另一项研究证明了这个观点。2025 年的一篇名为《使用人工智能的社会评价惩罚的证据》(Evidence of a social evaluation penalty for using AI)直接指出,使用 AI 工具的个体会面临他人对其能力和动机的负面评价,这构成了一种“社会评估惩罚”。
“社会评估惩罚”这一概念在研究结论中十分关键。他们认为,人们之所以会负面评价 AI 的使用者,部分原因在于观察者倾向于将使用 AI 辅助的行为归因于个人缺陷(例如能力不足或缺乏动力),而非情境因素。这种归因偏差,使得公开承认使用 AI 成为一种具有社交风险的行为。
那么反过来思考,积极参与“鉴定 AI”并成功“识破”AI 的人,又能从中获得什么呢?答案可能并非是“我鉴定出 AI 内容就能少被骗”,而是“我能鉴定 AI 所以我的审美水平高”。
想象一下这样的场景:在社交媒体上,当有人发布了一段疑似 AI 生成的文字或图片时,第一个站出来准确指出其“AI 痕迹”的人,往往会获得其他用户的点赞和认同。这种认同感,源于其展现出的“辨别能力”——一种在信息爆炸时代显得尤为宝贵的素养。通过成功鉴定 AI,个体仿佛在宣告:“我没有被机器愚弄,我拥有洞察真相的火眼金睛。” 这在无形中提升了其在社交网络中的地位和话语权。
这是一种典型的,由社交动力驱动的,攀比行为。
本质上也许和文化消费主义一脉相承。
但我们不会停止表演 AI 鉴定
行文至此,我们似乎可以得出一个有些分裂但又合乎逻辑的结论:
实质性的 AI 鉴定会消失,但 AI 鉴定表演行为将在互联网上长存。
实质性 AI 鉴定,是指那些旨在维护内容生态、论文严谨性或验证新闻真伪,给 AI 内容打上标签的“AI 鉴定”。
这类鉴定的生命力可能比我们想象的要短暂,因为它源于一个深刻的“AI 鉴定悖论”——AI 的成功,本质上是对人类智慧与创造模式的深度模仿。巧了,鉴定 AI 的技术也依赖于 AI。
这意味着,我们正在用一种“魔法”去对抗另一种“魔法”,用 AI 去理解和识别 AI。这场“矛”与“盾”的竞赛,其终点几乎是注定的:AI 对人类的模拟将日臻完美,直至达到一个连 AI 自己和人类都难以分辨的奇点。到那时,试图从技术层面精准区分“人造”与“机造”的努力都将成为徒劳。
当机器的笔触与人类的灵感融为一体,难分彼此之时,我们对内容的评判标准,或许将不得不回归到那些更朴素、更实在的维度——正如我们一开始所讨论的那样。
一篇文字、一幅画作、一段旋律,其价值将不再取决于它的“出身”,而是取决于它能否提供真正的信息增益,能否引发深刻的情感共鸣,能否在实用层面解决用户的问题。质量、真实性、以及对消费者的实际效用,将重新成为衡量内容好坏的黄金标准。那些试图通过在 AI 生成内容中“打标签”来维护内容质量的体系,最终会发现这是一种低效甚至无效的手段。
然而,这是否意味着“鉴定 AI”这种行为会彻底从人类社会中消失呢?恐怕不会。
正如我在上一节提到的那样,“鉴定 AI”早已超越了技术辨识的范畴,演化为一种复杂的社会心理学现象。它深深植根于人类的心理需求和社会互动模式之中。那种通过“识破”AI 来彰显自身洞察力、在社交比较中获得优越感的驱动力,并不会因为 AI 模仿能力的登峰造极而减弱,反而会变得越来越具有社交光环。
在未来,纯粹由人类手工创作的文章、绘画、音乐,或许会像前些年受追捧的“老师傅手炒茶”一样,成为一种稀缺的、带有某种情怀和文化附加值的“奢侈品”。它们的存在,更多的是满足一小部分人对“原真性”的极致追求,普通大众或许难以企及,也未必真正需要。
但即便如此,依然会有无数人乐此不疲地在信息的海洋中搜寻 AI 的蛛丝马迹,热衷于发表自己的“鉴定报告”。因为在这场游戏中,展示“我能鉴定 AI”这个姿态本身,比是否真的能准确鉴定出 AI 更为重要。我自己也经常在一些分享文章的群中“鉴定 AI”,但现在想来,这种行为确实只会发生在“有观众”的场合。
事实上,在 ChatGPT 上线后我发布的每篇文章都有 AI 的参与,只是参与的程度不同,其中一些也达到了 80% 的水平。但只有我主动标明 AIGC 的文章下面,才会出现 AI 鉴定类评论,这在某种程度上也验证了 AI 鉴定是一种表演的观点。因为 AIGC 打标是一个舞台,只有提供了舞台,表演才有意义。
因此,实质性的、以技术为基础的 AI 鉴定或许会在“AI 鉴定悖论”的演进中逐渐式微,甚至消亡。但作为一种社会行为、一种心理需求的“鉴定 AI”,却可能作为一种独特的文化印记,长久地存在于人类与人工智能共舞的漫长时代中。
这或许正是我们作为活了 700 万年的碳基生命,与技术现代性间始终无法调和的张力所在吧。
精选评论
短视频刚兴起的时候,有一类人人喊打视频叫做营销号视频,指那些蹭热度、可信度低的视频。现在营销号视频依然存在,而且进化的更厉害了了,只不过很少再有人抗拒。
我想现在的 AI 鉴定行为也类似,可能要到某一个奇点以后,人们才能普遍的接纳AICG。
可不敢说,现在你要说短视频是重要媒介,依然有一波人说“太 low 了”。
或许是因为人们搜索时,常在那些专攻SEO的网站上看到大量一眼AI生成的内容,才导致对这类内容产生反感吧,如果内容没有那么离谱并不会专门去判断是不是AI写的
但我觉得大部分热衷这样鉴定的人,可能连搜索都不怎么用。