你的AI输出是正确的，但不像你

上周我和一家零售商通话，他们运营四个摄影棚，每天拍摄约180个产品，并且已经优化了他们的创意方向超过十年。他们最近对电商摄影进行了全面改造——更放松的姿势、更精致的造型，以及一种他们能感觉到但从未写下来的特定美学。

他们正在探索像Dreem这样的AI生成内容平台，他们问的每一个问题都是同一个问题穿着不同的外衣。输出能匹配我们的颜色准确性吗？面料垂坠感看起来对吗？模特的姿势符合我们走向的方向吗？

他们不是在问AI能否生成好的内容。他们知道它可以。他们是在问它能否生成符合他们标准的内容——那个在15年拍摄、数万张产品图片和一个能在半秒内发现问题的创意团队中建立起来的标准。

那个标准存在。只是从未被编纂成文。而且为什么需要呢——持有它的人始终在循环中。每张图片都经过某个知道标准的人。现在，他们第一次面对一个那个人可能不会触及每个资产的生产管道。问题变成了：

品位去了哪里？

每个人都在关注模型质量，但瓶颈在完全不同的地方。这也是我最近一直在问自己工作的问题。

上周，我得到了一个意想不到的答案。

1、1,458个文件和一个我没预料到的结论

我有一个Claude技能，可以把我的通讯期刊变成Substack Notes。它知道结构模板、笔记类型和节奏。几个月来，每条笔记都符合要求。

但上周我看了一批笔记，无法摆脱一种不对劲的感觉。内容是对的。结构是对的。我只是不会那样写它们。我说不出哪里不对。而这正是问题所在：

我有我从未表达过的品位。

所以我给了Claude我的整个内容档案。我6年来发布的每一篇内容：1,458个Note页面。LinkedIn帖子。推文。Words Into Works期刊。Substack Notes。足够让Claude逆向工程出使某些东西听起来像我写的句子级模式。

回来的是一个评分卡：

评分卡衡量的是写作是否听起来像我。同样的原则适用于你通过重复建立的任何标准：告诉你策略演示文稿缺少什么的直觉，能听出好的销售电话和一般销售电话之间差异的耳朵。

品位是积累的判断。而积累的判断是大多数AI工作流遗漏的东西。

我测试了上周期刊的6条Substack Notes，并对每一条按10个标准评分。

它们平均得分25.7（满分50）。

结论："普通的。可能是任何人。"

所有六条在相同的四个标准上都失败了。

这个技能几个月来一直在匹配我的要求，但它从未匹配我的品位。而且我无法看到差距，直到我有一个能命名它的评分标准。

所以我把评分卡作为技能本身的一个关卡添加进去。现在，每条Note写完后，它会被评分。如果低于35分，技能会针对拖低分数的标准重写。笔记只有在清除了门槛后才会到我这里。

那家零售商的创意团队在不同规模上面临同样的问题。他们的品位存在于15年的拍摄中，存在于造型师调整领口的方式中，存在于创意总监在批准图片前做出的半秒判断中。

现在他们面对一个房间变大的管道。问题和我对我的Substack Notes问的一样：你如何执行一个从未被编纂成文的标准？

你构建评分卡。

每个读这篇文章的人都有一个档案。

它不一定看起来像1,458个markdown文件。它看起来像：

你已经知道好的是什么样的。你只是没有把它写下来。

汇智网翻译整理，转载请标明出处