APPLICATION

在聊天框中工作是个错误

提示框正在进入企业领域，而企业不想参与，所以我一直在想是否有办法让你的AI交互变得更性感一些。

admin

Jan 19, 2026 • 26 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署 | Tripo 3D | Meshy AI

错过了昨天的帖子？是吗？太可惜了。就在那里，我阐述了大型科技公司正在为你建造的那个可爱的监狱小牢房，它配有软墙、预测文本，没有窗户。他们的计划是把你困在他们无聊的AI聊天窗口里，永远困在那里。他们不在乎你是在厨房喝咖啡时问ChatGPT关于早间日程安排，还是因为太懒不想准备而"做你的工作"，恳求聊天机器人生成Q4销售管道洞察。

我到底在说什么？

核心思想是，你将完全嵌入一个单一的输入框中，其情感温度就像一个生出了命令行界面的停车咪表，而我在这里建议做点不同的事情。

你知道我说的是哪个。

那个灰色圆角矩形，死气沉沉的眼睛。这是一个为研究人员建造的盒子，由研究人员设计，它如此平淡，以至于让记事本看起来像火人节。

然而，我们现在都在里面了。

我们每一个人。像1999年那样打字，祈求机器之神理解我们说"用企业语气总结这个"时的意思。

但问题是，这不再只是关于ChatGPT和其他消费级AI。提示框正在进入企业领域，而企业不想参与，所以我一直在想是否有办法让你的AI交互变得更性感一些。

看，OpenAI不仅仅构建了一个聊天机器人。

他们建造了一个纸板盒，然后说服地球上最大的软件公司爬进去。2025年10月，他们推出了ChatGPT Apps，这是小型集成，让你从助手内部访问像Canva、Expedia、Salesforce或你们在后台运行的任何泥潭这样的完整平台。

但不是你想的方式。

90年代用带有完整仪表板、点击路径和丰富UI的胖客户端界面宠坏了你。围绕此甚至有一个完整的行业，称为用户体验设计，简称UX，因为这让它很酷（90年代俚语）。

但不。

你打字。

它行动和思考。

它用一段文字和占位符缩略图回应，如果幸运的话，也许是一个可滚动的卡片。

曾经独立的标签、工作流、屏幕——那些美丽的设计元素现在被吸收到了"盒子"中。

你想检查你的日程安排或预订旅行，审查销售线索，甚至设计一张幻灯片，你都得打字。打——打——打。助手拥有入口点，而视觉上性感的应用住在纸板墙里。而你，我聪明的朋友，你住在这一切的中心。

这不仅仅是OpenAI。微软的Copilot战略复制了同样的"成功公式"。他们把Word、Excel、PowerPoint塞进同一个生成容器中。界面变成了语言。

但说实话，这种体验变得糟糕。

与此同时，整个企业世界正在趋同于一个提示所有助手的概念。我正在构建一个。就这么简单和专注，但这实际上是整合。

这是一个用管道胶带制成的单窗格玻璃，充满了幻觉。

背后的道理是，你不必学习五个不断变化的界面，你现在只需要对一个说话。但这是一个喜怒无常的助手。一个决定它想展示什么、隐藏什么、哪个工具获得执行特权的助手。从用户角度来看，这是完全服从协议，这是提示形状权力的表达。

你以为你在使用一个应用程序，不，现在你在乞求他们。

你的工作空间现在住在一个盒子里，旁边钉着一个神经网络，整个技术栈——从浏览到预订到向老板简报——现在都通过同一个700像素宽的棺材运行。而那个聊天窗口现在是你的桌面、你的浏览器、你的工作空间，在家里它也是你的神父、你的治疗师和生产力教练。

而且很丑。

如果我们被迫住在那个纸板盒里，它最好性感。它最好有天鹅绒壁纸和激光按钮。它最好做点什么，而不仅仅是空白地盯着你说"今天我能帮你什么"。

而这就是今天开始的地方。

1、ChatGPT的原罪

让我们回到2022年11月。OpenAI把ChatGPT强加给我们。它感觉像魔法，像奇迹，在兴奋消退后，我们看着界面想"他们是在记事本上建的这个吗？"一个悲伤的小盒子。无尽的文本。

Sam改变了我们计算的方式，但忘记了解雇设计UI的白痴。没有文件夹。没有拖放。没有颜色编码的任何东西。只是一直打字和滚动，看起来像你再也不想打开的WhatsApp线程。

作为一个玩具，这很好。但现在我们要全职在里面工作，那种极简主义感觉像我们没领会的笑话。

所以，允许我谈一秒钟UI。按钮、滑块，以及其他让我们应用变得可忍受的被禁止的乐趣。你见过带有真正按钮的AI生成UI吗？是的，我说的是滑块和下拉菜单。

老兄，这就像在企业Slack中看到独角兽。

按钮不是火箭科学。它们基本上是UX的乐高。但多年来，聊天机器人假装它们太优秀而不需要它们。"只需打字"他们说，"用你的话来说"他们说。他们甚至为此造了一个蠢名字"提示"，因为他们不想通过采用现有词汇"命令"而听起来老派计算机化。

结果是我们被困在写小论文来获得一个血淋淋的清单。

所以现在，让我们勾勒一下这个界面应该是什么样的，因为除了抱怨别人的错误，我实际上尝试做一些事情。

假设你想买内衣。好吧。不做评判。你做你的。

AI询问偏好，但不用散文——给我一个侧边栏，包含尺寸选择器、风格切换、预算滑块，以及舒适度与"这是一个大胆的生活选择"的复选框。在干净的网格中显示结果，包含产品卡片，而不是段落汤。添加一些你可以实际触摸的过滤器，而不是一个说"描述你的感觉"的提示，就像它在运行深夜相亲节目。

现在将其扩展到文件管理。让我把文件拖到侧边的网格中。显示文件类型、预览片段、单击提取选项。让我把聊天中的文本拖到我的笔记空间中。高亮、注释、拉入草稿，全部在一个流畅的屏幕内。不要让我为一切写提示。让交互再次变得物理化。可视化、可点击，希望还能响应。

如果我在构建一些东西，比如写代码、写博客或无聊的报告，只需给我实时输出预览，带有差异比较和版本回滚。不要无尽的文字腹泻。

不是聊天框的AI界面应该看起来像嗑药的仪表盘。

它必须有一个驾驶舱，需要流畅、多层次、可命令（不可提示），当然它带有一个浮动操作栏，左侧面板用于上下文，右侧面板用于预览，底部栏用于命令历史。聊天输入成为众多入口点之一，但不是祭坛。这就是你让它成真的方式。

2、带有附加功能的语义搜索

好的，让我们看看这个用例。假设你上传了二十个文档，现在你想找到CTO承诺但从未交付功能的部分。在一个理智的世界里，你会得到一个结果视图——带有源链接的突出显示文本、相关性评分、片段预览。按文档类型、作者、日期过滤。概念的可视化地图。尊重你有大脑和截止日期的东西。

但相反，你现在被一个聊天界面困住，它呕吐出一堵平坦的文本墙，有时模糊地提到"文档的第二段"，而你必须手动找到它。那不是搜索，是谜语。

真正的语义搜索是关于交互的，而不仅仅是匹配关键词。你应该能够悬停在实体上，查看关系，展开节点。从UI中获取"显示更多类似这个"。固定东西。并排比较答案。单击细化。将查询链接成线程而不丢失跟踪。搜索应该成为带有视觉记忆的对话。

是的，我们有技术。我们没有的是将其整合到该死界面中的意愿。

看看下面的界面...

这就是语义搜索最终长大并搬出聊天框时的样子。

屏幕被分割成目的。

在左侧，你得到一个控制脊。过滤器永久地住在那里，而不是像冗长的祈祷一样重新输入。文档类型、作者、日期范围、源、置信度评分都一目了然。你通过点击来细化，你不需要再次解释自己。每次过滤器更改都会立即更新结果，所以系统以人类速度而非对话速度反应。

在中心，每个命中是一张卡片，带有突出显示的片段、清晰的源引用、相关性指示器和快速操作。预览、固定、在上下文中打开、比较。你准确地看到声明所在的位置以及为什么出现。系统尊重你在寻找证据这一事实。

悬停在结果上会显示实体高亮。名称、特征、日期作为锚点亮起。点击一个，其他文档中的相关段落立即浮现。这将搜索转变为导航而不是挖掘。

在下方，固定的结果作为工作集存在。当你收集证据时。两单击并排比较声明。差异自动高亮。矛盾突出，而不需要助手像睡前故事一样叙述它们。

在底部，查询历史是一个结构化线程。每一步都显示什么被改变。过滤器被添加，概念可以被扩展。你可以跳回任何状态而无需重新表述任何内容。

AI是存在的，但它表现得像一个分析师，而不是一个话痨。它作为可承受性建议改进。"更多类似这个"显示为一个按钮。"展开相关概念"显示为切换。存在指导，但它永远不会劫持屏幕。

这个界面做了一件聊天永远无法做到的关键事情。它外化思维。你不必在解析生成的文本段落时在脑海中保持上下文。系统同时显示结构、关系和出处。

3、AI对话的情绪板

为什么AI聊天窗口仍然是贫瘠的荒地。为什么每个回复看起来都像纳税表格。胆量在哪里！

如果我们在构建策略，给我布局选项。让我在文本视图和看板视图之间切换。让我放入图片、引言、思维导图。让我的工作空间像一个数字战情室一样主题化。

不要像对待礼物一样给我 markdown。给我一个画布。可编辑、可移动、持久。一个部分用于研究。一个用于想法。一个用于行动。让助手坐在角落里注释，而不是用lorem ipsum淹没整个屏幕。

为了所有神圣的事情——让我折叠消息。让我固定好东西。让我组织混乱。

让它成为一个情绪板。让它成为我的。

这个界面所做的是残酷简单而安静革命的。

它把AI从健谈的小说家角色中带出来，放入空间助手的角色。屏幕成为工作表面，而不是 transcript。

4、它做什么

你得到一个像数字战情室一样行为的看板。研究作为卡片存在。想法作为便签和聚类存在。作为任务和检查清单存在。中心空间是一个画布，你可以移动东西、组合、标签，并保持可见。助手坐在侧面注释你的工作，而不是用段落淹没你的屏幕。

界面给你两种模式，你可以在不丢失状态之间切换。

文本视图用于阅读和写作，当你真正想要散文时。

看板视图用于用眼睛思考，排列概念，在不输入论文的情况下构建结构。

这很重要，因为大多数"AI对话"不是对话。它们是混乱的思考会话。界面将混乱的思考转化为可见的结构。

5、为什么它如此有效

它让几件普通聊天窗口拒绝做的事情发生。

它外化记忆。你可以看到重要的东西而不必滚动。你固定好东西。你折叠噪音。你在工作同时保持最佳片段存在。这大大减少认知负荷。你的大脑停止像助手的RAM一样行事，助手有健忘症。

然后它将细化转化为交互，因为你把一个想法拖到不同的标题下，将其与另一个主题聚类，或附加截图。你的手做意义创造。AI遵循你的结构，而不是每次发明自己的结构。它让助手不那么 dominant，因为它成为一个侧边栏，建议、总结、高亮。你仍然是编辑。助手成为一个合作者，评论和建议，而不是控制叙事。

结果感觉很快，因为你不会被困在线程中。你在一个空间中移动。你构建一个形状。你可以停止阅读而仍然保持进展。

Google Mixboard是一个有趣的实验，因为它从另一侧攻击同样的问题。你的界面是一个带有AI助手的工作流情绪板。主要对象是看板。助手支持它。Mixboard是一个概念板，使用生成AI帮助你在开放画布上探索、扩展和精炼想法。它是为生成和混搭视觉和文本进行构思而构建的，采用模板或空白画布方法。

它的超能力是视觉变化，当你提示一个主题时，它用相关图像和概念填充看板。你可以再生，要求更多类似这个，并快速迭代。这种界面帮助你跨研究、想法和行动在一个地方构建思维结构，然后让AI服务那个结构。

Mixboard严重依赖生成媒体。它是一个生成优先产品，这意味着它是围绕生成内容作为主要交互设计的，而不是围绕组织、编辑或执行工作。

我上面创建的看板优先UI是一个组织者优先产品。

两者都是"聊天替代品"，但它们针对不同阶段进行优化。

Mixboard在早期构思阶段最强，你想要广度、情绪、风格、探索。上面的UI在综合阶段最强，你想要结构、决策和执行。我认为Mixboard是一个有趣的实验，因为它证明了本文的核心观点，即聊天框不是不可避免的，而是一个默认值。同样的事情也适用于他们的另一个实验，NotebookLM。

6、Zeta Alpha和其他B2B暗黑 dungeons

让我们谈谈Zeta Alpha。这不是一些带有圆角按钮和多巴胺滴注UI的嬉皮士SaaS应用，它是为研究服务的，但你仍然可以自己玩。尽管他们已经存在几年，他们有我之前说的胆量来尝试基于AI的用户界面。

Zeta Alpha背后的人长时间仔细看了看平均AI界面，决定"我们的客户不平庸，所以我们也不会构建平庸的东西"。

他们构建的是残酷的。

一个多窗格、上下文丰富、引文繁重的语义战争机器。

左侧面板：你的源文档，完全索引，可滚动，可高亮。

中间：你的查询、你的线程、你的代理。

右侧：你的见解，自动保存，可链接，可添加搜索覆盖、语义聚类、作者消歧、时间过滤器。

但这不是给每个人的。

把这个UI扔给后面的Harry、Dick和Tom，他们会盯着你看，就像你刚给他们一本航天飞机驾驶舱手册。这个野兽假设领域知识，它期望信息素养，最重要的是，它敢让你思考。

也许这就是重点。

因为在ChatGPT的米色盒子和Zeta Alpha的黑客界面之间，存在一个中间地带。一个甜蜜点。普通人可以像研究人员一样工作，而不被下拉菜单压碎。AI组织、可视化、记住并尊重你的时间。

Zeta Alpha展示了当你把信息当作系统而不是流来处理时会发生什么。当你假设用户不是白痴时，当你为深度而非为更好的模型演示构建时。

每个消费级AI应用都应该偷他们的作业。

剥离它，柔化打击，但保留骨架。构建一个随技能扩展的界面。一个简单开始但随层次、视图和选项展开的。

让UI随用户学习，而不是对他们居高临下。因为如果我们要在助手中生活，那么看在上帝的份上，给我们一个驾驶舱，而不是忏悔室。

但我们还没到那里，人们，还剩一个问题要思考。

我们要如何构建这个？

每个用例都需要像Zeta Alpha或NotebookLM或Mixboard那样的预构建结构吗？

答案是否定的。

因为未来已经在这里。

它叫做...

7、生成式UI

使这个性感盒子成为可能的硬件和界面模型。我在半年前广泛写过，如果你想赶上，阅读生成式UI是扼杀设计师的流行词吗？——如果你想要核心思想，就留下来。

每个人都在大喊关于新的聊天界面，就像主要问题是字体选择和圆角，但真正的问题更深。聊天框 dominant 是因为它是最便宜的界面，可以快速发货，而模型住在别的地方，在服务器场上，在延迟税后面。那种瘦客户端生活迫使一切进入一个纸板矩形，我们都假装这是优雅的极简主义，而不是穿着高领毛衣的预算约束。

但生成式UI是逃生舱，AI PC是引擎。

它们一起将界面从固定布局转变为生活系统，围绕意图、上下文和时间重新排列自己，而这一举只有在计算不再住在远处时才有效。

你普通的聊天窗口只能做两个把戏。它能接受文本。它能输出文本。有时它会扔进一个小卡片作为招待，像一只坐下来命令的狗。生成式UI将屏幕视为可以即时组合、构建部件、响应你所做重新组装的东西。界面成为一个变形者，模型成为舞台经理。生成式UI根据你的行为和应用程序上下文重塑自己，它甚至尝试预测接下来会发生什么。

核心想法是直白的。静态UI提供内容。生成式UI提供意图。那一句话是我们必须赢得的整场战争。

静态UI说，这里有菜单，去狩猎。生成式UI说，我在早上7:23看到你在做什么，我知道你想要同样的东西，所以我会在你深入三个级别的企业导航之前呈现它。界面表现得像它认识你，是的，这很有帮助，是的，这也有点诡异。

在引擎盖下，生成式UI运行在一个反馈循环上，每个点击、悬停、犹豫和绕行都成为信号。那些信号成为见解，那些见解触发界面更改，这反过来改变你接下来做什么。

但事情是，真正的生成式UI体验不能作为单一聊天线程传递。它需要组件、表面、空间记忆和一种显示选项而不强迫你每次想过滤列表时写小说的方式。

不是为一个任务设计一个屏幕，你构建一个UI部件库。日期选择器。切换。范围滑块。预览卡片。比较表格。引用块。操作栏。确认对话框。进度时间线。结果网格。AI根据你的意图和它看到你在做什么从那个库中选择。它组装一个屏幕，就像乐高积木组装成你可以实际使用的东西，然后当情况变化时重新排列积木。

那是界面作为生成，而不是界面作为布局。

然后丑陋的工程现实出现了，因为这个系统必须快速反应。界面需要在100到200毫秒内反应，这包括行为分析、组件选择、布局优化和渲染，当你做错时，界面感觉迟缓，用户感觉系统在他们试图工作时正在考虑移动按钮。

假设你想买内衣（再次）。界面渲染尺寸、风格、预算滑块、舒适切换、交付速度、品牌偏好，以及预览网格。你可以单击、精炼、比较和保存。助手保持存在，但它不再强迫你只写一段话來缩小颜色选择。你得到一个响应你行为的活UI。

你说你想审查合同。界面渲染合同视图，带有高亮条款、风险面板、条款索引和用于重写部分的操作栏。你可以单击终止条款并查看其依赖关系。你可以调整阈值并看到建议立即更新。助手成为组件的编排者，而不是无尽文本的作者。

这是你想要的性感盒子——也没有内衣——而它只会发生在系统可以实时生成UI、低延迟、可预测组件库和计算足够接近快速反应时发生。

现在的问题是。

性能可能扼杀整个事情。如果AI需要三秒钟来决定按钮属于哪里，用户可能已经手动完成任务了。当AI做出自主审美决定时，设计一致性可能成为噩梦，因为品牌指南是为静态界面编写的，不是为形状变换的屏幕。

8、生成式UI需要标准

事情变得有趣了。

人们喜欢谈论生成式UI，好像它只是一个聪明的前端技巧，但它不是。一旦代理开始返回UI而不是文字，你需要协议，否则它会变成一团血腥混乱。

我不是指营销框架，而是实际的规范。

我们已经知道代理领域的一些管道

MCP（模型上下文协议）——模型发现工具、数据和行动的方式。例如，使用MCP你可以从后端系统获取信息。
A2A（代理到代理）——允许代理协调、委托和交换结构化任务的协议。
AP2 / 代理支付协议 - 专注于使代理安全地完成交易和支付。
UCP（通用商务协议）谷歌尝试标准化代理如何发现产品、构建购物车、链接身份和跨系统执行结账。它是代理的商务基础设施，不是人类的。

而这是重要的一点。

那些都没有定义UI——它们定义了能力。要使生成式UI成为现实，代理需要一种返回结构化、可渲染界面组件的方式，而不仅仅是文字。

那是一类新的规范开始出现的地方，像往常一样，谷歌正在设定事实标准。

现在存在几个规范，允许代理返回声明式UI，而不是散文。

几个值得了解的：

A2UI (Google) — 声明式、模型友好的生成式UI格式。流式、基于JSON、平台无关。设计为代理可以描述应该渲染什么而不关心如何。
Open-JSON-UI (OpenAI) — OpenAI内部UI模式的开放版本。专注于标准化UI组件如何声明性地描述。
MCP-UI (Microsoft + Shopify) — MCP的扩展，允许返回面向用户的UI，通常是基于iframe的，与商务和工作流程紧密集成。

这些规范让代理返回动态UI组件，然后还有AG-UI。

尽管名字，AG-UI不是生成式UI规范，而是一个用户交互协议。它是代理和应用程序之间的运行时桥，处理状态、事件、更新和反馈循环。

至关重要的是，它可以携带上述任何生成式UI格式。AG-UI不决定UI外观，但它决定代理和界面之间的对话如何保持活力，这个区别很重要，因为生成式UI规范描述要渲染什么，AG-UI描述交互如何继续，当你把它们放在一起时，你得到了一些危险的东西。

但用好的方式。

9、真正的东西

现在，盒子终于开始裂开了。当代理可以声明式返回UI时，当运行时可以处理双向交互时，当硬件可以即时反应时，界面现在可以被组装、受策略约束并实时渲染。

我的意思是，从已知部件组装。

对于设计师，这意味着他们将不得不适应设计系统、组件和护栏，最终他们得到组装房子。是的，这将使设计师不舒服，因为它会增加复杂性，并可能 surfaced 新的失败模式。

但替代方案是永远住在700像素宽的忏悔室里，打字像1999年，并在我们设计工作的未来时拍拍自己的背。

原文链接: 在聊天框中工作是个错误，而生成式UI是解药

汇智网翻译整理，不得转载