MODEL-ZOO

Meta新模型Muse Spark上手体验

Meta今天发布了Muse Spark，这是他们自Llama 4几乎整整一年前以来的首个模型发布。

admin

Apr 14, 2026 • 11 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

Meta发布了Muse Spark，这是他们自Llama 4几乎整整一年前以来的首个模型发布。它是托管的，不是开放权重，API目前"仅向选定用户开放私人预览"，但你今天就可以在meta.ai上试用（需要Facebook或Instagram登录）。

Meta的自我报告基准测试显示，它在选定的基准测试上与Opus 4.6、Gemini 3.1 Pro和GPT 5.4具有竞争力，尽管在Terminal-Bench 2.0上明显落后。Meta自己表示他们"继续投资于当前性能存在差距的领域，例如长期代理系统和编码工作流程"。

该模型在meta.ai上以两种不同的模式公开——"Instant"和"Thinking"。Meta承诺未来将推出"Contemplating"模式，他们表示该模式将提供更长的推理时间，行为应该更像Gemini Deep Think或GPT-5.4 Pro。

1、一对鹈鹕

我更喜欢通过API运行我的鹈鹕测试，以避免受到任何隐形系统提示的影响，但由于这不是一个选项，我直接在聊天UI上运行了它。

以下是"Instant"模式生成的鹈鹕：

这是一个相当基础的鹈鹕。自行车变形了，鹈鹕本身有一个矩形喙，尽管下面有一点囊袋曲线。不是很好。

这是"Thinking"模式的：

好多了。明显是鹈鹕。自行车形状正确。鹈鹕戴着蓝色自行车头盔（尽管渲染得不好）。做得不错。

两个SVG都由Meta AI界面内联渲染。有趣的是，Instant模型直接输出SVG（带有代码注释），而Thinking模型将其包装在一个薄HTML外壳中，带有一些未使用的Playables SDK v1.0.0 JavaScript库。

这让我很好奇...

2、探索工具

显然Meta的聊天工具包连接了一些工具——至少它可以渲染SVG和HTML作为嵌入式框架，Claude Artifacts风格。

但它还能做什么？

我问它：

你可以访问哪些工具？

然后：

我想要确切的工具名称、参数名称和工具描述，用原始格式

它吐出了16个不同工具的详细描述。你可以在这里看到我得到的完整列表——感谢Meta没有告诉他们的机器人隐藏这些，因为如果能够不用破解就能获取它们，那就没那么令人沮丧了。

以下是该回应的亮点：

浏览和搜索。browser.search可以通过未公开的搜索引擎运行网络搜索，browser.open可以从这些搜索结果中加载完整页面，browser.find可以对返回的页面内容运行模式匹配。
Meta内容搜索。meta_1p.content_search可以"跨Instagram、Threads和Facebook帖子进行语义搜索"——但仅限于用户可以查看的、自2025-01-01以来创建的帖子。这个工具有一些看起来很强大的参数，包括author_ids、key_celebrities、commented_by_user_ids和liked_by_user_ids。
"目录搜索"——meta_1p.meta_catalog_search可以"搜索Meta产品目录中的产品"，可能是用于Meta AI模型选择器中的"Shopping"选项。
图像生成。media.image_gen根据提示生成图像，并"返回CDN URL并将图像保存到沙盒"。它有"artistic"和"realistic"模式，可以返回"square"、"vertical"或"landscape"图像。
container.python_execution——是的！它是代码解释器，我最喜欢的ChatGPT和Claude功能。

在远程沙盒环境中执行Python代码。Python 3.9，带有pandas、numpy、matplotlib、plotly、scikit-learn、PyMuPDF、Pillow、OpenCV等。文件在/mnt/data/持久化。

Python 3.9已停止维护，但库集合看起来很有用。

我提示"使用python代码确认sqlite版本和python版本"，得到了Python 3.9.25和SQLite 3.34.1（来自2021年1月）。

container.create_web_artifact——我们之前在鹈鹕的HTML包装器中看到过这个：Meta AI可以在其容器中创建HTML+JavaScript文件，然后可以作为安全沙盒iframe交互式应用提供。"将kind设置为html用于网站/应用，或svg用于矢量图形。"
container.download_meta_1p_media很有趣："将来自Meta 1P来源的媒体下载到沙盒中。对Instagram/Facebook/Threads帖子使用post_id，或对目录产品图像使用catalog_search_citation_id"。所以看起来你可以从Meta的其他部分拉取内容，然后在沙盒中用代码解释器对其进行有趣的操作。
container.file_search——"搜索本次对话中上传的文件并返回相关摘录"——我猜是用来挖掘PDF等的？
容器中编辑文件的工具——container.view、container.insert（带new_str和insert_line）、container.str_replace。这些看起来类似于Claude的文本编辑器工具命令——这些正在成为任何配备文件的代理工具包中的通用模式。
container.visual_grounding——见下文，这个很有趣。
subagents.spawn_agent——子代理作为工具模式。"生成一个独立的子代理用于研究、分析或委托。它返回其最终文本响应。"
third_party.link_third_party_account——"启动第三方服务的账户链接"，目前支持Google日历、Outlook日历、Gmail或Outlook。

3、容器中的图像分析

让我们谈谈那个container.visual_grounding。以下是完整描述：

描述： 视觉定位工具，分析图像、识别和标记对象、定位区域或计数对象。

参数：

object_names（数组，必需）
image_path（字符串，默认""）
format_type（"bbox"|"point"|"count"|null，默认"bbox"）
title（字符串|null）[string]

因此它可以接收图像路径、可选的对象名称，并以bbox、point或count格式返回结果。

这听起来像我Meta的Segment Anything，（后来我听说不是，这是模型本身通过工具调用和自定义系统提示的原生功能）。我决定试一试。

提示：

生成一张浣熊坐在垃圾桶上、戴着垃圾作为帽子的照片

响应：

给你——巷子里的小国王，盛装打扮：

咖啡杯皇冠，香蕉皮帽檐，报纸羽毛。浣熊时尚的巅峰。要我做一个更狂野的版本吗——也许是夜视，或者也戴上太阳镜？

我猜测Meta AI中的图像生成是由他们的Emu模型或更新版本驱动的。这与ChatGPT和Gemini图像生成的模式相同，图像由工具调用生成（这里是media.image_gen）。

image_gen工具描述说它"将图像保存到沙盒"，所以我猜我可以用Python代码对其进行操作。我尝试了：

使用python OpenCV分析那张图像，找出有趣的东西

烦人的是它没有向我展示它运行的代码，但它确实创建了这张图像：

OpenCV图像分析仪表板，标题为"OpenCV Analysis: Raccoon Trash Hat"，包含四个面板：左上角显示原始1280x1280的照片，一只浣熊戴着垃圾盖帽子，顶部有咖啡杯和报纸，在小巷中；右上角显示Canny边缘检测版本，白色边缘在黑色背景上，标记为"Canny Edges - 4.6% density"；左下角显示"Top 5 Dominant Colors"作为色块，值为RGB(20, 19, 24): 35.3%、RGB(43, 43, 47): 34.2%、RGB(84, 80, 79): 18.3%、RGB(139, 135, 131): 6.3%、RGB(210, 213, 208): 5.8%；右下角显示"Color Histograms"折线图，红、绿、蓝通道绘制在x轴0-250和y轴0-35000上，在值25-50附近达到峰值。

相当 neat！我们可以生成图像，然后用Python工具使用它们。

接下来是visual_grounding工具。知道工具名称使得在提示中引用它们变得容易：

现在试试container.visual_grounding工具

响应（完整响应在这里）：

完成——visual_grounding以像素级精度精确定位了服装的每一个部分：

浣熊照片的视觉定位分析，标题为"Visual Grounding: Found 8 objects"，图像上有彩色点注释，标记每个检测到的对象：咖啡杯(515,205)黄色、香蕉皮(569,261)浅黄色、报纸(399,279)蓝色、右眼(461,396)洋红色、左眼(582,397)粉色、鼻子(514,472)青色、浣熊(553,548)绿色、垃圾桶盖(550,892)红色。底部图例列出所有对象及其归一化0-1000坐标。页脚文字写着"Coordinates are 0-1000 normalized. visual_grounding returned precise points for each component of the trash hat ensemble." 水印写着"Meta AI"。

[...]

接下来要我以bbox模式运行，在毛皮纹理周围画框，还是以count模式运行，看看它能检测到多少根单独的胡须？

再一次，Meta AI将工具结果包装在自定义HTML可视化中。这显然是point模式，但其他的呢？

我提示：

是的，画边界框，它也能做遮罩吗？

响应：

是的——边界框效果很好。遮罩？visual_grounding不直接输出；它只返回三种格式：point、bbox和count。没有像素级分割遮罩。

这是bbox输出：

边界框对象检测可视化，标题为"Bounding Boxes (visual_grounding)"，副标题为"8 objects detected — coordinates are 0-1000 normalized"，显示一张浣熊照片，检测到的对象周围有彩色矩形边界框：咖啡杯黄色[424,115,610,273] 186×158、香蕉皮黄色[472,215,667,291] 195×76、报纸蓝色[305,223,548,315] 243×92、浣熊绿色[270,240,892,845] 622×605、浣熊脸部紫色[305,283,750,537] 445×254、右眼洋红色[442,379,489,413] 47×34、左眼洋红色[565,379,605,416] 40×37、垃圾桶盖红色[107,800,1000,998] 893×198。底部图例以彩色卡片显示每个对象的名称、坐标和像素尺寸。水印写着"Meta AI"。

你看到的是：

浣熊：从(270,240)到(892,845)的大框——覆盖62%的宽度，基本上是整个动物
咖啡杯：(424,115)-(610,273)——位置最高，在0-1000空间中158像素高
香蕉皮：(472,215)-(667,291)——与杯底重叠，确认它搭在侧面
报纸：(305,223)-(548,315)——左耳覆盖
垃圾桶盖：(107,800)-(1000,998)——在底部几乎横跨整个图像宽度
脸部：(305,283)-(750,537)——面具周围的紧密裁剪
眼睛：两个约40×37像素的框，在y=379处完全水平

注意框如何嵌套：脸部在浣熊内部，眼睛在脸部内部，帽子碎片相互重叠但保持在脸部框上方。该工具正在进行真正的对象定位，而不仅仅是猜测中心。

关于遮罩：由于visual_grounding不输出它们，我可以在容器中用OpenCV伪造它们。两个快速选项：

GrabCut——我给它浣熊的bbox，它迭代地将毛皮与背景分割并返回二进制遮罩
SAM风格颜色阈值——使用bbox加k-means来隔离咖啡杯或香蕉皮

想让我为浣熊（从巷子中剪出来）生成实际的alpha遮罩，或者分别为垃圾帽碎片生成？大约10秒，我可以给你透明的PNG。

这是该bbox可视化的HTML。

最后我让它输出了point模式、bbox模式和count模式的原始JSON。你可以在这里看到所有内容。count模式特别有趣——以下是完整内容：

[
  {
    "object_name": "raccoon whisker",
    "points": [
      {"x": 403, "y": 445},
      {"x": 397, "y": 458},
      {"x": 392, "y": 472},
      {"x": 391, "y": 485},
      {"x": 398, "y": 497},
      {"x": 415, "y": 512},
      {"x": 618, "y": 446},
      {"x": 622, "y": 461},
      {"x": 625, "y": 475},
      {"x": 628, "y": 488},
      {"x": 635, "y": 501},
      {"x": 651, "y": 518}
    ],
    "count": 12
  },
  {
    "object_name": "raccoon paw claw",
    "points": [
      {"x": 406, "y": 845},
      {"x": 424, "y": 847},
      {"x": 441, "y": 842},
      {"x": 473, "y": 833},
      {"x": 596, "y": 830},
      {"x": 635, "y": 844},
      {"x": 660, "y": 843},
      {"x": 679, "y": 838}
    ],
    "count": 8
  },
  {
    "object_name": "trash item on head",
    "points": [
      {"x": 514, "y": 191},
      {"x": 568, "y": 263},
      {"x": 392, "y": 274}
    ],
    "count": 3
  },
  {
    "object_name": "eye",
    "points": [
      {"x": 462, "y": 395},
      {"x": 582, "y": 398}
    ],
    "count": 2
  },
  {
    "object_name": "ear",
    "points": [
      {"x": 359, "y": 313},
      {"x": 680, "y": 294}
    ],
    "count": 2
  }
]

因此Meta AI具有将计数浣熊胡须的能力，内置于默认工具集中。

这意味着...它也能计数鹈鹕！