Codex + HF Skills = 微调自动化

如果您曾经在 Hugging Face 上微调过模型,您肯定知道流程:准备数据集、修复格式错误、配置训练脚本、提交任务、监控进度,然后评估并发布结果。

它功能强大,但也令人疲惫。

现在想象一下,将整个工作流程交给 AI 代理,让它为你运行实验,而你可以专注于真正重要的工作。

这正是全新 Codex + Hugging Face Skills 集成所带来的效果。

OpenAI 的 Codex(与 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 版本集成的编码代理相同)现在可以使用简单的指令来训练、评估、监控和发布模型。无需编写冗长的脚本,无需复制粘贴配置文件,也无需管理 GPU 任务。

让我们来分析一下这个新工作流程包含哪些内容,以及如何仅使用一条命令即可执行全面的端到端机器学习实验。

1、Codex 现已支持 Hugging Face Skills

Hugging Face 近期推出了 HF-skills,这是一个包含现成机器学习工作流程“技能”的库。这些技能与 Claude Code、Gemini CLI 以及现在的 OpenAI Codex 兼容。

Codex 一旦检测到 AGENTS.md 文件(包含在 HF-skills 代码库中),就会自动加载以下功能:

  • 微调语言模型并进行强化学习 (RL) 对齐
  • 使用 Trackio 监控训练指标
  • 使用 HumanEval 或其他基准测试评估检查点
  • 生成实验报告
  • 将模型转换为 GGUF 格式并发布到 Hub

这不是演示。Codex 采用与生产工程师相同的训练方法。

  • SFT(监督式微调)
  • DPO(直接偏好优化)
  • RL(带有可验证奖励的强化学习)

支持高达 70 亿参数的模型。

2、设置:所需条件

开始之前:

  • Hugging Face Pro 或 Team 套餐
  • 写入权限令牌
  • 已安装并配置的 Codex
  • 已克隆到本地的 Hugging Face Skills 代码库

复制以下命令:

git clone https://github.com/huggingface/skills.git
cd skills

登录:

hf auth login

在此目录下运行 Codex 后,它会自动检测技能指令。

3、你的第一个 AI 驱动实验

假设您想在 open-r1/codeforces-cots 数据集上微调 Qwen3-0.6B,以提高其编程问题解决能力。

在您的项目目录中启动 Codex,并输入以下命令:

“使用 SFT 开始一个新的微调实验。使用 open-r1/codeforces-cots 数据集,使用 HumanEval 进行评估,并维护一份训练报告。”

Codex 的后续操作如下:

  • 验证数据集
  • 选择硬件(例如,t4-small)
  • 创建训练配置
  • 设置 Trackio 监控
  • 准备评估任务
  • 生成 Markdown 格式的训练报告
  • 提交前征求您的批准

所有这些操作均自动完成。

4、数据集验证自动完成

数据集格式化是机器学习工作流程中最繁琐的部分之一。Codex 会提前进行验证。

Dataset validation for open-r1/codeforces-cots:

SFT: ✓ READY  
DPO: ✗ INCOMPATIBLE (missing chosen/rejected)

如果数据集不适合某种方法,Codex 可以进行预处理:

“预处理数据集,添加 good_response 和 bad_response 列。”

Codex 重写数据集并更新配置。

仅此一项即可节省数小时。

5、Codex 会在运行前显示计划

在提交任何任务之前,Codex 会提供清晰的概要信息:

Hardware: t4-small (~$0.75/hour)
Estimated time: ~20 minutes
Estimated cost: ~$0.30
Output: username/qwen3-codeforces-cots-sft
Submit? (yes/no)

您可以调整任何内容:

  • 更改模型
  • 选择新的硬件
  • 先运行 100 个测试样本

您的工作流程将变得更加轻松自然,不再令人倍感压力。

6、实时进度跟踪及报告

Codex 会生成并维护一份 Markdown 格式的报告,路径如下:

training_reports/<model>-<dataset>-<method>.md

训练开始时,报告标题会自动更新:

# base-humaneval-a10g — 2025-12-09 13:47 UTC — In Progress

它还会添加运行日志的链接:

  • Hugging Face 作业日志
  • Trackio 训练仪表盘

Codex 可随时根据您的请求提供最新指标的摘要。

7、综合评估结果

作业完成后,Codex 会更新一个综合评估表:

Run Benchmark Score Logs Model
base-humaneval-a10g HumanEval pass@1 0.304 link Qwen/Qwen3-0.6B
qwen3-0.6b-lora-v1 HumanEval pass@1 0.342 link your fine-tuned model

您可以立即查看您的模型是否优于基础模型。

8、使用您的模型

训练完成后,您的模型将出现在 Hub 上。您可以像使用其他模型一样使用它:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("username/qwen3-codeforces-cots-sft")
tokenizer = AutoTokenizer.from_pretrained("username/qwen3-codeforces-cots-sft")

是的,Codex 可以将其转换为 GGUF:

“使用 Q4_K_M 量化将我的微调模型转换为 GGUF。”

然后您就可以在本地运行它了:

llama-server -hf username/model-name:Q4_K_M

9、硬件和成本:Codex 自动选择

Codex 会智能地选择硬件:

10 亿参数以下

  • t4-small
  • 每次完整运行 1-2 美元

10 亿至 30 亿参数

  • t4-medium 或 a10g-small
  • 5-15 美元

30 亿至 70 亿参数

  • a10g-large 或 a100-large(带 LoRa)

除非您手动指定,否则 Codex 会选择最便宜的可用 GPU。

10、这改变了机器学习工程师的工作方式

现在您可以提出以下问题:

  • “哪个模型编码准确率最高?”
  • “尝试 SFT + DPO + RL 并比较结果。”
  • “运行多个实验并更新报告。”

Codex 管理一切:训练、监控、评估、报告和部署。

这才是真正的自主实验。

11、结束语

我们正在进入一个全新的时代:

  • 您只需描述实验内容
  • 智能体即可构建并执行实验
  • 您像管理者一样审核结果
  • 无需底层配置或脚本

Codex + Hugging Face Skills 将机器学习工作流程转化为对话。

如果您一直渴望尝试训练自己的模型——这是迄今为止最简单、最可靠的起点。


原文链接:OpenAI Codex Can Now Run End-to-End Machine Learning Experiments — Automatically

汇智网翻译整理,转载请标明出处