Codex + HF Skills = 微调自动化

如果您曾经在 Hugging Face 上微调过模型，您肯定知道流程：准备数据集、修复格式错误、配置训练脚本、提交任务、监控进度，然后评估并发布结果。

它功能强大，但也令人疲惫。

现在想象一下，将整个工作流程交给 AI 代理，让它为你运行实验，而你可以专注于真正重要的工作。

这正是全新 Codex + Hugging Face Skills 集成所带来的效果。

OpenAI 的 Codex（与 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 版本集成的编码代理相同）现在可以使用简单的指令来训练、评估、监控和发布模型。无需编写冗长的脚本，无需复制粘贴配置文件，也无需管理 GPU 任务。

让我们来分析一下这个新工作流程包含哪些内容，以及如何仅使用一条命令即可执行全面的端到端机器学习实验。

1、Codex 现已支持 Hugging Face Skills

Hugging Face 近期推出了 HF-skills，这是一个包含现成机器学习工作流程“技能”的库。这些技能与 Claude Code、Gemini CLI 以及现在的 OpenAI Codex 兼容。

Codex 一旦检测到 AGENTS.md 文件（包含在 HF-skills 代码库中），就会自动加载以下功能：

微调语言模型并进行强化学习 (RL) 对齐
使用 Trackio 监控训练指标
使用 HumanEval 或其他基准测试评估检查点
生成实验报告
将模型转换为 GGUF 格式并发布到 Hub

这不是演示。Codex 采用与生产工程师相同的训练方法。

SFT（监督式微调）
DPO（直接偏好优化）
RL（带有可验证奖励的强化学习）

支持高达 70 亿参数的模型。

2、设置：所需条件

开始之前：

Hugging Face Pro 或 Team 套餐
写入权限令牌
已安装并配置的 Codex
已克隆到本地的 Hugging Face Skills 代码库

复制以下命令：

git clone https://github.com/huggingface/skills.git
cd skills

hf auth login

在此目录下运行 Codex 后，它会自动检测技能指令。

3、你的第一个 AI 驱动实验

假设您想在 open-r1/codeforces-cots 数据集上微调 Qwen3-0.6B，以提高其编程问题解决能力。

在您的项目目录中启动 Codex，并输入以下命令：

“使用 SFT 开始一个新的微调实验。使用 open-r1/codeforces-cots 数据集，使用 HumanEval 进行评估，并维护一份训练报告。”

Codex 的后续操作如下：

验证数据集
选择硬件（例如，t4-small）
创建训练配置
设置 Trackio 监控
准备评估任务
生成 Markdown 格式的训练报告
提交前征求您的批准

所有这些操作均自动完成。

4、数据集验证自动完成

数据集格式化是机器学习工作流程中最繁琐的部分之一。Codex 会提前进行验证。

Dataset validation for open-r1/codeforces-cots:

SFT: ✓ READY  
DPO: ✗ INCOMPATIBLE (missing chosen/rejected)

如果数据集不适合某种方法，Codex 可以进行预处理：

“预处理数据集，添加 good_response 和 bad_response 列。”

Codex 重写数据集并更新配置。

仅此一项即可节省数小时。

5、Codex 会在运行前显示计划

在提交任何任务之前，Codex 会提供清晰的概要信息：

Hardware: t4-small (~$0.75/hour)
Estimated time: ~20 minutes
Estimated cost: ~$0.30
Output: username/qwen3-codeforces-cots-sft
Submit? (yes/no)

您可以调整任何内容：

更改模型
选择新的硬件
先运行 100 个测试样本

您的工作流程将变得更加轻松自然，不再令人倍感压力。

6、实时进度跟踪及报告

Codex 会生成并维护一份 Markdown 格式的报告，路径如下：

training_reports/<model>-<dataset>-<method>.md

训练开始时，报告标题会自动更新：

# base-humaneval-a10g — 2025-12-09 13:47 UTC — In Progress

它还会添加运行日志的链接：

Hugging Face 作业日志
Trackio 训练仪表盘

Codex 可随时根据您的请求提供最新指标的摘要。

7、综合评估结果

作业完成后，Codex 会更新一个综合评估表：

Run	Benchmark	Score	Logs	Model
base-humaneval-a10g	HumanEval pass@1	0.304	link	Qwen/Qwen3-0.6B
qwen3-0.6b-lora-v1	HumanEval pass@1	0.342	link	your fine-tuned model

您可以立即查看您的模型是否优于基础模型。

8、使用您的模型

训练完成后，您的模型将出现在 Hub 上。您可以像使用其他模型一样使用它：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("username/qwen3-codeforces-cots-sft")
tokenizer = AutoTokenizer.from_pretrained("username/qwen3-codeforces-cots-sft")

是的，Codex 可以将其转换为 GGUF：

“使用 Q4_K_M 量化将我的微调模型转换为 GGUF。”

然后您就可以在本地运行它了：

llama-server -hf username/model-name:Q4_K_M

9、硬件和成本：Codex 自动选择

Codex 会智能地选择硬件：

10 亿参数以下

t4-small
每次完整运行 1-2 美元

10 亿至 30 亿参数

t4-medium 或 a10g-small
5-15 美元

30 亿至 70 亿参数

a10g-large 或 a100-large（带 LoRa）

除非您手动指定，否则 Codex 会选择最便宜的可用 GPU。

10、这改变了机器学习工程师的工作方式

现在您可以提出以下问题：

“哪个模型编码准确率最高？”
“尝试 SFT + DPO + RL 并比较结果。”
“运行多个实验并更新报告。”

Codex 管理一切：训练、监控、评估、报告和部署。

这才是真正的自主实验。

11、结束语

我们正在进入一个全新的时代：

您只需描述实验内容
智能体即可构建并执行实验
您像管理者一样审核结果
无需底层配置或脚本

Codex + Hugging Face Skills 将机器学习工作流程转化为对话。

如果您一直渴望尝试训练自己的模型——这是迄今为止最简单、最可靠的起点。

原文链接：O penAI Codex Can Now Run End-to-End Machine Learning Experiments — Automatically

汇智网翻译整理，转载请标明出处