Codex + HF Skills = 微调自动化
如果您曾经在 Hugging Face 上微调过模型,您肯定知道流程:准备数据集、修复格式错误、配置训练脚本、提交任务、监控进度,然后评估并发布结果。
它功能强大,但也令人疲惫。
现在想象一下,将整个工作流程交给 AI 代理,让它为你运行实验,而你可以专注于真正重要的工作。
这正是全新 Codex + Hugging Face Skills 集成所带来的效果。
OpenAI 的 Codex(与 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 版本集成的编码代理相同)现在可以使用简单的指令来训练、评估、监控和发布模型。无需编写冗长的脚本,无需复制粘贴配置文件,也无需管理 GPU 任务。
让我们来分析一下这个新工作流程包含哪些内容,以及如何仅使用一条命令即可执行全面的端到端机器学习实验。
1、Codex 现已支持 Hugging Face Skills
Hugging Face 近期推出了 HF-skills,这是一个包含现成机器学习工作流程“技能”的库。这些技能与 Claude Code、Gemini CLI 以及现在的 OpenAI Codex 兼容。
Codex 一旦检测到 AGENTS.md 文件(包含在 HF-skills 代码库中),就会自动加载以下功能:
- 微调语言模型并进行强化学习 (RL) 对齐
- 使用 Trackio 监控训练指标
- 使用 HumanEval 或其他基准测试评估检查点
- 生成实验报告
- 将模型转换为 GGUF 格式并发布到 Hub
这不是演示。Codex 采用与生产工程师相同的训练方法。
- SFT(监督式微调)
- DPO(直接偏好优化)
- RL(带有可验证奖励的强化学习)
支持高达 70 亿参数的模型。
2、设置:所需条件
开始之前:
- Hugging Face Pro 或 Team 套餐
- 写入权限令牌
- 已安装并配置的 Codex
- 已克隆到本地的 Hugging Face Skills 代码库
复制以下命令:
git clone https://github.com/huggingface/skills.git
cd skills登录:
hf auth login在此目录下运行 Codex 后,它会自动检测技能指令。
3、你的第一个 AI 驱动实验
假设您想在 open-r1/codeforces-cots 数据集上微调 Qwen3-0.6B,以提高其编程问题解决能力。
在您的项目目录中启动 Codex,并输入以下命令:
“使用 SFT 开始一个新的微调实验。使用 open-r1/codeforces-cots 数据集,使用 HumanEval 进行评估,并维护一份训练报告。”
Codex 的后续操作如下:
- 验证数据集
- 选择硬件(例如,t4-small)
- 创建训练配置
- 设置 Trackio 监控
- 准备评估任务
- 生成 Markdown 格式的训练报告
- 提交前征求您的批准
所有这些操作均自动完成。
4、数据集验证自动完成
数据集格式化是机器学习工作流程中最繁琐的部分之一。Codex 会提前进行验证。
Dataset validation for open-r1/codeforces-cots:
SFT: ✓ READY
DPO: ✗ INCOMPATIBLE (missing chosen/rejected)如果数据集不适合某种方法,Codex 可以进行预处理:
“预处理数据集,添加 good_response 和 bad_response 列。”
Codex 重写数据集并更新配置。
仅此一项即可节省数小时。
5、Codex 会在运行前显示计划
在提交任何任务之前,Codex 会提供清晰的概要信息:
Hardware: t4-small (~$0.75/hour)
Estimated time: ~20 minutes
Estimated cost: ~$0.30
Output: username/qwen3-codeforces-cots-sft
Submit? (yes/no)您可以调整任何内容:
- 更改模型
- 选择新的硬件
- 先运行 100 个测试样本
您的工作流程将变得更加轻松自然,不再令人倍感压力。
6、实时进度跟踪及报告
Codex 会生成并维护一份 Markdown 格式的报告,路径如下:
training_reports/<model>-<dataset>-<method>.md
训练开始时,报告标题会自动更新:
# base-humaneval-a10g — 2025-12-09 13:47 UTC — In Progress它还会添加运行日志的链接:
- Hugging Face 作业日志
- Trackio 训练仪表盘
Codex 可随时根据您的请求提供最新指标的摘要。
7、综合评估结果
作业完成后,Codex 会更新一个综合评估表:
| Run | Benchmark | Score | Logs | Model |
|---|---|---|---|---|
| base-humaneval-a10g | HumanEval pass@1 | 0.304 | link | Qwen/Qwen3-0.6B |
| qwen3-0.6b-lora-v1 | HumanEval pass@1 | 0.342 | link | your fine-tuned model |
您可以立即查看您的模型是否优于基础模型。
8、使用您的模型
训练完成后,您的模型将出现在 Hub 上。您可以像使用其他模型一样使用它:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("username/qwen3-codeforces-cots-sft")
tokenizer = AutoTokenizer.from_pretrained("username/qwen3-codeforces-cots-sft")是的,Codex 可以将其转换为 GGUF:
“使用 Q4_K_M 量化将我的微调模型转换为 GGUF。”
然后您就可以在本地运行它了:
llama-server -hf username/model-name:Q4_K_M9、硬件和成本:Codex 自动选择
Codex 会智能地选择硬件:
10 亿参数以下
- t4-small
- 每次完整运行 1-2 美元
10 亿至 30 亿参数
- t4-medium 或 a10g-small
- 5-15 美元
30 亿至 70 亿参数
- a10g-large 或 a100-large(带 LoRa)
除非您手动指定,否则 Codex 会选择最便宜的可用 GPU。
10、这改变了机器学习工程师的工作方式
现在您可以提出以下问题:
- “哪个模型编码准确率最高?”
- “尝试 SFT + DPO + RL 并比较结果。”
- “运行多个实验并更新报告。”
Codex 管理一切:训练、监控、评估、报告和部署。
这才是真正的自主实验。
11、结束语
我们正在进入一个全新的时代:
- 您只需描述实验内容
- 智能体即可构建并执行实验
- 您像管理者一样审核结果
- 无需底层配置或脚本
Codex + Hugging Face Skills 将机器学习工作流程转化为对话。
如果您一直渴望尝试训练自己的模型——这是迄今为止最简单、最可靠的起点。
原文链接:OpenAI Codex Can Now Run End-to-End Machine Learning Experiments — Automatically
汇智网翻译整理,转载请标明出处