omk 与同类工具对比

与 7 个 LLM 评测工具的事实性对比，数据截至 2026-04。欢迎 PR 修正——如果竞品新增了我们标 ✗ 的能力，请提 PR，我们会及时更新。

一句话总结

omk 的护城河是**统计严谨性：每条结论都能被研究者审计。Bootstrap CI、Krippendorff α 对人工锚点、length-debias 评委 prompt、饱和曲线——同类工具中没有一个把这四件全做了**。

需要托管式 SaaS 看板？选 LangSmith / Confident AI。要本地快速 prompt 迭代不要统计层？选 promptfoo。要学术级 benchmark 覆盖？选 lm-evaluation-harness。要安全评测的 agent 沙箱？选 inspect-ai。 要把 skill / prompt / RAG ship 到生产，且会被问"为什么应该相信这个数字"？选 omk。

参与对比的工具

工具	语言	定位	License
omk	TS / Node	统计严谨性 + Claude Code 原生的 LLM 评测	MIT
promptfoo	TS / Node	本地 CLI、red-team 重点、被 OpenAI 收购	MIT
DeepEval	Python	pytest 风格 metric 库，Confident AI 商业化引流	Apache 2.0
RAGAS	Python	RAG 专用 metric，statement-decomposition 实现	Apache 2.0
OpenAI Evals	Python	benchmark 注册表，OpenAI 官方	MIT
LangSmith	Python (LangChain)	托管 SaaS，tracing + eval	商业
lm-evaluation-harness	Python	学术黄金标准，HuggingFace Open LLM Leaderboard 后端	MIT
inspect-ai	Python	UK AISI 安全评测	MIT

统计严谨性

	omk	promptfoo	DeepEval	RAGAS	OpenAI Evals	LangSmith	lm-eval-harness	inspect-ai
Bootstrap CI（变量均值 + diff）	✓	✗	✗	✗	✗	✗	✗	✗
Krippendorff α（评委 ↔ 人工锚点）	✓	✗	✗	✗	✗	✗	✗	✗
Length-debias 评委 prompt（默认开）	✓	✗	✗	✗	✗	✗	✗	✗
饱和曲线 / 用例数诊断	✓	✗	✗	✗	✗	✗	✗	✗
配对用例显著性检验	✓(bootstrap)	✗	✗	✗	✗	✗	✗	✗

omk 是参与对比中唯一把这五件事全做了的工具。最接近的 lm-evaluation-harness 重学术复现，统计层只到点估计。

→ 这些不是营销话术——每一条都有文档和代码锚定：统计严谨性、评分公式。

评分架构

	omk	promptfoo	DeepEval	RAGAS	OpenAI Evals	LangSmith	lm-eval-harness	inspect-ai
三层独立评分（事实/行为/评委）	✓	✗	部分	✗	✗	✗	✗	✗
三层 all-pass CI gate	✓	✗	✗	✗	✗	✗	✗	✗
用例隔离（per-variant skill 隔离 / construct validity）	✓ 默认开	✗	✗	✗	✗	✗	✗	部分
用例设计元数据 + 结构锚点（`covers`）	✓	✗	✗	✗	✗	✗	✗	✗
一行 verdict(PROGRESS / REGRESS / NOISE / ...)	✓	✗	✗	✗	✗	✗	✗	✗
知识缺口信号（严重度加权）	✓	✗	✗	✗	✗	✗	✗	✗
用例质量诊断（7 类 issue）	✓	仅低区分度	✗	✗	✗	✗	✗	✗
失败 case LLM 聚类	✓	✗	✗	✗	✗	✗	✗	✗

三层独立评分能挡住"复合分掩盖单层崩盘"：fact 4.5→2.5 + judge 3→5 在复合均值看着无伤，但三层 all-pass gate 能立刻抓出来。

用例隔离是一个 construct validity 维度：跑 baseline vs skill variant 时，三条 channel 都可能让 baseline 静默拿到用户 ~/.claude/skills/ 里被测的那个 skill。omk 默认 --strict-baseline 把三条都堵掉：（1）SDK skill auto-discovery，通过 options.skills:[]；（2）subagent Skill 工具，通过 options.disallowedTools:['Skill']；（3）cwd 文件系统访问 — baseline 默认 cwd 是用户评测工作目录，那里通常有 skills/<name>/ symlink 给 treatment 用，baseline 用 Glob + Read 顺 symlink 直读 SKILL.md 就完全绕过 SDK 隔离。omk 在用户没显式指定 cwd 时把 baseline cwd 切到 ~/.oh-my-knowledge/state/isolated-cwd/（空目录）。--no-strict-baseline 是逃生口，eval.yaml 也支持对单个变体显式声明 allowedSkills: []（严格隔离）。inspect-ai 的 per-sample solver 模式能达到类似效果但需要显式逐题 wiring；promptfoo / DeepEval / OpenAI Evals 都不处理这维度。

评委

	omk	promptfoo	DeepEval	RAGAS	OpenAI Evals	LangSmith	lm-eval-harness	inspect-ai
多评委 ensemble（跨厂商）	✓ Pearson + MAD	✗	✗	✗	✗	部分	✗	✗
Judge-repeat 自一致性	✓	✗	✗	✗	✗	✗	✗	✗
评委 prompt hash 追溯	✓	✗	✗	✗	✗	✗	✗	✗
自动污染检测(gold annotator vs judge)	✓	✗	✗	✗	✗	✗	✗	✗

专项 metric

	omk	promptfoo	DeepEval	RAGAS	OpenAI Evals	LangSmith	lm-eval-harness	inspect-ai
RAG: faithfulness / answer_relevancy / context_recall	✓ length-debias 恒开	部分	✓	✓（多步分解）	✗	部分	✗	✗
ROUGE-N / Levenshtein / BLEU	✓ 自实现零依赖	✓	部分	✗	✓	✗	✓	✗
语义相似度（LLM 评分）	✓	✓	✓	✓	✓	✓	✗	✓
工具调用 / agent 断言	✓ 9 种	✗	部分	✗	✗	部分	✗	✓ 强
自定义 JS / Python 断言	✓ JS	✓ JS	✓ Python	部分	✓ Python	✓ Python	✓ Python	✓ Python

工作流

	omk	promptfoo	DeepEval	RAGAS	OpenAI Evals	LangSmith	lm-eval-harness	inspect-ai
原生 Claude Code skill 评测	✓	✗	✗	✗	✗	✗	✗	✗
生产 session JSONL 解析(omk observe)	✓ Claude Code	✗	✗	✗	✗	✓ 仅 LangChain	✗	✗
自迭代(`omk evolve`)	✓	✗	✗	✗	✗	✗	✗	✗
eval.yaml(evaluation-as-code)	✓	✓	✗	✗	部分	✗	部分	✓
CI/CD `omk eval` 退出码路由	✓ 三层	✓ 基础	✓	✗	✗	部分	✗	✓
预算硬阈值（工作流级中止）	✓	✗	✗	✗	✗	✗	✗	✗
中断恢复	✓ `--resume`	✗	✗	✗	✗	✗	✗	✗
多轮方差 + t 检验	✓ + bootstrap	✗	✗	✗	✗	部分	✗	✗

文档与社区

	omk	promptfoo	DeepEval	RAGAS	OpenAI Evals	LangSmith	lm-eval-harness	inspect-ai
完整中文文档	✓	部分（社区）	✗	✗	✗	✗	✗	✗
HTML 报告 i18n 切换	✓ EN/ZH	部分	✗	✗	✗	部分	✗	✗
GitHub stars(2026-04)	新生	9k+	12k+	9k+	16k+	（商业）	7.5k+	2k+
Cloud SaaS dashboard	✗	✗	✓ Confident AI	✗	✗	✓	✗	✗

什么场景选 omk

研究 / 学术 / NIST AI 800-3 合规对齐。统计严谨性四件套就是为了回答"这个结论在小 N / 非正态数据 / 评委偏差下是否还稳健"。要发表或审计，bootstrap CI + α + length-debias 三件套是当前唯一现成可用的组合。

大厂 ML 平台团队。当 skill / prompt 上线生产，组内会有人问"为什么我应该相信这个数字"，omk 的审计链（judge prompt hash + 三层得分 + bootstrap CI + gold α）给你一个能扛住事故复盘的答案。

中文 AI 工程团队。omk 是参与对比工具中唯一有完整中文文档的——README、CLI help、HTML 报告、术语规范、缺口信号规范、RAG metric 规范全部原生中文（非机翻）。

Claude Code 用户。omk 在 Claude Code 里的工作流最原生：既可以作为 Claude Code skill 使用，底层 omk CLI 也能被 Codex 等 coding agent 直接驱动。promptfoo / DeepEval 等通常需要 shim 一层自定义 executor，才能接近这种面向 artifact 的工作流。

什么场景不选 omk

需要托管 SaaS 看板 + 团队账号 + 共享 dataset hub。选 LangSmith 或 Confident AI。omk 刻意只做 CLI + 本地 HTML，不打算 ship SaaS。

做 red-team，需要攻击 prompt 库。选 promptfoo，它有 67+ 个 red-team 插件；omk 是通用评测，不专攻攻击库。

对基础模型跑学术基准（HumanEval / MMLU 等）。选 lm-evaluation-harness，它是事实上的 leaderboard 后端；omk 不为 benchmark 注册表场景优化。

安全场景需要 Docker / Kubernetes / Modal 紧密沙箱。选 inspect-ai，UK AISI 就是为这场景做的。

只是一次性测 5 个 prompt。写个一次性 Python 脚本就行。omk 的价值在反复跑 + 跨时间统计可比。

共存模式

omk 与其他工具天然兼容。常见组合：

omk + LangSmith — omk 做离线评测严谨性，LangSmith 做生产 tracing
omk + RAGAS — RAGAS 做细粒度 statement-decomposition faithfulness，omk 做跨版本回归 + 统计 CI
omk + lm-eval-harness — lm-eval 跑基础模型 leaderboard 分，omk 在 prompt / skill / RAG 层做工程评测

更新与修正

本页尽力保持准确，但竞品能力变化快（2025 年内 promptfoo 加了 assert-set，DeepEval 加了 agentic eval suite）。如发现过时或错误，请提 PR，我们会合并。

最后核对：2026-04-25。

omk 与同类工具对比 ​

一句话总结 ​

参与对比的工具 ​

统计严谨性 ​

评分架构 ​

评委 ​

专项 metric ​

工作流 ​

文档与社区 ​

什么场景选 omk ​

什么场景不选 omk ​

共存模式 ​

更新与修正 ​