Skip to content

omk 与同类工具对比

与 7 个 LLM 评测工具的事实性对比,数据截至 2026-04。欢迎 PR 修正——如果竞品新增了我们标 的能力,请提 PR,我们会及时更新。

一句话总结

omk 的护城河是**统计严谨性:每条结论都能被研究者审计。Bootstrap CI、Krippendorff α 对人工锚点、length-debias 评委 prompt、饱和曲线——同类工具中没有一个把这四件全做了**。

需要托管式 SaaS 看板?选 LangSmith / Confident AI。 要本地快速 prompt 迭代不要统计层?选 promptfoo。 要学术级 benchmark 覆盖?选 lm-evaluation-harness。 要安全评测的 agent 沙箱?选 inspect-ai。 要把 skill / prompt / RAG ship 到生产,且会被问"为什么应该相信这个数字"?选 omk。

参与对比的工具

工具语言定位License
omkTS / Node统计严谨性 + Claude Code 原生的 LLM 评测MIT
promptfooTS / Node本地 CLI、red-team 重点、被 OpenAI 收购MIT
DeepEvalPythonpytest 风格 metric 库,Confident AI 商业化引流Apache 2.0
RAGASPythonRAG 专用 metric,statement-decomposition 实现Apache 2.0
OpenAI EvalsPythonbenchmark 注册表,OpenAI 官方MIT
LangSmithPython (LangChain)托管 SaaS,tracing + eval商业
lm-evaluation-harnessPython学术黄金标准,HuggingFace Open LLM Leaderboard 后端MIT
inspect-aiPythonUK AISI 安全评测MIT

统计严谨性

omkpromptfooDeepEvalRAGASOpenAI EvalsLangSmithlm-eval-harnessinspect-ai
Bootstrap CI(变量均值 + diff)
Krippendorff α(评委 ↔ 人工锚点)
Length-debias 评委 prompt(默认开)
饱和曲线 / 用例数诊断
配对用例显著性检验✓(bootstrap)

omk 是参与对比中唯一把这五件事全做了的工具。最接近的 lm-evaluation-harness 重学术复现,统计层只到点估计。

→ 这些不是营销话术——每一条都有文档和代码锚定:统计严谨性评分公式

评分架构

omkpromptfooDeepEvalRAGASOpenAI EvalsLangSmithlm-eval-harnessinspect-ai
三层独立评分(事实/行为/评委)部分
三层 all-pass CI gate
用例隔离(per-variant skill 隔离 / construct validity)✓ 默认开部分
用例设计元数据(capability / difficulty / construct / provenance)
一行 verdict(PROGRESS / REGRESS / NOISE / ...)
知识缺口信号(严重度加权)
用例质量诊断(7 类 issue)仅低区分度
失败 case LLM 聚类

三层独立评分能挡住"复合分掩盖单层崩盘":fact 4.5→2.5 + judge 3→5 在复合均值看着无伤,但三层 all-pass gate 能立刻抓出来。

用例隔离是一个 construct validity 维度:跑 baseline vs skill variant 时,三条 channel 都可能让 baseline 静默拿到用户 ~/.claude/skills/ 里被测的那个 skill。omk 默认 --strict-baseline 把三条都堵掉:(1)SDK skill auto-discovery,通过 options.skills:[];(2)subagent Skill 工具,通过 options.disallowedTools:['Skill'];(3)cwd 文件系统访问 — baseline 默认 cwd 是用户评测工作目录,那里通常有 skills/<name>/ symlink 给 treatment 用,baseline 用 Glob + Read 顺 symlink 直读 SKILL.md 就完全绕过 SDK 隔离。omk 在用户没显式指定 cwd 时把 baseline cwd 切到 ~/.oh-my-knowledge/isolated-cwd/(空目录)。--no-strict-baseline 是逃生口,eval.yaml 支持 per-variant allowedSkills 白名单。inspect-ai 的 per-sample solver 模式能达到类似效果但需要显式逐题 wiring;promptfoo / DeepEval / OpenAI Evals 都不处理这维度。

评委

omkpromptfooDeepEvalRAGASOpenAI EvalsLangSmithlm-eval-harnessinspect-ai
多评委 ensemble(跨厂商)✓ Pearson + MAD部分
Judge-repeat 自一致性
评委 prompt hash 追溯
Length-bias 实测验证debias-validate
自动污染检测(gold annotator vs judge)

专项 metric

omkpromptfooDeepEvalRAGASOpenAI EvalsLangSmithlm-eval-harnessinspect-ai
RAG: faithfulness / answer_relevancy / context_recall✓ 自动继承 length-debias部分✓(多步分解)部分
ROUGE-N / Levenshtein / BLEU✓ 自实现零依赖部分
语义相似度(LLM 评分)
工具调用 / agent 断言✓ 9 种部分部分✓ 强
自定义 JS / Python 断言✓ JS✓ JS✓ Python部分✓ Python✓ Python✓ Python✓ Python

工作流

omkpromptfooDeepEvalRAGASOpenAI EvalsLangSmithlm-eval-harnessinspect-ai
原生 Claude Code skill 评测
生产 session JSONL 解析(omk observe)✓ Claude Code✓ 仅 LangChain
自迭代(omk evolve)
eval.yaml(evaluation-as-code)部分部分
CI/CD omk eval 退出码路由✓ 三层✓ 基础部分
预算硬阈值(工作流级中止)
中断恢复--resume
盲测 A/B + 揭晓✓ pairwise
多轮方差 + t 检验✓ + bootstrap部分

文档与社区

omkpromptfooDeepEvalRAGASOpenAI EvalsLangSmithlm-eval-harnessinspect-ai
完整中文文档部分(社区)
HTML 报告 i18n 切换✓ EN/ZH部分部分
GitHub stars(2026-04)新生9k+12k+9k+16k+(商业)7.5k+2k+
Cloud SaaS dashboard✓ Confident AI

什么场景选 omk

研究 / 学术 / NIST AI 800-3 合规对齐。统计严谨性四件套就是为了回答"这个结论在小 N / 非正态数据 / 评委偏差下是否还稳健"。要发表或审计,bootstrap CI + α + length-debias 三件套是当前唯一现成可用的组合。

大厂 ML 平台团队。当 skill / prompt 上线生产,组内会有人问"为什么我应该相信这个数字",omk 的审计链(judge prompt hash + 三层得分 + bootstrap CI + gold α)给你一个能扛住事故复盘的答案。

中文 AI 工程团队。omk 是参与对比工具中唯一有完整中文文档的——README、CLI help、HTML 报告、术语规范、缺口信号规范、RAG metric 规范全部原生中文(非机翻)。

Claude Code 用户。omk 在 Claude Code 里的工作流最原生:既可以作为 Claude Code skill 使用,底层 omk CLI 也能被 Codex 等 coding agent 直接驱动。promptfoo / DeepEval 等通常需要 shim 一层自定义 executor,才能接近这种面向 artifact 的工作流。

什么场景选 omk

需要托管 SaaS 看板 + 团队账号 + 共享 dataset hub。选 LangSmith 或 Confident AI。omk 刻意只做 CLI + 本地 HTML,不打算 ship SaaS。

做 red-team,需要攻击 prompt 库。选 promptfoo,它有 67+ 个 red-team 插件;omk 是通用评测,不专攻攻击库。

对基础模型跑学术基准(HumanEval / MMLU 等)。选 lm-evaluation-harness,它是事实上的 leaderboard 后端;omk 不为 benchmark 注册表场景优化。

安全场景需要 Docker / Kubernetes / Modal 紧密沙箱。选 inspect-ai,UK AISI 就是为这场景做的。

只是一次性测 5 个 prompt。写个一次性 Python 脚本就行。omk 的价值在反复跑 + 跨时间统计可比。

共存模式

omk 与其他工具天然兼容。常见组合:

  • omk + LangSmith — omk 做离线评测严谨性,LangSmith 做生产 tracing
  • omk + RAGAS — RAGAS 做细粒度 statement-decomposition faithfulness,omk 做跨版本回归 + 统计 CI
  • omk + lm-eval-harness — lm-eval 跑基础模型 leaderboard 分,omk 在 prompt / skill / RAG 层做工程评测

更新与修正

本页尽力保持准确,但竞品能力变化快(2025 年内 promptfoo 加了 assert-set,DeepEval 加了 agentic eval suite)。如发现过时或错误,请提 PR,我们会合并。

最后核对:2026-04-25。