Skip to content

术语对照表

omk 文档(包括博客、SKILL.md、CLI 输出、报告页)会混用一些 ML / 统计 / 测量学的业内通用英文术语 —— 这些词在英文社区里已经是事实标准,强行中文化反而显得在「翻译外文」。这份对照表给读者一个速查入口:每条给中文译名 + 一句话定义 + 在 omk 哪用到。

定位:读者速查表,不是设计规范。omk 维护者写新文档时遵循这份用语。

姊妹文档术语规范 (terminology-spec.md)(维护者内部决策归档)/ 统计严谨性 / 综合分构造效度


1. 统计 / 测量学

英文中文一句话定义在 omk 哪用到
bootstrap CI自助法置信区间不假设分布的 95% 置信区间,靠重采样(默认 1000 次)算出omk eval --bootstrap;报告页「配对对比」表
Δ (delta)分差 / 均值差treatment 与 control 的综合分均值差hero 「分差 +2.778」;配对对比表
95% CI95% 可信区间真实均值有 95% 概率落在这个区间。CI 不含 0 = 显著差异hero tooltip;配对对比表
significant显著差异 / 显著CI 不含 0(差距不是偶然)测评可信度 ✓ 差异显著 badge
Pearson r皮尔逊(相关)系数1=完全同向 / 0=无关 / -1=完全反向多评委 ensemble 的「跨用例评委一致性」表
MAD平均绝对差多个评委对同一用例打分的平均距离。1-5 制下 < 0.5 紧密一致,> 1.5 大分歧多评委一致性表
Krippendorff αKrippendorff α / 一致性系数序数加权多评委一致性,α ≥ 0.8 高度一致 / 0.667-0.8 可接受 / < 0.4 低人工锚点 (Human gold) section
p-valuep 值「这种差距碰巧出现」的概率,越小越显著(一般 0.05 阈值)t-test 部分(omk 不主推,bootstrap 优先)
effect size效应量差距相对于波动的比例(Cohen's d / Hedges' g),刻度化「差距有多大」波动 / 显著性表的 Cohen's d 列
CV变异系数stddev / mean,稳定性指标。1-5 制下 < 5% 稳 / 5-15% 中 / > 15% 不稳稳定性列 + hero tooltip
stddev (σ)标准差数值波动幅度的统计量稳定性列
saturation饱和(曲线)加更多用例不再让结论变化的点(CI 宽度衰减放缓)测评可信度「✓ 已饱和」badge
holdout (set)外验集skill 显式没写过的独立验证用例,用来防样本驯化评测后置工作建议
construct validity构造效度测量是否真测了想测的东西(vs 测量误差)scoring.md:综合分构造效度论证
ad hoc临时拼装 / 没有原理论证的通常用来形容「先做出来再说」的实现选择scoring.md:综合分等权聚合是 ad hoc
sample-set overfitting样本驯化 / 用例过拟合评测集恰好被「答过案了」,分数虚高scoring.md / 测评博客 caveat 部分
length debias长度去偏校正 LLM 评委「答案越长打分越高」的已知偏差默认开;omk eval --no-debias-length 关闭

2. omk 评测概念

英文中文一句话定义在 omk 哪用到
artifact知识载体omk 的「被评测对象」统一抽象:skill / prompt / agent / workflow / baseline由实验角色决定(--control / --treatment / baseline),非单独 flag
executor执行器跑模型的方式:claude / codex / openai-api / gemini--executor 参数;执行环境指纹
ensemble (judge)集成评委 / 多评委多个 LLM 同时当评委独立打分,组合结果--judge-models claude:opus,claude:sonnet
judge评委LLM 当评委按 rubric 打分(zh 译作「评委」,不要译作「判官」)judge model 参数;evidence 表
rubric评分规则judge 打分时遵循的细则(应识别 X / 必须包含 Y / 至少 N 项 / ...)sample 配置的 rubric 字段
anchor锚点用人工标准校准 LLM judge 的方法--gold-dir 人工锚点
gate (layer gate)闸门 / 层独立闸门三层独立显著性检验(fact / behavior / judge),任一层退步即触发 CAUTIOUS+verdict 算法;报告页「波动 / 显著性」表
verdict判定PROGRESS / REGRESS / CAUTIOUS / NOISE / UNDERPOWERED / SOLO 六档hero badge;CLI verdict 输出
sample (evaluation sample)评测用例omk user-facing zh 统一用「用例」(英文 sample 保留)eval-samples.json
eval-samples评测用例集 / 评测用例文件用例配置文件(每条含 prompt / rubric / assertion / capability)omk eval --samples
baseline (reserved variant)基线 / 对照(保留字)不注入 skill 的对照组,omk 保留变体名--control baseline
treatment实验组注入 skill 的对比组--treatment <name>
control对照组baseline 的别名--control <name>
composite (score)综合分fact / behavior / judge 三层等权均值,1-5 制六维对比表第一列
fact (layer)事实层assertion 通过率经 1 + ratio*4 映射到 1-5六维对比表「📋 事实」
behavior (layer)行为层执行过程类断言(工具调用 / 轮次 / 成本上限)通过率六维对比表「🛠️ 行为」
judge (layer)LLM 评价层评委按 rubric 直接给的 1-5 分六维对比表「💬 LLM 评价」
dimension维度capability-aligned 评分维度(v0.x 后期落地,未进 composite)五层评分管道架构
reliability check测评可信度评委一致 / 差异显著 / 已饱和 / 人工对齐四块证据,可折叠展开报告页 details 块

3. 机器学习 / AI 通用

英文中文一句话定义
prompt提示词给 LLM 的输入文本
system prompt系统提示词在用户输入之前注入的背景指令;omk 评测时把整份 SKILL.md 作 system prompt 注入
agent智能体能调工具、多轮执行的 AI
workflow工作流多步骤的 AI 流程编排
skill知识载体(skill)omk 的核心评测对象之一,常以 SKILL.md 形式存在
tool call工具调用LLM 在执行中主动调用的外部函数
turn轮次一次「LLM 输出 + 用户/工具响应」的交互单元
context上下文LLM 在生成时看到的全部历史信息
fingerprint指纹用 SHA-256 前缀(默认 12 位)算的版本哈希,用于跨 run 校验
session trace会话轨迹一次完整 AI 对话的事件流(prompt / 工具调用 / 输出 / 评分),observe 解析的对象

4. omk 三阶段

omk 闭环分三阶段 —— doctor(前置健康检查)→ eval(离线 A/B + verdict)→ observe(生产 trace)—— 合起来覆盖知识评测 + 管理 + 洞察。完整心智模型见三阶段


5. 写作约定

omk 文档(README.zh / docs/zh / SKILL.md / CLI zh 字符串 / PR description)写作时遵循:

  • 业内通用术语英文保留:bootstrap CI / Δ / Pearson / executor / fingerprint 等。强行中文化会显得文章在「翻译外文」。
  • 第一次出现时给中文括注:例如「外验集(holdout set,即 skill 显式没写过的独立验证用例)」,第二次以后用中文。
  • omk 内部命名按 terminology-spec.md:artifact / executor / variant / verdict 等。
  • 特殊翻译规则
    • LLM judge → 评委(不要译作「判官」)
    • sample → 用例(不要用「样本」)
    • composite score → 综合分(不要用「总分」/「合成分」)
    • methodology audit → 测评可信度(不要用「方法学审计」,外行不懂)
  • 标点符号遵循 GB/T 15834:全角 ,。:;!?()「」,破折号 ——(双字符);半角仅限技术混排(代码块、文件路径、命令行、URL、英文术语括注)。