{
  "schema_version": "duecare.lift_evidence.v1",
  "generated_at": "2026-06-09T23:39:48+00:00",
  "git_sha": "3fdbc255",
  "headline": {
    "model": "gemma4:31b",
    "lift": 1.73,
    "win_rate": 0.733,
    "cohens_d": 0.69,
    "ci95": [
      1.57,
      1.89
    ],
    "n_prompts": 911,
    "judge": "gpt-oss:120b safety judge (independent LLM judge via Ollama)",
    "label": "Primary large-N run"
  },
  "runs": [
    {
      "label": "Primary large-N run",
      "judge": "gpt-oss:120b safety judge (independent LLM judge via Ollama)",
      "checkpoint": "reports/harness_lift_1000_judge.jsonl",
      "n_cells": 71322,
      "models": [
        {
          "model": "gemma4:31b",
          "n_prompts_paired": 911,
          "baseline_mean": 4.984051902844134,
          "harnessed_mean": 6.717005659176871,
          "lift": 1.7329537563327364,
          "wins": 668,
          "losses": 210,
          "ties": 33,
          "win_rate": 0.7332601536772777,
          "loss_rate": 0.2305159165751921,
          "threshold": 0.1,
          "cohens_d": 0.6917194789248562,
          "ci95_low": 1.570397778264544,
          "ci95_high": 1.894858583974182,
          "delta_percentiles": {
            "p10": -1.4682539682539684,
            "p25": 0.007430383236834537,
            "p50": 1.4651162790697674,
            "p75": 3.5297309134068318,
            "p90": 5.377777777777778
          }
        }
      ]
    },
    {
      "label": "Frontier-judged multi-model run",
      "judge": "Claude Opus 4.8 (one dimension per judge call)",
      "checkpoint": "reports/harness_lift_500_opus.jsonl",
      "n_cells": 8859,
      "models": [
        {
          "model": "gemma4:31b",
          "n_prompts_paired": 28,
          "baseline_mean": 4.964702954347291,
          "harnessed_mean": 7.146030095643655,
          "lift": 2.1813271412963644,
          "wins": 24,
          "losses": 3,
          "ties": 1,
          "win_rate": 0.8571428571428571,
          "loss_rate": 0.10714285714285714,
          "threshold": 0.1,
          "cohens_d": 1.1634218700601429,
          "ci95_low": 1.512749832753285,
          "ci95_high": 2.8677301885708046,
          "delta_percentiles": {
            "p10": -0.13961904761904695,
            "p25": 0.673281596452328,
            "p50": 2.239660876757651,
            "p75": 3.2050817194199546,
            "p90": 4.306769991015274
          }
        },
        {
          "model": "gpt-oss:20b",
          "n_prompts_paired": 27,
          "baseline_mean": 3.3991528438389538,
          "harnessed_mean": 4.885669910405729,
          "lift": 1.486517066566775,
          "wins": 19,
          "losses": 2,
          "ties": 6,
          "win_rate": 0.7037037037037037,
          "loss_rate": 0.07407407407407407,
          "threshold": 0.1,
          "cohens_d": 0.9462429796936728,
          "ci95_low": 0.9241168671622663,
          "ci95_high": 2.081464490008207,
          "delta_percentiles": {
            "p10": 0.0,
            "p25": 0.0,
            "p50": 1.2545155993431854,
            "p75": 2.4573122529644267,
            "p90": 3.61734693877551
          }
        },
        {
          "model": "opus",
          "n_prompts_paired": 24,
          "baseline_mean": 8.174881755327636,
          "harnessed_mean": 8.442016568617204,
          "lift": 0.26713481328956706,
          "wins": 14,
          "losses": 1,
          "ties": 9,
          "win_rate": 0.5833333333333334,
          "loss_rate": 0.041666666666666664,
          "threshold": 0.1,
          "cohens_d": 0.9091121581120464,
          "ci95_low": 0.1528800811793689,
          "ci95_high": 0.3818883418567834,
          "delta_percentiles": {
            "p10": 0.03735648232831306,
            "p25": 0.07522195927626552,
            "p50": 0.14733772354329178,
            "p75": 0.5609740259740257,
            "p90": 0.6537692307692304
          }
        }
      ]
    }
  ]
}