案例研究站点
video_avic_v2_0-subset500-20260319-114937
对比 qwen3vl-8b-instruct_baseline_32frame_subset500 与 video_avic_v2_0-subset500-20260319-114937,聚焦两者结论明显分化的案例。
目录 ID:video_avic_v2_0-sub...ne_32frame_subset500
离散题阈值:100.00
开放题分差阈值:20.00
共享样本数:500
生成时间:2026-03-25 05:27 UTC
对比分类
基线对 / 方法错
基线方法表现明显优于新方法的案例。
61 个案例
对比分类
基线错 / 方法对
新方法表现明显优于基线方法的案例。
72 个案例
总体增益概览
显著分化案例
133
占共享样本 26.60%
基线整体均分
56.69
方法整体均分
60.65
平均净增益
+3.97
按全部共享样本平均
总净增益
+1030.00
按全部共享样本累计分差求和
题型覆盖
obj_appearance_order: 6object_abs_distance: 40object_counting: 9object_rel_direction_easy: 6object_rel_direction_hard: 12object_rel_direction_medium: 9object_rel_distance: 10object_size_estimation: 24room_size_estimation: 12route_planning: 5
| 题型 | 基线对 / 方法错 | 基线错 / 方法对 | 分化总数 | 共享样本数 | 基线均分 | 方法均分 | 平均净增益 | 总净增益 | 对最终净增益贡献 |
|---|---|---|---|---|---|---|---|---|---|
| obj_appearance_order | 2 | 4 | 6 | 60 | 71.67 | 75.00 | +3.33 | +200.00 | 19.42% |
| object_abs_distance | 20 | 20 | 40 | 81 | 43.70 | 44.07 | +0.37 | +30.00 | 2.91% |
| object_counting | 3 | 6 | 9 | 55 | 68.73 | 69.45 | +0.73 | +40.00 | 3.88% |
| object_rel_direction_easy | 4 | 2 | 6 | 21 | 71.43 | 61.90 | -9.52 | -200.00 | -19.42% |
| object_rel_direction_hard | 3 | 9 | 12 | 37 | 27.03 | 43.24 | +16.22 | +600.00 | 58.25% |
| object_rel_direction_medium | 5 | 4 | 9 | 37 | 45.95 | 43.24 | -2.70 | -100.00 | -9.71% |
| object_rel_distance | 4 | 6 | 10 | 69 | 57.97 | 60.87 | +2.90 | +200.00 | 19.42% |
| object_size_estimation | 14 | 10 | 24 | 93 | 69.46 | 67.96 | -1.51 | -140.00 | -13.59% |
| room_size_estimation | 6 | 6 | 12 | 28 | 71.43 | 67.86 | -3.57 | -100.00 | -9.71% |
| route_planning | 0 | 5 | 5 | 19 | 26.32 | 52.63 | +26.32 | +500.00 | 48.54% |
整体均分与评分汇总 JSON 的 `all_rows.overall` 保持同口径,按题型做宏平均;“总净增益”基于全部共享样本的 `方法分数 - 基线分数` 累计求和。
开放题要求两者分数至少相差 20.00,才会被视为明显分化;多选题仍用正确性阈值判断。
基线缺失样本:0 | 方法缺失样本:0