案例研究站点
video_avic_v1-subset500-20260318-142842
对比 qwen3vl-8b-instruct_baseline_32frame_subset500_multi_image 与 video_avic_v1-subset500-20260318-142842,聚焦两者结论明显分化的案例。
目录 ID:video_avic_v1-subse...ubset500_multi_image
离散题阈值:100.00
开放题分差阈值:20.00
共享样本数:500
生成时间:2026-03-25 05:27 UTC
对比分类
基线对 / 方法错
基线方法表现明显优于新方法的案例。
52 个案例
对比分类
基线错 / 方法对
新方法表现明显优于基线方法的案例。
57 个案例
总体增益概览
显著分化案例
109
占共享样本 21.80%
基线整体均分
62.62
方法整体均分
63.06
平均净增益
+0.44
按全部共享样本平均
总净增益
+10.00
按全部共享样本累计分差求和
题型覆盖
obj_appearance_order: 2object_abs_distance: 35object_counting: 4object_rel_direction_easy: 2object_rel_direction_hard: 16object_rel_direction_medium: 8object_rel_distance: 10object_size_estimation: 17room_size_estimation: 13route_planning: 2
| 题型 | 基线对 / 方法错 | 基线错 / 方法对 | 分化总数 | 共享样本数 | 基线均分 | 方法均分 | 平均净增益 | 总净增益 | 对最终净增益贡献 |
|---|---|---|---|---|---|---|---|---|---|
| obj_appearance_order | 1 | 1 | 2 | 60 | 81.67 | 81.67 | 0.00 | 0.00 | 0.00% |
| object_abs_distance | 14 | 21 | 35 | 81 | 46.42 | 48.77 | +2.35 | +190.00 | 1900.00% |
| object_counting | 2 | 2 | 4 | 55 | 72.91 | 73.82 | +0.91 | +50.00 | 500.00% |
| object_rel_direction_easy | 2 | 0 | 2 | 21 | 71.43 | 61.90 | -9.52 | -200.00 | -2000.00% |
| object_rel_direction_hard | 6 | 10 | 16 | 37 | 40.54 | 51.35 | +10.81 | +400.00 | 4000.00% |
| object_rel_direction_medium | 4 | 4 | 8 | 37 | 51.35 | 51.35 | 0.00 | 0.00 | 0.00% |
| object_rel_distance | 7 | 3 | 10 | 69 | 68.12 | 62.32 | -5.80 | -400.00 | -4000.00% |
| object_size_estimation | 11 | 6 | 17 | 93 | 72.90 | 70.75 | -2.15 | -200.00 | -2000.00% |
| room_size_estimation | 4 | 9 | 13 | 28 | 60.00 | 66.07 | +6.07 | +170.00 | 1700.00% |
| route_planning | 1 | 1 | 2 | 19 | 47.37 | 47.37 | 0.00 | 0.00 | 0.00% |
整体均分与评分汇总 JSON 的 `all_rows.overall` 保持同口径,按题型做宏平均;“总净增益”基于全部共享样本的 `方法分数 - 基线分数` 累计求和。
开放题要求两者分数至少相差 20.00,才会被视为明显分化;多选题仍用正确性阈值判断。
基线缺失样本:0 | 方法缺失样本:0