video_avic_v1-subset500-20260318-142842

对比 qwen3vl-8b-instruct_baseline_32frame_subset500_multi_image 与 video_avic_v1-subset500-20260318-142842，聚焦两者结论明显分化的案例。

目录 ID：video_avic_v1-subse...ubset500_multi_image 离散题阈值：100.00 开放题分差阈值：20.00 共享样本数：500 生成时间：2026-03-25 05:27 UTC

对比分类

总体增益概览

显著分化案例

109

占共享样本 21.80%

基线整体均分

62.62

方法整体均分

63.06

平均净增益

+0.44

按全部共享样本平均

总净增益

+10.00

按全部共享样本累计分差求和

题型覆盖

obj_appearance_order: 2object_abs_distance: 35object_counting: 4object_rel_direction_easy: 2object_rel_direction_hard: 16object_rel_direction_medium: 8object_rel_distance: 10object_size_estimation: 17room_size_estimation: 13route_planning: 2

题型	基线对 / 方法错	基线错 / 方法对	分化总数	共享样本数	基线均分	方法均分	平均净增益	总净增益	对最终净增益贡献
obj_appearance_order	1	1	2	60	81.67	81.67	0.00	0.00	0.00%
object_abs_distance	14	21	35	81	46.42	48.77	+2.35	+190.00	1900.00%
object_counting	2	2	4	55	72.91	73.82	+0.91	+50.00	500.00%
object_rel_direction_easy	2	0	2	21	71.43	61.90	-9.52	-200.00	-2000.00%
object_rel_direction_hard	6	10	16	37	40.54	51.35	+10.81	+400.00	4000.00%
object_rel_direction_medium	4	4	8	37	51.35	51.35	0.00	0.00	0.00%
object_rel_distance	7	3	10	69	68.12	62.32	-5.80	-400.00	-4000.00%
object_size_estimation	11	6	17	93	72.90	70.75	-2.15	-200.00	-2000.00%
room_size_estimation	4	9	13	28	60.00	66.07	+6.07	+170.00	1700.00%
route_planning	1	1	2	19	47.37	47.37	0.00	0.00	0.00%

整体均分与评分汇总 JSON 的 `all_rows.overall` 保持同口径，按题型做宏平均；“总净增益”基于全部共享样本的 `方法分数 - 基线分数` 累计求和。

开放题要求两者分数至少相差 20.00，才会被视为明显分化；多选题仍用正确性阈值判断。

基线缺失样本：0 | 方法缺失样本：0

video_avic_v1-subset500-20260318-142842

基线对 / 方法错

基线错 / 方法对

总体增益概览

题型覆盖