video_avic_v2_0-subset500-20260319-114937

对比 qwen3vl-8b-instruct_baseline_32frame_subset500 与 video_avic_v2_0-subset500-20260319-114937，聚焦两者结论明显分化的案例。

目录 ID：video_avic_v2_0-sub...ne_32frame_subset500 离散题阈值：100.00 开放题分差阈值：20.00 共享样本数：500 生成时间：2026-03-25 05:27 UTC

对比分类

总体增益概览

显著分化案例

133

占共享样本 26.60%

基线整体均分

56.69

方法整体均分

60.65

平均净增益

+3.97

按全部共享样本平均

总净增益

+1030.00

按全部共享样本累计分差求和

题型覆盖

obj_appearance_order: 6object_abs_distance: 40object_counting: 9object_rel_direction_easy: 6object_rel_direction_hard: 12object_rel_direction_medium: 9object_rel_distance: 10object_size_estimation: 24room_size_estimation: 12route_planning: 5

题型	基线对 / 方法错	基线错 / 方法对	分化总数	共享样本数	基线均分	方法均分	平均净增益	总净增益	对最终净增益贡献
obj_appearance_order	2	4	6	60	71.67	75.00	+3.33	+200.00	19.42%
object_abs_distance	20	20	40	81	43.70	44.07	+0.37	+30.00	2.91%
object_counting	3	6	9	55	68.73	69.45	+0.73	+40.00	3.88%
object_rel_direction_easy	4	2	6	21	71.43	61.90	-9.52	-200.00	-19.42%
object_rel_direction_hard	3	9	12	37	27.03	43.24	+16.22	+600.00	58.25%
object_rel_direction_medium	5	4	9	37	45.95	43.24	-2.70	-100.00	-9.71%
object_rel_distance	4	6	10	69	57.97	60.87	+2.90	+200.00	19.42%
object_size_estimation	14	10	24	93	69.46	67.96	-1.51	-140.00	-13.59%
room_size_estimation	6	6	12	28	71.43	67.86	-3.57	-100.00	-9.71%
route_planning	0	5	5	19	26.32	52.63	+26.32	+500.00	48.54%

整体均分与评分汇总 JSON 的 `all_rows.overall` 保持同口径，按题型做宏平均；“总净增益”基于全部共享样本的 `方法分数 - 基线分数` 累计求和。

开放题要求两者分数至少相差 20.00，才会被视为明显分化；多选题仍用正确性阈值判断。

基线缺失样本：0 | 方法缺失样本：0

video_avic_v2_0-subset500-20260319-114937

基线对 / 方法错

基线错 / 方法对

总体增益概览

题型覆盖