案例研究站点

video_avic_v1-subset500-20260318-142842

对比 qwen3vl-8b-instruct_baseline_32frame_subset500_multi_image 与 video_avic_v1-subset500-20260318-142842,聚焦两者结论明显分化的案例。

目录 ID:video_avic_v1-subse...ubset500_multi_image 离散题阈值:100.00 开放题分差阈值:20.00 共享样本数:500 生成时间:2026-03-25 05:27 UTC
对比分类

基线对 / 方法错

基线方法表现明显优于新方法的案例。

52 个案例

对比分类

基线错 / 方法对

新方法表现明显优于基线方法的案例。

57 个案例

总体增益概览

显著分化案例

109

占共享样本 21.80%

基线整体均分

62.62

方法整体均分

63.06

平均净增益

+0.44

按全部共享样本平均

总净增益

+10.00

按全部共享样本累计分差求和

题型覆盖

obj_appearance_order: 2object_abs_distance: 35object_counting: 4object_rel_direction_easy: 2object_rel_direction_hard: 16object_rel_direction_medium: 8object_rel_distance: 10object_size_estimation: 17room_size_estimation: 13route_planning: 2
题型基线对 / 方法错基线错 / 方法对分化总数共享样本数基线均分方法均分平均净增益总净增益对最终净增益贡献
obj_appearance_order1126081.6781.670.000.000.00%
object_abs_distance1421358146.4248.77+2.35+190.001900.00%
object_counting2245572.9173.82+0.91+50.00500.00%
object_rel_direction_easy2022171.4361.90-9.52-200.00-2000.00%
object_rel_direction_hard610163740.5451.35+10.81+400.004000.00%
object_rel_direction_medium4483751.3551.350.000.000.00%
object_rel_distance73106968.1262.32-5.80-400.00-4000.00%
object_size_estimation116179372.9070.75-2.15-200.00-2000.00%
room_size_estimation49132860.0066.07+6.07+170.001700.00%
route_planning1121947.3747.370.000.000.00%

整体均分与评分汇总 JSON 的 `all_rows.overall` 保持同口径,按题型做宏平均;“总净增益”基于全部共享样本的 `方法分数 - 基线分数` 累计求和。

开放题要求两者分数至少相差 20.00,才会被视为明显分化;多选题仍用正确性阈值判断。

基线缺失样本:0 | 方法缺失样本:0