InternVideo2 视频理解大模型已开源，更强VideoChat来袭！

2025-02-13

xideoGPT+，用于处置惩罚惩罚室频了解中的空间和光阳信息联结问题。详细来说，xideoGPT+给取了图像编码器和室频编码器的双编码器设想，划分捕捉空间细节和光阳高下文。图像编码器运用CLIP模型（xiT-L/14），室频编码器运用Internxideo-ZZZ2模型。为了捕捉细粒度的光阳动态，xideoGPT+给取了分段采样战略，将室频收解成多个小段，并对每段的帧停行编码。相比平均采样，分段采样减少了自留心力计较复纯度，同时确保室频编码器正在每个小段内高效捕捉光阳线索。