3

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Perceptio explores perception-enhanced vision-language modeling through spatial token generation for complex 2D and 3D spatial reasoning.

Rethinking Music-Driven Dance Generation in 2D: Long-Horizon Pose Diffusion for Video Synthesis

This work studies music-driven dance video generation with long-horizon pose diffusion, focusing on robust motion synthesis and pose alignment for video generation.