VIMI: Grounding Video Generation through Multi-modal Instruction.

Yuwei Fang Willi Menapace Aliaksandr Siarohin Tsai-Shien Chen Kuan-Chieh Wang Ivan Skorokhodov Graham Neubig Sergey Tulyakov VIMI: Grounding Video Generation through Multi-modal Instruction. 4444-4456 2024 EMNLP https://doi.org/10.18653/v1/2024.emnlp-main.254 https://aclanthology.org/2024.emnlp-main.254 conf/emnlp/2024 db/conf/emnlp/emnlp2024.html#FangMSCWSNT24