Computer Science > Computer Vision and Pattern Recognition

arXiv:2602.09609 (cs)

[Submitted on 10 Feb 2026 (v1), last revised 23 Feb 2026 (this version, v2)]

Title:Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Abstract:Recent advances in diffusion-based video generation have substantially improved visual fidelity and temporal coherence. However, most existing approaches remain task-specific and rely primarily on textual instructions, limiting their ability to handle multimodal inputs, contextual references, and diverse video generation and editing scenarios within a unified framework. Moreover, many video editing methods depend on carefully engineered pipelines tailored to individual operations, which hinders scalability and composability. In this paper, we propose Tele-Omni, a unified multimodal framework for video generation and editing that follows multimodal instructions, including text, images, and reference videos, within a single model. Tele-Omni leverages pretrained multimodal large language models to parse heterogeneous instructions and infer structured generation or editing intents, while diffusion-based generators perform high-quality video synthesis conditioned on these structured signals. To enable joint training across heterogeneous video tasks, we introduce a task-aware data processing pipeline that unifies multimodal inputs into a structured instruction format while preserving task-specific constraints. Tele-Omni supports a wide range of video-centric tasks, including text-to-video generation, image-to-video generation, first-last-frame video generation, in-context video generation, and in-context video editing. By decoupling instruction parsing from video synthesis and combining it with task-aware data design, Tele-Omni achieves flexible multimodal control while maintaining strong temporal coherence and visual consistency. Experimental results demonstrate that Tele-Omni achieves competitive performance across multiple tasks.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2602.09609 [cs.CV]
	(or arXiv:2602.09609v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2602.09609

Submission history

From: Xiao Cao [view email]
[v1] Tue, 10 Feb 2026 10:01:16 UTC (23,617 KB)
[v2] Mon, 23 Feb 2026 15:14:47 UTC (11,808 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators