به گزارش حاشیه خبر، پس از آن که DALL-E هوش مصنوعی تبدیل متن به تصویر را تولید کرد، دیگر شرکتها قدمی فراتر برداشته و شروع به ساخت مدلهای تبدیل متن به تصویر متفاوتی کردند.
در حالی که هنوز هم ممکن است نتایج کمی ناقص به نظر برسند، اما چندین مدل هوش مصنوعی وجود دارند که دارای درجه بالایی از کنترل و توانایی تولید فیلم در سبکهای هنری مختلف هستند.
در اینجا شش مدل جدید هوش مصنوعی مناسب تبدیل متن به ویدیو را معرفی میکنیم.
Sora
شرکت OpenAI خالق چتجیپیتی بهتازگی “سورا”، مدل جدید تبدیل متن به ویدیو خود را به نمایش گذاشته است.
این مدل “درکی عمیق از زبان” دارد و میتواند “شخصیتهای قابل قبولی را ایجاد کند که احساسات را بیان میکنند.”
Lumiere
گوگل هوش مصنوعی ویدیویی خود به نام Lumiere را دارد که توسط یک مدل انتشار جدید به نام Space-Time-U-Net طراحی شده است. لومیر مکان اشیاء را در یک ویدیو مشخص میکند و نحوه حرکت و تغییر همزمان آنها را ردیابی میکند.
لومیر هنوز برای کاربران عادی آماده نشده است. اما به مهارت گوگل در ایجاد نیروگاه ویدئویی هوش مصنوعی اشاره میکند که ممکن است از مدلهای عمومی موجود مانند Runway و Pika پیشی بگیرد.
گوگل طی دو سال اخیر جهش فنی در بازی های ویدئویی هوش مصنوعی نیز داشته است.
VideoPoet
VideoPoet یک مدل زبان بزرگ است که بر روی مجموعه داده عظیمی از فیلمها، تصاویر، صدا و متن آموزش داده شده است. این مدل میتواند وظایف مختلف تولید ویدیو را انجام دهد، از تبدیل متن یا تصاویر به ویدیو گرفته تا جذابتر کردن ویدیوها با سبک، رنگآمیزی درونی و بیرونی ویدیو، و ویدیو به صدا.
این مدل بر اساس یک ایده ساده ساخته شده است: تبدیل هر مدل زبان خودبازگشتی به یک سیستم تولید ویدئو.
مدلهای زبان خودبازگشتی میتوانند متن و کد را بطور بینظیری ایجاد کنند. اما وقتی نوبت به ویدیو میرسد، آنها به یک مانع برمیخورند. برای مقابله با آن، VideoPoet از چند واسطه استفاده میکند که میتواند ویدیو، تصویر و کلیپهای صوتی را به زبانی که میفهمد تبدیل کند.
Emu Video
مدل هوش مصنوعی متا شامل دو مرحله است. ابتدا از متن یک عکس میسازد. سپس، از آن متن و تصویر برای ایجاد یک ویدیوی درجه یک استفاده میکند.
نکته جالب اینکه ۸۱ درصد کاربران Emu Video را به Imagen Video Google ترجیح میدهند، ۹۰ درصد آن را به PYOCO NVIDIA ترجیح میدهند و ۹۶ درصد میگویند که بهتر از Make-A-Video خود متا است. نه فقط این، بلکه حتی گزینههای تجاری مانند RunwayML’s Gen2 و Pika Labs را نیز شکست میدهد.
Phenaki
تیم پشتیبان Phenaki Video از Mask GIT برای تولید ویدیوهای هدایتشده متنی در PyTorch استفاده کرد. این مدل میتواند ویدیوهایی با هدایت متن تولید کرده که تا مدت زمان ۲ دقیقهای، بسازد
Phenaki همه کاره است و برای محققان جهت آموزش متن به تصویر و متن به ویدئو باز است. آنها میتوانند با تصاویر شروع کرده و سپس برای آموزش بدون قید و شرط روی تنظیم ویدیو تمرکز کنند.
CogVideo
گروهی از محققان دانشگاه Tsinghua در پکن CogVideo را توسعه دادند که یک مدل تولید متن به ویدئوی از قبل آموزش دیده در مقیاس بزرگ است.
آنها این مدل را با استفاده از یک مدل از پیش آموزش داده شده متن به تصویر به نام CogView2 ساختند تا از آموختههای قبلی خود، استفاده کنند.