Sora遇到劲敌!造梦机器爆红:实测效果让东谈主不测

发布日期:2024-06-14 05:09    点击次数:111

Sora遇到劲敌!造梦机器爆红:实测效果让东谈主不测

以前半年,AI 生成视频一直处在断断续续鼓励的现象。在 OpenAI 岁首推出 Sora 时激勉空前洽商之后,堪称国内首个自研视频大模子的 Vidu,以及后续字节、、快手等多家国产厂商推出视频生成模子,皆在频频时激勉外界的关注。就在前几天,雷科技还对快手的视频大模子「可灵」进行了内测体验。

不外,这两天 AI 生成视频照实又火了。

一发布就火,「造梦机器」烧遍应对网罗

6 月 12 日,初创公司 Luma AI 发布了新的 AI 视频生成模子 Dream Machine(造梦机器),何况面向公众洞开测试。很快,不仅官方放出的一系列样片,应对网罗上还出现了一大堆由网友通过「造梦机器」生成的视频。

比如当代作风的样片,它在仙女和猫的呈现效果上水准相称高,尤其是猫的头部和眼部动作。

图片经过压缩,图/ Luma AI

还有玄幻作风的,生成的东谈主物或者物体也照实玄幻,甚而有些克苏鲁的滋味。

此外,「造梦机器」不仅赞成通过文本生成视频,也赞成基于图片和文本生成视频,是以你还能看到从《戴珍珠耳饰的仙女》中跳出的仙女,还有房地产中介可能会心爱的「何如让景不雅图酿澄净不雅视频」。

甚而,有东谈主仍是运行诈欺「造梦机器」创造一个陈诉「一日生涯」的影像故事,包括好意思国中学生从早起到上学再到舞会的描述。

不仅仅用户玩得开,国外和国内媒体也皆珍藏到了「造梦机器」的热度。不外有一说一,有些国内媒体显著吹过了头,什么超越 Sora、比 Sora 更简直畅通,这些咱们先稍后再谈,但「造梦机器」哪来的赞成 120 秒生成视频?

事实上,「造梦机器」只赞成生成 5 秒的视频,官网说的是生成视频需要 120 秒,列队恭候的时辰另说。而要是单独大开官网上的样片,也会发现一律皆是 5 秒(除非有编著)。

图/ Luma AI

这个视频时长,比起国产视频大模子 Vidu 的 16 秒(最近又声称延长到了 32 秒的有声视频)就不必说了,更何况是将 AI 生成视频时长冲突到 60 秒的 Sora。

按照 OpenAI 官方公布的信息,Sora 能够罢了视频时长冲突,主要元勋是其所接受的扩散 Transformer 架构,在 Diffusion 扩散模子的基础上将 U-Net 架构替换成了 Transformer 架构。

「造梦机器」呢?咫尺 Luma AI 公司并未败露具体的情况。

天然,5 秒的视频时长你也不行说太短,因为咫尺大量的视频生成模子也只可生成 5 秒的视频,包括声称不错生成最长 2 分钟的可灵,至少咫尺也只可生成 5 秒的视频。而且咱们也不行只看「视频时长」一个维度,还得看画面的可用性以及使用后劲。

进展惊艳,但内容可靠吗?

坦率地讲,「造梦机器」给小雷的第一印象如故挺惊艳的,领先感受下官方放出的样片。

图片经过压缩,图/ Luma AI

比如这段中,在一个氛围败露着危机的房间,一个执枪的须眉贯注翼翼地前进。

除了东谈主物主体和布景的一致性,最让东谈主讶异的可能是光照的变化。不仅是手枪上显著的光泽反射,在须眉脸上,也不错看到底本诡谲的红光在东谈主物出动经由中,色温渐渐由暖转冷,并与左近光源趋同,包括亮度的变化也恰当基本的物理法例。

还有一段是在一间毁灭的房屋中发生了爆炸,镜头由远及近。诚然如故会出现编造固定的白色棒状物,但在镜头出动的经由,不论是居品的不变,如故气流变化引起的纸屑乱飞,皆称得上恰当直观。

另外「造梦机器」也展现了算作动画创作用具的后劲,比如在一段视频中,镜头从变装正面转向后头,仍是很接近动画创作中的特写镜头。

图片经过压缩,图/ Luma AI

然而,这些终究如故官方「严选」出来的。不论是翰墨、图片如故视频生成模子,官方 Demo 笃定会经过精挑细选找出相对较好的,这少许寰球皆能联结,但从普通用户的角度,很容易代入误以为是模子的平均水平。

在试验网友创作和共享的内容中,即即是在那些相称惊艳的少数作品中,你也能看到或多或少的诞妄。

比如@minchoi 用「造梦机器」创作的好意思仙女视频,好几段皆绝对忘形真东谈主实拍。

图/ X

不外,东谈主物的手如故存在渲染问题,而且东谈主物的面容如故会有一定的变化,在前边提到的《戴珍珠耳饰的仙女》视频中愈加显著。

图片经过压缩,图/ Luma AI

另外,一致性的问题还体咫尺作风上,有的明明是 2D 动画作风,缓缓就运行往 3D 动画的作风转。

图片经过压缩,图/ Luma AI

小雷也试着用「造梦机器」创作了一段视频,Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」试验效果如故比较倒霉的:东谈主物诡异的倒退,在背后拿着伞的歪邪举动,还有飞起来的雨伞。

图片经过压缩,图/ Luma AI

不外如故有一些优点的,比如路面的倒影,布景和东谈主物的一致性。

即便如斯,这些问题说到底如故莫得拦住广漠网友的创作关爱。毕竟比拟 Sora,「造梦机器」至少公开可用,还有每个月 30 次的免费生成契机。而比拟大部分可用的视频生成模子,「造梦机器」在一致性也有显著的跳跃。

而除了免用度户,「造梦机器」咫尺还提供三档付费选项,包括 29.99 好意思元的模范档、99.99 好意思元的专科档以及 499.99 好意思元的高档档,区别是每个月不错生成视频的次数。

图/ Luma AI

对于普通用户来说,这些订价可能有些离谱,但对于那些运行通过「造梦机器」创作视频在 TikTok 上收获的创作家来说,揣摸还在接受范围内。

从 AI 绘制到 AI 视频,大模子再次混战

AI 视频不是从「造梦机器」运行的,天然也不是从 Sora 运行的。事实上早在 2022 年,AI 绘画仍是运行惊艳寰球的时候,AI 视频就运行招引大量的关注。

领先咱们需要回到 2022 年阿谁时辰点,彼时 ChatGPT 还在酝酿(年底才发布),在巨匠眼中,AI 时间发展最快速的范围当属 AI 绘画。

2022 年 4 月,OpenAI 发布了新版块的文本生成图像关节——DALL-E 2,一张由 DALL-E 2 生成的「宇航员在天外骑马」图片运行蹿红应对网罗,让一众画师简直有了「休闲」的担忧。

图/ OpenAI

包括之后的 Midjourney,它们在生成图像方面比拟之前的产品皆有更高的永诀率和更低的蔓延。Stable Diffusion 诚然起步最晚,凭借开源的上风,在用户关注度和使用范围皆超越了 Midjourney 和 DALL-E,在初期的跳跃也最显著。

事实上,其时 AI 绘画仍是运行「侵入」社会的方方面面,不论是获奖的《天外歌剧院》(Midjourney 生成),如故各大公司运行尝试通过 AI 绘画径直生成告白、海报甚而内容作品。

图片不错 AI 生成,视频还会远吗?人所共知,视频实质上就是一帧一帧的图片构成。是以在 2022 年,谷歌和 Meta 其实就运行了一场对于 AI 生成视频的竞争,Meta 有 Make-A-Video,谷歌有 Imagen Video,二者皆是通过文本径直生成视频的视频扩散模子,底层如故 AI 绘图那一套。

图/ Meta

其时,AI 生成视频时长皆不卓绝 5 秒,永诀率也很低,同期画面变化很小,与其说视频,更像是让图片「动一动」。更进击的是,谷歌和 Meta 受限于大公司的身份和惯性,皆莫得选拔洞开给用户以及创作家使用,更多如故运筹帷幄效力的展示,影响范围也基本局限在圈内。

比拟之下,Runway、Synthesia 以及 Pika 等 AI 视频创业公司就显得愈加「机动」。在旧年发布的 Gen-2 上,Runway 不仅校正了视频生成的质地,还增多了 Motion Slider(暴露滑块)、Camera Motion (相机暴露)等功能,把更多视频的收尾权交给用户。

旧年火过一阵的 Pika 亦然一款比较受关注的 AI 视频生成用具,由于较高的画面质地甚而一度被称为「视频版 Midjourney」,同期比拟 Runway Gen-2,Pika 为了确保内容的可控性和扩张性,还更进一步给了创作家更多的收尾权,比如不错细腻到眼部和神色的蓄意生成。

尔后,包括 Stable Diffusion 以及 Midjourney 也皆继续推出了生成视频的版块,让 AI 生成视频插足战国期间。但不论是哪一家,就 AI 生成视频的画面进展来看其实莫得太大的相反,更多是产品层面的相反。

直到 Sora 带着 Transformer 架构出谈即碾压。

大说话模子,在更正 AI 视频生成

Sora 激勉的轰动和洽商可谓有目共睹,甚而有东谈主以为 Sora 将是通往 AGI(通用东谈主工智能)的快车谈。Sora 是否能简直联结物理寰球的运行法例,咱们先放在一边不谈,但不错笃定的是,Sora 透澈更正了 AI 视频生成时间的发展阶梯。

图片经过压缩、编著,图/ OpenAI

Sora 最轰动的时间冲突之一在于其输出的视频时长,当其他家普遍皆只可生成数秒视频的时候,Sora 就将时长冲突了 60 秒。

事实上,包括最新发布的「造梦机器」也只可生成几秒的视频,一朝需要更长的视频,第二次、第三次、第 N 次生成的视频很容易出现变形,导致前后画面相反过大,从而无法使用。

此外,AI 生成视频还普遍存在基于时辰的连贯性问题,但一段对于小狗的 Sora 生成视频中,行东谈主绝对挡住画面之后,小狗依然能保执住连贯性,主体也莫得发生显著的变化。再有就是寰球提过许屡次的「模拟」,能够很好地模拟恰当物理寰球轨则的动作。

而 Sora 的这些上风很猛进度上开端于架构上的中枢区别,是以在 Sora 之后,Transformer 架构与扩散模子相结合的全新时间阶梯很快受到了平日的关注,包括生数科技(联结清华大学)Vidu、爱诗科技 PixVerse、快手可灵也皆选定了这一齐线。

从这个角度来看,诚然 Luma AI 莫得公开「造梦机器」接受的架构设想,但结合在生成视频中进展的一致性和逻辑进展,很难确信「造梦机器」是在纯扩散模子上的产物,不祥率,亦然鉴戒了 Sora 将 Transformer 架构融入扩散模子的作念法。

天然,这也仅仅一种猜想。但对 AI 视频来说,这越来越成为一种势必。

2024年5月20日-6月30日,618年中大促来袭,淘宝天猫、京东、拼多多、抖音、快手、小红书六大电商平台集体“听劝”,取消预售、纵脱杀价!手机数码、AI PC、智能家电、电视、小家电、空冰洗等热点AI硬科技品类磨拳擦掌,战况热烈。雷科技618报谈团将全程关注电商平台最新战况,AI硬科技品牌最新动态,电商行业全新趋势,敬请关注,扫数期待。



热点资讯

相关资讯

Powered by 大庆棵只科贸有限公司 @2013-2022 RSS地图 HTML地图

Copyright 站群 © 2013-2022 本站首页 版权所有