查看原文
其他

开工第一天,B站的科技区就炸了?

关注科技的 哔哩哔哩 2024-04-12



2月16日凌晨,龙年还没开工,科技界就公布了一个爆炸性的新闻。


人工智能公司Open AI,发布了一种能够将文字转化为视频的技术——Sora。


这个消息让B站的科技爱好者直呼:“这个年是过不完了。”



Sora是一款人工智能文生视频大模型。


简单来说,操作者只需要输入一段简短的文字,Sora就可以生成一段60秒钟的视频。


比如,向它输入“一位20多岁的年轻人正坐在天空中的一片云上看书”,它就能生成下方的视频。



在消息发布后不到四小时,科技区UP主@赛文乔伊 就迫不及待地与网友们分享了这则消息。


“这可能是近半年最具颠覆性的技术革命,之前的软件只能生成几秒钟运动轨迹很小的视频,但Sora可以创造出不受限制的、真正意义上的视频。”


视频的连续性更强 


由于Sora目前只为一部分艺术家提供了内测权限,为了满足大家的好奇心,有不少UP主将这些测试素材都整理到一起。


比如UP主@xiaolxl 不但收集了素材,还贴心地配上了音乐和测试文案,以供同好们分析。



在这些测试视频中,有一些是无限接近现实,几乎达到纪录片水准的视频。


比如,对着Sora输入“一位老人穿着短袖在南极洲走路”,就可以让一位赛博老人在冰天雪地中闲庭信步。



另外一些则呈现了人类想象中才有的场景。比如用孩童的视角,去观察一列小火车在叶子的静脉上缓缓驶过。


这原本是影视剧中,需要花费大力气才能制作的特效。



Sora还可以模拟出人类操作电脑才会实现的效果,比如用游戏《我的世界》风格去生成一段游戏视频。


有网友说,这不就是白天玩了太多《我的世界》后,我梦里的样子吗?



由于目前Sora生成的视频,已经达到了以假乱真的程度,以至于网友们纷纷猜测,Sora的极限到底在哪里?



于是,另一位科技区UP主@Git源宝 在16号当晚,赶制出了一期关于Sora的科普视频。


在视频中,他回答了大家最关心的三个问题:Sora这么强大的原理是什么?现在它能做什么?还有哪些不足?


其实,Sora之所以独特,是因为Open AI先拆解了大量的视频素材,并将文字与视频做匹配对应,之后又进行了密集的训练,使Sora拥有了自主生成视频的能力。



这就让Sora生成的视频不光场景非常细腻,连人物的表情也与真人无异。


比如,你可以在视频中看到一个女人行走在繁华的东京街头。尽管这个视频有多个人物模型,但每一个人物的行动都拥有惊人的连贯性。



此外,源宝向网友介绍,Sora不仅可以生成视频,还能够从图片中生成动画以及拓展视频,从而创造出多个画面。


假如你提供一张海岸的照片,Sora就可以根据自己的联想和理解能力,用视频呈现出这片海岸会连接着什么样的海,周围有什么样的建筑。



不过,也有不少网友在Sora视频从中发现了端倪。有些视频第一眼看起来很正常,但仔细观察会发现有许多地方根本不符合这个世界的规律。


比如视频中原本三只玩耍的幼狼,利用视觉误差一下子就变成了五只,让人摸不到头脑。



针对于Sora的缺陷,源宝也细心地提供了解释。


一个最明显的问题是,如果Sora需要呈现的场景过于复杂,有时就会忽略掉真实的物理现象。


比如接到“一个老人吹蜡烛”的指令,Sora虽然生成了这个场景,但视频中的火苗却没有丝毫的变化。



不仅如此,Sora也常常会误解事件发生的因果关系。


比如,当你要求它生成一段“盛着红酒的杯子摔到桌子上”的视频,它会同时呈现出酒杯摔碎,以及红酒撒在桌子上。它并没有理解,需要酒杯先破裂才会导致红酒洒落在桌子上。



了解了这些关于Sora的信息,有些网友仍不满足,在评论区频频发问:这对AI界来讲是多大的进步?


对此,AI专业的在读研究生UP主@VictorYuki ,直接找出Sora发布的技术报告原文,为B站网友们上了一堂“AI专业课”。


@VictorYuki 解读到,Sora其实不止是一个视频生成器,它的背后技术是一个世界模拟器。


过去的视频生成器是利用人类已有的素材,根据文字命令去拼贴。Sora却是自己创建了一个模拟的数据世界,在得到文字指令后,根据人类的需求去创作视频。


UP主@AI设计研究室-帆哥 还整理了一份中文报告 


@VictorYuki 解释道,这也是Sora所生成的视频,不受分辨率和尺寸限制的原因。



在理解Sora的技术原理后,网友们在评论区和弹幕中,对Sora未来的应用场景讨论不休。


有网友直接畅想出了一个科幻片般的未来,“游戏全靠AI生成,人类只需要戴上Vision Pro就能直接进入虚拟世界”。



还有的网友放眼行业,认为Sora将会成为影视编剧们的得力助手。


比如,编剧们可以用它来生成先导视频,只需要添加修改词,就可以快速看到作品改编出来的大致效果。



去年今日,ChatGPT横空出世,迅速生成文章,而一年后,Sora就实现了视频的快速创作。


一位B站网友不禁感叹:“小时候还想过,未来会不会有这样一种拍电影的技术,戴上脑机后靠人脑的想象来生成各种各样壮丽恢宏的电影画面,谁知这个现实已经不远了。”





作者. 简杉   编辑. 语境










继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存