-
OpenAI炸裂的Sora背后:奥特曼清单法
本文来自微信公众号: 孤独大脑(ID:lonelybrain) ,作者:老喻,题图来自:视觉中国 一 那些正在改变世界的事情,正在加速发生。 OpenAI刚刚发布了 Sora,一种文字生成视频的技术,效果相当震撼。请看下面的视频: 如此逼真的视频,仅需如下一段提示词: “一位时尚的女士在充满温暖发光的霓虹灯和动画城市标志的东京街道上行走。她穿着黑色皮夹克,一条长红裙和黑色靴子,背着黑色手提包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿而具有反射性,营造出五光十色灯光的镜面效果。许多行人在四处走动。” 这款名为Sora的新视频生成模型,能够根据文本指令创建现实和富有想象力的场景。用户可以基于编写的提示词,创建长达一分钟的栩栩如生的视频。 Sora能创建包含多个角色、特定动作、主题和背景细节的复杂场景。 该模型理解物体在物理世界中的存在,能准确解释道具,并生成表情丰富的角色。它还能基于静态图像生成视频,填充或扩展现有视频的帧。 在我看来,AI对人类世界的改变有两个方向: 1. 改变物理世界:协助科学家在人类生物、能源、医疗、新材料等方面实现科技突破; 2. 构建虚拟世界:大量生成文本、图像和视频内容,并以数字机器人形态服务于虚拟世界。 同样,我继续表达“教育是AI的最佳应用场景”的观点: Sora等视频生成技术,将令优质教育资源的成本大幅降低; 仿真的沉浸式教学空间可以被大规模提供,令学生在身临其境的场景中展开项目式学习; 一对一的“硅基生物”老师已经完全具备了“碳基生物”老师的鲜活和“温度”; …… 二 让我们回来,看看改变世界的技术背后,那些开创者们的具体思考和行为。 这两年,愈发感受到硅谷创业者们不分老少,对AI等技术充满了信仰般的痴迷。 另一方面,则是工程师式的务实和坚韧。 只有如此,技术的梦想才能落地。 OpenAI的创始人奥特曼,几年前曾经写过一篇文章《如何提高工作效率》,颇有启发。 其中,奥特曼的清单法,也许对每个努力工作的人,都有可借鉴之处。 分享如下: 1. 生产率 我认为我的工作效率至少比平均水平高一些,人们有时会向我询问提高工作效率的秘诀。所以我决定把它们全部写在一个地方。复合增长作为一个财务概念被讨论,但它也适用于职业,而且它很神奇。在 50 年的时间里,生产率的小幅提高是非常值得的。因此,有必要弄清楚如何优化生产力。 如果你每天比别人多做 10%,进步 1%,复合 (增长) 的差异是巨大的。 2. 你在做什么 如果它朝着毫无价值的方向前进,那么你移动多快都没有关系。选择正确的工作是生产力最重要的因素,通常几乎被忽略。所以多想想吧!独立思考很难,但你可以通过练习变得更好。 我认识的最令人印象深刻的人对世界有着强烈的信念,这在普通人群中是很少见的。 如果你发现自己总是同意你最后一次交谈的人,那就不好了。 有时你当然会错,但要培养坚持自己信念的信心。当您在大多数人看不到的重要事情上是正确的时,它会让您变得勇敢。 我确保在我的日程安排中留出足够的时间来考虑要做什么。对我来说,最好的方法是读书、和有趣的人一起出去玩,以及花时间在大自然中。 我了解到,在我不关心或不喜欢的事情上,我的工作效率不会很高。所以我只是尽量不让自己处于必须做这些事情的境地(通过委派、避免或其他方式)。你不喜欢的东西会严重拖累士气和动力。 顺便说一句,这里有一个关于委派的重要教训:记住其他人在做自己喜欢的事情时也是最有效率的,并且做你希望别人为你做的事情——试着找出谁喜欢( 并且擅长)做什么,并以那种方式授权。 如果你发现自己在很长一段时间内都不喜欢自己所做的事情,请认真考虑换一份工作。短期的倦怠会发生,但如果休息一段时间后还没有解决,也许是时候做一些你更感兴趣的事情了。 我很幸运能找到我非常喜欢的工作,我愿意免费做,这让我很容易真正有效率。 重要的是要知道你可以学到任何你想学的东西,而且你可以很快变得更好。最初几次,这感觉像是一个不太可能发生的奇迹,但最终你学会相信自己可以做到。 出色的工作通常需要某种同事。 试着和聪明、多产、快乐、积极的人在一起,他们不会贬低你的抱负。 我喜欢和那些推动我并激励我变得更好的人在一起。 在你力所能及的范围内,避开相反类型的人——让他们占用你的思维周期的代价是可怕的。 你必须选择正确的问题并完成工作。没有多少捷径。如果你要做一些非常重要的事情,你很可能会既聪明又努力地工作。 最大的奖项竞争激烈。并非在每个领域都是如此(有些伟大的数学家从来没有每周花那么多小时工作),但在大多数领域都是如此。 3. 优先次序 我的系统有三个关键支柱: a. “确保完成重要的事情”; b. “不要把时间浪费在愚蠢的事情上”; c. “列很多清单”。 我强烈推荐使用列表。我列出了我每年、每月和每天想要完成的事情。列表非常有针对性,它们帮助我处理多项任务,因为我不必在脑海中保留那么多。 如果我没有心情完成某项特定任务,我总能找到其他让我兴奋的事情。 我更喜欢写在纸上的清单。添加和删除任务很容易。我可以在会议期间访问它们而不会感到粗鲁。我经常重新抄写列表,这迫使我考虑列表中的所有内容,并让我有机会添加和删除项目。 我不会为分类或尝试调整任务大小或类似的事情而烦恼(我所做的最多就是在真正重要的项目旁边放一个星号)。 我尝试以产生动力的方式确定优先顺序。我完成的越多,我的感觉就越好,然后我就完成得越多。我喜欢在每一天开始和结束时做一些我能真正取得进步的事情。 我坚持不懈地完成我最重要的项目——我发现如果我真的想要某事发生并且我努力推动,它通常会发生。 我尽量无情地拒绝某些东西,并以尽可能快的方式做非关键的事情。我可能太过分了——例如,我几乎可以肯定我在回复电子邮件时简洁到粗鲁的地步。 我通常尽量避免参加会议,因为我发现时间成本很高——我在办公室的时间得到了最大的价值。然而,在您的日程表中留出足够的空间以允许偶遇和接触新的人和想法是至关重要的。 拥有一个开放的网络是有价值的。 虽然我参加的随机会议中可能有 90% 是浪费时间,但另外 10% 确实弥补了它。 我发现大多数会议最好安排在 15-20 分钟或 2 小时内。默认的 1 小时通常是错误的,会导致大量时间浪费。 我每天有不同的时间尝试用于不同类型的工作。早上的前几个小时绝对是我一天中最有效率的时间,所以那时我不会让任何人安排任何事情。 我尽量在下午开会。每当我觉得自己的注意力开始减弱时,我就会休息一下或转换任务。 我认为大多数人都没有足够重视他们的时间——令我惊讶的是,我认识的许多人每小时赚 100 美元,但他们会花几个小时做他们不想做的事情以节省 20 美元。 另外,不要陷入关于生产力的陷阱——为了自身的利益而追求生产力是没有帮助的。许多人花太多时间思考如何完美优化他们的系统,而没有足够多地询问他们是否在处理正确的问题。 无论您使用什么系统,或者如果您正在做错误的事情,您是否每秒都在挤出时间,这并不重要。正确的目标是最佳地分配你的一年,而不是你的一天。 4. 物理因素 很可能对我而言最佳的对您而言并非最佳。您必须通过实验找出最适合您身体的方法。这绝对值得一做——它对生活的方方面面都有帮助,你会感觉更好、更快乐。 在过去的几年里,我可能每周都会花一点时间来找到最适合我的东西,但我的感觉是,如果我在以下所有方面都做得很好,我的工作效率至少比不这样做的情况高 1.5 倍。 对我来说,睡眠似乎是影响生产力的最重要的物理因素。某种睡眠追踪器可以帮助您了解如何睡得最好。 我喜欢寒冷、黑暗、安静的房间和一张很棒的床垫(我多年来一直拒绝花一大笔钱买一张很棒的床垫,这是愚蠢的——它对我的睡眠质量产生了巨大的影响。我喜欢这个)。 旅行时,我使用眼罩和耳塞。 这可能会引起争议,但每当我无法入睡时,我都会服用低剂量的安眠药(如正常剂量的三分之一)或极低剂量的XX。总的来说,我睡不好,旅行时睡得特别不好。它可能需要权衡取舍,但睡眠不好也是如此。如果你已经睡得很好,我不会推荐这个。 锻炼可能是第二重要的身体因素。 我尝试了几个月的许多不同的锻炼计划,似乎最好的是每周举重 3 次,持续一小时,偶尔进行高强度间歇训练。除了提高工作效率外,这也是让我整体感觉最好的锻炼计划。 第三个领域是营养。 我很少吃早餐,所以大多数日子我禁食大约 15 小时(除了我醒来时喝一杯浓缩咖啡)。我知道这与大多数建议相反,我怀疑这对大多数人来说都不是最佳选择,但它对我来说绝对有效。 吃太多糖是让我感觉最糟糕的事情,也是我最努力避免的事情。我也尽量避免吃会加重消化或加剧炎症的食物(例如,非常辛辣的食物)。说到甜食,我没有太多的意志力,所以我大多只是尽量把垃圾食品拒之门外。…
-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
如果你对大模型感兴趣,想了解相关的前沿研究进展, 欢迎扫码入群~ 来源:机器之心 编辑:泽南、蛋酱 至此已成艺术的 Sora,是从哪条技术路线发展出来的? 最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。 不过当 OpenAI 出手发布 Sora 之后,我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。 Sora 生成的视频,美国西部的淘金时代。感觉加上个解说和背景音乐就可以直接用在专题片里了。 在 Sora 及其技术报告推出后,我们看到了长达 60 秒,高清晰度且画面可控、能多角度切换的高水平效果。在背后的技术上,研究人员训练了一个基于 Diffusion Transformer(DiT)思路的新模型,其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作。 正如华为诺亚方舟实验室首席科学家刘群博士所言,Sora 展现了生成式模型的潜力(特别是多模态生成方面)显然还很大。加入预测模块是正确的方向。至于未来发展,还有很多需要我们探索,现在还没有像 Transformer 之于 NLP 领域那样的统一方法。 想要探求未来的路怎么走,我们或许可以先思考一下之前的路是怎么走过的。那么,Sora 是如何被 OpenAI 发掘出来的? 从 OpenAI 的技术报告末尾可知,相比去年 GPT-4 长篇幅的作者名单,Sora 的作者团队更简洁一些,需要点明的仅有 13 位成员: 这些参与者中,已知的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。这些成员的信息也成为了众人关注的焦点。 比如,Sora 的共同领导者 Tim Brooks,博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。 在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型。 另一位共同领导者 William (Bill) Peebles 也来自于 UC Berkeley,他在 2023 年刚刚获得博士学位,同样也是 Alyosha Efros 的学生。在本科时,Peebles 就读于麻省理工,师从 Antonio Torralba。 值得注意的是,Peebles 等人的一篇论文被认为是这次 Sora 背后的重要技术基础之一。 论文《Scalable diffusion models with transformers》,一看名字就和 Sora 的理念很有关联,该论文入选了计算机视觉顶会 ICCV 2023。 论文链接:https://arxiv.org/abs/2212.09748 不过,这项研究在发表的过程还遇到了一些坎坷。上周五 Sora 发布时,图灵奖获得者、Meta 首席科学家 Yann LeCun 第一时间发推表示:该研究是我的同事谢赛宁和前学生…
-
Sora会对视频内容创作产生什么样的影响?
本文来自微信公众号: 互联网怪盗团 (ID:TMTphantom) ,作者:怪盗团团长裴培,题图来自:视觉中国 OpenAI的文生视频(text-to-video)AI模型Sora已经发布,并且引发了如洪水一般的新闻报道和评论。我不是AI技术专家,相信大家也早已通过其他渠道了解了Sora的技术细节。我只是想从内容创作者的角度谈一谈:Sora会对视频内容(包括短视频、中长视频和工业化影视内容)产生什么样的影响? 在我的朋友圈里,大家的观点是复杂的——有些人觉得Sora要革影视行业的命,甚至把视频内容带入“零基础创作”时代;有些人则认为Sora的实用价值还值得怀疑,尤其是不具备创作者所必须的“灵魂”。其实,上述观点都有道理,关键看怎么定义“内容创作”。 回顾历史,我们会发现,互联网发展的历程就是内容创作不断重新洗牌的历程,各种体裁、各种主题、各种工业标准的内容一直在此消彼长,“变”是常态,“不变”才不正常。AIGC的深入发展(包括但不限于Sora),将促使洗牌过程向更有利于多样性的方向发展。我们不妨使用一个高度简化的分析模型,将互联网原生内容创作者的能力划分为两个方向。 热点敏感性,也就是追逐热点、热梗的能力。毫无疑问,在任何一个时间点,社交媒体的大部分流量集中于极少数热点题材。能否把握热点题材,决定了创作者的短期爆发力,用更时髦的话讲就是“出圈能力”。 内容调性,也就是内容的特殊性、不可复制性。有些创作者的内容,让人过目不忘,带着鲜明的个性烙印,任何竞争对手都无法模仿。是否具备足够的、不可替代的调性,决定了创作者的长跑能力,或曰“可持续性”“粉丝黏性”。 强大的创作者无疑应该在两项能力上都获得高分,从而达到“既有爆发力又有长跑能力”的全能性,这是成为头部创作者的最高效的途径。2017~2018年的抖音、2019~2020年的B站都曾经涌现出一批这样的创作者,左手抓热点、右手深挖内容调性,从而在一夜之间跃居“全网顶流”之列(具体的例子就不举了)。这样的幸运儿不多见,但是每隔一段时间就会出现一些,他们是其他内容创作者梦寐以求的标杆。 如果一位创作者不具备抓热点的能力(或者不乐意这么做),那么他的最佳发展方向就是做一个优质垂类内容方,吸引符合自身调性的粉丝,依靠粉丝的口碑效应实现“慢热出圈”。这条道路最典型的例子莫过于罗翔:在多年的司法考试授课过程中,他以深入浅出和幽默风趣的调性逐渐积累了大批“自来粉”,最终依靠粉丝的自发传播实现了“出圈”。严格地说,多年前的罗永浩也算得上一个。一般而言,只要坚持足够长的时间,垂类内容方总归能迎来量变到质变的时刻,但是大部分人往往坚持不下去。 与此相对立的则是那些只会抓热点、不具备调性的创作者,他们的生存之道就是“下手快”,依靠千方百计地“蹭热点”乃至模仿抄袭,尽快完成“出圈”。这种创作者的生命周期一般很短,在瞬时爆发之后就陷入了沉寂,做的是“过把瘾就死”的短线生意。尤其是在短视频领域,MCN等专业机构经常会批量孵化此类账号,希望其中极少数能爆红,至于那些未能爆红的则沦为“炮灰”。 网生内容创作者的四个象限 很多用户会哀叹:“互联网社交媒体充斥着快餐内容,短视频、直播更是集快餐内容之大成,完全没有让人静下心来体验的干货!”可是这样的哀叹并不正确。或许网生内容的绝大部分确实是毫无调性和深度的“炮灰”,就像一瓶酒的大部分成分是水,但我们也不能因此得出“酒就是水”的结论。 事实上,只有在社交媒体时代,垂直、小众内容才第一次获得了稳定的输出渠道,从而赢得了被更多人看见的可能性。数以万计的“中腰部”垂类创作者,到了移动互联网时代才真正走上内容创作道路。如果一定要在“以前的时代”和“社交媒体时代”之间做出选择,我相信,绝大部分创作者会选择后者而非前者。 那么问题来了:Sora的诞生(及其掀起的生成式AI持续进化的浪潮),会更有利于上面哪一类创作者呢?我觉得答案非常明显——AIGC会有利于那些以内容调性取胜、“慢热出圈”的垂类内容方,不利于那些以抓热点取胜、“昙花一现”的跟风内容方。因为在AIGC时代,“抓热点”的门槛将越来越低,从而不再是内容方的一项核心竞争力。所以,“内容调性”的重要性就进一步攀升了,甚至可能成为取胜的唯一一张王牌。 不要误会,无论到什么时候,“热点话题”总是会此起彼伏地产生,也需要有创作者覆盖。然而,在比拼速度方面,人类创作者无论怎么努力也比不过AI。在文本新闻领域,AI的速度优势已经明显体现出来了:早在ChatGPT诞生之前,从财经到体育,从娱乐八卦到社会新闻,大量的“突发性事件”在第一时间的报道就是由“AI写手”自动撰写的;在ChatGPT大范围投入使用之后,几乎所有的突发事件报道都可以由AI进行了。 平时炒股的人可能对此有更深的体会——打开任何一个股票信息软件,无论是突发的财经新闻还是财报的即时解读,由AI撰写的比例均呈不断上升的态势;专业分析师和评论员正在退出这些“比拼手速”的即时信息工作,把精力集中到需要高度逻辑分析能力的深度解读上。 Sora的诞生,意味着上述趋势正式蔓延到了视频领域。假以时日,上述趋势会延伸到一切体裁、一切类型的内容上:对于热点话题的“时效性覆盖”将主要是AI的任务,比拼的主要是AIGC的效率,很难有人玩出与众不同的花样。目前在国内,已经有电商服务机构向带货主播推出“AI根据热梗自动撰写视频脚本”的服务,哪怕主播对这个热梗毫不了解,也可以依靠AIGC跟上潮流。可以想象,今后对热点话题的竞争将趋于高度同质化;经济学原理告诉我们,高度同质化的市场总是会走向供大于求,从而导致“抓热点”性质的内容严重过剩,以此为核心竞争力的内容方大部分将被淘汰出局。 而对那些以“调性”为核心竞争力的内容方而言,AIGC却可以成为一种强大的新武器。互联网用户仍然有追逐热点的天性,不过他们今后更需要的不是时效性内容,而是有特色的演绎或者有深度的解读。足球爱好者对此肯定深有体会:在资讯匮乏的年代,大家对足球媒体的首要诉求是快速全面的新闻覆盖;到了资讯极端发达的今天,新闻覆盖早已泛滥,大家的诉求转移到了对赛事的深度分析,以及带有互动性、趣味性的节目上面。优质的垂类创作者完全可以与AI达成分工:前者负责有调性的部分,即所谓“灵光一闪”;后者负责不需要调性的部分,即重复劳动——按照内容产业的黑话,可以称之为“行活儿”。 AI是一种工具,一种由人类创造、帮助人类解决问题的技术手段。从目前的形势看,只要AI不产生自我意识,它就不会具备所谓“原创性”,而仅仅是对人类现有知识的收集和整理——即使ChatGPT这样高级的生成式AI也不例外。OpenAI已经公布了Sora的技术细节,可以看到,其技术路线继承了此前公开的DALL-E文生图模型,虽然有一定程度的创新,但并非颠覆性的。显然,至少在当前的环境下,Sora不太可能产生真正的“原创性”,其产生视频的效率和感染力仍然高度依赖于个人用户的“调教”。 所以,与此前的一切生成式AI大模型一样,Sora在内容创作中的角色更接近MOBA游戏中的辅助:帮助C位更好地发挥自己的特点,让C位心无旁骛地输出,而不是自己代替C位去输出。强大的C位玩家借助强大的辅助可以如虎添翼,而不合格的C位玩家有了强大的辅助也很难翻盘。就以刚提到的“AI根据热梗自动撰写视频脚本”功能来说,有调性的创作者可以在此基础上进行修改,使之符合自己的调性,事半功倍地创作出优质内容;缺乏调性的创作者恐怕只能用它生产千篇一律的“垃圾”。 至此,我们可以得出一个结论——内容产业“强者恒强”的趋势,在AIGC时代会持续下去,只是其含义更加复杂,超过了“马太效应”的范畴:头部内容方当然会继续强大、继续享受时代的红利,但具备强大调性的垂类内容方也能享受时代的红利;对于这两者而言,未来二十年将是最好的时代。对于其他内容方而言,却将迎来最坏的时代。Sora再次确认了上面的趋势。 当然,在AI技术日新月异的今天,一切变化都可能发生,一切梦想或噩梦都有可能成真。如果经过一段时间之后,本文的观点被证伪了(或者部分证伪),那也是再正常不过的事情。能够生活在一个AIGC觉醒的年代,无论作为旁观者还是参与者,我们都是幸福的。重要的是对未来做出力所能及的思考和分析,至于其对错则不是特别重要。 本文来自微信公众号: 互联网怪盗团 (ID:TMTphantom) ,作者:怪盗团团长裴培 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End
-
Sora背后团队:应届博士带队,00后入列,还专门招了艺术生
本文来自微信公众号: 量子位(ID:QbitAI) ,作者:克雷西、鱼羊,题图来自:视觉中国 现在世界上最受关注的技术团队是哪一支? Sora团队,已经来到聚光灯中心。 不仅项目负责人评论区被挤爆,成了最火“景点”。 天才成员们的履历,也正在持续引爆关注。 来自 微博博主@ 木遥 大家伙发现,这支团队挺年轻: 两位负责人都是在去年 (2023年) 刚刚博士毕业 ,团队里甚至还有00后选手…… 但也是真的牛:Tim Brooks,DALL-E 3作者之一,GitHub 5.7k️项目InstructPix2Pix的作者,2021-2022年在英伟达实习时,就是视频生成研究的项目负责人。 William (Bill) Peebles,和谢赛宁合作,搞出了Sora的技术基础之一DiT(扩散Transformer)。论文还曾入围CVPR 2022最佳论文候选。 这支团队到底什么来头,咱们今天一起仔细聊聊。 应届博士带队 包括Tim和Bill在内,Sora的主要负责人一共有三名(以下排名不分先后)。 Tim Brooks,也是DALL-E 3的作者,去年1月刚从加州大学伯克利分校博士毕业。 Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。 2017年,本科毕业的Tim先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。 在伯克利读博期间,Tim的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。 回到校园后,Tim与导师Alexei Efros教授、同组博士后Aleksander Holynski(现在谷歌工作)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR 2023 Highlight。 去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E 3和Sora的工作。 值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。 据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项…… 而与Tim师出同门、晚毕业4个月的William Peebles,也是Sora的另一名负责人。 (Peebles在上用昵称Bill,在Linkedin上及论文署名时用大名William,下文一律用Bill指代。) Bill本科就读于MIT,主修计算机科学,参加了GAN和text2video的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。 毕业后正式开始读博之前,他还参加了Adobe的暑期实习,研究的依然是GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是Efros教授学生,现在在MIT)组有合作,并成为CVPR 2022最佳论文候选。 之后,学期开始,Bill到了伯克利Efros教授课题组攻读博士,研究成果多次入选SIGGRAPH、ICCV、CVPR等学术会议。 2022年5月,Bill到Meta进行了为期半年的实习,和谢赛宁(Bill开始实习时还未离开Meta)合作发表了DiT模型,首次将Transformer与扩散模型结合到了一起。 该成果被ICCV 2023录用为Oral论文。值得一提的是,OpenAI此次发布的Sora,被认为正是基于DiT构建的。 去年5月,Bill也从伯克利毕业,并入职OpenAI。 除了这两位去年加入的研究者,Sora团队的另一位负责人Aditya Ramesh则是OpenAI的“老人”。 Aditya是DALL-E的创造者,主导了三代DALL-E的研究,三个版本的论文当中他都是一作。 而这样一位主导三代DALL-E,如今又领导Sora团队的大神,却只有本科学历。 据LeCun介绍,Aditya本科就读于纽约大学,并在他的实验室参与过一些项目。 其间,Aditya就已经在研究生成式模型,并和LeCun共同发表论文。 毕业之后,Aditya本想继续深造,但在OpenAI的暑期实习中被留了下来,成为了正式研究人员。 00后已加入 Sora团队的本科生,还不止Aditya Ramesh一位。 前文提到,这支团队中有一位“00后”Will DePue,就是2022年才刚从密西根大学计算机系本科毕业的。 这位小哥大四的时候创业搞了个市场咨询公司DeepResearch,这家公司后来被Commsor收购。 2023年7月,小哥加入OpenAI。根据他的领英信息,他是在今年1月才刚刚加入Sora项目组的。 另外,David Schnurr和Joe Taylor也都没有博士学位。前者毕业于加州大学圣塔芭芭拉分校,后者毕业于美国旧金山艺术大学。 而正如Aditya Ramesh自己所说,Sora团队的不少成员都是DALL-E 3的作者。 包括两位华人Li Jing和Yufei Guo。 Li Jing是DALL-E 3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位。在Meta做了2年多博士后之后,Li Jing于2022年加入OpenAI。 华人作者中还有Ricky Wang,今年一月刚刚从Meta/Instagram跳槽到OpenAI,另外两位Yufei Guo、Clarence Ng没有太多公开资料。 新跳槽来的还有Conner Holmes,他在微软工作时以外援形式参与了DALL·E 3的推理优化工作,后来干脆加入OpenAI了。 最后,来看一眼完整作者名单: 从团队的组建情况和研究基础来看,Sora应该是OpenAI近半年来的最新成果,而非网传“早已有之但憋着不发”。 不过,Sora炸场,顶级人才又持续星聚,还是惊得众人开始重新考量OpenAI的技术领先性。 就在今天,作者释出的Sora新作,连“同一场景”下的多机位视频都整出来了。 图:Twitter@billpeeb 现在是视频生成,下一个又会是什么? 参考链接: [1] https://www.wpeebles.com/ [2] https://www.timothybrooks.com/about/ [3]http://adityaramesh.com/about.html 本文来自微信公众号: 量子位(ID:QbitAI) ,作者:克雷西、鱼羊 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End
-
Sora涌现,OpenAI又一次暴力美学的胜利|甲子光年
将 Scaling Law 进行到底。 作者|赵健 年前的 1 月 27 日,「甲子光年」参加了一场 AI 生成视频主题的沙龙,会上有一个有趣的互动:AI 视频生成多快迎来 “Midjourney 时刻”? 选项分别是半年内、一年内、1-2 年或更长。 昨天,OpenAI 公布了准确答案:20 天。 OpenAI 昨天发布了全新的 AI 生成视频模型 Sora,凭借肉眼可见的性能优势与长达 60s 的视频生成时长,继文本 (GPT-4) 和图像 (DALL·E 3) 之后,也在视频生成领域取得了“遥遥领先”。我们距离 AGI (通用人工智能) 又近了一步。 值得一提的是,明星 AI 公司 Stability AI 昨天原本发布了一个新的视频模型 SVD1.1,但由于与 Sora 撞车,其官方推文已被火速删除。 AI 视频生成的领头羊之一 Runway 的联合创始人、CEO Cristóbal Valenzuela 发推文表示:“比赛开始了 (game on) 。” OpenAI 昨天还发布了一份技术文档,但无论从模型架构还是训练方法,都未发布什么天才级的创新技术,更多是现有技术路线的优化。 但跟一年多以前横空出世的 ChatGPT 一样,OpenAI 的秘诀都是屡试不爽的 Scaling Law (缩放定律) ——当视频模型足够“大”,就会产生智能涌现的能力。 问题在于,大模型训练的“暴力美学”几乎已经人尽皆知,为什么这次又是 OpenAI ? 1.数据的秘密:从 token 到 patch AI 生成视频的技术路线主要经历了四个阶段:循环网络 (recurrent networks,RNN) 、生成对抗网络 (generative adversarial networ ks,GAN) 、自回归模型 (autoregressive transformers) 、扩散模型 (diffusion models) 。 今天,领先的视频模型大多数是扩散模型,比如 Runway、Pika 等。自回归模型由于更好的多模态能力与扩展性也成为热门的研究方向,比如谷歌在 2023 年 12 月发布的 VideoPoet。 Sora 则是一种新的 diffusion transformer 模型。从名字就可以看出,它融合了扩散模型与自回归模型的双重特性。Diffusion transformer 架构由加利福尼亚大学伯克利分校的 William Peebles 与纽约大学的 Saining Xie 在 2023…
-
Sora如何降维打击其他文生视频大模型?记者实测对比→
Sora不仅体现了提示词中的全部细节,而且还很好保持了人物的连贯性,使得该视频几乎可以“以假乱真”。 当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,另外该视频中的背景广告牌虽然酷似日文,但却是似是而非的“日文”。 全文3039字,阅读约需8分钟 新京报贝壳财经记者 罗亦丹 编辑 岳彩周 校对 卢茜 OpenAI的文生视频大模型Sora已经发布几日,其冲击力依然不减。 2月18日,新京报贝壳财经记者进行了Sora与其他文生视频大模型的对比测试,发现Sora在时间和视频生成质量上均对“同行”产生了“降维打击”:其他文生视频大模型仅能生成3至4秒的视频,而Sora生成的视频时间最多可达1分钟,且景物也更加清晰稳定、符合描述。 不过,随着越来越多使用Sora制作的视频出现以及部分技术细节的公开,业界开始对其进行全方位审视,其中,赞扬和惊叹声不少,但Sora生成的视频也被发现存在诸多不合理之处。 ━━━━━ 文生视频对比实测: Sora从“动图”升级到“短片” “一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的,创造了一个五颜六色的灯的镜面效果。许多行人走来走去。”这是OpenAI官网介绍Sora时,出现的第一组提示词。 在OpenAI推出Sora之前,文生视频领域的创业公司主要包括Pika、Runway等,为了验证Sora的能力,新京报贝壳财经记者将上述同样的提示词输入Pika文生视频模型,以及Runway旗下的Gen-2video文生视频模型进行了实测。 ▲在相同提示词下,新京报贝壳财经记者使用Pika生成的视频截图。 ▲在相同提示词下,新京报贝壳财经记者使用runway旗下Gen-2video生成的视频截图。 ▲OpenAI官网上Sora生成的视频。 贝壳财经记者发现,在相同的提示词下,Pika仅能生成3秒的视频,Gen-2video则可以生成4秒的视频。其中,Pika的视频为“时髦女人”的背影,无法体现她“戴着太阳镜,涂着红色的口红”的描述,不过对于提示词中“潮湿反光的街道和五颜六色灯的镜面效果”体现得较好,但整体上视频较为模糊。 Gen-2video则跳出了“无法输入这么多提示词”的弹窗,并根据能够输入的部分生成了一个4秒的视频,该视频相比Pika显然精细很多,也符合提示词描述的人物形象,包括“街道、人群、黑钱包”等。 但可以发现,无论是Pika还是Gen-2video,都忽略了“一件红色的长裙”这个细节,且贝壳财经记者通过观看视频发现,这两段视频仍能看出AI生成的影子,特别是Gen-2video的人物脸部,有细微的形变,这正是AI生成视频的特点之一:难以始终保持同一人物的连贯性。 而Sora不仅体现了提示词中的全部细节,而且还很好地保持了人物的连贯性,使得该视频几乎可以“以假乱真”。当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,以及该视频中的背景广告牌虽然酷似日文,但由于目前AI还无法直接在视频中“认识”文字,其只能生成似是而非的“日文”,这都是AI生成视频的特点之一。 但即便如此,Sora还是用事实显现出了同其他文生视频大模型的代差。 在谷歌和推特都有从业经历的AI创业者Gabor Cselle也发布了使用相同提示词,在其他四个文生视频模型中“复现”Sora“穿过下雪、樱花飞舞的东京街道……”的场景,并表示“其他模型达不到能和Sora比较的效果”。 ▲Gabor Cselle社交账号截图。 在国内,也有不少AI从业者直观地感受到了Sora带来的冲击。 清华大学沈阳教授团队一直聚焦AI在各个领域的应用,并也一直在使用AI模型进行文生视频的操作。2月17日,他在朋友圈发布了一条团队成员花两天制作的“半失败”AI视频,并表示“从这里可以看出和Sora的差距,我让她暂时放弃这个作品,等算法升级再重做一下。” 对于Sora出现后,使用AI制作视频的工作能否继续,沈阳回复贝壳财经记者“慢慢弄,往前挪呗”。 ━━━━━ 理解物理世界 颠覆影视、游戏行业 Sora是“通用世界模型”吗? 为何Sora能够在视频生成的质量上明显领先同业产品?OpenAI在官方网站上表示,Sora是能够理解和模拟现实世界的模型的基础,相信这一能力将是实现通用人工智能的重要里程碑。不过,Sora还存在很多不完善之处,仍然处于世界模型研究应用的初期阶段。 什么是世界模型?贝壳财经了解到,实际上runway公司在去年12月就提出过要开发通用世界模型(General World Model),用其旗下的Gen-2模型来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。” 从效果上看,目前OpenAI已经通过Sora部分做到了这一点,因为只有理解物理世界的运行法则,文生视频模型才能创造出更加逼真的视频。英伟达高级科学家Jim Fan就对此表示,Sora是一个数据驱动的物理引擎,“它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解。” 而理解现实世界的物理法则,也正是通往通用人工智能这一“终极目标”的必经之路。 对此,不少科技圈名人都发出了惊叹,马斯克直接在社交平台上发布短评“GG世界”(GG是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”)。 360公司董事长周鸿祎则直接在朋友圈发文称,一旦AI能够接上摄像头,观看并理解世界上所有的电影,它对世界的理解能力将远远超过仅仅通过文字学习所能达到的水平。在这种情况下,实现通用人工智能不再是遥不可及的梦想。周鸿祎甚至预测,这一天可能在一两年内就会到来,而不是十年或二十年。 在现实层面,有更多人担心文生视频大模型可能直接冲击影视和游戏行业。美国旧金山早期投资人Zak Kukoff预测,在5年内,一个不到5人的团队将可能用文生视频模型制作出一部票房收入超过5000万美元的电影。 值得注意的是,日前大火的游戏《幻兽帕鲁》的开发团队就仅有4人,有许多人质疑该团队使用了AI生成技术制作游戏角色,以节省成本。而根据OpenAI 发布的最新Sora技术报告,Sora能够模拟视频游戏的数字化过程,Sora能在控制 Minecraft 游戏角色进行基本操作的同时,高质量动态渲染游戏世界。这意味着,个人开发制作游戏的门槛可能会被进一步降低。 前阿里巴巴副总裁,Lepton AI公司创始人贾扬清则直接评价Sora“真的非常牛”,他表示Sora的问世可能会给对作OpenAI的公司带来一波被大厂FOMO(害怕错过机会而导致的收购)收购的机会。贾扬清预测,大模型市场长期仍将呈现闭源寡头的格局,开源大模型仍然需要一段时间才能追赶上,而从算法小厂的角度来看,要么在算法上与OpenAI媲美,要么深耕垂直领域的应用,要么选择开源道路;最后,基础设施的需求将继续猛增。 值班 编辑 古丽 过年祝福指南(真心话版 “我感觉好像没有家了”,听懂年轻人的言外之意 员工被曝悄悄尝面?胖东来通报 最近微信改版 经常有读者朋友错过推送 星标🌟“新京报” 及时接收最新最热的推文 点击“在看”,分享热点👇
-
周鸿祎:Sora意味着AGI实现将从 10 年缩短到 1 年!
作者:任佳敏 来源:i黑马(ID:iheima) 当我们还沉浸于春节的喜悦和忙碌中时,OpenAI悄悄抛出一个超级王炸! 2024年2月16日, OpenAl发布首个文生视频模型——Sora,再次震惊世界! 在震惊之余,不少网友担忧,Sora将彻底颠覆AI视频行业和传统影视广告行业,“掀翻老牌好莱坞人的饭碗”。 这意味着,人类的固有优势领域进一步沦陷,失业人群范围或将继续扩大! Sora 到底是什么? 通俗点说,Sora能直接用文本生成长达60秒的1080p复杂场景视频,具有良好的连贯性和高质量,直接吊打当前市面上最强的 Pika 和 Runway。 有网友将 Sora 的惊艳之处总结为三点:60秒超级时长、单视频多角度镜头、可读懂世界模型。 1、60秒超级时长。 据了解,行业中大部分AI视频公司,仍在想尽办法解决4秒短视频的连贯性。而Sora一出现就是60秒一镜到底,并能从大中景无缝切换到人物脸部特写。 2、单视频多角度镜头。 在真正的拍摄场景中,实现多镜头场景效果,需要设置多个拍摄机位,以及后期复杂的剪辑流程。 目前大部分AI视频,也都是单镜头。 Sora却在60s视频中,实现了多角度镜头丝滑切换,每一个镜头都极为精细,且主体还能保证完美的一致性。 3、可读懂世界模型。 有专业人士表示,世界模型最难的,是收集、清洗数据,但Sora直接做到了。Sora 实现了对现实世界的理解和对世界的模拟两层能力。换句话说,这样生成的视频将更加真实。 有专家认为,OpenAI最终想做的,不只是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。也就是为真实世界建模。而Sora,只是验证了其可行性,也是一个关键的里程碑。 这些,或许会给AI视频行业、传统影视公司、虚拟拍摄、广告等行业领域,带来致命冲击和深远影响。 比如,很多研发AI视频技术的头部公司,可能在一夜之间前功尽弃,自此被Sora拖在地上使劲摩擦; 比如,未来的电影和短片,或许会由无数个60s短视频组合而成,说不定Sora还会生成60秒以上的视频; 比如,小说作家本身就是导演,可以自编自导自演,而不再需要等待大导演和明星的垂青; 比如,国内百模大战会出现新方向,即将 LLM 和 Diffusion结合起来训练,以实现对现实世界的理解和对世界的模拟两层能力。 比如,Open Al训练将会阅读大量视频,对世界的理解将远超文字学习,AGI的实现或将从10年缩短到1年。 对此,360集团创始人、董事长周鸿祎,也在社交媒体上发表了自己的见解。 除了个人的观察,还理性回应了“Sora 对影视工业的重大打击”、“ Sora将击败抖音、TikTok”等传言,并指明了大模型训练的新方向,非常有参考性价值,这里分享给大家。 以下是正文内容: 周鸿祎年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个,从 Gemini、英伟达的 Chat With RTX到 OpenAl发布 Sora,大家都觉得很炸裂。 朋友问我怎么看 Sora,我谈几个观点,总体来说就是我认为AGI很快会实现,就这几年的事儿了: 第一,科技竞争最终比拼的是让人才密度和深厚积累。 很多人说 Sora的效果吊打 Pika和Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。 第二,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。 今天很多人谈到 Sora 对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok的创作工具。 第三,我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了,但实际上跟 4.0 比还有一年半的差距。 而且我相信 OpenAl手里应该还藏着一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,包括 AIGC。奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的 Al 差距可能还在加大。 第四,大语言模型最牛的是,它不是填空机,而是能完整地理解这个世界的知识。 这次很多人从技术上、从产品体验上分析 Sora,强调它能输出 60 秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象,最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作,并没有适用物理定律。 但 Sora 产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。 所以我理解,这次 OpenAl 利用它的大语言模型优势,把 LLM 和 Diffusion 结合起来训练,让 Sora 实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。 这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具。比如生物医学,蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。 这次 Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。 原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。 所以,这次 Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。 第五,Open Al训练这个模型应该会阅读大量视频。 大模型加上 Diffusion…
-
OpenAI今天刷屏的视频模型,是如何做到这么强的?
*本文原创发布于差评孵化的商业财经类帐号 “ 知危 ” 今天凌晨,OpenAI 发布了新的文生视频大模型,名为 “ Sora ”。 Sora 模型可以生成最长 60 秒的高清视频,生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。 相信大家已经在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示视频,由于生成内容的安全问题 Sora 还未开放测试,我们无法获取更多差异化信息,所以知危编辑部在此不再重复展示 Sora 模型的效果。 下面,我们想重点探讨为何 Sora 模型的效果看起来远超市面上我们见过的其他文生视频模型,他们都做了什么 ? 以防您没在朋友圈看到,我们仍放一个示例视频 示例视频的生成提示词为:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。 首先,在文生视频 领域,比较成熟的模型思路有循环网络( RNN )、生成对抗网络( GAN )和扩散模型( Diffusion models ),而本次OpenAI 推出的 Sora 则是一种扩散模型。 虽然 GAN 模型之前一直很火,但图像和视频生成相关的领域,现在处于被扩散模型统治的阶段。 因为扩散模型是有非常卓越的优越性的,相较于 GAN,扩散模型的生成多样性和训练稳定性都要更好。而最重要的是,扩散模型在图片和视频生成上有更高的天花板,因为 GAN 模型从原理上来看本质上是机器对人的模仿,而扩散模型则更像是机器学会了 “ 成为一个人 ”。 这么说或许有些抽象,我们换一个不严谨但通俗好理解的例子: GAN 模型像是一个勤奋的画家, 但不太受控制,因为画家( 生成器 )一边不停对着先作( 训练源 )画画,然后另一边老师( 判别器 )也不停打分。就在大战无数个回合之后,画家和老师疯狂升级进步,最后直到画家画出逼真的画,但整个过程不太好控制,经常练着练着就走火入魔,输出一些谁也看不懂的玩意儿。同时,他的提升过程本质上是对先作的不断模仿,所以他还缺乏创造力,导致天花板也潜在会比较低。 而扩散模型,则是一个勤奋且聪明的画家,他并不是机械的仿作,而是在学习大量先作的时候,他学会了图像内涵与图像之间的关系 ,他大概知道了图像上的 “ 美 ” 应该是什么样,图像的某种 “ 风格 ” 应该是什么样,他更像是在思考,他是比 GAN 更有前途的画家。 也就是说,OpenAI 选择扩散模型这个范式来创造文生视频模型,在当下属于开了个好头,选择了一个有潜力的画家来培养。 那么,另一个疑问就出现了,由于大家都知道扩散模型的优越性,除了 OpenAI 以外,同样在做扩散模型的还有很多友商,为什么 OpenAI 的看起来更惊艳? 因为 OpenAI 有这样一个思维:我曾经在大语言模型上获得了非常好的效果、获得了如此巨大的成功,那我有没有可能参考这个经验获得一次新的成功呢? 答案是可以。 OpenAI 认为,之前在大语言模型上的成功,得益于 Token ( 可以翻译成令牌、标记、词元都可,翻译为词元会更好理解一些 ),Token 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是,他们创造了对应 Token 的 “ Patch ” 概念 ( 块,如果 Token 翻译为词元理解的话,Patch 或许可以被我们翻译为 “ 图块 ” )用于训练 Sora 这个视 频模型。 实际上,在 大语言模型中,Token 的应用之所以会如此成功,还得益于 Transformer 架构,他与 Token 是搭配着来的,所以 Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构。 ( 主流视频生成扩散模型较多采用…
-
Sora可生成游戏?!
点击上方蓝字 CG世界 关注我们 “ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ” 中国很有影响力影视特效CG动画领域自媒体 提问:最近业内最热话题是什么? 相信小伙伴们都可以抢答成功,那必须是OpenAI最新推出的黑科技:首个AI生成视频模型Sora。 你永远可以相信OpenAI的实力,不出手则已,一出手惊人。作为行业的领头羊,前有 DALL-E、ChatGPT等在各领域收获巨大成功的优秀工具,现在又来了个能通过文本生成逼真视频而震惊全网的Sora,这也预示着人工智能领域的又一重大进步。 Sora只需要几行提示,仅仅根据文本描述就能生成令人惊叹的视频。就在我们感叹这款新王炸真的很强的时候,OpenAI表示:我知道你们很震撼,但你们先别震撼,因为它可能预想中还要厉害。 根据OpenAI最新发表的技术论文显示,Sora的能力似乎比OpenAI最初认为的还要强大和不可思议。 这篇论文由OpenAI的多个研究人员共同撰写,揭示了Sora架构的关键方面:如 可以生成任意分辨率和宽高比的视频(高达1080p);能够执行各种图像和视频编辑任务,从创建循环视频到向前或向后扩展视频时间到更改现有视频中的背景。 要说Sora最强悍的还要数“模拟数字世界”的能力,其中的一个例子就是游戏。 按照OpenAI的合著者所说,在一项实验中,OpenAI向Sora提供了包含“Minecraft”一词的提示,并让它渲染出令人信服的类似《Minecraft》的HUD和游戏,以及游戏动态,包括物理运动,同时控制玩家角色。 有社交媒体账户展示了由AI生成的《我的世界》视频。 这段由Sora生成的视频,以玩家在平原生物群系中慢动作行走开始。通过观察整体的纹理外观,可以推测出Sora模型使用了具有不同天空纹理和灯光引擎的资源包以及着色器。 同时,显示生命值、饱食度和物品的快捷栏看起来也非常地准确。当玩家行走时,可以看见纹理完全不同的一只鸡和一只猪,也侧面证实了Sora使用资源包来生成游戏视频。 仅仅是在提示文字中加入“Minecraft”关键词,Sora就可以零样本展示出它自主控制游戏角色进行基本操作,同时渲染出游戏世界和游戏中动态变化的能力。 OpenAI认为,Sora的这种能够完整模拟游戏世界的能力,表明视频生成AI的发展正在朝着能够高度仿真物理和数字世界, 及其中的动物和人等对象 的方向迈进。 而之所以说Sora模型有潜力颠覆视频游戏世界,原因在于它与其他的AI视频生成器有着根本的不同。 Nvidia高级研究员Jim Fan博士就曾指出,比起图像生成器,Sora更像是一个“基于数字训练的物理引擎”,可以模拟许多真实或虚拟的世界。不仅能生成单个照片或视频,还能确定环境中每个对象的物理属性, 并根据这些计算渲染照片、视频或交互式3D世界(视情况而定)。 Sora 能够执行成千上万次计算来预测 物体之间的相互作用关系,从而生成游戏物理规则,这就使得它非常适合游戏世界的模拟。 当然, S ora目前在游戏模拟方面也存在一定的局限性。它还无法精确模拟像玻璃破碎这样的物理效果,也会在生成游戏交互时出现一些不合理的细节。 在生成的《Minecraft》游戏视频中,也存在类似的问题。当玩家靠近猪并触碰它时,它开始向后跑,但脸却是朝向玩家的…视频中 猪继续在地面上滑行,最终消失在远处的小屋里;不久之后,玩家走近湖旁的小屋,这时可以看到 湖里有几只“奇怪”的动物,从脸上看像牛,但又不太符合身体力学。 不少网友表示,虽然视频总体看起来像《Minecraft》,但在一些小细节上还是存在着肉眼可见的问题。 不过以OpenAI的能力,也不难预见,这些问题都会在未来的版本中不断改进和完善。那么问题来了,小伙伴们,你们怎么看? end 《显卡》《幻兽帕鲁》《模型》《会员》 可以在AMD显卡上跑CUDA软件么? 拉个Box即可渲染超写实单帧!C4D版AI渲染引擎出现了! 《显卡》《幻兽帕鲁》《模型》《会员》
-
“今天,所有VC的会上都在谈Sora”
本文来自微信公众号: 投中网(ID:China-Venture) ,作者:刘燕秋、蒲凡,原文标题:《“今天,所有VC的会上都在谈Sora”》,头图来自视觉中国 仿佛梦回2023。去年年初,ChatGPT引发了普通人澎湃的讨论热情,此后海内外在AI大模型投资上展开了军备竞赛。 龙年刚一开年,OpenAI又打开了新局面,这次火的是文生视频。2月16日凌晨,OpenAI发布了文生视频大模型Sora。Sora能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。 这类应用早就有了,但Sora的呈现仍然惊艳,视频中的主体稳定可控,可实现多角度切换,时长方面也有突破,最长能生成60秒视频。 不愧是OpenAI。尽管Sora仍处于开发早期阶段,但它的推出已经标志着生成式AI迎来一个里程碑。 资本端同时传来新消息。在完成最新交易后,OpenAI的估值已飙升至800亿美元以上。这笔交易来自于Thrive Capital精心策划的要约收购。 尽管OpenAI和Thrive Capital对此皆不予置评,但小红书博主“Shannon”昨天发的帖子很有情绪的代表性,“明天所有fund开会的议题都有OpenAI的Sora”。 只不过,和去年相比,投资人的心态变了。不是人人都有机会投中OpenAI,但OpenAI的能力边界却实实在在影响着一批创业公司和背后的投资人。 “水到渠成”和“令人发指” 首先需要明确,“文生视频大模型”并不是一条全新的赛道。在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型,例如Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。 更重要的是,上述已有的“视频大模型”,隐隐有了生产力工具的影子。 以Runway为例,与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同,Runway的三名创始人Valenzuela、Alejandro Matamala和Anastasis Germanidis来自于纽约大学艺术学院,他们共同看到了“人工智能在创造性方面的潜力”,于是决定共商大计,开发一套服务于电影制作人、摄影师的工具。 这层基因打底,相比科技公司的“车库文化”,Runway的发展轨迹更像“横店影视城奋斗史”:先开发了一系列细分到不能再细分的专业创作者辅助工具,针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求;随后参与到图像生成大模型Stable Diffusion的开发过程中,积累AIGC在静态图像生成方面的技能点,并获得了参与《瞬息全宇宙》等大片制作的机会——这些影片在宣发中曾经有过详细描述,出品人们感叹他们的加入让后期团队“保持了一个超乎常规的小规模”状态,影视同行们惊叹很多许多复杂的特效制作(比如《瞬息全宇宙》里那两块对话的石头),工期已经从“好几天”缩短到了“几分钟”。 等到2023年2月,Runway发布第一代产品Gen-1,普通用户已经能通过iOS设备进行免费体验,范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能,还包含了“文本转视频”,从而使得Gen-1成为了首批投入商用的文生视频大模型;2023年6月,他们发布了第二代产品Gen-2,训练量上升到了2.4亿张图像和640万段视频剪辑。 2023年8月,爆火B站、全网播放量超过千万、获得郭帆点赞的AIGC作品《流浪地球3预告片》正是基于Gen-2制作。根据作者@数字生命卡兹克 在个人社媒上的分享,整段视频的制作大体分为两部分——由MidJourney生成分镜图,由Gen-2扩散为4秒的视频片段——最终获得素材图693张、备用剪辑片段185条,耗时5天。半年之后,@数字生命卡兹克 再次通过“MJ V6画分镜-Runway跑视频”制作了一段3分钟的故事短片《The Last Goodbye》,投稿参赛Runway Studios(Runway专门为企业级客户提供定制化服务的部门)所组织的第二届AI电影节Gen48。 换句话说,实际上至少在一年以前,“文生视频大模型”就已经拥有足够的关注度,其目前用户规模也被远远低估。 Runway的联合创始人Valenzuela在C轮融资后透露,除了像New Balance这样的世界500强客户,他们还拥有“数百万个人创作者”。 除此而外,Sora所展现出来的“精准的物理世界还原能力”,也并不是OpenAI独自探索的AI领域。马斯克就在Sora发布的两天半后,也就是2月18日,在科技播客栏目“DrKnowItAll”里留言,“这种精准还原现实世界物理规律的虚拟世界生成能力,特斯拉已经差不多快掌握一年了……只不过因为素材来自车载摄像头,所以视频看上去没那么有趣”。 OpenAI在同期发布的技术论文《Video generation models as world simulators》也明确Sora更像是“数据驱动的物理引擎”,通过大模型的持续扩散来“高性能地模拟物理世界或者数字世界中的人、动物、其他物体”,因此仍然拥有“同行们都会面临”的局限性,例如“很难准确模拟复杂场景的物理原理,并且无法理解因果关系,比如Sora生产一段人咬饼干的片段,饼干可能不会出现咬痕”。 真正带来压迫感的,或许是Sora不可思议的进化速度。 从技术层面看,无论是“拥有精准物理规则的真实世界”“支持60秒视频生成”还是“单视频多机位”都可以被形容为水到渠成,然而正如上面所提到的——如今看起来傻傻的、只支持生成“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2其实是2023年6月发布的产品,距离Sora的发布日不过8个月。 2023年11月,Meta发布的视频生成大模型Emu Video看起来在Gen-2上更进一步,能够支持512×512、每秒16帧的“精细化创作”,但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频,并且根据上面提到的开发者技术论文,Sora还能够执行一系列图像和视频编辑任务,从创建循环视频到即时向前或向后延伸视频,再到更改现有视频背景等。 而如果要死磕这种不可思议的进化速度,除了“神秘的外星文明”,最现实的解释恐怕只有“海量烧钱”。 作为Runway半个领路人的Stability AI近两年周期性地遭遇“现金流压力”,一会儿传闻高层正在积极探索出售公司,一会儿又流传着早期投资者Coatue Management的内部信,直指“Stability AI的财务状况令人担忧”,建议CEO Emad Mostaque原地辞职。最揪心的传闻是,为了让亚马逊相信自己不会拖欠高达7500万的云服务费用,身为前对冲基金经理的Emad Mostaque选择以个人财产作为担保。 然而从融资的角度看,Stability AI做到了赛道的天花板,其在2022年10月完成超过1亿美元的融资后,估值早早来到了独角兽级别。Emad Mostaque在去年7月的一次采访中忍不住直发狂暴言论,他说:“Bard AI只是因为在宣传片中提供了不准确的信息,就造成了每天超过1000亿美元的损失……人工智能作为基础设施所需的投资总额可能为1万亿美元,这会是人类有史以来最大的泡沫”。 知乎上,一位叫做“像素炼金师”的创业者坦承了他在目睹Sora发布后的心路历程:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。” 估值800亿和领头羊的边界 无论怎样,OpenAI再次印证了AI“巨无霸”的地位。看似无远弗届的能力,支撑其估值在不到10个月的时间里增长了两倍。CB Insights的数据显示,OpenAI目前是世界上最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。 拓展模型能力的同时,OpenAI还在推进多元化的战略。尤其是在半导体领域,奥特曼正与潜在投资者、半导体制造商和能源供应商等各种利益相关者接触。他甚至在考虑成立一家独立于OpenAI的新公司,进入AI芯片行业。 这笔交易也揭示了,奥特曼之于OpenAI,仍然是不可或缺的角色。原本在去年11月,OpenAI便将敲定最新的融资交易,但当时奥特曼遭遇了解雇风波。交易有没有受到影响不知道,总之结果是,770名员工中的700多人最终签署了请愿书,要求他复职。 细看这轮融资,不是发行新股,而是准许OpenAI员工对外出售所持股份。这对于OpenAI来说并不新鲜。2023年,Thrive Capital、红杉资本、Andreessen Horowitz和K2 Global等风险投资巨头也采取了类似的做法,参与OpenAI的要约收购,当时该公司的估值已经达到290亿美元。 那么,OpenAI的边界在哪里? 这个问题不仅事关OpenAI的估值,也关乎大大小小生成式AI创业公司的前景。 原本在视频生成这个赛道上,海外已经有几家创业公司卡位。最知名的莫过于前文所述的Runway。另一个领头羊是Pika,创立于去年4月,11月宣布完成了总计5500万美金的A轮及天使轮融资,估值达2.5亿美元。Pika由郭文景和孟晨琳共同创立,两人都曾是斯坦福大学人工智能实验室的博士生,履历亮眼。郭文景还被誉为“华裔天才少女”。 OpenAI会冲击这些公司吗?别急,Sora 公开后,有海外博主已经对几家公司的产品做了对比。他给Sora、Pika、Runway和Stable Video四个模型输入了相同的prompt。结论是,Sora 在生成时长、连贯性等方面都有显著的优势。 必须要说,这几家做文生视频的公司都开发了自己的大模型,而非纯粹的基于别人的大模型来开发应用场景的那类公司。但即使有技术护城河,要抵挡OpenAI的冲击也没那么容易。 当然,这并不是说,纯做应用的公司完全没有前途了,背后也许涉及到一个发展阶段的问题。 去年,红杉资本的两位合伙人再次发表文章,复盘一年前自己对市场的看法。他们指出,其中一个预测错误是,垂直分离尚未发生。“我们仍然相信应用层公司和基础模型提供商之间会有分离,模型公司专注于规模和研究,应用层公司专注于产品和UI。但在实际上,这种分离还没有干净利落地发生。最初面向用户的应用中,最成功的那些都是垂直整合的公司。” 国内也是类似的局面 有投资人告诉我,他们关注的一家AIGC公司也在开发基于特定产业数据的独有的模型,而不是仅仅调用别人的API。“不然很难指望他们在应用层面做出真正差异化的东西。” 回头看,过去一年,OpenAI的每一次技术突破,都会拓展资本对它的想象空间,但同时也堵上一部分创业公司的前进之路。 “AGI去年已经把软件行业毒死了。现在公众只是在目睹毒发的过程。”有创业者在转发一则Sora的消息时,在朋友圈评论道。 所以,AI投资难,尤其是应用层。“重点还是界定清楚,什么东西能在大模型的演进过程中受益,什么东西又在大模型演进过程中被瓦解。”一位AI投资人曾模糊地告诉我。但OpenAI的超能力使得这个关键问题没那么容易预判。 再看大模型。智谱AI去年一年的估值已经翻了6倍多,有投资人给出200亿估值。我最近也听说,百川智能和MiniMAX,最近都传出新一轮融资已到位的消息。OpenAI出新招,这些公司不可能不焦虑。好在弹药尚且充足。Sora的诞生,无疑又将引发新一轮追赶。 借着Sora火热,AI的相关概念必将再炒一波,尤其是英伟达这类充当卖水人,又可以大赚一笔了。但对于一级市场的创业者和投资人而言,我只能说,暂时,继续卷罢。 本文来自微信公众号: 投中网(ID:China-Venture) ,作者:刘燕秋 蒲凡 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End