• Sora

    AI 圈炸了!OpenAI Sora问世,60秒视频一镜到底,网友:颠覆整个行业

    大数据文摘出品 AI圈炸了!OpenAI刚刚发布了一个新模型Sora,宣布视频生成领域的GPT-4 时刻到来! 这是OpenAI首款文本到视频的模型,但出道即王炸,Sora能够根据用户的一句话生成长达一分钟的视频,且视频流畅度和稳定性皆在水准之上。 Sora 的问世将视频制作的艺术推向了新的巅峰,其AI制作的视频展现出了复杂的摄影艺术、多元角色设定、逼真的情绪捕捉以及对物理规律的精确模拟。 据悉,这是在 OpenAI 之前的成就——图像创作神器 DALL-E 以及文本生成巨擘 GPT-3 和 GPT-4的基础上,进一步的创新与突破。 Sora 不仅能够在视频主体暂时离开镜头时保持故事线的流畅,还能确保视频内容的真实性和逻辑性,不让任何细节显得突兀或不自然。得益于其采用的Transformer架构,Sora 在处理视频生成的可扩展性上也远超以往任何模型。 以下是两个示例: Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.” 提示:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。 Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a…

  • Sora

    OpenAI炸裂的Sora背后:奥特曼清单法

    本文来自微信公众号: 孤独大脑(ID:lonelybrain) ,作者:老喻,题图来自:视觉中国 一 那些正在改变世界的事情,正在加速发生。 OpenAI刚刚发布了 Sora,一种文字生成视频的技术,效果相当震撼。请看下面的视频:‍ 如此逼真的视频,仅需如下一段提示词: “一位时尚的女士在充满温暖发光的霓虹灯和动画城市标志的东京街道上行走。她穿着黑色皮夹克,一条长红裙和黑色靴子,背着黑色手提包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿而具有反射性,营造出五光十色灯光的镜面效果。许多行人在四处走动。” 这款名为Sora的新视频生成模型,能够根据文本指令创建现实和富有想象力的场景。用户可以基于编写的提示词,创建长达一分钟的栩栩如生的视频。 Sora能创建包含多个角色、特定动作、主题和背景细节的复杂场景。 该模型理解物体在物理世界中的存在,能准确解释道具,并生成表情丰富的角色。它还能基于静态图像生成视频,填充或扩展现有视频的帧。 在我看来,AI对人类世界的改变有两个方向:‍‍‍‍‍‍‍‍‍‍‍ 1. 改变物理世界:协助科学家在人类生物、能源、医疗、新材料等方面实现科技突破;‍‍‍‍‍‍‍‍‍ 2. 构建虚拟世界:大量生成文本、图像和视频内容,并以数字机器人形态服务于虚拟世界。‍‍‍‍‍‍‍ 同样,我继续表达“教育是AI的最佳应用场景”的观点: Sora等视频生成技术,将令优质教育资源的成本大幅降低; 仿真的沉浸式教学空间可以被大规模提供,令学生在身临其境的场景中展开项目式学习;‍ 一对一的“硅基生物”老师已经完全具备了“碳基生物”老师的鲜活和“温度”;‍‍‍‍‍ ……‍‍‍ 二 让我们回来,看看改变世界的技术背后,那些开创者们的具体思考和行为。‍‍‍ 这两年,愈发感受到硅谷创业者们不分老少,对AI等技术充满了信仰般的痴迷。‍‍‍‍‍‍‍‍ 另一方面,则是工程师式的务实和坚韧。 只有如此,技术的梦想才能落地。 OpenAI的创始人奥特曼,几年前曾经写过一篇文章《如何提高工作效率》,颇有启发。 其中,奥特曼的清单法,也许对每个努力工作的人,都有可借鉴之处。‍ 分享如下: 1. 生产率 我认为我的工作效率至少比平均水平高一些,人们有时会向我询问提高工作效率的秘诀。所以我决定把它们全部写在一个地方。复合增长作为一个财务概念被讨论,但它也适用于职业,而且它很神奇。在 50 年的时间里,生产率的小幅提高是非常值得的。因此,有必要弄清楚如何优化生产力。 如果你每天比别人多做 10%,进步 1%,复合 (增长) 的差异是巨大的。 2. 你在做什么 如果它朝着毫无价值的方向前进,那么你移动多快都没有关系。选择正确的工作是生产力最重要的因素,通常几乎被忽略。所以多想想吧!独立思考很难,但你可以通过练习变得更好。 我认识的最令人印象深刻的人对世界有着强烈的信念,这在普通人群中是很少见的。 如果你发现自己总是同意你最后一次交谈的人,那就不好了。 有时你当然会错,但要培养坚持自己信念的信心。当您在大多数人看不到的重要事情上是正确的时,它会让您变得勇敢。 我确保在我的日程安排中留出足够的时间来考虑要做什么。对我来说,最好的方法是读书、和有趣的人一起出去玩,以及花时间在大自然中。 我了解到,在我不关心或不喜欢的事情上,我的工作效率不会很高。所以我只是尽量不让自己处于必须做这些事情的境地(通过委派、避免或其他方式)。你不喜欢的东西会严重拖累士气和动力。 顺便说一句,这里有一个关于委派的重要教训:记住其他人在做自己喜欢的事情时也是最有效率的,并且做你希望别人为你做的事情——试着找出谁喜欢( 并且擅长)做什么,并以那种方式授权。 如果你发现自己在很长一段时间内都不喜欢自己所做的事情,请认真考虑换一份工作。短期的倦怠会发生,但如果休息一段时间后还没有解决,也许是时候做一些你更感兴趣的事情了。 我很幸运能找到我非常喜欢的工作,我愿意免费做,这让我很容易真正有效率。 重要的是要知道你可以学到任何你想学的东西,而且你可以很快变得更好。最初几次,这感觉像是一个不太可能发生的奇迹,但最终你学会相信自己可以做到。 出色的工作通常需要某种同事。 试着和聪明、多产、快乐、积极的人在一起,他们不会贬低你的抱负。 我喜欢和那些推动我并激励我变得更好的人在一起。  在你力所能及的范围内,避开相反类型的人——让他们占用你的思维周期的代价是可怕的。 你必须选择正确的问题并完成工作。没有多少捷径。如果你要做一些非常重要的事情,你很可能会既聪明又努力地工作。  最大的奖项竞争激烈。并非在每个领域都是如此(有些伟大的数学家从来没有每周花那么多小时工作),但在大多数领域都是如此。 3. 优先次序 我的系统有三个关键支柱: a. “确保完成重要的事情”; b. “不要把时间浪费在愚蠢的事情上”; c. “列很多清单”。 我强烈推荐使用列表。我列出了我每年、每月和每天想要完成的事情。列表非常有针对性,它们帮助我处理多项任务,因为我不必在脑海中保留那么多。 如果我没有心情完成某项特定任务,我总能找到其他让我兴奋的事情。 我更喜欢写在纸上的清单。添加和删除任务很容易。我可以在会议期间访问它们而不会感到粗鲁。我经常重新抄写列表,这迫使我考虑列表中的所有内容,并让我有机会添加和删除项目。 我不会为分类或尝试调整任务大小或类似的事情而烦恼(我所做的最多就是在真正重要的项目旁边放一个星号)。 我尝试以产生动力的方式确定优先顺序。我完成的越多,我的感觉就越好,然后我就完成得越多。我喜欢在每一天开始和结束时做一些我能真正取得进步的事情。 我坚持不懈地完成我最重要的项目——我发现如果我真的想要某事发生并且我努力推动,它通常会发生。 我尽量无情地拒绝某些东西,并以尽可能快的方式做非关键的事情。我可能太过分了——例如,我几乎可以肯定我在回复电子邮件时简洁到粗鲁的地步。 我通常尽量避免参加会议,因为我发现时间成本很高——我在办公室的时间得到了最大的价值。然而,在您的日程表中留出足够的空间以允许偶遇和接触新的人和想法是至关重要的。  拥有一个开放的网络是有价值的。 虽然我参加的随机会议中可能有 90% 是浪费时间,但另外 10% 确实弥补了它。 我发现大多数会议最好安排在 15-20 分钟或 2 小时内。默认的 1 小时通常是错误的,会导致大量时间浪费。 我每天有不同的时间尝试用于不同类型的工作。早上的前几个小时绝对是我一天中最有效率的时间,所以那时我不会让任何人安排任何事情。  我尽量在下午开会。每当我觉得自己的注意力开始减弱时,我就会休息一下或转换任务。 我认为大多数人都没有足够重视他们的时间——令我惊讶的是,我认识的许多人每小时赚 100 美元,但他们会花几个小时做他们不想做的事情以节省 20 美元。 另外,不要陷入关于生产力的陷阱——为了自身的利益而追求生产力是没有帮助的。许多人花太多时间思考如何完美优化他们的系统,而没有足够多地询问他们是否在处理正确的问题。  无论您使用什么系统,或者如果您正在做错误的事情,您是否每秒都在挤出时间,这并不重要。正确的目标是最佳地分配你的一年,而不是你的一天。 4. 物理因素 很可能对我而言最佳的对您而言并非最佳。您必须通过实验找出最适合您身体的方法。这绝对值得一做——它对生活的方方面面都有帮助,你会感觉更好、更快乐。 在过去的几年里,我可能每周都会花一点时间来找到最适合我的东西,但我的感觉是,如果我在以下所有方面都做得很好,我的工作效率至少比不这样做的情况高 1.5 倍。 对我来说,睡眠似乎是影响生产力的最重要的物理因素。某种睡眠追踪器可以帮助您了解如何睡得最好。  我喜欢寒冷、黑暗、安静的房间和一张很棒的床垫(我多年来一直拒绝花一大笔钱买一张很棒的床垫,这是愚蠢的——它对我的睡眠质量产生了巨大的影响。我喜欢这个)。  旅行时,我使用眼罩和耳塞。 这可能会引起争议,但每当我无法入睡时,我都会服用低剂量的安眠药(如正常剂量的三分之一)或极低剂量的XX。总的来说,我睡不好,旅行时睡得特别不好。它可能需要权衡取舍,但睡眠不好也是如此。如果你已经睡得很好,我不会推荐这个。 锻炼可能是第二重要的身体因素。 我尝试了几个月的许多不同的锻炼计划,似乎最好的是每周举重 3 次,持续一小时,偶尔进行高强度间歇训练。除了提高工作效率外,这也是让我整体感觉最好的锻炼计划。 第三个领域是营养。 我很少吃早餐,所以大多数日子我禁食大约 15 小时(除了我醒来时喝一杯浓缩咖啡)。我知道这与大多数建议相反,我怀疑这对大多数人来说都不是最佳选择,但它对我来说绝对有效。 吃太多糖是让我感觉最糟糕的事情,也是我最努力避免的事情。我也尽量避免吃会加重消化或加剧炎症的食物(例如,非常辛辣的食物)。说到甜食,我没有太多的意志力,所以我大多只是尽量把垃圾食品拒之门外。…

  • Sora

    揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

    如果你对大模型感兴趣,想了解相关的前沿研究进展, 欢迎扫码入群~ 来源:机器之心 编辑:泽南、蛋酱 至此已成艺术的 Sora,是从哪条技术路线发展出来的? 最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。 不过当 OpenAI 出手发布 Sora 之后,我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。 Sora 生成的视频,美国西部的淘金时代。感觉加上个解说和背景音乐就可以直接用在专题片里了。 在 Sora 及其技术报告推出后,我们看到了长达 60 秒,高清晰度且画面可控、能多角度切换的高水平效果。在背后的技术上,研究人员训练了一个基于 Diffusion Transformer(DiT)思路的新模型,其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作。 正如华为诺亚方舟实验室首席科学家刘群博士所言,Sora 展现了生成式模型的潜力(特别是多模态生成方面)显然还很大。加入预测模块是正确的方向。至于未来发展,还有很多需要我们探索,现在还没有像 Transformer 之于 NLP 领域那样的统一方法。 想要探求未来的路怎么走,我们或许可以先思考一下之前的路是怎么走过的。那么,Sora 是如何被 OpenAI 发掘出来的? 从 OpenAI 的技术报告末尾可知,相比去年 GPT-4 长篇幅的作者名单,Sora 的作者团队更简洁一些,需要点明的仅有 13 位成员: 这些参与者中,已知的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。这些成员的信息也成为了众人关注的焦点。 比如,Sora 的共同领导者 Tim Brooks,博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。 在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型。 另一位共同领导者 William (Bill) Peebles 也来自于 UC Berkeley,他在 2023 年刚刚获得博士学位,同样也是 Alyosha Efros 的学生。在本科时,Peebles 就读于麻省理工,师从 Antonio Torralba。 值得注意的是,Peebles 等人的一篇论文被认为是这次 Sora 背后的重要技术基础之一。 论文《Scalable diffusion models with transformers》,一看名字就和 Sora 的理念很有关联,该论文入选了计算机视觉顶会 ICCV 2023。 论文链接:https://arxiv.org/abs/2212.09748 不过,这项研究在发表的过程还遇到了一些坎坷。上周五 Sora 发布时,图灵奖获得者、Meta 首席科学家 Yann LeCun 第一时间发推表示:该研究是我的同事谢赛宁和前学生…

  • Sora

    Sora会对视频内容创作产生什么样的影响?

    本文来自微信公众号: 互联网怪盗团 (ID:TMTphantom) ,作者:怪盗团团长裴培,题图来自:视觉中国 OpenAI的文生视频(text-to-video)AI模型Sora已经发布,并且引发了如洪水一般的新闻报道和评论。我不是AI技术专家,相信大家也早已通过其他渠道了解了Sora的技术细节。我只是想从内容创作者的角度谈一谈:Sora会对视频内容(包括短视频、中长视频和工业化影视内容)产生什么样的影响? 在我的朋友圈里,大家的观点是复杂的——有些人觉得Sora要革影视行业的命,甚至把视频内容带入“零基础创作”时代;有些人则认为Sora的实用价值还值得怀疑,尤其是不具备创作者所必须的“灵魂”。其实,上述观点都有道理,关键看怎么定义“内容创作”。 回顾历史,我们会发现,互联网发展的历程就是内容创作不断重新洗牌的历程,各种体裁、各种主题、各种工业标准的内容一直在此消彼长,“变”是常态,“不变”才不正常。AIGC的深入发展(包括但不限于Sora),将促使洗牌过程向更有利于多样性的方向发展。我们不妨使用一个高度简化的分析模型,将互联网原生内容创作者的能力划分为两个方向。 热点敏感性,也就是追逐热点、热梗的能力。毫无疑问,在任何一个时间点,社交媒体的大部分流量集中于极少数热点题材。能否把握热点题材,决定了创作者的短期爆发力,用更时髦的话讲就是“出圈能力”。 ‍ 内容调性,也就是内容的特殊性、不可复制性。有些创作者的内容,让人过目不忘,带着鲜明的个性烙印,任何竞争对手都无法模仿。是否具备足够的、不可替代的调性,决定了创作者的长跑能力,或曰“可持续性”“粉丝黏性”。 ‍ 强大的创作者无疑应该在两项能力上都获得高分,从而达到“既有爆发力又有长跑能力”的全能性,这是成为头部创作者的最高效的途径。2017~2018年的抖音、2019~2020年的B站都曾经涌现出一批这样的创作者,左手抓热点、右手深挖内容调性,从而在一夜之间跃居“全网顶流”之列(具体的例子就不举了)。这样的幸运儿不多见,但是每隔一段时间就会出现一些,他们是其他内容创作者梦寐以求的标杆。 如果一位创作者不具备抓热点的能力(或者不乐意这么做),那么他的最佳发展方向就是做一个优质垂类内容方,吸引符合自身调性的粉丝,依靠粉丝的口碑效应实现“慢热出圈”。这条道路最典型的例子莫过于罗翔:在多年的司法考试授课过程中,他以深入浅出和幽默风趣的调性逐渐积累了大批“自来粉”,最终依靠粉丝的自发传播实现了“出圈”。严格地说,多年前的罗永浩也算得上一个。一般而言,只要坚持足够长的时间,垂类内容方总归能迎来量变到质变的时刻,但是大部分人往往坚持不下去。 与此相对立的则是那些只会抓热点、不具备调性的创作者,他们的生存之道就是“下手快”,依靠千方百计地“蹭热点”乃至模仿抄袭,尽快完成“出圈”。这种创作者的生命周期一般很短,在瞬时爆发之后就陷入了沉寂,做的是“过把瘾就死”的短线生意。尤其是在短视频领域,MCN等专业机构经常会批量孵化此类账号,希望其中极少数能爆红,至于那些未能爆红的则沦为“炮灰”。 网生内容创作者的四个象限 很多用户会哀叹:“互联网社交媒体充斥着快餐内容,短视频、直播更是集快餐内容之大成,完全没有让人静下心来体验的干货!”可是这样的哀叹并不正确。或许网生内容的绝大部分确实是毫无调性和深度的“炮灰”,就像一瓶酒的大部分成分是水,但我们也不能因此得出“酒就是水”的结论。 事实上,只有在社交媒体时代,垂直、小众内容才第一次获得了稳定的输出渠道,从而赢得了被更多人看见的可能性。数以万计的“中腰部”垂类创作者,到了移动互联网时代才真正走上内容创作道路。如果一定要在“以前的时代”和“社交媒体时代”之间做出选择,我相信,绝大部分创作者会选择后者而非前者。 那么问题来了:Sora的诞生(及其掀起的生成式AI持续进化的浪潮),会更有利于上面哪一类创作者呢?我觉得答案非常明显——AIGC会有利于那些以内容调性取胜、“慢热出圈”的垂类内容方,不利于那些以抓热点取胜、“昙花一现”的跟风内容方。因为在AIGC时代,“抓热点”的门槛将越来越低,从而不再是内容方的一项核心竞争力。所以,“内容调性”的重要性就进一步攀升了,甚至可能成为取胜的唯一一张王牌。 不要误会,无论到什么时候,“热点话题”总是会此起彼伏地产生,也需要有创作者覆盖。然而,在比拼速度方面,人类创作者无论怎么努力也比不过AI。在文本新闻领域,AI的速度优势已经明显体现出来了:早在ChatGPT诞生之前,从财经到体育,从娱乐八卦到社会新闻,大量的“突发性事件”在第一时间的报道就是由“AI写手”自动撰写的;在ChatGPT大范围投入使用之后,几乎所有的突发事件报道都可以由AI进行了。 平时炒股的人可能对此有更深的体会——打开任何一个股票信息软件,无论是突发的财经新闻还是财报的即时解读,由AI撰写的比例均呈不断上升的态势;专业分析师和评论员正在退出这些“比拼手速”的即时信息工作,把精力集中到需要高度逻辑分析能力的深度解读上。 Sora的诞生,意味着上述趋势正式蔓延到了视频领域。假以时日,上述趋势会延伸到一切体裁、一切类型的内容上:对于热点话题的“时效性覆盖”将主要是AI的任务,比拼的主要是AIGC的效率,很难有人玩出与众不同的花样。目前在国内,已经有电商服务机构向带货主播推出“AI根据热梗自动撰写视频脚本”的服务,哪怕主播对这个热梗毫不了解,也可以依靠AIGC跟上潮流。可以想象,今后对热点话题的竞争将趋于高度同质化;经济学原理告诉我们,高度同质化的市场总是会走向供大于求,从而导致“抓热点”性质的内容严重过剩,以此为核心竞争力的内容方大部分将被淘汰出局。 而对那些以“调性”为核心竞争力的内容方而言,AIGC却可以成为一种强大的新武器。互联网用户仍然有追逐热点的天性,不过他们今后更需要的不是时效性内容,而是有特色的演绎或者有深度的解读。足球爱好者对此肯定深有体会:在资讯匮乏的年代,大家对足球媒体的首要诉求是快速全面的新闻覆盖;到了资讯极端发达的今天,新闻覆盖早已泛滥,大家的诉求转移到了对赛事的深度分析,以及带有互动性、趣味性的节目上面。优质的垂类创作者完全可以与AI达成分工:前者负责有调性的部分,即所谓“灵光一闪”;后者负责不需要调性的部分,即重复劳动——按照内容产业的黑话,可以称之为“行活儿”。 AI是一种工具,一种由人类创造、帮助人类解决问题的技术手段。从目前的形势看,只要AI不产生自我意识,它就不会具备所谓“原创性”,而仅仅是对人类现有知识的收集和整理——即使ChatGPT这样高级的生成式AI也不例外。OpenAI已经公布了Sora的技术细节,可以看到,其技术路线继承了此前公开的DALL-E文生图模型,虽然有一定程度的创新,但并非颠覆性的。显然,至少在当前的环境下,Sora不太可能产生真正的“原创性”,其产生视频的效率和感染力仍然高度依赖于个人用户的“调教”。 所以,与此前的一切生成式AI大模型一样,Sora在内容创作中的角色更接近MOBA游戏中的辅助:帮助C位更好地发挥自己的特点,让C位心无旁骛地输出,而不是自己代替C位去输出。强大的C位玩家借助强大的辅助可以如虎添翼,而不合格的C位玩家有了强大的辅助也很难翻盘。就以刚提到的“AI根据热梗自动撰写视频脚本”功能来说,有调性的创作者可以在此基础上进行修改,使之符合自己的调性,事半功倍地创作出优质内容;缺乏调性的创作者恐怕只能用它生产千篇一律的“垃圾”。 至此,我们可以得出一个结论——内容产业“强者恒强”的趋势,在AIGC时代会持续下去,只是其含义更加复杂,超过了“马太效应”的范畴:头部内容方当然会继续强大、继续享受时代的红利,但具备强大调性的垂类内容方也能享受时代的红利;对于这两者而言,未来二十年将是最好的时代。对于其他内容方而言,却将迎来最坏的时代。Sora再次确认了上面的趋势。 当然,在AI技术日新月异的今天,一切变化都可能发生,一切梦想或噩梦都有可能成真。如果经过一段时间之后,本文的观点被证伪了(或者部分证伪),那也是再正常不过的事情。能够生活在一个AIGC觉醒的年代,无论作为旁观者还是参与者,我们都是幸福的。重要的是对未来做出力所能及的思考和分析,至于其对错则不是特别重要。 本文来自微信公众号: 互联网怪盗团 (ID:TMTphantom) ,作者:怪盗团团长裴培 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End

  • Sora

    Sora可生成游戏?!

    点击上方蓝字 CG世界 关注我们 “ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ” 中国很有影响力影视特效CG动画领域自媒体 提问:最近业内最热话题是什么? 相信小伙伴们都可以抢答成功,那必须是OpenAI最新推出的黑科技:首个AI生成视频模型Sora。 你永远可以相信OpenAI的实力,不出手则已,一出手惊人。作为行业的领头羊,前有 DALL-E、ChatGPT等在各领域收获巨大成功的优秀工具,现在又来了个能通过文本生成逼真视频而震惊全网的Sora,这也预示着人工智能领域的又一重大进步。 Sora只需要几行提示,仅仅根据文本描述就能生成令人惊叹的视频。就在我们感叹这款新王炸真的很强的时候,OpenAI表示:我知道你们很震撼,但你们先别震撼,因为它可能预想中还要厉害。 根据OpenAI最新发表的技术论文显示,Sora的能力似乎比OpenAI最初认为的还要强大和不可思议。 这篇论文由OpenAI的多个研究人员共同撰写,揭示了Sora架构的关键方面:如 可以生成任意分辨率和宽高比的视频(高达1080p);能够执行各种图像和视频编辑任务,从创建循环视频到向前或向后扩展视频时间到更改现有视频中的背景。 要说Sora最强悍的还要数“模拟数字世界”的能力,其中的一个例子就是游戏。 按照OpenAI的合著者所说,在一项实验中,OpenAI向Sora提供了包含“Minecraft”一词的提示,并让它渲染出令人信服的类似《Minecraft》的HUD和游戏,以及游戏动态,包括物理运动,同时控制玩家角色。 有社交媒体账户展示了由AI生成的《我的世界》视频。 这段由Sora生成的视频,以玩家在平原生物群系中慢动作行走开始。通过观察整体的纹理外观,可以推测出Sora模型使用了具有不同天空纹理和灯光引擎的资源包以及着色器。 同时,显示生命值、饱食度和物品的快捷栏看起来也非常地准确。当玩家行走时,可以看见纹理完全不同的一只鸡和一只猪,也侧面证实了Sora使用资源包来生成游戏视频。 仅仅是在提示文字中加入“Minecraft”关键词,Sora就可以零样本展示出它自主控制游戏角色进行基本操作,同时渲染出游戏世界和游戏中动态变化的能力。 OpenAI认为,Sora的这种能够完整模拟游戏世界的能力,表明视频生成AI的发展正在朝着能够高度仿真物理和数字世界, 及其中的动物和人等对象 的方向迈进。 而之所以说Sora模型有潜力颠覆视频游戏世界,原因在于它与其他的AI视频生成器有着根本的不同。 Nvidia高级研究员Jim Fan博士就曾指出,比起图像生成器,Sora更像是一个“基于数字训练的物理引擎”,可以模拟许多真实或虚拟的世界。不仅能生成单个照片或视频,还能确定环境中每个对象的物理属性, 并根据这些计算渲染照片、视频或交互式3D世界(视情况而定)。 Sora 能够执行成千上万次计算来预测 物体之间的相互作用关系,从而生成游戏物理规则,这就使得它非常适合游戏世界的模拟。 当然, S ora目前在游戏模拟方面也存在一定的局限性。它还无法精确模拟像玻璃破碎这样的物理效果,也会在生成游戏交互时出现一些不合理的细节。 在生成的《Minecraft》游戏视频中,也存在类似的问题。当玩家靠近猪并触碰它时,它开始向后跑,但脸却是朝向玩家的…视频中 猪继续在地面上滑行,最终消失在远处的小屋里;不久之后,玩家走近湖旁的小屋,这时可以看到 湖里有几只“奇怪”的动物,从脸上看像牛,但又不太符合身体力学。 不少网友表示,虽然视频总体看起来像《Minecraft》,但在一些小细节上还是存在着肉眼可见的问题。 不过以OpenAI的能力,也不难预见,这些问题都会在未来的版本中不断改进和完善。那么问题来了,小伙伴们,你们怎么看? end 《显卡》《幻兽帕鲁》《模型》《会员》 可以在AMD显卡上跑CUDA软件么? 拉个Box即可渲染超写实单帧!C4D版AI渲染引擎出现了! 《显卡》《幻兽帕鲁》《模型》《会员》

  • Sora

    Sora降世,5大行业一夜变天!

    内容来源: 笔记侠(ID:Notesman) 责编 | 若风   排版  | 五月第   8057   篇深度好文:3863字 | 10 分钟阅读 商业思维 笔记君说: 年初六,OpenAI发布了“文生视频”的工具,Sora。AI技术变革又一次震撼了整个世界。 或许你又开始担心,AI发展那么快,将会取代自己。但请记住,危机时代也是变革时代,变革就是机会。 开工第一天,相信多数朋友已经坐在工位上,冥思苦想今年该怎么干,才能有个好结果。 往后望去,在过往几年中,大环境由牛转熊,干啥都事倍功半。 往前看去,未来充满了不确定性,让多数人看空不看多。 客观危机固然存在,但机会真的没有吗?我们该如何做多自己? Sora或将是我们2024年做多、做大自己的最好机遇!