-
Sora会对视频内容创作产生什么样的影响?
本文来自微信公众号: 互联网怪盗团 (ID:TMTphantom) ,作者:怪盗团团长裴培,题图来自:视觉中国 OpenAI的文生视频(text-to-video)AI模型Sora已经发布,并且引发了如洪水一般的新闻报道和评论。我不是AI技术专家,相信大家也早已通过其他渠道了解了Sora的技术细节。我只是想从内容创作者的角度谈一谈:Sora会对视频内容(包括短视频、中长视频和工业化影视内容)产生什么样的影响? 在我的朋友圈里,大家的观点是复杂的——有些人觉得Sora要革影视行业的命,甚至把视频内容带入“零基础创作”时代;有些人则认为Sora的实用价值还值得怀疑,尤其是不具备创作者所必须的“灵魂”。其实,上述观点都有道理,关键看怎么定义“内容创作”。 回顾历史,我们会发现,互联网发展的历程就是内容创作不断重新洗牌的历程,各种体裁、各种主题、各种工业标准的内容一直在此消彼长,“变”是常态,“不变”才不正常。AIGC的深入发展(包括但不限于Sora),将促使洗牌过程向更有利于多样性的方向发展。我们不妨使用一个高度简化的分析模型,将互联网原生内容创作者的能力划分为两个方向。 热点敏感性,也就是追逐热点、热梗的能力。毫无疑问,在任何一个时间点,社交媒体的大部分流量集中于极少数热点题材。能否把握热点题材,决定了创作者的短期爆发力,用更时髦的话讲就是“出圈能力”。 内容调性,也就是内容的特殊性、不可复制性。有些创作者的内容,让人过目不忘,带着鲜明的个性烙印,任何竞争对手都无法模仿。是否具备足够的、不可替代的调性,决定了创作者的长跑能力,或曰“可持续性”“粉丝黏性”。 强大的创作者无疑应该在两项能力上都获得高分,从而达到“既有爆发力又有长跑能力”的全能性,这是成为头部创作者的最高效的途径。2017~2018年的抖音、2019~2020年的B站都曾经涌现出一批这样的创作者,左手抓热点、右手深挖内容调性,从而在一夜之间跃居“全网顶流”之列(具体的例子就不举了)。这样的幸运儿不多见,但是每隔一段时间就会出现一些,他们是其他内容创作者梦寐以求的标杆。 如果一位创作者不具备抓热点的能力(或者不乐意这么做),那么他的最佳发展方向就是做一个优质垂类内容方,吸引符合自身调性的粉丝,依靠粉丝的口碑效应实现“慢热出圈”。这条道路最典型的例子莫过于罗翔:在多年的司法考试授课过程中,他以深入浅出和幽默风趣的调性逐渐积累了大批“自来粉”,最终依靠粉丝的自发传播实现了“出圈”。严格地说,多年前的罗永浩也算得上一个。一般而言,只要坚持足够长的时间,垂类内容方总归能迎来量变到质变的时刻,但是大部分人往往坚持不下去。 与此相对立的则是那些只会抓热点、不具备调性的创作者,他们的生存之道就是“下手快”,依靠千方百计地“蹭热点”乃至模仿抄袭,尽快完成“出圈”。这种创作者的生命周期一般很短,在瞬时爆发之后就陷入了沉寂,做的是“过把瘾就死”的短线生意。尤其是在短视频领域,MCN等专业机构经常会批量孵化此类账号,希望其中极少数能爆红,至于那些未能爆红的则沦为“炮灰”。 网生内容创作者的四个象限 很多用户会哀叹:“互联网社交媒体充斥着快餐内容,短视频、直播更是集快餐内容之大成,完全没有让人静下心来体验的干货!”可是这样的哀叹并不正确。或许网生内容的绝大部分确实是毫无调性和深度的“炮灰”,就像一瓶酒的大部分成分是水,但我们也不能因此得出“酒就是水”的结论。 事实上,只有在社交媒体时代,垂直、小众内容才第一次获得了稳定的输出渠道,从而赢得了被更多人看见的可能性。数以万计的“中腰部”垂类创作者,到了移动互联网时代才真正走上内容创作道路。如果一定要在“以前的时代”和“社交媒体时代”之间做出选择,我相信,绝大部分创作者会选择后者而非前者。 那么问题来了:Sora的诞生(及其掀起的生成式AI持续进化的浪潮),会更有利于上面哪一类创作者呢?我觉得答案非常明显——AIGC会有利于那些以内容调性取胜、“慢热出圈”的垂类内容方,不利于那些以抓热点取胜、“昙花一现”的跟风内容方。因为在AIGC时代,“抓热点”的门槛将越来越低,从而不再是内容方的一项核心竞争力。所以,“内容调性”的重要性就进一步攀升了,甚至可能成为取胜的唯一一张王牌。 不要误会,无论到什么时候,“热点话题”总是会此起彼伏地产生,也需要有创作者覆盖。然而,在比拼速度方面,人类创作者无论怎么努力也比不过AI。在文本新闻领域,AI的速度优势已经明显体现出来了:早在ChatGPT诞生之前,从财经到体育,从娱乐八卦到社会新闻,大量的“突发性事件”在第一时间的报道就是由“AI写手”自动撰写的;在ChatGPT大范围投入使用之后,几乎所有的突发事件报道都可以由AI进行了。 平时炒股的人可能对此有更深的体会——打开任何一个股票信息软件,无论是突发的财经新闻还是财报的即时解读,由AI撰写的比例均呈不断上升的态势;专业分析师和评论员正在退出这些“比拼手速”的即时信息工作,把精力集中到需要高度逻辑分析能力的深度解读上。 Sora的诞生,意味着上述趋势正式蔓延到了视频领域。假以时日,上述趋势会延伸到一切体裁、一切类型的内容上:对于热点话题的“时效性覆盖”将主要是AI的任务,比拼的主要是AIGC的效率,很难有人玩出与众不同的花样。目前在国内,已经有电商服务机构向带货主播推出“AI根据热梗自动撰写视频脚本”的服务,哪怕主播对这个热梗毫不了解,也可以依靠AIGC跟上潮流。可以想象,今后对热点话题的竞争将趋于高度同质化;经济学原理告诉我们,高度同质化的市场总是会走向供大于求,从而导致“抓热点”性质的内容严重过剩,以此为核心竞争力的内容方大部分将被淘汰出局。 而对那些以“调性”为核心竞争力的内容方而言,AIGC却可以成为一种强大的新武器。互联网用户仍然有追逐热点的天性,不过他们今后更需要的不是时效性内容,而是有特色的演绎或者有深度的解读。足球爱好者对此肯定深有体会:在资讯匮乏的年代,大家对足球媒体的首要诉求是快速全面的新闻覆盖;到了资讯极端发达的今天,新闻覆盖早已泛滥,大家的诉求转移到了对赛事的深度分析,以及带有互动性、趣味性的节目上面。优质的垂类创作者完全可以与AI达成分工:前者负责有调性的部分,即所谓“灵光一闪”;后者负责不需要调性的部分,即重复劳动——按照内容产业的黑话,可以称之为“行活儿”。 AI是一种工具,一种由人类创造、帮助人类解决问题的技术手段。从目前的形势看,只要AI不产生自我意识,它就不会具备所谓“原创性”,而仅仅是对人类现有知识的收集和整理——即使ChatGPT这样高级的生成式AI也不例外。OpenAI已经公布了Sora的技术细节,可以看到,其技术路线继承了此前公开的DALL-E文生图模型,虽然有一定程度的创新,但并非颠覆性的。显然,至少在当前的环境下,Sora不太可能产生真正的“原创性”,其产生视频的效率和感染力仍然高度依赖于个人用户的“调教”。 所以,与此前的一切生成式AI大模型一样,Sora在内容创作中的角色更接近MOBA游戏中的辅助:帮助C位更好地发挥自己的特点,让C位心无旁骛地输出,而不是自己代替C位去输出。强大的C位玩家借助强大的辅助可以如虎添翼,而不合格的C位玩家有了强大的辅助也很难翻盘。就以刚提到的“AI根据热梗自动撰写视频脚本”功能来说,有调性的创作者可以在此基础上进行修改,使之符合自己的调性,事半功倍地创作出优质内容;缺乏调性的创作者恐怕只能用它生产千篇一律的“垃圾”。 至此,我们可以得出一个结论——内容产业“强者恒强”的趋势,在AIGC时代会持续下去,只是其含义更加复杂,超过了“马太效应”的范畴:头部内容方当然会继续强大、继续享受时代的红利,但具备强大调性的垂类内容方也能享受时代的红利;对于这两者而言,未来二十年将是最好的时代。对于其他内容方而言,却将迎来最坏的时代。Sora再次确认了上面的趋势。 当然,在AI技术日新月异的今天,一切变化都可能发生,一切梦想或噩梦都有可能成真。如果经过一段时间之后,本文的观点被证伪了(或者部分证伪),那也是再正常不过的事情。能够生活在一个AIGC觉醒的年代,无论作为旁观者还是参与者,我们都是幸福的。重要的是对未来做出力所能及的思考和分析,至于其对错则不是特别重要。 本文来自微信公众号: 互联网怪盗团 (ID:TMTphantom) ,作者:怪盗团团长裴培 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End
-
Sora背后团队:应届博士带队,00后入列,还专门招了艺术生
本文来自微信公众号: 量子位(ID:QbitAI) ,作者:克雷西、鱼羊,题图来自:视觉中国 现在世界上最受关注的技术团队是哪一支? Sora团队,已经来到聚光灯中心。 不仅项目负责人评论区被挤爆,成了最火“景点”。 天才成员们的履历,也正在持续引爆关注。 来自 微博博主@ 木遥 大家伙发现,这支团队挺年轻: 两位负责人都是在去年 (2023年) 刚刚博士毕业 ,团队里甚至还有00后选手…… 但也是真的牛:Tim Brooks,DALL-E 3作者之一,GitHub 5.7k️项目InstructPix2Pix的作者,2021-2022年在英伟达实习时,就是视频生成研究的项目负责人。 William (Bill) Peebles,和谢赛宁合作,搞出了Sora的技术基础之一DiT(扩散Transformer)。论文还曾入围CVPR 2022最佳论文候选。 这支团队到底什么来头,咱们今天一起仔细聊聊。 应届博士带队 包括Tim和Bill在内,Sora的主要负责人一共有三名(以下排名不分先后)。 Tim Brooks,也是DALL-E 3的作者,去年1月刚从加州大学伯克利分校博士毕业。 Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。 2017年,本科毕业的Tim先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。 在伯克利读博期间,Tim的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。 回到校园后,Tim与导师Alexei Efros教授、同组博士后Aleksander Holynski(现在谷歌工作)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR 2023 Highlight。 去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E 3和Sora的工作。 值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。 据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项…… 而与Tim师出同门、晚毕业4个月的William Peebles,也是Sora的另一名负责人。 (Peebles在上用昵称Bill,在Linkedin上及论文署名时用大名William,下文一律用Bill指代。) Bill本科就读于MIT,主修计算机科学,参加了GAN和text2video的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。 毕业后正式开始读博之前,他还参加了Adobe的暑期实习,研究的依然是GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是Efros教授学生,现在在MIT)组有合作,并成为CVPR 2022最佳论文候选。 之后,学期开始,Bill到了伯克利Efros教授课题组攻读博士,研究成果多次入选SIGGRAPH、ICCV、CVPR等学术会议。 2022年5月,Bill到Meta进行了为期半年的实习,和谢赛宁(Bill开始实习时还未离开Meta)合作发表了DiT模型,首次将Transformer与扩散模型结合到了一起。 该成果被ICCV 2023录用为Oral论文。值得一提的是,OpenAI此次发布的Sora,被认为正是基于DiT构建的。 去年5月,Bill也从伯克利毕业,并入职OpenAI。 除了这两位去年加入的研究者,Sora团队的另一位负责人Aditya Ramesh则是OpenAI的“老人”。 Aditya是DALL-E的创造者,主导了三代DALL-E的研究,三个版本的论文当中他都是一作。 而这样一位主导三代DALL-E,如今又领导Sora团队的大神,却只有本科学历。 据LeCun介绍,Aditya本科就读于纽约大学,并在他的实验室参与过一些项目。 其间,Aditya就已经在研究生成式模型,并和LeCun共同发表论文。 毕业之后,Aditya本想继续深造,但在OpenAI的暑期实习中被留了下来,成为了正式研究人员。 00后已加入 Sora团队的本科生,还不止Aditya Ramesh一位。 前文提到,这支团队中有一位“00后”Will DePue,就是2022年才刚从密西根大学计算机系本科毕业的。 这位小哥大四的时候创业搞了个市场咨询公司DeepResearch,这家公司后来被Commsor收购。 2023年7月,小哥加入OpenAI。根据他的领英信息,他是在今年1月才刚刚加入Sora项目组的。 另外,David Schnurr和Joe Taylor也都没有博士学位。前者毕业于加州大学圣塔芭芭拉分校,后者毕业于美国旧金山艺术大学。 而正如Aditya Ramesh自己所说,Sora团队的不少成员都是DALL-E 3的作者。 包括两位华人Li Jing和Yufei Guo。 Li Jing是DALL-E 3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位。在Meta做了2年多博士后之后,Li Jing于2022年加入OpenAI。 华人作者中还有Ricky Wang,今年一月刚刚从Meta/Instagram跳槽到OpenAI,另外两位Yufei Guo、Clarence Ng没有太多公开资料。 新跳槽来的还有Conner Holmes,他在微软工作时以外援形式参与了DALL·E 3的推理优化工作,后来干脆加入OpenAI了。 最后,来看一眼完整作者名单: 从团队的组建情况和研究基础来看,Sora应该是OpenAI近半年来的最新成果,而非网传“早已有之但憋着不发”。 不过,Sora炸场,顶级人才又持续星聚,还是惊得众人开始重新考量OpenAI的技术领先性。 就在今天,作者释出的Sora新作,连“同一场景”下的多机位视频都整出来了。 图:Twitter@billpeeb 现在是视频生成,下一个又会是什么? 参考链接: [1] https://www.wpeebles.com/ [2] https://www.timothybrooks.com/about/ [3]http://adityaramesh.com/about.html 本文来自微信公众号: 量子位(ID:QbitAI) ,作者:克雷西、鱼羊 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End
-
Sora涌现,OpenAI又一次暴力美学的胜利|甲子光年
将 Scaling Law 进行到底。 作者|赵健 年前的 1 月 27 日,「甲子光年」参加了一场 AI 生成视频主题的沙龙,会上有一个有趣的互动:AI 视频生成多快迎来 “Midjourney 时刻”? 选项分别是半年内、一年内、1-2 年或更长。 昨天,OpenAI 公布了准确答案:20 天。 OpenAI 昨天发布了全新的 AI 生成视频模型 Sora,凭借肉眼可见的性能优势与长达 60s 的视频生成时长,继文本 (GPT-4) 和图像 (DALL·E 3) 之后,也在视频生成领域取得了“遥遥领先”。我们距离 AGI (通用人工智能) 又近了一步。 值得一提的是,明星 AI 公司 Stability AI 昨天原本发布了一个新的视频模型 SVD1.1,但由于与 Sora 撞车,其官方推文已被火速删除。 AI 视频生成的领头羊之一 Runway 的联合创始人、CEO Cristóbal Valenzuela 发推文表示:“比赛开始了 (game on) 。” OpenAI 昨天还发布了一份技术文档,但无论从模型架构还是训练方法,都未发布什么天才级的创新技术,更多是现有技术路线的优化。 但跟一年多以前横空出世的 ChatGPT 一样,OpenAI 的秘诀都是屡试不爽的 Scaling Law (缩放定律) ——当视频模型足够“大”,就会产生智能涌现的能力。 问题在于,大模型训练的“暴力美学”几乎已经人尽皆知,为什么这次又是 OpenAI ? 1.数据的秘密:从 token 到 patch AI 生成视频的技术路线主要经历了四个阶段:循环网络 (recurrent networks,RNN) 、生成对抗网络 (generative adversarial networ ks,GAN) 、自回归模型 (autoregressive transformers) 、扩散模型 (diffusion models) 。 今天,领先的视频模型大多数是扩散模型,比如 Runway、Pika 等。自回归模型由于更好的多模态能力与扩展性也成为热门的研究方向,比如谷歌在 2023 年 12 月发布的 VideoPoet。 Sora 则是一种新的 diffusion transformer 模型。从名字就可以看出,它融合了扩散模型与自回归模型的双重特性。Diffusion transformer 架构由加利福尼亚大学伯克利分校的 William Peebles 与纽约大学的 Saining Xie 在 2023…
-
Sora如何降维打击其他文生视频大模型?记者实测对比→
Sora不仅体现了提示词中的全部细节,而且还很好保持了人物的连贯性,使得该视频几乎可以“以假乱真”。 当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,另外该视频中的背景广告牌虽然酷似日文,但却是似是而非的“日文”。 全文3039字,阅读约需8分钟 新京报贝壳财经记者 罗亦丹 编辑 岳彩周 校对 卢茜 OpenAI的文生视频大模型Sora已经发布几日,其冲击力依然不减。 2月18日,新京报贝壳财经记者进行了Sora与其他文生视频大模型的对比测试,发现Sora在时间和视频生成质量上均对“同行”产生了“降维打击”:其他文生视频大模型仅能生成3至4秒的视频,而Sora生成的视频时间最多可达1分钟,且景物也更加清晰稳定、符合描述。 不过,随着越来越多使用Sora制作的视频出现以及部分技术细节的公开,业界开始对其进行全方位审视,其中,赞扬和惊叹声不少,但Sora生成的视频也被发现存在诸多不合理之处。 ━━━━━ 文生视频对比实测: Sora从“动图”升级到“短片” “一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的,创造了一个五颜六色的灯的镜面效果。许多行人走来走去。”这是OpenAI官网介绍Sora时,出现的第一组提示词。 在OpenAI推出Sora之前,文生视频领域的创业公司主要包括Pika、Runway等,为了验证Sora的能力,新京报贝壳财经记者将上述同样的提示词输入Pika文生视频模型,以及Runway旗下的Gen-2video文生视频模型进行了实测。 ▲在相同提示词下,新京报贝壳财经记者使用Pika生成的视频截图。 ▲在相同提示词下,新京报贝壳财经记者使用runway旗下Gen-2video生成的视频截图。 ▲OpenAI官网上Sora生成的视频。 贝壳财经记者发现,在相同的提示词下,Pika仅能生成3秒的视频,Gen-2video则可以生成4秒的视频。其中,Pika的视频为“时髦女人”的背影,无法体现她“戴着太阳镜,涂着红色的口红”的描述,不过对于提示词中“潮湿反光的街道和五颜六色灯的镜面效果”体现得较好,但整体上视频较为模糊。 Gen-2video则跳出了“无法输入这么多提示词”的弹窗,并根据能够输入的部分生成了一个4秒的视频,该视频相比Pika显然精细很多,也符合提示词描述的人物形象,包括“街道、人群、黑钱包”等。 但可以发现,无论是Pika还是Gen-2video,都忽略了“一件红色的长裙”这个细节,且贝壳财经记者通过观看视频发现,这两段视频仍能看出AI生成的影子,特别是Gen-2video的人物脸部,有细微的形变,这正是AI生成视频的特点之一:难以始终保持同一人物的连贯性。 而Sora不仅体现了提示词中的全部细节,而且还很好地保持了人物的连贯性,使得该视频几乎可以“以假乱真”。当然,如果仔细观察,可以发现该视频中人物的脚步在某几个帧会出现不自然的扭曲,以及该视频中的背景广告牌虽然酷似日文,但由于目前AI还无法直接在视频中“认识”文字,其只能生成似是而非的“日文”,这都是AI生成视频的特点之一。 但即便如此,Sora还是用事实显现出了同其他文生视频大模型的代差。 在谷歌和推特都有从业经历的AI创业者Gabor Cselle也发布了使用相同提示词,在其他四个文生视频模型中“复现”Sora“穿过下雪、樱花飞舞的东京街道……”的场景,并表示“其他模型达不到能和Sora比较的效果”。 ▲Gabor Cselle社交账号截图。 在国内,也有不少AI从业者直观地感受到了Sora带来的冲击。 清华大学沈阳教授团队一直聚焦AI在各个领域的应用,并也一直在使用AI模型进行文生视频的操作。2月17日,他在朋友圈发布了一条团队成员花两天制作的“半失败”AI视频,并表示“从这里可以看出和Sora的差距,我让她暂时放弃这个作品,等算法升级再重做一下。” 对于Sora出现后,使用AI制作视频的工作能否继续,沈阳回复贝壳财经记者“慢慢弄,往前挪呗”。 ━━━━━ 理解物理世界 颠覆影视、游戏行业 Sora是“通用世界模型”吗? 为何Sora能够在视频生成的质量上明显领先同业产品?OpenAI在官方网站上表示,Sora是能够理解和模拟现实世界的模型的基础,相信这一能力将是实现通用人工智能的重要里程碑。不过,Sora还存在很多不完善之处,仍然处于世界模型研究应用的初期阶段。 什么是世界模型?贝壳财经了解到,实际上runway公司在去年12月就提出过要开发通用世界模型(General World Model),用其旗下的Gen-2模型来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。” 从效果上看,目前OpenAI已经通过Sora部分做到了这一点,因为只有理解物理世界的运行法则,文生视频模型才能创造出更加逼真的视频。英伟达高级科学家Jim Fan就对此表示,Sora是一个数据驱动的物理引擎,“它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解。” 而理解现实世界的物理法则,也正是通往通用人工智能这一“终极目标”的必经之路。 对此,不少科技圈名人都发出了惊叹,马斯克直接在社交平台上发布短评“GG世界”(GG是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”)。 360公司董事长周鸿祎则直接在朋友圈发文称,一旦AI能够接上摄像头,观看并理解世界上所有的电影,它对世界的理解能力将远远超过仅仅通过文字学习所能达到的水平。在这种情况下,实现通用人工智能不再是遥不可及的梦想。周鸿祎甚至预测,这一天可能在一两年内就会到来,而不是十年或二十年。 在现实层面,有更多人担心文生视频大模型可能直接冲击影视和游戏行业。美国旧金山早期投资人Zak Kukoff预测,在5年内,一个不到5人的团队将可能用文生视频模型制作出一部票房收入超过5000万美元的电影。 值得注意的是,日前大火的游戏《幻兽帕鲁》的开发团队就仅有4人,有许多人质疑该团队使用了AI生成技术制作游戏角色,以节省成本。而根据OpenAI 发布的最新Sora技术报告,Sora能够模拟视频游戏的数字化过程,Sora能在控制 Minecraft 游戏角色进行基本操作的同时,高质量动态渲染游戏世界。这意味着,个人开发制作游戏的门槛可能会被进一步降低。 前阿里巴巴副总裁,Lepton AI公司创始人贾扬清则直接评价Sora“真的非常牛”,他表示Sora的问世可能会给对作OpenAI的公司带来一波被大厂FOMO(害怕错过机会而导致的收购)收购的机会。贾扬清预测,大模型市场长期仍将呈现闭源寡头的格局,开源大模型仍然需要一段时间才能追赶上,而从算法小厂的角度来看,要么在算法上与OpenAI媲美,要么深耕垂直领域的应用,要么选择开源道路;最后,基础设施的需求将继续猛增。 值班 编辑 古丽 过年祝福指南(真心话版 “我感觉好像没有家了”,听懂年轻人的言外之意 员工被曝悄悄尝面?胖东来通报 最近微信改版 经常有读者朋友错过推送 星标🌟“新京报” 及时接收最新最热的推文 点击“在看”,分享热点👇
-
周鸿祎:Sora意味着AGI实现将从 10 年缩短到 1 年!
作者:任佳敏 来源:i黑马(ID:iheima) 当我们还沉浸于春节的喜悦和忙碌中时,OpenAI悄悄抛出一个超级王炸! 2024年2月16日, OpenAl发布首个文生视频模型——Sora,再次震惊世界! 在震惊之余,不少网友担忧,Sora将彻底颠覆AI视频行业和传统影视广告行业,“掀翻老牌好莱坞人的饭碗”。 这意味着,人类的固有优势领域进一步沦陷,失业人群范围或将继续扩大! Sora 到底是什么? 通俗点说,Sora能直接用文本生成长达60秒的1080p复杂场景视频,具有良好的连贯性和高质量,直接吊打当前市面上最强的 Pika 和 Runway。 有网友将 Sora 的惊艳之处总结为三点:60秒超级时长、单视频多角度镜头、可读懂世界模型。 1、60秒超级时长。 据了解,行业中大部分AI视频公司,仍在想尽办法解决4秒短视频的连贯性。而Sora一出现就是60秒一镜到底,并能从大中景无缝切换到人物脸部特写。 2、单视频多角度镜头。 在真正的拍摄场景中,实现多镜头场景效果,需要设置多个拍摄机位,以及后期复杂的剪辑流程。 目前大部分AI视频,也都是单镜头。 Sora却在60s视频中,实现了多角度镜头丝滑切换,每一个镜头都极为精细,且主体还能保证完美的一致性。 3、可读懂世界模型。 有专业人士表示,世界模型最难的,是收集、清洗数据,但Sora直接做到了。Sora 实现了对现实世界的理解和对世界的模拟两层能力。换句话说,这样生成的视频将更加真实。 有专家认为,OpenAI最终想做的,不只是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。也就是为真实世界建模。而Sora,只是验证了其可行性,也是一个关键的里程碑。 这些,或许会给AI视频行业、传统影视公司、虚拟拍摄、广告等行业领域,带来致命冲击和深远影响。 比如,很多研发AI视频技术的头部公司,可能在一夜之间前功尽弃,自此被Sora拖在地上使劲摩擦; 比如,未来的电影和短片,或许会由无数个60s短视频组合而成,说不定Sora还会生成60秒以上的视频; 比如,小说作家本身就是导演,可以自编自导自演,而不再需要等待大导演和明星的垂青; 比如,国内百模大战会出现新方向,即将 LLM 和 Diffusion结合起来训练,以实现对现实世界的理解和对世界的模拟两层能力。 比如,Open Al训练将会阅读大量视频,对世界的理解将远超文字学习,AGI的实现或将从10年缩短到1年。 对此,360集团创始人、董事长周鸿祎,也在社交媒体上发表了自己的见解。 除了个人的观察,还理性回应了“Sora 对影视工业的重大打击”、“ Sora将击败抖音、TikTok”等传言,并指明了大模型训练的新方向,非常有参考性价值,这里分享给大家。 以下是正文内容: 周鸿祎年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个,从 Gemini、英伟达的 Chat With RTX到 OpenAl发布 Sora,大家都觉得很炸裂。 朋友问我怎么看 Sora,我谈几个观点,总体来说就是我认为AGI很快会实现,就这几年的事儿了: 第一,科技竞争最终比拼的是让人才密度和深厚积累。 很多人说 Sora的效果吊打 Pika和Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。 第二,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。 今天很多人谈到 Sora 对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok的创作工具。 第三,我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了,但实际上跟 4.0 比还有一年半的差距。 而且我相信 OpenAl手里应该还藏着一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,包括 AIGC。奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的 Al 差距可能还在加大。 第四,大语言模型最牛的是,它不是填空机,而是能完整地理解这个世界的知识。 这次很多人从技术上、从产品体验上分析 Sora,强调它能输出 60 秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象,最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作,并没有适用物理定律。 但 Sora 产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。 所以我理解,这次 OpenAl 利用它的大语言模型优势,把 LLM 和 Diffusion 结合起来训练,让 Sora 实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。 这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具。比如生物医学,蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。 这次 Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。 原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。 所以,这次 Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。 第五,Open Al训练这个模型应该会阅读大量视频。 大模型加上 Diffusion…
-
OpenAI今天刷屏的视频模型,是如何做到这么强的?
*本文原创发布于差评孵化的商业财经类帐号 “ 知危 ” 今天凌晨,OpenAI 发布了新的文生视频大模型,名为 “ Sora ”。 Sora 模型可以生成最长 60 秒的高清视频,生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。 相信大家已经在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示视频,由于生成内容的安全问题 Sora 还未开放测试,我们无法获取更多差异化信息,所以知危编辑部在此不再重复展示 Sora 模型的效果。 下面,我们想重点探讨为何 Sora 模型的效果看起来远超市面上我们见过的其他文生视频模型,他们都做了什么 ? 以防您没在朋友圈看到,我们仍放一个示例视频 示例视频的生成提示词为:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。 首先,在文生视频 领域,比较成熟的模型思路有循环网络( RNN )、生成对抗网络( GAN )和扩散模型( Diffusion models ),而本次OpenAI 推出的 Sora 则是一种扩散模型。 虽然 GAN 模型之前一直很火,但图像和视频生成相关的领域,现在处于被扩散模型统治的阶段。 因为扩散模型是有非常卓越的优越性的,相较于 GAN,扩散模型的生成多样性和训练稳定性都要更好。而最重要的是,扩散模型在图片和视频生成上有更高的天花板,因为 GAN 模型从原理上来看本质上是机器对人的模仿,而扩散模型则更像是机器学会了 “ 成为一个人 ”。 这么说或许有些抽象,我们换一个不严谨但通俗好理解的例子: GAN 模型像是一个勤奋的画家, 但不太受控制,因为画家( 生成器 )一边不停对着先作( 训练源 )画画,然后另一边老师( 判别器 )也不停打分。就在大战无数个回合之后,画家和老师疯狂升级进步,最后直到画家画出逼真的画,但整个过程不太好控制,经常练着练着就走火入魔,输出一些谁也看不懂的玩意儿。同时,他的提升过程本质上是对先作的不断模仿,所以他还缺乏创造力,导致天花板也潜在会比较低。 而扩散模型,则是一个勤奋且聪明的画家,他并不是机械的仿作,而是在学习大量先作的时候,他学会了图像内涵与图像之间的关系 ,他大概知道了图像上的 “ 美 ” 应该是什么样,图像的某种 “ 风格 ” 应该是什么样,他更像是在思考,他是比 GAN 更有前途的画家。 也就是说,OpenAI 选择扩散模型这个范式来创造文生视频模型,在当下属于开了个好头,选择了一个有潜力的画家来培养。 那么,另一个疑问就出现了,由于大家都知道扩散模型的优越性,除了 OpenAI 以外,同样在做扩散模型的还有很多友商,为什么 OpenAI 的看起来更惊艳? 因为 OpenAI 有这样一个思维:我曾经在大语言模型上获得了非常好的效果、获得了如此巨大的成功,那我有没有可能参考这个经验获得一次新的成功呢? 答案是可以。 OpenAI 认为,之前在大语言模型上的成功,得益于 Token ( 可以翻译成令牌、标记、词元都可,翻译为词元会更好理解一些 ),Token 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是,他们创造了对应 Token 的 “ Patch ” 概念 ( 块,如果 Token 翻译为词元理解的话,Patch 或许可以被我们翻译为 “ 图块 ” )用于训练 Sora 这个视 频模型。 实际上,在 大语言模型中,Token 的应用之所以会如此成功,还得益于 Transformer 架构,他与 Token 是搭配着来的,所以 Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构。 ( 主流视频生成扩散模型较多采用…
-
Sora可生成游戏?!
点击上方蓝字 CG世界 关注我们 “ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ” 中国很有影响力影视特效CG动画领域自媒体 提问:最近业内最热话题是什么? 相信小伙伴们都可以抢答成功,那必须是OpenAI最新推出的黑科技:首个AI生成视频模型Sora。 你永远可以相信OpenAI的实力,不出手则已,一出手惊人。作为行业的领头羊,前有 DALL-E、ChatGPT等在各领域收获巨大成功的优秀工具,现在又来了个能通过文本生成逼真视频而震惊全网的Sora,这也预示着人工智能领域的又一重大进步。 Sora只需要几行提示,仅仅根据文本描述就能生成令人惊叹的视频。就在我们感叹这款新王炸真的很强的时候,OpenAI表示:我知道你们很震撼,但你们先别震撼,因为它可能预想中还要厉害。 根据OpenAI最新发表的技术论文显示,Sora的能力似乎比OpenAI最初认为的还要强大和不可思议。 这篇论文由OpenAI的多个研究人员共同撰写,揭示了Sora架构的关键方面:如 可以生成任意分辨率和宽高比的视频(高达1080p);能够执行各种图像和视频编辑任务,从创建循环视频到向前或向后扩展视频时间到更改现有视频中的背景。 要说Sora最强悍的还要数“模拟数字世界”的能力,其中的一个例子就是游戏。 按照OpenAI的合著者所说,在一项实验中,OpenAI向Sora提供了包含“Minecraft”一词的提示,并让它渲染出令人信服的类似《Minecraft》的HUD和游戏,以及游戏动态,包括物理运动,同时控制玩家角色。 有社交媒体账户展示了由AI生成的《我的世界》视频。 这段由Sora生成的视频,以玩家在平原生物群系中慢动作行走开始。通过观察整体的纹理外观,可以推测出Sora模型使用了具有不同天空纹理和灯光引擎的资源包以及着色器。 同时,显示生命值、饱食度和物品的快捷栏看起来也非常地准确。当玩家行走时,可以看见纹理完全不同的一只鸡和一只猪,也侧面证实了Sora使用资源包来生成游戏视频。 仅仅是在提示文字中加入“Minecraft”关键词,Sora就可以零样本展示出它自主控制游戏角色进行基本操作,同时渲染出游戏世界和游戏中动态变化的能力。 OpenAI认为,Sora的这种能够完整模拟游戏世界的能力,表明视频生成AI的发展正在朝着能够高度仿真物理和数字世界, 及其中的动物和人等对象 的方向迈进。 而之所以说Sora模型有潜力颠覆视频游戏世界,原因在于它与其他的AI视频生成器有着根本的不同。 Nvidia高级研究员Jim Fan博士就曾指出,比起图像生成器,Sora更像是一个“基于数字训练的物理引擎”,可以模拟许多真实或虚拟的世界。不仅能生成单个照片或视频,还能确定环境中每个对象的物理属性, 并根据这些计算渲染照片、视频或交互式3D世界(视情况而定)。 Sora 能够执行成千上万次计算来预测 物体之间的相互作用关系,从而生成游戏物理规则,这就使得它非常适合游戏世界的模拟。 当然, S ora目前在游戏模拟方面也存在一定的局限性。它还无法精确模拟像玻璃破碎这样的物理效果,也会在生成游戏交互时出现一些不合理的细节。 在生成的《Minecraft》游戏视频中,也存在类似的问题。当玩家靠近猪并触碰它时,它开始向后跑,但脸却是朝向玩家的…视频中 猪继续在地面上滑行,最终消失在远处的小屋里;不久之后,玩家走近湖旁的小屋,这时可以看到 湖里有几只“奇怪”的动物,从脸上看像牛,但又不太符合身体力学。 不少网友表示,虽然视频总体看起来像《Minecraft》,但在一些小细节上还是存在着肉眼可见的问题。 不过以OpenAI的能力,也不难预见,这些问题都会在未来的版本中不断改进和完善。那么问题来了,小伙伴们,你们怎么看? end 《显卡》《幻兽帕鲁》《模型》《会员》 可以在AMD显卡上跑CUDA软件么? 拉个Box即可渲染超写实单帧!C4D版AI渲染引擎出现了! 《显卡》《幻兽帕鲁》《模型》《会员》
-
“今天,所有VC的会上都在谈Sora”
本文来自微信公众号: 投中网(ID:China-Venture) ,作者:刘燕秋、蒲凡,原文标题:《“今天,所有VC的会上都在谈Sora”》,头图来自视觉中国 仿佛梦回2023。去年年初,ChatGPT引发了普通人澎湃的讨论热情,此后海内外在AI大模型投资上展开了军备竞赛。 龙年刚一开年,OpenAI又打开了新局面,这次火的是文生视频。2月16日凌晨,OpenAI发布了文生视频大模型Sora。Sora能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。 这类应用早就有了,但Sora的呈现仍然惊艳,视频中的主体稳定可控,可实现多角度切换,时长方面也有突破,最长能生成60秒视频。 不愧是OpenAI。尽管Sora仍处于开发早期阶段,但它的推出已经标志着生成式AI迎来一个里程碑。 资本端同时传来新消息。在完成最新交易后,OpenAI的估值已飙升至800亿美元以上。这笔交易来自于Thrive Capital精心策划的要约收购。 尽管OpenAI和Thrive Capital对此皆不予置评,但小红书博主“Shannon”昨天发的帖子很有情绪的代表性,“明天所有fund开会的议题都有OpenAI的Sora”。 只不过,和去年相比,投资人的心态变了。不是人人都有机会投中OpenAI,但OpenAI的能力边界却实实在在影响着一批创业公司和背后的投资人。 “水到渠成”和“令人发指” 首先需要明确,“文生视频大模型”并不是一条全新的赛道。在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型,例如Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。 更重要的是,上述已有的“视频大模型”,隐隐有了生产力工具的影子。 以Runway为例,与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同,Runway的三名创始人Valenzuela、Alejandro Matamala和Anastasis Germanidis来自于纽约大学艺术学院,他们共同看到了“人工智能在创造性方面的潜力”,于是决定共商大计,开发一套服务于电影制作人、摄影师的工具。 这层基因打底,相比科技公司的“车库文化”,Runway的发展轨迹更像“横店影视城奋斗史”:先开发了一系列细分到不能再细分的专业创作者辅助工具,针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求;随后参与到图像生成大模型Stable Diffusion的开发过程中,积累AIGC在静态图像生成方面的技能点,并获得了参与《瞬息全宇宙》等大片制作的机会——这些影片在宣发中曾经有过详细描述,出品人们感叹他们的加入让后期团队“保持了一个超乎常规的小规模”状态,影视同行们惊叹很多许多复杂的特效制作(比如《瞬息全宇宙》里那两块对话的石头),工期已经从“好几天”缩短到了“几分钟”。 等到2023年2月,Runway发布第一代产品Gen-1,普通用户已经能通过iOS设备进行免费体验,范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能,还包含了“文本转视频”,从而使得Gen-1成为了首批投入商用的文生视频大模型;2023年6月,他们发布了第二代产品Gen-2,训练量上升到了2.4亿张图像和640万段视频剪辑。 2023年8月,爆火B站、全网播放量超过千万、获得郭帆点赞的AIGC作品《流浪地球3预告片》正是基于Gen-2制作。根据作者@数字生命卡兹克 在个人社媒上的分享,整段视频的制作大体分为两部分——由MidJourney生成分镜图,由Gen-2扩散为4秒的视频片段——最终获得素材图693张、备用剪辑片段185条,耗时5天。半年之后,@数字生命卡兹克 再次通过“MJ V6画分镜-Runway跑视频”制作了一段3分钟的故事短片《The Last Goodbye》,投稿参赛Runway Studios(Runway专门为企业级客户提供定制化服务的部门)所组织的第二届AI电影节Gen48。 换句话说,实际上至少在一年以前,“文生视频大模型”就已经拥有足够的关注度,其目前用户规模也被远远低估。 Runway的联合创始人Valenzuela在C轮融资后透露,除了像New Balance这样的世界500强客户,他们还拥有“数百万个人创作者”。 除此而外,Sora所展现出来的“精准的物理世界还原能力”,也并不是OpenAI独自探索的AI领域。马斯克就在Sora发布的两天半后,也就是2月18日,在科技播客栏目“DrKnowItAll”里留言,“这种精准还原现实世界物理规律的虚拟世界生成能力,特斯拉已经差不多快掌握一年了……只不过因为素材来自车载摄像头,所以视频看上去没那么有趣”。 OpenAI在同期发布的技术论文《Video generation models as world simulators》也明确Sora更像是“数据驱动的物理引擎”,通过大模型的持续扩散来“高性能地模拟物理世界或者数字世界中的人、动物、其他物体”,因此仍然拥有“同行们都会面临”的局限性,例如“很难准确模拟复杂场景的物理原理,并且无法理解因果关系,比如Sora生产一段人咬饼干的片段,饼干可能不会出现咬痕”。 真正带来压迫感的,或许是Sora不可思议的进化速度。 从技术层面看,无论是“拥有精准物理规则的真实世界”“支持60秒视频生成”还是“单视频多机位”都可以被形容为水到渠成,然而正如上面所提到的——如今看起来傻傻的、只支持生成“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2其实是2023年6月发布的产品,距离Sora的发布日不过8个月。 2023年11月,Meta发布的视频生成大模型Emu Video看起来在Gen-2上更进一步,能够支持512×512、每秒16帧的“精细化创作”,但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频,并且根据上面提到的开发者技术论文,Sora还能够执行一系列图像和视频编辑任务,从创建循环视频到即时向前或向后延伸视频,再到更改现有视频背景等。 而如果要死磕这种不可思议的进化速度,除了“神秘的外星文明”,最现实的解释恐怕只有“海量烧钱”。 作为Runway半个领路人的Stability AI近两年周期性地遭遇“现金流压力”,一会儿传闻高层正在积极探索出售公司,一会儿又流传着早期投资者Coatue Management的内部信,直指“Stability AI的财务状况令人担忧”,建议CEO Emad Mostaque原地辞职。最揪心的传闻是,为了让亚马逊相信自己不会拖欠高达7500万的云服务费用,身为前对冲基金经理的Emad Mostaque选择以个人财产作为担保。 然而从融资的角度看,Stability AI做到了赛道的天花板,其在2022年10月完成超过1亿美元的融资后,估值早早来到了独角兽级别。Emad Mostaque在去年7月的一次采访中忍不住直发狂暴言论,他说:“Bard AI只是因为在宣传片中提供了不准确的信息,就造成了每天超过1000亿美元的损失……人工智能作为基础设施所需的投资总额可能为1万亿美元,这会是人类有史以来最大的泡沫”。 知乎上,一位叫做“像素炼金师”的创业者坦承了他在目睹Sora发布后的心路历程:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。” 估值800亿和领头羊的边界 无论怎样,OpenAI再次印证了AI“巨无霸”的地位。看似无远弗届的能力,支撑其估值在不到10个月的时间里增长了两倍。CB Insights的数据显示,OpenAI目前是世界上最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。 拓展模型能力的同时,OpenAI还在推进多元化的战略。尤其是在半导体领域,奥特曼正与潜在投资者、半导体制造商和能源供应商等各种利益相关者接触。他甚至在考虑成立一家独立于OpenAI的新公司,进入AI芯片行业。 这笔交易也揭示了,奥特曼之于OpenAI,仍然是不可或缺的角色。原本在去年11月,OpenAI便将敲定最新的融资交易,但当时奥特曼遭遇了解雇风波。交易有没有受到影响不知道,总之结果是,770名员工中的700多人最终签署了请愿书,要求他复职。 细看这轮融资,不是发行新股,而是准许OpenAI员工对外出售所持股份。这对于OpenAI来说并不新鲜。2023年,Thrive Capital、红杉资本、Andreessen Horowitz和K2 Global等风险投资巨头也采取了类似的做法,参与OpenAI的要约收购,当时该公司的估值已经达到290亿美元。 那么,OpenAI的边界在哪里? 这个问题不仅事关OpenAI的估值,也关乎大大小小生成式AI创业公司的前景。 原本在视频生成这个赛道上,海外已经有几家创业公司卡位。最知名的莫过于前文所述的Runway。另一个领头羊是Pika,创立于去年4月,11月宣布完成了总计5500万美金的A轮及天使轮融资,估值达2.5亿美元。Pika由郭文景和孟晨琳共同创立,两人都曾是斯坦福大学人工智能实验室的博士生,履历亮眼。郭文景还被誉为“华裔天才少女”。 OpenAI会冲击这些公司吗?别急,Sora 公开后,有海外博主已经对几家公司的产品做了对比。他给Sora、Pika、Runway和Stable Video四个模型输入了相同的prompt。结论是,Sora 在生成时长、连贯性等方面都有显著的优势。 必须要说,这几家做文生视频的公司都开发了自己的大模型,而非纯粹的基于别人的大模型来开发应用场景的那类公司。但即使有技术护城河,要抵挡OpenAI的冲击也没那么容易。 当然,这并不是说,纯做应用的公司完全没有前途了,背后也许涉及到一个发展阶段的问题。 去年,红杉资本的两位合伙人再次发表文章,复盘一年前自己对市场的看法。他们指出,其中一个预测错误是,垂直分离尚未发生。“我们仍然相信应用层公司和基础模型提供商之间会有分离,模型公司专注于规模和研究,应用层公司专注于产品和UI。但在实际上,这种分离还没有干净利落地发生。最初面向用户的应用中,最成功的那些都是垂直整合的公司。” 国内也是类似的局面 有投资人告诉我,他们关注的一家AIGC公司也在开发基于特定产业数据的独有的模型,而不是仅仅调用别人的API。“不然很难指望他们在应用层面做出真正差异化的东西。” 回头看,过去一年,OpenAI的每一次技术突破,都会拓展资本对它的想象空间,但同时也堵上一部分创业公司的前进之路。 “AGI去年已经把软件行业毒死了。现在公众只是在目睹毒发的过程。”有创业者在转发一则Sora的消息时,在朋友圈评论道。 所以,AI投资难,尤其是应用层。“重点还是界定清楚,什么东西能在大模型的演进过程中受益,什么东西又在大模型演进过程中被瓦解。”一位AI投资人曾模糊地告诉我。但OpenAI的超能力使得这个关键问题没那么容易预判。 再看大模型。智谱AI去年一年的估值已经翻了6倍多,有投资人给出200亿估值。我最近也听说,百川智能和MiniMAX,最近都传出新一轮融资已到位的消息。OpenAI出新招,这些公司不可能不焦虑。好在弹药尚且充足。Sora的诞生,无疑又将引发新一轮追赶。 借着Sora火热,AI的相关概念必将再炒一波,尤其是英伟达这类充当卖水人,又可以大赚一笔了。但对于一级市场的创业者和投资人而言,我只能说,暂时,继续卷罢。 本文来自微信公众号: 投中网(ID:China-Venture) ,作者:刘燕秋 蒲凡 本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com如对本稿件有异议或投诉,请联系tougao@huxiu.com End
-
Sora降世,5大行业一夜变天!
内容来源: 笔记侠(ID:Notesman) 责编 | 若风 排版 | 五月第 8057 篇深度好文:3863字 | 10 分钟阅读 商业思维 笔记君说: 年初六,OpenAI发布了“文生视频”的工具,Sora。AI技术变革又一次震撼了整个世界。 或许你又开始担心,AI发展那么快,将会取代自己。但请记住,危机时代也是变革时代,变革就是机会。 开工第一天,相信多数朋友已经坐在工位上,冥思苦想今年该怎么干,才能有个好结果。 往后望去,在过往几年中,大环境由牛转熊,干啥都事倍功半。 往前看去,未来充满了不确定性,让多数人看空不看多。 客观危机固然存在,但机会真的没有吗?我们该如何做多自己? Sora或将是我们2024年做多、做大自己的最好机遇!
-
海南,为何迟迟不建跨海大桥?
本文来自微信公众号: 国民经略(ID:guominjinglve) ,作者:凯风,原文标题:《机票破万!海南,为何迟迟不建跨海大桥?》,题图来自:视觉中国(海口港码头) 海南与内地之间,还缺一座跨海大桥。 一 “尔滨”热度未退,海南重回热搜。 “来时一千,回去一万多”。 这个春节,海南旅游返程出岛难问题再次登上热搜,主要城市假期机票已经售罄,从三亚到北京、上海等地所余机票价格一度飙升到万元,仍旧供不应求。 航空如此,汽车轮渡也是如此。春节之前广东徐闻港一度堵车数十公里,而春节之后的海口港同样排起长龙,新能源车到月底船票基本售罄。 面对这一问题,海南并非毫无行动。 无论是改用宽体机型执行三亚航线,还是加大过海票额投放力度,抑或“想方设法让旅客出得去进得来”的表态。 可以说,当地已经做到目前能做到的一切,但仍旧难以解决问题。 进岛不易出岛难,并非首次出现。究其原因,是过度集中的短期需求与有限的常态供给之间的矛盾,供求关系紧张,自然反馈到价格上。 众所周知,海南是国际旅游岛,旅游业是名副其实的支柱产业,而春节又是旅游的最高峰,春节客流占到全年客流的8%左右,而旅游收入更是占到全年的1/10以上。 数据显示,2024年春运海南客流大增,整体同比增长30%以上,无论是航空客运、铁路还是轮渡客流量,都超过2019年同期。 图源:百度迁徙 其中,三亚又是海南最大的旅游城市,游客接待量占全省的1/4,而旅游总收入超过了一半,这就让三亚机票供求关系显得更为紧张。 这些年,海南一直在加大进出岛交通建设,极尽可能挖掘交通潜力。 海南两大机场,海口美兰机场、三亚凤凰机场旅客吞吐量位居全国前列,力压众多省会城市,就是体现。(参阅 《大洗牌!中国机场10强城市,又变了》 ) 然而,旅游需求存在明显的周期性,淡季与旺季有着天壤之别,无论是机场还是轮渡都不可能无限扩容,必须要考虑投入与回报的匹配度。 这种局面决定了,海南春运期间的进岛出岛难问题,一时仍旧难以从根本上扭转。 二 供求问题是短期的,从根本上讲,琼州海峡才是关键所在。 海南岛是我国第二大岛,面积仅次于台湾,与内地之间有着琼州海峡横隔。 这道海峡最短处不到20海里,不到港珠澳大桥的一半,仅有台海通道最窄处的1/10。 根据凯风《中国城市大变局》一书,虽然距离不长,但长期以来,海南岛一直孤悬海外,迄今仍未有跨海大桥或海底隧道贯通,通行只能依靠航班或轮渡,一直缺乏铁路这种大运量的交通工具直接贯通。 直到2004年,海南岛才告别没有岛外铁路连通的历史。当年,中国首条跨海铁路粤海铁路通道正式开通客运,从广州到海口、三亚有了第一次有了直达火车。 然而,直达火车,靠的不是隧道或大桥,而是轮渡。到了港口码头,火车也要分拆编组,借助专用渡船穿越海峡,全程耗时约3个小时。 由于海峡的存在,广州到海口不到600公里的距离,火车最快也要耗费11个小时。 显然,天然地理环境的限制,无疑严重约束了海南交通的发展空间。目前,全国正在进入“市市通高铁”时代,海南岛与内陆地区之间的交通劣势进一步凸显。 琼州海峡并非没有规划高铁。 从湛江到海口,设计时速350公里、横跨琼州海峡的湛海高铁,已被列入广东海南两省的政府工作报告,即将开工建设。 高铁一旦开通,无疑将加大海南岛的交通通行能力。 不过,湛海高铁仍旧采取轮渡渡海,虽然有了“人过海”的创新,但在直达高铁面前,效率必然大打折扣。 要知道,海南岛2025年封关在即,未来全岛将成为一个“境内关外”区域,实行“一线放开、二线管住、岛内自由”的管理制度,届时交通问题将会更为凸显。 在海南与广东乃至广大的内陆地区之间,需要一条高速便捷的跨海通道进行连接。 三 海南建跨海大桥,为何迟迟难以推进? 事实上,早在50年前,国家层面就对琼州海峡跨海通道进行研究论证。 1990年代以来,广东、海南乃至国家层面进行了多轮研究论证,甚至一度签署《琼州海峡跨海通道前期工作会议纪要》,这被视为跨海通道离建设最近的一次。 不过,几十年过去,琼州海峡跨海通道仍然处于研究论证阶段,虽在各地规划都有一席之地,但要么是“远景规划”,要么是“预留廊道”。 琼州海峡跨海通道,究竟难在哪里? 去年11月,针对网友建议,海南省发改委表示,经研究,琼州海峡水道繁忙,且地质构造和环境条件复杂,在琼州海峡开展相关工程建设的可行性有待进一步研究论证。 的确,技术难度是困扰琼州海峡跨海通道的核心因素之一。 对此,官方有过总结:琼州海峡水深、风大、浪高、流急、地质构造复杂、地震烈度较高、通航难度高。 在港珠澳大桥总工程师苏权科看来,琼州海峡的建设难度,甚至比创下了诸多“世界之最”的港珠澳大桥还要大上很多。 “最大的难度之一是中间有海沟、海水更深,第二是地质覆盖层更深,第三是自然环境更恶劣,包括风的因素。” 众所周知,琼州海峡常年多风,每年平均风力6级以上的天数约为170天,其中风力8级以上的为15.5天,7月至9月期间最大风力在12级以上,每年12月至次年2月还存在大雾天气频发的情况。 种种技术因素的存在,导致不到20公里的琼州海峡通道的总投资额,也是惊人的。 早在2009年,时任中国中铁大桥勘测设计院总工程师高宗余曾表示,预计琼州海峡跨海通道整个项目的总投资额将达1420亿元。 十多年过去,考虑通胀因素,这个数字可能还要再多上一半。 四 与技术困局相比,更核心的因素在于投资的性价比。 毕竟,任何超级基建,都必须权衡政治、经济和战略上的需要。 港珠澳大桥和台海通道,是政治、经济与国家战略的多赢。 川藏铁路,或许几十年都收不回成本,但基于国防战略安全和西部大开发的需要,仍旧有着巨大价值。 而投资千亿元的沪舟甬跨海通道,连通的是最富裕的长三角地区,在经济层面的意义最为显著。 与之对比,琼州海峡跨海通道,一直面临着“经济上是否有性价比,战略上是否有必要”的双重考量。 毕竟,海南虽然战略地位重要,但经济体量太小,与一水之隔的中国经济第一大省广东在产业上也缺乏互补空间。 2023年,海南GDP总量达到7551亿元,同比增长9.2%,虽然增速大幅跑赢全国,但经济总量在内地31个省份中排名倒数第四。 海南一省的经济体量,约为广州一个城市的1/4,不及佛山、东莞等普通地级市水平,而省会海口更是排在全国百名之外。 所以,考虑到动辄上千亿的投资成本,以及相对应的经济价值,琼州海峡跨海通道的建设紧迫性确实没那么明显。 五 展望未来,琼州海峡能否迅速推进,取决于未来海南的发展空间。 过去30多年来,海南先后迎来三波政策倾斜:先是1988年建省并设立经济特区,接着是2010年获批国际旅游岛,随后是2020年被赋予了自由贸易港的建设重任。 这其中,自贸港堪称海南打破既有区位限制、拓展发展天花板的关键支撑。 海南自贸港之所以备受瞩目,是因为其在内地首次被赋予了“零关税、低税率、封关运作、贸易自由、人员流动自由”等探索重任。 这与我国香港地区形成了一定程度上的对标。 虽然海南在国际金融中心、国际贸易中心上与香港差距巨大,但在“购物天堂”和“零关税”上,则有了一争主力。 同时,在自贸港政策的加持之下,海南打造了以文旅、现代服务业、高新技术产业、热带特色高效农业为主的四大支柱产业,产业层次得到明显提升,未来经济体量或会得到明显提升。 根据规划,2025年,海南自贸港将会正式进行全岛封关运作,届时海南能在开放探索上走多远,值得关注。 未来,如果海南经济总量能追上中等省份的水平,或者在省内崛起万亿级城市,那么琼州海峡跨海通道的建设,无疑就有了更大的紧迫性。 本文来自微信公众号: 国民经略(ID:guominjinglve) ,作者:凯风 本内容为作者独立观点,不代表微克立场。