大白话聊透人工智能(巴蜀魔幻侠)_Sora：OpenAI的＂视频魔法＂到底是什么？章节免费阅读无弹窗

车经过，墙上贴着老海报，就能生成怀旧视频。

五、不吹不黑：sora现在还有哪些？

虽然sora很厉害，但它还不是完美ai，openai自己也承认了不少弱点。这些问题不是技术bug，有些甚至是当前ai的天生局限。

sora虽然懂很多物理知识，但遇到复杂场景还是会犯糊涂。比如让它生成篮球穿过篮筐然后爆炸的视频，篮球可能直接穿过篮筐却没有被阻挡的痕迹，或者爆炸的碎片运动轨迹很奇怪；生成五只灰狼幼崽嬉戏的场景，可能会出现狼崽凭空多出来一只跑着跑着消失一只的情况。

这是因为它学的是概率性规律——见过1000次篮球进筐的画面，就按最可能的方式生成，但遇到进筐后爆炸这种少见的组合，就容易出错。就像人第一次见用脚写字，可能会想不通怎么保持平衡一样。

这是sora最核心的短板。它能模仿，但不懂原因和结果。比如生成人在跑步机上跑步的视频，它能做出跑步的动作，但可能会出现人逆着跑步机方向跑，却还在原地的离谱画面——因为它知道和跑步机经常一起出现，却不懂跑步机转动带动人前进的因果逻辑。

再比如蜡烛被风吹灭，它能生成蜡烛熄灭的画面，但如果让它生成先吹风再灭蜡烛的顺序，可能会出现蜡烛先灭了，风才吹过来的颠倒情况。openai说，这个问题能通过增加训练数据改善，但很难根治，因为因果关系是ai理解世界的终极难题。

如果文字提示里有复杂的空间描述，sora可能会搞不清物体的位置关系。比如输入桌子左边放苹果，右边放香蕉，前面放杯子，生成的视频里可能会出现香蕉在杯子下面的错误；或者描述房间里有三扇窗户，中间的窗户开着，结果生成的是左边窗户开着。

这就像人记东西时张冠李戴——虽然知道所有物体都要出现，但记不清具体的位置细节。目前来看，提示词写得越简单明确，sora出错的概率就越低。

现在的sora还在测试阶段，生成一段60秒的高清视频可能需要几分钟甚至几十分钟，而且非常耗算力。有业内人士估算，生成一段视频的成本可能要几十美元，普通人根本用不起。

openai表示，未来会通过优化模型来加快速度、降低成本，但这需要时间。就像早期的gpt模型，生成一段话要等半天，现在已经能实时响应了，sora大概率也会经历这样的进化过程。

六、未来影响：sora会改变我们的生活吗？

sora的出现不只是多了一个ai工具，更可能引发一系列连锁反应，从内容创作到行业格局，甚至我们的认知方式都可能被改变。

对创作者：是还是？

很多人担心ai会抢了创作者的工作，比如摄像师、剪辑师、动画师会不会失业？其实不用太焦虑，sora更可能成为创作助手替代品。

比如剪辑师不用再花几小时找素材，sora能直接生成需要的镜头；动画师不用逐帧画图，只要给出关键设定，ai就能完成中间的过渡画面。就像当年ps出现时，没有取代画家，反而催生了平面设计这个新职业一样，sora可能会催生ai视频导演提示词工程师等新岗位。

真正会被淘汰的，可能是那些只会做重复性工作的人，比如只会简单剪辑、没有创意的从业者；而有创意、懂策划的人，能借助sora把想法实现得更好。

以前做视频是专业人士的特权——要有设备、懂技术、有团队。sora打破了这个门槛，让普通人也能做出高质量视频，这就是内容民主化。

就像公众号让人人能写文章，短视频让人人能拍视频一样，sora会让人人能做电影成为可能。未来可能会出现很多个人电影工作室，一个人用ai就能完成从剧本到视频的全流程；中小企业也能和大企业在广告制作上平起平坐，不用再因为预算不够输在起跑线上。

sora的逼真度是把双刃剑——既好用又危险。如果被坏人利用，可能会生成虚假的新闻视频、伪造的证据，甚至冒充他人的视频，引发信任危机。

比如有人生成某明星发表不当言论的虚假视频，很容易造成舆论混乱；或者生成某地发生灾难的假新闻，引发社会恐慌。openai也意识到了这个问题，目前sora还只对少数创作者开放，并且在研究ai生成内容水印技术，让观众能一眼认出这是ai做的。

未来，我们可能需要培养媒介素养——看到视频时会下意识想：这是实拍的还是ai生成的？就像现在我们会分辨和一样。

对ai发展：离通用人工智能更近了一步

openai说，开发sora的目标不是做视频工具，而是教ai理解和模拟物理世界，这是通往通用人工智能（agi）的重要一步。agi就是能像人一样理解、学习各种知识的ai，而理解物理世界是基础。

比如现在sora能模拟球的运动，未来可能能模拟化学反应天气变化，甚至社会运行。当ai能真正理解世界的规律，或许就能帮我们解决更复杂的问题，比如预测地震、研发新药、设计更高效的城

Sora：OpenAI的＂视频魔法＂到底是什么？（3 / 4）