Sora团队首次专访：Sora就是太强了所以不让普通人用

首页 > 业界 > 区块链 2024-03-12 22:01:51

币界网报道：

作者：Josie；来源：新硅NewGeek

前两天外媒对Sora核心团队做了次专访，看了下原视频，约等于什么都没说，场面神似发改委马科长讲话。

用网友的话来说，就像镜头外有一个律师拿着枪对着这帮人。

Sora已经发布快一个月了，刚发布时Sora惊为天人，带给人们无限遐想，甚至有不少人表示AGI就要来了。

然而，目前为止只有少数人用上了Sora，再好的东西用不上，久而久之人们也就失去了兴趣。

就在人们把Sora翻得底朝天，该聊的都聊完了，好像实在没活了，OpenAI派了几个人出来接受一下采访。

16分钟的专访里，Sora的核心团队成员说了很多内容，但都是一些已知的内容，没有什么新的，信息好像还不如Sora的技术文档多。

来看看外国人是怎么打太极的。

这次访谈的三位Sora核心成员分别是Bill Peebles、Tim Brooks和Aditya Ramesh。

首先是大家最关心的问题，我们什么时候可以用到Sora？

“别急，普通人短期内还用不上。”

Sora成员表示，Sora目前尚未向公众开放，也没有具体的时间表。OpenAI正在收集用户反馈的阶段，希望进一步聊天人们如何使用Sora，有哪些安全工作要做。

既然用不了，那么探究一下，Sora是如何实现的。

Sora团队说：Sora是一个视频生成模型，其工作原理是分析大量视频数据并学会生成视频。具体工作方法融合了扩散模型（如DALL-E）和大型语言模型（如GPT系列）的技术。架构上Sora类似于介于两者之间，训练方式类似于DALL-E，但在结构上更像GPT。

结构上更像GPT这一点在Sora刚出现的时候就有不少人分析过，这也算Sora的一大技术特点。

接下来，是同样让人好奇的，Sora的训练数据到底来自于哪里？

在官方发布的Sora生成视频中，无论是咖啡杯中的海盗船，还是东京街头行走的女性，都在表示Sora似乎理解了许多世界的物理规律。

之前不少民间说法讨论，Sora极有可能在数据集中添加了用UE5生成的文本、视频当作合成数据。

面对这样的问题，Sora成员Tim Brooks没有明确回应，打了一个太极，表示不方便说得太细，但是他透露，大体上使用的是公开数据和OpenAI被授权使用的数据，并分享了一个“技术创新”。

以往，不论是图像还是视频生成模型，通常会以非常固定的尺寸进行训练，比如只有一个分辨率的视频。

在Sora的训练中，他们将各种各样的图片和视频，不管是高宽比、长短、高清还是低清，都分割成了一小块一小块。研究人员可以根据输入视频的大小，训练模型认识不同数量的小块，这也让Sora能更灵活地学习各种数据，并生成出不同分辨率和尺寸的内容。

这一技术在Sora技术文档里也有提过，就是所谓的patch。

大语言模型建模时把文本拆成了以token为最小单位，而视频大模型中的token就是patch。

这一技术并不是OpenAI创造的，当OpenAI宣布使用了该技术时还引起了讨论，为什么OpenAI能就能通过别人的技术造出好的AI产品出来。

主持又问到：你觉得Sora擅长做什么？哪些方面还有所欠缺？比如我看到有个视频里一只手竟然长了六个手指。

Sora团队先扬后抑的表示到，Sora擅长写实类视频，并且可以生成1分钟时长的视频，很强。但仍然存在一些问题，比如手部细节（所有AI的噩梦）摄像机轨迹、物理现象变化等。

除此之外，Sora团队还介绍了一些其他酷炫的功能，比如通过除prompt之外，用视频合成的方式生成视频。这实现了在完全不同主题和场景构成的视频之间无缝过渡。

在OpenAI的Tiktok上就有无人机变成蝴蝶在斗兽场转化的珊瑚礁中飞翔的视频。

无论在技术还是体验上，都与原先的视频生成模型完全不同。Aditya Ramesh更是表示，他们做的事情，就是先模拟自然，再超越自然！

目前为止，OpenAI在Tiktok上的AI生成视频都使用了配音，而不是AI无缝生成声音。Sora团队表示，AI声音暂时不是他们考虑的事情，当务之急还是在于视频生成，让它实现更长的时间，更好的画质和频率。

但不知道随着Pika Sound Effects功能的发布，Sora加上声音是否指日可待。

被主持人问到，Sora下一步发展方向时。Sora成员Tim Brooks表示，在真正发布之前，Sora还有两方面的工作要完成：

首先是获得更多用户的反馈，了解Sora如何给人们带来价值。比如有用户希望对生成的视频有更多精细、直接的控制，而不单单是prompts。

另一方面，Sora安全工作需要加强，OpenAI会全面考虑可能带来的各种影响。目前，正在训练应用于视频的溯源分类器，实现识别视频是否由AI生成，并且为每个Sora生成的视频都打上了水印。

此外，Sora团队表示，AI生成视频也带来了许多机遇，它可以大幅降低从创意到成片的成本，一个人拍一部电影完全有可能实现。

更令他们激动的是，随着AI新工具的出现，会有人创造出全新的东西，不断推进创造力的边界，将不可能变成可能。

但打住，这只是科学家们美好的幻想。毕竟对于普通人来说，离真正使用上Sora都要等上挺长一段时间。

而且，Sora成员透露。AI通过从视频数据中学习，将不仅仅在视频创作方面发挥作用。像GPT这样的模型，虽然很聪明，但如果它们无法像我们一样“看到”这个世界，那么它们就会缺失一些信息。类似Sora的模型正在解决这一问题。

这是证实AGI要来了吗？

最后主持人问了一个有意思的问题，Sora生成一个视频需要多长时间？

“取决于各种情况，但你可以离开，去喝杯咖啡，然后回来它还在处理中，反正就是很久。”

以上就是Sora团队的采访内容，简单总结一下就是：Sora很厉害，可以看到世界，正因如此，我们还不能让普通人很快就用到，还有很多安全工作要做。

Umm，没活可以咬打火机，没必要硬上的。

上一篇：在尼日利亚被拘留的币安高管仍因非法资金流动接受质询

下一篇： Web3.0日报 | Starknet主网将进行0.13.1升级以节省成本

推荐专栏

Boss Wallet

Boss Wallet Web3 Econom Pass

关注

币圈最前线

专注币圈最新资讯

关注

Web3掘金者

通俗浅显地聊透Web3大事小情

关注

浑水区块链

读懂区块链生态与未来，尽在币界网！

关注

热门币种

币种

美元价格

24H涨跌幅

Bitcoin

BTC比特币

62,901.58 USDT

¥448,934.86

-1.02%

Ethereum

ETH以太坊

3,141.92 USDT

¥22,424.19

+0.71%

BNB

BNB币安币

587.44 USDT

¥4,192.61

-2.05%

Tether USDt

USDT泰达币

1.02 USDT

¥7.28

-0.29%

Solana

SOL

138.38 USDT

¥987.63

-4.12%

XRP

XRP瑞波币

0.51540 USDT

¥3.68

-0.81%

USDC

1.00 USDT

¥7.15

+0.04%

Dogecoin

DOGE狗狗币

0.14540 USDT

¥1.04

-2.09%

Toncoin

TON

5.28 USDT

¥37.70

-1.23%

Cardano

ADA艾达币

0.45680 USDT

¥3.26

-2.21%

热搜币种

币种

美元价格

24H涨跌幅

HBAR

Hedera Hashgraph

0.1057 USDT

¥0.77

-5.12%

EOS

柚子

0.8104 USDT

¥5.87

-0.53%

BTC

比特币

62890.49 USDT

¥455,679.33

-0.98%

SOL

Solana

137.43 USDT

¥995.76

-4.02%

FIL

Filecoin

5.7716 USDT

¥41.82

-4.04%

CKB

字节元

0.016982 USDT

¥0.12

-1.86%

DOGE

狗狗币

0.1454 USDT

¥1.05

-1.82%

SHIB

Shiba Inu

2.436E-5 USDT

¥0.00

-3.18%

YGG

Yield Guild Games

0.845 USDT

¥6.12

-4%

BNB

币安币

587.07 USDT

¥4,253.67

-1.97%

NEAR

NEAR Protocol

7.0881 USDT

¥51.36

+0.89%

CFX

Conflux

0.234 USDT

¥1.70

-2.9%