区块链和 AI 的融合将为行业带来全新的机会,尤其是很可能会催生新一代终端应用平台,同时以公平、开放的方式解决了数据提供方、AI 模型开发方等方面资源的共享问题。
近期,清华大学副教授、MATRIX 首席 AI 科学家邓仰东教授谈了他对区块链与 AI 关系的理解。邓教授主攻 AI、电子设计自动化、并行算法和图形处理器架构等领域的研究,曾为中国高铁设计及研发了 AI 预警安全解决方案。
稿件来源:链捕手
原文标题:《区块链与 AI 融合将催生新型终端应用平台》
过去几年中,区块链和 AI 无疑是最热的两个技术词汇,相关成果在学术界引起了广泛的关注,在资本界也是极受追捧的项目。自从 2018 年以来,更是有很多关于融合区块链和 AI 的探讨,究竟这种融合有无意义?具体说来,我们其实关注这样一系列问题:区块链和 AI 互相能为对方带来什么?二者的融合能否形成 1+1>2 的效果?特别是,区块链和 AI 都不是终端级产品,那么两者结合能否催生新的终端应用平台?
图 1. 区块链和 AI 的融合
总体上看,笔者认为区块链和 AI 的融合的确能带来全新的机会,总体关系如图 1。笔者将从四个方面对以上问题进行探讨,首先,我们简单介绍区块链和 AI 的基本概念,并且讨论当前这两者面临的主要挑战;第二,从区块链角度看,AI 能否带来什么好处;第三,从 AI 角度看,区块链能够解决什么问题;第四,我们看看区块链和 AI 融合的一种全新可能,即离散计算资源以区块链组织而形成 AI 云平台。
区块链为 AI 提供的机会
从 AI 的角度来看,区块链确实提出了令人兴奋的可能性,包括建立数据 / 模型 / 应用的共享交易平台、提供分布式算力以及追踪 AI 模型效能等。
- 数据-模型-应用的开放市场平台
AI 技术具有两个显著的特点:首先与 Google 搜索引擎、Facebook 社交网络等互联网技术不同,AI 技术不是最终的产品,而是必须融入到具体应用之中才能发挥作用;其次 AI 技术一般通过具有推断能力的模型发挥作用,而模型的训练需要大量数据,也就是人们常说的没有数据就没有 AI。因此 AI 产品总是包含数据、模型和应用这三个环节。值得注意的是,这三个环节的所有权经常来自不同利益方。
例如,在智能工厂环境中,通过物联网采集的数据通常属于工厂本身,机器学习模型一般需要专业 AI 团队开发,该模型最终融合到应用中体现功能,而应用可以属于工厂、也可以属于第三方。
由于产值只能在最终应用上实现,数据和模型提供方(特别是数据方)往往很难保证利益的分享。这样一来,目前典型的局面是很多数据方宁可选择不开放数据,也就是说,在社会高度数字化的今天,经常是由于权益的不确定性、而不是数据的可采集性造成了数据壁垒。由此可见,完整、有效的 AI 应用只有在各方利益能够有效保障的前提下才能形成。
图 2. 基于区块链的数据-模型-应用的开放市场平台
区块链最本质的功能是不可篡改的分布式账本,这一功能恰恰为建立具有公信力的数据-模型-应用共享交易平台提供了技术基础。如果数据-模型-应用都在链上使用,那么其使用情况就能够以可信方式记录,从而能够准确结算,保障各方利益。当前基于区块链、以 AI 应用为目标的数据-模型-应用的开放市场平台正在逐渐成为区块链的重要应用,以下是一个不完全的列表:
• SingularityNET (侧重数据应用 DApp)
• Neuromation (侧重针对 AI 模型训练的合成数据)
• AI Blockchain (侧重多应用集成)
• BurstIQ (侧重医疗健康数据)
• Medical Token Currency (侧重医疗数据和模型)
• OpenMined project (本地训练模型的数据市场)
• Synapse.ai (数据和模型市场)
• Dopamine.ai (B2B 的 AI 变现平台)
• Neuroseed (AI 解决方案市场)
图 3 是 SingularityNET 的区块链开放数据市场示意图,其定位是数据和 AI 应用的开放市场平台。SingularityNET 开发了一组较为完备的服务模块,能够满足数据和 DApp 交易的各种需求:
• 服务代理:把平台提供的 AI 应用封装为 API 函数接口;
• 服务仲裁:与 AI 服务交互的智能合约接口;
• SDK:软件开发包;
• 多方交易支持:通过智能合约决定调用 AI 服务时的 Token 分发;
• 定价指导:链上交易定价参考数据;
• 开发数据存储池:存储用户数据和 AI 训练数据的 IPFS 节点。
图 3. SingularityNET 的区块链开放数据市场
- 基于区块链的分布式算力
区块链提供了有效的奖励机制,使得参与者愿意将自己的计算资源贡献出来进行挖矿计算,比特币因此有能力成为当今世界最大的算力网络。当然,目前的挖矿计算不具备普世价值,但如果我们能够通过改造挖矿机制(包括算法和使用模式),区块链有可能催生世界最大的、去中心化的计算平台。
你可能会想,我们不是已经有数据中心和云计算模型吗?为什么还需要去中心化的计算平台呢?实际上,现有的云计算是非常有力量的模式,但是问题还在中心化上。具体说来,中心化数据中心存在这样一些突出问题:
首先是建造成本不断飙升。谷歌 1999 年构造的计算集群的成本只有 1400 美元,而 2017 年在北卡罗来那州建造的数据中心成本已经达到惊人的 12 亿美元。从 2011 年到 2017 年,北美地区数据中心建设投资从 47 亿美元一路上升到 200 亿美元,继续建造更大的云平台将逐渐遭遇消费比的瓶颈。
其次是云平台运营企业往往也是大数据服务提供商,因此用户向云平台上传数据总是存在数据隐私的潜在漏洞。事实上,前一阵 Facebook 的用户数据泄露事件只是冰山之一角,Uber、Morgan Stanley 均出现过滥用用户数据的问题。
最后是数据中心并非完全可靠。一份针对美国 584 家数据中心的调查报告显示过去两年中 91% 的数据中心均发生过不同程度的故障,平均故障时间 86 分钟,图 4 列出数据中心故障率、故障分布和亚马逊云数据中心的典型故障。
图 4. 数据中心故障率、故障分布和亚马逊云数据中心典型故障
另一方面,现代社会存在着大量「闲散」算力。网吧就是一个典型的例子(为了支持高端游戏,网吧计算机配置一般较高,普遍拥有专用显卡)。进一步讲,在集成电路以摩尔定律的速度不断更新的大趋势下,所有的计算机(包括手机和嵌入式设备上的 CPU)的价值都在不断缩水。然而,人类毕竟需要消耗资源才能制造这些设备,如果能把闲置的算力组织起来并且加以利用,则善莫大焉。
图 5. 基于区块链的分布式算力
组织碎片化算力当然也并不容易,既需要有精细权衡计算能力和网络带宽的调度方法,也需要可信的、细粒度结算机制保证利益分配,而区块链为后者提供了有效解决路径。
- 可信模型
作为不可篡改的分布式账本,区块链在链上数据可信性能够保证的前提下,具有完美的溯源能力。因此,区块链可以作为追溯机器学习模型使用效果的工具,即用来追溯数据来源、模型发展过程和 AI 应用系统使用情况。特别是,通过跟踪在不同数据输入和应用场景下的 AI 行为,我们可以深入理解和评估 AI 系统的决策效果,从而增强模型的可解释性。
区块链化的 AI 云
通过前面三节的讨论,我们可以看到 AI 和区块链技术的融合带来了全新可能性。从近期来看,通过区块链为数据和 AI 模型确权并提供算力从而形成开放、可信、适合物联网应用的 AI 平台,将是这一融合的第一个成果。秉持这一理念,一些项目正在开发如图 6 所示的区块链化分布式算力 AI 云平台。
图 6. 基于区块链、整合云-雾-终端计算模型的分布式算力人工智能云
与传统互联网应用不同,工业大数据应用在处理实时性上往往有具体要求,而网络带宽往往又受到一定限制,因此完全依靠云平台难以保证性能要求;同时,工业大数据对隐私保护的要求也较高,因此往往不能使用现有公有云解决方案,然而另一方面,自行建设私有云带来的建设和运维成本都较高,对于本来利润率就相对较低的制造业企业来说负担较大。
以 MATRIX 为例,它的区块链化分布式算力 AI 云平台针对工业互联网大数据,引入了整合云-雾-终端计算模型的计算平台(如图 7),以之作为层次化、分布式的科学计算和存储平台。其中云平台可以综合使用公有云平台、既有私有云平台、又有新造计算中心以及基于区块链的星际文件系统。
图 7. 与区块链结合的云-雾-终端混合 AI 计算平台
其中数据私有问题可以通过数据的分布化存储部分解决,还可以使用以差分隐私为代表的各种数据隐私保密方案和以联邦式学习(Federated Learning)为代表的分布式训练方案解决。雾计算主要为计算强度超过终端计算能力的任务提供服务,其载体是通用或定制化计算硬件,例如装备图形处理器和专用机器学习加速卡。
值得注意的是,这种计算平台可以整合通过区块链接入的算力资源。由于这些资源的目的通常是提供闲置算力获得计算奖励,因此成本较低,也没有复杂的维护问题。
前述项目的分布式算力 AI 云不仅提供存储和计算资源,同时利用区块链的去中心化、可信账本能力为数据和 AI 模型的全生命周期服务形成了强力支持。全部数据和 AI 模型的产生、存储、交易和使用过程均被区块链跟踪和记录。
用户可以通过门户界面检索现有模型和数据并做出选择,然后通过调用 API 接口函数集成各种模型形成 AI 应用。API 也同时提供了数据和模型定价模型,有助于确定相应价值。数据和模型具有数字化形式,同时完全在相应区块链上使用,因此与区块链结合后获得了精确的确权,从而使得数据提供方、AI 模型开发方、大数据应用开发方和用户的权益均获得保证,以公平、开放的方式解决了各方资源的共享问题。
总结
自从宇宙起源以来,生命就踏上了漫长的演化之旅。正如 Ray Kurzweil 在其名著《奇点临近》中指出的那样,智能的发展大致可以分为六个阶段:
图 8. 智能的演化(摘自 Ray Kurzweil 的《奇点临近(The Singularity Is Near)》)
第一阶段是各种物理化学演化,最终形成了脱氧核糖核酸(DNA),即遗传物质;
第二阶段中,生物体借助 DNA 的遗传能力,从单细胞生命向多细胞演化,形成了大脑这一复杂器官;
第三阶段,动物大脑不断发展,其中的一支——灵长类动物终于脱颖而出;
第四阶段,人类借助语言的发展,发展出技术能力;我们正处于第四阶段的末期或第五阶段的初期,即通过人工智能技术的引入,实现人类智慧和技术的协同演化,这一步的重要性可能比大家想象的还要深刻很多,因为一系列研究工作指出人脑实际上已经处于优化或者扩容的极限;
第六阶段是唤醒宇宙的时代,我们现在并不能看清楚,但是可以想象的是届时智慧生命必将以全新的形式存在、拥有前所未有的能力和自由,就行庄子在《逍遥游》中说的那样「鹏之徙于南冥也,水击三千里,抟扶摇而上者九万里,去以六月息者也」。