在我的职业生涯的开始,我曾经是一名数据科学家,我早期的项目之一就是分析阿尔茨海默病患者的原始人类基因数据。当时这个项目有许多事情令我们深感痛苦;我们不得不逐个招募参与者加入我们的项目,对基因组进行测序以获得数据,我们从研究经费中花费超过一百万。我们不得不自己搭建一个昂贵的计算集群,甚至连每次迭代的简单回归分析也要耗费数天才能完成。我对这事印象特别深刻:花了几个礼拜的时间来设计我们的工程数据结构,优化数据库设置,手工重写分析算法(因为我们超出了 RAM 的限制),先是为了分析进行计算,然后要求几天完成而不是几个月。结果从那以后,发生了很多变化。
目前,风头正劲的三种企业技术无疑是人工智能、区块链和物联网,它们背后的驱动因素都是数据;人们甚至宣称:“数据就是新的石油!”新数据能够使数据的收集、共享、分析以及基于这些数据的决策自动化成为可能,而这在以前基本上是一个数据价值链。
数据价值链
在这三种技术中,区块链技术是将各种技术组合在一起,并且还出现了一个由数据驱动的区块链项目组成的完整生态系统。这种分散的生态系统旨在鼓励人们贡献数据、技术资源和努力:
第一代项目专注于创建连接和集成数据的数据基础设施,如 IOTA。IoT Chain、IoTex(用于连接的 IoT 设备的数据)或 Streamr(用于数据流)。
第二代项目专注于创建数据市场,例如 Ocean 协议、SingularityNet 或 Fysical,以及群体数据标注平台,例如 Gems 或 Dbrain。
随着解决方案涵盖了数据价值链成熟的第一步,我的朋友 @sherm8n 和 Rahul 开始研究 Raven 协议,这是第一个第三代项目,它将缩小在分析阶段的一个重要差距:用于人工智能训练的计算资源。
据 OpenAI 最近的一份报告称(http://u6.gg/e6XWV):“在最大规模的人工智能训练中使用的计算量呈指数级增长,增加了 3.5 个月的时间”,这是自2012年以来的 30 万倍增长。
OpenAI 报告:人工智能与计算
由此产生的直接后果是:
更高的成本,因为使用的计算速度比供应更快;
更长的新解决方案的交付时间,因为模型训练所需时间更长;
更高的市场准入壁垒,更难获得资金和资源。
对小型企业和研究人员来说,这些后果是可怕的,因为这样一来,限制了他们在没有大量资金的情况下创建有竞争力的模型的能力。就算有资金,如果供应商视他们为竞争对手,他们就有可能被列入资源黑名单。
但是,考虑到资源的增长率和人工智能工作的增长率都在成倍增加,即便是大型企业也会感到成本增长带来的压力。在过去的几个月里,我与《财富》500 强公司的一些首席数据官促膝长谈,尽管他们认为这一问题不足为虑,但也不得不承认,可以用比购买 HPC 资源更好的方式进行投资。
区块链生态系统 的美妙之处在于,它可以利用其他未使用的资源,完成本不可能进行的贸易资源的交易,还可以使人们参加原本无法参与的市场活动。从经济角度来看,它提高了对现有资源的利用率。
在第一代和第二代数据区块链解决方案中,若使用这种解决方案,可以降低访问带注释的质量数据的障碍,Raven 协议将解决这种由训练带来的成本挑战。阻碍这条众所周知的链得以维系的鸿沟,正被 Raven 协议抹平,而这条链的坚固程度取决于它最薄弱的环节(提示:这是数据价值链)。
总之,这个区块链数据生态系统中的解决方案创造了新的机会并降低了成本。尤其是第二个关键因素,它降低了新创新的准入门槛,让更多的人能够做出贡献,从而有望加速我们整个社会的进步。
如果上面所说的一切听上去有点抽象的话,那么你只需看看人工智能可以发挥作用的领域就会明白了:医疗。我们的全球医疗体系正陷入严重的困境。成本正呈爆炸式增长,尽管成本已经达到一个国家 GDP 的 18%,但预计未来十年将会增长 117%。与此同时,新药的研究也正面临风雨飘摇的处境。
为了保证平价医保,我们的医疗系统需要大量的创新才能实现这一点,人工智能解决方案有很多可以帮助达到这一目标。因此,医疗保健是人工智能投资最多的行业,多年来一直如此。
CBInsights:2018 年人工智能状况
然而,数据获取之难,成本之高昂,带来了准入壁垒,限制了现有企业和其他大型企业对新解决方案的研究。区块链数据生态系统改变了这一状况,为我们带来了及时找到正确解决方案的机会。Raven 协议可能不会是最后一个这样的机会,但却是实现这一目标的重要基石。
Raven 协议简介
对于深度学习研究者来说,计算能力非常关键,但 CPU 和 GPU 资源往往是有限的。Raven 协议正是解决这一问题的良方。Raven 协议可以利用空闲的计算资源来训练深度神经网络,而这些资源均来自个人用户设备的分享。分享空闲计算资源进行深度学习训练的概念可以为资源使用者节约大量的研究成本,而资源的贡献者则可以得到 Raven 币(RAV)作为补偿 / 回报。
近年来,尽管人工智能和机器学习领域里关于民主化和去中心化的呼声越来越高,这些领域中的项目开发却没有真正地应用这些概念。开发者和企业家们形成了一种思维定式,即只要大量使用深度学习作为工具,就能改善产品质量和用户体验。然而,深度学习项目的经济规模化、产品化会受到计算资源的限制。这些限制对于大型科技公司当然不是问题。大公司有条件访问海量数据,而且坐拥庞大的计算资源,完全可以轻松应对计算密集型任务,从而推进自己的 AI 研发工作。同时,他们提出了 AI 的“民主化”概念,用以补偿他们所欠下的技术债务,并声称这会对广大 AI 社区有所帮助。因此,AI 社区便拥有了访问大型 GPU 集群的权限,并有机会学习机器学习技术、使用开源框架以及观看 MOOC 在线课程。
然而,这场技术狂欢之下隐藏的问题却鲜有人发现。对高级 AI 解决方案的突然增长的需求使得这一问题凸显出来——计算能力的经济规模化。
当前深度学习存在的困境
在一个普通的、计算能力有限的计算机上训练一个 AI/ML 模型往往需要数周甚至数月的时间。对于更好的计算芯片(GPU)的需求是一个必须考虑的成本因素。密集和频繁地使用高速计算资源来操作计算数据、计算和更新深度神经网络中不同神经元的梯度,其需要的成本往往是小型到中型公司和开发者无法担负的。云计算在一定程度上对这一问题有所帮助,但获取云资源来支持 AI 研发仍是一笔难以负担的开支。目前,在绝大部分云计算平台上,每小时所需支付的金额都在 2.5~17 美元之间。
对于中小型企业来说,要解决算力资源问题最简单的方式是通过众包。众包这一概念从很早之前便开始挑战传统经营模式,就像《圣经》中并不强壮的勇士大卫战胜巨人哥利亚一样,以小胜大、以弱胜强,使得计算资源服务更加便宜、更加容易获得。Uber 和 Airbnbs 就是通过众包存活下来的“大卫”的代表。AI 世界也注意到了这种优秀的模式。Kaggle 平台的开发就是通过众包,利用海洋协议(Ocean Protocol)来收集数据。AI 生态系统非常欢迎这种新方法。而 Raven 协议的目标就是将众包火炬传递下去,通过对空闲计算资源的充分利用,建立第一个真正去中心化、分布式的深度学习训练系统,使深度学习模型的训练更为经济。
希望进行技术革新的 AI 爱好者和企业家们现在可以从 AI 研究中有所收获了,因为众包资源可以解决计算资源短缺难题。AI 社区中的许多成员,如 Singularity.net、Ocean Protocol、OpenMind、Deep Brain Chain 等等,都建立起了资源共享平台,用于在安全的区块链内共享计算和数据资源,进而助力机器学习 / 深度学习算法向商业模型的转变。
Raven 协议成功建立起了去中心化、激励性和安全的机器学习 / 深度学习模型训练机制。
深度神经网络的“去中心化、分布式”训练
经过几十年的发展,传统的神经网络相关算法已进化为深度神经网络(DNN),并在各种应用领域取得了巨大成功,尤其是模式识别领域。
这种基于训练的方法的理论局限是,一个 DNN 架构怎样在一个节点上训练、在多个不同的服务器上应用,或分割成数个部分并分发到数个服务器上训练。显然,这种训练方式极其消耗算力,所以只能在强大的 GPU 和服务器上进行操作。Raven 解决这一问题的方式是装配动态节点分配机制,对网络中的设备进行分工。这样,Raven 就可以消除主节点的所有依赖,并显著地减少任务所需的计算能力。
Raven 协议相较于其他相似规则的突出之处在于它处理异步更新及数据碎片的并行所产生的延迟的方法。这种延迟问题用其他方案无法解决,而且延迟在模型训练过程中是一个主要耗时因素,可能会消耗数周甚至数月。即使是拥有大量计算资源,对这一问题也无能为力。另外,如果想要让数据实现并行化,用户必须拥有可处理庞大计算资源的平台。这一因素使得规模较小的用户群无法访问该平台。
Raven 可以成功地将模型训练过程中所需的数量庞大的小型异步运算,搭建为一个动态图。
空闲计算能力的激励分享机制
Raven 协议允许个人用户贡献、分享空闲设备的计算资源,使得研究者对性能强大的 CPU 或 GPU 硬件的需求降到最低。分享空闲计算资源来进行训练的概念,会大大降低成本。作为补偿 / 回报,计算资源的分享者们会得到 Raven 币(RAV)。
只需要在以太坊区块链中通过智能合同进行两步简单的校验,这种激励机制便可实现。
未来的趋势
经济的 AI 规模化和积极的实验
由于没有资本支出,Raven 所提供的计算服务的价格将远低于市场上的任何供应商。由于在贡献者 / 主机节点上没有任何依赖,资源的获取将变得更为高效和快捷。使用 Raven 的公司可以进行在线 AI 实验,并根据市场需求对 AI 产品进行规模化,而无需将大量的钱投进硬件这个无底洞里。
统一的生态系统
Raven 已经认识到,接下来的最大问题是如何在生态系统中交易已有合作者的数字货币。为确保使用方便,RAV 币将在 Raven 生态系统内和其他合作服务间均可交易。所有人都仍可以在 Raven 内部使用其他合作服务币。这可以使区块链中的其他 AI 社区积极参与 Raven 协议。
绝大部分人还没有意识到,AI 社区中的一小部分人正在为使 AI 触手可得、为所有人所用而不懈奋斗着。这是因为他们坚信,AI 将会以我们可能想像不到的各种方式融入我们的生活,变成我们生活的一部分。常规的 AI 公司以及想要在自己系统中应用 AI 的公司,都在努力用 AI 改善着我们的生活,但他们可能会由于资源的局限,难以大展拳脚。Raven 的目标就是帮助这样的个人及公司,让他们能够经济地充分发掘自身在 AI 方面的潜力,实现 AI 梦想。
参考链接:
https://blog.goodaudience.com/the-future-of-ai-is-on-blockchain-1b4049ae2963
https://medium.com/ravenprotocol/hello-world-raven-protocol-f749bf5fc8cf