通过基于区块链市场的数据训练获得机器学习模型,能够有潜力来创造世界上最具影响力的人工智能。他们将两个部分组合起来:私有机器学习,这可以进行在私密信息上进行训练,而且不用泄露信息,同时基于区块链给予激励,这样做可以让这些系统吸引最好的数据和模型,让它们更加聪明。最后的结果会组成一个开放式的市场,任何人可以售出他们的数据并且保留私密数据,同时开发人员也可以通过激励为他们的算法吸引最好的数据。
建造这些系统是非常具有挑战性的,所需要的建造基石也正在创建,但是从现在的简单初始版本看起来,这是有可能的。我相信这些市场会将我们从现在的Web 2.0时代转移到代码和算法开放竞争的Web3.0时代,并且这些算法和数据都可以直接获得收益。
起源
这个想法来自于2015年和来自Numerai基金的Richard之间的讨论。Numerai是一个对冲基金,它会把加密货币市场的数据发送给任何想要和做股票市场模型的数据专家。Numerai将最好的模型提交到一个“元模型“,交易这个元模型,并且支付给建立这些模型平台的数据科学家费用。
让数据科学家进行竞争看起来是个非常好的主意。所以这就带来了更多思考:我们能够建立一个完全去中心化版本的系统,能够应用任何场景?我认识这个答案是肯定的。
创建
举例来说,我们尝试在去中心化交易所上建立完全去中心化的系统来交易数字货币。这是众多潜在的创建方法之一。
数据 数据提供者以数据为权益并且给模型建立者使用。
模型建立建模人员选择需要使用什么数据并且创建模型。培训使用安全的计算方式进行,这也允许模型可以在不需要泄露底层数据的情况下进行训练。模型需要有不同权重。
建立元模型元模型是基于考虑到每个模型权重的算法上而创建的。
创建元模型是可选的—你可以想象很多模型没有和元模型结合使用。
使用元模型智能合约使用元模型并且通过去中心化交易机制在链上进行交易。
分发收益/损失 在一段时间后,交易会产生收益或者损失。这部分利润或者损失就会基于贡献多少分发给这个元模型的贡献者。那些做出负贡献的模型会被拿走部分或者全部的抵押资金。
验证计算对每步的计算是中心化的,但是验证和挑战会使用像Truebit或者使用安全多重计算的去中心化系统。
存储 数据和模型会存储在类似IPFS或者在多重角色计算网络的节点上,因为链上的存储会太昂贵。
是什么驱动了这样的系统?
吸引全球最好数据的激励 吸引数据的激励模式是这个系统最重要的部分,因为数据是机器学习的限制因素。同样,比特币通过开放的激励建立了世界上最强大的算力网络,合适的数据激励架构也会吸引世界上最好的数据来为你应用。并且几乎不可能禁止来源于几千或者百万处的数据。
代码间的竞争 在模型/代码间创建公开的竞争,这之前从未出现过。在去中心化的Facebook上发布几千个竞争性的新闻发送算法。
奖励透明 数据和模型的提供者可以看到他们获得了和提交任务相关的公平收益,因为所有计算都是可验证的,这会使得人们更加愿意参加这类项目。
自动化 通过链上操作,并且直接从token上获得价值,创建了自动化和无需信任的闭环回路。
网络效果 多面网络会受到用户,数据提供者和数据专家的影响,这也使得系统自我强化。系统能够表现的更好,就会吸引更多的资本,这也意味着更有潜力的回报,会吸引更多的数据提供者和数据专家,他们会让系统更加智能,从而吸引更多资本,形成良性循环。
隐私
除了以上所说的点,一个主要的功能就是隐私性。它可以让1)用户提交太隐私并且不能分享的数据 2)防止数据的经济价值和模型被破坏。如果让非加密数据公开,数据和模型就可以免费复制并且被别人使用,但是那些人却没有作任何贡献(“搭便车”问题)
解决这个问题的部分方案是将数据销售隐私化。尽管买家选择重新销售或者释放数据,它的价值也会随时间减少。但是,这种方法限制了短期使用案例,并且也还是存在典型的隐私问题。因此,更为复杂但是有效的解决方案就是使用某种安全计算方法。
安全计算
安全计算方法让模型可以在不泄露数据本身的基础上进行训练。现在使用和研究的安全计算方法有3种方式:同态加密(HE), 多方安全计算(MPC)和零知识证明(ZKPs)。多方计算目前是私人机器学习使用最广泛的算法,因为同态加密太慢,而且对于如何将零知识证明加入到机器学习中也不是很明显。安全计算方法是计算机科学研究的前沿。他们通常会比普通的计算慢到指数级,体现了这个系统的瓶颈,但是这些年提高了很多。
终极推荐系统
为了描述私人机器学习的潜力,假设有一个叫做“终极推荐系统”的app。它可以通过你的设备看到你在做的任何事情:你的浏览历史,你在app上做的任何事情,手机里面的图片,定位数据,消费记录,可穿戴传感器,信息内容,你家里的摄像头,AR眼睛上的摄像头等等。然后它会给你建议:你应该访问的下个网站,需要阅读的文章,要听的音乐或者是要买的产品。
这个推荐系统会非常有用。谷歌,Facebook或者其他现有的数据库可能都不会有这样的系统因为它对于你有最大的纵向视图,并且这个系统可以从你的私密不可泄漏的信息中学习。和之前说到的数字货币交易系统的案例类似,它会通过关注不同领域的模型(例如:网站推荐,音乐)来运作,进行竞争来获得用户加密数据的准入以及像用户进行推荐,也许甚至是因为用户贡献了数据以及对推荐的东西进行专注而像他们付费。谷歌的联合学习和苹果的差分隐私是这个私人机器学习方向的一个步骤,但是仍然需要信任,不会允许用户直接检验安全性,并且让数据保持隐秘。
什么样的方案可能会首先实行?
我无法非常精确地说明什么样的构造是最好的,但是我有一些想法。我用来评估区块链方案的一个准则是:从物理原生,到数字原生再到区块链原生的一系列研究,越区块链原生,那么就越好。越不那么区块链原生,那么就需要更多的第三方介入,使得增加复杂性和减少使用与其他系统作为构建块的易用性。
在这儿,我认为如果系统中价值创造是合格的,那么这意味着系统更可能会成功运行—直接来说就是以法币的方式,更好的选择就是代币。这样就会完成一个纯粹,闭环的系统。可以将之前的加密货币交易系统和X光线肿瘤识别系统相比较。对后者来说,你需要说服保险公司X光线模型是由价值的,并且去协商多么有价值,然后相信一小部分现在的人从而严重模型的成功/失败。
这并不是说社会使用数字原生系统的正和情况不会发生。就像之前提到的推荐系统也会非常有用。如果和数字市场联系,有另一种使用案例是模型可以在链上进行代码运行,并且系统的奖励是代(对于数字市场案例而言),这样会会创造一个纯粹的闭环。现在看起来可能还不是很明朗,但是我期待基于区块链的原生任务会随着时间而逐渐扩大。
影响
首先,去中心化机器学习市场可以去除现有技术巨头对数据的垄断。他们在过去20年标准化以及商品化了互联网价值创造的主要资源:专有的数据网络和他们周边的强大网络效应。因此,价值创造从数据往算法层面开始转移。
技术上的标准化和商业化循环,我们现在正处在互联网时代价值垄断的末尾。换句话说,他们为AI创造了一个直观的商业模式。
其次,去中心化机器学习市场创造了世界上最具力量的AI系统,通过直接的经济激励吸引了世界上最好的数据和模型。他们的强处随着多方网络的效率而增强。由于互联网2.0时代数据网络垄断成为商业化,他们看起来像是下个重新聚合点的候选人。可能我们还需要几年时间,但是这个方向是正确的。
第三,就像推荐系统展示的那样,搜索发生了倒置。人们不会去搜索产品,而是产品进行搜索同时竞争为人们服务。每个人也许都有自己喜爱的市场,推荐系统就可以将最相关的内容展示,并且这些内容和个人定义的很相关。
第四,去中心化机器学习市场可以让我们获得和Google和Facebook同样的收益,并且还不需要给出我们的数据。
第五,机器学习可以更快速地发展,因为任何工程师都可以进入到开放的市场获取数据,而不是只有在Web2.0时代的那几所大公司的小群体工程师。
挑战
首先,安全计算模型现在运行速度很慢并且机器学习在计算方面已经很昂贵了。另一方面,安全计算的性能也在逐渐提升。我也看到一些方案可以在过去6个月内完成HE,MPC和ZKP的重大性能提升。计算出特定的数据或者模型值并提供给元模型是很困难的。清理和格式化拥挤的数据是具有挑战性的。我们希望看到工具,标准化和小型企业能够联合解决这个问题。最后,创建这种系统的广义构造的业务模型比创建一个单独的实例更不明朗。这对于很多新的加密事物都是正确的,包括精选市场。
结论
私人机器学习和区块链激励的组合可以在广泛不同的应用中创造最强的机器智慧。但是仍然有几个非常严重的技术挑战。他们的长期潜力是巨大的,并且会改变现有大型互联网公司拥有数据的现状。这其实也有点恐怖,因为这类系统可以存在,自我增强,消费私密数据,并且几乎不可能被关闭,让我在想是否创造他们会召唤个更加强大的摩洛克。不论如何,这是加密货币如何缓慢发展,然后突然进入任何行业的另一个案例。