目前市面上很多人工智能和区块链结合项目,但存在数据加密的问题。例如我们要在链上训练医疗诊断影响图片,如果这些数据放在矿工节点训练会存在什么问题?要防止节点作恶来窃取数据,这样病人的隐私会泄漏。如果把数据同态加密存放在模型训练节点上,训练用的样本数据和参数都进行加密,会出现私钥不一致或者解密失败,这样大大增加模型训练成本,还不如直接本地进行训练模型。每个节点算力不一致,可能导致训练结果并不是很理想。
同态加密现在最需要解决的问题在于:效率。
效率一词包含两个方面,一个是加密数据的处理速度,一个是这个加密方案的数据存储量。对加密过的数据进行加工明显没有明文数据来得看,这样会有大量时间上开销。大体积数据操作需要足够存储空间去存储,谁来提供也是大问题。
另外有些项目是做数据共享交易,如果甲方卖给乙方数据,乙方可以复制多个副本进行兜售给多方,这样会是恶性循环。
人工智能中最核心的其实是,经过调参和数据拟合优化后的模型。大学里高等数学竞赛里数学建模的事。再形象一些,物理中进行大量物理实验获得的数据,进行抽象出规则而形成的物理公式。但是AI巨头是不会与创业公司分享这些优化模型,创业公司只能调用他们的深度学习云服务API。如果把优化后模型上链共享会如何?
Cortex是解决模型的链上推断共识。
其次Cortex这个项目没有纠结于数据金矿这个思维,大量数据其实也是类似于未加工的矿石,而是把训练后的模型放到链上相当于从矿石提炼的黄金;
AI DApps :运行在CVM (Cortex虚拟机)中的去中心化人工智能应用,因为AI Dapp都是公开部署在链上,你可以按照业务需求去调用适合业务场景的智能合约。另外Cortex公有链会数字货币奖励人们贡献自己的深度学习模型到链上。这样大大降低创业公司的研发成本,无需再付费给AI巨头来调用他们的AI云服务。
这样某种意义上才算是真正智能的智能合约,目前以太坊上智能合约业务实现上仅限于获取区块高度,获取区块信息等等一些操作。并没有实现真正意义上的复杂业务,其实从现在算是比较复杂的应用区块猫,只是将猫的标志信息以字节码存在区块上,其他业务还是在中心化服务器上。
实现具有人工智能价值的业务,Cortex提供了不错的方向。每个合约都是训练好的AI模型,合约之间联通触发。某种意义上大大降低人工智能应用研发成本,可以用较小的成本实现复杂的人工智能应用。例如我想实现一个会议内容自动记录的业务,我先采用Cortex网络里的语音识别的智能合约,将语音转为文字。接下来再利用自然语言分析的智能合约的能力,理解输出的文字内容的意思,进行生成会议内容摘要,关键词汇聚。
上面其实是简单实现案例,这里不需要太大的研发成本,原本需要上百万投入,现在降为十几万,可能更少。所以Cortex的AI Dapp某种意义上就像IOS这样平台级的万能工具箱,里面提供各种模块,可以利用这些模块任意组装,实现你想实现的能力。像乐高积木一样拥有无穷的可能性。
那么优化后的模型存在什么地方?区块上只存模型的唯一哈希值和Data,而模型以键值对形式存在链下。对于存储层,Cortex采用类似IPFS的分布式存储技术。
Endorphins(内啡肽)是模拟了以太坊中Gas的概念来做智能合约计算耗费的记账,只不过Endorphins是Cortex虚拟机在显卡级别的计算步骤计费。另外Cortex背后的投资方有比特大陆和超移等硬件制造商的支持,涵盖显卡和FPGA等AI芯片,应该有比较深度的合作,值得期待。
如此复杂的AI+区块链项目是需要强大的AI研发技术实力去支撑,创始人陈子祺先后于清华大学、卡耐基梅隆大学、加州大学圣克鲁斯分校学习,在机器学习理论和各种算法应用均有较深造诣,并且精通共识算法与公有链生态。CTO王威扬则是先后在清华大学、芝加哥大学深造,师从于1989年考普斯奖逻辑回归创立者Peter McCullagh学习基于统计的机器学习。利用深度学习进行OCR/图像分类/NLP专家,Kaggle竞赛世界Top 1%并获银牌,主导深度学习领域多篇前沿论文研究和代码开发,主导4个项目OCR/迁移学习/人脸/分布式计算,进入Awesome MXNet精品项目。精通数论、加密等相关领域。严枭和杨阳分别为深度学习首席工程师和区块链首席工程师,在各自领域均有较高的成就和开发能力。