图灵奖获得者、Pascal之父尼古拉斯·沃斯(Niklaus Wirth)曾提出一个公式:程序=算法+数据结构。这个公式对计算机科学产生的影响堪比爱因斯坦的“E=mc2”对物理学的影响,因其深刻揭示了程序的本质特征。
如果将该公式扩展至更为广泛的业务流程,可将其修正为“智能业务=算法+数据”。而我们常说的云计算、大数据、人工智能、区块链技术等,实质上均是“算法+数据”的体现,无非侧重点各有不同。
这里提出一个问题:
假如在你面前有一张纸、一支笔,现在要求你在纸上画一个坐标图,横坐标是数据,纵坐标是算法,你会如何把云计算、大数据、人工智能和区块链这四个概念填进这张图里呢?
当记者将这一问题抛给张宏鑫副教授的时候,他并没有给出答案,而是说:
这个图没法儿一下子画出来,因为需要搜集数据,以可视化的方式呈现出来。
张宏鑫是浙江大学计算机科学与技术学院副教授、浙江大学计算机学院未来信息技术研究中心副主任、浙江大学CAD&CG国家重点实验室副教授,他的研究横跨了图形学、云计算、大数据、人工智能、区块链等多个领域。
(1)云计算方面,他主导研制的渲染云系统是阿里云历史上第一个实际商用的云平台系统,后续发展为阿里云批量计算服务;
(2)大数据方面,他带队研发了“浙江大学研究生信息系统”,顺畅服务于浙大5万师生;结合可视分析,对城市高维异构数据的处理和交互呈现提出了一系列原创性方法;
(3)人工智能方面,他是多家人工智能明星创业公司(包括人工智能明星公司Rokid和无人车初创企业飞步科技)的科学家顾问;
(4)区块链方面,他联合管理学院,成立了浙江大学数字资产与区块链研究所。
目前他的研究方向是大数据的可视分析方法(包括区块链数据),和传统的三维建筑建模方法研究服务于华为的5G研发。
理念上
因为多年从事交叉领域的研究,张宏鑫副教授认识到,在整个信息产业中,云计算、大数据、人工智能、区块链、可视化、增强现实等技术是彼此联系、相互影响的。“每个弄潮儿都认为自己站在了时代的顶峰,但其实不是这样的”,他常常用一张盲人摸象的图片来展示这一理念,如下图:
他将机器人、自动化比喻成大象的腿,云计算、大数据比喻成大象的身体,物联网比喻成大象的鼻子和耳朵,虚拟现实、增强现实、可视化比喻成大象的眼睛,人工智能比喻成大象的大脑,而最让人疑惑的是把区块链比喻成象牙。对此,他解释道:因为象牙是大象最值钱的一个部位。
另外,他曾在采访中使用“无为而治,小国寡民”、“洼则盈,满则溢”等中国古代哲学思想来解释区块链,他说:
中国的道家思想,和现有的区块链非常一致。未来的社会一定会朝着区块链的方向发展,每个小的部分都会采用去中心化的、分布式的存储与处理的方法,如今大数据云计算都采取中心化的计算模型,把大量数据集中到一个部门,非常危险,他相信有一天政府会拥抱去中心化的经济治理模型,构建一个比较和谐的系统,实现小国寡民无为而治。
实操上
张宏鑫副教授曾在2018年8月的一次分享中,根据自己建立的数据模型,结合显卡算力、耗电量、电费等数据,推算出以太坊每年的折旧费、网络带宽成本和维护费用,最后估算出以太坊公链系统一年的硬件设备成本是131亿元。
从而进一步可以推断出,如果将以太坊视为单纯的POW(Proof of Work,工作量证明)类型货币,其成本价格应该在人民币600元左右。当然如果考虑到以太坊具有运行智能合约以及发行数字通证(Digital Token)的功能,其价值应该更高。详情可点击:《区块链能兼顾可信与效率吗?》
采访
:你的个人经历中,有这些关键词:计算机、图形学、可视计算、多学科交叉研究等。除此之外,还有其它的关键词吗?
张宏鑫:音乐。音乐能净化人的心灵,能通过潜意识来教化人。中国古代,周文王通过礼乐将众人聚在一起。最近一次和Rokid的合作,就是因为我和Rokid创始人当年都喜欢弹吉他。
另外,音乐好的人,思维也会非常好,浙大计算机系里就有很多音乐素养极高的人。我们找合作方的时候也会有这方面的考量,如果对方过于沉闷无聊,合作起来就会很痛苦。
:你的研究方向是大数据的可视分析,为什么选择区块链数据的可视分析?
张宏鑫:一、基于区块链数据本身的特性,做数据可视分析最头疼的就是寻找大规模的数据,而大多数的区块链数据是公开透明的,自然就是个非常好的研究对象;
二、我们试图取得分析方法上的创新,具体来说,只有在区块链这样大规模的数据下才能取得的创新。比如比特币地址都对应着人,人与人之间如此大规模的交易关系是值得分析和理解的,做一张拥有几千万节点的理论分析图是件非常了不起的事情。
:但是,这种工作已经有人在做了,你看(如下图):
图片来源:2015年的报道《Elliptic推出新型区块链可视化工具》
张宏鑫:这种属于简单的数据统计。我就问你一点,能不能用一个浏览器把几千个节点秒级地画出来?还比如说,通过纯数据的可视分析,你能不能知道过去一个小时里比特币发生了什么?时间越短,计算难度越高,那就需要想出一些新的方法。比如我们前几年做的一个工作,对美国各州七种犯罪记录进行了分析,下图叫做贝叶斯网络:
图:美国犯罪可视分析图
:回到刚才的话题,区块链数据的可视分析这个项目的现状是怎样的?
张宏鑫:这个项目是2017年8月成立的,目前我带了两组本科学生,以校内的SRTP课题形式展开研究。一组是做纯链上数据的分析,利用爬虫获取数据,然后做可视化的呈现(如下图)。
图:以太坊公链近阶段数据的可视化初步结果
另一组是在前者的基础上,结合新闻做一些分析(如下图)。
图:根据某区块链新闻网站,爬取部分数据所做的词云可视化结果
这个项目可以训练学生爬取和处理数据的能力,和利用NLP(自然语言处理)处理大规模文本数据的能力。不过目前项目和课题都在早期阶段,所以还是比较初步的一些结果。
:都一年多了,还处在早期阶段呀?
张宏鑫:这帮小朋友平常学业都好忙啊,课程和活动比较多,我都逮不住他们。话虽如此,我们认为在数据可视分析领域,浙江大学处于全国领先地位。另外几所有名的高校包括清华大学、北京大学、同济大学、香港科技大学、深圳大学、山东大学,这些高校各有特点。
:区块链数据可视分析的思路是什么?需要哪些工具?
张宏鑫:目前还没有明确的思路,我们先是把数据全部看一遍,用现有的时空数据可视分析方法去处理,例如大图可视化、结合新闻媒体的时间流图等各种可视分析方法,对于数据进行钻入以及多维度的迭代分析。
工具方面,这种可视分析并不需要什么特殊的系统或软硬件。搞科研的一般都喜欢从零开始构建研究平台,数据自己爬,自己写Python去分析,前端JavaScript的可视化工具自己做,这样一来整个思路都是自己的。虽然很多公司包括大型的互联网公司和多数的创新创业企业,都是采用现成的工具来做分析。但是我不希望学生们一开始就这么干,因为这会毁掉他们自己的想法和思路,很容易变成只依靠工具来干活儿。
图片来源:《数据之美:一本书学会可视化设计》
:可视分析的难点在哪里?
张宏鑫:对开发者来说,最大的困难是对业务的理解。除了数据分析之外,还需要理解数据之外的东西。比如获取数据,建立模型等等。现在对整个区块链生态有深刻理解的人很少很少。
:我们知道,一个人可以拥有多个区块链地址,既然数据可视分析研究的是个人的行为,那么如何处理地址的重复性?
张宏鑫:这在数据可视分析中,叫做数据清洗,把地址归类是一个单独的问题。我们做研究会把每个问题切开,做或不做某个步骤都有相应的方案。搞工程也是这样,在有限的资源条件下形成分析方法,并不是一开始有完美的方案。
:一般的大额转账数、交易量、地址数等统计数据,看似对普通人没什么用。谁会对区块链数据的可视分析的结果有需求呢?
张宏鑫:投资人、银行、大型国企、政府部门和科研机构。前几天有个北京的投资人,打电话问我关于某国际知名区块链公司的经营状态如何,有哪些风险,值不值得投资,我就给他讲了数据分析的思路;政府部门要考虑未来IT政策的制定;科研机构也在关注区块链数据的分析。
:NBA巨星科比·布莱恩特曾说自己喜欢闻篮球和地板的味道,你从事了十几年的数据可视分析,你会觉得数据可爱吗?
张宏鑫:我觉得很可怕。像我们用的安卓手机其实是不安全的,黑客能轻而易举地根据你手机里的应用数据,分析出你的出行规律。假如这个黑客和你有仇,他都可以远程操控机器来报复你。这是很可怕的。我的观点是一定要把数据关到笼子里面,跟权力一样,要受到监管,然后把数据的权力还给普通人。