本文共 5691 字,大约阅读时间需要 18 分钟。
ZD至顶网网络频道 05月18日 北京报道(文/李超):5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办。中国工程院院士、中国大数据专家委员会副主任委员、中国电子学会云计算专家委员会副主任委员王恩东出席了本次大会,并在大会上做了主题为“融合架构引领云计算数据中心”的精彩演讲。
中国工程院院士、中国大数据专家委员会副主任委员、中国电子学会云计算专家委员会副主任委员 王恩东
王恩东在演讲中表示:“未来的数据中心应当是一个业务感知的数据中心,成为符合我们每一个人应用的专用计算机,而不是一个今天的通用计算机,从而大大提升计算的效率、节省计算的能耗。真正能够符合未来智慧计算的需要。”
王恩东:尊敬的大会主席李伯虎院士,尊敬的各位专家、各位同仁、女士们、先生们大家下午好。 非常高兴来参加今天的第八届中国云计算大会。应当说中国的云计算在中国电子学推动下,经过这样一个八九年的发展,我们大概可以看到,确实是取得了非常长足的进步。我们今天每个人应当说都在切身体会云计算带给我们的变化。今天我们大会有一个副标题叫技术融合、应用创新,今天我的题目也是融合架构,作为数据中心支撑云计算发展中心,在技术上、在产品上也面临很多一些新的需求、新的挑战。所以我想今天就为了这融合架构、为了未来云计算数据中心的趋势和技术发展热点与大家做一个交流。
包括分三个方面,首先给大家分享一下数据中心的发展与需求。
应当说今天我们大家确实已经进入了以云计算、大数据为依托的这样一个智慧计算的时代,整个IT的环境,也在发生着巨大的变化。我们来回想一下,从计算机刚刚诞生的时候,实际上它一开始主要是用于一些数字计算。逐步发展为商业的应用,成为科学计算和商业应用两个方向。到了上世纪80年代由于电脑的出现,由于服务器技术架构的出现,再后来又出现了浏览器服务器的模式,促进了这样一种互联网快速地发展,应当说从第一个阶段到第二个阶段我们可以看到,本身就产生了一个量级的变化。我们可以看到应用的数量由原来的数以千计到互联网时代的数以万计。用户由原来的百万级到以亿为单位。但到了今天的云计算和大数据、到了物联网时代,应当说这种变化就更加的剧烈。我们可以看到应用的数量已经到了百万,我们可以看到在很多的一些应用商店里面,这些APP的应用都是百万级的,用户的数量是以十亿为单位。当然这种联网的数量就更加的多,应当是以千亿级。
所以在未来我们可以想像,也许到了2020年之后,我们再来看计算的分类,可以就分为三类,一类是我们最初的面向解决重大科学问题的科学计算。另外一类就是在一些关键的应用场合,像金融、像通信在关键的应用里面有一些关键计算。但是我想更大的一类我们是否可以把它归纳为,或者叫做智慧计算。
在前一段时间,麦肯锡曾经对影响世界的22项技术做了一次调查和分析。他把前12位的放在这地方,我们可以看到这12位里面,排在前5位的基本上都是移动互联网、自动化、物联网、云计算、机器人。可以想见计算机技术对人类生活、社会发展将产生越来越大的这种影响和作用。因此呢我们想社会可能与我们所谓的信息时代进入智能时代。实际上最近我们也在看到像阿尔法狗与李世石下棋,应当说人工智能炒的很热,包括谷歌人工智能,用了十天的时间,通过识别一千万张图片,教会了计算机能够认识猫的图片。一方面我们可以看到人工智能的发展,给计算带来巨大的需求,但同时呢,应当说如果我们真的像让我们社会,让我们的万物,在我们的工作当中,智能打的像人一样的智能一样,它的能耗是非常非常大的。人需要在3毫秒认识一只猫,而作为计算机需要这么强大的系统,需要这么长的时间。
当然通过这样一种我们可以看到,作为在智慧计算的时代,或者在未来的智慧时代,应该说云计算、大数据会成为我们核心的一些技术。如果展望未来智慧计算时代,或者智慧时代,是一个什么样子?它数据在计算方面具体会产生多大的需求呢?我们来看几个例子,像智慧医疗,像未来人的衣食住行都是跟物联网相关,会产生大量的终端,这些终端时时刻刻会产生大量的数据,当然通过这种数据的储存、分析也会产生巨大的价值。这会对我们未来得健康、医疗带来根本性的一些变革。
既然有这么多的终端,终端这样的一种便携化、轻量化产生大量的数据,需要储存、需要分析、需要计算。这样应当就会要求后端的数据中心,要能够承担起这样一个作用来。因此数据中心数据的大规模集中化是一种必然的战略趋势。所以我们来看的话,应当说这几年包括未来,我们数据中心的设备需求在快速的增长。我这里列出了几类核心设备、服务器、储存和网络,可以看到这是一个很快增长的这样一个趋势。具体的数字就不给大家来念了。
举几个例子大家都知道,目前我们国内的互联网在全球互联网前十强里面,已经有四家在前十强里面。就是BIT,就是阿里、百度、腾讯再加上京东。我们与全球前3家的谷歌、亚麻和FACEBOOK,我们可以看到全球大规模数据中心服务器上面是非常大,腾讯有50万、百度也有50万左右的服务器,阿里大概有60万台,最多像美国的亚马逊有300台左右的保有量。并且从整体来看从集中化和规模化。从右边这一张图数据中心的集中化,柱状图在下降,是在讲数据中心的数量在减少就是集中化的趋势。但是单个数据中心的规模在快速的提升。我们可以看到这最大的在未来数据中心在2012年,可能是5万台就是最大的数据中心,在今天说20万台、十几万台的数据中心已经不少了。我们预计2020年单个数据中心50万台就会出现,所以数据中心的规模化是一个很明显的趋势。
数据中心的集中化和规模化,也必然会带来很多的问题和挑战。我们从三个方面来看:
第一个是性能,计算的性能、储存的容量等等,是来支撑云计算、支撑信息发展、支撑信息社会发展根本的东西。应该说性能的瓶颈可能是一个最大的瓶颈,尤其是我们的性能主要来自于像CPU也就是半导体的技术支撑。从2005年之后CPU的频率就由于能耗、由于工艺等各方面的限制,基本上就停留在3G赫兹以下。尤其随着工艺越来越接近于极限,现在14纳米接下来7纳米再往下可能就变成几个原子这样一个宽度。所以半导体的工艺越来越极限的挑战。我们三四十年来我们更多的是靠摩尔定律这样一种,来自于通过半导体技术的快速发展,带来性能的快速发展。在2014年ITTRS也就是半导体技术发展的组织,就发布将不再遵循,就未来得半导体技术就不再遵循摩尔定律。所以我们在性能上会遇到一个很大的挑战。
第二个性能当然还有就是储存的性能,因为架构将计算和储存做了分离,我在这里储存的层次做了计算,从CPU与内存的访问的延迟,访问中硬盘的外存的延迟,应当说这里面的延迟比例变化是非常大的。当然这里面的带宽变化也非常大。因此就形成了这种内存强IO强,影响计算机系统性能的提升。
第三个性能就是网络性能。我们来看版内的设计,这种设备内的版间的网络速度,和设备间的网络速度是一个逐次递减的过程,为什么这样子?我们都知道设备间是要通过交换机,交换机的背板的速度要分配到各个端口上去,我们要实现大量设备的互联,所以应当说通过交换的模式、交换机的背板限制了端口速度和带宽。
同时我们也看到在这种数据中心内部设备间的互联的协议,跟这种数据之间的,也就是说内网的网络协议,跟外网的协议是一样的。但是大家都知道,通用的网络协议是比较复杂的。因此在数据中心内部的,它的网络效率应当讲也是有问题的。也影响了数据中心系统性能的提升。第二个问题那就是效率的问题。一方面我们服务器、储存的需求在快速增长,但同时我们看到,他们的利用效率并不高。这列出来了现在80%的服务器,利用效率在25%以下,全球数据中心的平均利用率在15%。当然现在也有很多的技术,希望说能够提高这样的效率,让它虚拟化。使这种通过虚拟化,使资源能够在不同的计算设备之间进行平衡。
应当说虚拟化相当程度的提升了计算设备的总效率,但同时我们看到,还有很多制约效率的一些问题。到目前还没有完全解决。比方说在我们的计算设备、储存设备和网络设备里面,实际上每一个设备里面,都有大量的这种计算和储存和网络的一些资源,但这些资源都是隔离的,它们之间并没有得到共享。
另外呢就是本身我们的CPU是通用,通用的CPU在效率上不如专用芯片要快。如何来解决这问题呢?就是能耗。能耗是数据中心要绿色、要节能,关键就在于能耗的问题。这里面有几个数据,目前说全球数据中心的能耗,每年的能耗是3千亿千瓦时,我们中国的数据中心大概是一千瓦时,相当于一个三峡大坝的总发电量。所以我们大家都在想如何降低能耗,我们来看一下数据中心有多少能耗用在实际的IT设备里面,实际上我们PUE值都比较低,在美国做的比较好像用自然风制冷,大概能做到1.1和1.1以下,而我们国内包括大规模的数据中心,基本上都是在1.5和2.0之间,而现在传统的PUE值都超过了3超过了4。 就是说大量的能耗并非用在了这种IT设备上,今天我们人工智能的发展,应当说对能耗会提出更大的挑战。我们都希望说每一个人都有一个阿尔法狗这样的大脑。但是大家知不知道,像阿尔法狗跟我们实际人的能耗相比是有天壤之别的。阿尔法狗用了1920个CPU,256个GPU,它的运算效率大概是3千万亿次,但是它的能耗大概是500千瓦,它的功率。而人像李世石大概就是0.1千瓦,我们每个人都像阿尔法狗这么聪明的话,我们可以想像在能耗方面是一个多么大的挑战。
所以现在呢,我们应该说在很多的挑战面前,而解决这问题的路径,又面临很多的问题。因为今天一些新的计算方式,新的计算机像量子计算机、量子计算,可能真正能够用起来,到目前还没有看到,会十年、二十年、三十年还是五十年,更多的还是在实验室里面,现在在量子统计方面已经有了一些进展,得到了十几的应用,但作为量子计算机什么时候能用起来,其他新型的计算机能用起来,而摩尔定律面临着巨大的挑战,大家都在讲我们进入了后摩尔时代。
相关+的技术可能对于性能的提升,目前应当说改良性不是革命性。所以在这样一种状况下,计算能力的路在何方?那么融合这个词并不是一个很好的词。它更多的是叫把现有的技术如何整合到一起去,来满足一种需要。但既然今天计算技术在很多方面遇到了一些瓶颈性东西,还没有革命性方案的时候,也许融合技术在未来十年、二十年、三十年之内来提升数据中心性能的一条路径。这条路径我们把它叫做融合,所以我们讲说未来的数据中心是融合架构的数据中心。什么是融合架构?在这地方呢我们把融合架构用在硬件重构+软件定义,就是硬件网络设备中的同类资源整合成一个资源池,不同的设备能够任意的整合,在软件的动态感知业务的资源需求,利用硬件重组的能力来满足各类应用的需要。当然要实现这样一个融合架构,也是需要一些演进性技术一些支撑,在这里面像高速互联技术的发展,像新兴内存技术的发展,像可重构芯片的发展,像软件定义。在这里面像高速互联技术,应当说这种硅光互联可能进入芯片互联这样的一种技术,因为光的传输在电的传输有很多的优点,现在随着半导体技术的一些演进,光互联进入到芯片间的互联成为一种可能。并且这样一种通过光互联进入芯片,可以使我们资源的这种结构,由原来的只是对结点的结构对芯片的结构,进入细密度的结构。
另外就是新型储存材料的出现,就会改变原来传统计算机这样一种传统层次。更大的内存出现在计算机里面,我们原来就是希望我们的内存更大,我们的数据都放在内存里面,这样的话我们就会缩减,它去访问慢速储存所带来的延迟或者效率资源的消耗。当然还有一种支撑技术就是半导体的3D技术的发展。使处理器内部的增加速度,使可编程的芯片成为可能。我们可以在这种芯片里面,既有固定的通用的能力,又有可编程的能力,既保持了通用性,又能够专业性的应用,变成专用的中芯片。通过这种芯片的重构,它可以是一个作为动态压缩的芯片,也可以变成一个作为图像芯片,这讳忌大的提高芯片的处理效率。
当然根本上还在于软件定义,硬件的重构,它能够成为一个更加符合你应用的东西,更加符合你应用的计算机,软件定义是灵魂。由于时间的关系我就稍微快一点。
要出现融合架构我们把它分成三步走,第一步就是首先要把一些非计算的资源进行整合,满足数据中心在能耗、在密度方面的要求。第二步来吧一些储存把计算、网络进行整合。第三步成为完全可重构的数据中心,完全用软件定义的数据中心。
作为第一步来讲的话,应该目前在全球这方面已经得到很好的实践。像在美国我们大都都知道CPU标准,在国内游(英文),按照这样的整合理念来做的计算储存设备,比传统的设备在很多方面都表现出更强的优势。在百度在阿里的数据中心,在融合架构的产品,在部署密度上提高了14%,在功耗降低15%。同时在一些面向特殊的应用上在语音识别上面,它的功耗有了极大的降低,而性能大大提升。
如何融合第二代就是把储存和网络进行融合,这里面我们也把已经出现的产品所带来的好处呈现在工作中,可以看到它在密度提高方面,在效率方面,又比第一代有了更进一步的提升。尤其是在HADOOP上面更加的高,在云计算方面密度有了更进一步的提升。当然第三代真正满足我们的需要。我们不管什么样子的应用最根本的就是计算机,在未来应当是你需要你有一个什么应用,我给你这样一个计算资源,就正好是按照你的应用是一个专用的计算性能,它的速度、它的能耗都会降低。
这里有一个视频大家看一下。(视频)
到最后的声音就出来了,应当讲就是说,就未来得数据中心应当是一个业务感知的数据中心,成为我们每一个人都有一个符合你应用的专用的计算机,而不是一个今天的通用的计算机,从而大大提升计算的效率、节省计算的能耗。真正能够符合未来智慧计算的需要,这就是我今天的报告,谢谢大家。