计算机系统结构也是“合久必分,分久必合”。从集中式的主机/终端到分布式的客户机/服务器,90年代末又走向集中管理的服务器聚集(consolidation),流行超级服务器,到下世纪,分布在世界各地的计算机将形成资源共享的网格(Grid)。本报告重点讨论高性能计算机与超级服务器的发展趋势、的后继---信息网格的主要特点及其关键技术,我国高技术计划所从事的有关超级服务器与信息网格的研究进展以及国内高性能计算机产业的发展状况。最后论述ASP业务与服务器制造商合作统一的发展前景。
几乎所有的计算机厂商都推出了机群(Cluster)结构的高端计算机。今年在美国达拉斯举行的SuperComputing国际会议与展览会上,展出的大部分产品都是Cluster类型的并行计算机。Cluster系统不仅通过增加节点机(node)易于提高系统性能,保护用户投资,而且可用性高,一个节点出故障不会引起全系统瘫痪。目前世界上性能最高的超级计算机---IBM研制ASCIWhite超级计算机就是512台SMP多处理机组成的机群系统,共包含个处理机,峰值速度达美秒12.3万亿次浮点运算,这种机群系统称为CLUMP(ClusterofMultiprocessors)。
90年代中期以前,超级计算机主要用于科学工程计算。随着的普及与发展,越来越多的高端计算机用于网络信息服务与事务处理,超级服务器逐渐成为高端计算机的主流产品。到年底,全世界性能最高的500台计算机(TOP500)中已有300多台是超级服务器。据IDC统计,目前高端计算机中90%以上用于非科学工程计算。
90年代以前几乎所有的超级计算机都采用专门设计的芯片与主板和厂家独立开发的操作系统。随着微机服务器和RISC服务器的普及与价格急剧下降,采用大批量生产的单机或SMP服务器做节点和广泛流行的UNIX、NT或LINUX操作系统做节点操作系统已成为各厂家构建可扩展高端计算机的主要途径。甚至一些用户单位自己购买标准的部件即所谓Commodity产品,如PC服务器、也可以构造自用的机群系统。这种系统常称为Beowulf并行计算机。这种系统尽管通用性、可扩展性和可用性差一些,但成本低,对于那些对通信要求不高、应用较单一的用户有吸引力。
80年代末开始,Client/Server成为是最流行的服务模式,表示与应用软件都放在客户机上(一般采用微机),后台采用服务器。随着中间件与Web技术的发展,三层或多层分布式应用体系越来越流行。在这种体系结构中,客户机只放表示层软件,应用逻辑包括事物处理、监控、信息排队、web服务等采用专门的中间件服务器,后台是数据库。中间件可能不止一层,因此可形成多层(Multi-Tier)服务器结构。
统计表明:服务器(尤其是超级服务器)出故障主要不是硬件或软件出错,而是系统管理维护人员人为的错误。在美国,连续工作五年的服务器其90%以上的成本是维护成本。因此近来提高服务器的可维护性、可管理性已成为厂家与用户最关心的问题。在网络环境下,系统的安全性也成为关心热点,所谓易存活计算机(SurvivableComputer)成为当前一研究热门。单纯的峰值速度已不是用户关心的重点。
过去用户购买计算机主要关心买入时的性能与价格。近几年,总拥有价格(TCO,即TotalCostofOwnership)和总拥有性能(TPO,即TotalPerformanceofOwnership)已变成常用词,成为企业信息主管选型时的主要考虑因素,即用户更加注意自系统购买之日起系统的整个生命周期内(一般五年左右)所能得到的总的性能和总的花费。
网络应用需要直接上网的海量存储,近两年来,NetworkAttachedStorage(NAS)越来越被人们看好。今年SC-和Comdex展览都有不少厂商展示新推出的NAS产品。数据密集与吞吐量(Throughput)密集型应用是服务器的主要应用,存储服务器与StorageAreaNetwork也是当前服务器研究的主要方向。
多媒体应用,特别是视频与语音服务业务需要处理大量的视频流、语音流。流处理对服务器系统结构提出新的要求,包括流栈(StreamingStack)技术等。对于多媒体应用,超短指令字(VeryShortInstructionWord)系统结构和多向量处理可能是未来发展方向。
计算机技术与通信、信息家电技术的融合是信息技术发展的主要趋势。许多数字通信设备,如路由器、软交换器(SoftSwitch)等本质上是一种专用的服务器。通信设备的研制必将越来越多地依靠服务器技术。高端服务器技术毫无疑问会在通信和广播电视领域开花结果。VOD服务器、超级email服务器、网络与信息安全服务器等各种专用服务器具有很大的市场潜力。
计算机系统结构如同人类社会一样,其发展途径也是“合久必分,分久必合”。60—70年代,以IBM360为代表的集中式主机(Mainframe)系统是主流。80—90年代随着PC机的流行,Client/Server结构逐渐流行。各式各样的服务器分散在上,管理开销很大。90年代后期将各种服务器集中在一个机柜中的服务器聚集(ServerConsolidation)开始流行。近一两年,网格(Grid)研究变成新的热点。到21世纪分布在世界各地的服务器聚集和各种信息资源将成为不同领域网格系统的节点,给人们提供更方便的服务。
美国从十几年前起开始预研计算网格。年提出概念设计,现在已成为研究热点。今年召开的SC-国际会议上有许多关于网格的论文、报告与展品。有人认为,美国70年代关于网格的研究导致了今天网络经济的繁荣,而现在对网格的研究可与70年代对的研究相提并论,10年后网格将如同今天的一样普及到国民经济和社会的各个领域。
笼统地讲,的作用是将各种计算机连结起来,而网格是将各种信息资源(内容)连结起来。计算网格和信息网格的思想来源于电力网格,目的是将计算能力和信息资源像今天的电力一样方便地送到每一用户。早期,科研人员常用元计算(puting)表述计算网格,试图用分布在世界各地的超级计算机分布式地求解一些大规模科学工程计算问题。现在看来,有这种要求的用户很少而且实现起来难度很大,目前更多的学者在研究网格上的资源共享。
计算网格是国家级甚至世界级的高性能计算基础设施。它主要包括六大部分:网格节点、宽带网、网格软件、数据库、贵重仪器和可视化设备。网格节点是一些高性能计算机。数据库包括天文、基因、环保资源等信息和数据。贵重仪器包括理论物理研究的粒子加速器、大口径雷达、天文望远镜等。网格软件包括网格操作系统、网格编程与使用环境以及网格应用程序。网格软件提供单一系统映象、透明性、可靠性、负载平衡和资源共享等功能。目前较著名的网格软件有Globus、Legion等。
信息网格的研究还刚刚开始,许多概念还在形成之中。一般而言,信息网格是在全国(全世界)范围内对各行业和社会大众提供各种一体化的信息服务的信息基础设施。信息网格与目前的Web服务的主要不同是一体化。它将分布在全国甚至全世界的计算机、数据、信息、知识(软件)等组织成一个逻辑整体,各行业可以在此基础上运行各自的应用网格。
在/Web上,数据和信息资源零散地分布在各个网格站点。而在信息网格中,资源被统一管理和使用。用户可以通过网格门户(portal)透明地使用整个网络资源。他们看到的是一个逻辑门户上的若干与自己相关的频道,而不用在成千上万个网站中搜索自己想要的信息。打一个不太精确的比方,信息网格相当于中央电视台,而目前的/Web相当于成千上万个独立的制作组,各制作组有自己的频道、互不共享资源,只提供原始数据。采用信息网格技术的巨大优势是大大降低建立网站提供网站服务的成本(估计只是现有网站的1/3到1/10)。因为许多平台和资源都是共享的。对于大多数步履维艰的Web网站,导致门槛降低的信息网格无疑是一道福音。
建立大规模的网格系统的关键技术是网格系统软件,特别是网格操作系统,其核心技术包括以下几个方面。
l网格资源的管理:全网格资源目录的统一用户的帐户管理。动态地收集处理网格中各种资源(尤其是服务器)的状态信息是统一调度管理的基础。
l信息优化使用技术:提供目录和缓存技术,可以大大提高网格信息查询和浏览速度。用户、管理员和系统软件协同工作将零散的原始数据组织成一体化的信息和知识。
l网格中作业调度技术:网格中的信息将动态监测,网格中的作业将根据资源状况进行负载平衡,实现优化运行。
l网格安全技术:通过身份认证等安全技术防止非法用户通过网络使用或获取网格的任何资源,保障数据的安全性。同时,通过权限控制和数据隐藏技术使用户只能获取允许的信息和知识,而不能窃取未授权的信息。
在这些核心技术中重点要解决的软件问题包括性能与精度的不可预见性与鲁棒性,实时资源管理与动态算法选择,支持程序环境的多样性与急插急用性,容忍延迟和节约带宽的新算法设计,以及支持长时间运算等。
国家863技术已经启动中国的网格技术研究,着手建立中国的国家高性能计算环境和国家信息网格系统。以中国科学院计算所为牵头单位联合国内其他大学正在开发网格操作系统。分布在全国五个城市的国家高性能计算中心的超级计算机已经初步实现统一的资源目录管理。在今后五年内,我国的信息网格将初步建成。
我国高性能计算机研制与产业化能取得如此快速的发展的主要原因是选择了符合国情与技术发展趋势的正确的技术路线。80年代末当863计划刚启动时,日本的五代机计划还如火如荼。我们认真地分析了市场需求与计算机发展趋势,清醒地认识到计算机产业已形成一系列国际工业标准,脱离工业标准和主流技术的所谓第五代智能计算机不可能有好的发展前途,因此果断决定以并行处理技术为基础的高性能计算机为主攻方向,以共享存储多处理机为第一个目标。93年推出曙光一号对称式多处理机以后,863计划又推出曙光大规模并行机。根据高性能计算机的发展趋势,从年开始,国家智能机中心迅速地转移到研制机群系统与超级服务器,这一系列正确的选择表明,我国科研人员在选择“做什么”方面已相当成熟,较少盲目性。
确定做哪种体系结构的高性能计算机只是有了正确的方向,研制是否成功在更大程度上取决于如何研制,即具体从哪些技术上突破。80年代以前,中国受到外国封锁,没有对外开放的条件,因此做大机器强调一切从头做起,强调所谓国产化率。一台大计算机的研制周期短到
五、六年,长则
七、八年,被人们戏称为“八年抗战”。可以设想,这种马拉松式的研制成果不可能有市场竞争力。曙光机的研制改变可这一旧的研究模式。研制一开始就把机器推出时间和机器成本作为重要的考核目标,保证了研制成果具有市场竞争力。根据我们自己的条件,我们将技术突破的重点放在处理机互连、机群操作系统、并行编程环境、高可用性等较高层次的增值创新。经过几年努力,我们在单一系统映象、文件管理、并行环境和硬件监控等方面已进入国际领先行列。实践证明,这种“有所为有所不为”的技术路线是发展中国家后来居上、跨越式发展的必由之路。
发展中国家在发展高技术上有很多制约因素,比如我们很难买到IBM等大公司的操作系统源程序(即使能买到,价格也十分昂贵)。90年代前期研制曙光一号与曙光时我们在购买标准UNIX源码基础上自己设计开发并行操作系统,虽然符合POSIX标准,但用户和第三软件厂商很难接受不是名牌的操作系统,用户从国外购买的应用程序目标码难以在曙光机上运行。从研制曙光开始,我们坚持了节点上AIX操作系统原封不动的原则,首创了在不修改商品化操作系统源码条件下,利用核心扩展、核心模块置换、用户空间Daemon技术,实现了机群文件系统、单一入口点等需要操作系统核心支持的创新功能,为国产高性能计算机的创新探索了一条可行的道路。这一途径使上万种商品化软件目标码可以在曙光机上运行,大大提高了曙光服务器的市场占有率。与此同时,我们也积极投入并行Linux操作系统的研制,已推出基于Linux的安全服务器。随着Linux市场的快速增长,Linux将成为曙光服务器的主选操作系统。
由于广大用户越来越关心服务器的非性能因素,我们将用户最关心的可扩展性(Scalability)、易用性(Usability)、可管理性(Manageability)和可用性(Availability)归纳到SUMA特性,把它作为曙光服务器的主要特色和主攻方向,注册了“It’sSUMA”商标,真正在提高服务器的可扩展性、易用性、可管理性和可用性上下功夫,在这些方面获得了一大批自主知识产权。曙光公司把这些高端计算机的技术移植到低端PC服务器,大大增强了PC服务器的可维护性,受到用户普遍欢迎,也提高了曙光低端PC服务器的市场占有率。