云计算怎样征服高性能计算资源调度这座高峰

资源调度是一个不讨好又必须面对的难题。通常很复杂而且常常令用户沮丧、让系统管理员忙碌,但它们又是必须要做的事情。最常见的抱怨是:“为什么我的作业没有运行?”问题最常见的答案依赖于对一些调度规则的解释,有些干脆说已经满负载,再或者在极罕见的情况下,甚至称一个用户的程序导致了该问题。

如果你不知道什么是资源的时刻表,那么接下来的这几段必须要看了。这个名词是说,您有很多个资源、很多个作业在排队,需要列出这些资源以最佳的状态工作。一些常见的资源调度比如SunGird、Engine, Torque/Maui、Moab、PBS、Platform以及Platform Lava。集群是体现资源调度最好的例子。在一个128节点的集群里,每个计算节点有八个核。大部分的用户的程序需要1—16个核来工作,但是有一些需要256个核。问题就是,给出一个工作的清单,什么才是这个集群被充分利用的最佳工作方式?

用户在提交“作业”的时候经常通过一个脚本(类似于qsub,queue summit)使得作业插入到队列调度中去,如果被允许,用户可以使用类似qstat(queue status,队列状态)的脚本来控制自己的程序,同时打印出一些让人困扰的信息,没有一个信息可以回答你“为什么我的作业没有运行”(当然,这里也提供了这条消息,但是看起来最简单的方式还是给系统管理员发个邮件)。

为了使调度问题更棘手一点,在某些情况下,我们不知道这些应用程序将会运行多长时间,而且也许有一些其它所需的资源(比如内存容量、存储、处理器类型等)。因此,资源调度这个工作并不简单,但是对于集群利用率来说非常重要。实际上,多核的出现使得内核级调度工作比以前更加重要(当然也更加困难)。在内核级,内核必须被安排,而且将任务在核心之间互相转移必须基于缓存。有趣的是,高层次的资源调度能力已经延伸到CPU,控制核心的位置对获得最好性能是非常必要的。

为什么资源调度将会成为高性能计算以后新的、很酷的工具?并不是因为一种新的额GUI或者一些其它的神秘的功能。真正的原因是云计算。但是这并不意味着云将会很快到处都是,实际上,资源调度将会把云放在合适的地方。

最近,听到一个新泽西技术研究所的David Perel使用Sun Grid Engine(SGE)所做的Apache Hadoop动态资源分配实验。随后有一个深入的研究,有关Sun Grid Engine更新的文章。在新的版本里有两个诱人的更新,第一个是云计算,第二个则是Hadoop,类似于一种大众云计算的东西。

最特别的是,SGE新的版本允许云中的互换,就好像亚马逊的EC2。作业被允许,SGE可以控制之间的联系。使用EC2的话,用户需要为应用程序构建AMI图像。除此之外,他们还需要提供EC2上的账户信息。一旦做到这一点,用户可以讲作业插入队列,对于EC2来说,则有了一个“云爆发”。

另外一个新功能是与Hadoop的整合。如果你不知道什么是Hadoop的话,那就Google一下。只是架设好一个Hadopp集群并非易事。这是一种不依赖一个数据库的强大的搜索模式。通常,地图搜索减少启动服务器的数量,给每个本地硬盘驱动器设置不同的数据。SGE已经得到增强,现在Hadoop作业可以直接提交。

在这一点上行,云中的高性能计算是一件喜忧参半的事情。除非你使用一个特别设计的HPC云计算,就好像Penguin的POD服务,对HPC性能至关重要的I/O资源可以多样化。这可能会改变。作为单独服务器包含更多内核。HPC应用调查显示,57%的HPC用户使用32处理器或者更少的核心。这些人证实了ClusterMoney.net有关此调查55%的数字。当云计算开始使用48个内核的服务器时,可能会消除一些服务器到服务器通信问题的形成。

高性能计算可能会采取一种不同的、使用密集多核服务器的方式进入云计算。用户可以在桌面上就将作业加到SGE中去。这种资源调度方式会接触可以运行虚拟机的本地资源或者云中资源。这种资源调度方式可能会让HPC实现宝贵的桌面化。听起来像网格计算,但是更简单。

时间: 2024-05-04 07:27:31

云计算怎样征服高性能计算资源调度这座高峰的相关文章

云计算环境中的资源调度策略研究及仿真分析

云计算环境中的资源调度策略研究及仿真分析 浙江师范大学 王梅 本文的任务调度研究内容基于Map/Reduce思想的第二部分,并且就虚拟机迁移这两方面作了工作:(1)任务调度算法优化,本文主要研究是如何合理地将各个子任务分配给虚拟资源,以提高任务的总体完成时间.首先将云环境资源建模成遗传优化和蚁群优化的任务调度算法优化问题,将任务进行分类后利用改进的遗传算法求得初始解,再将初始解代入改进的蚁群算法,求得最优解.结合遗传优化算法全局优化能力和蚁群优化算法的局部优化能力,通过Cloudsim进行仿真验

中国人工智能学会通讯——互联网到人工智能的第一座高峰

今天,我想提出一个题目让大家思考:从互联网时代发展到人工智能时代会出现哪些标志性的技术或产品?我们认为,智能驾驶将是这个时代变革中出现的第一个高峰. 互联网带来了人工智能的发展 曾经有这样一句话给我的感触很深--"时来天地皆同力,运去英雄不自由".意思就是一件事运势到来时,它的发展好像有天地同助,但是一件事的运势过去时,也会看到英雄落寞.为什么要说这句话?就是大家要看清这个时代.如果看不清时代的趋势,就好像是看着后视镜向前行车. 我觉得从本质上来说,互联网带来了三样东西.第一,解决了信

三大运营商云计算战略将步入实施高峰

中国电信云计算数据中心(IDC)项目日前正式落户呼和浩特市,总投资估算120亿元.据悉,IDC是云计算的支柱性产业之一,随着中国电信呼和浩特IDC项目的公布,未来三到五年,三大运营商IDC投资级别都将维持在百亿元以上.与此同时,中国移动"大云"计划关键技术启动标准立项,业界预计今年底或明年初,运营商云计算战略布局将正式进入实施高峰. 根据中国电信与内蒙古自治区人民政府签订的协议,中国电信集团公司将在内蒙古呼和浩特市建设云计算数据中心.该项目共分两期建设,总投资估算120亿元人民币.一期

黄晓庆:云计算将像水电煤一样成IT基础设施

中介交易 SEO诊断 淘宝客 云主机 技术大厅 近日,中国移动通信研究院院长黄晓庆在2010中国国际通信信息展"ICT中国·2010高层论坛"上预测,云计算给整个IT行业带来变革,而这种变革就是云计算未来将向水电煤一样成为大IT行业的基础设施,为公众提供运算服务. 黄晓庆并预测,云计算最终会从"企业云"逐步向"个人云"演进."现在我们大家没有习惯把数据存到云里或者云计算供应商的地方,就好象从前没有银行,大家也不习惯把钱存在银行里&quo

高性能计算用户大会在北京举行

近日,2013高性能计算用户大会在北京举行.天河二号主任设计师.国防科学技术大学卢宇彤教授在大会报告中详细揭秘了天河二号的系统架构和创新应用,披露了我国超算的自主研发实力水平,提高了大家对中国超算自主科技水平的认识. 2013高性能计算用户大会火爆举行 据大会负责人介绍:2013高性能计算用户大会备受瞩目的因素主要是大会以高性能计算应用为主线设置的内容前瞻精彩深入,同时结合当前热点聚焦话题和前沿科技,吸引了众多业内人士. 高效能服务器和存储技术国家重点实验室主任.中国计算机学会副理事长.浪潮集团

2013高性能计算大会举行 揭秘天河二号系统架构

摘要: 近日,2013高性能计算用户大会在北京举行.天河二号主任设计师.国防科学技术大学卢宇彤教授在大会报告中详细揭秘了天河二号的系统架构和创新应用,披露了我国超算的自主研发实 近日,2013高性能计算用户大会在北京举行.天河二号主任设计师.国防科学技术大学卢宇彤教授在大会报告中详细揭秘了天河二号的系统架构和创新应用,披露了我国超算的自主研发实力水平,提高了大家对中国超算自主科技水平的认识. 2013高性能计算用户大会火爆举行 据大会负责人介绍:2013高性能计算用户大会备受瞩目的因素主要是大会

云计算专家访谈:百度系统架构部技术总监 吕厚昌

中介交易 SEO诊断 淘宝客 云主机 技术大厅 记者:您能先简单的跟我们介绍一下您这个部门在百度中是一个什么样的角色吗? 吕:百度的数据团队属于基础架构部.顾名思义,这个部门是做数据的.百度对数据的重视在业界里面很突出,因为百度一直讲究让数据说话.用数据支持决策,已经是公司文化的一部分.这个团队成立的最主要的目标是要从技术上把数据的应用推动到更高的层次.百度的数据量很大,所遇到的不少难题业界也清楚.有时,需要做复杂的数据挖掘,但有时又会回到原点改善数据收集.数据收集做的不细做不出好东西.这个团队

中国油企该如何云计算

对于戴尔这样的公司,绝大多数人都不应该感到陌 生,毕竟我们听到过它的很多传奇故事.不过,很多人对于戴尔的认知也仅限于PC.显示器.服务器.存储等一些非常具体的产品,而不是出于整体,更不知道戴 尔与中国一些重点行业的关联.记者日前有幸采访了戴尔咨询http://www.aliyun.com/zixun/aggregation/4510.html">董事总经理朱育强先生和戴尔企业方案部高级经理王雷先生,了解了戴尔对于中国能源行业的认知.支 持和推动情况. 云计算当然是现在的核心话题之一,我们自

高性能计算:价值在于为应用做计算机

曙光今年研发的名为"星云"的高性能计算机在第35届全球超级计算机"TOP500"中,凭借着每秒高达三千万亿次(3PFlops)的系统峰值,以及每秒1.271万亿次的实测Linpack值速度,一举夺得全球第二的好成绩,正式成为全球第3台实测性能超千万亿次的超级计算机.而10月份在山东召开的"2011年中国高性能计算机TOP100排行榜"上,曙光再次凭借35%的市场占有率连续两年拿下中国高性能计算机市场占有率第一的名次. 最近我们对曙光高级副总裁聂华