说来好笑,作为主机托管商,一般平时的售后工作最主要的就接电话重启服务器,然而就这么个简单的工作,想要做到人人满意也不容易。很多客户抱怨机房服务怠慢,响应不及时,重启一次少则一刻钟慢则半小时,如果遇到节假日人手少服务更打折扣。
为什么会发生这种情况呢,究其原因,主要是中间环节多,人工效率慢。托管机房里的服务器数量很大,数以千计,发生死机的机率较高,对机房中数量不多的管理员来说,每天需要重启的工作量是非常之大的。客户发现死机后要先通知托管商客服,再由托管商客服联系电信的机房管理员。接着管理员需要首先查到该服务器所在的机柜位置,然后进入充满幅射的、面积很大的机房,有时可能还要小心绕过机房内密密麻麻的线缆,才完成这一简单的重启工作。中间环节消耗时间较长,人为出现失误的机率也较高,加之系统软件重启本身所需时间,在大型机房里,即便各个环节配合默契,一刻不耽误贯彻下去,到最终恢复访问,一般也需要等待15分钟以上,有托管服务器经验的朋友其实都清楚,实际等待往往更久,就说老唐自己每次叫机房重启服务器,等半小时没反应是常事,如果遇到服务器反复死机,那就更受煎熬了,管理员一不耐烦,晾你一边,或者直接叫你过去自己解决,那就惨了。
因此重启服务质量往往成为客户投诉的焦点,“你们托管商主要不就是负责死机时候给重启一下嘛?怎么这点儿事都干不好啊?怎么要等那么久啊?”“你知道老子服务器停一分钟要损失多少钱嘛!”等等。然而,尽管怨声载道,但这方面服务多年来却未见到明显改观,托管商也是有苦难言,从放下电话就马不停蹄办事,还是不能让客户满意。
网络安全行业门户站“315安全网(315safe.com)”CEO祝华对我说过,一般托管机房的管理员,每天在实际工作中,基本上会有将近50%的服务事件就是耗费在重启服务器这种毫无技术含量,却又不得不为之的工作上。有时候一不小心因工作忙碌遗忘或处理不及时,常常接受到托管用户愤怒的投诉,如果遇到同一服务器反复死机,重复劳动。使得死机重启已经成为IDC托管商和用户最大的心病。
“零等待重启”很早就有人提出过,简言之就是希望能做到随时都能够给客户快速重新启动机器,而且不用客户电话催促,瞬间就能解决。但是并没有普及开来,因为事实证明,单纯靠人力维护,想要实现“零等待重启”确实存在困难。如何才能克服这个困难,提升服务质量呢?很多托管商从设备、技术、服务流程等方面想了很多办法,前面提到的315安全网CEO祝华先生就是一例,他很早就开始经营IDC托管业务,一直在寻找各种方法来缩短死机重启服务的等待时间。下面就来看看他都想过那些办法:
名牌服务器上的远程控制卡曲高和寡
祝华说,纯粹依靠软件远程控制无法操作服务器在死机状态下重启,死机时只能采取硬件重启的方式解决,机房管理员为了确保重启生效,往往很少使用服务器上的RESET按键,而是按下POWER按键,待关闭电源后再开机实现这样一个过程。当初我在网上找了很多技术方案文章,得到最多的一个远程硬件重启方法就是——“网卡远程唤醒”。也就是远程唤醒技术(WOL,Wake-on-LAN) 是由网卡配合其他软硬件,可以通过局域网实现远程开机的一种技术,无论被访问的计算机离我们有多远、处于什么位置,只要处于同一局域网内,就都能够被随时启动。通过测试发现,目前几乎所有的服务器主版都集成有WOL功能的网卡,通过在另一台计算机上安装MAGPAC软件测试的确可以让目标服务器从关机状态启动然后再关机,但是“网卡远程唤醒”必须在服务器处于关机或者正常运行的时候才能起效,而当服务器死机的时候,用WOL技术就无法实现开关机了,因此这个方案肯定是不行了。
后来我们发现在购买的某些进口名牌服务器上,带有一个扩展模块:远程控制卡。DELL的 1950系列服务器里就自带了DRAC这个模块。可以提供远程控制台链接,实现远程硬件重启。方便是方便,但是这个卡有两个缺点,一是价格比较贵,网上找了下,光这块卡就得600多,如果部署多台服务器成本太高;二是兼容性不好,似乎是专门为某些品牌服务器订做的,一般DIY的服务器无法使用。客户托管的服务器参差不齐,肯定不能说统统给他们装上这样一块卡,更何况造价不菲,这样下来成本太高了,肯定无法实现。放弃!
下图就是好东西“远程控制卡”,是PCI-E接口的。


该卡安装在1U机箱内,要使用专门设计的PCI-E转接卡,比较难找到(和市场上常见的PCI-E转接卡不同)。


传统NPM网络电源控制器存在不足
后来又百般搜索,终于找到了一个好的设备: NPM(网络电源控制器),管理者可通过局域网或广域网连接到这个设备,从而可对分布安装在世界各地机房机柜内N台设备的电源进行监测、控制和管理。刚开始看觉得新鲜,功能真不少:通过TCP/IP方式实现管理,用户可以在地球上任何地点,轻松的重新启动和管理控制您机房内的数据设备;用户可在一个集中界面上对其权限管理范围内的服务器或其他数据设备进行状态查看或控制等管理;用户可对运行中的服务器或其他数据设备进行主动侦测,如果发现服务器应用服务停止或网络设备运行当机发生故障,远程电源集中管理控制系统能根据预先设定的方案进行自动重启解除故障等等。但是仔细一琢磨发现实用的功能并不多,感觉更像是给采用AT电源供电的工控机准备的,不是很适合服务器托管领域。
归纳起来,主要有以下几方面不足:一是,NPM是直接切断电源插座供电来关闭主机再接通电源唤醒,这就要求服务器主板必须带有来电自启动功能,然而现在很多主板不支持来电自启动;二是,NPM的外观实际上和一台1U或者2U服务器相仿,在机房里要占用单独的机位空间、单独的电源线,甚至还要占据一个独立的IP和交换机端口!在寸土寸金的机房里,这占用都是白花花的银子啊,如果不是自己包租的机柜,部署这个东西,还要缴纳一份主机托管费,这点太让人难以接受了;三是,机柜必须重新走电源线,走电源线可比走网线复杂多了,都是220高压电,线缆也很粗不好安置,一般机房基于电气安全考虑还不愿意这么做;四是,价格吓人,问了几个厂家,八口的控制器动辄报价上万元,最便宜的一家报价一个八口的控制器要5000多,这样的电源管理,一个机器起码增加了500多块的服务成本,在价格竞争惨烈的今天,这么做简直是疯了,不太适合数量众多的中低端客户;五是,如果使用像千际“双响炮”1U机箱这样的装双主板服务器,一根电源线连2个服务器的话,控制就非常不方便,必须两台服务器同时切断电源,不能实现无干扰的分别重启。
NPM的种种不足,让我最终还是没有选择它。
请看这就是NPM网络电源控制器,外观太大,需要占用1U以上的机柜空间和独立的网络端口、IP地址、电源线,如果不是自己租用的机柜,还要为它缴纳一份不菲的托管费。虽然有些NPM声称可以竖立悬挂安装在机柜前面的空间里,但是依然很碍事,很多机房也不允许那样安装,会妨碍其他服务器的管理操作,况且单独的IP地址和电源还是不得不占用的。


NPM网络电源控制器


NPM网络电源控制器
低廉高效的机房电源集中解决方案登场
难道就真的没有一个经济实惠适合中低端托管服务器机房的电源集中解决方案?有没更低廉高效、部署方便的类似产品呢?当祝华这样问唐华的时候,唐华回答的是:当然有了!
当时老唐我刚好拿到千际新研发的“千际服务器远程重启伺服器串口版(24路)”(英文名Network Power Controler,以下简称NPC),而据我了解,这个外观如普通光驱一般的小家伙,对于祝华所说的那些要求,都能完美满足,譬如:可以当作光驱安装到1U机箱内,不需要占用独立的机柜空间;不需要占用单独的IP地址和交换机端口;共用服务器电源,不需要占用单独的电源插座接口;部署无需专业知识,有一般的PC组装知识即可,机柜无需重新走线;均为低压电控制,没有任何触电漏电危险;可以控制千际“双响炮”1U机箱内部的两台服务器分别重启开关机;最关键的一点是,价格非常便宜,每台服务器只需增加100元左右的成本,即可实现远程硬件级重启控制等等。为了验证是否真的如此,于是祝华的武汉网盾科技公司所属托管机房就成了千际NPC问世之后的第一块实验田。
实地打造“零等待重启机房”
在一个风和日丽的早上,我们来到了武汉网盾科技的机房,今天我们的任务是,打造一个“零等待重启机房”,具体说就是要在这里实地部署千际NPC。走进机房,里面一排排的机柜轰鸣声震耳欲聋,无数服务器正跑得热火朝天,一片繁荣景象。


武汉网盾科技的机房