12点服务器维护清单

发布于:2020-12-19 18:41:33

0

181

0

服务器 维护 技巧

服务器维护清单

服务器是很棒的事情。他们通常会毫无问题地沿24/7嗡嗡作响,但是像其他任何机器一样,它们确实需要维护。

简单的维护和监视通常可以防止服务器故障演变成服务器灾难。例如,我曾引起人们恐慌,称那里的服务器已崩溃。我们开始调查发现他们的RAID去年失败了,他们的备份在三个月前停止了,他们的磁盘达到了100%的容量,从而破坏了他们的数据库。

如果您使用我们的托管服务,则不必担心这些事情。我们全天候24/7进行监视,检查和维护,但是,如果您要管理自己的服务器,则以下十二项应成为服务器维护清单的一部分。

12个服务器维护技巧

1.验证备份是否正常。

在对生产系统进行任何更改之前,请确保备份可以正常工作。如果要删除关键数据,甚至可能需要运行一些测试恢复。在专注于备份时,您可能需要确保选择了正确的备份位置。

2.检查磁盘使用情况。

不要将您的生产系统用作归档系统。删除不再使用的旧日志,电子邮件和软件版本。使您的系统不受旧软件的限制会限制安全性问题。较小的数据足迹意味着更快的恢复。如果您的使用量超过磁盘容量的90%,请减少使用量或添加更多存储。如果分区达到100%,则服务器可能会停止响应,数据库表可能会损坏,数据可能会丢失。

3.监视RAID警报。

所有生产服务器应使用RAID。更重要的是,您应该监视RAID状态。在我们从事业务的十年中,我们已经在无数的RAID失败的系统上工作。结果,单个磁盘故障导致整个系统故障。在rackAID,我们要么使用为我们监控RAID的提供商,要么设置直接RAID监控。我大致估计RAID每年约有1%的服务器发生故障。一个百分点看似很小,但是完全的服务器故障可以将简单的驱动器更换变成一个数小时的灾难恢复方案。

4.更新您的操作系统。

Linux系统的更新经常发布。掌握这些更新可能是具有挑战性的。这就是为什么我们使用自动补丁程序管理工具并进行监控以在系统过时时向我们发出警报的原因。如果要手动更新服务器(或根本不更新),则可能会错过重要的安全更新。黑客通常会在问题被发现后的几个小时内扫描易受攻击的系统。因此,快速响应是关键。如果无法自动执行更新,请创建一个计划以更新系统。对于当前版本,我建议至少每周一次,对于较旧的OS版本,建议每月一次。我还将监视您的发行版中的发布通知,以便您知道任何主要的安全威胁并可以快速做出响应。

5.更新您的控制面板。

如果使用主机或服务器控制面板,请确保也进行更新。有时,这意味着不仅要更新控制面板本身,还要更新它所控制的软件。例如,对于WHM / cPanel,必须手动更新PHP版本以解决已知问题。仅仅更新控制面板也不会更新操作系统所使用的基础Apache和PHP版本。

6.检查应用程序更新。

Web应用程序占我们调查的所有安全漏洞的95%以上。确保更新您的Web应用程序,尤其是流行的程序,如WordPress。

7.检查远程管理工具。

如果您的服务器位于同一地点或与专用服务器提供商一起,则需要检查远程管理工具是否正常工作。远程控制台,远程重新引导和救援模式是我称为远程服务器管理的3个基本工具。您想知道这些将在您需要时起作用。

8.检查硬件错误。

您可能想查看日志中是否有硬件问题的迹象。过热通知,磁盘读取错误,网络故障可能是潜在硬件故障的早期指示。这些很少见,但值得一看,特别是如果系统未在正常范围内工作。

9.检查服务器利用率。

查看服务器的磁盘,CPURAM和网络利用率。如果接近极限,则可能需要计划在服务器上添加资源或迁移到新服务器。如果不使用性能监视工具,则可以在大多数Linux服务器上安装systat。这将为您提供一些基准性能数据。

10.查看用户帐户。

如果您进行了人员变更,客户取消或其他用户变更,则需要从系统中删除这些用户。存储旧站点和用户既有安全风险,也有法律风险。根据您的服务合同,您可能无权在客户终止服务后保留其数据。

11.更改密码。

我建议每6到12个月更改一次密码,尤其是如果您已将密码交给他人进行维护时,尤其如此。

12.检查系统安全性。

我建议您使用Nessus等远程审核工具定期检查服务器的安全性。定期的安全审核可以检查系统配置,操作系统更新和其他潜在的安全风险。我建议每年至少4次,最好每月一次。另外,您可能想回顾安全管理的10条不变的法律。

主动预防失败

作为管理服务的一部分,我们监视着十几个服务器运行状况指标。通过跟踪交换使用,负载,邮件队列深度等信息,我们的sysadmin团队通常可以在问题变为故障之前就发现问题。

如果发生故障,我们的团队可以专注于解决问题,而不用担心维护项目。这使我们能够在几分钟内解决大多数服务中断。我们不必停止并应用六个月的操作系统更新来查看是否存在已知错误。

我们强烈建议自动化服务器管理和维护。如果您无法自动化,请创建一个时间表并坚持执行。十多年前,当我们第一次从事这项业务时,我们手动做了很多事情。这对于一些服务器来说效果很好,但是一旦您要管理数十个系统,您就会错过一切。诸如Nagios,New Relic,Pingdom,sysstat以及许多其他开源和SaaS产品之类的工具可以帮助您保持服务器上的标签。