您使用什么工具来监视服务器？

有关监视工具及其功能的更全面列表，请查看Wikipedia页面。

作为问题，请问最常用的工具是什么？用于此任务的优点和缺点是什么？

您的服务器在哪个平台上运行？

我的服务器运行的是Debian Lenny，但问题并不仅仅集中在UNIX监控上，因为许多工具可能会提供某种形式的跨平台支持。

也许他们使用不同的工具，但是从整个系统的角度来看，您最终会在不同的系统上反复做同样的事情。挤出所需的最后一部分数据只是一点脚本。在这种情况下，我认为“工具”是记录实例（监视服务器），而不是吐出数据的实际插件/脚本

我还希望监视应用程序（性能，可用性等）。监视工具似乎具有其在一端监视硬件的能力以及在另一端监视应用程序的能力。硬件<----- + ----->应用程序

#1 楼

过去，我成功使用过Nagios。它是非常可扩展的（超过200个附加组件），相对易于使用，并且包含大量报告。否定是初始设置。

Nagios可以很好地监视所有类型的主机（Windows，Linux，路由器，交换机等）。我建议使用诸如Fruity或Lilac之类的配置工具来减轻配置麻烦。 Windows框上的NSClient ++和linux上的nagios-statd可以监视正在运行的进程，磁盘使用情况等。

– TonyB
09年5月1日23:27

不幸的是，Nagios需要在Windows机器上安装一个代理-过去，我发现该代理很容易随机死亡。

– PowerApp101
09年5月12日在13:04

我们同时对Nagios和Zabbix进行了监视。经过短暂的评估，Zabbix赢得了胜利，这主要是因为易于部署和功能（例如，Zabbix将图形作为核心功能，而Nagios需要插件）。我发现配置Nagios非常麻烦。

–斯蒂芬·穆尔卡西
09年5月27日在16:14

GroundWork OpenSource具有一个网络监视设备，其核心使用Nagios，并简化了设置/管理。

–Rog
09年6月1日在2:40

有一个名为icinga的新nagios叉子。还没有，但他们的目标看起来很有希望。 icinga.org

–颅骨
09年6月1日在17:34

#2 楼

Cacti是RRDTool的一个非常好的基于Web的前端，它提供非常方便的图形和统计信息。
RRDTool是从多个系统收集数据并监视各种技术数据的部分。

我们正在使用该cacti / RRDTool解决方案来监视Unix和Windows系统。我们获得了许多有用的指标，包括负载，CPU / RAM使用率，HD空间，已登录的用户，网络流量，正在运行的进程等。

您将在仙人掌上找到有关“什么”的更多信息。是仙人掌吗？页面。

仙人掌是一个有趣的解决方案，看起来很棒，而且价格不菲（免费）。但是，网络设备的设置是PITA，记录不充分。现在可能会更好，但在您完成研究之前，我不会承诺。

–克里斯·波特（Chris Porter）
09年5月5日，下午3:05

#3 楼

就个人而言，我喜欢Munin，它具有非常简单的体系结构，非常易于安装和编写插件。出于您可以想像的所有目的，已经有很多插件，因此您甚至根本不必编写插件。

它还提供了精美的图形和配置选项（非常基本）警报。

我也是Munin的忠实粉丝。它支持与Nagios集成（因此您可以同时运行）和对所有常见的unix版本的支持。我认为没有任何监视Windows节点的支持-但是它是用Perl编写的，因此尽管它可能很简单，但肯定有可能。

–约翰·道尔顿
09年5月1日下午6:35

@约翰。 Windows节点通过作为本地munin节点的munin-node-win32或与任何主机一样的SNMP支持。

– Steve Schnepp
09年5月4日14:09

#4 楼

Zabbix。它是开源的，并且设置和定制非常简单。我们有很多自定义的监视脚本可以输入到zabbix服务器中，但是它负责集中数据，适当地显示数据，通知（电子邮件，IM，SMS，Twitter等）等。

我们还使用Zabbix，发现它非常强大且可配置。我们测试了Zabbix和Nagios并最终选择了Zabbix，因为虽然Nagios似乎享有良好的声誉，但安装起来有点痛苦，并且许多功能来自插件，而不是核心应用程序中的功能（绘图是很好的例子，您可以通过Zabbix免费获得）。

–斯蒂芬·穆尔卡西
09年5月27日在16:12

我更喜欢Zabbix，因为它在绘制和映射基础结构方面（在可用性方面）具有灵活性，并且具有灵活的监视方式。

– Andrioid
09年7月5日在10:02

#5 楼

我一直在公司进行Spiceworks的发布，我们发现它不仅是监视服务器的好工具，而且还监视网络上的其他所有内容。

它可以执行自动库存和自定义监视等功能在出现问题时向您发送电子邮件（例如，打印机墨水不足的10％或该服务器的硬盘驱动器的墨水含量为20％）。

它的缺点可能是每台计算机的信息密度，请不要误解，每台计算机上都有大量数据，但是对于服务器等您可能需要大量统计数据的事情，您可能需要使用其他工具。

编辑：哦，我是否提到过其商业模式基于永远免费。

Spiceworks提供了很多很棒的功能-而且免费。

– jcelgin
09年4月30日在10:19

SpiceWorks的社区非常庞大，并且与ServerFault重叠很多。看到社区之间的相互作用会很有趣。我也使用SpiceWorks。很棒的工具。

–斯科特·艾伦·米勒（Scott Alan Miller）
09年4月30日在19:31

现在根据您的建议使用它。优秀的工具。

– Marko Carter
09年5月29日在16:07

我们在工作中使用它。令人印象深刻。仅硬件清单，更不用说软件，值得一看。

–特里
09年5月29日在21:52

上一次我使用Spiceworks（第3版）时，它没有添加或修改监视器，视频卡等硬件组件的任何方法。它可以检测到它们，但通常是不正确的。因此，我仍在使用我讨厌的GLPI + OCSNG。

–博登
09年6月16日在21:33

#6 楼

抽烟不仅可以检查各种服务器和服务的可用性，还可以跟踪其延迟，同时提供易于使用，美观的图形和快速显示的图形。

提供了广泛的延迟测量插件的盒子。如果您了解一些Perl，可以轻松地创建自己的应用程序以满足任何特殊需求。

大型安装将受益于主/从系统进行分布式测量。

高度可配置警报系统将帮助您在问题开始影响用户或演变为严重故障之前发现问题。

免费吸烟，MRTG和RRDtool的创建者Tobi Oetiker用Perl编写的开源软件

抽烟很好看您的网络是什么样的

–罗里
09年8月18日在9:49

抽烟对于可视化延迟很了不起。

–詹姆斯
09年9月24日在11:06

#7 楼

我在OpenNMS用来监视一千多台Linux机器。我们监视每台计算机的硬件及其上运行的应用程序。

对于OpenNMS +1，我们还在工作中使用它来监视成千上万的机器和接口。我们有许多不同的操作系统，我们能够使用OpenNMS监视所有这些操作系统。

– Steve K
09年5月2日在19:48

不是我的第一选择，但非常有用

– Adyt
09年5月20日在9:03

为新硬件添加MIB怎么样？

–斯洛伐克
09年6月16日在9:47

OpenNMS的默认配置中已经包含许多snmp统计信息，因此它可以自动发现并立即开始绘制图形。新的SNMP统计信息非常容易添加，只需给RRD指定一个名称，OID和数据类型，然后将其放入该统计信息适用的设备类型的组中即可。

– mtinberg
2011年8月3日在20:07

#8 楼

Zenoss Core有一些用途，我们使用它（大约一年）来对服务器，网络交换机和UPS进行轻量级监视。

Zenoss Core是屡获殊荣的开源IT监视产品，可通过单个集成软件包有效地管理网络，服务器和应用程序的配置，运行状况和性能。 >

如果使用免费版本的Zenoss Core，请准备进行许多SNMP MIB调整。我还发现它坚决拒绝在我的某些服务器上收集操作系统数据，并且令人惊讶地很难为诸如检查Web页内容之类的简单任务设置。

–gareth_bowles
09年5月4日19:58

可以同情MIB问题，但是可以使用Zenoss上的Nagios插件来进行网页检查。

– gimel
09年5月5日下午5:15

#9 楼

Nagios很棒，因为它是免费的，并且有很多插件可以使用。但是，UI和配置非常困难。

与Pro / Con恰好相反，Microsoft System Center Operations Manager（SCOM）也很不错，它不是免费的，具有较少的插件，但是设置和配置却非常简单。

我必须承认，如果我在一家主要是微软公司中，对可靠性有很高的要求（即无法承受监视中断的费用），或者不得不考虑让开发人员使用它，那么SCOM就会是我对Nagios的推荐。

#10 楼

我曾经使用过：Nagios-需要一些老式的命令行设置，虽然不漂亮，但坚固且功能强大。它已被以下产品所取代：

Zenoss-所需的安装步骤少得多，具有商业用途。一旦运行，其余的将通过浏览器控制。非常强大，但是如果使用免费版本，则需要一些MIB工作。

Intermapper-商业程序，如果要监视的节点很多，则很麻烦。似乎是用Java编写的（无论好坏）。

Spiceworks-没有尝试过最新版本。较旧的版本需要在引擎盖下多一点以使其响应，但否则，它会很好地工作。免费版本随附nag广告。

我们广泛使用Intermapper。

– sysadmin1138♦
09年2月2日在4:49

我也使用InterMapper。控制台客户端是用Java编写的。服务器是用Python编写的。 Postgres用作数据汇总和报告的后端数据库。

–lsiu
2012年2月6日15:14

#11 楼

几个星期以来我们一直使用AlertFox，对此我们感到非常高兴。它不仅检查我们的正常运行时间和性能，而且还通过交易脚本（基于iMacros）监视购物车，用户登录和网站的其他关键部分。

对于内部监视（磁盘空间等），我们使用Nagios。

#12 楼

PRTG网络监视器-不能说太多很棒的事情。令人敬畏的Web前端，特别适合通过SNMP监视路由器（带宽等）和其他设备，并测量SLA等的正常运行时间。

www.paessler.com

#13 楼

作为Windows用户，MOM。我们希望升级到Systems Center Operations Manager（SCOM），但直到我们开始部署Windows 2008时才需要升级。

我也使用MOM。我喜欢它，同时讨厌它。

–spoulson
09年4月30日在11:44

SCOM是用于基于Windows的企业环境的出色监视平台。真正的天才是Microsoft产品组本身发布的管理包（这是MS Common Engineering Criteria的一部分，每个产品在RTM的90天内都具有SCOM MP）。从产品团队本身获取建议和知识可以极大地提高运营部门保持事情运行和健康的能力，而不会打扰高级管理员。

–凯文·科尔比（Kevin Colby）
11年8月17日在19:57

#14 楼

我是运营监控升级项目的一部分。我们已经有多家供应商到现场来展示一些大型系统，并混合使用一些更便宜的替代品进行比较。

其中之一是Hyperic，它也可以作为免费的开源解决方案提供。它为定制代理提供的功能和可扩展性给我留下了深刻的印象。

虽然在资源上不容易，但它无疑是一个很好的监视工具！

– Vincent De Baere
2009年5月4日14:02

#15 楼

为了监视统计信息（内存使用情况，负载，mysql活动，apache活动等），我使用了Munin。开箱即用，它已经可以跟踪许多事物并绘制不同时间间隔（过去24小时，过去7天，去年一个月，去年）的图表。通过插件，甚至可以监视更多的事情。它的输出是带有漂亮图形的HTML页面。

Munin具有主/节点体系结构：节点在服务器上收集统计信息，而主数据库存储数据并生成HTML和图形。

我使用Monit来跟踪正在运行的进程，并在出现某些可配置的情况（高CPU负载，高内存使用，无HTTP响应等）时重新启动或提醒我。Monit还可以监视有关服务器的更多常规信息，例如cpu负载，内存使用情况，硬盘状态或磁盘使用情况。

需要为要监视的每个服务或硬件配置监视，以及在出现问题时如何响应。最常用的选项是不执行任何操作，发送警报电子邮件或重新启动服务。

它在工作时很不错，但有时无法启动，停止或重新启动服务，并且没有许多诊断信息可用来告诉您出了什么问题。这意味着您不知道问题出在您的服务上还是Monit配置上，该配置在像cron这样的最小环境下运行。

这两种工具在大多数Linux发行版中都是默认可用的。 br />

#16 楼

我很惊讶没有人提到Linux服务器的logwatch或logcheck-节省了大量阅读日志的时间！

这些工具并不能真正为您提供指标和基础架构趋势的长期可读性。它们是不错的补充，但我不会完全依靠它们。 Afaik的“ logwatch”有点邪恶，因为它只会报告您告诉它的错误，而不是“ logcheck”，在此您告诉工具已知的好东西，它将报告其他所有内容。

–马丁M.
09年10月10日在5:09

#17 楼

我使用Pingdom监视服务器。服务器无法访问时，它将向我发送一条SMS消息。

#18 楼

我们的项目将Ganglia用于我们的100多个节点集群。我们使用它的原因之一是因为它是Rocks随附的监视工具。

对我们来说，每个节点的开销非常低对于我们来说很重要，以便有尽可能多的资源可用于计算。 Ganglia为我们很好地介绍了群集，并允许我们在需要时深入到各个节点。除了了解当前发生的情况之外，我们还可以很好地了解过去一小时，一天，一周，一个月和一年中发生的情况。各种统计图都是基本的和实用的。

#19 楼

这完全取决于您所说的“监视器”的意思！

（系统或服务）是否可用？我们使用nagios。
它在做什么？我们将munin用于linux服务器，将cacti用于几乎所有其他服务器，尽管有时配置很麻烦...
它做了什么？我们使用syslog-ng将syslog集中在一个地方，然后每天运行自定义的logcheck脚本以通过电子邮件发送报告。我们正在为Windows服务器寻找类似的东西。

#20 楼

Graphite（http://graphite.wikidot.com/）上出现了一个新的竞争者，它可以与Cacti和基于RRDTool的解决方案进行竞争。

RRDTool被名为Whisper的后备店取代。文档很好地概述了它为何与众不同的原因，而且我非常喜欢使用CLI在进行某些调查时进行即席绘图。

#21 楼

我们将Ipswitch的WhatsUp（和类似方法）用于相对较小的Windows网络。它易于设置，相对易于管理，并且知道如何处理Windows服务器以及标准的东西。

对于大型网络，非Windows的网络或内容众多的网络，我衷心推荐OpenNMS。 OpenNMS软件（如果免费），该公司非常乐意出售支持和实施服务。它也恰好是由我的一个非常敏锐的朋友从大学办的！

#22 楼

对于那些不喜欢Nagios Web界面的人，有NPC，这是一个用于Cacti的插件，可以从Cacti中使用Nagios UI，但外观更好（ajax等）。

它的内容是从NDO2DB提供的数据库，这是使数据库中的基础结构可用于脚本和其他工具的好方法。

#23 楼

目前，我们使用的是Paessler的PRTG。太好了不需要任何代理，出色的Ajax Web界面，历史记录，图形，WMI等。有10个免费的传感器版本可用，但我们为企业版本花了很多钱。钱花得值。

#24 楼

霍比特人（Hobbit）-它是“老大哥”（Big Brother）的更快更好的版本（如今看来，这令人震惊地商业化）。

http://hobbitmon.sourceforge.net/

我们也使用Hobbit，它很棒，它可以处理600多台服务器，每台服务器有10多台显示器，其中许多每分钟更新一次

– MarkR
09年5月12日在21:37

霍比特人现在称为Xymon。 hswn.dk/hobbiton/2008/11/msg00123.html

–克林顿·布莱克莫尔
09年6月8日在16:49

#25 楼

如果您急着想要一个快速的工具来监视MS服务器，然后使用Windows的性能监视器，请使用自定义监视模板和自定义时间表设置计数器日志（例如：每小时收集5分钟的数据）。然后下载Microsoft的LogParser和Codeplex的日志性能分析（PAL）工具
（http://pal.codeplex.com/）来处理您的计数器日志。
PAL将生成详尽的报告，并提供指向可能的问题解决文档/工具的链接。

#26 楼

我使用了Solarwinds，VMware服务器性能选项卡和自定义脚本的组合。

Solarwinds Orion网络性能监视器是我在Windows系统中使用的。我的Web服务器上的管理员。仍然可以在上面运行一些有用的应用程序指标，但是它具有基本的盒级内容（磁盘，网络，CPU）的良好信息。

对于我的VMware来宾，我喜欢性能选项卡。 >
对于我的Sun服务器，当我需要在Solarwinds中不可用的东西（因为我们的管理员尚未添加）时，我编写了自定义脚本（通常在Perl中）来监视诸如镜像运行状况之类的事情，交换使用量等。

我想更多地了解Solarwinds，但是一天只有26个小时（或者我的老板认为），所以我发现这可能是一个小限制。。

#27 楼

我们使用在Nagios之上运行的OpsView。 webUI帮助我们部署新的主机监视器定义，而不必允许SSH访问，提供公共视图并记录历史值。这对于配置和确定合适的基准非常方便。

#28 楼

Zabbix（http://www.zabbix.com）也很好，并且比Nagios容易安装。

#29 楼

抱歉地说，但是我最终使用了许多自定义脚本。虽然不理想，但我怀疑还有更通用的解决方案。

始终需要自定义脚本！

– Techboy
09年4月30日在11:58

#30 楼

我们已经编写了自己的监控软件。我们的代码几乎不像商业软件包那样复杂，但是我们不需要太多功能。编写我们自己的代码比研究其他软件包并学习如何使用它们要容易得多。该代码可以满足我们的需求，并且易于扩展。

我认为，必须仔细考虑此类决策的含义。从头开始写东西可能不会花很多力气，但是在将来进行维护很麻烦。

–亚当
09年4月30日在18:29

我可以想象维护是一个问题，但即使我们已经运行了多年，但对我们而言却不是。由于代码库很小且很熟悉，因此我们很容易根据需要添加新功能。随着时间的推移，维护商业解决方案也可能会成为问题，当原始产品不能满足您的所有需求时，嫁接新供应商的产品等等。

– John D. Cook
09年5月1日在2:32

编程黑洞网