概述
我们已经开始使用第三方平台(GigaSpaces)来帮助我们进行分布式计算.我们现在要解决的一个主要问题是如何在这个分布式环境中管理我们的日志文件.我们目前有以下设置.
我们的平台分布在8台机器上.在每台机器上,我们有12-15个进程,使用java.util.logging记录分离日志文件.在这个平台上,我们有自己的应用程序,使用log4j和日志来分隔文件.我们还将stdout重定向到一个单独的文件以捕获线程转储等.
这导致大约200个不同的日志文件.
截至目前,我们没有工具来协助管理这些文件.在下列情况下,这会给我们带来严重的麻烦.
我们事先没有在出现问题的过程中知道故障排除.在这种情况下,我们当前使用ssh登录每台机器并开始使用grep.
通过定期检查日志中的任何异常情况来尝试主动.在这种情况下,我们当前还登录到所有计算机并使用less和查看不同的日志tail.
设置警报.我们希望在超过阈值的事件上设置警报.这看起来很痛苦,需要检查200个日志文件.
今天我们每秒只有大约5个日志事件,但随着我们将越来越多的代码迁移到新平台,这将会增加.
我想问社群以下问题.
你是如何通过分布在通过不同框架记录的几台机器上的许多日志文件来处理类似情况的?
你为什么选择那个特定的解决方案?
您的解决方案是如何运作的?你觉得什么好,你发现什么不好?
非常感谢.
更新
我们最终评估了Splunk的试用版.我们对它的工作方式非常满意并决定购买它.易于设置,快速搜索和技术倾向的大量功能.我可以推荐任何类似情况的人来检查一下.
最后
以上就是高贵蜗牛为你收集整理的计算机日志文件,管理分布在多台计算机上的大量日志文件的全部内容,希望文章能够帮你解决计算机日志文件,管理分布在多台计算机上的大量日志文件所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复