概述
from: http://rdc.taobao.com/blog/cs/?p=893
我们在系统调优或者定位问题的时候,经常会发现多线程程序的效率很低,但是又不知道问题出在哪里,就知道上下文切换很多,但是为什么上下文切换,是谁导致切换,我们就不知道了。上下文切换可以用dstat这样的工具查看,比如:
#或者用systemtap脚本来看
每秒高达200k左右的的上下文切换, 谁能告诉我发生了什么? 好吧,latencytop来救助了!
它的官网:http://www.latencytop.org/
Skipping audio, slower servers, everyone knows the symptoms of latency. But to know what’s going on in the system, what’s causing the latency, how to fix it… that’s a hard question without good answers right now.
LatencyTOP is a Linux* tool for software developers (both kernel and userspace), aimed at identifying where in the system latency is happening, and what kind of operation/action is causing the latency to happen so that the code can be changed to avoid the worst latency hiccups.
它是Intel贡献的另外一个性能查看器,还有一个是powertop ,都是很不错的工具.
latencytop分成2个部分,内核部分和应用部分。内核部分负责调用栈的收集并且通过/proc来暴露, 应用部分负责显示.
工作界面截图如下:
[shell]
但是latencytop比较傻的是默认是开图像界面的,我们很不习惯,我们要文本界面, 自己动手把!
[shell]
DESTDIR =
重新make下就好了, 文本界面出现了. 具体使用参看 man latencytop。
fcicq同学说:
加个 –nogui 参数就好了. 不需要重新编译.
谢谢!
好了,那么latencytop支持多少种的延迟原因呢?让latencytop.trans告诉你,我们也可以自己修改这个文件,把新的延迟原因加上去。
[shell]
#
#
本来到这里,我要介绍的要介绍了,但是且慢,由于这个东西要在2.6.26后的系统上使用,我们的线上系统大部分是RHEL 5U4, 2.6.18的, 我们如何使用呢?
这时候 systemtap 一如既往的前来救助了!
systemtap 1.4版本以后带了个latencytop.stp, 也是intel的贡献. 那我们试验下穷人家的latencytop.
$ stap -V
$ ls -al /usr/share/doc/systemtap/examples/profiling/latencytap.stp
$ sudo stap -t –all-modules /usr/share/doc/systemtap/examples/profiling/latencytap.stp
出错了! 原因是lock timeout, 原来stap的全局变量是用锁保护的,现在超时了!知道原因好办,打个patch吧!
[shell]
#编译安装后再来一次
#又错了,这次原因是probe overhead exceeded threshold, 看下代码我们知道,脚本的开销太大了,超过正常的负载,通过查看代码可以用STP_NO_OVERLOAD来解除这个限制
#再来一次
Reason Count Average(us) Maximum(us) Percent%
这次看到结果了,哈哈,小高兴一把。但是在繁忙的系统上这个脚本的资源占用特别多,也是不爽的。 幸运的是这个脚本支持查看某个进程的延迟情况, 就是在 latencytap.stp 后面加个-x 参数。
这个脚本设计应该是支持进程ID, 但是结果写成了线程ID,属于bug!!!
动手改下吧:
[shell]
-function log_event:long (p:long) { return (!traced_pid || traced_pid == p) }
#func names from hex addresses
probe kernel.trace(“activate_task”) !,
a = gettimeofday_us()
#再来一次
这下终于爽了,旧内核用systemtap版本的,新内核用内核版本的,世界和谐!
通过对线上MySQL的诊断发现大部分时间花在mutex锁的竞争上来,我说过了,我会收拾你的,等着瞧!
玩得开心!
最后
以上就是老实银耳汤为你收集整理的latencytop深度了解你的Linux系统的延迟的全部内容,希望文章能够帮你解决latencytop深度了解你的Linux系统的延迟所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复