我是靠谱客的博主 落寞御姐,最近开发中收集的这篇文章主要介绍perl语言正则表达式的巧妙使用使用,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在学习脚本语言perl的时候,觉得最有"意思"的还是 它的正则表达式功能,它的功能非常强大,在C++等语言要n行代码完成的事情,它只要一行就可以实现,比如:

$line =~ s//'//'/'/g;这个就可以将$line中所有的'替换为'',如果用c++来做,常规思路肯定要作循环来替换。

如果碰到较复杂的正则表达式,则要从多方位去思考匹配的方法,有时候可以在第一次分割完成后再作处理;这样会有更好的效果,现举一个例子,开源项目awstatas是对apache log做处理的“性价比”非常高的项目,用perl语言开发的,;在项目中定义了logformat的正则表达式如下:

$PerlParsingFormat="([^ ]+) [^ ]+ ([^//[]+) //[([^ ]+) [^ ]+//] ///"([^ ]+) ([^ ]+) [^///"]+///" ([//d|-]+) ([//d|-]+) ///"(.*?)///" ///"([^///"]*)///"";

处理的log格式如下:

192.168.1.11- - [08/Jan/2008:00:00:02 +0000] "GET /test/test.php?name=test HTTP/1.1" 200 6 "-" "-"

如果apache配置文件改动LogFormat参数,支持多级代理(将%h改为%X-Forwarded-For)则其log变成如下格式:

192.168.1.11, 192.168.1.12, 192.168.1.13, 192.168.1.10 - - [08/Jan/2008:00:00:02 +0000] "GET /test/test.php?name=test HTTP/1.1" 200 6 "-" "-"

这时候我们再用同样的正则表达式就会得到不是我们想要的内容,$2则会变为 192.168.1.13, 192.168.1.10 - -,而不是"-",我们考察正则表达式时候发现他是用空格作为$1的分割符,如果我们这时将$1改动为.*或.+这就会将192.168.1.11, 192.168.1.12, 192.168.1.13, 192.168.1.10一次全部获得,然后我们再取得第一个非unkonwn的字符串这就得到我们想要的内容,在这个时候如果我们还用空格作分割符,则很难再得到我们想要的内容,我们从正则表达式整体考虑,采用“正难则反”,“二级分割”的原则,则可以巧妙的解决问题。

补记:使用的过程中,如果用这样的方法做模式匹配,在性能上会有所下降,如果是每次处理都要作这样的模式匹配,效率会下降原来的1/4,这如果对于大数据量处理来说是一个很大的问题,在作脚本的时候要注意到这点。

 

 

最后

以上就是落寞御姐为你收集整理的perl语言正则表达式的巧妙使用使用的全部内容,希望文章能够帮你解决perl语言正则表达式的巧妙使用使用所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(60)

评论列表共有 0 条评论

立即
投稿
返回
顶部