我是靠谱客的博主 满意奇迹,最近开发中收集的这篇文章主要介绍python-爬虫 工作中 突破的 有趣点python-爬虫有趣点,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

python-爬虫有趣点

1、对于asp.net网站中

直接回传post(__EVENTTARGET、__VIEWSTATE、__EVENTVALIDATION)即可
具体语句如

scrapy.FormRequest(self.startUrl, 
                   callback=self.parseSpflist, 
                   formdata=formData, 
                   dont_filter=False)

其中FormRequest是Request的子类。

2、对于 66ip 这类cookie随IP、浏览器、时间变化的

怎么解决?
还没有成功,后面有时间再看

3、获取下一页时遇到多个a标签无name、无id,根据text定位到a的位置

3.1、参考 python爬虫:scrapy框架xpath和css选择器语法
xpath定位 aTag = response.xpath("//a[contains(text(),'下一页')]")
继而获取href = aTag.xpath('./@href').get()

    • 3.2、css定位 ??有哪位大佬提供一下方法?

4、获取到无属性的td标签下的input标签,回头取td的text

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>获取到无属性的td标签下的input标签,回头取td的text</title>
</head>
<body>
    <table>
        <tr>
            <td>
                <input name='radiobuild' bid="bid1">
                td1
            </td>
            <td>
                <input name='radiobuild' bid="bid2">
                td2
            </td>
            <td>
                <input name='radiobuild' bid="bid3">
                td3
            </td>
            <td>
                <input name='radiobuild' bid="bid4">
                td4
            </td>
        </tr>
    </table>
</body>
</html>

4.1、获取input - inputTags = response.xpath("//input[@name='radiobuild']")
4.2、 获取td-text,多种方法:--=~!@#¥……%……*,,,参考 python爬虫:scrapy框架xpath和css选择器语法
4.2.0、inputTags[0].xpath("..")可得到tdTag,注意: "../"不行的,会报错,另外"../." = ".."
4.2.1、inputTags[0].xpath("../text()").extract_first()
4.2.2、inputTags[0].xpath("string(..)").extract_first()
4.2.3、inputTags[0].xpath("./parent::*/text()").extract_first()

5、通过css定位元素,再取元素的属性值

scrapy shell http://newhouse.0557fdc.com/
response.css("[onclick]"),取到所有a标签,如何再取a标签内的id属性值??
使用xpath是这样的,response.css("[onclick='reurl(this)']")[0].xpath("./@id")[0]
使用css是??


最后

以上就是满意奇迹为你收集整理的python-爬虫 工作中 突破的 有趣点python-爬虫有趣点的全部内容,希望文章能够帮你解决python-爬虫 工作中 突破的 有趣点python-爬虫有趣点所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(25)

评论列表共有 0 条评论

立即
投稿
返回
顶部