概述
import requests
from bs4 import BeautifulSoup
from lxml import etree
import re
link = 'http://www.chinanews.com/gn/2020/03-18/9129903.shtml'
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
r = requests.get(link, headers=header, timeout=20)
r.encoding = 'utf-8'
html = etree.HTML(r.text)
page = html.xpath('//div[@class="left_zw"]/p/text()')
file = open('text2.txt', 'w+')
for i in page:
i=i.replace('u3000', ' ').replace('xa0', ' ').strip()
if len(i)!=0:
file.write(i)
file.close()
ls=[x for x in open('text2.txt',encoding='gbk',mode='r')]
str1=ls[0]
str1=re.sub(r'.*社.*d{1,2}月d{1,2}日电',' ',str1).strip()
file=open('text2.txt',encoding='gbk',mode='w')
file.write(str1)
file.close()
最后
以上就是合适大树为你收集整理的python 爬虫并把网页中的文字写到txt中的全部内容,希望文章能够帮你解决python 爬虫并把网页中的文字写到txt中所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复