教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

使用Python將xml格式網(wǎng)站地圖轉(zhuǎn)為txt格式地圖

更新時間:2021年05月11日16時05分 來源:傳智教育 瀏覽次數(shù):

網(wǎng)站地圖(SiteMap),也叫站點地圖,是把網(wǎng)站中所有頁面的鏈接都放在網(wǎng)頁上的網(wǎng)頁。搜索蜘蛛很喜歡網(wǎng)站地圖,SiteMap是網(wǎng)站所有鏈接的容器。許多網(wǎng)站連通的層次比較深,蜘蛛很難抓到,網(wǎng)站地圖可以方便搜索引擎蜘蛛抓取網(wǎng)站頁面,通過抓取網(wǎng)站頁面,清楚了解網(wǎng)站的結構,網(wǎng)站地圖一般被命名為sitemap,為搜索引擎蜘蛛指引方向,增加對網(wǎng)站重要內(nèi)容頁面的收錄。

網(wǎng)站地圖格式一般是.xml格式的居多,那么如何將.xml文件轉(zhuǎn)為.txt格式呢?下面我們通過Python來實現(xiàn)。

# 導入requests模塊,用于獲取網(wǎng)站地圖源碼
import requests
# 導入正則表達式模塊,用于在xml網(wǎng)站地圖中獲取鏈接地址
import re

# 獲取傳智教育網(wǎng)站地圖源碼
sitemap_xml = requests.get('http://oisangadgets.com/sitemap/sitemap.xml').text
# 使用正則表達式匹配網(wǎng)站地圖中的鏈接
url = re.findall(r'<loc>(.*)</loc>', sitemap_xml)
# 使用join()函數(shù)在每條鏈接錢前面加個換行符
url_line = '\n'.join(str(url_one) for url_one in url)
# 將獲取的鏈接保存為sitemap.xml
open(r'sitemap.txt', 'w', encoding='utf-8').write(url_line)

xml網(wǎng)站地圖轉(zhuǎn)為txt



猜你喜歡:

爬蟲適合使用Mysql還是Mongdb?

什么是分布式爬蟲?分布式爬蟲實現(xiàn)方法

常用的反反爬蟲應對策略

Python爬蟲被封禁如何應對防爬策略?

傳智教育python培訓課程

0 分享到:
和我們在線交談!