一个python爬虫小案例(超简单)

以下是一个用于爬取某个网站的新闻标题和链接,并将结果保存到文本文件中的Python爬虫案例:
import requests
from bs4 import BeautifulSoup

# 网站链接

url = 'https://www.example.com/news/'

# 发送请求

response = requests.get(url)

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

# 获取新闻标题和链接

news_list = []

for news in soup.find_all('div', class_='news-item'):
    title = news.find('a').text.strip()
    link = news.find('a')['href']
    news_list.append((title, link))

# 将结果保存到文本文件

with open('news.txt', 'w', encoding='utf-8') as f:
    for title, link in news_list:
        f.write(f'{title}\t{link}\n')

说明:

1. 使用requests库发送GET请求获取网页内容。

2. 使用BeautifulSoup库解析HTML文档。

3. 使用find_all()方法查找所有class属性为’news-item’的div标签,然后分别从中获取新闻标题和链接。

4. 将结果保存到文本文件中,每条新闻标题和链接之间用制表符分隔,每条新闻之间用换行符分隔。

未经允许不得转载:445IT之家 » 一个python爬虫小案例(超简单)

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏