以下是一个用于爬取某个网站的新闻标题和链接,并将结果保存到文本文件中的Python爬虫案例: import requests from bs4 import BeautifulSoup # 网站链接 url = 'https://www.example.com/news/' # 发送请求 response = requests.get(url) # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 获取新闻标题和链接 news_list = [] for news in soup.find_all('div', class_='news-item'): title = news.find('a').text.strip() link = news.find('a')['href'] news_list.append((title, link)) # 将结果保存到文本文件 with open('news.txt', 'w', encoding='utf-8') as f: for title, link in news_list: f.write(f'{title}\t{link}\n')
说明:
1. 使用requests库发送GET请求获取网页内容。
2. 使用BeautifulSoup库解析HTML文档。
3. 使用find_all()方法查找所有class属性为’news-item’的div标签,然后分别从中获取新闻标题和链接。
4. 将结果保存到文本文件中,每条新闻标题和链接之间用制表符分隔,每条新闻之间用换行符分隔。
未经允许不得转载:445IT之家 » 一个python爬虫小案例(超简单)