首页 热点资讯 义务教育 高等教育 出国留学 考研考公

如何通过python获得网页数据

发布网友 发布时间:2022-04-24 08:54

我来回答

1个回答

热心网友 时间:2022-04-18 19:02

用Beautiful Soup这类解析模块:
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree);
它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作;
用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html;
然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了,例如:
from BeautifulSoup import BeautifulSoup
html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'
soup = BeautifulSoup(html)
soup.contents[0].name
# u'html'
soup.comtents[0].contents[0].name
# u'head'
head = soup.comtents[0].contents[0]
head.parent.name
# u'html'
head.next
# u'<title>test</title>

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com