python开发_HTMLParser_html文档解析

发布时间：2020-07-16 08:28:13 所属栏目：Python 来源：互联网

导读：python开发_HTMLParser_html文档解析

类中，定义了很多的方法，但是很多方法都是没有实现的，
    这需要我们继承类，自己去实现一些方法
    如：
# Overridable -- handle start tag
def handle_starttag(self,tag,attrs):
    pass

# Overridable -- handle end tag
def handle_endtag(self,tag):
    pass

# Overridable -- handle character reference
def handle_charref(self,name):
    pass

# Overridable -- handle entity reference
def handle_entityref(self,name):
    pass

# Overridable -- handle data
def handle_data(self,data):
    pass

# Overridable -- handle comment
def handle_comment(self,data):
    pass

# Overridable -- handle declaration
def handle_decl(self,decl):
    pass

# Overridable -- handle processing instruction
def handle_pi(self,data):
    pass
<span style="color: #800000;">'''

下面是我做的demo

：

Python 3.3.2 (v3.3.2:d047928ae3f6,May 16 2013,00:03:43) [MSC v.1600 32, >>> ================================ RESTART ================================ >>> Python Html module http://www.blogs.com/hongten

##################################################
遇到声明:DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" 开始处理:DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"
遇到数据:
开始处理:

遇到起始标签:html 开始处理:html
遇到数据:
开始处理:

遇到起始标签:head 开始处理:head
遇到数据:
开始处理:

遇到起始标签:title 开始处理:title
遇到数据: Python Html module 开始处理: Python Html module
遇到结束标签:title 开始处理:title
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到结束标签:head 开始处理:head
遇到数据:
开始处理:

遇到注释: this is comment 开始处理: this is comment
遇到数据:
开始处理:

遇到起始标签:body 开始处理:body
遇到数据:
开始处理:

遇到起始标签:table 开始处理:table
遇到数据:
开始处理:

遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Author
开始处理:
Author

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Hongten
开始处理:
Hongten

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Mail
开始处理:
Mail

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
hongtenzone@foxmail.com
开始处理:
hongtenzone@foxmail.com

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Blog
开始处理:
Blog

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:a 开始处理:a
遇到数据:http://www.blogs.com/hongten 开始处理:http://www.blogs.com/hongten
遇到结束标签:a 开始处理:a
遇到数据:
开始处理:

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
QQ
开始处理:
QQ

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
648719819
开始处理:
648719819

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到结束标签:table 开始处理:table
遇到数据:
开始处理:

遇到结束标签:body 开始处理:body
遇到数据:
开始处理:

遇到结束标签:html 开始处理:html
遇到数据:
开始处理:

>>>

html.parser HTML_FILE = HTML_STR = ( ( ( ( ( parser = MyHTMLParser(strict = content = ( with open(path, line content += ( HTML_FILE = HTML_STR = ( ( * 50 == main()

（编辑：莱芜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!