加入收藏 | 设为首页 | 会员中心 | 我要投稿 莱芜站长网 (https://www.0634zz.com/)- 云连接、建站、智能边缘云、设备管理、大数据!
当前位置: 首页 > 编程开发 > Python > 正文

python开发_HTMLParser_html文档解析

发布时间:2020-07-16 08:28:13 所属栏目:Python 来源:互联网
导读:python开发_HTMLParser_html文档解析

<div class="cnblogs_code">

类中,定义了很多的方法,但是很多方法都是没有实现的,
    这需要我们继承类,自己去实现一些方法
    如:
# Overridable -- handle start tag
def handle_starttag(self,tag,attrs):
    pass

# Overridable -- handle end tag
def handle_endtag(self,tag):
    pass

# Overridable -- handle character reference
def handle_charref(self,name):
    pass

# Overridable -- handle entity reference
def handle_entityref(self,name):
    pass

# Overridable -- handle data
def handle_data(self,data):
    pass

# Overridable -- handle comment
def handle_comment(self,data):
    pass

# Overridable -- handle declaration
def handle_decl(self,decl):
    pass

# Overridable -- handle processing instruction
def handle_pi(self,data):
    pass

<span style="color: #800000;">'''

下面是我做的demo

Python 3.3.2 (v3.3.2:d047928ae3f6,May 16 2013,00:03:43) [MSC v.1600 32, >>> ================================ RESTART ================================ >>> Python Html module http://www.blogs.com/hongten

<span style="color: #008000;">#<span style="color: #008000;">#################################################
遇到声明:DOCTYPE HTML PUBLIC <span style="color: #800000;">"<span style="color: #800000;">-//W3C//DTD HTML 4.01 Transitional//EN<span style="color: #800000;">" <span style="color: #800000;">"<span style="color: #800000;">http://www.w3.org/TR/html4/loose.dtd<span style="color: #800000;">" 开始处理:DOCTYPE HTML PUBLIC <span style="color: #800000;">"<span style="color: #800000;">-//W3C//DTD HTML 4.01 Transitional//EN<span style="color: #800000;">" <span style="color: #800000;">"<span style="color: #800000;">http://www.w3.org/TR/html4/loose.dtd<span style="color: #800000;">"<span style="color: #000000;">
遇到数据:
开始处理:

遇到起始标签:html 开始处理:html
遇到数据:
开始处理:

遇到起始标签:head 开始处理:head
遇到数据:
开始处理:

遇到起始标签:title 开始处理:title
遇到数据: Python Html module 开始处理: Python Html module
遇到结束标签:title 开始处理:title
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到结束标签:head 开始处理:head
遇到数据:
开始处理:

遇到注释: this <span style="color: #0000ff;">is comment 开始处理: this <span style="color: #0000ff;">is<span style="color: #000000;"> comment
遇到数据:
开始处理:

遇到起始标签:body 开始处理:body
遇到数据:
开始处理:

遇到起始标签:table 开始处理:table
遇到数据:
开始处理:

遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Author
开始处理:
Author

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Hongten
开始处理:
Hongten

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Mail
开始处理:
Mail

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
hongtenzone@foxmail.com
开始处理:
hongtenzone@foxmail.com

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Blog
开始处理:
Blog

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:a 开始处理:a
遇到数据:http://www.blogs.com/hongten 开始处理:http://www.blogs.com/<span style="color: #000000;">hongten
遇到结束标签:a 开始处理:a
遇到数据:
开始处理:

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
QQ
开始处理:
QQ

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
648719819<span style="color: #000000;">
开始处理:
648719819<span style="color: #000000;">

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到结束标签:table 开始处理:table
遇到数据:
开始处理:

遇到结束标签:body 开始处理:body
遇到数据:
开始处理:

遇到结束标签:html 开始处理:html
遇到数据:
开始处理:

>>>

html.parser HTML_FILE = HTML_STR = ( ( ( ( ( parser = MyHTMLParser(strict = content = ( with open(path, line content += ( HTML_FILE = HTML_STR = ( ( * 50 == main()

(编辑:莱芜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!