python3 xml 解析
xml 指可擴(kuò)展標(biāo)記語(yǔ)言(extensible markup language),是一種用于標(biāo)記電子文件使其具有結(jié)構(gòu)性的標(biāo)記語(yǔ)言。xml 通常被用來(lái)設(shè)計(jì)傳輸和存儲(chǔ)數(shù)據(jù)。
python 支持對(duì) xml 的解析,常見(jiàn)的 xml 編程接口有 dom 和 sax,這兩種接口處理 xml 文件的方式不同,當(dāng)然使用場(chǎng)合也不同。
1.sax (simple api for xml )
python 標(biāo)準(zhǔn)庫(kù)包含 sax 解析器,sax 用事件驅(qū)動(dòng)模型,通過(guò)在解析 xml 的過(guò)程中觸發(fā)一個(gè)個(gè)的事件并調(diào)用用戶定義的回調(diào)函數(shù)來(lái)處理 xml 文件。
2.dom(document object model)
將 xml 數(shù)據(jù)在內(nèi)存中解析成一個(gè)樹(shù),通過(guò)對(duì)樹(shù)的操作來(lái)操作 xml。
本章節(jié)使用到的 xml 范例文件 movies.xml 內(nèi)容如下:
<collection shelf="new arrivals"> <movie title="enemy behind"> <type>war, thriller</type> <format>dvd</format> <year>2003</year> <rating>pg</rating> <stars>10</stars> <description>talk about a us-japan war</description> </movie> <movie title="transformers"> <type>anime, science fiction</type> <format>dvd</format> <year>1989</year> <rating>r</rating> <stars>8</stars> <description>a schientific fiction</description> </movie> <movie title="trigun"> <type>anime, action</type> <format>dvd</format> <episodes>4</episodes> <rating>pg</rating> <stars>10</stars> <description>vash the stampede!</description> </movie> <movie title="ishtar"> <type>comedy</type> <format>vhs</format> <rating>pg</rating> <stars>2</stars> <description>viewable boredom</description> </movie> </collection>
python 使用 sax 解析 xml
sax 是一種基于事件驅(qū)動(dòng)的api。
利用 sax 解析 xml 文檔牽涉到兩個(gè)部分: 解析器和事件處理器。
解析器負(fù)責(zé)讀取 xml 文檔,并向事件處理器發(fā)送事件,如元素開(kāi)始跟元素結(jié)束事件。
而事件處理器則負(fù)責(zé)對(duì)事件作出響應(yīng),對(duì)傳遞的 xml 數(shù)據(jù)進(jìn)行處理。
- 1、對(duì)大型文件進(jìn)行處理;
- 2、只需要文件的部分內(nèi)容,或者只需從文件中得到特定信息。
- 3、想建立自己的對(duì)象模型的時(shí)候。
在 python 中使用 sax 方式處理 xml 要先引入 xml.sax 中的 parse 函數(shù),還有 xml.sax.handler 中的 contenthandler。
contenthandler 類方法介紹
characters(content) 方法
調(diào)用時(shí)機(jī):
從行開(kāi)始,遇到標(biāo)簽之前,存在字符,content 的值為這些字符串。
從一個(gè)標(biāo)簽,遇到下一個(gè)標(biāo)簽之前, 存在字符,content 的值為這些字符串。
從一個(gè)標(biāo)簽,遇到行結(jié)束符之前,存在字符,content 的值為這些字符串。
標(biāo)簽可以是開(kāi)始標(biāo)簽,也可以是結(jié)束標(biāo)簽。
startdocument() 方法
文檔啟動(dòng)的時(shí)候調(diào)用。
enddocument() 方法
解析器到達(dá)文檔結(jié)尾時(shí)調(diào)用。
startelement(name, attrs) 方法
遇到xml開(kāi)始標(biāo)簽時(shí)調(diào)用,name 是標(biāo)簽的名字,attrs 是標(biāo)簽的屬性值字典。
endelement(name) 方法
遇到xml結(jié)束標(biāo)簽時(shí)調(diào)用。
make_parser 方法
以下方法創(chuàng)建一個(gè)新的解析器對(duì)象并返回。
xml.sax.make_parser( [parser_list] )
參數(shù)說(shuō)明:
- parser_list - 可選參數(shù),解析器列表
parser 方法
以下方法創(chuàng)建一個(gè) sax 解析器并解析xml文檔:
xml.sax.parse( xmlfile, contenthandler[, errorhandler])
參數(shù)說(shuō)明:
- xmlfile - xml文件名
- contenthandler - 必須是一個(gè) contenthandler 的對(duì)象
- errorhandler - 如果指定該參數(shù),errorhandler 必須是一個(gè) sax errorhandler 對(duì)象
<3>parsestring 方法
parsestring 方法創(chuàng)建一個(gè) xml 解析器并解析 xml 字符串:
xml.sax.parsestring(xmlstring, contenthandler[, errorhandler])
參數(shù)說(shuō)明:
- xmlstring - xml字符串
- contenthandler - 必須是一個(gè) contenthandler 的對(duì)象
- errorhandler - 如果指定該參數(shù),errorhandler 必須是一個(gè) sax errorhandler對(duì)象
python 解析xml范例
#!/usr/bin/python3 import xml.sax class moviehandler( xml.sax.contenthandler ): def __init__(self): self.currentdata = "" self.type = "" self.format = "" self.year = "" self.rating = "" self.stars = "" self.description = "" # 元素開(kāi)始調(diào)用 def startelement(self, tag, attributes): self.currentdata = tag if tag == "movie": print ("*****movie*****") title = attributes["title"] print ("title:", title) # 元素結(jié)束調(diào)用 def endelement(self, tag): if self.currentdata == "type": print ("type:", self.type) elif self.currentdata == "format": print ("format:", self.format) elif self.currentdata == "year": print ("year:", self.year) elif self.currentdata == "rating": print ("rating:", self.rating) elif self.currentdata == "stars": print ("stars:", self.stars) elif self.currentdata == "description": print ("description:", self.description) self.currentdata = "" # 讀取字符時(shí)調(diào)用 def characters(self, content): if self.currentdata == "type": self.type = content elif self.currentdata == "format": self.format = content elif self.currentdata == "year": self.year = content elif self.currentdata == "rating": self.rating = content elif self.currentdata == "stars": self.stars = content elif self.currentdata == "description": self.description = content if ( __name__ == "__main__"): # 創(chuàng)建一個(gè) xmlreader parser = xml.sax.make_parser() # 關(guān)閉命名空間 parser.setfeature(xml.sax.handler.feature_namespaces, 0) # 重寫(xiě) contexthandler handler = moviehandler() parser.setcontenthandler( handler ) parser.parse("movies.xml")
以上代碼執(zhí)行結(jié)果如下:
*****movie***** title: enemy behind type: war, thriller format: dvd year: 2003 rating: pg stars: 10 description: talk about a us-japan war *****movie***** title: transformers type: anime, science fiction format: dvd year: 1989 rating: r stars: 8 description: a schientific fiction *****movie***** title: trigun type: anime, action format: dvd rating: pg stars: 10 description: vash the stampede! *****movie***** title: ishtar type: comedy format: vhs rating: pg stars: 2 description: viewable boredom
使用xml.dom解析xml
文件對(duì)象模型(document object model,簡(jiǎn)稱dom),是w3c組織推薦的處理可擴(kuò)展置標(biāo)語(yǔ)言的標(biāo)準(zhǔn)編程接口。
一個(gè) dom 的解析器在解析一個(gè) xml 文檔時(shí),一次性讀取整個(gè)文檔,把文檔中所有元素保存在內(nèi)存中的一個(gè)樹(shù)結(jié)構(gòu)里,之后你可以利用dom 提供的不同的函數(shù)來(lái)讀取或修改文檔的內(nèi)容和結(jié)構(gòu),也可以把修改過(guò)的內(nèi)容寫(xiě)入xml文件。
python中用xml.dom.minidom來(lái)解析xml文件,范例如下:
#!/usr/bin/python3 from xml.dom.minidom import parse import xml.dom.minidom # 使用minidom解析器打開(kāi) xml 文檔 domtree = xml.dom.minidom.parse("movies.xml") collection = domtree.documentelement if collection.hasattribute("shelf"): print ("root element : %s" % collection.getattribute("shelf")) # 在集合中獲取所有電影 movies = collection.getelementsbytagname("movie") # 打印每部電影的詳細(xì)信息 for movie in movies: print ("*****movie*****") if movie.hasattribute("title"): print ("title: %s" % movie.getattribute("title")) type = movie.getelementsbytagname('type')[0] print ("type: %s" % type.childnodes[0].data) format = movie.getelementsbytagname('format')[0] print ("format: %s" % format.childnodes[0].data) rating = movie.getelementsbytagname('rating')[0] print ("rating: %s" % rating.childnodes[0].data) description = movie.getelementsbytagname('description')[0] print ("description: %s" % description.childnodes[0].data)
以上程序執(zhí)行結(jié)果如下:
root element : new arrivals *****movie***** title: enemy behind type: war, thriller format: dvd rating: pg description: talk about a us-japan war *****movie***** title: transformers type: anime, science fiction format: dvd rating: r description: a schientific fiction *****movie***** title: trigun type: anime, action format: dvd rating: pg description: vash the stampede! *****movie***** title: ishtar type: comedy format: vhs rating: pg description: viewable boredom
- Python 字符串
- Python 字典 Dictionary
- Python 文件I/O
- Python 面向?qū)ο?/a>
- Python 數(shù)據(jù)結(jié)構(gòu)
- Python 環(huán)境
- Python 數(shù)組
- Python 分而治之
- Python 搜索算法
- Python 圖算法
- Python 大O符號(hào)
- Python3 解釋器
- Python3 字符串(String)
- Python3 字典(Dictionary)
- Python3 函數(shù)
- Python3 模塊
- Python3 文件讀寫(xiě)
- Python3 錯(cuò)誤和異常
- Python3 JSON 解析
- Python MongoDB 數(shù)據(jù)庫(kù)連接 - PyMongo 驅(qū)動(dòng)