天下高月小说,管理书籍排行榜

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案

在Python中解決中英文混雜出錯(cuò)的問(wèn)題

前兩天用Python寫(xiě)了個(gè)小腳本，其中有個(gè)需求是從一個(gè)文本文件A中讀取數(shù)據(jù)，然后處理一下寫(xiě)進(jìn)一個(gè)新的文本文件B中。不過(guò)A文件中既有英文也有中文。
寫(xiě)出處理這個(gè)需求的代碼并不復(fù)雜，隨手就能寫(xiě)下類(lèi)似的代碼：

1def write_a_line(line, fp):
2    fp.write(line)

不過(guò)這段程序一旦碰到有漢字的字符串時(shí)，可能就會(huì)遇到下面的問(wèn)題：

Traceback (most recent call last):
 File "", line 1, in 
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1:
ordinal not in range(128)

恩，這種情況對(duì)于我們平時(shí)使用C?；蛘逬ava的程序員來(lái)說(shuō)確實(shí)比較頭大。從這個(gè)錯(cuò)誤提示來(lái)看，Python在寫(xiě)文件時(shí)，對(duì)line變量進(jìn)行了編碼操作，而且是針對(duì)line對(duì)象進(jìn)行ASCII碼的編碼。

我們都知道Python是支持unicode的，而且還有針對(duì)unicode的類(lèi)型“unicode”。要想讓字符串稱(chēng)為unicode字符串，可以在字符串的引號(hào)前面加入一個(gè)小寫(xiě)字母“u”。翻閱Python的文檔，我們可以發(fā)下write方法接收的是str對(duì)象。不過(guò)Python并不像C＃，它不用聲明變量的類(lèi)型。所以我們應(yīng)該先看看line到底是個(gè)什么對(duì)象。于是為了解決這個(gè)問(wèn)題，我把上面的代碼加了一行：

1def write_a_line(line, fp):
2    print line.__class__.__name__
3    fp.write(line)

代碼運(yùn)行之后，我發(fā)現(xiàn)當(dāng)line中有中文的時(shí)候，我們的line變量的類(lèi)型是unicode。從網(wǎng)上搜了一下與unicode與寫(xiě)文件相關(guān)的帖子，可以得到一個(gè)信息，對(duì)這unicode對(duì)象調(diào)encode方法進(jìn)行編碼就可以正常寫(xiě)文件了。于是代碼又編程了下面的樣子：

1def write_a_line(line, fp):
2    if line.__class__.__name__ == “unicode”:
3        line = line.encode(“GB2312”)
4    fp.write(line)

這里要注意的問(wèn)題是不能一棍子打死，line可能會(huì)是unicode對(duì)象也可能是str對(duì)象，不過(guò)我們只對(duì)unicode對(duì)象進(jìn)行編碼。這下問(wèn)題總算是解決了。

新聞標(biāo)題：在Python中解決中英文混雜出錯(cuò)的問(wèn)題
當(dāng)前地址：http://m.fisionsoft.com.cn/article/dhjiigp.html

新聞中心

其他資訊