第7章　保存数据 - 7.1　pickle - 《跟老齐学Python》

7.1　pickle

7.1　pickle

pickle是标准库中的一个模块，还有跟它完全一样的叫作cpickle，两者的区别就是后者更快（似乎已经是一个规律了，凡是某个模块前面有c，就意味着它是用c语言重写了，也意味着速度更快些）。所以，在下面的操作中，不管是用import pickle，还是用import cpickle as pickle，在功能上都是一样的。

>>> import pickle
>>> integers = [1, 2, 3, 4, 5]
>>> f = open("22901.dat", "wb")
>>> pickle.dump(integers, f)
>>> f.close()

用pickle.dump（integers，f）将数据integers保存到文件22901.dat中。如果你要打开这个文件看里面的内容，可能会有点失望，但是，它对计算机是友好的。这个步骤可以称之为将对象序列化。用到的方法是：pickle.dump（obj，file[，protocol]）。

obj：序列化对象，在上面的例子中是一个列表，它是基本类型，也可以序列化自己定义的类型。
file：要写入的文件。可以更广泛地理解为拥有write()方法的对象，并且能接受字符串为参数，所以，它还可以是一个StringIO对象，或者其他自定义满足条件的对象。
protocol：可选项。默认为False（或者说0），以ASCII格式保存对象；如果设置为1或者True，则以压缩的二进制格式保存对象。换一种数据格式，并且做对比：

>>> import pickle
>>> d = {}
>>> integers = range(9999)
>>> d["i"] = integers                  #下面将这个dict格式的对象存入文件
 
>>> f = open("22902.dat", "wb")
>>> pickle.dump(d, f)                  #文件中以ascii格式保存数据
>>> f.close()
 
>>> f = open("22903.dat", "wb")
>>> pickle.dump(d, f, True)            #文件中以二进制格式保存数据
>>> f.close()
 
>>> import os
>>> s1 = os.stat("22902.dat").st_size  #得到两个文件的大小
>>> s2 = os.stat("22903.dat").st_size
 
>>> print "%d, %d, %.2f%%" % (s1, s2, (s2+0.0)/s1*100)
68903, 29774, 43.21%

比较结果发现，以二进制方式保存的文件比以ASCII格式保存的文件小很多，前者约是后者的43%。

所以，在序列化的时候，特别是面对较大对象时，建议将dump()的参数True设置上，虽然现在存储设备的价格便宜，但是能省的还是省点比较好。

存入文件，还有另外一个目标，就是要读出来，也称之为反序列化。

>>> integers = pickle.load(open("22901.dat", "rb"))
>>> print integers
[1, 2, 3, 4, 5]

再看看被以二进制方式存入的那个文件：

>>> f = open("22903.dat", "rb")
>>> d = pickle.load(f)
>>> print d
{'i': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, ....   #省略后面的数字}
>>> f.close()

如果是自己定义的数据类型，是否可以用上述方式存入文件并读出来呢？看下面的例子：

>>> import cPickle as pickle          #cPickle更快
>>> import StringIO                   #标准库中的一个模块，跟file功能类似，
                                               #只不过是在内存中操作“文件”
>>> class Book(object):               #自定义一种类型
...     def __init__(self,name):
...         self.name = name
...     def my_book(self):
...         print "my book is: ", self.name
... 
 
>>> pybook = Book("<from beginner to master>")
>>> pybook.my_book()
my book is:  <from beginner to master>
 
>>> file = StringIO.StringIO()
>>> pickle.dump(pybook, file, 1)
>>> print file.getvalue()             #查看“文件”内容，注意下面不是乱码
ccopy_reg
_reconstructor
q?(c__main__
Book
q?c__builtin__
object
q?NtRq?}qU?nameq?U?<from beginner to master>sb.
 
>>> pickle.dump(pybook, file)         #换一种方式，再看内容，可以比较一下
>>> print file.getvalue()             #视觉上两者就有很大差异
ccopy_reg
_reconstructor
q?(c__main__
Book
q?c__builtin__
object
q?NtRq?}qU?nameq?U?<from beginner to master>sb.ccopy_reg
_reconstructor
p1
(c__main__
Book
p2
c__builtin__
object
p3
NtRp4
(dp5
S'name'
p6
S'<from beginner to master>'
p7
sb.

如果从文件中读出来：

>>> file.seek(0)                     #找到对应类型 
>>> pybook2 = pickle.load(file)
>>> pybook2.my_book()
my book is:  <from beginner to master>
>>> file.close()

7.1 pickle

7.1 pickle

7.1　pickle

7.1　pickle