hdf5 | 7f - 柒风博客

对于序列化保存各种 array / data frame 等类型的数据，一直以来有各种各样的办法。例如我用过的，对于简单的一个 array，NumPy 有提供读写的方法；pandas 也有对应的 data frame 读写；而字符串/字典，可以变成 json 保存等。

但是，如果数量多了，例如有 100 个 array，上面的方法就不太方便了。我比较懒，会把这些 array 放到一个 dict 里面，然后用 pickle 把这个 dict pickle下来——保存和读取都非常方便，而且兼容所有数据类型。

后来，数据量多了之后，就发现 pickle 的方案也是有缺点的，就是性能不好（文末有初步的性能对比）。所以调研了一下后，选择了 HDF5。以前只是听过，没有用过，现在用了感觉不错，在下面稍微总结一下。

目标用户

无论是科学研究，还是各行各业，都有 HDF5 的身影。高效、跨平台、无上限，尤其适合数据量大的情景。见官网的 Who Uses HDF?

安装

HDF5 支持各种语言，Python 对应的库是 h5py。

$ pip install h5py
 or
$ conda install h5py  # Anaconda

核心概念

HDF5 里只有 2 种类型：dataset 和 group。
– dataset 就像数组，类似 Python 的 list (一维或多维)，或 NumPy 的 ndarray。dataset 的语法和 ndarray 类似。
– group 就像 Python 的 dict，在我看来，它更像是带路径的文件夹。group 的语法和 dict 类似。

就像是在一层一层的文件夹中，存放着不同的 dataset。记住以上两点，就🆗

Python 存储大量 NumPy Array 等数据的方案：HDF5

目标用户

安装

核心概念

Ad: