稳重发带

文章
4
资源
0
加入时间
3年2月3天

spark程序读写protobuf格式数据(java语言)在spark上,用protobuf替代json格式作为数据序列化存储

在spark上,用protobuf替代json格式作为数据序列化存储谷歌的protobuf一般用来将复杂数据结构序列化为二进制数组,非常适合网络传输等领域,其效率和空间占用都优于json格式。这一次,我在用spark做建模时,打算使用protobuf替换原json格式数据,以获得性能提升。在此记录下实现方式,以及如何避过我遇到的坑。我的环境是spark1.5.0 + java7 + protobuf