我是靠谱客的博主 呆萌外套,最近开发中收集的这篇文章主要介绍【RPC】序列化与反序列化1. 基本概念?2. 文本格式的序列化方案3. 二进制格式的序列化方法4. 序列化框架选型,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • 1. 基本概念?
  • 2. 文本格式的序列化方案
    • 2.1 XML格式
    • 2.2 JSON格式
  • 3. 二进制格式的序列化方法
  • 4. 序列化框架选型

1. 基本概念?

序列化和反序列化是一种数据转化的技术,从数据的用途来看,序列化就是为了将数据按照规定的格式就行重组,在保持原有的数据语义不变的情况下,达到存储或者传输的目的。

反序列化则是为了将序列化后的数据重新还原成具有语义的数据,以达到重新使用或者复用原有数据的目的。

序列化框架则是提供这种转化功能的解决方案和工具库。

序列化协议就是一种结构化的数据格式,它一般指的是数据格式化的规则。

2. 文本格式的序列化方案

2.1 XML格式

XML数据的基本单位是元素,元素由其实标签、元素内容和结束标签组成。用户把要描述的数据对象放在其实标签和结束标签之间。

在Java领域中,目前常见的XML格式的序列化框架有三种:

  • 第一种是JDK自带的XML格式的序列化API,分别是java.beans.XMLEncoder和java.beans.XMLDecoder,这两个类提供了XML格式数据的序列化能力。

  • 第二种是Digester,它是从Struts发展而来的,它只能从XML文件解析成Java Bean对象,功能比较单一。

  • 第三种是XStream,是一个功能比较丰富的框架,它不仅可以将Java Bean对象和XML数据互传,还支持JSON格式的转化啊。并且它的API使用也比较简单。现在大多数Java Bean和XML数据互转都用该框架来实现。

    • 在Maven依赖中加入以下依赖:
    <dependency>
          <groupId>com.thoughtworks.xstream</groupId>
          <artifactId>xstream</artifactId>
          <version>1.4.15</version>
    </dependency>
    

    API也比较简单:

    // 序列化
    String xml = xstream.toXML(对象);
    // 反序列化,需要强制转化
    类 对象 = (类)xtream.fromXML(xml);
    

2.2 JSON格式

JSON是JavaScript Object Notation的缩写,可以理解为是JavaScript对象的表示方法。

JSON格式整体看起来每个数据都是key-value形式。JSON数据本身也有自己的一套规范。比如数据就是中括号“[]”包裹起来的内容,数组中的每个元素都用“,”隔开,每个对象都用“{}”包裹起来。

JSON和XML相比,序列化后的数据包会更小,反序列化JSON格式的数据要比反序列化XML格式的数据更容易,速度也会更快。

JSON作为文本格式的序列化方案,并没有对数据进行压缩,原封不动地呈现了所有数据,并且还增加了一些标示符来帮助反序列化,数据包依旧非常大,在序列化和反序列化地性能上也还有很大进步空间。

目前集中常见地支持JSON格式的序列化矿建如下:

  • Fastjson:该框架是阿里巴巴开源的JSON解析库,它可以解析JSON格式的字符串,支持将Java Bean序列化为JSON字符串,也可以反序列化为Java Bean。它的优点是速度快、社区较为活跃、API十分简单,不需要第三方库的依赖。
  • Jackson:简单易用并且性能相对较高一些,流式解析JSON格式,在解析数据量大的JSON格式文本时比较有优势。将复杂类型的JSON转换为Bean会出现问题,比如一些集合Map、List的转换;将复杂类型的Bean转换为JSON,转换的JSON格式不是标准的JSON格式
  • Gson:由Google开源的JSON解析库,功能最全,它没有依赖第三方类库,但是在性能上比JSON-lib和Fastjson稍微差一点。
  • JSON-lib:最开始的JSON解析工具,它在进行Java Bean和JSON字符串互相转化的时候,依赖了太多的第三方库,并且在转化的时候还有缺陷,比如数值溢出时不抛出错误。该工具最近一次更新也是在七年前了,它已经满足不了现在的开发要求。

下面详细介绍一下Fastjson。

Fastjson从名字上就可以很好理解:快和JSON。专注一件事:就是将Java对象与JSON字符串互转。

**从序列化的角度来看,**在进行序列化时要将一个对象转化为JSON格式的字符串,必定经历两个步骤,

  • 第一步就是获取Java对象的属性值。JSON格式中的每个数据都是key-value的形式。所以在转化为JSON格式之气那,必须获取对象的属性值。
  • 第二步就是将属性名及属性值按照JSON的规范组合成JSON字符串。Fastjson在第一步获取属性值时采用了ASM库,并没有选择传统的Java反射来获取属性值,因为反射的性能很差,远不如直接使用ASM库来获取Java对象的属性值。并且Fastjson并没有将整个ASM库引入Fastjson框架,二十引入了ASM库的部分内容。在第二步中由于用字符串直接拼接的性能太差,而使用java.lang.StringBuilder会相对好得多,所以Fastjson提供了类似StringBuilder的工具类SerializeWriter,进一步提升了字符串拼接的性能。

除了通过以上两个策略来提升性能,Fastjson还做了以下三点比较重要的优化:

  • 第一点就是用ThreadLocal来缓存buf。SerializeWriter中有一个char buf[]属性,每序列化一次,都要做一次分配,它的作用时缓存每次序列化后字符串的内存地址,Fastjson使用ThreadLocal来缓存buf。这个办法能够减少对象分配和GC,从而提升性能。

    protected char buf[];
    private final static ThreadLocal<char[]> bufLocal = new ThreadLocal<char[]>();
    

    在SerializeWriter的构造方法,当调用SerializeWriter的构造方法时,先从bufLocal中获取,如果在bufLocal中有缓存存在,则把值清空。这样就不需要重新分配对象,也减少了GC。如果没有缓存,才执行new char[2048]的操作。

  • 第二点就是使用IdentityHashMap存储Class和ObjectSerializer的映射关系:Fastjson有一个重要的类叫做SerializeConfig,其中缓存了各种配置,包括Calss和Serizlier的映射关系。该属性定义如下:

    private final IdentityHashMap<Type, ObjectSerializer> serializers;
    

    其中ObjectSerializer时Fastjson的一个接口,它定义了序列化的方法,每个类型都对应一个ObjectSerializer,比如数组类型的序列化就用到了ArraySerializer等。每个类型都需要和ObjectSerializer做映射,并且缓存,这样能够方便序列化处理类的快速查找、避免ObjectSerializer的反复创建。如果使用HashMap,则存在并发问题;如果使用ConcurentHashMap,则会有自选等待的情况,导致性能变低。Fastjson实现了一个IdentityHashMap,它参考了JDK自带的java.util.IdentityHashMap,通过避免equals操作来提高性能,Fastjson重写了值匹配的逻辑,在对比是否为同一个key值时只认为key==entry.key才算是同一个。除了去掉equals操作,Fastjson还去掉了transfer操作,保证并发处理时正常工作,但是不会导致死循环。

  • 第三点优化就是排序输出,为反序列化做准备。Fastjson默认启用排序:JSON格式的数据都是一种key-value结构,正常的HashMap是无序的,Fastjson默认是按照key的顺序进行排序输出的,这样做为了反序列化读取的时候只需要做key的匹配,而不需要把key从输入读取出来。

Fastjson在反序列化的优化也四点:

  • 第一点是使用IdentityHashMap存储Class和ObjectDeserializer的映射关系:每个类型都应该和对应的序列化器ObjectDeserializer一一映射,并且缓存,减少反复创建序列化器的开销。反序列化时也和序列化时一样,用IdentityHashMap进行存储,并且该缓存存放在ParserConfig组件中。
  • 第二点是读取token值时基于预测:Fastjson在反序列化一个JSON字符串时,下一个字符一般情况下是可以预估的。比如字符”}“之后最有可能出现的是”,“”]””}”等。预测的逻辑被封装在JSONLexerBase中。
  • 第三点是与序列化相呼应,快速匹配。与上面的序列化有序输出一一对应,反序列化的时候key-value的内容是有序的,读取的时候只需要做key的匹配,而不需要把key读取出来再匹配。
  • 第四点就是基于SymbolTable算法缓存关键字。使用SymbolTable算法缓存关键字,可以避免创建新的字符串对象。假设在一个JSON字符串中,有成千上万个同样的JSON对象的数组,在数据转换过程中,如果不对这些JSON对象中的key做缓存,那么将存在成千上万个同样的字符串对象(值相同)。

3. 二进制格式的序列化方法

二进制格式的序列化方案指数据按照某种编排规则通过二进制格式呈现。将对象序列化为二进制格式的数据能够大大减小数据包大小,从而提高传输速度和解析速度。二进制格式的序列化方案相对于文本格式的序列化方案而言,性能较高,对数据容易做加密处理,安全性较高。

下面举两个二进制格式的序列化方案:

  • 第一个方案就是JDK原生序列化方法:Java序列化是在JDK1.1中引入的,Java序列化的API可以帮助我们将Java对象和二进制流互相转化,API的使用也很简单,只要在序列化的类定义上实现java.io.Serializable接口,然后通过OBjectInputStream和ObjectOuputStream即可实现两者的转化。该序列化方式将字段类型信息用字符串格式写到了二进制中,这样反序列化方就可以根据字段信息实现反序列化。该序列化方式生成的字节流太大,并且性能也不高,所以目前基本不会用该序列化方法。

  • 第二个方案就是Kryo:Kryo是一款优秀的Java序列化框架,它是一款快速序列化/反序列化的工具,相比于JDK的序列化方案,Kryo使用了字节码生成机制(底层依赖了ASM库),因此在序列化和反序列化的性能上提升了不少,Kryo还做了数据压缩的优化,见笑了序列化后的数据包大小。它除了在性能提升方面和简化数据包方面做了优化,还提供了非常便利的功能。Kryo序列化出来的结果是Kryo独有的一种格式,它会将这种格式的数据转化为二进制格式的数据。(Kryo目前只有Java版本的实现。)

    Kryo之所以在序列化和反序列化的性能上有良好的优势,是因为Kryo在时间消耗和空间消耗上都做了一定程度的优化,在时间消耗方面的优化,主要是预先缓存了元数据信息。Kryo先加载类元数据信息,将加载后的二进制数据存入缓存,保证之后的序列化及反序列化都不需要重新加载该类元数据信息。虽然在第一次加载时耗费性能,但是方便了后续的加载。在空间消耗上,为了降低序列化后的数据大小,做出了一下两点优化:

    • 变长的设计降低空间消耗:Kryo对long、int这两种数据类型采用边长字节存储来代替Java中使用固定的长度存储的模式。以int数据类型为例,在Java中一般需要4字节去存储,而对Kryo来说,可以通过1~5个变长字节去存储,从而避免较小的数值的高位都是0,0存储非常浪费空间。
    • 压缩元数据信息:Kryo提供了单独序列化对象信息,以及将类的元数据信息与对象信息一起序列化这两种徐方式。由于第二种方式携带的元数据信息太大,导致序列化后的数据特别大,所以Kryo由提供了一种提前注册类的方式,这种方式是在Kryo中将Java类用唯一ID表示,当Kryo对Class进行序列化时只需要将对应的ID数值进行序列化即可,无须序列化类的全部元信息,而在反序列化时也只需要根据ID来找到对应的类,然后通过类加载进行加载,这样大大减少了序列化收的数据大小。

Kryo和JDK的序列化方案有一个共同的特点,那就是都只能在Java语言中使用。二进制的序列化方案有一个比较严重的问题——它对异构性语言并不友好。目前有三个方案可以解决异构语言的问题:

  • 第一个方案:根据相同的机制重新实现对应语言的序列化框架
  • 第二个方案:通过与编程语言无关的IDL来解决异构语言的问题。目前通过这种方案实现对多语言的支持,并且较为常见的序列化方案有:
    • Thrift:是Facebook开源的一个高性能、轻量级RPC服务框架。在Thrift框架内部提供了对thrift协议的序列化工具,并且见笑了序列化后的数据包大小,以及提升了解析的性能,但是Thrift没有暴露序列化和反序列化的API,thrift协议的序列化能力与Thrift框架强耦合,所以它支持其他协议的序列化和反序列化比较困难。由于Thrift有IDL的设计,支持多语言之间进行远程调用,所以它同样支持多语言之间的序列化。
    • ProtoBuf:全称为Google Protocal Buffer,是Google公司内部的混合语言数据标准,它是一种轻便高效的结构化数据存储格式,可用于序列化。它解析速度快,序列化和反序列化API非常简单,它的文档也非常丰富,并且可以跟各种传输协议结合使用。它同样有IDL的设计,并且提供了IDL的编译器,它支持的语言也非常多,比如C++、C#、Dart、Golang、Java、Python、Rust等。ProtoBuf在性能上也具有非常大的又是,主要体现在:
      • 用标识符来识别字段。(序列化后的数据大大减小了)
      • 自定义可变数据类型Varint用来存储整数。
      • 记录字符串长度,解析时直接截取。

4. 序列化框架选型

在序列化框架选型阶段,需要从多个角度来考量各个序列化框架。在做选型之前,首先需要明确项目的需求,比如需要将序列化框架运用在数据的传输中,但是要明确整个传输过程中更侧重性能,还是侧重可读性,仅明确这一点就可以在选型初期排除一大批序列化框架。

通过初期筛选的序列化框架可以从以下几个角度综合考量:

  • 通用性。
  • 性能。
  • 可扩展性。
  • 安全性。
  • 支持的数据类型的丰富程度。
  • 可读性。
  • 开源社区成熟度和活跃度。

最后

以上就是呆萌外套为你收集整理的【RPC】序列化与反序列化1. 基本概念?2. 文本格式的序列化方案3. 二进制格式的序列化方法4. 序列化框架选型的全部内容,希望文章能够帮你解决【RPC】序列化与反序列化1. 基本概念?2. 文本格式的序列化方案3. 二进制格式的序列化方法4. 序列化框架选型所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(64)

评论列表共有 0 条评论

立即
投稿
返回
顶部