概述
这里写目录标题
- 13.2 二进制文件和字节流
- 13.2.1 InputStream/OutputStream
- 1.InputStream
- 2.OutputStream
- 13.2.2 FileInputStream/FileOutputStream
- 1.FileOutputStream
- 2.FileInputStream
- 13.2.3 ByteArrayInputStream/ByteArrayOutputStream
- 1.ByteArrayOutputStream
- 2.ByteArrayInputStream
- 13.2.4 DataInputStream/DataOutputStream
- 1.DataOutputStream
- 2.DataInputStream
- 13.2.5 BufferedInputStream/BufferedOutputStream
- 13.2.6 实用方法
- 13.2.7 小结
- 参考目录
13.2 二进制文件和字节流
本节介绍在Java中如何以二进制字节的方式来处理文件,前面我们 提到Java中有流的概念,以二进制方式读写的主要流有:
·InputStream/OutputStream:这是基类,它们是抽象类。
·FileInputStream/FileOutputStream:输入源和输出目标是文件的流。
·ByteArrayInputStream/ByteArrayOutputStream:输入源和输出目标 是字节数组的流。
·DataInputStream/DataOutputStream:装饰类,按基本类型和字符串 而非只是字节读写流。
·BufferedInputStream/BufferedOutputStream:装饰类,对输入输出流提供缓冲功能。
下面,我们就来介绍这些类的功能、用法、原理和使用场景,最后 总结一些简单的实用方法。
13.2.1 InputStream/OutputStream
我们分别看下InputStream和OutputStream。
1.InputStream
(1)InputStream的基本方法
InputStream是抽象类,主要方法是:
read方法从流中读取下一个字节,返回类型为int,但取值为0~255,当读到流结尾的时候,返回值为-1,如果流中没有数据,read方法 会阻塞直到数据到来、流关闭或异常出现。异常出现时,read方法抛出 异常,类型为IOException,这是一个受检异常,调用者必须进行处理。 read是一个抽象方法,具体子类必须实现,FileInputStream会调用本地 方法。所谓本地方法,一般不是用Java写的,大多使用C语言实现,具 体实现往往与虚拟机和操作系统有关。
InputStream还有如下方法,可以一次读取多个字节:
读入的字节放入参数数组b中,第一个字节存入b[0],第二个存入 b[1],以此类推,一次最多读入的字节个数为数组b的长度,但实际读入 的个数可能小于数组长度,返回值为实际读入的字节个数。如果刚开始 读取时已到流结尾,则返回-1;否则,只要数组长度大于0,该方法都 会尽力至少读取一个字节,如果流中一个字节都没有,它会阻塞,异常 出现时也是抛出IOException。该方法不是抽象方法,InputStream有一个 默认实现,主要就是循环调用读一个字节的read方法,但子类如 FileInputStream往往会提供更为高效的实现。
批量读取还有一个更为通用的重载方法:
读入的第一个字节放入b[off],最多读取len个字节,read(byte b[])就是调用了该方法:
流读取结束后,应该关闭,以释放相关资源,关闭方法为:
不管read方法是否抛出了异常,都应该调用close方法,所以close方 法通常应该放在finally语句内。close方法自己可能也会抛出 IOException,但通常可以捕获并忽略。
(2)InputStream的高级方法
InputStream还定义了如下方法:
skip跳过输入流中n个字节,因为输入流中剩余的字节个数可能不到 n,所以返回值为实际略过的字节个数。InputStream的默认实现就是尽 力读取n个字节并扔掉,子类往往会提供更为高效的实现, FileInputStream会调用本地方法。在处理数据时,对于不感兴趣的部 分,skip往往比读取然后扔掉的效率要高。
available返回下一次不需要阻塞就能读取到的大概字节个数。 InputStream的默认实现是返回0,子类会根据具体情况返回适当的值, FileInputStream会调用本地方法。在文件读写中,这个方法一般没什么 用,但在从网络读取数据时,可以根据该方法的返回值在网络有足够数 据时才读,以避免阻塞。
一般的流读取都是一次性的,且只能往前读,不能往后读,但有时 可能希望能够先看一下后面的内容,根据情况再重新读取。比如,处理 一个未知的二进制文件,我们不确定它的类型,但可能可以通过流的前 几十个字节判断出来,判读出来后,再重置到流开头,交给相应类型的 代码进行处理。
InputStream定义了三个方法:mark、reset、markSupported,用于支 持从读过的流中重复读取。怎么重复读取呢?先使用mark()方法将当 前位置标记下来,在读取了一些字节,希望重新从标记位置读时,调用 reset方法。能够重复读取不代表能够回到任意的标记位置,mark方法有 一个参数readLimit,表示在设置了标记后,能够继续往后读的最多字节 数,如果超过了,标记会无效。为什么会这样呢?因为之所以能够重读,是因为流能够将从标记位置开始的字节保存起来,而保存消耗的内 存不能无限大,流只保证不会小于readLimit。
不是所有流都支持mark、reset方法,是否支持可以通过markSupported的返回值进行判断。InpuStream的默认实现是不支持, FileInputStream也不直接支持,但BufferedInput-Stream和 ByteArrayInputStream可以支持。
2.OutputStream
OutputStream的基本方法是:
向流中写入一个字节,参数类型虽然是int,但其实只会用到最低的 8位。这个方法是抽象方法,具体子类必须实现,FileInputStream会调用 本地方法。
OutputStream还有两个批量写入的方法:
在第二个方法中,第一个写入的字节是b[off],写入个数为len,最 后一个是b[off+len-1],第一个方法等同于调用write(b,0, b.length);。OutputStream的默认实现是循环调用单字节的write()方 法,子类往往有更为高效的实现,FileOutpuStream会调用对应的批量写 本地方法。
OutputStream还有两个方法:
flush方法将缓冲而未实际写的数据进行实际写入,比如,在 BufferedOutputStream中,调用flush方法会将其缓冲区的内容写到其装饰 的流中,并调用该流的flush方法。基类OutputStream没有缓冲,flush方 法代码为空。
需要说明的是文件输出流FileOutputStream,你可能会认为,调用flush方法会强制确保数据保存到硬盘上,但实际上不是这样, FileOutputStream没有缓冲,没有重写flush方法,调用flush方法没有任何效果,数据只是传递给了操作系统,但操作系统什么时候保存到硬盘上,这是不一定的。要确保数据保存到了硬盘上,可以调用 FileOutputStream中的特有方法,具体待会介绍。
close方法一般会首先调用flush方法,然后再释放流占用的系统资 源。同InputStream一样,close方法一般应该放在finally语句内。
13.2.2 FileInputStream/FileOutputStream
FileInputStream和FileOutputStream的输入源和输出目标是文件,我们分别介绍。
1.FileOutputStream
FileOutputStream有多个构造方法,其中两个如下所示:
File类型的参数file和字符串的类型的参数name都表示文件路径,路 径可以是绝对路径,也可以是相对路径,如果文件已存在,append参数 指定是追加还是覆盖,true表示追加,false表示覆盖,第二个构造方法 没有append参数,表示覆盖。new一个FileOutputStream对象会实际打开 文件,操作系统会分配相关资源。如果当前用户没有写权限,会抛出异 常SecurityException,它是一种RuntimeException。如果指定的文件是一 个已存在的目录,或者由于其他原因不能打开文件,会抛出异常 FileNotFoundException,它是IOException的一个子类。
我们看一段简单的代码,将字符串"hello,123,老马"写到文件 hello.txt中:
OutputStream只能以byte或byte数组写文件,为了写字符串,我们调 用String的get-Bytes方法得到它的UTF-8编码的字节数组,再调用 write()方法,写的过程放在try语句内,在finally语句中调用close方法。
FileOutputStream还有两个额外的方法:
FileChannel定义在java.nio中,表示文件通道概念。我们不会深入介绍通道,但内存映射文件方法定义在FileChannel中,我们会在下章介 绍。FileDescriptor表示文件描述符,它与操作系统的一些文件内存结构相连,在大部分情况下,我们不会用到它,不过它有一个方法sync:
这是一个本地方法,它会确保将操作系统缓冲的数据写到硬盘上。 注意与Output-Stream的flush方法相区别,flush方法只能将应用程序缓冲 的数据写到操作系统,sync方法则确保数据写到硬盘,不过一般情况 下,我们并不需要手工调用它,只要操作系统和硬件设备没问题,数据迟早会写入。在一定特定情况下,一定需要确保数据写入硬盘,则可以调用该方法。
2.FileInputStream
FileInputStream的主要构造方法有:
参数与FileOutputStream类似,可以是文件路径或File对象,但必须是一个已存在的文件,不能是目录。new一个FileInputStream对象也会实 际打开文件,操作系统会分配相关资源,如果文件不存在,会抛出异常 FileNotFoundException,如果当前用户没有读的权限,会抛出异常 SecurityException。我们看一段简单的代码,将上面写入的文 件"hello.txt"读到内存并输出:
读入到的是byte数组,我们使用String的带编码参数的构造方法将其 转换为了String。这段代码假定一次read调用就读到了所有内容,且假定 字节长度不超过1024。为了确保读到所有内容,可以逐个字节读取直到文件结束:
在没有缓冲的情况下逐个字节读取性能很低,可以使用批量读入且 确保读到结尾,如下所示:
不过,这还是假定文件内容长度不超过一个固定的大小1024。如果 不确定文件内容的长度,但不希望一次性分配过大的byte数组,又希望 将文件内容全部读入,怎么做呢?可以借助ByteArrayOutputStream,我 们下面进行介绍。
13.2.3 ByteArrayInputStream/ByteArrayOutputStream
它们的输入源和输出目标是字节数组,我们分别介绍。
1.ByteArrayOutputStream
ByteArrayOutputStream的输出目标是一个byte数组,这个数组的长度是根据数据内容动态扩展的,它有两个构造方法:
第二个构造方法中的size指定的就是初始的数组大小,如果没有指 定,则长度为32。在调用write方法的过程中,如果数组大小不够,会进 行扩展,扩展策略同样是指数扩展,每次至少增加一倍。
ByteArrayOutputStream有如下方法,可以方便地将数据转换为字节数组或字符串:
toString()方法使用系统默认编码。
ByteArrayOutputStream中的数据也可以方便地写到另一个 OutputStream:
ByteArrayOutputStream还有如下额外方法:
size方法返回当前写入的字节个数。reset方法重置字节个数为0,reset后,可以重用已分配的数组。
使用ByteArrayOutputStream,我们可以改进前面的读文件代码,确保将所有文件内容读入:
读入的数据先写入ByteArrayOutputStream中,读完后,再调用其 toString方法获取完整数据。
2.ByteArrayInputStream
ByteArrayInputStream将byte数组包装为一个输入流,是一种适配器模式,它的构造方法有:
第二个构造方法以buf中offset开始的length个字节为背后的数据。 ByteArrayInput-Stream的所有数据都在内存,支持mark/reset重复读取。
为什么要将byte数组转换为InputStream呢?这与容器类中要将数 组、单个元素转换为容器接口的原因是类似的,有很多代码是以 InputStream/OutputSteam为参数构建的,它们构成了一个协作体系,将 byte数组转换为InputStream可以方便地参与这种体系,复用代码。
13.2.4 DataInputStream/DataOutputStream
上面介绍的类都只能以字节为单位读写,如何以其他类型读写呢? 比如int、double。可以使用DataInputStream/DataOutputStream,它们都是装饰类。
1.DataOutputStream
DataOutputStream是装饰类基类FilterOutputStream的子类, FilterOutputStream是Output-Stream的子类,它的构造方法是:
它接受一个已有的OutputStream,基本上将所有操作都代理给了 它。DataOutputStream实现了DataOutput接口,可以以各种基本类型和字 符串写入数据,部分方法如下:
在写入时,DataOutputStream会将这些类型的数据转换为其对应的二进制字节,比如:
1)writeBoolean:写入一个字节,如果值为true,则写入1,否则 0。
2)writeInt:写入4个字节,最高位字节先写入,最低位最后写入。
3)writeUTF:将字符串的UTF-8编码字节写入,这个编码格式与标准的UTF-8编码略有不同,不过,我们不用关心这个细节。
与FilterOutputStream一样,DataOutputStream的构造方法也是接受一个已有的Output-Stream:
我们来看一个例子,保存一个学生列表到文件中,学生类的定义 为:
学生列表内容为:
将该列表内容写到文件students.dat中的代码可以为:
我们先写了列表的长度,然后针对每个学生、每个字段,根据其类 型调用了相应的write方法。
2.DataInputStream
DataInputStream是装饰类基类FilterInputStream的子类, FilterInputStream是Input-Stream的子类。DataInputStream实现了 DataInput接口,可以以各种基本类型和字符串读取数据,部分方法有:
在读取时,DataInputStream会先按字节读进来,然后转换为对应的类型。
DataInputStream的构造方法接受一个InputStream:
还是以上面的学生列表为例,我们来看怎么从文件中读进来:
读基本是写的逆过程,代码比较简单,就不赘述了。使用 DataInputStream/DataOutput-Stream读写对象,非常灵活,但比较麻烦, 所以Java提供了序列化机制,我们在下章介绍。
13.2.5 BufferedInputStream/BufferedOutputStream
FileInputStream/FileOutputStream是没有缓冲的,按单个字节读写时 性能比较低,虽然可以按字节数组读取以提高性能,但有时必须要按字节读写,怎么解决这个问题呢?方法是将文件流包装到缓冲流中。 BufferedInputStream内部有个字节数组作为缓冲区,读取时,先从这个 缓冲区读,缓冲区读完了再调用包装的流读,它的构造方法有两个:
size表示缓冲区大小,如果没有,默认值为8192。除了提高性能,BufferedInputStream也支持mark/reset,可以重复读取。与 BufferedInputStream类似,BufferedOutputStream的构造方法也有两个, 默认的缓冲区大小也是8192,它的flush方法会将缓冲区的内容写到包装的流中。
在使用FileInputStream/FileOutputStream时,应该几乎总是在它的外面包上对应的缓冲类,如下所示:
再比如:
13.2.6 实用方法
可以看出,即使只是按二进制字节读写流,Java也包括了很多的 类,虽然很灵活,但对于一些简单的需求,却需要写很多代码。实际开 发中,经常需要将一些常用功能进行封装,提供更为简单的接口。下面 我们提供一些实用方法,以供参考,这些代码都比较简单易懂,我们就 不解释了。
复制输入流的内容到输出流,代码为:
实际上,在Java 9中,InputStream类增加了一个方法transferTo,可 以实现相同功能,实现是类似的,具体代码为:
将文件读入字节数组,这个方法调用了上面的复制方法,具体代码为:
将字节数组写到文件,代码为:
Apache有一个类库Commons IO,里面提供了很多简单易用的方 法,实际开发中,可以考虑使用。
13.2.7 小结
本节介绍了如何在Java中以二进制字节的方式读写文件,介绍了主要的流。
1)InputStream/OutputStream:是抽象基类,有很多面向流的代 码,以它们为参数,比如本节介绍的copy方法。
2)FileInputStream/FileOutputStream:流的源和目的地是文件。
3)ByteArrayInputStream/ByteArrayOutputStream:源和目的地是字 节数组,作为输入相当于适配器,作为输出封装了动态数组,便于使用。
4)DataInputStream/DataOutputStream:装饰类,按基本类型和字符 串读写流。
5)BufferedInputStream/BufferedOutputStream:装饰类,提供缓 冲,FileInputStream/FileOutputStream一般总是应该用该类装饰。
最后,我们提供了一些实用方法,以方便常见的操作,在实际开发 中,可以考虑使用专门的类库,如Apache Commons IO(http://commons.apache.org/proper/commons-io/ )。本节完整的代码 在github上,地址为https://github.com/swiftma/program-logic ,位于包 shuo.laoma.file.c57下。
参考目录
绝大多数内容来自于:Java编程的逻辑 作者: 马俊昌(13.2 二进制文件和字节流)
Java官方文档
https://docs.oracle.com/javase/specs/index.html
最后
以上就是爱笑星月为你收集整理的Java 文件基本技术 二进制文件和字节流13.2 二进制文件和字节流的全部内容,希望文章能够帮你解决Java 文件基本技术 二进制文件和字节流13.2 二进制文件和字节流所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复