«

Java不能使用字符流读取非文本二进制文件的原因是什么

时间:2024-7-13 14:22     作者:韩俊     分类: Java


这篇文章主要介绍“Java不能使用字符流读取非文本二进制文件的原因是什么”,在日常操作中,相信很多人在Java不能使用字符流读取非文本二进制文件的原因是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Java不能使用字符流读取非文本二进制文件的原因是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

读取文件

刚学Java的IO流部分时,书上说只能使用字节流去读取图片、视频等非文本二进制文件,不能使用字符流,否则文件会损坏。所以我就一直记住这一点了,但是为什么不能使用,这一直是我的一个疑惑。今天,我又想到了这个问题,所以干脆就一鼓作气把它解决了吧。

先来看一个关于图片复制的代码示例: 注意:我的电脑是存在 D:/DB这个路径的,如果你没有,DB这个文件夹,必须建立一个。

package dragon;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.file.Path;
import java.nio.file.Paths;

public class ReadImage {
    public static void main(String[] args) throws IOException {
        String imgPath = "D:/DB/husky/kkk.jpeg";
        String byteImgCopyPath = "D:/DB/husky/byteCopykkk.jpeg";
        String charImgCopyPath = "D:/DB/husky/charCopykkk.jpeg";
        Path srcPath = Paths.get(imgPath);
        Path desPath2 = Paths.get(byteImgCopyPath);
        Path desPath3 = Paths.get(charImgCopyPath);

        byteRead(srcPath.toFile(), desPath2.toFile());
        System.out.println("字节复制执行成功!");

        characterRead(srcPath.toFile(), desPath3.toFile());
        System.out.println("字符复制执行成功!");

    }

    static void byteRead(File src, File des) throws IOException {
        try (BufferedInputStream bis = new BufferedInputStream(new FileInputStream(src));
                BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream(des))) {
            int hasRead = 0;
            byte[] b = new byte[1024];
            while ((hasRead = bis.read(b)) != -1) {
                bos.write(b, 0, hasRead);
            }
        }
    }

    static void characterRead(File src, File des) throws IOException {
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(src), "UTF-8"));
                BufferedWriter writer = new BufferedWriter(new FileWriter(des))) {
            int hasRead = 0;
            char[] c = new char[1024];
            while ((hasRead = reader.read(c)) != -1) {
                writer.write(c, 0, hasRead);
            }
        }
    }
}

运行结果: 可见,使用字符流确实无法读取图片这样的二进制文件,必须使用字节流。

图片大小变化: 可见,使用字符流后图片大小变化了,使用字节流则不会。

为什么会这样呢?

通过上面那个例子,我们可以看到确实是无法使用字符流复制文件,并且使用字符流复制文件后,文件的大小也会变化,这就引出我们今天要讨论的标题了。

我们先来想一想,为什么文本文件打开可以显示文字? 我们都知道计算机处理的文件无论是文本还是非文本的文件,最终在计算机内部都是以二进制的形式存储的。

使用文本编辑器的16进制模式打开一个文本文件:

使用编辑器的16进制模式打开上面程序使用的图片文件:

对比两张图片中的数据,应该发现不了什么区别吧,但是为什么文本数据就可以显示出文字呢?这是一个非常基础的问题,大学里面的基础课都是讲过这方面的内容–字符编码表。 我最开始学习的是 C 语言,接触最早的编码表是 ASCII(美国信息交换标准代码),后来学习java接触的是 Unicode(万国码,这个名字和它的起源很契合。我们目前最常使用的是UTF-8,是针对Unicode的一种可变长度字符编码。)

注意: 使用 UTF-8 也是分为含有 BOM(Byte Order Mark,字节顺序标记) 和 没有的两种形式,而且混用会导致错误,感兴趣的可以去了解一下。

字符编码表的作用体现在编码上,引述百科的一段话:

在显示器上看见的文字、图片等信息在电脑里面其实并不是我们看见的样子,即使你知道所有信息都存储在硬盘里,把它拆开也看不见里面有任何东西,只有些盘片。假设,你用显微镜把盘片放大,会看见盘片表面凹凸不平,凸起的地方被磁化,凹的地方是没有被磁化;凸起的地方代表数字1,凹的地方代表数字0。硬盘只能用0和1来表示所有文字、图片等信息。那么字母”A”在硬盘上是如何存储的呢?可能小张计算机存储字母”A”是1100001,而小王存储字母”A”是11000010,这样双方交换信息时就会误解。比如小张把1100001发送给小王,小王并不认为1100001是字母”A”,可能认为这是字母”X”,于是小王在用记事本访问存储在硬盘上的1100001时,在屏幕上显示的就是字母”X”。也就是说,小张和小王使用了不同的编码表。

所以字符编码表就是二进制数字和字符之间的一个一一映射,例如 65 (数字)代表 A,所以下面这段代码会在屏幕上输出 A。

char c = 65;
System.out.println(c);

我们使用一个循环来测试一下:

char c = 0;
for (int i  = 9999; i < 10009; i++) {
    c = (char) i;
    System.out.print(c+" ");
}

测试结果:(当然了,这个取决于你的当前的字符编码表,如果使用 ASCII,估计就有意思了。)

这样就解释了前面那个问题(为什么文本文件打开可以显示文字?),我们之所以可以看见文本文件的字符是因为计算机按照我们文件的编码(ASCII、UTF-8或者GBK等),从字符编码表中找出来对应的字符。 所以,当我们使用记事本打开二进制文件会看到乱码,这就是原因。文件的复制过程也是复制的二进制数据,而不是真实的文字。

因此可以这样理解文件复制的过程:

    字符流:二进制数据 --编码-> 字符编码表 --解码-> 二进制数据

    字节流:二进制数据 &mdash;> 二进制数据

所以问题就是出现在编码和解码的过程中,既然是字符的编码表,那它就是包含所有的字符,但是字符的数量是有限的,这就意味着它不能表示一些超过编码表的字符,因为根本不存在表中。所以,JVM 会使用一些字符进行替换,基本上都是乱码(所以大小会发生变化),而且如果有一个数据恰好是-1,那么读取就会中断,引起数据丢失。

例如如下代码使用字符流读取就会错误:

    String filename = "D:/DB/fos.txt";     //文件名
    byte[] b = new byte[] {-1, -1};      //两个字节,127的二进制就是 1111 1111
    //数据写入文件
    try (FileOutputStream fos = new FileOutputStream(filename)) {
        fos.write(b, 0, b.length);  //将两个127连续写入,就是 1111 1111 1111 1111
    }
    File file = new File(filename);
    //输出文件的大小
    System.out.println("file length: " + file.length());
    char[] c = new char[2];
    //使用字符流读取文件
    try (FileReader reader = new FileReader(filename)) {
        int count = reader.read(c);    //Java使用Unicode编码,读取的是从 0-65535 之间的数字。
        System.out.println("以文本形式输出:" + new String(c, 0, count)+"   "+count);
        for (char d : c) {  
            System.out.println("字符为:" + d);
        }
    }
    System.out.println("表示字符:" + c[0]);

    //再写入文件
    try (FileWriter writer = new FileWriter(filename)) {
        writer.write(c, 0, 2);
    }
    File f = new File(filename);
    System.out.println("file length: " + f.length());

结果:

说明: 我将两个1字节的-1写入(字节流)了文本文件(注意是字节:-1,不是字符:-1),然后再读取(字符流),再写入(字符流)就已经出现了问题。读取出的字符显示了一个奇怪的符号,而且它的值为:65533,这个值如果用字节表示的话,一个字节是不够的,所以文件的大小就会变化。在非文本的二进制数据中,出现这种情况都是正常的,因为本来就不是按照字符编码的。

因为字符都是正数,而非字符编码的话,字节数可能是负数(很可能),但是负数在字符看来就是正数,这也是为什么-1,被读成 65533的原因。可以看出来,读取就已经错误了。

注意: 这里的重点是对于使用字符流读取非文本文件,在读取-写入的过程中的问题。

标签: java

热门推荐