透彻java StringgetBytes编码问题 (1/2)

来源：网络整理时间:2016-08-18 关键词:

本篇文章主要介绍了" 透彻java StringgetBytes编码问题 "，主要涉及到方面的内容，对于其他编程jrs看球网直播吧_低调看直播体育app软件下载_低调看体育直播感兴趣的同学可以参考一下：转载自：String.getBytes()的问题String 的getBytes()方法是得到一个字串的字节数组，这是众所周知的。但特别要注意的是，本方法将返回...

转载自：

String.getBytes()的问题
String 的getBytes()方法是得到一个字串的字节数组，这是众所周知的。但特别要注意的是，本方法将返回该操作系统默认的编码格式的字节数组。如果你在使用这个方法时不考虑到这一点，你会发现在一个平台上运行良好的系统，放到另外一台机器后会产生意想不到的问题。比如下面的程序:

class TestCharset {
public static void main(String[] args) {
new TestCharset().execute();
}
private void execute() {
String s = "Hello!你好！";
byte[] bytes = s.getBytes();
System.out.println("bytes lenght is:" + bytes.length);
}
}

在一个中文WindowsXP系统下，运行时，结果为：

bytes lenght is:12

但是如果放到了一个英文的UNIX环境下运行：

$ java TestCharset bytes lenght is:9

如果你的程序依赖于该结果，将在后续操作中引起问题。为什么在一个系统中结果为12，而在另外一个却变成了9了呢？上面已经提到了，该方法是和平台（编码）相关的。

在中文操作系统中，getBytes方法返回的是一个GBK或者GB2312的中文编码的字节数组，其中中文字符，各占两个字节。而在英文平台中，一般的默认编码是“ISO-8859-1”，每个字符都只取一个字节（而不管是否非拉丁字符）。

Java中的编码支持

Java是支持多国编码的，在Java中，字符都是以Unicode进行存储的，比如，“你”字的Unicode编码是“4f60”，我们可以通过下面的实验代码来验证：

class TestCharset {
public static void main(String[] args) {
char c = '你';
int i = c;
System.out.println(c);
System.out.println(i);
}
}

不管你在任何平台上执行，都会有相同的输出：

20320

20320就是Unicode “4f60”的整数值。其实，你可以反编译上面的类，可以发现在生成的.class文件中字符“你”（或者其它任何中文字串）本身就是以Unicode编码进行存储的：

1 2 下一页

上一篇：sed 修改文件内容 下一篇：同一个java工程打两个不同的包

透彻java StringgetBytes编码问题 (1/2)

相关图片

相关文章