lizongbo at 618119.com 工作,生活,Android,前端,Linode,Ubuntu,nginx,java,apache,tomcat,Resin,mina,Hessian,XMPP,RPC

2010年12月12日

在java代码中对字符进行繁简体转换和全半角转换

Filed under: Java — 标签:, , , , , , — lizongbo @ 15:58

在java代码中对字符进行繁简体转换和全半角转换

由于java代码本身使用unicode代码表示,因此在java代码内部不需要考虑GB2312,GBK,GB18030,BIG5等字符编码集,
只要定义Unicode字符对应关系,即可实现繁体到简体,简体到繁体,全角到半角,半角到全角的字符转换。
但需要注意的是:
1.繁简体转换时,有些字符不是简单的一一对应关系,因此不能简单的靠字符对应关系进行简繁体转换。
2.从java5.0开始的jdk版本支持Unicode标准为Unicode 4.0.0,在JDK7.0将支持Unicode 6.0.0,而部分简繁体字符已经是Unicode里的增补字符,因此需要支持以代码点方式进行转换。
根据维基百科内容整理后封装的Chars类代码如下:

[code]
package com.lizongbo.common.primitives;

import gnu.trove.map.TIntIntMap;
import gnu.trove.map.hash.TIntIntHashMap;
/**
* 字符处理的工具类,提繁简体,简繁体,全半角,半全角的转换,以及char对象的缓存
* @author lizongbo
*/
public class Chars {
/** 字符对象的缓存 */
private static final Character CharacterCache[] = new Character[Character.MAX_VALUE];
/**
* 繁体转简体的映射表
*
* @see http://zh.wikipedia.org/zh-cn/Wikipedia:Unihan%E7%B9%81%E7%AE%80%E4%BD%93%E5%AF%B9%E7%85%A7%E8%A1%A8/%E7%B9%81%E7%AE%80%E4%B8%80%E4%B8%80%E5%AF%B9%E5%BA%94%E8%A1%A8
*/
private static final TIntIntMap cht2chsMap = new TIntIntHashMap(3096);
/**
* 简体转繁体的映射表
*
* @see http://zh.wikipedia.org/zh-cn/Wikipedia:Unihan%E7%B9%81%E7%AE%80%E4%BD%93%E5%AF%B9%E7%85%A7%E8%A1%A8/%E7%AE%80%E7%B9%81%E4%B8%80%E4%B8%80%E5%AF%B9%E5%BA%94%E8%A1%A8
* */
private static final TIntIntMap chs2chtMap = new TIntIntHashMap(3096);

private static final int[][] getCht2chsArr() {
int[][] cht2chsArr = new int[][] { { 0x042b7, 0x04336 },
{ 0x042d9, 0x0433a }, { 0x0477c, 0x0478d },
{ 0x04c3e, 0x09c83 }, { 0x04c81, 0x09cda },
{ 0x04e1f, 0x04e22 }, { 0x04e26, 0x05e76 },
{ 0x04e7e, 0x05e72 }, { 0x04e82, 0x04e71 },
//省略,参考java源代码文件……
{ 0x27a59, 0x04725 }, { 0x27d73, 0x0478c },
{ 0x282e2, 0x04882 } };
return cht2chsArr;
}

private static final int[][] getChs2chtArr() {
return new int[][] { { 0x0359e, 0x0558e }, { 0x039d1, 0x0649d },
{ 0x039df, 0x064d3 }, { 0x03c6e, 0x06ba8 },
{ 0x04056, 0x0779c }, { 0x041f2, 0x07b74 },
{ 0x04336, 0x042b7 }, { 0x04337, 0x07d2c },
{ 0x04338, 0x07e33 }, { 0x04339, 0x07d45 },
{ 0x0433a, 0x042d9 }, { 0x04341, 0x07e78 },
{ 0x04723, 0x08a22 }, { 0x04725, 0x27a59 },
{ 0x0478c, 0x27d73 }, { 0x0478d, 0x0477c },
//省略,参考java源代码文件……
{ 0x21484, 0x058c8 } };
}

/**
* 根据char值获取缓存的Character对象
*
* @param c
* @return
*/
public static Character getCharacter(char c) {
return CharacterCache[c];
}

static {
initAll();
}

private static void initAll() {
initCharCache();
initChs2ChtMap();
initCht2ChsMap();
}

private static void initCharCache() {
for (int i = 0; i < CharacterCache.length; i++) {
CharacterCache[i] = new Character((char) i);
}
}

private static void initChs2ChtMap() {
int[][] chs2chtArr = getChs2chtArr();
for (int i = 0; i < chs2chtArr.length; i++) {
int[] cm = chs2chtArr[i];
Chars.chs2chtMap.put(cm[0], cm[1]);
}
}

private static void initCht2ChsMap() {
int[][] cht2chsArr = getCht2chsArr();
for (int i = 0; i < cht2chsArr.length; i++) {
int[] cm = cht2chsArr[i];
Chars.cht2chsMap.put(cm[0], cm[1]);
}
}

/**
* 繁体字符转换成简体字符,只处理一一对应关系,不考虑一多对应关系
*
* @param c
* @return
*/
public static char cht2chs(char c) {
return (char) cht2chs((int) c);
}

/**
* 以代码点方式将繁体字符转换成简体字符,例如:U+282e2转换成U+04882,只处理一一对应关系,不考虑一多对应关系
*
* @param codePoint
* @return
*/
public static int cht2chs(int codePoint) {
int r = cht2chsMap.get(codePoint);
return r > 0 ? r : codePoint;
}

/**
* 将简体字符转换成繁体字符,只处理一一对应关系,不考虑一多对应关系
*
* @param c
* @return
*/
public static char chs2cht(char c) {
return (char) chs2cht((int) c);
}

/**
* 以代码点方式将简体字符转换成繁体字符,例如U+21484转换成U+058c8,只处理一一对应关系,不考虑一多对应关系
*
* @param codePoint
* @return
*/
public static int chs2cht(int codePoint) {
int r = chs2chtMap.get(codePoint);
return r > 0 ? r : codePoint;
}

/**
* 全角字符转换为半角字符,不考虑日语和韩文的全角字符
*
* @see http://zh.wikipedia.org/zh-cn/%E5%85%A8%E8%A7%92
*
* @param c
* @return
*/
public static char quan2ban(char c) {
return (char) quan2ban(c);
}

/**
* 以代码点方式将全角字符转换为半角字符,不考虑日语和韩文的全角字符
*
* @param codePoint
* @return
*/
public static int quan2ban(int codePoint) {
if (codePoint >= 0xFF01 && codePoint <= 0xff65) {
return (codePoint – 65248);
}
if (codePoint == 12288) // 全角空格
return 32;
if (codePoint == 12290) // “。”
return 46;
return codePoint;
}

/**
* 将半角字符转换成全角字符,不考虑日语和韩文的半角字符
*
* @param c
* @return
*/
public static char ban2quan(char c) {
return (char) ban2quan(c);
}

/**
* 以代码点方式将全角字符转换为半角字符,不考虑日语和韩文的半角字符
*
* @param codePoint
* @return
*/
public static int ban2quan(int codePoint) {
if (codePoint >= 0xFF01 && codePoint <= 0xff65) {
return (codePoint – 65248);
}
if (codePoint == 32) // 全角空格
return 12288;
if (codePoint == 46) // 全角 “。”
return 12290;
return codePoint;
}

/**
* @param args
*/
public static void main(String[] args) {
int[][] chs2chtArr = getChs2chtArr();
for (int i = 0; i < chs2chtArr.length; i++) {
int[] cm = chs2chtArr[i];
int codePointCht = Chars.chs2cht(cm[0]);
System.out.println(“简体:” + new String(new int[] { cm[0] }, 0, 1)
+ “,:”
+ new String(new int[] { Chars.chs2cht(cm[0]) }, 0, 1)
+ “,codePointCht==” + Integer.toHexString(codePointCht)
+ “,codePointChs==” + Integer.toHexString(cm[0]));
}
int[][] cht2chsArr = getCht2chsArr();
for (int i = 0; i < cht2chsArr.length; i++) {
int[] cm = cht2chsArr[i];
int codePointChs = Chars.cht2chs(cm[0]);
System.out.println(“繁体:” + new String(new int[] { cm[0] }, 0, 1)
+ “,简体:” + new String(new int[] { codePointChs }, 0, 1)
+ “,codePointChs==” + Integer.toHexString(codePointChs)
+ “,codePointCht==” + Integer.toHexString(cm[0]));
}

for (char c = 0xFF01; c <= 0xff65; c++) {
System.out.println(“全角字符:” + c + “,半角字符:” + Chars.quan2ban(c));
}
for (char c = 0x20; c <= 0x7e; c++) {
System.out.println(“半角字符:” + c + “,全角字符:” + Chars.ban2quan(c));
}
}
}

[/code]

相关参考信息:
平台中的增补字符:
http://java.sun.com/developer/technicalArticles/Intl/Supplementary/index_zh_CN.html
维基百科:Unihan繁简体对照表:
http://zh.wikipedia.org/zh-cn/Wikipedia:Unihan%E7%B9%81%E7%AE%80%E4%BD%93%E5%AF%B9%E7%85%A7%E8%A1%A8
Wikipedia:Unihan繁简体对照表/简繁一一对应表:
http://zh.wikipedia.org/zh-cn/Wikipedia:Unihan%E7%B9%81%E7%AE%80%E4%BD%93%E5%AF%B9%E7%85%A7%E8%A1%A8/%E7%AE%80%E7%B9%81%E4%B8%80%E4%B8%80%E5%AF%B9%E5%BA%94%E8%A1%A8
Wikipedia:Unihan繁简体对照表/繁简一一对应表:
http://zh.wikipedia.org/zh-cn/Wikipedia:Unihan%E7%B9%81%E7%AE%80%E4%BD%93%E5%AF%B9%E7%85%A7%E8%A1%A8/%E7%B9%81%E7%AE%80%E4%B8%80%E4%B8%80%E5%AF%B9%E5%BA%94%E8%A1%A8
全角和半角:
http://zh.wikipedia.org/zh-cn/%E5%85%A8%E8%A7%92
JDK7.0特性列表:
http://openjdk.java.net/projects/jdk7/features/#f497
Unicode6.0.0:
http://unicode.org/versions/Unicode6.0.0/
Unicode 半角与全角的字符表:
http://unicode.org/charts/PDF/UFF00.pdf
完整的Chars.java的源代码:
http://mqq.im/docs/java/com/lizongbo/common/primitives/Chars.java

没有评论 »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Powered by WordPress