殿上欢,小说改编的网页游戏

最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

通過java實(shí)現(xiàn)過濾中文亂碼

最近在日志數(shù)據(jù)清洗時(shí)遇到中文亂碼，如果只要有非中文字符就將該字符串過濾掉，這種方法雖簡(jiǎn)單但并不可取，因?yàn)楸热缦馲peria?主題、天天四川麻將Ⅱ這樣的字符串也會(huì)被過濾掉。

公司主營(yíng)業(yè)務(wù)：成都做網(wǎng)站、成都網(wǎng)站制作、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)推出奈曼免費(fèi)做網(wǎng)站回饋大家。

1. Unicode編碼

Unicode編碼是一種涵蓋了世界上所有語(yǔ)言、標(biāo)點(diǎn)等字符的編碼方式，簡(jiǎn)單一點(diǎn)說，就是一種通用的世界碼；其編碼范圍：U+0000 .. U+10FFFF。按Unicode硬編碼的區(qū)間進(jìn)行劃分，Unicode編碼被分成若干個(gè)block ( Unicode block)；每一個(gè)Unicode編碼專屬于唯一的Unicode block，Unicode block之間互不重疊。從碼字的本身的屬性出發(fā)，Unicode編碼被分成了若干script ( Unicode script)；比如，與中文相關(guān)的字符、標(biāo)點(diǎn)的scriptHan包括block如下：

CJK Radicals Supplement

Kangxi Radicals

CJK Symbols and Punctuation中的15個(gè)字符

CJK Unified Ideographs Extension A

CJK Unified Ideographs

CJK Compatibility Ideographs

CJK Unified Ideographs Extension B

CJK Unified Ideographs Extension C

CJK Unified Ideographs Extension D

CJK Unified Ideographs Extension E

CJK Compatibility Ideographs Supplement

其中，常見的中文字符在CJK Unified Ideographs block；此外，考慮繁體字及不常見字等，CJK還有A、B、C、D、E五個(gè)extension。Basic Latin block完整地包含了ASCII碼的控制字符、標(biāo)點(diǎn)字符與英文字母字符。

2. Java的字符編碼

JDK完整實(shí)現(xiàn)Unicode的block與script：

Char c = ''
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)
Character.UnicodeScript uc = Character.UnicodeScript.of(c);

Java中的字符char內(nèi)置的編碼方式是UTF-16，當(dāng)char強(qiáng)轉(zhuǎn)成int類型時(shí)，其返回值是unicode編碼值，只有當(dāng)getbyte時(shí)才返回的是utf-8編碼的byte：

String s = "\u00a0";
String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0
import org.apache.commons.codec.binary.Hex;
Hex.encodeHex(s.getBytes()) // --> c2a0

UTF-8是Unicode字符的變長(zhǎng)前綴編碼的一種實(shí)現(xiàn)，二者之間的對(duì)應(yīng)關(guān)系在這里.現(xiàn)在我們回到開篇過濾中文亂碼的問題，有一個(gè)基本解決思路：

去掉各種標(biāo)點(diǎn)字符、控制字符，
計(jì)算剩下字符中非中文字符所占的比例，如果超過閾值，則認(rèn)為該字符串為亂碼串

完整代碼如下：

public class ChineseUtill {
   
   private static boolean isChinese(char c) {
       Character.UnicodeScript sc = Character.UnicodeScript.of(c);
       if (sc == Character.UnicodeScript.HAN) {
           return true;
       }
       return false;
   }
   
   public static boolean isPunctuation(char c) {
       Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
       if (    // punctuation, spacing, and formatting characters
               ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
               // symbols and punctuation in the unified Chinese, Japanese and Korean script
               || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
               // fullwidth character or a halfwidth character
               || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
               // vertical glyph variants for east Asian compatibility
               || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
               // vertical punctuation for compatibility characters with the Chinese Standard GB 18030
               || ub == Character.UnicodeBlock.VERTICAL_FORMS
               // ascii
               || ub == Character.UnicodeBlock.BASIC_LATIN
               ) {
           return true;
       } else {
           return false;
       }
   }
   
   private static Boolean isUserDefined(char c) {
       Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
       if (ub == Character.UnicodeBlock.NUMBER_FORMS
               || ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS
               || ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS
               || c == '\ufeff'
               || c == '\u00a0'
               )
           return true;
       return false;
   }
   
   public static Boolean isMessy(String str)  {
       float chlength = 0;
       float count = 0;
       for(int i = 0; i if(isPunctuation(c) || isUserDefined(c))
               continue;
           else {
               if(!isChinese(c)) {
                   count = count + 1;
               }
               chlength ++;
           }
       }
       float result = count / chlength;
       if(result > 0.3)
           return true;
       return false;
   }
   
}

為了得到更為完整的可接受的字符表，定義isUserDefined方法（具體字符表與日志中的字符有關(guān)系）；加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols這三個(gè)block，以及\u00a0（Non-breaking space）字符與\ufeff（ZERO WIDTH NO-BREAK SPACE）字符。

分享名稱：通過java實(shí)現(xiàn)過濾中文亂碼
網(wǎng)頁(yè)網(wǎng)址：http://m.fisionsoft.com.cn/article/coojsog.html

新聞中心

1. Unicode編碼

2. Java的字符編碼

其他資訊