Google搜尋中文的解決辦法

話說自從Google前陣子把default要搜尋的輸入字串當作UTF-8編碼之後,那些用Firefox/Netscape/MyIE的快速搜尋(就是在位址列打個”q 關鍵字”就可以叫出google幫你搜尋)的人,便出現了哀嚎… 中文字串一打下去,出來的都是亂碼….
不過呢,也不是沒有解決辦法的。很快地,就有人利用指定語系的方式,將搜尋的URL改為:
http://www.google.com/search?q=%s&hl=zh-TW&inlang=zh-TW&ie=big5
這樣一來,就可以指定中big5/zh-TW的方式處理使用者入的字串。於是乎,又沒事了。

喔,既然早就已經有人找出了這個解法,那我還寫這一篇幹嘛?

其實….是當個note,怕以後電腦重灌忘掉 :p

呃,冒著錯過午餐時間的風險(註:好像已經錯過了:~),其實還有下文……

UTF-8在多國語言的環境下,很容易就受到歡迎。寫軟體/服務的人不用花心思去處理每個語系之下的特殊編碼和情況,資料在不同語系編碼的情況也可以無痛地交換…Google不過是找個機會,將「預設」的編碼方式換成一直存在的UTF-8罷了。

不過這種UTF-8化的潮流也不是完全沒有問題的。

首先就是在windows下,IE的UTF-8字型是 Arial Unicode MS (如果我沒記錯的話),裡面的中文實在是….有夠醜。當然,當然,我們可以另外用支援Unicode的華康字型取代,而且基本上在看Big5中文的環境之下,細明體還是可以發揮他一定的效果的。

再來就是UTF-8在一些網路服務上所應用到的問題。現在常見的blog/WebBBS都已經走向UTF-8,因此就算是用不同語系的朋友也可以各自用自己的語言發表討論。而以IM而言(其實我就是要提IM),MS的MSN Messager已經可以正常地使用不同語系討論(尤其是跟使用GB的人….),ICQ跟AIM我不清楚,其他的像Miranda也開始有SR的plugin開始處理這個問題了(雖然我沒有試成功過:p),而Trillian Pro雖然要收錢(Trillian不用),不過他解決得倒是不錯,使用上沒有碰到太大的問題。

不過像Trillian雖然號稱完全使用Unicode,不過好像反而引出了新的問題 🙂

在使用Trillian的IRC功能時,中文的顯示和輸入完全失效,但是英文倒是沒有什麼問題。不止是只有中文,使用非英語系的編碼都會出問題。在討論區中有一些討論,用”IRC Unicode” 當keyword search便可以找到不少資料。

好玩的是,在討論區中,Trillian的作者說明:

Its because IRC is a 8-bit protocol, where as Unicode is 16-bit. Also due to the origin of IRC, most clients expect/require ISO-Latin-1 encodeing. If you need more infomation on the encodeing in IRC, you may want to give RFC 1459 a read

So to all sum it up, IRC won’t allow Hebrew because of the protocol specs

作者的說明真是「直接」啊。這樣一來等於是無視於其他IRC軟體把「標準」放寬通融,使用各自encoding的方式,直接宣告其他encoding的死刑。

雖然也有人提出用UTF-8來解決這個狀況,不過看來作者好像也是興趣缺缺….:p
(不過誠心而論,使用UTF-8的IRC channel可能更少:p)

因此,當要試著用Trillian來取代Miranda時,我必須再額外安裝mIRC(這個也要錢!),這種使用兩個以上的軟體其實已經違背了我的本意,也違背了這類IM的本意。不過目前看來這是一個暫時性的解決方案,等到Miranda或是Trillian哪天先符合我的最大需求,我就會再調整我的使用方式。

喔,多半看到的是自從Trillian Pro收錢之後,跳到Miranda或Gaim的人,怎麼我是往回跳呢?

這又是另一個故事了…….

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

%d 位部落客按了讚: