亂碼,漢字圈電腦用戶難免遭遇的問題。今日又串《內核恐慌》,亂談亂碼。
本期 123 分鐘,我們着眼漢字,回望字符集發展簡史,一覽常見遺留編碼,笑看端序內戰風雲,攜手擁抱 Unicode。
參考鏈接
- 「紐倫堡內麥塔狐」,典出《字談字暢》第二十三期
- 曲(qū/qǔ),麯 / 麴 (qū)
- 區位碼的「區位」即「row-cell」,日語稱「區點」
- Ten key
- 算術基本定理
- 各國讀寫電話號碼的習慣;另有 ITU-T 起草的推薦規範 E.123,包含國際電話號碼的註記格式
- 電話編號規劃
- TeX 指令通常以反斜杠()開頭
- 各書寫系統中的引號
- 「亂碼」在幾種外語里的表述:
- 文字化け(日語)
- Mojibake(英語,音譯自日語)
- Zeichensalat(德語,直譯即「符號沙拉」)
- Emoji(音譯自日語「絵文字」)
- ASCII(美國信息交換標準代碼)
- JIS X 0201,七位及八位信息交換用編碼字符集;前身為制定於 1969 年的 JIS C 6220,是日本最早的編碼字符集規範
- JIS X 0208,七位及八位雙字節信息交換用漢字編碼字符集
- 언문(諺文) / 한글(韓字) / 조선글(朝鮮字),英語通稱 Hangul
- 半角片假名
- 編碼,《內核恐慌》第十八期
- GB 2312,信息交換用漢字編碼字符集·基本集
- GBK,漢字內碼擴展規範;Windows 系統的代碼頁 CP936 是它的一個實現
- GB 18030,信息技術——中文編碼字符集
- GB 12345,信息交換用漢字編碼字符集·輔助集
- 單射
- 「干 / 乾」這對字具有「一繁對多簡」和「一簡對多繁」的雙重屬性
- 新加坡漢字 / 新馬簡體
- Big5(大五碼),港澳台較常用的編碼及字符集標準
- Code page(代碼頁)
- Unicode
- Unicode BMP(Basic Multilingual Plane,基本多語言平面),GB 13000.1 與 Unicode BMP 的相關標準基本等同
- Unicode 定義的 script
- 中日韓統一表意符號(CJK Unified Ideographs)
- 芸(U+82B8),同時為中文「蕓」、日文「藝」的簡化字
- KS X 1001,韓國編碼字符集標準,前身為 KS C 5601;對同形異音的漢字進行重複編碼
- 日本的「中國地方」
- 「支那」源自梵文 चीन (cīna)
- Ken Lunde. CJKV Information Processing, 2nd Edition. O'Reilly Media, 2008
- 當下 Unicode 最常用的三種編碼格式:
- Rio 撰於 2012 年的 Unicode 編碼相關知識的筆記
- Surrogate pair,用於 UTF-16,藉以擴展編碼範圍
- Endianness(端序),該術語典出《格列佛遊記》小人國內的兩個教派
- BOM(byte order mark,字節順序標記),對應的字符是 U+FEFF (Zero Width No-break Space)
- ? (U+1F574, Man in Business Suit Levitating)
主播
- Rio:IPN 聯合創始人,Apple4us 程序員,《IT 公論》《瘋投圈》及《內核恐慌》主播
- 吳濤:Type is Beautiful 程序員,《內核恐慌》主播
- Eric:字體排印研究者,譯者,Type is Beautiful 編輯
- 蒸魚:設計師,Type is Beautiful 編輯
《內核恐慌》(Kernel Panic)是由 IPN 出品、吳濤和 Rio 做的播客,首播於 2014 年 10 月。號稱硬核,可也沒什麼乾貨。想聽的人聽,不想聽的人就別聽。
歡迎與我們交流或反饋,來信請致 [email protected]。如果你喜愛本期節目,也歡迎用 PayPal 或支付寶向我們捐贈,賬戶與聯絡信箱一致:[email protected]。