乱码,汉字圈电脑用户难免遭遇的问题。今日又串《内核恐慌》,乱谈乱码。
本期 123 分钟,我们着眼汉字,回望字符集发展简史,一览常见遗留编码,笑看端序内战风云,携手拥抱 Unicode。
参考链接
- 「纽伦堡内麦塔狐」,典出《字谈字畅》第二十三期
- 曲(qū/qǔ),麯 / 麴 (qū)
- 区位码的「区位」即「row-cell」,日语称「区点」
- Ten key
- 算术基本定理
- 各国读写电话号码的习惯;另有 ITU-T 起草的推荐规范 E.123,包含国际电话号码的注记格式
- 电话编号规划
- TeX 指令通常以反斜杠()开头
- 各书写系统中的引号
- 「乱码」在几种外语里的表述:
- 文字化け(日语)
- Mojibake(英语,音译自日语)
- Zeichensalat(德语,直译即「符号沙拉」)
- Emoji(音译自日语「絵文字」)
- ASCII(美国信息交换标准代码)
- JIS X 0201,七位及八位信息交换用编码字符集;前身为制定于 1969 年的 JIS C 6220,是日本最早的编码字符集规范
- JIS X 0208,七位及八位双字节信息交换用汉字编码字符集
- 언문(諺文) / 한글(韩字) / 조선글(朝鲜字),英语通称 Hangul
- 半角片假名
- 编码,《内核恐慌》第十八期
- GB 2312,信息交换用汉字编码字符集·基本集
- GBK,汉字内码扩展规范;Windows 系统的代码页 CP936 是它的一个实现
- GB 18030,信息技术——中文编码字符集
- GB 12345,信息交换用汉字编码字符集·辅助集
- 单射
- 「干 / 乾」这对字具有「一繁对多简」和「一简对多繁」的双重属性
- 新加坡汉字 / 新马简体
- Big5(大五码),港澳台较常用的编码及字符集标准
- Code page(代码页)
- Unicode
- Unicode BMP(Basic Multilingual Plane,基本多语言平面),GB 13000.1 与 Unicode BMP 的相关标准基本等同
- Unicode 定义的 script
- 中日韩统一表意符号(CJK Unified Ideographs)
- 芸(U+82B8),同时为中文「蕓」、日文「藝」的简化字
- KS X 1001,韩国编码字符集标准,前身为 KS C 5601;对同形异音的汉字进行重复编码
- 日本的「中国地方」
- 「支那」源自梵文 चीन (cīna)
- Ken Lunde. CJKV Information Processing, 2nd Edition. O'Reilly Media, 2008
- 当下 Unicode 最常用的三种编码格式:
- Rio 撰于 2012 年的 Unicode 编码相关知识的笔记
- Surrogate pair,用于 UTF-16,借以扩展编码范围
- Endianness(端序),该术语典出《格列佛游记》小人国内的两个教派
- BOM(byte order mark,字节顺序标记),对应的字符是 U+FEFF (Zero Width No-break Space)
- ? (U+1F574, Man in Business Suit Levitating)
主播
- Rio:IPN 联合创始人,Apple4us 程序员,《IT 公论》《疯投圈》及《内核恐慌》主播
- 吴涛:Type is Beautiful 程序员,《内核恐慌》主播
- Eric:字体排印研究者,译者,Type is Beautiful 编辑
- 蒸鱼:设计师,Type is Beautiful 编辑
《内核恐慌》(Kernel Panic)是由 IPN 出品、吴涛和 Rio 做的播客,首播于 2014 年 10 月。号称硬核,可也没什么干货。想听的人听,不想听的人就别听。
欢迎与我们交流或反馈,来信请致 [email protected]。如果你喜爱本期节目,也欢迎用 PayPal 或支付宝向我们捐赠,账户与联络信箱一致:[email protected]。