汉字编码转换工具——PUACleaner开源项目与开放原子开源基金会签约

文章来源:  |  发布时间:2023-06-16  |  【打印】 【关闭

  

  611日,在2023开放原子全球开源峰会上,中国科学院软件研究所与中国电子技术标准化研究院合作研发的PUACleaner汉字编码转换工具与开放原子开源基金会签约。 

  据介绍,目前最新国际编码字符集标准ISO/IEC 10646收录的汉字近10万,但信息系统中能够实现完全无障碍处理的汉字数量只有2万多,大量的汉字无法正确输入、显示、存储、交换、打印,从而衍生出“生僻字”问题。涉及生僻字的数据在处理时面临障碍,会影响公共服务和社会生活。特别是对于姓名中包含生僻字的人,在涉及实名制的场景下,如办理银行卡、社保卡、房产证以及乘坐公共交通出行等方面都带来诸多不便。 

  为解决上述问题,PUACleaner以实现“书同文,字同码”为目标,清理全国各地目前在用的PUA(用户自定义区)字,统一转换为国际标准ISO/IEC 10646和强制性国家标准GB 18030中的正式码,从而为实现人名、地名等重要数据的互联互通、顺畅交换、顺畅比对提供基础支撑,便利公共服务和社会生活。 

  2023开放原子全球开源峰会上,PUACleaner开源项目面向政务服务和公共服务行业重点用户进行了主题路演和展台展示。 

  中国科学院软件研究所时空数据管理与数据科学研究中心在汉字信息处理方面有多年的技术积累,曾为新闻出版重大科技工程项目“中华字库”工程解决了100万量级字符的基础应用支撑问题,参与了强制性国家标准GB18030-2022《信息技术中文编码字符集》和金融行业标准JR/T0253-2022《金融服务 生僻字处理指南》编制。此外,软件所联合相关单位研发了“卓码生僻字解决方案”,可提供涉及生僻字处理的输入法、字库以及涉及业务系统升级改造相关的软件组件,可解决Windows、国产信创LinuxWeb应用、移动终端等场景中使用生僻字的问题。

中国科学院软件研究所刘汇丹做路演报告