华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 1644|回复: 31

超大字符集汉字笔画码(二校,49293字,CJKa+b)

[复制链接]
发表于 2016-11-8 10:03:53 | 显示全部楼层 |阅读模式
本帖最后由 xml00 于 2016-12-7 18:13 编辑

2007年,我在北大中文论坛发布第一次修订稿。9年后的今天,发布第二次修订稿。
这是根据今年海峰新发布的字体文件修订的,改动幅度颇大。
另附有22对基本相同的字,可能还需要字体文件的订正。
今天(16.12.07),上传大字集CJKc+d+e笔画码,这可能是网上第一份。

如下是当年那个帖子的链接:
http://www.pkucn.com/thread-205166-1-1.html


大字集笔画16.11.07.rar

963.6 KB, 下载次数: 1192

大字集CJKcde16.12.07.rar

313.84 KB, 下载次数: 1089

 楼主| 发表于 2016-11-9 10:35:06 | 显示全部楼层
下载文件后,解压为Excel格式文件。
请在第一列后插入一列,复制第一列文字。
将第一列设置为海峰的字体文件。
将第二列设置为宋体。
第三列中的A表示海峰字体的字,和宋体显示的不同,有6100余字(实际上数目更多,比如八字的旧字形,有不少我没列入)。
两列笔画数据分别对应两种字体文件。这样便于查询。
可利用筛选功能,只输入部分笔画数据,用“包含”、“始于”、“止于”等查询条件,也可快速找字。
发表于 2016-11-23 12:15:35 | 显示全部楼层
谢谢楼主分享
可惜华宇从机制上不支持笔画辅助。
 楼主| 发表于 2016-12-1 17:48:26 | 显示全部楼层
krsun 发表于 2016-11-23 12:15
谢谢楼主分享
可惜华宇从机制上不支持笔画辅助。

目前也只有加加能支持笔画等辅助码。
 楼主| 发表于 2016-12-7 18:06:17 | 显示全部楼层
本帖最后由 xml00 于 2016-12-7 18:15 编辑

CJKc+d+e的笔画码,新鲜出炉。顶楼第二份资料便是。
这是网上第一份CJKc+d+e笔画码资料。
有捉到虫子的朋友,请在此说明。谢谢。
 楼主| 发表于 2016-12-7 18:15:56 | 显示全部楼层
北大中文论坛,这两天挂了?咋回事?
发表于 2016-12-27 09:36:08 | 显示全部楼层
本帖最后由 sanwsw 于 2017-3-27 13:27 编辑

徐先生持续用力于汉字信息化,难得!
 楼主| 发表于 2016-12-28 10:31:51 | 显示全部楼层
sanwsw 发表于 2016-12-27 09:36
徐先生持续用于汉字信息化,难得!

谢谢sanwsw先生。本来打算编制余下的6万字的四角号码,现在不知道是否还有必要了。

点评

不知徐先生有无CJK-ExtE的笔顺编码?  发表于 2016-12-29 20:52
发表于 2016-12-29 20:51:28 | 显示全部楼层
北大中文论坛的中文信息化子坛,已经死了,死气沉沉。老用户进不去了。
 楼主| 发表于 2016-12-30 20:19:07 | 显示全部楼层
本帖最后由 xml00 于 2016-12-30 20:24 编辑

sanwsw
不知徐先生有无CJK-ExtE的笔顺编码?  发表于 昨天 20:52
===========================
我对CJK-ExtE的概念不是很清楚,估计顶楼第二个文件中包含这些内容。
这是根据海峰2016年发表的新字体文件编制的。总字数约9万。
第二部分汉字,Excel2003似乎不能索引。
你可以贴几个字的图片让我看看,是否包含CJK-ExtE。
发表于 2017-2-1 10:32:43 | 显示全部楼层
徐先生,下载了你的第二个笔画文件,发现个大问题:
许多汉字无法显示,北大论坛上,公布的海峰字体一直是6.0版本,没有更新,只能显示到扩展集D的汉字,哪里有能显示包括扩展集E和F的汉字?
 楼主| 发表于 2017-2-5 08:51:33 | 显示全部楼层
jarenwen 发表于 2017-2-1 10:32
徐先生,下载了你的第二个笔画文件,发现个大问题:
许多汉字无法显示,北大论坛上,公布的海峰字体一直是 ...

海峰的字体文件也同时更新了。看了下:

Sun-ExtA.ttf,2015.9.25,21.9M
Sun-ExtB.ttf,2016.1.6,22.6M

 楼主| 发表于 2017-2-5 08:54:44 | 显示全部楼层
这两份笔画数据,在2017年仍会更新,具体时间无法确定。
 楼主| 发表于 2017-2-5 09:26:07 | 显示全部楼层
krsun 发表于 2016-11-23 12:15
谢谢楼主分享
可惜华宇从机制上不支持笔画辅助。

紫光华宇要想实现辅助码,恐怕要改动词库结构了。就是:
字:拼音
即字在前,拼音在后。
拼音+辅助码,其实质,类似于Excel的双列检索。
挂接辅助码后,程序要自动给字、词添加辅助码,并形成索引文件,其结构如图所示。 拼音辅助码的索引文件格式.PNG
发表于 2017-2-5 16:50:40 | 显示全部楼层
xml00 发表于 2017-2-5 08:51
海峰的字体文件也同时更新了。看了下:

Sun-ExtA.ttf,2015.9.25,21.9M

哪里有更新的海风字体文件下载?北大论坛那个链接失效了。

点评

我原先是在五笔爱好者论坛下载的,现在好像论坛挂了!这里上传,文件的最大容量是多少?  发表于 2017-2-5 19:57
发表于 2017-2-5 20:13:16 | 显示全部楼层
这里文件最大为1MB,要上传可能要分割为几个文件。
发表于 2017-2-5 22:43:04 | 显示全部楼层
本帖最后由 jarenwen 于 2017-2-5 22:56 编辑

今晚仔细核对了一下徐先生的文件,发现扩展f部分的汉字,比Unicode实际公布的汉字少了101个字,而且编码也有很大的错误。估计是海峰字体采用了未定型的扩展f。
希望徐先生把更新的海峰字体文件发我邮箱jarenwen@126.com,以便检查错误。
少了的扩展f的编码为:
截图未命名.jpg
 楼主| 发表于 2017-2-6 15:27:31 | 显示全部楼层
jarenwen 发表于 2017-2-5 22:43
今晚仔细核对了一下徐先生的文件,发现扩展f部分的汉字,比Unicode实际公布的汉字少了101个字,而且编码也 ...

随手检查了几个字,这些字基本都有的,但略有不同。
齒欠
齒斗
齒石
齒向
……
黑立
黑咅
黑官
这三个后半起笔都是点,不是竖。
 楼主| 发表于 2017-2-6 15:53:05 | 显示全部楼层
jarenwen 发表于 2017-2-5 22:43
今晚仔细核对了一下徐先生的文件,发现扩展f部分的汉字,比Unicode实际公布的汉字少了101个字,而且编码也 ...

早先的海峰字体大约7万字,现在增加的字共18900个。一些传统部首的字型变化相当大,有的有4-5个变形,很头疼。我纯粹按字形本身给出笔画数据。
jarenwen先生若手头有定型的字体,发现异常时,请用大号字图片上传,我直接根据你的资料修改。

1个月前甚至发现GBK也有少量问题:
(第二部件数码1112,可能是丰,或数码错)
(第三部件中的十、十或为艹,数码122)
(第四部件不是夂,应是攵)
发表于 2017-2-6 21:29:19 | 显示全部楼层
xml00 发表于 2017-2-6 15:53
早先的海峰字体大约7万字,现在增加的字共18900个。一些传统部首的字型变化相当大,有的有4-5个变形,很 ...

你的这三个字,在我这里显示是正确的。因为我安装的字体不同。
截图未命名.jpg

点评

安装了你所提供的字体后,今天打开论坛,都显示正确了。  发表于 2017-2-7 12:48
发表于 2017-2-6 21:32:38 | 显示全部楼层
徐先生,下载安装了你提供的更新的海峰字体,再次下载你的笔画资料,打开发现CJK_f字显示还是错误的,而且还丢失了101字。
我把信息用邮件反馈给你了。请你重新修改汉字的笔画。

点评

谢谢,资料已收到。CJK-f的内码完全对不上。大约8000余字,问题不大。修订时间不会太长。  发表于 2017-2-7 12:47
发表于 2017-2-7 11:38:13 | 显示全部楼层
xml00 发表于 2017-2-5 09:26
紫光华宇要想实现辅助码,恐怕要改动词库结构了。就是:
字:拼音
即字在前,拼音在后。

单字使用辅助码我理解,词使用辅助码以前还真没想过。
我觉得辅助码仅需要定义单字的,然后自定义出使用辅助码的时机和方式。
每个字应该都有一个主码和若干辅助码(数量应该可以自由定义),输入法默认应该提供音调和笔画两种。其他的可以由用户自己定义使用。
不过现在输入法大家都凑活用就得了,开发者似乎没有什么更深的向往和动力了。
 楼主| 发表于 2017-2-7 12:44:35 | 显示全部楼层
krsun 发表于 2017-2-7 11:38
单字使用辅助码我理解,词使用辅助码以前还真没想过。
我觉得辅助码仅需要定义单字的,然后自定义出使用 ...

这是2011年加加已经实现的功能,字词均可使用辅助码,并且开放辅助码自定义。
用户只需制作单字形码,挂接后词的辅助码由程序自动生成。
这种辅助码机制,是拼音输入法发展的方向。
用户到最后,都能过渡到音形码方式(更高效),同时还用辅助码查询生字。
 楼主| 发表于 2017-2-7 12:55:37 | 显示全部楼层
krsun 发表于 2017-2-7 11:38
单字使用辅助码我理解,词使用辅助码以前还真没想过。
我觉得辅助码仅需要定义单字的,然后自定义出使用 ...

紫光曾是智能型拼音输入法的领军者,其自动造词、双拼自定义、特殊符号自定义等功能是最稳定的。
现在既然还有人继续开发,就不妨添加辅助码自定义功能(不要搞内置辅助码)。
据我理解,这在程序的实现上并不难。
所以,我特别希望紫光能在这方面下功夫。
发表于 2017-2-22 02:39:38 | 显示全部楼层
xml先生,能否帮我在北大论坛注个册,把网名和密码发我邮箱?
jarenwen@126.com
发表于 2017-3-17 10:06:21 | 显示全部楼层
本帖最后由 sanwsw 于 2017-3-17 10:07 编辑

  多个地方提及孙海峰在2016更新了国际标准超大字符集字体,但一直没找到。得谢振斌先生帮助,拿到Windows系统自带中文字体SimSun-ExtB的修补版。该修补版收录Unicode CJK-ExtB、C、D、E。猜测该修补版是热心网友所为。现已不再使用“国际标准超大字符集字体支持包UniFonts6.0”,只修改注册表中字体链接、字体回滚相关项、子项的值,Unicode所收汉字显示问题也能解决。

SimSun-ExtB : [14区块,58233字符]
货币符号 (含 1 字符,共 31 字符)
基本拉丁文 (含 98 字符,共 128 字符)
康熙字典部首 (含 5 字符,共 214 字符)
私用区 (含 806 字符,共 6,400 字符)
杂类技术字符 (含 2 字符,共 255 字符)
中日韩笔划 (含 22 字符,共 36 字符)
中日韩扩展部首 (含 38 字符,共 115 字符)
中日韩统一表意文字 (含 42 字符,共 20,950 字符)
中日韩统一表意文字扩展A区 (含 41 字符,共 6,582 字符)
中日韩统一表意文字扩展B区 (含 42,711 字符,共 42,711 字符)
中日韩统一表意文字扩展C区 (含 4,149 字符,共 4,149 字符)
中日韩统一表意文字扩展D区 (含 222 字符,共 222 字符)
中日韩统一表意文字扩展E区 (含 5,762 字符,共 5,762 字符)
中日韩统一表意文字增补集 (含 542 字符,共 542 字符)



  simsunb[修补版,收录ExtE汉字]下载: simsunb.rar (10.43 MB, 下载次数: 90)
发表于 2017-4-8 10:23:48 | 显示全部楼层
徐老师,您为汉字研究做出了很大的贡献!
下载了你的第二个笔画文件,发现与jarenwen 先生相同的问题,许多汉字无法显示。但网上已无法找到更新的海峰字体文件:
Sun-ExtA.ttf,2015.9.25,21.9M
Sun-ExtB.ttf,2016.1.6,22.6M
    不知您能否提供更新的海峰字体?我的邮箱是jzmyy163@163.com 谢谢!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2017-8-20 17:52

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表