华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 543|回复: 29

超大字符集汉字笔画码(二校,49293字,CJKa+b)

[复制链接]
发表于 2016-11-8 10:03:53 | 显示全部楼层 |阅读模式
本帖最后由 xml00 于 2016-12-7 18:13 编辑

2007年,我在北大中文论坛发布第一次修订稿。9年后的今天,发布第二次修订稿。
这是根据今年海峰新发布的字体文件修订的,改动幅度颇大。
另附有22对基本相同的字,可能还需要字体文件的订正。
今天(16.12.07),上传大字集CJKc+d+e笔画码,这可能是网上第一份。

如下是当年那个帖子的链接:
http://www.pkucn.com/thread-205166-1-1.html


大字集笔画16.11.07.rar

963.6 KB, 下载次数: 115

大字集CJKcde16.12.07.rar

313.84 KB, 下载次数: 86

 楼主| 发表于 2016-11-9 10:35:06 | 显示全部楼层
下载文件后,解压为Excel格式文件。
请在第一列后插入一列,复制第一列文字。
将第一列设置为海峰的字体文件。
将第二列设置为宋体。
第三列中的A表示海峰字体的字,和宋体显示的不同,有6100余字(实际上数目更多,比如八字的旧字形,有不少我没列入)。
两列笔画数据分别对应两种字体文件。这样便于查询。
可利用筛选功能,只输入部分笔画数据,用“包含”、“始于”、“止于”等查询条件,也可快速找字。
发表于 2016-11-23 12:15:35 | 显示全部楼层
谢谢楼主分享
可惜华宇从机制上不支持笔画辅助。
 楼主| 发表于 2016-12-1 17:48:26 | 显示全部楼层
krsun 发表于 2016-11-23 12:15
谢谢楼主分享
可惜华宇从机制上不支持笔画辅助。

目前也只有加加能支持笔画等辅助码。
 楼主| 发表于 2016-12-7 18:06:17 | 显示全部楼层
本帖最后由 xml00 于 2016-12-7 18:15 编辑

CJKc+d+e的笔画码,新鲜出炉。顶楼第二份资料便是。
这是网上第一份CJKc+d+e笔画码资料。
有捉到虫子的朋友,请在此说明。谢谢。
 楼主| 发表于 2016-12-7 18:15:56 | 显示全部楼层
北大中文论坛,这两天挂了?咋回事?
发表于 2016-12-27 09:36:08 | 显示全部楼层
徐先生持续用于汉字信息化,难得!
 楼主| 发表于 2016-12-28 10:31:51 | 显示全部楼层
sanwsw 发表于 2016-12-27 09:36
徐先生持续用于汉字信息化,难得!

谢谢sanwsw先生。本来打算编制余下的6万字的四角号码,现在不知道是否还有必要了。

点评

不知徐先生有无CJK-ExtE的笔顺编码?  发表于 2016-12-29 20:52
发表于 2016-12-29 20:51:28 | 显示全部楼层
北大中文论坛的中文信息化子坛,已经死了,死气沉沉。老用户进不去了。
 楼主| 发表于 2016-12-30 20:19:07 | 显示全部楼层
本帖最后由 xml00 于 2016-12-30 20:24 编辑

sanwsw
不知徐先生有无CJK-ExtE的笔顺编码?  发表于 昨天 20:52
===========================
我对CJK-ExtE的概念不是很清楚,估计顶楼第二个文件中包含这些内容。
这是根据海峰2016年发表的新字体文件编制的。总字数约9万。
第二部分汉字,Excel2003似乎不能索引。
你可以贴几个字的图片让我看看,是否包含CJK-ExtE。
发表于 2017-2-1 10:32:43 | 显示全部楼层
徐先生,下载了你的第二个笔画文件,发现个大问题:
许多汉字无法显示,北大论坛上,公布的海峰字体一直是6.0版本,没有更新,只能显示到扩展集D的汉字,哪里有能显示包括扩展集E和F的汉字?
 楼主| 发表于 2017-2-5 08:51:33 | 显示全部楼层
jarenwen 发表于 2017-2-1 10:32
徐先生,下载了你的第二个笔画文件,发现个大问题:
许多汉字无法显示,北大论坛上,公布的海峰字体一直是 ...

海峰的字体文件也同时更新了。看了下:

Sun-ExtA.ttf,2015.9.25,21.9M
Sun-ExtB.ttf,2016.1.6,22.6M

 楼主| 发表于 2017-2-5 08:54:44 | 显示全部楼层
这两份笔画数据,在2017年仍会更新,具体时间无法确定。
 楼主| 发表于 2017-2-5 09:26:07 | 显示全部楼层
krsun 发表于 2016-11-23 12:15
谢谢楼主分享
可惜华宇从机制上不支持笔画辅助。

紫光华宇要想实现辅助码,恐怕要改动词库结构了。就是:
字:拼音
即字在前,拼音在后。
拼音+辅助码,其实质,类似于Excel的双列检索。
挂接辅助码后,程序要自动给字、词添加辅助码,并形成索引文件,其结构如图所示。 拼音辅助码的索引文件格式.PNG
发表于 2017-2-5 16:50:40 | 显示全部楼层
xml00 发表于 2017-2-5 08:51
海峰的字体文件也同时更新了。看了下:

Sun-ExtA.ttf,2015.9.25,21.9M

哪里有更新的海风字体文件下载?北大论坛那个链接失效了。

点评

我原先是在五笔爱好者论坛下载的,现在好像论坛挂了!这里上传,文件的最大容量是多少?  发表于 2017-2-5 19:57
发表于 2017-2-5 20:13:16 | 显示全部楼层
这里文件最大为1MB,要上传可能要分割为几个文件。
发表于 2017-2-5 22:43:04 | 显示全部楼层
本帖最后由 jarenwen 于 2017-2-5 22:56 编辑

今晚仔细核对了一下徐先生的文件,发现扩展f部分的汉字,比Unicode实际公布的汉字少了101个字,而且编码也有很大的错误。估计是海峰字体采用了未定型的扩展f。
希望徐先生把更新的海峰字体文件发我邮箱jarenwen@126.com,以便检查错误。
少了的扩展f的编码为:
截图未命名.jpg

点评

刚发出,请查收。谢谢补充这些字。  发表于 2017-2-6 15:17
 楼主| 发表于 2017-2-6 15:27:31 | 显示全部楼层
jarenwen 发表于 2017-2-5 22:43
今晚仔细核对了一下徐先生的文件,发现扩展f部分的汉字,比Unicode实际公布的汉字少了101个字,而且编码也 ...

随手检查了几个字,这些字基本都有的,但略有不同。
齒欠
齒斗
齒石
齒向
……
黑立
黑咅
黑官
这三个后半起笔都是点,不是竖。
 楼主| 发表于 2017-2-6 15:53:05 | 显示全部楼层
jarenwen 发表于 2017-2-5 22:43
今晚仔细核对了一下徐先生的文件,发现扩展f部分的汉字,比Unicode实际公布的汉字少了101个字,而且编码也 ...

早先的海峰字体大约7万字,现在增加的字共18900个。一些传统部首的字型变化相当大,有的有4-5个变形,很头疼。我纯粹按字形本身给出笔画数据。
jarenwen先生若手头有定型的字体,发现异常时,请用大号字图片上传,我直接根据你的资料修改。

1个月前甚至发现GBK也有少量问题:
(第二部件数码1112,可能是丰,或数码错)
(第三部件中的十、十或为艹,数码122)
(第四部件不是夂,应是攵)
发表于 2017-2-6 21:29:19 | 显示全部楼层
xml00 发表于 2017-2-6 15:53
早先的海峰字体大约7万字,现在增加的字共18900个。一些传统部首的字型变化相当大,有的有4-5个变形,很 ...

你的这三个字,在我这里显示是正确的。因为我安装的字体不同。
截图未命名.jpg

点评

安装了你所提供的字体后,今天打开论坛,都显示正确了。  发表于 2017-2-7 12:48
发表于 2017-2-6 21:32:38 | 显示全部楼层
徐先生,下载安装了你提供的更新的海峰字体,再次下载你的笔画资料,打开发现CJK_f字显示还是错误的,而且还丢失了101字。
我把信息用邮件反馈给你了。请你重新修改汉字的笔画。

点评

谢谢,资料已收到。CJK-f的内码完全对不上。大约8000余字,问题不大。修订时间不会太长。  发表于 2017-2-7 12:47
发表于 2017-2-7 11:38:13 | 显示全部楼层
xml00 发表于 2017-2-5 09:26
紫光华宇要想实现辅助码,恐怕要改动词库结构了。就是:
字:拼音
即字在前,拼音在后。

单字使用辅助码我理解,词使用辅助码以前还真没想过。
我觉得辅助码仅需要定义单字的,然后自定义出使用辅助码的时机和方式。
每个字应该都有一个主码和若干辅助码(数量应该可以自由定义),输入法默认应该提供音调和笔画两种。其他的可以由用户自己定义使用。
不过现在输入法大家都凑活用就得了,开发者似乎没有什么更深的向往和动力了。
 楼主| 发表于 2017-2-7 12:44:35 | 显示全部楼层
krsun 发表于 2017-2-7 11:38
单字使用辅助码我理解,词使用辅助码以前还真没想过。
我觉得辅助码仅需要定义单字的,然后自定义出使用 ...

这是2011年加加已经实现的功能,字词均可使用辅助码,并且开放辅助码自定义。
用户只需制作单字形码,挂接后词的辅助码由程序自动生成。
这种辅助码机制,是拼音输入法发展的方向。
用户到最后,都能过渡到音形码方式(更高效),同时还用辅助码查询生字。
 楼主| 发表于 2017-2-7 12:55:37 | 显示全部楼层
krsun 发表于 2017-2-7 11:38
单字使用辅助码我理解,词使用辅助码以前还真没想过。
我觉得辅助码仅需要定义单字的,然后自定义出使用 ...

紫光曾是智能型拼音输入法的领军者,其自动造词、双拼自定义、特殊符号自定义等功能是最稳定的。
现在既然还有人继续开发,就不妨添加辅助码自定义功能(不要搞内置辅助码)。
据我理解,这在程序的实现上并不难。
所以,我特别希望紫光能在这方面下功夫。
发表于 5 天前 | 显示全部楼层
xml先生,能否帮我在北大论坛注个册,把网名和密码发我邮箱?
jarenwen@126.com
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2017-2-27 19:22

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表