华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 13915|回复: 19

GBK字符集全部汉字及拼音

[复制链接]
发表于 2007-11-25 18:57:24 | 显示全部楼层 |阅读模式
  下午为了制作趁手的固顶字自定义方案,特将系统中的全拼输入法字词编码方案导出为文本文件。该文本文件既可查看全拼输入法的GBK字符集内的27855个汉字(包括同音同形字、多音字),也可作为固顶字自定义方案制作底本。

[ 本帖最后由 sanwsw 于 2007-11-25 18:59 编辑 ]

全拼输入法汉字编码WINPY.rar

85.04 KB, 下载次数: 3647

全拼输入法汉字编码WINPY.txt

GBK 27855.rar

46.57 KB, 下载次数: 2921

GBK全部汉字.txt

发表于 2007-11-30 13:54:43 | 显示全部楼层
下星期俺把俺的单字读音资料也发上来,包括了《快速识别多音字》和《快速识别形似字》的资料,也包括了俺整理的《现汉》单字、《崇文版成语》、《沪辞版成语》中的单字读音资料。GBK范围内单字的读音计有3万多。
 楼主| 发表于 2007-11-30 16:20:56 | 显示全部楼层
原帖由 xml00 于 2007-11-30 13:54 发表
下星期俺把俺的单字读音资料也发上来,包括了《快速识别多音字》和《快速识别形似字》的资料,也包括了俺整理的《现汉》单字、《崇文版成语》、《沪辞版成语》中的单字读音资料。GBK范围内单字的读音计有3万多。


太好了!另《快速识别多音字》一书中的目录是不是老徐您的亲手操制的?该书一个字,棒!你的大名也名扬全国了。

[ 本帖最后由 sanwsw 于 2009-9-7 13:55 编辑 ]
发表于 2007-11-30 16:59:36 | 显示全部楼层
原帖由 sanwsw 于 2007-11-30 16:20 发表


太好了!另《快速识别多音字》一书中的目录是不是老徐您的亲手操制的?该书一个字,榜!你的大名也名扬全国了。



这事儿凑巧了。当时俺刚把《现汉》的单字拼音弄出来,正愁多音字资料欠缺呢,恰好五笔论坛的wozy先生转载了于振报在天涯“关天茶舍”发布的《快速识别多音字》资料,俺用俺那一点儿可怜的资料去校对于先生的资料,一下子就把他糊弄住了。

当时俺也在二笔论坛跟着AhMan学了一点儿Excel的三脚猫功夫,于先生就让俺校对他的索引目录,俺替他排了序,也发现了几个错误,他就把俺的名字挂上了。哈哈,于先生是老实人,好骗啊!
 楼主| 发表于 2007-11-30 19:34:04 | 显示全部楼层
  今晚到文化中国-中文信息化论坛看到有个GBK全部汉字笔顺的帖子,内有下载链接。从内容看,这份资料是孙海峰博士的团队搞的,AhMan也参加校正。不知紫光华宇拼音输入法开发组有没有看到这份资料,不知该资料对查验紫光V6现有笔顺有无错误是否有帮助。
  下载地址:http://culchina.net/Etext/GBK/Stroke.txt
发表于 2007-11-30 21:43:37 | 显示全部楼层
向无私奉献的、辛勤工作的人们致敬!
相信紫光会越来越好
发表于 2007-12-3 08:37:25 | 显示全部楼层
原帖由 sanwsw 于 2007-11-30 19:34 发表
  今晚到文化中国-中文信息化论坛看到有个GBK全部汉字笔顺的帖子,内有下载链接。从内容看,这份资料是孙海峰博士的团队搞的,AhMan也参加校正。不知紫光华宇拼音输入法开发组有没有看到这份资料,不知该资料对查验 ...


文化中国上的资料要老一些,下面的链接是新的:
http://www.pkucn.com/viewthread.php?tid=205166&extra=page%3D1&page=2
这是我们在加加论坛上共同校对的结果,整理后放在北大论坛上(我的和AhMan的略有差别)。
 楼主| 发表于 2007-12-3 12:38:25 | 显示全部楼层
希望开发组专家能看到xml00的这个帖子。
发表于 2007-12-11 16:23:13 | 显示全部楼层
GBK拼音字表32026字。

说明
这里主要说明一下本资料的相关来源。
①《现汉》2005版,单字14282个,是俺手工录入的,校对过多次,资料可靠。
②《快速识别多音字》,5147字,是我校对的,资料可靠。
③《中华成语全典》(崇文出版社),《精编成语辞典》(上海辞书出版社),5032字,粗校。
④《快速识别形似字》,1115字,精校。
⑤《汉语大字典》,手工查询375字。
⑥GBK字序拼音,21015字,精校,资料可靠。
以上资料都是带调拼音资料。
无调拼音的资料来源:
①从不同来源搜罗而来,一般较可靠。有不少错误很多的资料一律不加入。
③ffffccc在紫光论坛发布的资料。单字26823字,有1529字和我的资料不重复,加在后面。
对比
微软全拼的字音总共27954个(接近28000),是较全的。
本资料字音32026个,多出4000余个。
简体字的字频资料:主要参考了北京语言大学的资料。
繁体字的字频资料:主要参考了香港中文大学的资料。
多音字的字音频率比例计算:是根据几个可靠的词库计算的。
徐孟罗
2007年12月11日

[ 本帖最后由 xml00 于 2007-12-11 16:27 编辑 ]

GBK拼音字表32026.part01.rar

250 KB, 下载次数: 2294

GBK拼音字表32026.part02.rar

235.89 KB, 下载次数: 2195

发表于 2007-12-11 18:04:40 | 显示全部楼层
这个帖子太有价值了,一定相加参考,甚至以此为准;笔顺的资料,早已从北大中文论坛得到过。
感谢徐老师,也感谢AhMan,同时感谢老戴。
 楼主| 发表于 2007-12-11 19:51:42 | 显示全部楼层
得徐先生慨赠,实是本坛之喜。下载收储,也望开发组参考借用,在新版中开发出更加完美的拼音输入法。

[ 本帖最后由 sanwsw 于 2007-12-11 19:55 编辑 ]
发表于 2008-1-5 09:44:02 | 显示全部楼层
沙发!传说中的吧?虽然不用,还是要支持一下的
发表于 2008-1-8 19:59:46 | 显示全部楼层
呵呵~~我新人,来这看看,~~~顶顶!
发表于 2008-1-18 12:45:49 | 显示全部楼层
要支持一下的,下载来试试
发表于 2008-1-21 01:28:22 | 显示全部楼层
好东西,不能错过。谢谢。
发表于 2020-9-23 21:28:57 | 显示全部楼层
本帖最后由 liugongaoo 于 2020-9-23 21:51 编辑

文件中在国标一级字库中遗漏1个字:粗

快照4.jpg

文件中在国标一级字库中遗漏1个字:粗
快照6.jpg

因为发现不同的编码居然对应“相同”的汉字(如"凉"在国标一级字库中编码是C1B9,而编码FD9D的汉字居然与C1B9的汉字一模一样,见下图,),所以不敢贸然下结论,故验证特意写了个小工具(第1图)。




快照7.jpg
发表于 2020-9-23 21:51:00 | 显示全部楼层
本帖最后由 liugongaoo 于 2020-9-23 22:15 编辑

有好几个字的拼音写错了,我在百度搜索比对过。比如下面几个:

快照8.jpg
快照9.jpg

快照10.jpg




==============================================================
快照11.jpg


快照12.jpg


快照13.jpg




==============================================================

快照14.jpg

快照15.jpg

快照16.jpg


发表于 2020-9-23 23:33:06 | 显示全部楼层
本帖最后由 liugongaoo 于 2020-9-23 23:58 编辑

粗略检查了一遍,发现至少有140处拼音可能是错误的:
0001. 鶑  uu         F98F
0002. 虍  pianpang   F2AE
0003. 疒  pianpang   F0DA
0004. 钅  pianpang   EEC4
0005. 肀  pianpang   EDB1
0006. 鞰  on         ED4D
0007. 灬  pianpang   ECE1
0008. 霻  uu         EC54
0009. 闧  uu         EA5B
0010. 閪  seo        E97E
0011. 瑁  q          E8A3
0012. 鐢  uu         E794
0013. 鎼  uu         E690
0014. 屮  pianpang   E5F8
0015. 彐  pianpang   E5E6
0016. 辶  pianpang   E5C1
0017. 宀  pianpang   E5B2
0018. 鍂  uu         E577
0019. 銰  ngai       E447
0020. 鈪  ngag       E285
0021. 哏  n          DFE7
0022.廾  pianpang    DEC3
0023. 辪  uu         DE6D
0024. 艹  pianpang   DCB3
0025. 躼  uu         DC78
0026. 踎  meo        DB5F
0027. 阝  pianpang   DAE2
0028. 卩  pianpang   DAE0
0029. 冖  pianpang   DAA2
0030. 贘  uu         DA4A
0031. 冫  pianpang   D9FB
0032. 勹  pianpang   D9E8
0033. 冂  pianpang   D8E7
0034. 刂  pianpang   D8D6
0035. 匚  pianpang   D8CE
0036. 丨  pianpang   D8AD
0037. 覅  fiao       D285
0038. 襨  tae        D26B
0039. 裇  sed        D153
0040.袰  uu          D143
0041. 螦  so         CF41
0042. 蝊  uu         CE5F
0043. 虲  uu         CD43
0044. 虄  sal        CC83
0045. 藔  uu         CB80
0046. 蓞  uu         C985
0047. 蒊  uu         C949
0048. 萡  be         C860
0049. 莻  neus       C782
0050. 茒  uu         C68A
0051. 艍  keo        C589
0052. 艈  uu         C586
0053. 膸  wie        C48E
0054. 膶  yen        C48C
0055. 聣  uu         C289
0056. 聓  sei        C27B
0057. 聁  uu         C271
0058. 耂  uu         C253
0059. 罖  ra         C140
0060. 縇  seon       BF4C
0061. 穒  kweok      B769
0062. 稥  uu         B745
0063. 祍  uu         B573
0064. 磗  pak        B473
0065. 硸  nue        B396
0066. 皼  uu         B09B
0067.癷  uu          B069
0068. 畓  tap        AE7A
0069. 甅  liwa       AE4D
0070. 瓼  liwa       AE46
0071. 瓱  miliklanm  AD9F
0072. 瓰  fenwa      AD9E
0073. 瓩  qianwa     AD99
0074. 瓧  shiwa      AD97
0075. 獤  ton        AA96
0076. 猤  fui        AA67
0077. 燶  nung       A05C
0078. 燞  uu         A048
0079. 焾  nem        9F88
0080. 焽  uu         9F87
0081. 焑  uu         9F65
0082. 烪  uu         9F48
0083. 洜  uu         9BA0
0084. 毮  uu         9AC4
0085. 毝  uu         9AB6
0086. 毜  uu         9AB5
0087. 歚  uu         9A60
0088. 欍  jou        99E3
0089. 櫷  kwi        99CD
0090. 椧  myeong     97D2
0091. 桛  uu         96FE
0092. 朰  teul       9659
0093. 朩  teun       9657
0094.朑  uu          9647
0095. 曱  zad        95F5
0096. 曢  uu         95E9
0097. 旕  eos        94F1
0098. 旀  myeo       94E6
0099. 斏  uu         94C9
0100. 揼  dem        9367
0101. 怾  ki         905D
0102. 徚  uu         8FC1
0103. 廤  kos        8F57
0104. 巪  keo        8E7C
0105. 岃  yen        8CE8
0106. 屗  uu         8CCB
0107. 夻  hwa        89FE
0108. 夞  oes        89F1
0109. 垈  tae        8882
0110. 囖  lo         87DE
0111. 囕  ram        87DD
0112.囍  heui        87D6
0113. 嚸  dim        87C3
0114. 嗰  go         86F1
0115. 喼  gib        86D6
0116. 喐  yug        86B8
0117. 啹  geu        86AF
0118. 啱  ngam       86AB
0119. 唨  zo         8680
0120. 唟  keos       867B
0121. 唞  teo        867A
0122. 唜  mas        8678
0123. 咹  n          8648
0124. 叾  dug        85B6
0125. 厼  keum       859E
0126. 匁  mangmi     84F5
0127. 仒  eo         8198
0128. 亽  ra         8192
0129. 乻  eol        8173
0130. 乺  sol        8172
0131. 乯  ol         816A
0132. 乮  mol        8169
0133. 乭  tol        8168
0134. 乬  keol       8167
0135. 乫  kal        8166
0136. 乧  dul        8163
0137. 乥  hol        8162
0138. 乤  hal        8161
0139.乊  ho          8159
0140. 丆  myeon      8143

发表于 2020-9-24 10:13:42 | 显示全部楼层
楼上的厉害!佩服!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2021-2-26 11:55

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表