华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 10790|回复: 41

用数据说话,整句输入空前跃进

[复制链接]
发表于 2008-1-23 11:53:22 | 显示全部楼层 |阅读模式
1.前后耗时一个多月时间,对几种热点拼音输入法整句输入能力进行了海量测试,使用了三种风格的素材,第一是互联网语料随机抽取(万分之一概率)文字,第二是《人民日报》2005年全部文字,第三是金庸全集文字,对三种输入法(共计四种实体)进行了考察,本帖汇报结果,一来是客观评价,二来是想告诉大家,通过科学算法和适量数据分析打造出来的拼音输入法,隐约地可以支持整句输入的习惯了,并且在持续提高。
2.解读下面的汇报结果:
0)“0.最佳”代表目前紫光华宇的最高能力,但它需要较大的数据资料文件支撑(大约80M,用RAR压缩后是46.xM);
1)“1.紫光”代表62xx版本的能力,数据资料文件规模适中(12M左右,压缩在安装包中是6.xM);
2)“2.搜狗”代表搜狗最新版和次新版(之间build号差别不大,估计能力差距也不大)的能力;
3)“3.谷歌”代表谷歌最新版的能力。
3.个人分析或观点:
1)基于科学的方法,准确率仍有可能提高,原来拍脑门大胆设想的85%,还是有望实现的。
2)超越了搜狗和谷歌,让人振奋不已,但是,对之的佩服也实实在在,人家以较小的数据资料文件,能够做到这样的准确率,一定还是有所长的,值得我们认真揣测和学习。
3)严重喜欢准确率的朋友们,可以考虑采用大数据资料文件,毕竟,现在的机器,百十来M的空间,不算什么,个人倾向于此,如何实现,当6.1发布前后,紫光华宇将提供一定的解决方案。

4.数字......
1)

—— www综合统计 —— 86407 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  86407   61938   71.68%  48864   3.16%
1.紫光  86407   56052   64.87%  63802   4.13%
2.搜狗  86407   54112   62.62%  70577   4.57%
3.谷歌  86407   55066   63.73%  67580   4.37%

—— 测试05字词句 —— 11225 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  11225   8277    73.74%  5619    5.01%
1.紫光  11225   7599    67.70%  7046    6.28%
2.搜狗  11225   7733    68.89%  7021    6.25%
3.谷歌  11225   7370    65.66%  7787    6.94%
—— 测试06字词句 —— 12499 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  12499   9554    76.44%  5616    3.74%
1.紫光  12499   8817    70.54%  7200    4.80%
2.搜狗  12499   8765    70.13%  7537    5.03%
3.谷歌  12499   8660    69.29%  7762    5.18%
—— 测试07字词句 —— 10597 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  10597   7719    72.84%  5933    4.00%
1.紫光  10597   7003    66.08%  7661    5.16%
2.搜狗  10597   6903    65.14%  7977    5.38%
3.谷歌  10597   6884    64.96%  8224    5.54%
—— 测试08字词句 —— 9821 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  9821    7154    72.84%  5404    3.44%
1.紫光  9821    6434    65.51%  7176    4.57%
2.搜狗  9821    6300    64.15%  7641    4.86%
3.谷歌  9821    6340    64.56%  7522    4.79%
—— 测试09字词句 —— 8550 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  8550    6140    71.81%  4711    3.06%
1.紫光  8550    5531    64.69%  6250    4.06%
2.搜狗  8550    5345    62.51%  6944    4.51%
3.谷歌  8550    5453    63.78%  6726    4.37%
—— 测试10字词句 —— 7523 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  7523    5317    70.68%  4348    2.89%
1.紫光  7523    4812    63.96%  5655    3.76%
2.搜狗  7523    4597    61.11%  6297    4.19%
3.谷歌  7523    4730    62.87%  5887    3.91%
—— 测试11字词句 —— 6669 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  6669    4616    69.22%  4009    2.73%
1.紫光  6669    4181    62.69%  5250    3.58%
2.搜狗  6669    3905    58.55%  6145    4.19%
3.谷歌  6669    4069    61.01%  5584    3.81%
—— 测试12字词句 —— 5794 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  5794    3955    68.26%  3748    2.70%
1.紫光  5794    3533    60.98%  4964    3.57%
2.搜狗  5794    3294    56.85%  5723    4.12%
3.谷歌  5794    3477    60.01%  5200    3.74%
—— 测试13字词句 —— 4945 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  4945    3351    67.77%  3287    2.56%
1.紫光  4945    2985    60.36%  4287    3.33%
2.搜狗  4945    2731    55.23%  5112    3.98%
3.谷歌  4945    2982    60.30%  4336    3.37%
—— 测试14字词句 —— 4109 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  4109    2772    67.46%  2761    2.40%
1.紫光  4109    2454    59.72%  3708    3.22%
2.搜狗  4109    2172    52.86%  4589    3.99%
3.谷歌  4109    2389    58.14%  3922    3.41%
—— 测试15字词句 —— 3141 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  3141    2079    66.19%  2274    2.41%
1.紫光  3141    1826    58.13%  3036    3.22%
2.搜狗  3141    1604    51.07%  3704    3.93%
3.谷歌  3141    1832    58.33%  3085    3.27%
—— 测试16字词句 —— 1534 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  1534    1004    65.45%  1154    2.35%
1.紫光  1534    877     57.17%  1569    3.20%
2.搜狗  1534    763     49.74%  1887    3.84%
3.谷歌  1534    880     57.37%  1545    3.15%

2)
—— 《人民日报》2005综合统计 —— 1500374 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  1500374 1161937 77.44%  645590  2.38%
1.紫光  1500374 1071866 71.44%  856809  3.15%
2.搜狗  1500374 1016828 67.77%  1037293 3.82%
3.谷歌  1500374 1078598 71.89%  842869  3.10%

—— 测试04字词句 —— 139435 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  139435  108248  77.63%  58826   5.27%
1.紫光  139435  99096   71.07%  75932   6.81%
2.搜狗  139435  100661  72.19%  75317   6.75%
3.谷歌  139435  98763   70.83%  77916   6.98%
—— 测试05字词句 —— 119127 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  119127  91972   77.20%  49014   4.11%
1.紫光  119127  85750   71.98%  61605   5.17%
2.搜狗  119127  85567   71.83%  63580   5.34%
3.谷歌  119127  85994   72.19%  61236   5.14%
—— 测试06字词句 —— 154291 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  154291  124053  80.40%  55515   3.00%
1.紫光  154291  115607  74.93%  72917   3.94%
2.搜狗  154291  113490  73.56%  79926   4.32%
3.谷歌  154291  115924  75.13%  72917   3.94%
—— 测试07字词句 —— 146105 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  146105  111960  76.63%  66197   3.24%
1.紫光  146105  103939  71.14%  84130   4.11%
2.搜狗  146105  101250  69.30%  92445   4.52%
3.谷歌  146105  104317  71.40%  83326   4.07%
—— 测试08字词句 —— 150785 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  150785  119678  79.37%  58278   2.42%
1.紫光  150785  111124  73.70%  77220   3.20%
2.搜狗  150785  104472  69.29%  107695  4.46%
3.谷歌  150785  111690  74.07%  76087   3.15%
—— 测试09字词句 —— 138583 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  138583  108267  78.12%  57149   2.29%
1.紫光  138583  100108  72.24%  76465   3.07%
2.搜狗  138583  95105   68.63%  91007   3.65%
3.谷歌  138583  100917  72.82%  74947   3.00%
—— 测试10字词句 —— 133618 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  133618  103441  77.42%  58076   2.17%
1.紫光  133618  95276   71.30%  78198   2.93%
2.搜狗  133618  89301   66.83%  96527   3.61%
3.谷歌  133618  96087   71.91%  76344   2.86%
—— 测试11字词句 —— 123107 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  123107  94864   77.06%  54863   2.03%
1.紫光  123107  87278   70.90%  74238   2.74%
2.搜狗  123107  81083   65.86%  92614   3.42%
3.谷歌  123107  88092   71.56%  71771   2.65%
—— 测试12字词句 —— 111368 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  111368  85247   76.55%  50630   1.89%
1.紫光  111368  78312   70.32%  68437   2.56%
2.搜狗  111368  71589   64.28%  88515   3.31%
3.谷歌  111368  79057   70.99%  66631   2.49%
—— 测试13字词句 —— 100699 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  100699  76778   76.25%  46732   1.78%
1.紫光  100699  70086   69.60%  64408   2.46%
2.搜狗  100699  63341   62.90%  84471   3.23%
3.谷歌  100699  70884   70.39%  62336   2.38%
—— 测试14字词句 —— 87324 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  87324   65936   75.51%  41908   1.71%
1.紫光  87324   60158   68.89%  57369   2.35%
2.搜狗  87324   53768   61.57%  76037   3.11%
3.谷歌  87324   60848   69.68%  55593   2.27%
—— 测试15字词句 —— 65021 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  65021   48696   74.89%  32124   1.65%
1.紫光  65021   44372   68.24%  43900   2.25%
2.搜狗  65021   39247   60.36%  59036   3.03%
3.谷歌  65021   44978   69.17%  42367   2.17%
—— 测试16字词句 —— 30911 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  30911   22797   73.75%  16278   1.65%
1.紫光  30911   20760   67.16%  21990   2.22%
2.搜狗  30911   17954   58.08%  30123   3.05%
3.谷歌  30911   21047   68.09%  21398   2.16%

3)
—— 《金庸全集》综合统计 —— 736965 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  736965  317272  43.05%  975720  8.55%
1.紫光  736965  247685  33.61%  1215459 10.65%
2.搜狗  736965  236510  32.09%  1312967 11.50%
3.谷歌  736965  198488  26.93%  1466162 12.84%

—— 测试04字词句 —— 97098 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  97098   47363   48.78%  101550  13.07%
1.紫光  97098   38270   39.41%  120233  15.48%
2.搜狗  97098   39840   41.03%  118968  15.32%
3.谷歌  97098   33815   34.83%  134708  17.34%
—— 测试05字词句 —— 57671 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  57671   29944   51.92%  54556   9.46%
1.紫光  57671   25451   44.13%  65438   11.35%
2.搜狗  57671   25230   43.75%  68514   11.88%
3.谷歌  57671   21242   36.83%  79767   13.83%
—— 测试06字词句 —— 132169 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  132169  64947   49.14%  142895  9.01%
1.紫光  132169  52546   39.76%  175090  11.04%
2.搜狗  132169  49882   37.74%  187866  11.85%
3.谷歌  132169  41804   31.63%  214448  13.52%
—— 测试07字词句 —— 103257 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  103257  49120   47.57%  118510  8.20%
1.紫光  103257  39714   38.46%  147189  10.18%
2.搜狗  103257  38610   37.39%  156183  10.80%
3.谷歌  103257  31683   30.68%  180644  12.50%
—— 测试08字词句 —— 91929 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  91929   39464   42.93%  120292  8.18%
1.紫光  91929   30130   32.78%  150747  10.25%
2.搜狗  91929   28010   30.47%  164603  11.19%
3.谷歌  91929   23619   25.69%  183005  12.44%
—— 测试09字词句 —— 73575 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  73575   29322   39.85%  105269  7.95%
1.紫光  73575   21891   29.75%  132967  10.04%
2.搜狗  73575   20155   27.39%  145215  10.97%
3.谷歌  73575   16952   23.04%  161599  12.20%
—— 测试10字词句 —— 56001 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  56001   20204   36.08%  89151   7.96%
1.紫光  56001   14642   26.15%  113452  10.13%
2.搜狗  56001   13225   23.62%  124150  11.08%
3.谷歌  56001   11188   19.98%  136436  12.18%
—— 测试11字词句 —— 42517 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  42517   14056   33.06%  73743   7.88%
1.紫光  42517   9828    23.12%  93820   10.03%
2.搜狗  42517   8704    20.47%  104035  11.12%
3.谷歌  42517   7365    17.32%  113500  12.13%
—— 测试12字词句 —— 31093 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  31093   9368    30.13%  58767   7.88%
1.紫光  31093   6424    20.66%  75015   10.05%
2.搜狗  31093   5539    17.81%  83981   11.25%
3.谷歌  31093   4665    15.00%  90636   12.15%
—— 测试13字词句 —— 22629 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  22629   6315    27.91%  46156   7.84%
1.紫光  22629   4194    18.53%  58734   9.98%
2.搜狗  22629   3593    15.88%  65736   11.17%
3.谷歌  22629   3016    13.33%  70805   12.03%
—— 测试14字词句 —— 15699 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  15699   4018    25.59%  34036   7.74%
1.紫光  15699   2620    16.69%  43366   9.87%
2.搜狗  15699   2123    13.52%  49145   11.18%
3.谷歌  15699   1770    11.27%  52974   12.05%
—— 测试15字词句 —— 9516 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  9516    2315    24.33%  21549   7.55%
1.紫光  9516    1448    15.22%  27652   9.69%
2.搜狗  9516    1211    12.73%  31184   10.92%
3.谷歌  9516    1024    10.76%  33472   11.72%
—— 测试16字词句 —— 3811 条
IM实体  实测句  符合句  符合率  不符字  不符率
0.最佳  3811    836     21.94%  9246    7.58%
1.紫光  3811    527     13.83%  11756   9.64%
2.搜狗  3811    388     10.18%  13387   10.98%
3.谷歌  3811    345     9.05%   14168   11.62%



[ 本帖最后由 ZXD4G 于 2008-1-23 12:12 编辑 ]
 楼主| 发表于 2008-1-23 12:08:49 | 显示全部楼层

零星评点

1.上述数据中,竟然已经有80%以上的准确率爆出(紫光最佳——人民日报2005年——6字句——80.40%),着实喜人。

2.数据汇报中,用词“符合句/率”,而没有用词“准确句/率”,原因是满足一个拼音串的汉字句子,有些情况下多种都是正确的,最简单的例子是“我爱她”,实际上“我爱他”、“我爱它”等等,都是对的,不好根据与原句的不同,就评为错句。

3.看到AhMan和xml00发帖中列示了错字数目,也就模仿着统计了这个数字,不过,这个数字应该说明力较弱,因为基于中文分词的组句,往往一错就是一个词,而不是一个字,错一个词和错一个字是等同的。

4.金庸小说的准确率严重下降,诚如AhMan在“简单地测试了几个句子”一帖中所述,这个文字风格有些文言和近代白话的味道,同时语料中这种素材比例很低,结果也是可以预见的,另外有一些是大量的小说中人名、地名、功夫名等类专有名词,在词库中收录比较少,分词词典更拒之于门外,也是准确率不高的原因之一;如有改善的需求和必要,也大概是从这几个方面分别做文章。

5.缺少微软、拼音加加、智能狂拼的能力评价,存在遗憾,原因透露:
1)微软——输入风格特异,需要继续投入时间才能完成;
2)拼音加加——本想测试,看到xml00贴出的其结果,在7、8字以上的句子中,效果迅速下降,感觉没有必要测试了,个人以为,所谓的整句输入,应该是6~11之间为主,解决不好这个区间的准确率,用户也没有信心培养整句输入习惯。
3)智能狂拼——程序不够稳定,结果获取艰难,准确率也远远不如想象,遂罢。

[ 本帖最后由 ZXD4G 于 2008-1-23 12:20 编辑 ]
发表于 2008-1-23 13:27:35 | 显示全部楼层
好好好,够高,够强大
上次还是72%,这次就可以达到80%。。
期待6.1.。。。。
发表于 2008-1-23 14:25:37 | 显示全部楼层
很好,很强大
几十m对于我的电脑来说是小case,发布的时候可以取两个版本吧
发表于 2008-1-23 14:32:21 | 显示全部楼层
发吧!发吧!快点发吧!呵呵!等不及了!   
发表于 2008-1-23 20:12:18 | 显示全部楼层
振奋!
支持发精简版、增强版两种版本的想法
发表于 2008-1-23 20:33:45 | 显示全部楼层
原帖由 ZXD4G 于 2008-1-23 11:53 发表
如何实现,当6.1发布前后,紫光华宇将提供一定的解决方案。


现在已经算是发布前了,赶紧提供吧
发表于 2008-1-24 00:29:47 | 显示全部楼层
乖乖,开发组的几位大佬纷纷都上浮了,看来基本上是忙得差不多了,嘿嘿
新版本年前发布,应该八九不离十。。
期待中。。
发表于 2008-1-24 10:58:04 | 显示全部楼层
颇为期待
不知道什么时候发呢?
发表于 2008-1-24 11:12:29 | 显示全部楼层
呵呵
yiwon配合新版,来个新春版皮肤吧:)
发表于 2008-1-24 12:09:29 | 显示全部楼层
期待啊!开发组来吧!
发表于 2008-1-24 12:10:12 | 显示全部楼层
支持,快发吧,等不及了
发表于 2008-1-25 01:08:46 | 显示全部楼层
还真有不嫌累的...这些输入法每种我打一句话就知道谁高谁低了

刚才试了下,真的是高估了...

[ 本帖最后由 真拼音佳佳 于 2008-1-25 01:18 编辑 ]
 楼主| 发表于 2008-1-25 09:47:06 | 显示全部楼层
1.不是“估”,谈不上“高估”,而是“统计”,用数据说话。
2.“客观”二字很重要,根据一句话的对错,就下结论,不是“客观”,除非声称100%,那么,只要找出一个反例,即可否定。
3.做到“客观”确实很累,和说一句话的代价相比,真是天渊之别,是否值得,见仁见智,说明力的大小,也是见仁见智,紫光华宇未敢把说服所有人作为目标。
发表于 2008-1-25 11:10:05 | 显示全部楼层
老实说智能性对于词输入法没什么作用,整句输入需要高智能性但整句输入整体效率偏低.

面子问题罢了...这方面的竞争,看来加加已经些许落后了.

我还是会支持加加,因为它有我更多需要的功能.整句智能算法不是每个人都懂得的技术,所以有些话我也不会说给任何人听.我只说测试结论:紫光不如QQ.

测试紫光的帖子我已经发了,四哥自己研究研究,给个回复最好.
发表于 2008-1-25 12:53:22 | 显示全部楼层
我还是喜欢精简的
因为大词库会拖慢速度
以前用过会这样
发表于 2008-1-25 22:07:07 | 显示全部楼层
相当不赞同15楼
发表于 2008-1-25 22:10:26 | 显示全部楼层
现在拼音输入法就是要整句整句来...
要不然就不会拿智能性来评比一款输入法好坏的主要指标了..
所以不要拿自己个人观点来否认开发组的辛苦 辛苦 辛苦成果
你喜欢佳佳但也别老是说别人的不好
发表于 2008-1-25 22:11:46 | 显示全部楼层
看到上面的测试...
6xxx的威力实在是太大了
越来越期待6.1咯
发表于 2008-1-25 23:31:48 | 显示全部楼层
原帖由 永远的紫光 于 2008-1-25 22:10 发表
现在拼音输入法就是要整句整句来...
要不然就不会拿智能性来评比一款输入法好坏的主要指标了..
所以不要拿自己个人观点来否认开发组的辛苦 辛苦 辛苦成果
你喜欢佳佳但也别老是说别人的不好


我不是在说QQ好么,并不总是说别人的不好的,我还是会说别人的好.
发表于 2008-1-28 19:41:25 | 显示全部楼层
看了版主的统计
期待新版中……
发表于 2008-1-28 22:25:32 | 显示全部楼层
原帖由 永远的紫光 于 2008-1-25 22:10 发表
现在拼音输入法就是要整句整句来...
要不然就不会拿智能性来评比一款输入法好坏的主要指标了..
所以不要拿自己个人观点来否认开发组的辛苦 辛苦 辛苦成果
你喜欢佳佳但也别老是说别人的不好


你一厢情愿的选择低效率的整句输入这是你的自由.

虽然我讨厌整句输入的低效率,不过我是从黑马神拼转化为加加的用户的,对于输入法智能性,我有些兴趣.
发表于 2008-2-3 21:38:58 | 显示全部楼层
这次同意佳佳的说法:整句效率太低,虽然对智能要求高.但只是噱头罢了....为此搞的输入法字库庞大可太舍本逐末了
发表于 2008-2-4 15:40:42 | 显示全部楼层
有几点要说明一下的:

第一点,词库越大,输入法越慢?
是的,但不如大家想象中那样。一般想法是,词库大一倍,输入法的反应慢一倍。其实并非如此。

看检索的方法而定,但肯定地,词库大一倍,输入法只慢了一丁点。简单的解说,
2个词语,平均检索1次,最多检索两次就找到。
4个词语,平均检索2次,最多检索三次就找到。
8个词语,平均检索3次,最多检索四次就找到。
16个词语,平均检索4次……。
32个词语,平均检索5次……。
1K个词语,平均检索10次……。
2K个词语,平均检索11次……。
4K个词语,平均检索12次……。
8K个词语,平均检索13次……。
1.6万个词语,平均检索14次……。
3.2万个词语,平均检索15次……。
6.4万个词语,平均检索16次……。
12.8万个词语,平均检索17次……。
25.6万个词语,平均检索18次……。
51.2万个词语,平均检索19次……。
102.4万个词语,平均检索20次……。

看!50万和100万的分别只是 1/20 次!真实的情况和这里说的差不多。所以词库大并非舍本逐末,只要硬件支持,不把资源消耗过多,就可以了。

第二点,智能高一点有没有用?
其实是不化算的,因为词库要大许多,智能才高一点点,这当中的原因,是语言现象使然,因为语言文字是为了交流,所以是“共同语言”,否则你说的话我就不能明白了,但这还有个范围,专业的要专业的才能明白,而整个社会,除了大家共同的,就是小社群(专业)里共同的,而为了提高智能,必须对较为不这么常用的语料也要收集,例如整个网上都只找到用过三千次或更少次的语料,是很庞大的,如收进语料内,就会变得很大很大,但智能只提高了一点点。

语料要改进的地方,反而是一些较为高频的,但漏了的,那些会对智能命中率有较大的提升,这可以在对各大输入法测打的比较中,在数据中分析出来。

智能就是为了整句?
当然不是,提高智能有两个作用,第一是打词时打空的机会少些,而组合出来的词的命中率高些。使用的人怎么分词说不定,如果智能好些,那对乱分词的人的命中率也会高一点。

第二是打较长的短语时会准确一些,虽然是作为字词输入法,但打词的人会被引诱得打词越打越长,既然知道打长一些就不用选词了,就会放心打长一些,拼音输入法就要配合这种用法。

作为整句输入法,输入法所需的功能是编辑功能、怎去改错的功能,命中率并非首要,打整句的人都预计逢打必改的了,改少一些改多一些并不重要。作为整句输入,要注意的就是,用者往往就是看着键盘打字的一群,他们打字时不理会打了什么,只顾打,打完了才改,改错功能,则要求不用看键盘,因为这时他们的目光焦点是候选窗,所以用几个键(例如数字键或Fx键)他们就可以靠摸索按键并可盯着屏幕,如果还要用字母,即逼使他们的目光往来屏幕与键盘之间,这就不好用了。

整句输入法还要懂得学习句中词,但这往往就是整句输入法的硬伤,因为很容易学得一些不伦不类的东西,致使输入法越用越糟。

总括来说,智能的提高不是为了打整句,打整句时的命中率并不重要,智能的提高是为了打字词。
发表于 2008-2-5 18:44:01 | 显示全部楼层
打整句的人都预计逢打必改的了

这句话还是不能认同.测试中的人肉输入法,准确率还是相当的高啊,至于智能性不能解决的那些问题,解决的方法也已经想到了.

语料库太大了,那么,不必全部放在本地.通过网络,反应速度变慢,怎么办?那就改变一下方法,使得响应时间的要求降低一些...没什么问题的.


当然,还是有一个问题没办法解决,我想不到解决的方法,那就是效率.无论怎么努力,我看不出10年内会有什么改变的事实,那就是:整句输入法的效率不如字词输入.
发表于 2008-2-7 17:46:15 | 显示全部楼层
左先生是开发人员,拼音佳佳老兄不是。

有些地方佳佳老兄想当然了,如果真要实践,就会发觉不是想的那么简单了,虽然也有可取之处。站着说话不腰痛,未做过的肯定不知道当中的滋味。

这些天来对五、六个输入法的整句测打资料作分析,结论是还可提高命中率,只须适量增加或重选语料,增加含金量高的语料。你可以把语料看作“非词”,不过非词不是“半截词”或“断尾词”,就算语料库比现在大十倍,也还未有需要加进大量的“半截词”,要加入“半截词”,语料库起码比现在的大五十倍至二百倍,不值得而且没人有这个能耐。

了好吗 了号码
他是在 它是在
她的唇 他的唇
喊道我 含到我
整理着 整理者
不会抽 不会愁
他是军 她是君
他想啊 她想啊
你赔了 你陪了
既让你 即让你
乐死了 了死了

举些例子,上面的每对词中,如果前面的语料是组句用的语料,命中率会较高,相反如果后面的语料是组句用的语料(或仅仅组合出来而不存在的),命中率会较低。我无法检视紫光的语料,仅打出来就是后面的词(其实可以在句中试打,不过也要看是什么句),语料有什么组出来便是什么,所以较常用的语料,命中率也高一些。 "测试中的人肉输入法" ,佳佳老兄忽略了同音语料的影响,当两个语料重码时,输入法如何取较常用的一个的机制。
发表于 2008-2-8 14:49:50 | 显示全部楼层
嗯,我忽略同音语料有两方面的原因,一是百度搜索不许可,没有条件.另一个更重要的原因就是长语料的重码率很低很低,比如我随便举例:中国人民,你就没有办法找出zhongguorenmin所对应的另一个词.反过来的情况,则只能找出特例,比如拼音佳佳和拼音加加.

我的想法就是:语料库规模越大,整句识别率越高,所以百度快照那种规模的语料库,可以产生最高的准确率.你难道以为语料库规模小一点才更好?
发表于 2008-2-8 15:26:05 | 显示全部楼层
输入法还未到全部使用四字以上语料的地步。如果不使用二字词和三字词组句,你的方法可行。

但不用二字词、三字词,语料库要劲大数百倍才行。

[ 本帖最后由 AhMan 于 2008-2-8 15:36 编辑 ]
发表于 2008-2-8 16:35:46 | 显示全部楼层
原帖由 AhMan 于 2008-2-8 15:26 发表
输入法还未到全部使用四字以上语料的地步。如果不使用二字词和三字词组句,你的方法可行。

但不用二字词、三字词,语料库要劲大数百倍才行。


可以做出些让步了...即便如此,还是可以依赖输入法的自学习功能嘛.
发表于 2008-3-3 08:56:19 | 显示全部楼层
这些数据还是很有说服力的啊!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2019-11-21 10:40

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表