华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 133100|回复: 198

华宇拼音输入法大语言模型文件下载

  [复制链接]
发表于 2008-7-25 18:45:14 | 显示全部楼层 |阅读模式
为了方便华宇拼音输入法爱好者对于大型语言模型文件的使用,现将四哥原来发表的分散于若干个帖子中的多卷本大型语言模型文件,集中在本帖子中。为了方便大家的下载,bestdata 分三卷、welldata 分二卷、gooddata 分一卷。
追求整句准确率又不在乎几十兆硬盘空间的紫光爱好者可以根据自己的实际情况选用。
使用方法:将下载并解压后得到的 bigram.dat 复制到 "%ALLUSERSPROFILE%\Application Data\unispim6\wordlib" 下覆盖同名文件即可。
若华宇安装在c盘:
windows xp系统:相应的路径为:"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"
windows 7 系统:相应路径为"C:\ProgramData\unispim6\wordlib"

注:上述文件夹为隐藏文件夹,需关闭文件夹的隐藏属性,才能找到!

bestdata:

bestdata.part1.rar (19.07 MB, 下载次数: 6913)
发表于 2008-7-25 19:13:53 | 显示全部楼层
个人觉得那个最小good25m的才是最好的,不影响反应速度和上屏速度。
差距也不是很大,我现在就用那个25兆的。速度没有任何影响。而这两个应该多少有点影响。最大的那个我都没有试过,中间那个我试了一下,如果挂接了,感觉速度最多和搜狗的差不多,甚至还差点,这样也就失去了紫光新版速度快的优点了。至于说那个最大什么样……,请大家谈谈。
 楼主| 发表于 2008-7-25 19:26:14 | 显示全部楼层
我的配置可能好一点,用bestdata 用了很长一段时间,其间特意跟搜狗3.3比了一段时间,没感到有明显区别。
发表于 2008-7-25 22:37:12 | 显示全部楼层
在语料出来的时候我个人比较看中well,因为就体积和效果来看是比较合适的,也试用了很长的一段时间。同时在公司电脑上使用best,最后发现其实如果机器不错的话用best卡的情况几乎没有的。

同时与google比较(sougo一直没用)和well比较效果比较明显,当然google没有太大的可比性,但是语言模型的大小决定效率这个是不争的事实。

多花些时间使用,找到适合自己的其实才是最好的!
发表于 2008-7-26 01:24:47 | 显示全部楼层
个人觉得,语料库的大小对上屏速度其实不会有太大的影响,关键还是对所用系统本身的优化(尽可能关掉或少启动一些不必要的程序)。

本人用的机子是老掉牙的Dell  Pentium III + 512MB的内存。因为噪声特别小,估计一时半会还不会淘汰它。而语料库,我挑了个最大的(bestData),用起来快速流畅,感觉很好。

另外,野风说得对,新版本的语料库+系统词库的组词、造句能力的确已经很强了。最近几天我一直试着只用大语料库+系统词库,感觉也非常好。只是成语、诗词名句和常用文言文略显少了点。

[ 本帖最后由 步虚 于 2008-7-26 03:12 编辑 ]
 楼主| 发表于 2008-7-26 08:13:49 | 显示全部楼层
原来我们习惯于将紫光的“bigram.dat”称为“大语料库”。现在根据四哥的建议:
原帖由 ZXD4G 于 2008-7-24 19:42 发表
有必要正名一下有感“语料”一词正在被滥用,故说明一下。
本话题提及的大文件,称之以“模型库”或“模型文件”比较恰当;尽管“语料”有生熟之分,总的来说还是像文本,保证兼容性(大家都看得懂),一般来说,加工不会太深入,也并不专用于某一款软件。

改称为“模型库”。个人感觉确实是如此,语料库不管是“生”、还是“熟”,都是文本格式,故也能通用于各个输入法。而语言模型文件则是为某个输入法量身定做的,基本上没有通用于别的输入法的可能。

 楼主| 发表于 2008-7-26 17:22:54 | 显示全部楼层
原帖由 步虚 于 2008-7-26 01:24 发表
个人觉得,语料库的大小对上屏速度其实不会有太大的影响,关键还是对所用系统本身的优化(尽可能关掉或少启动一些不必要的程序)。

本人用的机子是老掉牙的Dell  Pentium III + 512MB的内存。因为噪声特别小,估 ...


这个帖子的最终建立,还是源自于你步虚兄的动力啊!
发表于 2008-7-26 21:35:10 | 显示全部楼层
从下载量看,最大的似乎最受欢迎。
发表于 2008-7-26 21:38:04 | 显示全部楼层
其实紫光应该直接推出普通语句库的正式版和大语句库的加强版,这样比较方便。
另外等紫光可以自造词参与组句再试用了,每个人都有自己的输入环境,自造词不能组句的话,实际体验还是很欠缺的。这个不是靠语句库有多大能解决的问题。这次新版还是没有加入自造词组句的功能,很失望。
发表于 2008-7-26 22:08:13 | 显示全部楼层
原帖由 cqcq 于 2008-7-26 21:38 发表
其实紫光应该直接推出普通语句库的正式版和大语句库的加强版,这样比较方便。
另外等紫光可以自造词参与组句再试用了,每个人都有自己的输入环境,自造词不能组句的话,实际体验还是很欠缺的。这个不是靠语句库有多 ...

如果条件不成熟,我反对用户词库参与组词。否则用了一段时间就会因为词频调整造成智能水下降,会被人误解成智能差的输入法。

[ 本帖最后由 岳家军 于 2008-7-26 22:09 编辑 ]
 楼主| 发表于 2008-7-26 22:30:41 | 显示全部楼层
原帖由 岳家军 于 2008-7-26 22:08 发表

如果条件不成熟,我反对用户词库参与组词。否则用了一段时间就会因为词频调整造成智能水下降,会被人误解成智能差的输入法。

赞同岳先生的观点!
发表于 2008-7-27 01:49:43 | 显示全部楼层
我的机子老了
一般的词库已经够用了
需要的时候再来下载
发表于 2008-7-27 17:55:36 | 显示全部楼层
所谓的智能性,首先体现在用户本身的使用环境上,而不是看人民日报准确率。
用户环境的特点就是1.口语化多。2,随想随打,断句多。3,用户特有词汇多。

很久以前我在文章里就分析过自造词组句的问题,其实大多数自造词和通用词汇都不构成重码的,即使简单用重码来决定自造词是否参与组句,都可以极大提高用户体验。
因为造不出宇宙飞船,所以飞机不如自行车。这种逻辑真是有趣。加加的大师们从来都是用这种口气说话,不想在紫光再听到了。
加不加自造词,是紫光的自由。反正不用紫光也没有任何损失。
发表于 2008-7-27 18:23:00 | 显示全部楼层
原帖由 cqcq 于 2008-7-27 17:55 发表
所谓的智能性,首先体现在用户本身的使用环境上,而不是看人民日报准确率。
用户环境的特点就是1.口语化多。2,随想随打,断句多。3,用户特有词汇多。

很久以前我在文章里就分析过自造词组句的问题,其实大多数 ...

加加的大师们才是拥护自造词组句。
是不是有会降低智能水平,我看不用争执,就目前来说除了谷歌之外,还有没一个输入法引进了用户词库参与组词得到好评的。

[ 本帖最后由 岳家军 于 2008-7-27 18:24 编辑 ]
发表于 2008-7-27 20:39:33 | 显示全部楼层
大家讨论挺激烈的啊
发表于 2008-7-27 22:41:14 | 显示全部楼层
智能整句只能是作为一种尝试,把它作为主攻方向,迟早会走入死胡同的。当然我说的是现在,未来不可知!

[ 本帖最后由 落寞的湖 于 2008-7-27 22:46 编辑 ]
 楼主| 发表于 2008-7-28 12:13:17 | 显示全部楼层
实际上紫光目前的智能水平已经很不错了,我的词库是:bestdata+系统词库+人名+地名+成语,选字的情况就已经很少了!目前用户词库只积累了区区800余条!增长处于极缓慢状态。
发表于 2008-7-28 14:01:31 | 显示全部楼层
谢谢分享

我的用户词库将近7000

下载试用
:-)
发表于 2008-7-28 14:04:34 | 显示全部楼层
请 加强备份的功能

每次恢复后 和以前差得很远

现在来说,备份占用的那点储存空间基本上是九牛一毛

谢谢
发表于 2008-7-29 10:35:52 | 显示全部楼层
呵呵,形势发生了逆转。最小的那个下载量第一了,下载量最小的是中间的。
 楼主| 发表于 2008-7-29 14:59:43 | 显示全部楼层
咦?最大的下载量怎么不成套啊?这下载了干什么啊?
发表于 2008-7-29 15:30:56 | 显示全部楼层
原帖由 野风 于 2008-7-29 14:59 发表
咦?最大的下载量怎么不成套啊?这下载了干什么啊?

只有一种解释,可能下载一个或两个的时间都很长,心想:太大了,算了吧。就没有下载第二个或者第三个了。
发表于 2008-7-29 16:22:31 | 显示全部楼层
大型语言模型库是什么?
 楼主| 发表于 2008-7-29 16:25:49 | 显示全部楼层
原帖由 苗苗老师 于 2008-7-29 16:22 发表
大型语言模型库是什么?

本版块有这样的帖子,劳驾找一下吧!

看一下这个帖子吧:
http://bbs.unispim.com/forum.php?mod=viewthread&tid=2705

点评

http://bbs.unispim.com/forum.php?mod=viewthread&tid=2697&extra=  发表于 2012-10-14 15:44
 楼主| 发表于 2008-7-29 16:27:33 | 显示全部楼层
原帖由 岳家军 于 2008-7-29 15:30 发表

只有一种解释,可能下载一个或两个的时间都很长,心想:太大了,算了吧。就没有下载第二个或者第三个了。

嗯!
发表于 2008-7-31 15:30:00 | 显示全部楼层
总的来说还是最小的下载量大,看来大家还是想兼顾速度啊。
 楼主| 发表于 2008-8-1 12:01:11 | 显示全部楼层
实际上是多虑了!用bestdata 和gooddata 在我的赛扬1.4 的机器上感觉是完全一样的!语言模型库似乎对机器的配置要求不高的!在这台老机器上用bestdata 和我的配置好的台式机上用,感觉不出什么。
发表于 2008-8-3 17:46:39 | 显示全部楼层
原帖由 野风 于 2008-8-1 12:01 发表
实际上是多虑了!用bestdata 和gooddata 在我的赛扬1.4 的机器上感觉是完全一样的!语言模型库似乎对机器的配置要求不高的!在这台老机器上用bestdata 和我的配置好的台式机上用,感觉不出什么。


导入最大的那个模型库后,你先敲几个拼音,然后再按Backspace键来去掉这些拼音看看,是不是又慢又卡?
最小的那个就没有问题,流畅得很。
发表于 2008-8-3 18:16:56 | 显示全部楼层
原帖由 net 于 2008-8-3 17:46 发表


导入最大的那个模型库后,你先敲几个拼音,然后再按Backspace键来去掉这些拼音看看,是不是又慢又卡?
最小的那个就没有问题,流畅得很。

我用五十兆的那个,切换的时候迟滞现象很严重。
 楼主| 发表于 2008-8-3 21:13:53 | 显示全部楼层
原帖由 net 于 2008-8-3 17:46 发表


导入最大的那个模型库后,你先敲几个拼音,然后再按Backspace键来去掉这些拼音看看,是不是又慢又卡?
最小的那个就没有问题,流畅得很。


不好意思!这样的操作是经常有的,但没有碰到过“又慢又卡”的现象!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2019-12-11 22:14

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表