华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 4735|回复: 4

关于近期论坛大语言模型库和sanwsw大词库的疑问

[复制链接]
发表于 2008-7-27 09:40:42 | 显示全部楼层 |阅读模式
下面的问题,请各位大虾或版主们赐教


1. 何谓大语言模型库?与我们在论坛中经常讨论的大词库有何区别?
2. 模型库中是否包含有短语?与大词库中的短语有重复的嘛?
3. sanwsw最近发布的大词库,在说明中是包含了紫光官方出品的生活、人名、地名、娱乐、成语词语,那我们用户在安装紫光拼音官方版,并导入该大词库之后,是否需要在词库设置中把输入法自带的生活、人名、地名、娱乐、成语词语删除掉呐(否则不就是重复了嘛!)?
4. 如果替换了大语言模型库,在输入法打开的状态下,内存使用是否会跟着大语言模型库的大小而增加呐?

[ 本帖最后由 Simbalwd 于 2008-7-27 09:46 编辑 ]
发表于 2008-7-27 10:32:53 | 显示全部楼层
1、所谓大语言模型库是相对于输入法标准配置的语言模型而言的,因为比标配的大,故曰大语言模型库。模型库是输入法的有机组成部分,是不可分割的。而大词库则是输入法挂接的分类词库,因体积较大,且具备综合词类,故曰大词库。词库除了用户词库是不可缺的外,其他的词库可以根据个人需要和爱好进行选择。
2、模型库中的内容,是与输入法的算法相关联而建立起来的!内容有可能与网友建立的大词库有所重复。
3、可以!
4、不会!我本人用了很长一段时间的大语言模型库(bestdata),另外勾选了系统词库、成语词库、地名、人名词库,又因不希望输入法智能组出的词入用户词库而没有勾选“智能组词”入库。结果是用户词库只有区区800余条。也就是说,需要选字的场合很少了!
以上只是个人的一些看法,仅供参考!
发表于 2008-7-27 10:43:37 | 显示全部楼层
大语言模型库就是“大语料库”,紫光的大侠们觉得他不够规范,所以改成这个名字。
其实我觉得很多东西大家公认了就是对的,就像我们常说的“心想事成”,难道人是用心在想吗?但是已经形成习惯了,就不会在意他规范与否。
发表于 2008-7-27 11:05:57 | 显示全部楼层
原帖由 岳家军 于 2008-7-27 10:43 发表
大语言模型库就是“大语料库”,紫光的大侠们觉得他不够规范,所以改成这个名字。
其实我觉得很多东西大家公认了就是对的,就像我们常说的“心想事成”,难道人是用心在想吗?但是已经形成习惯了,就不会在意他规范 ...

也不完全是规范的原因!因紫光对于“语料”已经另有定义了。把最原始的语句资料定义为语料了,未加工的称为生料、粗加工或加工过的称为熟料。请看四哥在另一个帖子中的内容:
条件:来自上百G语料中提取出来的所有2~15字词及其出现频度,抛弃了出现少于3次的。


 楼主| 发表于 2008-7-28 19:28:49 | 显示全部楼层
原帖由 野风 于 2008-7-27 10:32 发表
1、所谓大语言模型库是相对于输入法标准配置的语言模型而言的,因为比标配的大,故曰大语言模型库。模型库是输入法的有机组成部分,是不可分割的。而大词库则是输入法挂接的分类词库,因体积较大,且具备综合词类,故 ...




多谢赐教哈!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2019-9-23 04:31

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表