清华开源了1300亿开源的双语预训练模型-GLM-130B

Original 刘聪NLP NLP工作站 2023-11-28

收录于合集 #论文解读 40个

写在前面

大家好，我是刘聪NLP。

今天刷Github的时候，发现了清华的GLM-130B，共有1300亿个参数，包含中文和英文两种语言，并且在中文零样本任务上效果优于ERNIE-TITAN-3.0。自己简单测试了一波，发现还是有点东西的。

大家可以根据Demo链接自行测试。

github：https://github.com/THUDM/GLM-130B
demo：https://huggingface.co/spaces/hanyullai/GLM-130B

网站自己有介绍，我直接图片贴过来了。

自己测试了问题，感觉还是有些东西的。当然也很多没测出来，下面粘了一些比较好的例子。q:姚明身高是"[MASK]"q:姚明的妻子是"[MASK]"q:1+1=[MASK]q:3乘4=[MASK]q:吃的英文是"[MASK]"q:"我爱你"的英文是"[MASK]"

大模型虽好，但推理至少需要一台V100服务器（32G * 8），普通玩家真的玩不起，小公司可能举全公司之力，都拿不出一台这样的服务器。

请多多关注知乎「刘聪NLP」，有问题的朋友也欢迎加我微信「logCong」私聊，交个朋友吧，一起学习，一起进步。我们的口号是“生命不止，学习不停”。

往期推荐：

继续滑动看下一个