查看原文
其他

阿里「通义千问」大模型-内测分享

刘聪NLP NLP工作站 2024-04-07

终于在昨天晚上等到了邀请码 ,成功吃到第一手螃蟹,那么现在开始测试。“通义千问”是纯文本模型,输入和输出内容全是文本,与ChatGPT和ChatGLM模型一致,与GPT4和文心一言不同。

目前国内大厂,纷纷将大模型进行内测,堪称“百家争鸣”,只要是模型敢放出来测试,还是需要肯定的,总比那种,只有PR文或小视频,连内测都没有的要好很多。

「我只愿,后面穷人玩家也可以实现“大模型自由”。」

先说结论吧,感觉在代码生成上的效果上还很多提升空间国粹的效果要好一些。之前对ChatGLM-130B模型也进行了内测,还是用之前的相同的问题,对“通义千问”模型进行测试。个人评测可能会有些片面,不喜勿喷!!

ChatGLM-130B内测结果:https://www.zhihu.com/question/589484629/answer/2935869281

PS:“通义千问”读起来好绕口呀。没有嘲讽的意思,能做出来大模型的,都是高玩。

先来一道写代码的题目,问:“我现在有张excel表,表头如下:世界排名、学校名称、地区、综合得分,写一个代码将学校名称后面加“*”并打印出结果。”生成方法是excel自己的操作,那么让它生成python代码,继续提问,“我现在有张excel表,表头如下:世界排名、学校名称、地区、综合得分,写一个python代码将学校名称后面加“*”并打印出结果。”生成代码存在错误,进行纠正“是在学校名称后面追加"*",不是将"*"进行替换”答案依然不对,那就让他帮我写个“TextCNN代码”吧。很可惜,它又错了。生成代码只有全连接层,没有卷积层,感觉在代码方面能力有待提高,连错两个,也许是我之前的测试样例对它不友好。欢迎大家贴出测试代码方面的结果。

接下来测试一下“国粹”,问:“以“拣尽寒枝不肯栖”为题写一首以“念奴娇”为词牌名的宋词”再问:“以“报效国家”为藏头字,“闺怨思乡”为主题写一首七言绝句”一开始没理解藏头诗的含义,解释一些可以生成的很好,国粹加分,均好于之前测试的大模型,我愿称之为国粹之光。

再问:“历史上有没有一听就让人落泪的话?”跟其他大模型一样,内容上也会存在不符合客观事实的情况。又问了一遍,出现了“问中文回答英文”的情况,不能说回答的错误,但是回复中文也许会更加理想,可能是模型训练的不充分或者是数据集中存在这种中英对照数据问问金庸小说的内容,没有胡扯,但是生成内容较短。但是增加输入长度之后,就会出现事实性错误,这也是“不做不错,多做多错”吧。角色扮演的效果也还很好的,可以按照角色,解决实际问题,问:“你是一个海康威视门禁系统故障的工程师,请帮我处理摄像机网路不通的问题”让它扮演文心一言模型,它十分抗拒,感觉阿里应该特意创建了类似的prompt和回答,但是扮演ChatGLM,它接受了,但是存在逻辑错误。

后续测试将持续更新~~

请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

往期推荐:

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存