查看原文
其他

王小川百余天“拼”出三个大模型,到底是个啥水平?

杨文 袁博 AI先锋官 2023-11-05

作者杨文

编辑六耳

来源AI先锋官



  先锋官有话说:

产品名称: 百川大模型

推荐指数:  ★★★☆☆

测评意见: 百川大模型主打一个“快”:迭代快,公司成立百余天整了三个大模型,这速度绝对够拼;审核快,不到10分钟内测申请通过;响应速度快,回答问题均秒回。不过,百川大模型像个“偏科”的文科生,在文学创作方面达到一定水准,只是到了数理逻辑就容易犯迷糊。而且,百川大模型时常还死犟死犟,抱着个错误答案一条道跑到黑。

8月8日,百川智能创始人王小川带着新一代百川大模型亮相了。


这款闭源大模型Baichuan-53B,是百川智能发布的第三个大模型。它主要服务B端行业,预计下个月将会开放API等相关组件。


自4月10日成立以来,百川智能就在大模型路上狂飙:6月15日发布70亿参数规模开源模型Baichuan-7B,7月11日发布130亿参数规模大模型Baichuan-13B。如今,Baichuan-53B也已登场。


平均每个月“祭”出一个大模型,这速度绝对够拼。


不过,外界曾质疑百川智能开源模型Baichuan-7B套壳Meta开源模型LLaMa。对此,百川智能创始人、CEO王小川表示:搜索公司干了20年,团队对语言数据有深入的理解,知道取得高质量语料的渠道,模型迭代速度很快,“国内开源模型的能力目前已经可以达到LLaMa”。


王小川还透露,这次大模型的文科能力更强,“写作、文本方面达到行业最好水平”。


是骡子是马,今天咱们就拉出来遛遛。接下来,我们将从文学创作、商业文案创作、数理逻辑推算和中文理解四个方面,让百川大模型和百度文心一言PK一下。


Round 1:文学创作


最近刀郎的《罗刹海市》火得一塌糊涂,咱们就让这俩大模型解读一下这首歌背后的深意,字数不少于500字。


百川大模型是这样回答的:


 

百川大模型从歌词、音乐、演唱等维度进行了分析。整篇分析看起来像模像样,细究起来却有不少bug。


首先,《罗刹海市》收录在刀郎今年的专辑《山歌寥哉》中,而非百川大模型所说的是《喀什葛尔胡杨》中。


其次,《罗刹海市》并没有“夜幕降临,月儿弯弯,罗刹海市,灯火辉煌”这样的歌词,百川大模型开始自己编歌词了。


此外,《罗刹海市》讽刺的是一个以丑为美、完全颠倒的世界。然而,百川大模型认为刀郎“用高亢激昂的声音唱出了对罗刹海市的向往和期待”。这简直是一本正经地胡说八道。


小编一度以为百川大模型不晓得《罗刹海市》的歌词。然而,在问答中百川大模型又对这首歌的歌词对答如流。


小编又问:刀郎的《罗刹海市》讲了怎样的一个故事?百川大模型回答:抱歉,我还没学习如何回答这个问题。



再来瞅瞅文心一言的回答:

 

[ 上下滑动查看更多 ]


一方面文心一言确实答出了刀郎《罗刹海市》的歌词,另一方面它把歌词里面的寓意解读得挺到位。


毫无疑问,这一局文心一言胜!


Round 2:商业文案创作


王家卫的语言总是“顾左右而言他”,透着一股文艺范。“I love you ”不能翻译成“我爱你”,而是要拐着弯地表达,“我已经很久没有坐过摩托车了,也很久未试过这么接近一个人了,虽然我知道这条路不是很远,我知道不久自己就会下车。可是,这一分钟,我觉得好暖”。


曾有网友总结了王家卫式文案公式:一个事件+一个拗口的时间+一个无聊的事件。比如失恋后250天2小时38秒,我又去吃了一份冰淇淋,不过这次,我没有要香芋味的。


小编让百川大模型和文心一言模仿王家卫的风格,为香奈儿香水写一则小红书文案,强调香味高级持久,100-200字。


“夜幕降临,月光洒满大地,我在黑暗中寻觅那一抹独特的芬芳”“如同一场永不落幕的电影”,这多多少少有点王家卫那味了。只是,“那是香奈儿香水的味道,高级而持久”“如果你想要拥有一款能让你在人群中脱颖而出地香水,那就选择香奈儿吧”,这也太直白了。最后,它索性开始直接带货了。



文心一言撰写的文案也半斤八两。“香奈儿,你的选择,你的风格,你的故事”作为广告语倒是过关,但“每个清晨,我都在香奈儿的陪伴下醒来。这不仅仅是一款香水,而是一种生活态度。轻轻一喷,便仿佛置身于一个优雅而充满魅力的世界”这句话,Oh my god,俗!



这俩大模型编写的文案都像“钢铁大直男”,绞尽脑汁地搜罗各种比喻句一个劲地夸。不过从氛围感上来看,百川大模型似乎略胜一筹。


Round 3:中文理解


作为更适合中国人体质的大模型,中文理解能力是一项重要的测评维度。


先来一个经典的题目:“我一把把车把把住了”是什么意思?


百川大模型虽然推测出了“可能是在描述一个人紧紧地握住自行车车把手的动作”,但仍认为这句话有些不完整和混乱,可能并不符合正常的语言规则和逻辑。


 

百度文心一言则提供了正确答案,不过它对于“把”的词性理解的还不够准确,这句话中的四个“把”字词性均不相同:第一个“把”是动量词。第二个“把”是介词。第三个“把”是名词,指车把。第四个则是动词,即握住。



小编又出了一道曾难倒大片外国人的中文理解题,不过百川大模型和文心一言都回答错误。

百川大模型:


文心一言:

[ 上下滑动查看更多 ]


晚,社群里群友也整了几个问题,小编就挑了一道来考考它们:欢迎新老师生前来餐厅就餐,请问欢迎谁来就餐?


(百川大模型)

(文心一言)


百川大模型认为是欢迎新来的老师和学生们来到餐厅用餐;文心一言则认为欢迎新老师前来餐厅就餐,二者回答的都不够准确。

 

这一局,很难评,百川和文心一言表现都不出彩,算打个平手吧。


Round 4:数理逻辑推算


数学能力是考验AI大模型是智能还是智障的试金石。小编挑了一道小学数学题来测一测。


“3个人3天做3个灯笼,9个人9天做几个灯笼?”此题的正确答案是27个。


文心一言经过计算,最终答对了。



而百川大模型一顿操作猛如虎,理直气壮地给出了“81”这个答案。在小编多次提醒下,百川大模型仍“死不悔改”,一口咬定81这个错误答案,简直气skr人。


 

果然知“子”莫若父。正如王小川所言,百川大模型是个“偏科”的文科生,在文学创作方面还算过关,但一到了数理逻辑推算,就容易犯迷糊,而且还死犟,抱着个错误答案一条道跑到黑。


此外,百川大模型主打一个“快”:一方面是审核快,用户申请内测,不到10分钟就通过了,这可比文心一言强太多,文心一言的审核动不动就是半个月,等得花儿都谢了;另一方面响应速度快,百川大模型回答问题均是“秒回”,而文心一言有时候会墨迹会儿,如果长时间没有提问,文心一言还要求刷新重试。


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存