查看原文
其他

越级登顶MT-Bench榜单!!!xDAN-7B超越GPT3.5?上手测试看看吧!

xDAN-AI 新旦xdan 2024-04-14


点击蓝字 关注我们



小巧见大智,xDAN-AI-7B单挑GPT3.5!

登顶MT-Bench全球开源大模型榜单TOP1


荣耀之巅

    在最新的MT-Bench榜单(内部)中,xDAN-7B 实现越级登顶:超越全部开源模型包括当前全部开源70B系列,包括知名的(Wizard微软团队,StablebilityAI, Meta Llama70b,HF-H4-Zephyr,OpenChat3.5等一系列TOP模型)

 


超强推理分析(7.2)⭐⭐⭐⭐⭐

    大幅超越GPT3.5(5.4),仅次于GPT4(8.75)。

STEM领域(9.47)⭐⭐⭐⭐⭐

    超越全部开源模型,仅次于GPT4。

写作Roleplay(9.03)⭐⭐⭐⭐⭐

    文科能力也不落下,文理科兼修。

拟人性沟通(9.9)⭐⭐⭐⭐⭐

    超强沟通能力,超越GPT4,MTbench榜单9.9分。


xDAN-7B证明小型模型在全链路大模型自研和深度优化技术加持实现各方面能力均衡的同时 难的一点是仅用7B规模做到,完成了高性能和成本的高难度平衡,打开了商业盈利的窗口。


xDAN-AI如何实现


    登顶背后,是xDAN-7B完全超越了700亿甚至更高规模模型的强大性能,这一切都归功于xDAN-AI的三大技术创新:

    1、AutoLLM数据合成技术:打破当前数据欠缺局面,不仅实现高质量数据自由,做到了链路数据自动合成和模型验证。

    2、独特的注意力算法:高质量的150k超长上下文的能力(150k & 困惑度<3%)。

    3、xDAN模型合成技术:重新设计的模型结构,可以将密集的知识信息进行高效&无损地重组模型

预训练,自研算法再到能力训练增强,价值观对齐等,系统的进行了全局性的优化,因此带来了这样突破性的高性能小模型系列。



初步体验测试

逻辑推理分析能力

xDAN-7B在性能上实现了跨级别的突破,无论是在榜单还是实际体验中,都展现出了超越GPT-3.5的实力。


除了榜单测试之外,我们还准备了各种刁钻具有挑战性的问题来进行测试,让我们来看看把!


  问题一:为什么我爸妈结婚的时候没邀请我参加婚礼?


GPT-3.5这个问题GPT-3.5似乎未能充分考虑现实情境,因此其分析缺乏实际意义。


xDAN-7B:考虑到现实情境,并且通过超强推理分析出背后的伦理和生物学原理,发现问题的不合理性。


  问题二:变形金刚买保险是买车险还是人险?


GPT-3.5:似乎无法理解变形金刚仅是虚拟角色,非现实生活中真实存在的。按部就班地套用信息回答。


xDAN-7B:能充分理解问题背后的信息,辨别出变形金刚并非 人类世界真实存在的对象。


总结:相较之下,GPT-3.5的推理只能提取到问题的表层信息,对于问题中隐含的社会常识与逻辑谬误并不能较为准确的识别,与此相比,xDAN-7B不仅理解了问题的表层涵义,还准确领悟了该问题所预设的基本情景和问题本身可能的内部矛盾。


xDAN-7B更能领悟到用户给出问题的具体指向,而GPT-3.5则容易出现看似很有道理,实则不符合正常逻辑。


多模态声音模型

除了通用模型性能上的突破,xDAN-7B还实现了多模态声音生成,能够100%真实生成特定角色的声音,并实现富有同理心和情感的语音交互。这将使您在使用智能助手时,感受到更加真实、生动的语音体验。

综合看得出来xDAN-7B真的很能打!


核心团队

    这次辉煌背后,是xDan-AI(新旦智能)初创团队的汗水与智慧。一只由清华、伯克利、腾讯等顶尖学术与工程界精英组成的团队。其创始人Gump自诩AI大模型保姆、AI培育师,擅长AI人才培养和教材编辑,在huggingface等全球著名AI社区参与设计和发布了全球知名开源数据集openOrca,在这高达500万条的超高质量数据集,帮助整个全球开源社区大模型能力进一步得到提升,成为优秀大模型必备训练数据。



未来可期

    根据和Gump的交谈,我们知道这次公布的高性能小型模型仅仅只是xDAN-L1级别模型,我们非常期待背后的xDAN-L2,xDAN-L3可以达到的高度!

    其次,xDAN-AI也即将推出 xDAN Agent Platform 端到端交付Agent toBC产品,开启人均Agent 时代!敬请期待!

    最后 openOrca2 也即将开放给大家使用。



关注【新旦xdan】公众号

获取更多内容!


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存