查看原文
其他

布局多模态大模型,清华团队「生数科技」完成近亿元天使轮融资

生数ShengShu 2024-04-15

北京生数科技有限公司(以下简称“生数科技”)正式宣布完成近亿元人民币的天使轮融资,本轮融资由蚂蚁集团领投,BV百度风投、卓源资本跟投,目前估值已达1亿美金。本轮融资后续将主要用于核心研发团队的建设,加速多模态大模型和应用产品的研发。


生数科技成立于2023年3月,由瑞莱智慧RealAI、蚂蚁和BV百度风投联合孵化成立,致力于成为全球领先的生成式人工智能基础设施及应用建设者。前瑞莱智慧副总裁唐家渝出任首席执行官。目前,生数科技正积极打造世界领先的可控多模态通用大模型,致力于通过生成式AI技术提升全人类的创造力与生产力。


SHENGSHU

自研多模态深度生成式大模型

生成能力领先国际水平


预训练大模型范式的出现,让模型在突破一定的规模界限后涌现出惊人的智能,面向未来,多模态融合将成为下一阶段智能涌现的关键。唐家渝表示,人类与真实世界的交互天然是多模态的,能够同时处理包括文本、图像、视频、语音等多模态信息,因此多模态感知和生成是发展通用人工智能的关键要素。但他也强调,拥有多模态能力不意味着拥有多模态大模型,多模态的发展不在于对不同跨模态能力的简单集成,而是需要在底层构建统一的通用基座,打通任意不同模态的输入、转化与输出,只有这样才能将不同模态间的知识真正有效地融合、转化与学习,进而涌现出更准确丰富的感知与生成能力。


秉承这一理念,生数科技成为国内最早布局多模态通用大模型的团队之一,于2023年初即开源了全球首个基于Transformer的多模态扩散大模型UniDiffuser,首次实现基于一个底层模型高质量地完成文生图、图文联合生成、图文改写等多种生成任务。基于此前积累,生数科技也正从0到1打造着产业级的多模态深度生成式大模型,覆盖文本、图像、3D模型、音视频等多个模态。目前该大模型正在快速迭代中,现阶段已于图像生成、3D内容生成、视频生成等任务中实现全球范围内超高水平的生成效果。


3D生成效果


注:从上往下依次为生数、Google、OpenAI、NVIDIA的生成效果

生数的细节、纹理、颜色展现更丰富,真实感更强

生数 3D生成效果:细节、纹理、颜色展现更丰富,真实感更强

Google DreamFusion  3D生成效果

OpenAI SHAP-E  3D生成效果

 NVIDIA Magic3D 生成效果


视频生成效果


注:根据文本描述进行视频自动化编辑

最左原视频、中间生数效果、最右Runway效果

生数在细节把控、真实度方面效果更显著

Prompt: a girl with exquisite and rich makeup

Prompt: a Swarovski crystal swan is swimming in a river

Prompt: a red car


图像生成效果


唐家渝表示,现阶段市面上的模型和产品仅仅解决了初级阶段的可生成性问题,但生成的结果仍有很大的不确定性和不可控性,模型对用户意图的把握、精确细节的控制仍存在很大的不足,比如难以对生成的图像画面中元素的位置、细节做到准确的控制,生成的3D模型在表面精细度、色彩光影的准确性方面仍处于较低水平。


可控生成是成熟商业化的重要前提,生数科技通过优化底层算法已于短时间内实现领先行业的生成效果,例如3D生成效果已大幅领先Shap-E(OpenAI)、DreamFusion(Google)、Magic3D(NVIDIA)等主流模型,能在无需任何3D训练数据的前提下,通过文本描述自动生成高质量的带纹理的三维网格与NeRF图,包括生成复杂效果和360°场景、根据同样的描述生成不同形式的3D内容,以及首个实现了基于三视图自动生成高质量的3D内容,是目前业内最接近产业级应用的3D生成效果。


其次,图像生成已超过Stable Diffusion最新版基础模型水平,在构图、风格、画面精准度等方面能够更好地把握用户意图,同时预计将于年内赶超Midjourney最新版本。未来团队还将重点持续快速迭代底层多模态大模型能力,进一步提升可控生成水平,推动商业化的快速落地。

SHENGSHU

长期深耕基础理论

国内深度生成式模型领域的引领者


之所以能实现如此显著的技术优势,一切源自于团队多年在生成式模型理论方面的积累。生数科技研究团队主要来自清华大学人工智能研究院,长期致力于贝叶斯机器学习的基础理论和高效算法研究。早在2013年,就在国内率先开始了对深度生成模型、贝叶斯深度学习的研究工作,在生成式模型理论基础、高效学习和推理算法、模型预测性能提升,以及音乐生成、人脸合成、对抗攻击迁移性提升等应用方面均有诸多创新成果。团队于2017年发布贝叶斯概率机器学习平台“珠算”,这是国际上最早的面向深度概率模型的编程库之一,支持包括GAN、VAE、Flow等深度生成式模型在内的各种概率建模。


2020年以来,扩散模型(Diffusion Model)在图像生成等任务中展现出强大的生成潜力,催生了Stable Diffusion、Midjourney等明星应用。基于在生成式模型方向的多年深耕,生数团队也是在国内最早开展扩散概率模型基础研究的团队,覆盖基础理论、骨干网络、高速采样、可控生成等全栈底层原创研发能力,已于ICML、NeurIPS、ICLR等国际学术顶会发表相关论文20余篇,是目前在扩散概率模型领域发表论文成果最多的国内团队,并有诸多引领国际的代表性工作。


例如,针对扩散模型采样速度缓慢、计算成本高的固有局限,团队从基础理论和底层框架层面提出解决思路,推动了图像生成领域的快速发展:2022年1月,提出了一种新颖的无训练推理框架Analytic-DPM,在无需额外训练的情况下,直接估计得到最优方差,大大加速了采样效率,相较传统模型DDPM加速了近20倍,该成果被评选为ICLR 2022杰出论文,同时被OpenAI应用于 DALL·E 2 模型处理策略中;同年6月,又提出了采样算法DPM-Solver,只用 10 到 15 步就能获得高质量的采样,该成果入选NeurIPS 2022 Oral,至今仍作为全球最快图像生成算法被Stable Diffusion等大量开源项目所采用。


值得一提的是,团队指导培养的多位学生也已成为生成式AI领域最顶尖的科研力量,包括扩散模型领域的知名研究者宋飏、宋佳铭以及ChatGPT两位华人研究者翁家翌、赵盛佳等。目前,生数科技还吸引了多位来自全球知名高校、顶尖科技公司和艺术机构的复合型背景成员,拥有多项全球领先的人工智能领域研究成果和十余项发明专利。唐家渝表示,作为当前科技领域最重要的演进方向,AIGC领域质变发展的关键就在于底层核心技术的持续突破,这也正是拥有深厚科研背景的生数科技所具备的核心竞争力之一。

SHENGSHU

以AI解放想象力

提升全人类的创造力和生产力


在AIGC的时代,创意的有限性将得以拓展和超越,在多模态生成式大模型能力的支撑下,人人都可以将心中多想快速地描绘出来,通过输入一段文字、一句语音或一幅图像就能创作一幅高质量的画作、一段音乐或视频。而在专业领域,生成式AI将作为想象力引擎,帮助创作者从简单、机械的工作中解放出来,更高效地服务于灵感的扩展和落地。


现阶段,生数科技正基于底层的多模态通用大模型,面向图像创作、3D资产创建的细分场景打造垂类应用。唐家渝表示,未来创作的物理边界也将被打破,例如将AIGC和传统3D打印等生产技术结合,可将所想的内容即时地生产出来,传统的生产制造模式也将迎来革新。


AIGC时代已经全面开启,生数科技致力于成为新时代的AI基础设施和应用的建设者,通过打造领先的具备丰富模态感知与生成能力的AI产品,使每个人都能够从简单枯燥的任务和专业化工具的使用束缚中解放出来,不论是专业还是非专业人士都能将心中所想快速、自动化地实现,通过解放想象力进而提升全人类的创造力和生产力。


投资人观点


蚂蚁集团表示:“预训练模型、扩散模型等关键算法和模型的出现与演进推动了生成式AI的快速发展。生数团队在生成式模型、扩散模型、大模型研发探索与科研人才储备上具备坚实的基础,同时学术与产业深度融合的背景,也赋予了团队贯穿从底层技术研发到产品应用落地的独特能力。我们相信生数团队能够在这波AI浪潮中突围而出,同时也期待团队能够不断开拓多模态大模型的技术边界和应用场景,成为中国生成式大模型领域的佼佼者。”


BV百度风投表示“多模态是大模型的重要发展方向且正处于高速发展阶段,未来有望在更广、更深的层面影响社会生活的多个领域,创造巨大的产业价值。大模型发展要取得突破需要对底层算法原理有深入理解,同时需要具备广泛的专业知识和经验,生数团队在深度生成式模型基础理论和算法研究方面拥有深厚的积累,同时创始团队在大模型研发能力、工程化能力和产品化创新能力等方面具有经验优势。我们对团队未来发展充满信心,也希望团队在扩散模型和多模态大模型方向上取得更多的突破和成就。”


卓源资本表示:“AIGC正在走向真实落地,这一过程需要保持对前沿技术的探索和深刻理解。生数科技孵化自是国内最顶尖的机器学习基础理论研究团队,在贝叶斯模型、高效算法和概率建模等方面拥有系统深入的研究成果,为团队在生成式大模型领域的工作开展提供了重要的底层支撑,同时也为团队构筑起领先的竞争优势。期待在科研背景、创新精神以及对多模态发展的深入理解等多方优势的驱动下,生数团队在未来能快速实现令人瞩目的发展。”


简历投递hr@shengshu.ai(算法、产品、研发多个岗位招聘中,欢迎投递!)

合作交流:contact@shengshu.ai


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存