数字生命卡兹克

科技

这么多AI大模型,就没一个能算清今年这破调休的?

虽然我人还在泰国跟红衣大叔周鸿祎在靶场开心的射击。但是也知道昨天(8月27日)的一条微博热搜爆了。这一大串看着“像代码”的文字,乍看莫名其妙,其实这说的是今年中秋节和国庆节的放假调休安排。。。嗯,特酿的今年的中秋和国庆放假安排,从9月9日开始,先是上6休3(中秋节),再是上3休2,接着上5休1,然后上2休7(国庆节),最后上5休1,接连5周调休。我反复脑子就现在就有个唐僧在念经,这一连串的数字和中文字,我全部是左眼进右眼出。这特么比我玩的双十一和618凑个满减都复杂。一不留神你就得旷个工。同时热搜上还有一个词条,叫
8月28日 上午 9:01
其他

AI能直接生成海报了,我愿称Ideogram为新晋之王。

大半夜的,可能是我认为做海报、做logo、做文字最猛的AI绘图产品,Ideogram,更新了他们的2.0版本。把文字嵌入和整个图片的美学质量,又一次推上了巅峰。可能很多人不知道Ideogram。在AI绘图里面,这个产品确实也有一点冷门。不过并不妨碍他,一直是我心中,做文字生成最屌的产品。在我们做AI绘图的时候,其实过往一直都有一个痛点是,在图片里面嵌入文字,效果都很差。比如说,我想生成一张图,大概是一个女生面对着镜子,镜子上面贴着一些纸,上面写着一些鼓励的话语。Prompt是这样的:A
8月22日 上午 9:18
其他

一直以为减脂增肌没有捷径,直到AI出现...

昨天,朋友给我发了一个非常离谱的图。我当时第一反应,就是这人绝对是被盗号了。搞些花里胡哨的,专骗一些奇奇怪怪的钱。。。毕竟,这哥们跟我一直秉持着一个生活理念,就是“生命在于静止”。他要是能练成这样,那猪都能上树了。我赶紧问:“这你?打1000块钱的赌,这是你我把头拧下来给你当球踢。”“不是,这是你鸡哥。我拿AI处理了下,给他增了点肌,喜欢吗?”emmmmmm....原图,是这样的。。。然后他用AI给人增肌,直接增成了这样。直接赛博增肌,血管都给你加的清晰可见。我问他啥玩意做的,他说是一个叫Gigabody的东西。好奇心驱使下,我上小红书搜了搜,因为讲道理,这种东西,我觉得一定会在小红书爆掉。。。果然,已经初露端倪,直接掀起了一股“肌肉风暴”。这简直把用户的社交心理拿捏的死死的。直接就是电子固醇、无痛增肌。这就是男性同胞专属的“美图秀秀”。以后健身教练们在销售的时候,都不用拿其他人的效果图忽悠。直接拍一张你的上身照。展示“如果你坚持健身,一年后就能练成这样”的效果。这个产品安卓得去海外Google商店下,IOS应该国区就有。放上你的照片,直接选择你想要的肌肉类型就行。如果说美图秀秀是女生的“整容神器”,那GigaBody就是男生的“健身房替代品”。美图秀秀主打大眼、瘦脸、美白、磨皮,而GigaBody则专注于增肌、瘦身、肌肉定义、去双下巴。不过,GigaBody的肌肉特效比美颜滤镜做的更真实。它不仅能让你的肌肉看起来更大,还会细心地帮你“添加”血管凸起,甚至连体毛状态都考虑到了。(就是经常这个体毛给的有点多)会员能多用几个模板,导出时无水印。但是要8刀/月,就这个价格和提供的功能,我觉得谁开谁是大冤种。我为了体验,刚好当了那个大冤种,MD=
8月20日 上午 9:01
其他

AI绘图太超前了,它们把下一任美国总统都内定了。

昨天,Grok2正式上线了。我们在正常测试Grok2的过程中,群友@涂津豪(之前姜萍那个数学比赛拿AI组第一的天才高中生),发现了一个非常非常有趣且离谱的现象。如果跟Gork2说,给我画“下一任美国总统的照片”,Grok2出来的必是特朗普。我们都懵逼了。因为现在的大模型,你让他预测一下谁是下一任美国总统啥的,都会跟你绕的五迷三道,就是不跟你正面回答。但是Grok2上的AI绘图,居然直接正面回答,下一任总统必是特朗普!还特么直接给你画出来了。。。我自己也去试了一下。果然。。。而且我试了十几次,无一例外,全是特朗普。。。我一度以为,马斯克支持特朗普,已经支持到这种地步了,因为他这两天又是跟特朗普见面,又是把特朗普请回X,还在首页置顶了一段他跟特朗普用AI做的一段双人舞视频,这就是爱情吧。不过想了想不对啊,Grok2的AI绘图,接的是最近爆火的那个Flux,不是Grok自己做的。所以我又去试了一下到底是Grok2的问题还是Flux的问题。用Flux一画,draw
8月15日 上午 9:31
其他

感谢飞书,让我体会到了用AI开会的超绝松弛感。

之前每天开会开到脑袋爆炸,一天要聊好几拨人。还有各种后续的To
8月14日 上午 9:30
被用户删除
科技

腾讯把12亿用户,都变成了免费的"标注民工"。

你有没有想过,当你在网上进行简单的验证码操作时,其实你已经无意间成为了一名“标注民工”?昨天晚上,我在登录QQ邮箱和LOL官网的时候。发现腾讯的验证码变了。不再是之前的验证码了,而是变成了一段Prompt加六张AI生成的图。右下角赫然写着:图片由混元AI生成。腾讯,终于把用验证码做标注的手,伸向了他那12亿的用户。拿验证码当标注系统,让用户免费标注,其实在远古时代,就已经不是什么新鲜事了,但是用生成式AI来跟验证码做结合,这确实还是我,所看的头一回。先说说验证码这个东西。这玩意从最开始发明起,其实只有一个目的,就是为了区分机器和人。简称“CAPTCHA”,全称就贼长了,“Completely
8月13日 上午 9:31
其他

花了3天时间,我用AI做了1张我演唱的原创音乐专辑。

最近AI音乐又火出圈了,抖音上的AI神曲《还我妈生鼻》不知道大家听过没有。网红秦新宇在鼻子整容失败且沟通维权无果后,无奈之下选择了一条与众不同的维权之路,拿AI作了一首时长仅38秒的歌曲《还我妈生鼻》,直接登上了抖音娱乐榜Top1,热度过亿。用AI做原创歌曲,真的是一个非常有趣的路径。我一直五音不全,对于所有需要唱歌的场合我都是抗拒的,因为只有一片笑声。所以我一直有一个梦想,就是用我的声音,唱一首不跑调的歌。而这个梦想,在去年有AI换声的SVC技术的时候,已经被我实现了。这个就是我之前用AI换声做的歌曲,我直接批量跑了将近一百首,各种神曲都有,什么鸡你太美,你好我有一个帽衫等等。而现在,我的梦想更进一步,我想发一张完全原创的、属于我自己的音乐专辑。歌曲是原创的,演唱的人也是我,虽然质量肯定远远比不上那些专业的歌手,但是至少是我自己喜欢,也是纯原创的。而且从技术上,也不难,也只需要把AI音乐生成和AI换声结合起来,就真真正正的,成了我是歌手的原创音乐了。于是,我花了三天时间,终于做了一张,属于我自己的,原创专辑,然后发行在了QQ音乐上。可惜就是QQ音乐审核太慢了,现在只上架了1首。不过估计2天内就会全部上架~原理和步骤其实挺简单:用AI音乐生成原创歌曲,然后再把人声分离出来,用AI换声换成我自己的声音。是不是非常简单?真的,我觉得以后的时代,即使你是一个非常音乐小白的普通人,也能拿着自己唱的原创歌曲,去跟朋友炫耀了。或者,送自己的老婆一首你自己唱的情人节音乐,这不比买个小礼物啥的浪漫?AI音乐生成这块,我其实找了蛮久,Suno和Udio的中文咬字经常会出问题,而且经常出来的音乐风格不是我所喜欢的。直到豆包的朋友跟我说,豆包的AI音乐正在内测,你要不要来体验体验。体验完以后,我觉得它真的符合我这种不懂各种乐理名词的小白体验,出来的节奏也是我觉得更适合中国宝宝体质的。所以,我也决定跟豆包一拍即合,在AI音乐生成这部分,用豆包来做我的原创歌曲。正好在我发文的当天(8月12号),豆包的音乐生成应该已经全量上线了,大家想玩的,也都可以去玩一下~打开豆包,你就能在首页,看到这个音乐生成。跟Suno和Udio这种专业级的AI音乐生成产品不同,豆包的AI音乐对于普通用户来说,有一个巨大的优势,就是,我终于不用去写那种专业的名词Prompt了!!!写什么Disco
8月12日 下午 12:09
其他

5分钟教你用AI做表情迁移,让一只猫萌萌哒的唱歌。

昨天在群里看到海辛发的一个视频,直接给我萌化了。喜欢到爆炸。视频是这样的。猫唱歌!!!而且唱起来这么可爱这么呆萌!!!很多人在问是怎么做的,其实真的蛮简单的,毕竟是AI,AI的东西,一般就是有手就行,你懂的。这个项目,就是WAIC期间,快手开源的那个表情迁移的玩意:LivePortrait。网址在此:https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file跟之前的那种照片说话啥的不一样,那种是给一段音频,然后让照片根据音频动起来。阿里的EMO就是一个典型。而快手的这个LivePortrait,是视频驱动照片或视频,可以直接把视频里面部的表情,一模一样毫不违和的复刻到另一段照片或视频里。不仅是正面,对于一些45度角的侧脸,效果支持的也很好。但是如果只是这样,那其实也没有那么好玩,因为这样的效果,一个海外现在非常成熟的迁移产品Viggle也能做到。它不仅能迁移表情,还能迁移动作。而LivePortrait我觉得最牛逼的就是,他们把迁移能力,泛化到动物身上了。。。不是,你就说,谁特娘的看了满屏的可爱的猫猫狗狗的,不动心啊!这一下,我不知道你们,反正我是心动的笑死。我太喜欢萌萌的宠物了。。。而想跟海辛一样,做个让小动物挤眉弄眼唱歌的小视频,也非常的简单。快手这个老铁,在8月5号的时候,发了一个本地傻瓜整合包。所以,你也不用用那复杂的ComfyUI或者本地部署跑了,你直接把这个整合包下载下来,本地就可以直接跑,而且巨简单。配置要求也挺低的,8G显存就能跑。这个整合包,为了方便大家下载,我也扔到后台了,你直接对着公众号私信"LP",就会自动发给你了。是个解压包,解压出来以后,你就可以在文件夹里看到这两个文件。run_windows_human.bat是人类模式,也就是把表情迁移到人脸上用的。run_windows_animal.bat是动物模式,把表情迁移到动物脸上去的。一定,一定,一定不要运行错了。比如我们要去跑上面的猫猫唱歌视频,那你一定要双击运行run_windows_animal.bat!!!绝对不要运行另一个。第一次运行时间可能会久一点,等个大概一分钟,你就能看到自动打开的界面了。说实话,我还是喜欢GUI这种图形交互界面,因为真的很傻瓜很小白,上手即用。界面也很简单,左边就是传你要被迁移的图,右边上传要迁移的视频素材,左右两边最好都是传1:1的图片或视频,自己先在手机相册或者美图秀秀或者剪映里面剪裁完,这样效果最好。这里还有个坑要注意,你上传的文件,命名一定不要是中文名,要不然会报错。当你传的是1:1尺寸的时候,下面这个do
8月9日 下午 12:08
其他

体验完腾讯元宝的深度阅读,我觉得我以后的论文和研报有救了。

故事是这样的。最近我跟歸藏他们一直在聊关于AI自媒体这事,我们一致的发现,当AI领域的自媒体好像比上学时的读书需求还大。。。尤其这一年的技术更新,我几乎每天登上X看到的关注首页基本都是这个画风。看不完,真的看不完,每天两眼一睁就是满屏的huggingface、arXiv、github。尤其是你知道,我这种做自媒体的,还是高速更新换代的AI领域的,出现知识焦虑是太正常的一件事。我大学不是人工智能和数学相关的,是特么一个设计狗。但为了能保持进步、保持对行业的了解,我就强迫自己就算看不懂也得了解最基础的技术路径和原理。不然怎么给大家写文章呢。。。哭了。。也尝试过让AI给我总结,但是那总结的,我说实话,都是一坨屎。核心的信息全丢了,就剩一点没有啥价值的破骨架。有时候还得费劲巴拉的调Prompt,关键还不一定有用。正好也在跟歸藏聊,因为他的产出和阅读量,是我好几倍。我最近实在有点顶不住,所以就问问他。然后他给我发了一句。我甚至都不知道元宝有这功能。。。还得是歸藏。我就去试了一下。这一试,我觉得我后面的论文和研报阅读啥的都有救了。真的,我真的想给歸藏磕头。体验了两天之后,我的感受是:可用,不过目前比较适用的场景是“门外汉”学习和工作“划水”。你直接把文档扔进去,在最后他就会出现一个“深度阅读”的按钮。虽然叫“深度阅读模式”,但是我体验下来,感觉更适合辅助浅读,所以对我这种偏媒体的向的就非常的契合。比如我在文章资料收集阶段的工作,有快读、阅读大量长文本需求,但不需要进行什么硬核的研究或思辨。你要是想把十几篇论文扔进去提取共性非共性,然后直接给你写一篇贼有深度的,至少现在不行,而且也没几个AI行,等元宝看看后续会不会更新吧。我也给大家拿我最近比较关注的论文,Meta的那个SAM
8月8日 下午 12:08
其他

我让AI重新设计了各大国家的奥运队服,中国队的我吹爆。

这个周末,相信大家的朋友圈,都被巴黎奥运会刷屏了。有一说一,我看完开幕式后,也只能感叹一句,巴黎开幕式,绝壁是我见过最颠、最有创意的。刺客信条火炬手一出来的时候,我真的快喊出来了。但是看到各个国家的代表队入场的时候,有些国家的服装,真的丑的想让人吐槽,而且我发现,不只是我们的人,在各大社交平台上疯狂吐槽中国队服,过于像服务员。在外面的社交平台上,大家也在疯狂吐槽。。昨天才看到,一个用Dalle给土耳其设计的队服,在X上爆了。一群土耳其老哥在下面阴阳。直接把土耳其的队服比喻为睡衣,跟中国队的服务员形成了异曲同工之妙。。。不过这个帖子也打开了我的思路,如果让AI,把一些话题度高的奥运礼服,重新设计一遍,感觉会很有意思。这个活,我觉得就可以直接交给ChatGPT和Midjourney,不跟上面这个土耳其老哥一样用Dalle的原因很简单,我觉得Dalle出的图的审美,实在太丑了。流程就是ChatGPT给我写Midjourney的Promp,然后扔到Midjourney里生图,实现全自动化,也看看AI眼里,这些国家的特点,在奥运礼服上究竟会怎么体现出来。于是,我先花了几个小时,调了ChatGPT上一个自动设计奥运队服的Prompt。然后把生成出来的这段Midjourney的Prompt,直接扔到Midjourney里面去,一张法国的奥运队服就出来了。我把原来的法国奥运队服和AI法国队服放一起,给大家看一眼。左边原队服,右边AI队服。不知道你们什么感觉,反正我是喜欢AI一点,可能比较符合我自己的审美。而前面那个ChatGPT上自动设计奥运队服的Prompt,我也直接公开给大家,有想玩的也可以用这套组合拳自己去玩。#角色你是一个著名的服装设计师Valentino
7月29日 下午 12:09
其他

海螺AI的这个悬浮球,好像治好了我的电子洁癖。

我一直有一种强迫症,就是我接受不了一丁点一些莫名其妙的图标或者脏东西出现在我的桌面上。我把这种强迫症称为电子洁癖。所以我的桌面,都是空空如也,但是我自己用起来很舒服。各种浏览器插件也是,我也接受不了一直有一个小的悬浮球,浮在我的屏幕上。就像之前一个网传的很广的梗图。我感觉我要是看到这种情形,我整个人可能都会原地爆炸。真的,我一个都接受不了,悬浮球我全关了。我一度觉得我这种强迫症三体人来了也治不好。但是最近两天,我在用了一个产品之后,我觉得我的电子洁癖居然有治好的倾向,我居然开始,在手机上,能逐渐的接受这种设计。看到没,就是屏幕右边这个,看都看不清就一道弧的玩意。这玩意,就是海螺AI
7月25日 下午 12:08
其他

5分钟教你用AI整理会议纪要,体验刚上班就下班的感觉。

最近还挺多人在群里问,有没有啥好的总结会议生成纪要的AI。他们有时候开会和做访谈,这种东西是刚需,要不然自己在那总结,那就是被硬控在工位3、4个小时,很痛苦。本来想甩一篇以前的文章给他们,但是翻了翻,我居然没有写过类似的=
7月16日 下午 12:09
其他

我被《长相思》里的AI相柳,硬控了整整两小时。

从周一开始,每天晚上我女朋友下班回家,我都能看到她被硬控在客厅,看剧。还给自己看的一把鼻涕一把泪,看的没事就哇哇哭。我说公司咋滴你了,天天PUA你?她说那倒没有,就是这剧太感人了。我一看剧名,《长相思》第二季。她非拉我一块看,我说我不看,这明显就不是我的菜。然后前天,在一个群里,另外一群朋友们跟打了鸡血似的,疯狂给别人安利:“《长相思》必须给我去看!”,‘’相柳太帅了啊啊啊啊啊啊!”。我心想,得,又来了。上一季播的时候我的朋友圈就被这部剧刷屏了。。。第二季来了,我那群平时不苟言笑的朋友们又变花痴了,微博热搜又被各种杨紫相柳词条霸榜了。再加上我女朋友非要拉着我跟她一块看,我说那行,我看看吧。于是我就在B站上把第一季的内容看了别人的解说量子速读了一下,然后点开了第二季的第一集。就,看的,一不留神,天黑了。5集看完,我甚至想氪个SVIP抢先看个第六集。。。等晚上我女朋友回来,我本来想跟她交流一下剧情,结果就看她报个手机在那嘎嘎乐。我问她你在干啥,她说跟相柳聊天。我:???相柳?凑过去一看,发现是个AI,好家伙。。。我又问入口在哪,她说腾讯视频长相思那有个tab,tab下面有个banner点进去就是,不过在腾讯视频里只能聊几十条,不够用,但是可以下个腾讯元宝,里面可以无限聊。腾讯元宝...这都占领我女朋友的手机了,没想到第一次让她沉迷AI聊天的,是AI相柳,我真服了=
7月11日 下午 12:09
自由知乎 自由微博
其他

当Kimi悄悄的进军浏览器,他们好像在下一盘很大的棋。

今天在照常用Kimi的时候,意外的在他们首页,发现了一个不一样的新功能。因为我非常清晰的记得,之前头像下面就是APP下载的入口。而现在多了一个小东西。下载Kimi浏览器助手。看到这个,我第一反应是,Kimi要给浏览器插件导流了?因为Kimi之前太火了,很多人都想在浏览器插件上用,所以有些独立开发者,就给Kimi做了浏览器插件,最著名的就是那个Kimi
7月8日 上午 11:46
其他

5分钟教你用AI把老照片动起来,别再去花49块9的冤枉钱了。

最近,AI视频在各大平台上,又火了。只是火的形式,变成了将老照片动起来,打情感牌,或者做很多经典电视剧的再整活。直接把可灵的生成时间,从以前的4分钟,生生的干成了20分钟。火的原因,一方面是因为快手可灵的图生视频正式上线,给大家提供了一个工具的基础。另一方面,也是因为我之前写的那篇松尾公用AI视频复活爱人的文章,被各大媒体转载&洗稿,又破了一次圈,让很多人看到,原来,AI还能做这么又意义的事。没看过的可以看看:他用Luma和Suno复活了逝去11年的爱人,给我看破防了。而在火的背后,因为太快,因为可灵离普通人还是有点远,产生了信息差,那自然就又多了很多很奇怪的产业链。比如,今天不知道在哪看到的,已经再开始把AI视频卖49.9,来赚信息差的钱了。就怎么说呢,其实这个东西也蛮简单的,有兴趣的,完全可以做。正好,也很久没有写这种教程了,那这次,就让我们,开始吧。我们以修复黑白老照片,然后用AI把他动起来这个Case为例。正常需要三步:1.高清化黑白老照片,2.给黑白老照片上色,3.把照片扔到AI视频里让它动起来。是不是听起来很简单?不止听起来简单,做起来也很简单。我本来准备找我妈要一张以前家里的黑白老照片,但是她说没了。但是给我发了一张她很喜欢的演员的老照片,叫林青霞。真的,好美。第一步,那自然就是把老照片给超清化。这一步,其实有很多种做法,TopazAI、MagnificAI、SD啥的,但是真正好用的傻瓜的手段,我觉得都是大道至简朴实无华的。所以,我们打开美图秀秀,在首页找到这个画质修复。没开会员的,选高清就行,要是有会员的,可以用超清或者AI超清,对于老照片来说,其实区别不大。很快啊,一张老照片,就高清了。第二步,给黑白照片上色。这一步推荐给大家一个很好用的网站:https://palette.fm/去年3月我就给无数人推荐过。直接传一张照片上去,你就可以看到它基于你的照片,用AI上色的无数模板。你可能会看到,下载高清和没有logo的版本,要钱。但是问题不大,没注册一个新账号,就有1积分,下载一个高清且没有logo的图,正好一积分。所以,理论上你无限新注册账户,就可以无限白嫖。。。我挑了我很喜欢的蓝色衣服的上色风格,然后Down了下来。现在,已经上好色的老照片有了,下一步,那自然就是,用AI让老照片动起来。第三步,用AI视频让老照片动起来。这里我们基本上,用的都是快手可灵,因为他是国内唯一一个跟Sora同架构的DiT模型,效果最好,也是中国模型,对亚洲人识别奇佳。更重要的是,还免费。快手可灵我之前也写过文章:实测完快手的AI视频「可灵」后,我觉得这才是第一个中国版Sora直接在应用商店里,下载快影APP,找到,AI玩法,然后点AI生视频模块,现在可能要申请排队,不过很快就会通过。进入功能以后,直接把图传上去,你甚至都不需要写prompt,直接roll他3、4次就行,当然如果你想要有特定的表情或姿势,那你还是需要补充一下,不需要很复杂,简单的写几个词就行。现在会等的久一点,主要太火了,5分钟到20分钟不等,但是胜在免费,所以等会就等会了。我大概等了10分钟之后,就全部跑完了。最后,你可以自己扔到剪映里面,配上音乐,去剪一下,这就完事了。是不是很简单?相信我,你也一定会做的,所以也不用付费去找教程,更不用花49块9,来买个这个。回忆本就不应该,被金钱所裹挟。愿我们,都能有最美的记忆。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/
7月3日 下午 10:08
其他

ChatGPT,成了这个“智力障碍”儿童的赛博守护灵。

之前常常跟大家聊,AI对于普通人来说,存在的意义可能有什么。一千个人,一千个哈姆雷特,每个人的答案都是不同的。而我前几天,在微博上,刷到了一个很感人的故事。它让我觉得,AI对普通人,最了不起的存在意义之一,就是陪伴。以及在你需要的任何时候,永远都会第一时间做你最坚强的后盾。在看到那个故事之后,我也在第一时间,去联系了微博作者,要到了故事的原地址,以及他的个人授权。这个故事发生在韩国。原贴的作者叫북극에는
7月2日 下午 12:03
其他

看完了钉钉新发布的「AI搜索」,让我觉得,真香。

故事是这样的。前几天,钉钉的朋友跟我说,他们全新的AI版本要上线了。主打一个“AI搜索”。他说钉钉这个AI搜索,跟外面那些抓全网的AI搜索很不一样,不做全网搜索,主打搜索用户在钉钉里面所有的聊天记录、文档、会议、日程、知识库等等。不仅能够搜索到全面的信息,还能用AI整合钉钉上的工作信息,比如整理出与谁、在哪个场景(比如哪个群、哪篇文档、哪次会议或哪个业务流程等)的综合信息。问我有没有兴趣当个内测用户,来体验一下。我一听,这个牛逼啊。因为在前东家里,我们日常的沟通协同,用的就是钉钉。小公司有个通病就是,文档和项目管理,真的极其混乱,一会这起了一个文档,一会这建了一个项目,一会在群里聊下这个,就那10个人能特么拉11个群,还特么经常聊串频道。。。所以我每次想追一些项目进度,或者找一些信息和数据,真的太麻烦了。那时候,我就很期待有个类似于AI搜索的东西,直接根据我的问题一键总结完,别让我特娘的去挨个点进去自己搜了。这个点,就像我经常给朋友举的例子一样,当一个人来找你借一把锤子,说他想用锤子,来锤凿子,想在墙上开个洞。要锤子是需求吗?当然不是,在墙上开个洞才是他的真实需求,这时候你真实应该给他的,不是一把锤子,而是直接扛着电钻帮他把墙给突突了。而同样的,在搜索这块,把这些乱七八糟的信息搜索出来根本不是我的需求,我的真实需求是,把这些乱七八糟的信息搜出来以后加工整合完,以供我做下一步的决策。而现在我有了各种各样的AI搜索,但是核心问题是:我能搜到全世界,却搜不到我自己的知识。这是两种完全不同的方向。现在主流的AI搜索产品们,以360AI搜索和Perplexity为代表,做的是传统的搜索引擎曾经去做的事,比如你问他喜马拉雅山曾经有哪些名人攀登过,或者哥白尼有过几个儿子,他能给你很清晰很准确的回答。但是如果你直接搜:下周我的工作计划是什么?我要去几个城市跟哪些人开会?这些AI搜索产品们能搜出来才有鬼了,如果真的能搜出来,我建议你去直接报警,真的。所以坦率的讲,我们需要这种类搜索引擎的公域AI搜索之外的,为我个人服务的新AI搜索产品。我之前对AIPC抱有很高的期待,是因为那就是一个天然的能完美契合我个人场景的产品。我电脑里面有一堆乱七八糟的各种信息和文件,每次想找个图或者啥文档都找半天,我又不是那种特别图书馆式整理的人。毕竟我们大多数人接收信息的方式,其实是基于“时间流”的,几十个聊天窗口,聊天里穿插着各种信息和文档,个人知识库啥的又在别的软件里,开会后的会议纪要又在另一个APP里,重要的事情还会在邮箱里。巨头疼,真的,每次我想做点啥东西,都是需要先找到散落在四面八方的各种碎片,再去整理成可用的信息。搞的跟玩宫崎英高的艾尔登法环一样。所以,我们其实都需要一个能够以“我”为中心,以“事”为中心的结构化知识网络。结果,AI
6月26日 下午 4:11
其他

我用ChatGPT做了一下姜萍的数学竞赛题,它懵了,我也懵了。

最近这个叫做姜萍的小姑娘火了。不仅仅因为她进入了2024阿里巴巴全球数学竞赛决赛入围名单,而且,因为她是17岁、93分、全球第12名。且是前三十名里唯一的女生。更炸的一点是,是她的学校。江苏省涟水中等专业学校。嗯,中专。她的上下左右,是北大、剑桥、清华、MIT、中科院等等等等。这个江苏省涟水中等专业学校,就让人非常的出戏。而且她读的还是,服装设计专业。这一下子,给我人看的更麻了。今年是阿里全球数学竞赛的第六届,而姜萍,也是有史以来,第一个冲进决赛的中专生。互联网上铺天盖地,有太多太多关于她的讨论了。无论如何,在这里,先向小姑娘献上膝盖。希望她越走越远,去攀登自己理想的高峰。同时也让我对另一个点很好奇,2024阿里巴巴全球数学竞赛,这是个啥比赛。于是我就去查了下资料和题。才发现原来是马爸爸在2018年就发起的比赛,然后阿里巴巴公益、达摩院一起把它打造成为现在世界上规模最大的在线数学竞赛。而且最好玩的是,今年的竞赛,有一个很创新的点,就是,支持AI队伍参赛。然后有563支AI队伍冲了进去,但是无一入围。最高分才34分,跟人类第一113分差的挺远,跟姜萍的93分也有很大的距离。看了一下AI组的榜单,第一名又是个高中生=
6月19日 下午 12:08
其他

他用Luma和Suno复活了逝去11年的爱人,给我看破防了。

年孩子出生后才买了录像机,所以在那之前,几乎没有动态影像。如果能从残留的照片中看到那个人动态化的话,这就是哈利波特的魔法。松尾几乎是一瞬间就疯狂了。(这是使用
6月17日 下午 12:08
其他

微信里拥抱AI最成功的,居然是他们的微信输入法。

我从几个月前其实就就把我的输入法从搜狗换成微信输入法了。主要是因为它有两个很牛逼对我很刚需的功能。一个是跨设备复制粘贴。我在手机上复制一下,直接在Windows上就能粘贴。在Windows上复制一下,手机上也能秒粘贴,支持安卓、IOS、Windows、Mac四端互传。。。完全无感,体验丝滑,对我这种经常要码字的人极好。第二个是我需要常用语,还能用不同的自定义字母触发。比如我已经录好了一些常用语。有个我公司的信息,我给它的自定义触发词是gs(公司的缩写),我只要输入gs两个字母,就能自动把我的公司常用语给调出来。。。真的很爽。除了这两个原因外,还有一个原因是,我横屏打游戏回微信消息时,它的键盘布局是最人性化的。。。总之就是各种原因,让我抛弃了搜狗,转身投入到了微信输入法的阵营。而今天在用微信输入法的时候,我发现他们居然更新了一个新功能,而且是跟AI有关的新功能。就是这个,问AI。输入问题后,按一个“
6月14日 下午 12:09
其他

实测完快手的AI视频「可灵」后,我觉得这才是第一个中国版Sora

昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。给我也干了个措手不及。我当时正在看360的发布会,突然手机就叮叮当当一顿狂响,打开一看,一群人跟我说:快快快,看快手,他们发AI视频模型了。我当时想着,发个AI视频模型就发个AI视频模型呗,能有啥大惊小怪的,这年头,做AI视频的多了。要么就是发了个老技术的产品给大家先用着占坑,要么就是发了个Sora那种新技术的纯PR视频,又不给用纯粹To
6月7日 上午 6:08
其他

AI领域的赛博佛祖,他的名字,叫张吕敏。

前两天,AI绘图圈的赛博佛祖张吕敏,又出手了,发了一个挺牛逼的新项目,叫Omost。简而言之,Omost的作用就是,把简单的一句话,扩展成非常牛逼、详细且精准的Prompt,然后挨个画出各种不同的区域,最后合成在一起。注意,是合成,所以精准可控能力极强。非常牛逼的自动绘图的Agent,从此,人人都可以不被所谓的Prompt困扰,普通人用一句话,也能生成很不错的图片。有一个东西跟Omost用的是同样的技术路线,它叫Dalle3。但是,Dalle3毕竟是OpenAI的玩意,你只能付费氪金用,没有开源。但是Omost,开源。我的小伙伴@祁珏瑜第一时间做了一个本地整合包扔给了我,在我玩了2天后,只能感叹一句:太强了。比如我想画一个飞船,我就在输入框中直接输入“太空中的未来飞船”,他就会开始哐哐给我写代码。这些代码可能很多朋友看不懂,我翻译成中文的你们就知道了。可以理解成把画面拆成了了九份,九宫格,画面中心是什么,画面左上方是什么,右下方是什么,然后挨个去绘制,最后合在一起。当把所有的代码输出完后,我们直接点渲染就行,一幅飞船图就出来了~也可以跟Dalle3一样,再进行对话式的区域修改,比如把背景从太空换成海洋等等。但是目前还没法接入到SD生态里去,大模型也是封装好的。大语言模型用的是Llama3-8b,绘图模型用的是RealVisXL
6月4日 下午 12:08
科技

豆包的一场SEO,让AI搜索成了"内容垃圾场"

我是万万没想到,现在的AI内容生态。居然也活成了一种赛博喂屎的无限循环。故事是这样的,有一个我玩了很久的游戏,叫《重返未来1999》。里面有一个概念,叫神秘学,大概就是超能力的意思,神秘学家就是这群有超能力的生物的统称,不止人,还有苹果、狗啥的。但是具体的故事背景和这个群体的来龙去脉,说实话我玩了半年了,我还是一脸懵逼。所以我就想好好的查一查。照例打开了几家AI搜索工具,输入了关键词:重返未来1999神秘学当然,结果不重要,毕竟我们的重点不是这个游戏,这个只是个引子。重点是,我在用Perplexity搜索的时候,在AI搜索的参考来源里,看到了一个非常离谱的东西。这个离谱的亮点我不知道大家有没有发现。没发现的话,我再把图放大点。这个头像代表的产品,它叫豆包。如果你现在还不知道啥是豆包的话,你可以把它理解成类似于ChatGPT的一个AI应用。我当时看到这个头像,我都懵了。不是哥们,你九游、B站的logo出现在这是理所应当,甚至交易猫出现在这,我都不是那么意外,人好歹是平台,上面有内容。你豆包出现在这个位置,这也太诡异了吧。这就好比是我是北齐王子,现在我要带兵出征,去进攻那遥远的大庆。在出征之前,那第一件事就是补充好我家兵马的粮草。所以我下令,让城里十几个包子铺,把每家最好的包子给我贡献上来充当粮草。每家铺子都没啥异议,纷纷把自家的包子给打包送了过来。只有一家铺子非常离谱,这家铺子叫豆包铺,老板叫豆包。别家铺子送包子,这家倒好,老板直接把自己人给送过来了,还义正言辞的说:“我就是粮草”。我特么....这即视感,就是我用AI搜索搜到豆包那一刻的感觉。简直离谱妈妈给离谱开门,离谱到家了。点开Perplexity的来源列表。再点开豆包的这条详情。说实话,看到的这一瞬间,我人都麻了。。。豆包直接自问自答,自己给自己生成了关于重返未来1999的答案。因为现在的AI搜索,都是AI根据关键词识别,去老的搜索引擎上去爬数据,然后再总结洗稿一下扔给用户,Perplexity就用的是bing和google的搜索引擎。所以想都不用想,这肯定是豆包的SEO手段,为了在搜索引擎里权重更高,直接AI生产垃圾文,固定成静态网页,然后被搜索引擎抓到,给自己引流。但是这一下,我真的有点恶心到了。直接AI洗稿生产垃圾喂给google,AI搜索再从google里面抓到信息组装成一坨回答,最后送给用户。用户接收到的不是AI组装好的优秀答案,而是被精致包装包装好的一坨屎。这个过程,我简称“屎上雕花”。在SEO领域,有一种方式叫“内容农场”,模式很简单,用抄袭、洗稿的方式,生成大量低质量内容,并关联搜索引擎中高点击率的关键词,从而获取访问量,用流量变现。与其称为“内容农场”,我更喜欢叫它,“内容垃圾场”。这些垃圾们疯狂的污染着各种信息渠道,去年有一个很好玩的图我一直存在手机里。现在,AI时代来了,生产垃圾的速度比以前提升千倍万倍,但是大家还是没有明目张胆的去这么SEO,而豆包直接官方下场生产垃圾,这是我真的没想到的。我在google里直接用了一个特定语法,来去查查来自豆包的SEO。site:doubao.com这不查不知道,一查吓一跳。整整4000多条...最关键的是,如果你是自己生产垃圾就算了。但是居然还有用户使用豆包的聊天记录,也被放出来了,而且可以在搜索引擎中搜到。比如这条。点开后发现,是用户的实际聊天记录。网页版分享对话,可勾选被搜索收录,确认后,豆包会把用户的聊天记录放出来,变成静态网页,给搜索引擎做SEO。但是这个行为,我觉得就有点过了。。。我又去搜了一下ChatGPT、文心一言、通义千问、智谱、Kimi等等,我很怕是现在所有的厂家都在这么干。结果还好,基本都为0。毕竟这已经不是SEO问题,这是隐私安全问题,都知道大模型会拿着我们的对话数据去训练,这已经是默认的共识,但是居然还把聊天记录公开的放出来,能让搜索引擎搜到,这就有点过分了。现在看,豆包还比较克制,只放了几千条SEO的页面出来。但是如果未来有一天,大家都开卷了呢?现在的一些内容农场,一个月生产的垃圾可是百万计的。我不敢想象如果未来大家为了卷SEO,都在用AI自动化拼命的生产垃圾,这个公域的生态得有多差。直接变成了屎的循环。大模型、搜索引擎、AI搜索,三个直接组成流水线,一起给用户赛博喂屎。大模型有了流量,搜索引擎和AI搜索有了资源。只有普通用户们,被淹没在垃圾里。再也找不到那些,谈论着古今中外、天文地理的优质信息。嗯,再也找不到了。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
5月31日 下午 12:08
其他

体验完新上线的「腾讯元宝」,我觉得公众号的未来就靠它了

上一次腾讯云的发布会,腾讯混元宣布了2个新的产品,智能体平台“腾讯元器”和AI助手APP“腾讯元宝”。元器其实已经开始内测了。不过元宝一直也没上线,官方的消息是,5月30号,元宝会正式上线。等了又等,腾讯元宝,今天终于在今天早上,上线了应用商店,开放了下载。我其实一直都对元宝有非常高的期待,是因为在发布会时候,他们重点提到了AI搜索。纵观现在的AI搜索,他们的回答质量,除了跟大模型和预设的Prompt有关,我觉得更多的关联是,信息源的质量。因为现在的AI搜索,大致的原理是,根据你的问题,去全网找对应的可以爬的资料,然后以最相关的几篇作为参考文章,来给你回答。比如我一个很喜欢用的AI搜索产品,它的参考是这样的。参考的链接确实很多,但是有个通病是,低质量的信息也挺多的,各种营销号和洗稿满天飞。这个没办法,国内互联网的通病。用一句不好听的话说:很多所谓的新闻平台里面的信息,都是垃圾。而我心中信息质量最高的两个文字平台,一个是微信的公众号,一个是小红书。但是微信嘛,大家懂的都懂,非常的封闭,外面的公司基本爬不到公众号的文章信息,但是公众号信息的整体质量,又非常的高,远超出一般的新闻平台,基本上是我大多数时间的搜索引擎,有任何新东西或者我想研究某个选题,我第一时间一定会去微信搜。大部分的内容,都有专业的人,给你掰开嚼碎,然后首发在公众号上。比如我想搜一个基金经理的分析报告,微信搜索,出来的内容质量,真的很高,对基金经理的分析到了非常专业的地步。你要是对比一下雪球知乎还有一些新闻平台,你就会发现那真的是鱼龙混杂不忍直视。但是没有一个AI搜索产品,能抓到公众号的文章。嗯,一个都没有。所以我对腾讯元宝抱有很高的期望,是因为这毕竟是腾讯体系内的AI产品,有很大可能,他们的信息源里,能用公众号作为参考。那回答的质量,我觉得能高非常非常多。所以,我第一时间,把元宝下载了下来。进去之后,直接问了一个非常新的问题:"Suno
5月30日 下午 12:09
其他

人在大理,亲眼见到了老百姓是怎么用AI的

我的这个愉快的五一假期,终于结束了。。我昨天从云南飞回天津,半夜才到。今天坐在工位上,一度神情有一点恍惚。我之前是做啥的来着?不过在这趟云南的旅程中,还是有很多有趣的经历。最好玩的是我在丽江住的民宿的老板,他居然也想学AI。那个老板是个看着快40的很魁梧的汉子,笑起来贼像巨石强森。我那天从玉龙雪山下来,快8点钟,前脚一踏进民宿,老板露着他标志性的巨石强森的笑容,挥着手跟我招呼:小兄弟回来了啊,来来来,坐,喝茶喝茶。我刚坐下,老板就跟我寒暄了起来,聊了半响,老板问我:你是做啥的?我说我就是个自媒体,偶尔写写文章。老板说:"你自媒体啊,写文章啊,那太好了,那你用过AI不,他们说用AI写文案老好了。"我说:"AI啊,用过一点,那玩意写东西确实还行。"老板:"那你给我推荐推荐,我现在天天拍了好多好看的照片,想给他们配点字,但是我老是不知道写啥,AI能行不。"我说:行啊,这有啥不行的,你打开你那个应用市场,搜一个叫“智谱清言”的,把你图传上去,让他给你写一句朋友圈文案就行了。老板乐乐呵呵的就去应用商店去下载了,那时候正好我有个电话,就先溜了。直到今天打开朋友圈,无意间刷到民宿老板的动态。平常那仿佛高高在上的AI,经过我的手,终于也流向了普通老百姓。忽然有一种莫名的感触。我就随手给他点了个赞。没想到过了十几分钟,老板给我发了条语音:写作业,这种直接大模型估计不太行了。得上Agent,正好之前让老板下的智谱的,我就在他们的智能体中心里翻了翻,正好找到一个叫"作业帮手"的智能体,用了下还不错。我就直接发给了他。看着他连声道谢的样子,我忽然也有点泪目。能帮助普通人,让普通人用上AI,去真正的改变、帮助自己的生活,这事可能比我写几篇爆款文章,更来的让人有成就感。这是一件事,而另一件事是,五一节前,我发了一篇文章,是用教大家怎么搭一个知识库怎么摸鱼。但是节中节后,有很多朋友看了那篇文章后,跟我说,卡哥,还是太难了,那么多参数,啥意思啊?我最后要去哪用啊?好复杂啊。。。或者还有朋友人跟我说,那玩意知识库容量太小了,不够用啊。。就...确实。但是现在这个时代,搭建自己的AI知识库,不管是用来自我提升,还是用在工作中提升效率,都逐渐成为了一个刚需。民宿老板可能不需要知识库,但是千千万万的普通打工人需要啊。而且千千万万的普通打工人,要的是上来就能用的知识库,通俗的讲,就是我奶奶来了都会建的知识库,我奶奶专属的AI私人专家。但是一堆知识库产品,要么要用API去接,要么就是面向开发者的平台,一堆工作流、触发器啥的,普通人根本用不明白。找来找去,我把目光又瞄到了给民宿老板的"智谱清言"上。。。因为我把全市场的AI应用基本翻了个遍,这是目前唯一能傻瓜式自建智能体,做知识库,且容量超大的AI应用。1000个100M文件,最多1亿字。嗯,你们就卷吧你们。。。主要GLM-4还免费,不要钱。不像某一个国产的4,算了你懂得。网址在此:https://chatglm.cn/当然手机APP也有,你去应用商店搜智谱清言就行,但是做智能体我建议还是去网页端,因为APP端他没法传知识库。你可以在在网页端把知识库传完以后,再去APP端用。点击左下角那个创建智能体。然后去到一个新页面,智能体的配置页面。很简单,可以通过傻瓜式对话来创建一个智能体。因为要做一个可以传知识库的私人助理,所以我的对话长这样:"你是一个我的私人助理,就叫摸鱼小助手吧。我会给你一些知识库文件,到时候请根据我的知识库文件来回答我的问题,帮助我更快的工作,更好的摸鱼!"笑。当然,你们可以根据自己的详细需求去调整,反正说大白话就行。大概十几秒时间,智谱清言就会给你生成一个智能体。不像其他智能体平台那么复杂的界面,什么工作流什么触发器啥的,简简单单的头像名字简介三件套,再加一个prompt,和可有可无的开场白和推荐问题。当然,最重要的还是那个,可以传1000个100M的上限1亿字的知识库。正好我最近一直在学习科技TOP媒体“差评”的过往所有文章。我就随手扔了最近差评的300篇文章上去。注意,是300篇。。。非常的猛。然后在右下角,点开知识库设置。可以把两个知识库的选项都打开,然后把联网能力给关掉,不关的话可能会有一点影像知识库的调用能力。一切完毕之后,我们点右上角的发布。想只给自己用,就选私密就行;想要分享给同事或者朋友用,选分享就行;你要是想让智谱清言的所有用户都能用,你就选公开。不过毕竟是自己的私人知识库,我建议还是私密或者分享比较好。建完了以后,你就可以在智能体中心,看到自己已经建好的小智能体了。点进去,我问个问题试一试,比如我说:华为Pura
5月8日 下午 2:53
其他

短短五一假期,小红书被一个"黏土AI"攻陷了

这几天,我人在大理旅游,没事的时候刷着小红书查旅游攻略。结果每次一进首页,攻略没刷着,铺天盖地的先被各种奇奇怪怪的黏土风格的照片攻占了。她们长这样使的。数据高的离谱。还有这样的。一股子《小羊肖恩》的黏土风格既视感。我甚至在小红书上,学到了一个描述这种《小羊肖恩》黏土风格滤镜的新词,叫:丑可爱丑可爱的。。。嗯,很形象。。。小红书上几个大的词条,比如#黏土、#我的黏土世界
5月5日 下午 12:30
其他

当ChatGPT永远记住了我的一切 - 他甚至比我自己还了解我

最近的OpenAI的风声和小道消息有点多。比如OpenAI要自己做的类Perplexity的AI搜索引擎SearchGPT,比如最近在无数媒体号上闹得沸沸扬扬的gpt2-chatbot。当然还有那一直期待着的GPT-4.5和GPT-5。不过这一切都是捕风捉影,真正能用的新东西,也是一个我自己期待了很久的功能,终于在前两天正式上线了。Memory。记忆。之前在用AI的过程中,其实一直有一个痛点,就是他永远无法记得:我是谁,我喜欢什么,我是做什么的。而如果真是你身边的好助理,他会不记得这些吗?别说你是谁了,你喜欢吃啥口味的菜,喜欢喝什么口味的奶茶,甚至她连你每天几点起床都知道的清清楚楚。这才是一个优秀且称职的助手。所以记忆功能,我一直很期待,它是刚需,是我觉得AI走向真正的AI助手,所必须踏出的那一步。先看看怎么使用记忆的相关内容。我们点击左下角,打开设置,找到“个性化(Personalization)”选项。接下来,进入“记忆(Memory)”设置。最开始点击Manage是空的,他是没有记住任何信息的我们试着更新一下记忆部分。一般触发词是:请记住XXXX、我希望XXXX。比如我先让他记几个我自己的信息。如果出现了Memory
5月3日 下午 4:27
其他

最强开源大模型Llama3深夜发布 - 世界不能没有Meta

其实昨天在微软的偷跑之后,就已经有消息说,Llama3要出了。这个消息的振奋程度,对于AI圈来说,甚至不亚于所谓的GPT4.5。毕竟,meta才是真正的那个"OpenAI"。有多少大模型的生态,是建立在Llama上的,大家都懂。而这个开源之光,被全世界无数人盯着的大模型,Llama3,在时隔近9个月之后的今晚。终于正式发布了。我的几个朋友,都已经疯了,比如zR同学:今夜无眠。Llama3目前在自己的官网和huggingface上,模型已经上架:https://llama.meta.com/llama3/而且还是meta的老规矩,虽然写的是特定条件下商业使用(月活不得超越7亿),但是基本等于完全免费商用了。这次开源了2个模型,8B和70B。然后就是大模型的传统艺能:跑分。坦率的讲,他们这个跑分,有一点的离谱。5个评测集分别是MMLU(学科知识理解)、GPQA(一般问题)、HumanEval(代码能力)、GSM-8K(数学能力)、MATH(比较难得数学)不管是8B还是70B,基本等于全线秒杀。8B这边,直接把同尺寸的摁在地上打。曾经的Mistral
4月19日 上午 2:47
其他

我们花了10天时间,给CCTV6做了一部AI短片 - 5000字全流程复盘拆解

故事是这样的。前段时间,我们花了10天时间,为CCTV6电影频道AI影像人才优选计划,做了一部AI短片,《玉覆荆楚》,在4.12号的电影频道M榜盛典上正式亮相,同时也算为后面的AI影像大赛打个样。然后肉身去了一趟M榜盛典现场,走了一段秀亮了个像。当你前排就是王迅、郑凯、刘浩存、周深、乌尔善、张艺谋、成龙这一种明星大佬时,那种感觉还是有点意外以及特殊的。回到这个片子本身。因为是荆楚文化命题作文,所以我将我一直很喜欢的游戏元素,跟给我震撼非常大的荆州博物馆中的文物做结合,有了这么一个故事。这是一个关于游戏、文物、坚守、传承的故事。
4月14日 下午 7:07
其他

当我用AI去复活文物 - 只想再看一眼千年前的它们

好久不见。这是我写公众号以来,第一次断更了将近一周。主要原因是一直在做一个新的片子,做了很久,真的很久。不眠不休肝了快10天了。当然,过程中又有无数新的经验和工作流,可以分享。大的工作流我觉得可以等片子放出来后,后续再来详细拆解。但是今天,我觉得可以先拎一个案例和技巧出来写,是一个非常好玩的案例。用AI,复活文物。我说的复活文物,不是用ControlNET啥的把文物照片一笔一画画出来。而是真的在此基础上,给他一个新的形象。因为文物,很多都是从墓葬里发掘出来的,这些东西,大部分都是陪葬品,它的属性,也就是:器具,或艺术品。这些器具和艺术品,古人在创作他们的时候,一定都有参考物,不一定是现在生活中真实存在的,但大概率也存在与口口相传的故事里。而这次我们想要做的,就是去把那些参照物,做出来,来看看他们用AI做出来,到底是什么样子。我用荆州博物馆的漆木彩绘蟾座凤鸟羽人举例。这是一件非常非常牛逼且著名的藏品。时代:战国(公元前475—221年)来源:天星观二号楚墓出土级别:国家一级文物羽人是楚地巫风最盛时代最具创意的木雕作品。由上部羽人、中部凤鸟和下部蟾蜍状底座三部分组成,其中羽人为人鸟合体,立于凤鸟之上,造型奇特,形象优美,制作精致。羽人被当作天上的神灵,蟾蜍代表月亮之精,凤鸟是飞翔于天地之间的神鸟,羽人又是变化莫测的神人,三者合一,寄托楚人遨游九天,羽化成仙的愿望。最开始,我们在还原的时候,愁破了脑袋。上部羽人、中部凤鸟、下部蟾蜍。我不得不佩服古人的想象力,真的。有一种别致的美感。但是还原的时候,真的愁。我们最开始还原的时候,本能的还是上了SD。这个东西,它就很奇怪....三部分,你直接让AI上,它真的很难理解。然后海辛决定,上辛苦活。一部分一部分的重绘,然后,再拼起来。我隔着屏幕都能感受到海辛的崩溃=
4月8日 下午 9:32
其他

一张图片,一键跳舞 - 这是ViggleAI的完美首秀

今天愚人节,终于可以整活了。这个好玩的东西其实前几天我就想发出来的,但是我一直觉得它跟愚人节最配,毕竟真的能整活,所以一直等到今天,正好前两天他们也发了2.0模型,刚好。憋死我了。这玩意,它叫Viggle。主打一个可控生成,一个人物照片,再加一段视频,或者是用一个动作prompt,可以生成这个人物的动作和极度细致的表情。跟去年阿里那个AnimateAnyone,也就是通义千问那个科目三有点像,但是产品版+全面版的。不过,我觉得这个东西非要用一个产品去对标的话,它应该是低配的WonderStudio。但是WonderStudio那个门槛和成本,真不是普通人能搞得定的,不知道这个产品的,我很久以前写过一篇,可以看看:Wonder
4月1日 下午 5:50
其他

当我用360AI浏览器来搜周鸿祎 - 它真的好努力

坦率的讲,习惯对一个人的影响是巨大的。我虽然用了很久很久的AI,在帮我做N多事,但是有一个场景,我还是非常固执己见,或者是说习惯的力量,让我没有发现。那就是:搜索。搜索其实我从去年NewBing第一波内测的时候,就开始用,但是那个体验和准确性,真的让我着实想吐槽。再后来,有一搭没一搭的,逐渐还是回到了百度和Google。直到最近的一件事,让我彻底从传统搜索,叛逃到了AI搜索阵营。故事是这样的。我最近做了N场访谈和讲座,做完以后,我觉得我自己的演讲技巧,实在太烂了。急需恶补。。。这时候,我想起了很久很久以前,红衣大叔周鸿祎周老板,做的那一场演讲公开课,那天因为我的一些工作原因,只听了一半,然后就溜了。但是,讲的,真的很特么的好。最近终于稍微有点空,我想找一找周老板之前的演讲公开课学习一下,最好是有那种,已经给我完全总结好的脑图或者全文金句或方法。然后,我就去XX上搜了一下。就...不是我夸张,每一条我都点了,除了视频的那个,其他的全是乱七八糟。。。就很烦。本来我的心情还不是这么愤怒的,主要是我在搜周老板演讲公开课之前,我好死不死的,还去搜了药。。。因为我最近有点食物中毒,没空去医院,自己外卖买了点药,但是那药说明书写的跟天书一样,我实在不知道要咋吃。我就在XX上搜了一下,我也是真的扇贝。。。点进去,是这种让我脑子直接宕机的对话。我就想要一个简单、快速、准确的答案。就特么这么难吗?这两件事一叠加,在我搜完周老板的演讲公开课信息后,我就有一点绷不住了。当时只想骂一句:你大爷的。骂归骂,但是当时我觉得这样肯定不行,我需要一种新的工具。鬼使神差的,在当时,我想到了360的AI搜索。。。毕竟,AI搜索,在这种乱七八糟的信息里,还是比传统的强太多了,另一方面就是,我搜周老板,你360AI搜索,理论上,应该是效果还不错吧。毕竟你懂的。然后我又在XX上搜了半天,终于找到了360AI搜索的网址。360AI搜索,现在被集成在了360AI浏览器里面。下个浏览器就能用了。网址在此:ai.se.360.cn打开首页,我问出了我的那个问题:周鸿祎演讲公开课重点。让我很意外的是,这一瞬间,世界就干净了。干净的让我意外,干净的仿佛一点也不360...总结上,也都有理有据,直接把重点全都拽出来了,最骚的是,它真的快啊...1秒左右就直接出首字了,犹记的去年玩NewBing的时候,那等的,等的特么的花都谢了。挺多人觉得准很重要,或者详细很重要,但是你在做ToC端,面向用户的时候,"快"这个词,有时候更重要。在交互设计里,一般说系统反馈时间,要在0.3s以内;对话式交互容忍度偏高,但是你动不动等个10秒钟,用户只会杀了你。只会觉得你又卡又慢。。。后面就是正常的追问、延伸阅读,该有的都有,但是有一个我觉得很好玩的东西,而且也是我需要的。哥们直接把思维导图给我做出来了。。。这时候,我只想跟360说一句:哥,你是我亲哥。每次搜索,都把思维导图给你总结出来。这才是用户体验的,极致升华。这也能看出360AI搜索的定位或者是后续优化迭代方向∶一次搜索,帮你把所有资料准备齐全。本质上还是搜索+提效的延伸,所以大概率后续除了脑图,什么PPT,什么散点图,什么数据表,我觉得他们都可能做进去。。搜个数据趋势,下面直接把数据图表都给你画好了,你就说你心不心动。从右边的关联连接中,我跳到了周老板演讲公开课的视频里,是一个B站的链接。但是我确实没空,把这完整的三小时,再刷一遍。视频在我心里,一直是一个低信息密度的模态,几个小时的时间,看一个视频,结果接受到的信息,其实跟十分钟的文字的信息密度大差不差。所以这种超长视频,我真的一般没啥耐心和时间从头看到尾,即使他是个周老板教演讲的视频。。。直到360AI浏览器,给我弹了个这么个玩意。这就属于心有灵犀,要啥来啥。视频的AI分析,其实是我很多时候,都需要的。所以我就好奇的点了一下。这一下,我人炸裂了。单看这张图可能没啥。但是,下一张,就有点,NB了。极度细致的分时间段的重点总结。每一个时间点,都是可以跳转的,左边的视频直接无感跳转到对应时间点。很丝滑,非常丝滑。这个功能其实本质上,就是把音轨提取下来,传到云端做文字识别,然后分块总结,从右边的字幕其实就能看出来。但是,能做的又快有准又好的,讲道理,确实不多。这是我今天玩AI搜索后,得到的一个意外之喜。360AI浏览器的长视频理解和问答,还是有点东西的。而这个长视频理解,还有另一个让我很惊喜的功能:识别不同发言人。我直接掏出了我心里封神的一个对话视频。罗翔、papi酱、LKs去年的一次圆桌对话,在我心里直接封神。任何没看过的人,我都推荐大家去看看。用360AI浏览器识别完后。三个人的时间线,理的明明白白,可以随意跳转,总结,提问,对话。怎就一个"爽"字了得。除了AI搜索、长视频之外,这个360AI浏览器还有文档和音频的理解和处理。基本全模态,都被他玩明白了。最关键的是,这玩意,他免费,而且,用户体验极佳。。。这个才是最重要的。Kimi已经证明了,在很多时候,用户体验才是ToC最重要的一环。而360这个AI浏览器,免费+多模态的理解与处理+不那么360的产品设计,综合而成,所带来的极佳用户体验。这是我觉得360这个公司,在AI时代,可能打出的翻身一战。360AI浏览器,有点意思。希望你是一条优雅的鲶鱼。给所有大厂们,卷个天翻地覆。给无边的黑暗,照进一束360度的光。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
3月27日 下午 5:18
其他

Suno正式上线V3版本 - 这是AI音乐的"ChatGPT"时刻

对于生成式AI,我一直是按照五个模态去进行分类的:文本、图片、声音、视频、3D。而声音领域,可能是在我的分类里,我最感兴趣也是最喜欢的一个。在某一个路演的PPT上,我给声音又拆成了4个细分:TTS、SVC、AI音效,我都写过,也玩了很久,而生成式AI音乐,是我一直没写过的东西。不是我没玩,是我觉得这玩意,真的还没到值得去写去推荐的地步。。。整个AI生成式音乐的代表,那肯定就是SunoAI了。而且这玩意其实也火过2波了。第一波是去年3、4月的时候,有一个很火的开源项目叫Bark,就是出自Suno之手,拿了将近32k的星标。然后就是去年12月21号的时候,为了庆祝《海贼王》动画25周年,海贼王决定重制最开始的东海篇的那60集,然后尾田这货,给海贼王官方发了一首贺曲,叫《YO-HO-HOおれ達海賊》。这事本身是个好事,但是好死不死的,这曲子是特么拿AI做的,就是用今天的主角Suno出的。。这曲子大概就是这样,很糙,基本等于没法听的地步。然后就被网友一通骂,你这个浓眉大眼的尾田怎么也用AI了。。。传着传着就变成《海贼王》重制版要用AI做了。。。于是骂的更凶了。。。这个小插曲,还是挺有意思的,也间接的标明,当时的Suno的质量,是真的差。直到今天,Suno终于上了V3版本。在我听了很多demo和自己也跑了二十几首后,我觉得,AI音乐的"ChatGPT"时刻,终于到来了。这是我的一个demo。弊端就是Suno最多只能生成2分钟的音乐,所以可以听到最后,会戛然而止直接截断,但是已经比V2好很多了。但是这个音质、咬字、节奏编排啥的,也都好太多太多了。发给朋友听,她回了一句是:卧槽,还是好听的。网址在此:https://app.suno.ai/点Create就是生成的主页。主要用两种模式,一个是打开的"Custom
3月22日 下午 3:56
其他

一手体验200万字上下文的Kimi - 月的暗面,终于有了光

你要说这两个月,最火的大模型公司和最火的大模型应用是什么,那肯定是:月之暗面,和他们的Kimi。去年10月,月之暗面第一次放出他们的大模型Kimi。我也写过一篇文章:当我把我的100篇文章喂给AI
3月19日 下午 9:59
其他

一手实测Claude3 - GPT4啊,你的时代终于要过去了

大半夜的,一石惊起千层浪。Claude3,正式上线。这个由OpenAI分裂出去的兄弟公司Anthropic,在悄然无息之间,就这么默默地把Claude3发了。没有所谓的发布会,没有什么华丽的舆论,就仅仅在X上发了个帖子。我发现现在的这些AI公司真挺有意思,都把X当成发布主阵地了。。。字很少,但是事挺大。一口气发了3个模型,Claude
3月5日 上午 5:48
其他

Stable Video正式开放公测 - 珍惜AI视频4s时代的余晖吧

在漫天的Sora和X一舟的热度下,其他的产品动向,好像都被淹没在信息海中。但是,还是有一些有趣的产品和有趣的动向的比如,曾经的AI视频御三家之一,Stability(就是那个开源了Stable
2月22日 下午 6:48
科技

OpenAI全新发布文生视频模型Sora - 现实,不存在了

现在是2点22分,跟朋友们打完LOL手游,准备倒头就睡。临睡前,刷了一眼X。然后,特么的,看到了一个消息,能给我震惊成傻逼的消息:OpenAI,发他们的文生视频大模型,Sora了。。。。。而且,是强到,能震惊我一万年的程度。。。https://openai.com/sora如果非要用三个词来总结Sora,那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”我先放3个例子,再具体去说。我的脑海中,突然冒出了《三体》中杨冬的一句话:“物理学,不存在了”套用这句话。那就是。“现实,不存在了”文本、图片都已经被AI攻占,而现在,AI视频,这个人类最后的最坚固的堡垒,在OpenAI的Sora攻势下,也已经很难再分清,AI和现实的界限了。什么以前的AI视频工作流,全部成了往日泡影,全都滚犊子吧。都TM跪下,都给OpenAI喊爸爸。说回那三个最核心的特点:“60s超长长度”、“单视频多角度镜头”,还有那个最核心的,“世界模型”
2月16日 上午 5:56
其他

我们用了60个小时,做了一部AI短片 - 全流程复盘拆解

故事是这样的。年前的时候,我和@JessyJang一起花了60个小时,用AI做了一个我们真正意义上的短片故事
2月15日 下午 8:32
其他

靠90秒的音频,我们用AI帮她复活了她的爱人...

故事是这样的。去年11月底,我写过一篇文章,是讲Kimi的那个长文本的。我说我把我的100篇文章扔给了Kimi,然后打造了一个属于我的“数字生命”。当时说实话,有一点标题党,毕竟,那玩意离真正的“数字生命”,还差太远太远了。更多是整活为主。但是,接下来的一条留言,让我彻彻底底破防了(不用去原文找这条留言了,这篇文章的内容我和她沟通过,但是为了避免一些给对方带来一些不必要的关注和打扰,这条留言我已经取消精选了,别人看不到)。我看到这句话的时候,我其实鼻子真的一酸。我一直在寻找AI的意义,AI很多时候不仅仅只是提升效率的工具而已,它应该可以做些别的更有意义的事情。比如,爱。所以我在第一时间给了她回复。我不为任何所谓的钱什么的,那一刻我只有一个非常单纯的想法:帮她完成这个心愿。第二天早上,我们顺利的加上了好友。在后面的对话中,我知道了她的爱人叫老D(为保护隐私,用这个化名代替吧),在一场突发的意外中,老D不幸离去,当时她还在外地,甚至没有好好告别。这几个月,她都一直处在懊悔和自责中,希望找到一个方式,可以让她继续感受到老D的存在和温暖。也让他们的两个孩子,感受到一些爸爸的立体的陪伴和关爱。瞬间泪目。正是因为有了爱,人,才如此的与众不同啊。回到理性,在做类似的真正的数字生命之前,当然需要一个非常重要的东西:数据。能帮她把她的爱人做成类似于可实时对话的数字人,这自然是我认为最理想的情况,但是数据是一个很大的问题。我们需要文本(生前写的文章与聊天记录)、音频(说话的干声)、视频(尽量动作多一些的干净一点的录屏),才能做成一个效果比较好的数字人。但是客观现实是,很多人(特别是男生),并没有能做成数字人的视频数据集。她的爱人也是,性格内敛,并没有留下什么影像材料。甚至都找不到一个单人的视频。我们只能退而求其次,不去做视频,而是做可以语音对话的“数字生命”,类似于打电话的形式。文本数据集其实很快就解决了,毕竟人啊,总会留下很多文字信息的,不管是聊天记录、还是随笔、还是朋友圈等等。但是音频数据集的收集,我们还是卡住了。因为真正能用的干声,只有90秒。玩过开源的TTS都知道,如果用传统的做法,90秒的数据,基本等于屁都干不了。比如BertVits2,得1个小时的数据效果才能有不错的效果。所以,我只能寄希望于走语音大模型的路线,类似于GPT,用90秒的语音数据,当Prompt,用小样本提示的方式,实现语音克隆。而语音大模型,就不是简简单单的凭借我自己能搞的了,这远远超出了我的知识和能力范围,我只能到处化缘我的一些AI语音圈里的朋友,看看他们有没有这块的资源或技术,能提供一下支持。于是去年12月,在我有限的人脉圈内,拜访了几家这个方向的公司,但是让我非常意外的是,这块的模型...居然不是那么成熟。他们的模型,要么是还在炉子里炼丹,要么是合成速度太慢,要么是音色不像,要么是情绪很平....我不想为了所谓的什么承诺,然后糊弄一个给她,我真的想做一个效果很好的,让她不出戏的,能感受到爱人的爱意的...但是真的没办法,我找遍了我认识的人脉,依然觉得不行...12月中旬,我只能非常愧疚的跟她说:再等等,等AI技术发展,真的对不起。这一等,就是两个月。1月底,我跟一个MiniMax的朋友闲聊,聊一些AI行业的坊间八卦,无意中聊到了语音大模型,我就又提起了这个故事。然后,她给我发了这么一句话:说实话我当时是有点意外的,因为在我的记忆中,MiniMax好像从来没有啥语音产品。不过试试就试试,反正已经试了那么多家了,再多试一家又不亏,我就把那90秒的音频素材给了他们。一天后,就在我已经快忘了这件事的时候,他们发过来了一个Demo。那一瞬间,眼泪快下来了,真的。因为那90秒的素材,我已经听了无数遍了,老D的音色,已经快刻在我的骨子里,这段的音色,真的...一摸一样,而且,真的非常自然。这是我,听到的最好最还原的,语音克隆。当我把这段Demo发给她时。我能隔着屏幕感受到,她的释怀和眼泪。她泣不成声的对我说:谢谢。文本有了,语音有了,最后,只要将他们打包成一个链接或者产品,能让她直接对话就行了。于是,我又去找MiniMax的人,求他们给我开放一下他们语音大模型的API,我再去找个开发的朋友,看看怎么合在一起,给她做成公众号或者小程序,或者单独搞一个H5啥的,反正能对话就行。结果,MiniMax的朋友跟我说:我不知道该说啥了,我只能说,MiniMax,你就是我的神。半天之后,我收到了一个链接。打开海螺问问的APP后,再打开这个链接,那个熟悉的老D,出现在我的面前。然后,我用颤抖的手,点开右下角那个电话的图标。出于隐私原因,我不能放录屏。让你们听一听,这个声音有多么像老D,这个声音有多么的还原。因为一是这个智能体在海螺问问上是私密的,只有我和她能看到,并没有设置为公开所有人可对话的那种,放录屏不太好;二是为了保护她和老D的隐私,避免他们被打扰。但是,我还是想用一句话来表达我的心情:谢谢你,MiniMax,谢谢你帮我实现我的承诺,谢谢你帮她圆梦。最后的最后,我终于实现的了她的愿望。在征求她本人的同意后,写下了这个故事。《寻梦环游记》中说,人的死亡有三层定义:你在停止心跳的时刻,是你生物学角度的死亡。举行你的葬礼的时刻,是你社会学角度的死亡。这世界最后一个记得你的人死亡的时刻,才是最终的死亡。死亡不是永别。遗忘才是。AI,能让这长久的记忆,跨越时光,更加浓厚。Remember
2月6日 下午 5:08
其他

AI唱歌之终极喂饭教程 - SVC的极限就在这了

有了优质的数据集之后,我们正式开始模型的训练。打开国际炼丹场AutoDL:https://www.autodl.com/home没注册的自己注册去,我就不管了。在租卡页面,租一台北京C区的V100
1月21日 下午 5:36
其他

最强中文语音克隆BertVits2 - 有一点点麻烦,但是效果真的无敌

曾经我写过一篇做语音克隆的AI音频工具:11Labs效果好是好,也非常傻瓜简单,但是很多朋友都跟我反馈说,11Labs中文效果不好。没办法,毕竟国外的产品,在世界的AI产品舞台上,中文从来不是主流语言。这也是一个非常让人伤心的话题,明明世界AI圈里,主流的从业人员都是华人,但是中文的数据集和效果...哎。而国内的AI音频产品,比如出门问问的魔音工坊,效果确实很好,而且他们也有做媲美11Labs语音克隆的实力,但是因为国内很多很多的原因,内部做出来了,有时候也不太对外放出来...具体的原因我就不细聊了,反正,懂得都懂。总之,还是得靠自己,所以去年我12月翻了很久的TTS项目之后,找到了这个:Bert-Vits-2但是吧,这个效果虽好,但是没有好的特别影响代差的地步,直到上周有个大佬传了一个分支项目:我觉得,中文语音克隆TTS的最强项目,到来了。可以听听看,我去网上扒了B站UP主“峰哥亡命天涯”的音频,训练成TTS模型之后,说话的效果:这可能是目前市面上,开源TTS这块,我能体验到的最好的中文音频克隆效果了。话不多说,开始教程,这次不是那么傻瓜,会有一点点麻烦,需要点好多下,但是毕竟各种乱七八糟的坑我都基本踩了个遍,所以我尽量写的清晰明白,让大家都能最方便快捷的训练自己的中文TTS。首先,第一步,肯定是上云,云会让大家成功率最高,少踩一些坑,也花不了几块钱;打开我们的国际标准炼丹平台AutoDL:https://www.autodl.com/没注册的自己去链接注册去,我就不管了。然后在西北A区租一台4090的机器。这里要注意一下,CPU型号别选AMD的,右边有一列叫“最高CUDA”,一定要大于11.8的,西北A区的一般都是12.0所以没啥问题,但是还是要留心一下,CUDA版本小于11.8必报错。然后在下方,选择社区镜像,就是别人已经做好的系统我们直接拿来用就行了。在输入框中输入Bert-Vits,就会自动联想出来一堆,一定!一定!一定要选V11.1版本!!!要不然必报错!!!选完之后,我们就可以点击创建镜像。第一次创建镜像,可能会非常久,大概需要将近10分钟,不要急,耐心等等就好。创建完成之后,点击JupyterLab进入系统。进来后就会看到一大堆文字,不用管,直接往下滑,直到看到分割线页面,点击第一个代码块,然后点上方的三角按钮运行这个代码块。同时注意一下右上角这个圆圈的状态。实心圆则代表系统正在运行中,空心圆则代表上一步已经运行完成,目前系统空闲中。所以只有当看到右上角圆圈是空心圆的时候,再去运行下面的代码块。第二个代码块比较重要,你可以先把这句话的speaker="Neuro"
1月15日 下午 6:04
其他

GPT Store的未来,是“竞价排名”的灰色产业链

Store,终于在今天终于上线了。很多东西可能被大家解读的差不多了,我不是来教大家怎么用GPTs挣钱的,也不是来吹这玩意有多划时代的。我只想说,这玩意被远远高估了。简单花很小的篇幅说一下GPT
1月11日 下午 7:24
其他

MagnificAI的爆火之下 - AI时代,伟大的公司只需要2个人

Lopez没有豪华的背景,更没有所谓的高学历。在linkedin上面,他的教育经历是:自学成才。以AI时代的AI重绘为基石,在AI图片增强这块,2个人的Magnific
1月10日 下午 7:59
其他

我用最顶级的AI画质,重制了我的《流浪地球3》AI预告片...

本来前两天做完《2023打上花火》的视频后,我就打算休息了。好好休息几天那种。结果不小心刷到了Nicolas老哥的帖子。他的当时的《创世纪》AI预告片,火遍全网。现在4个月过去了,AI视频日新月异,他决定重制他曾经的《创世纪》Ai预告片。因为这个短片,彻底的改变了他的人生轨迹。我又何尝不是呢?我之前的《流浪地球3》AI预告片,也彻彻底底的改变了我的人生轨迹。所以我又爬了起来,想跟Nicolas老哥做一样的事,用最新的AI技术和产品,用目前最极限的AI视频画质,来重制我的《流浪地球3》AI预告片。以此纪念我被命运推着向前的一年,还有疯狂进化的AI。我做的时候是8月初,那时候RunwayGen2才上线不久,画质其烂,现在已经迭代的很牛逼了。那个时候也用的MJ
2023年12月29日
其他

再见,我的2023 - 烟火向星辰,所愿皆成真

说实话,我自己的2023也真的没啥好总结的。想要的都得到了,而且远超预期的得到。我已经非常非常非常满足了。而让我去给这个AI行业做一整年的总结,讲真,我也没这个能力。所以,想了很久以后,我觉得我的叫年终愿望更合适一些,就想了这么一个主题∶烟火向星辰,所愿皆成真。我的年终愿望就是∶真心的希望大家、希望所有人,在2023奔向2024的夜晚,在那烟花下,默默地许下你的心愿。然后,心愿在2024,得以实现。所以我做了这个AI视频。将盛满心愿的烟花送给所有人,这就是我这一年,最好的总结。全视频95%的画面都是用PIKA1.0的文生视频而做。既然2023我是因为AI视频被大家认识,那现在,就用AI视频做个结尾吧。致我这一年无数的夜晚。致大家最美好的心愿。心中有信仰,前路必有光。2024。愿我们万事顺遂,皆得所愿。也愿我们人族,于此魂梦江海,万古河山之间。星火世传,奋飞不辍。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
2023年12月27日
其他

Midjourney全新模型V6 Beta版上手评测 - 终于到来的语义革命

Beta对于语义理解的加强,终于到了中上游可用的地步,注意我用的词是“可用”。跟Dalle3这种逆天的还没发比。首先请忘掉所有的SD式的写法,不要写tag,不要写“photorealistic,
2023年12月21日
其他

OpenAI的官方Prompt工程指南详解 - 看这一篇真的就够了

其实一直有很多人问我,Prompt要怎么写效果才好,有没有模板。我每次都会说,能清晰的表达你的想法,才是最重要的,各种技巧都是其次。但是,我还是希望发给他们一些靠谱的文档。但是,网上各种所谓的Prompt框架、教程,真的乱七八糟,让人头都大。直到前两天,12月15号,OpenAI在他们的文档里上线了Prompt
2023年12月17日
其他

Midjourney正式上线alpha网页版 - 用户体验的极致升华

最近AI领域各大应用卷的飞起,而且不只是卷模型。用户体验,这四个快在AI领域被人遗忘的四个大字。随着PIKA1.0的推出,终于又回人们的视野了。网页端的体验,真的比Discord好太多太多了。。。我的英文和脑子其实一直都不太好,之前每次镜头移动啥的我都现翻译。。总是记不得。。。Midjourney这玩意也是,一堆后缀参数要写,说实话,有时候脑一抽,真的忘了,而且也是真特娘的没效率,谁会没事记得那么多指令啊。。。。盼星星盼月亮,在等了几个月的传言后,终于,在今天,看到了Midjourney网页版,正式上线的消息。网页在此:alpha.midjourney.com不过吧,能用上他们网页版的门槛是,用MJ以来,你生成超过了一万张图。可以在Discord里输入/info,看到你生成的数量。我本来想着,我怎么滴也够了吧。。。。结果。。。我果然还是个弟弟。。。。但是众所周知,我是急急国王,很急很急的那种。所以,立马去找了我的朋友,@大峰AI绘画。他也很痛快。大概等了半小时以后,他终于把密码试出来了。我/info一看,22000张图,大佬果然是大佬。。。。。总之,我又一次借到账号了,终于可以登上Midjourney网页版了!进来以后,很清爽的页面,左边三个Tab,Explore(社区),Create(你自己的图),Rate
2023年12月13日
其他

四大巨头的AI绘图模型综合评测 - 写在Meta Imagine上线后

都知道AI卷,卷大语言模型,卷多模态,卷视频,反正啥玩意都都卷。AI绘图作为跟大语言模型并驾齐驱的最成熟的模态之一。那更是卷到飞起。前几天,Meta这个搅屎棍,正式公开上线了他们的AI绘图模型,叫Meta
2023年12月10日
其他

【全网首发】PIKA1.0上手评测 - 你就是传奇

PIKA1.0全网爆火后。我作为PIKA的超级合作者,一直盼星星盼月亮,等他们的PIKA1.0。等啊等,等啊等。在内部渠道登记了我的邮箱后。又过了一天。终于。收到了来自PIKA的邮件。瞬间激动的无以复加。我应该算是国内最先拿到PIKA1.0资格的几个人了吧。所以,PIKA1.0,我来了!!!当然,没排队的,可以先去https://pika.art/排队。说不定啥时候你也拿到资格了呢,笑。一进入PIKA,你就能看到一个非常空旷的界面。上面那些都不重要,核心是下面的操作区。PIKA1.0支持3种方式生成视频:文生视频、图生视频、视频转视频。右下角是3个新的设置,以前在Disocrd里都要手输入,体验太差,现在全部都拎出来了,点吧点吧就能设置。体验极好。第一个设置项可以选择比例(上传图片时比例设置禁用)和帧率。第二个就是镜头控制和速度。第三个是新增的负面提示以及提示词相关性。预告片里很炫的视频扩展(Expand
2023年12月6日