

D神又开播了?果然假的?
Deepseek憋了这样久大的,最近终于开动尽情开释了。上周他们刚悄咪咪把 V4 给端了上来,紧接着即是连着两波大降价。。梁神,你又来普度群生了?
效果今天,它又一霎来了给我推送了一波灰测:DeepSeek,有多模态才智了,准确来说是识图。
验过了牌,是果然。

想尝鲜的差友现时就不错翻开你的 DeepSeek 瞅一眼。
淌若界面里多出了个“识图步地”,恭喜你,你即是被内测到的运道儿,径直白嫖实在的多模态版 V4。
DeepSeek自家的筹备员陈小康,也按耐不住发了个贴,咱们鲸鱼终于长眼睛了,再也不是国服盲僧了!

为啥大伙儿反馈这样爽脆?实在是DeepSeek因为没多模态,仍是被诟病很深远,像国际三巨头ChatGPT、Gemini、Claude早就有多模态才智了,国内像豆包、千问等模子也作念得颠倒好。
而你这个被交付厚望的国产之光,这样多年了连个图都识别不了,只可靠 OCR,也即是识别图片里的翰墨,使用体验这块照实拉了一截。
而现时,这块短板终于被补王人了。
话未几说,咱们径直上测试吧。
率先,它照实是开脱了传统的OCR,真能看到图片全貌了,这点大伙不错省心。
比如咱们给它了一张用蓝色写出来的“这是一转红字”,如果只用传统OCR,它只可识别出翰墨是“这是一转红字”,全都识别不出是蓝色的。(以至可能无法识别)
而开启视觉步地后,它不错精确识别出,这是一转蓝色的红字,以至嗅觉到了我的幽默。
不光如斯,它还有了视觉上的推理才智。
这张梗图大众都见过吧?战胜以差友的才略,2026在线买世界杯中国区平台全都看得懂图里在写啥。
于是我发给DeepSeek,让它帮我进行笑点剖判。
它一番念念考事后,不光看出来了,还趁机作念了个原土化翻译“金大利亚”“银大利亚”“铜大利亚”,有点忍俊不禁了。
接着我又发它了一张共事开车时,唾手拍的图片,其实挺糊的,只好些外不雅、光效上的信息不错分析。
效果它如故猜出来了,这辆车照实是斯巴鲁,而况念念考13秒就给出了论断。
谈判到D健硕是数学高东说念主,咱们又给它传了一张数学相关的梗图,说真话世超差点都没看懂,是哥们丈育了。
D健硕的诠释,依旧颠倒圆善。
不光整显然了简便运算,它以至看出了内部的几个谐音梗:取实部也即是去掉虚数“i”,也即是去掉“Eye”,开云IOS/Android通用版/手机APP下载也即是把眼睛去掉了。而倒三角是梯度也即是“Grad”,刚好和“Graduate”差未几,是以给小脸带上了学士帽。
仍是健忘数学学问的差友们不错逐字复盘一下。
趁机呢,我也测了几个糊口中的问题,比如这个3.5mm插头该插那里。
这个方头USB口又该插那里。
固然很简便,但它能见解我没对上焦的唾手拍,也算能胜任平常任务了。
但其实,字据世超的实测,D健硕现时这个版块,也莫得到寰宇无敌的地步。
比如咱给它丢了一张图,颠倒绚烂的地球夜景。
DeepSeek也看得蛮明晰的,说这张相片来自国际空间站。
但其实,你们把相片翻过来望望,就会发现这张相片是一张晚霞底下的城市,这是倒悬过来的视角。。。
然后我丢给了公认的多模态高东说念主Gemini。。。它还真看出来了。不是,降智了都这样强吗?
如故没能让多模态之王用尽全力吗,哈吉鲸。
包括对一些东说念主脸的识别,亦然偶尔抽风,比如我把豆包的图片扔给了它,它给我识别的是啥,嗯,B站UP主罗翔。
还有这个经典的视错觉问题,这俩球彰着不相通大吧?效果D健硕一番念念考跟我说俩球相通大。
不外我也去扒了一下它的念念考经过,其实它早就看出来右边的球大了,但因为仔细读题,合计这是给它的错觉,是以接收拐骗我方,说它们相通大了。。可能是强化学习强化太猛了吧。
抽象评价,不错给到一个神鬼二象性,夯的技术夯,拉的技术拉收场。。
但话又说转头了,DeepSeek刚长出眼睛,咱如故得给它一些符合这个寰宇的时辰吧。
终末,现时的 AI 巨头大乱斗,早仍是过了阿谁只看跑分、只看文本输出才智的外行村阶段了。
Coding 水平、多模态才智、调用器用的丝滑进度等等等等,基本上统筹兼顾。
但之前大 D 健硕在多模态才智上的缺席,总让合计可惜。有种大伙们都在哼哧哼哧作念事干活了, DeepSeeK 却因为缺胳背少眼,Agent 才智大打扣头。
毕竟,现时绝大部分的模子,API 都是带多模态,大概至少是带图片输入才智的。
也期待 DeepSeek 能把识图的多模态才智,尽快更新到 V4 新模子的 API 上头吧。
要知说念,之前蒙着眼睛,仍是和不少敌手仍是打得有来有回了。。 现时揭下眼罩,到技术用在 Claude Code、龙虾、Cowork 等等器用上的弘扬,算计还会有一大波的升迁。
另外,按照 DeepSeek 这段时辰吐泡泡刷存在感的频率,算计还有一堆连招等着出手呢。
未几说了,看 D 健硕扮演吧。