反差 母狗 让Manus给36氪当一天实习生后,咱们想给Ta多发点奖金

美足交
你的位置:美足交 > 乱伦qvod > 反差 母狗 让Manus给36氪当一天实习生后,咱们想给Ta多发点奖金
反差 母狗 让Manus给36氪当一天实习生后,咱们想给Ta多发点奖金
发布日期:2025-07-06 01:15    点击次数:157

反差 母狗 让Manus给36氪当一天实习生后,咱们想给Ta多发点奖金

文|邓咏仪反差 母狗

编著|苏建勋

(鉴于 Manus 引起的炒作争议,36 氪特地声名,本文绝非投放,实质上,咱们连要到邀请码都颇费了一番荆棘 ……)

应该无需赘述 Manus 的引起的悠扬了:群众也曾在各式视频切片中,看到 Manus 勤费力恳地搜贵寓、作念 PPT、修复网页小游戏。回放体式的共享遐想,让东谈主一眼就能感受到 Agent 带来的直不雅效率提高,这也让 Manus 履历一场赶快破圈。

在波折拿到邀请码后,36 氪编著部扣问了一下,为了更好地了解 Manus 的特色和功能,咱们决定请 Manus 来当实习生,按照平素的使命流给 ta 分拨任务,望望 Manus 能否胜任。

OK,输入邀请码,36 氪的新实习生 Manus 就位!

开端:Manus

先说第一不雅感,要是你要请这位"实习生",可能第一个需要接受的施行景况即是:这是位容易宕机的同学。

Manus 如今的事业止境不剖判。36 氪在周末实测时,第一嗅觉即是:让东谈主崩溃 …… 任务频繁遇到停滞,因为 Manus 在云上的造谣机跑,不时需要手动重置,才气不竭跑。

本期实测,即是在 Manus 束缚的崩溃纰谬,测出来的。

测试的界面,老是停留在"衔尾已断开"、"遇到严重问题",需要束缚重置 / 开启新会话 …

偶尔出现的幻觉(不祥情是幻觉照旧官方见知)也很着实。Manus 前一句还在说需要两小时升级保重,你再敲敲它,它就立地又运行干活了 ……

捉摸不透的 Manus

Manus 堪称是"第一款通用型 Agents(智能体)",这意味着它不走垂直大家道路,上风在于更通用才气的任务。Manus 的官网就列出了多个分类:

Manus 官网 开端:Manus

Agents(智能体)不同于大模子,要是说大模子唯惟一个对话窗口,已毕信息输入 - 输出。那么 Agents 就异常于让大模子有了行动才气,可以活泼调用各类器具完成任务。

36 氪决定先从咱们编著部的日常使用场景开拔,以从易到难的程度罗列,请 Manus 都跑一遍。

请督察,以下场景均为一次性输出的扫尾,除了任务半途崩溃重置计较机除外,36 氪莫得作念任何的重叠测试。

校对及整理

咱们先请 Manus 完成比拟基础的校对、整理使命。

36 氪将此前的一份访谈灌音原文(约 2.8 万字)交由 Manus 进行整理,中枢条目是对灌音速记"一字一板整理,不要压缩",去除相应的口癖、对语义不清的部分进行校对。

在过去的操作中,起码要走动和模子交互十屡次:将灌音速记中的装假进行东谈主工校对——再分段扔到模子中——输出罢了后,还需要重新投喂给模子进行校对,看是否有事实装假。

但 Manus 很知道将以往的多个程序压缩到一个程序,这种下达任务之后恭候验收的嗅觉,比和 ChatBot 交互体验,实足是十倍以上的体验提高。

开端:Manus

但 Manus 的劣势亦然知道的:高下文太短,幻觉依然有。许多复杂任务还莫得完成,就因为 Token 消耗太多而中止了任务。

在校对润色这一任务中,最终输出的文档长度大大压缩,基本只输出了访谈的终末一部分,整个 3800 多字,前边的部分基本丢失。但从已输出整理的部分来看,口吻、信息完好性照旧算可以。

Manus 在实践长文任务

这概况率是因为推理和和洽机制作念得还不够好,模子只可提供一次性输出的扫尾,导致压缩;也有可能是 Memory 机制还未能作念得很好—— Memory 可以看作是模子暂时存储信息的 " 仓库 ",比如聊天机器东谈主会记取你之前说过的话。

早前一些磋议使命指出,memory 会跟着时辰或任务程序的加多而消退。而 Agent 所消耗的 Token,比起单 ChatBot 起码是两个数目级的提高——一位 Agent 从业者对 36 氪猜想,Manus 的一个复杂任务的 Token 消耗猜想会有百万 Token 级别。Memory 的分层管制、压缩等本事难点,还有许多提高空间。

新闻跟进及写稿

对一般的 ChatBot 来说,输出长度都是一个老浩劫—— 36 氪之前的测试体验中,要是是一个 128K 的模子,一般而言单次输出长度都在 1000-2000 字左右,才气保证信息完好性,不被无数压缩。

36 氪先让 Manus 完成最基本的新闻跟进使命。这包含几项才气:日常的新闻监控——看是否会筛选靠谱的信息源,再进行紧迫性分析判断,以及找相应的贵寓,加以补充和跟进。

开端:Manus

Manus 运行进行学习表率 - 搜索相关新闻等等,关联词在看望路透社时被考据码挡住了,苦求东谈主类接受。36 氪接受后,发现 Manus 也曾被认证为机器,被屏蔽了。

开端:Manus

Manus 约耗损 9 分钟完成这个任务,输出 5 条最值得关注的 AI 新闻,新闻源都是靠谱泰斗的。终末,Manus 终末聘用了写相关我方的新闻 …… 哈哈。

Manus 写相关我方的新闻

Manus 的新闻文本输出也曾算是 70 分水平,笔墨运动,主要信息点都能粉饰,但和参考的范本不同,当今的文本偏软,AI 味较重。

但在咱们提倡修改意见后,第二版好了许多。

基本是可以狭窄诊疗调后,奏凯发表的水平

难度往上,咱们也在 Manus 也输入了一段 prompt,让 Manus 襄理奏凯以 36 氪的深度报谈栏目"深氪"为例,生成一篇长文:

这周"稚晖君"创立的智元机器东谈主预报要发新品。"稚晖君"原名彭志辉,请你搜索彭志辉以及智元机器东谈主的历史经过,用 36 氪的作风去写稿一篇著作,主题为回溯智元机器东谈主的历史,以及反应这家公司的成长,在科技行业中的意旨,长度为 5000 字左右,可参考深度报谈"深氪"栏策动作风。

请督察,语句需要真切浅出,庸碌东谈主都能看懂,不要堆砌专科术语。

Manus 自动进行了贵寓蚁集,写稿阶段奏凯进行分段写稿,再归拢,得手地完成了长文写稿,输出扫尾:

写稿一篇相关智元机器东谈主的深度长文

在输出的著作中,Manus 在深度写稿上效果一般,更偏贵寓型整理。但遣意造句也算及格,关联词作风照旧偏软文。在高质地内容方面,Manus 的回味还有待加强。

数据分析及可视化

磋议型任务亦然 Manus 的果断。

从性质上来讲,Manus 收受了多智能体架构。浅近来说,即是可将复杂任务拆解为子任务(如数据清洗、特征工程、模子试验),通过不同的智能体,单干并行处理,权贵提高数据分析效率。

不外,要是一致性作念不好,多智能体的局部决策可能导致全局扫尾偏差较严重。

36 氪让 Manus 和 OpenAI 旗下的 Deep Research,都试着作念了一张"大模子 API 两年多以来的的 API 价钱走势表"。

OpenAI 旗下的 Deep Research 则是单智能体,端到端试验的模式——仅一个中心化智能体负责统统任务,决策与实践集会化。但克己在于模块集成度高,易于管制,输出质地比拟有保证。

开端:Manus

Manus 耗损的时辰较长,约三个小时,生成了一个可以交互的网页。互动性和表格样貌都异常可以。不外数据详确程度,和成心作念磋议的 Deep Research 仍有差距,但问题不大

开端:Deep Research

Deep Research 暂时还无法输出图表,但从输出的内容质地来看,是当今的 Manus 还没法赶上的。

创意型任务:可以作念,但审好意思有点难评

咱们也让 Manus 上了点难度。

第一个任务是效法行业大 V "影视飓风" Tim 赤诚的作风,作念一期相关 Manus 相关的视频,长度在 5 分钟左右。

Manus 用了约 45 分钟完成了这一任务,全程丝滑,依旧是谨小慎微拆任务,先上油管学习影视飓风的视频,再征集贵寓写剧本。

开端:Manus

终末产出的内容,体式严谨,是一个结构完好的小科普视频——

开端:Manus

咱们求教了视频组的赤诚,评价是:实习生水平,优点在于把使命流评释白了,分镜和镜头诊疗可以奏凯用作参考,但内容还不可奏凯用。

第二点是,视频剧本过于亢奋,全场充斥着"炸裂""颠覆"之感,对东谈主类的热枕领会比拟名义,有点难绷。

节选一段,供群众参考:

第二部分:Manus 的中枢才气(1:10-2:20)

[ 场景:主办东谈主夸张地在电脑前起义,被各式文献和任务包围 ]

主办东谈主:(夸张的困窘颜料,抓狂状)咱们都履历过这样的时刻——需要整理无数数据、撰写讲述、分析商场趋势 ... 这些使命可能要耗损咱们几小时,致使几天!而且还很容易出错!

[ 殊效:时钟快速旋转,日期页快速翻动 ]

主办东谈主:(倏得欢快,眼睛发亮)但有了 Manus,这一切都将更动!它就像给你复制了一个数字版的我方,但更智谋、更高效!

[ 分屏效果:四个窗口同期展示 Manus 的不同才气,每个窗口都有动态效果 ]

主办东谈主:(指向第一个窗口)Manus 的第一大中枢才气:自主完成复杂任务!

[ 窗口放大,展示 Manus 自动撰写讲述的加快经过,从蚁集贵寓到制品输出 ]

淫民导航

主办东谈主:(解说,语速适中)你只需要告诉它你需要什么,然后 ...(打响指,配合音效)它会我方策动、搜索信息、整理数据、撰写内容,最终委用一份完好的恶果!就像有了一个永不疲惫的助手!

[ 殊效:第二个窗口放大,伴跟着转场音效 ]

主办东谈主:(照看飘溢)第二大中枢才气:多畛域通用才气!不管是金融分析、解说内容创作、旅行策动,照旧代码修复,Manus 都能胜任!

[ 快速裁剪展示 Manus 处理不同畛域任务的画面,每个场景都有对应的图标和笔墨标签 ]

主办东谈主:(夸张的诧异颜料,手势丰富)这就像同期领有了一个金融分析师、一个内容创作家、一个旅行参谋人和一个模范员!而且,它们都是 24 小时待命的!不需要休息,不会喊累!

[ 殊效:第三个窗口放大,伴跟着科技感音效 ]

主办东谈主:(奥秘口吻,稍许缩短音量)第三大中枢才气:多模子和洽机制!这个有点专科,但止境酷!

[ 动画展示多个 AI 模子协同使命的意见图,肖似于团队和洽的可视化 ]

主办东谈主:(解说,配握势)Manus 不是依靠单一大模子,而是收受 " 多重签名 " 机制,由多个孤独 AI 模子共同驱动!就像一个高效的团队,每个成员负责不同的任务,互止境合,确保扫尾的可靠性和准确性!

36 氪还让 Manus 试着作念了一个偏分析型的创意使命——对咱们的微信公众号版式和遐想分析后,进行校正。

为了更明确遐想需求,咱们也给 Manus 提供了一份遐想案例,以及咱们觉得作风越过、审好意思优秀的数个公众号,当作参考。

开端:Manus

Manus 依旧很快就对任务进行拆解,自然终末任务莫得厚爱完成,但照旧输出了一套完好的决议给咱们。

除了咱们建议的程序(分析好版式的共性、联网搜索比拟优秀的公众号遐想实践,提倡建议),Manus 还我方策动了更多程序,也作念了更精细的分类,包括分析 36 氪公众号,分为遐想元素、板式布局、视觉钞票、配色决议等等。

不外从扫尾可以看出,Manus 在审好意思这件事上 …… 并不擅长。就配色来说,Manus 给出了一个放之四海而齐准的决议,分为春夏秋冬四个季节,配色饱和渡过高,审好意思可以说约等于莫得。

开端:Manus

字体亦然分为多个版块,并不斡旋。

开端:Manus

Manus 的输出依然止境依赖于公网数据的质地。

在 Manus 学习排版、遐想相关常识时,大开了不少知乎网页。但 Manus 很难绕过登陆罢休,然后就会转战到其他公开网页。更不消提如同孤独王国相同的各大 App ——比如微信公众号内的数据,爬虫器具也很难实足涉及。

被知乎登陆窗口卡住屡次的 Manus

可能这需要期待以后模子间的接口进一步买通,包括端侧 Agent 跨平台等才气的弘扬,才气让 Agent 输出质地有质的提高。

终末,咱们试着让 Manus 使用高推理模式,生成一个 Jellycat 主题的吃豆东谈主游戏,Manus 耗损约 45 分钟时辰完成。

开端:Manus

吃豆东谈主网页游戏

可以看到,代码和游戏运行界面都也曾异常完好,但终末到了"运行游戏"这一要道,音效都能听到,但无法点击运行游戏。尔后,对话因为高下死不悛改长,住手响应了。

回归

在测试经过中,36 氪最大的欷歔在于,前端交互止境丝滑,有一种精炼的好意思感——从参加 Manus 官网到实质对话,Manus 都在营造一种"对面确实是个活东谈主"的嗅觉。

尤其是在对话窗口左右,可以大开一个名为" Manus 的电脑"的小窗口,及时露馅 Manus 正在操作什么,确实像汉典看着一位实习生同学,帮你完成任务。

你可以随时拖动进程条,稽查 Manus 正在进行的任务。对也曾完成的程序,Manus 都会提供肖似网页快照的界面,让你对任务弘扬有知道感知。

Manus 正在通过百度百科学习智元机器东谈主相关配景贵寓

另一个体验优秀的场合在于,Manus 对器具的调用得手率算是比拟高的。在不碰到崩溃、宕机的情况下,要是测试 10 个任务,概况能有 8 个自动完成任务,无需东谈主类介入。

这能大大提高用户体验——在过去,许多 agent 调用外部器具的得手率都在 60% 以下,体验欠安,难以诱导到更多的用户。

商场无边觉得,Manus 团队对各类通用任务都先置入了不少 CoA(代理链)模版,粉饰迢遥通用任务(写稿、数据分析、攻略等绽开式问题)等等,这些使命权贵提高了任务得手率。

这种机制,肖似在 DeepSeek 对话中束缚蹦出来的想维链,用户可以看到,Manus 是如何样一个接一个调用外部器具的。

Manus 的纠错才气也很强。

36 氪屡次发现,Manus 在职务进行经过中会碰到装假。但 Manus 会尝试不同的处置决议,直至没法处置,才会向东谈主类报错,让东谈主类介入到问题处置中。

开端:Manus

开端:Manus

用户还可以随时打断 Manus,我方来完成某些程序。

在" Manus 的电脑"窗口右下角,有一个"接受"按钮。一朝任务进行得不合,东谈主类可以奏凯打断进程,我方参加到这部"云上电脑"进行操作。

不外可能是计较资源不够,36 氪在操作 Manus 的电脑时,卡顿严重,只可拼集进行操作。

Manus 的电脑

这样的体式自然更合适东谈主类使命的交互体式——只须使用一次,模子尽可能地自行纠错,减少东谈主类参与的次数。

回归一句话:分析回归、数据分析、绽开性问题等需要强逻辑性的任务,是 Manus 最擅长的部分。最不擅长的是创意使命,审好意思基本等于莫得。

不外,受限于当今的事业剖判性和高下文窗口,Manus 完成任务的逻辑和经过很好,但委用质地只可说在中等水平,包括数据、文本等,都需要东谈主类进行二次校对。但从完成任务的时辰和质地来说,也曾算是很可以的同学。

不管是对文本、图像、视频等相关内容,Manus 调用大模子只可效法到内容的框架,就像一层皮——但内容质地照旧需要东谈主类强把关。

从周末的争议中再次回看 Manus,36 氪频繁想起的,是 2009 年的电影《阿凡达》上映之时。那时的阿凡达,是殊效电影的集大成者,一个最紧迫的意旨在于,让全球不雅众都视力到:顶尖的电影工业水平是这样的。

如今的 Manus,尽管还处于比拟简易的样式。但至少在家具层面,和年头爆火的 DeepSeek 有一个共通点:用本事平权的妙技,将 AI 家具赶快拉到群众眼前,而不是停留在小圈子中狂欢。

Manus 集成了当今编程修复才气最强的 Claude,况且受到许多最新本事恶果如 CodeAct 的启发。比起 OpenAI Operator 或者 Devin 高达数百好意思金的订价,Manus 的资本价梗概在 2 好意思元左右。

而且,Manus 通用任务的体验也曾阔绰丝滑,这让普罗群众都能感受到:" AI 竟然还能这样玩",以及信得过感受到 AI 对东谈主类带来的雄壮遵循。

这亦然现阶段反差 母狗,AI 家具在能为商场孝顺的的最大价值。



上一篇:骚货 价钱的涨跌形成了趋势,趋势的惯性股东价钱高潮和下降,价钱的涨跌改
下一篇:推特 文爱 从技艺据说到应用落地:DeepSeek、Manus 揭示的 AI 价值回荡密码

Powered by 美足交 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有