电话: 邮箱:
博 学 而 笃 志   切 问 而 近 思 SEEK BROAD KNOWLEDGE · ASK EARNESTLY

世界杯直播

世界杯直播

世界杯预选赛下单 唐杰夜深发文,AI从用具到劳能源只差这一步

发布日期:2026-05-15 21:39 来源:未知 作者:admin 浏览次数:

世界杯预选赛下单 唐杰夜深发文,AI从用具到劳能源只差这一步

文 | 字母 AI

跟着黄仁勋踏上赶赴特朗普的空军一号,智谱股价暴涨 36.9%,收报 1150 港元,创下历史新高。

从 1 月 8 日上市时的 116.20 港元刊行价算起,智谱的股价在短短四个多月内增长了 900%。

而就在暴涨之前不到 24 小时里,智谱首创东说念主唐杰夜深在 X 上发布了一条推文,大谈了我方对通盘 AI 产业的念念考。

整条推文的中枢是"长周期任务"。

请细心,英文原文是" Long-Horizon Tasks ",直译过来应该是长视线。但是在 AI 语境中,它是指一个任务需要高出较永劫期、较多时事、较多中间景况才能完成。

他以为,2026 年最可能的大意点不在于模子变得更聪惠,而在于模子或者抓续完成复杂、多时事的任务。

在唐杰看来,一朝模子能抓续诡计、试错、判断和托付,它冲击的就不仅仅规范员效劳,而是整套东说念主类奉行层。

以前 AI 替东说念主写几句话,大家还能说它仅仅用具。一朝 AI 能连气儿几天我方干活、我方判断、我方托付闭幕,它要替代的就不仅仅某个岗亭了,它可能会透顶替代某一个行业。

长周期任务是什么?

当年两年,咱们评价一个大模子的好坏,主要看它在单次对话中的证据。回复是否准确、逻辑是否显著、谈话是否领悟。

这本体上是在测试身手。但长周期任务需要的不是身手,是奉行力。

主义明确但旅途不笃定,需要抓续数个小时、数天致使数周的长久鼓吹。

唐杰在推文顶用黑客算作例子。

他说,谬误挖掘是典型的长周期任务。需要阅读多半代码、接续系统架构、搭建测试环境、构造报复输入、考证谬误灵验性,临了撰写本事汇报。

这个过程充满试错,因为莫得规范谜底,只可依赖申饬和直观。

你弗成只读一遍代码就找到谬误,你要反复去尝试不同的报复向量,在每次失败后养息念念路,在每次告捷后考证可靠性。

如果 AI 能在这种抵拒性、申饬化的限度站稳脚跟,那么它对平淡规范员、数据分析师、法务助理等事业的冲击只会来得更横蛮。

因为这些事业的任务天然也很复杂,但抵拒性更弱,申饬依赖度更低,更容易被系统化的经由笼罩。

唐杰以为世界杯预选赛下单,预计 AI 的方式,正在从看对话、谜底,变成看"长周期"任务完成身手。

一个模子可能在单次对话中证据无缺,但在需要抓续职责 8 小时的任务中庸碌出错、丢失凹凸文、重叠无效操作。

另一个模子可能单次回复不够精彩,但能安靖地鼓吹任务,记着每一步的闭幕,在遇到禁锢时自动换旅途。

那么后者在长周期任务中的价值,就高于前者。

腾讯的姚顺雨曾提倡一个宗旨,今天模子太依赖预查考里的"参数化常识",真实寰球更需要能从现时 Context 里学习并运用的模子。

当模子简直启动跑任务的时候,它需要查文档、跑代码、测接口、读日记、调参数。

一个能熟练调用这些用具的模子,比一个记着了通盘 API 文档但不会履行操作的模子有用得多。

此外,以前的模子过于被迫,它得恭候东说念主类发出教唆后才能奉行,况且每发出一次教唆,只可奉行一步。

开云kaiyun体育中国APP下载

但在长周期任务里,给定主义后,模子需要自主诡计和奉行。

被迫反映只需要接续现时问题,主动鼓吹需要接续通盘任务的结构、现时所处的阶段、下一步应该作念什么、如果失败了该如何养息。

这需要模子具备某种"任务感",知说念我方在作念什么,为什么这么作念,作念到哪一步了。

当有了这一切后,AI 就启动参加"闭幕托付"阶段。

企业和个东说念主不再得志于" AI 帮我写了一段代码",而是期待" AI 帮我完成了通盘功能模块的开荒、测试和部署"。

这是从助手到承包商的高出。助手需要你告诉它每一步作念什么,承包商只需要你告诉它最终要什么闭幕。

长周期任务的宗旨并不崭新。学术界早就在盘考强化学习、任务诡计、多步推理。

唐杰以为,恰是因为如下几个枢纽本事大意,长周期任务在本年变得可以已毕。

第一个等于挂牵。

百万级凹凸文窗口和 RAG 本事的熟习,让模子或者在永劫期任务中保抓对方式布景、历史尝试和用户偏好的挂牵。

Claude Opus 4.7 赈济 1M token 凹凸文窗口,GLM-5.1 赈济 200K token。这意味着模子可以在一个会话中记着数十万字的代码、文档、对话历史。

它不会因为任务太长而健忘最初的主义,不会重叠照旧尝试过的失败决议,不会丢失中间时事的枢纽信息。

第二个是抓续学习。

天然简直的抓续学习仍然困难,但模子更新周期正在急剧裁减。全球最初模子照旧作念到月度更新,国内模子紧随后来。如果来岁能作念到周更新,事实上就接近了抓续学习的恶果。

模子不需要在查考时就学会通盘常识,它只需要能快速领受新用具、新 API、新业务执法。当更新周期弥漫短,模子就能跟上现实寰球的变化速率。

第三个是自我判断、自我进化。

唐杰推断,Claude 可能照旧已毕了基础的自查考身手。

模子我方写代码、清洗数据、生成合成数据,然后用这些数据查考我方。GPT-5.5 就在用模子生成的代码和测试用例来更正我方的编程身手。

它启动知说念我方的谜底是否靠谱,知说念什么时候该重试、求证或回滚。

这种身手在长周期任务中至关封闭。因为莫得东说念主会在傍边监督每一步,模子必须我方判断现时线案是否可行,是否需要养息,是否照旧达到主义。

但这条旅途也充满风险。

自我进化意味着东说念主类对模子查考过程的戒指力不才降。当模子启动我方生成查考数据、我方评估查考恶果时,咱们如何确保它不会偏离东说念主类的价值不雅?咱们关于 AI 的价值又是什么?

唐杰的判断是,这些身手通过小巧的工程" tricks "已毕。这意味着进展速率会比学术界预期的快得多,因为工程化的迭代周期远短于学术和本事上的更动周期。

你只需要在现存架构上作念更好的 prompt 工程、更玄虚的强化学习、更可靠的用具集成。

智谱的 GLM-5.1 在 SWE-Bench Pro 上达到 58.4%,高出 GPT-5.4 的 57.7% 和 Claude Opus 4.6 的 57.3%,等于这种工程化迭代的闭幕。

智谱:在长周期任务赛说念上的政策押注

算作智谱的首创东说念主兼首席科学家,唐杰发这条 X 彰着不仅仅本事不雅察,还多了一层政策宣言。

智谱在国内大模子阵营中的特质是本事基础底细塌实,但生意化节律相对严慎。

它不像 Kimi 那样靠 C 端爆款居品快速起量,也不像阿里、百度那样有深广的生态和流量进口。

智谱的道路一直是"模子身手先行,运用场景跟进"。先把基座模子作念到弥漫强,再通过 API、特别化部署、行业贬责决议变现。

长周期任务这个标的,不管是国内照旧国际,参与的玩家都很少,莫得明确的领跑者,大家都在探索阶段。

OpenAI 的 GPT-5.5,定位等于"自主任务奉行",强调的是 agent 身手和多时事职责流,Opus 4.7 亦然雷同。

然而二者在长周期这件事上,都还差点事理。

两家公司并莫得展现出压倒性上风,市集样式也还远不决型。

天然在纯模子身手上追逐 GPT 和 Claude 很难,2026世界杯体彩官网不外在长周期任务这个新方朝上,大家都站在统一条起跑线上。

唐杰进一步提到了 NPC 这个宗旨。他以为长周期身手会鼓吹从 OPC 到 NPC 的振荡。一东说念主公司的逻辑是"东说念主加 AI 用具",无东说念主公司的逻辑则是" AI 系统加东说念主类监督"。

前者是增强,后者是替代。

不外无东说念主公司并不是确切莫得东说念主,而是东说念主的定位发生了改变,从奉行者变成了主义设定者、资源建树者和背负承担者。

简直被替代的是中间奉行层,比如那些负责鼓吹任务和互助资源的岗亭。在 NPC 里,东说念主只需要设定主义和审核闭幕。

落到智谱身上,唐杰的不雅点预示着智谱接下来的发展标的。

智谱 GLM-5.1 的本事白皮书中提到,GLM-5.1 能抓续孤独功课 8 个小时,单次任务可安靖奉行 1200-1700 步操作,无需东说念主工监控与干扰。

不外这仅仅一张获利单,要简直让企业宽解,还得看它换到更多场景后会不会掉链子,遇到没见过的问题时能弗成靠我方的技巧贬责。

长周期任务不是一个通用居品,它需要针对不同业业、不同场景作念深度定制。

软件开荒需要的是代码接续和测试奉行,法律行业需要的是文档检索和合规搜检,金融行业需要的是数据分析和风险评估。

不是说把模子卖给企业就结束,智谱还要把模子打包成能径直上手的 agent 用具箱,客户毋庸从零开荒,也能快速搭出我方的长周期任务系统。

长周期任务系统不是智谱一家能作念出来的,它需要开荒者孝顺用具和插件,需要企业客户提供真实场景和反馈,还需要监管机构制定安全和合规规范。

智谱的开源策略等于在构建这个生态。

从市值来看,智谱是国产 AI 的架海金梁,唐杰的每一个判断都会对国内 AI 产生很大的影响。

就以唐杰提到的自我进化来说,智谱是会追求自我进化?照旧会选拔更保守的策略?

从 GLM-5.1 来看,智谱在走一条中间道路。

一方面,GLM-5.1 的查考照旧多半使用模子生成的合成数据,这是自我进化的雏形。

可另一方面,智谱强调"可证明的、可监管的"系统,这意味着它不会十足撤废东说念主类戒指。

这种均衡很难,但可能是最现实的旅途。

长周期任务是企业的核肉痛点,它能径直替代东说念主力资本,能径直普及业务效劳,企业欢快为此支付更高的价钱。

如果智谱能拿下长周期任务,那么它的业务会进一步增长,市值也会更高。

AI 并吞寰球

基于对长周期任务的判断,唐杰给出了一个预言,畴昔咱们可能会高出 APP 的宗旨,径直参加 LLM OS 期间。

什么是 LLM OS?运用按需生成,用户不再料理文献、窗口和按钮,用户只料理任务、权限和闭幕。

然而我想说,这个判断涉及了当代诡计机的根底逻辑。

APP 的本体是把功能固化在界面里,用户通过点击按钮来触发预设的功能。

你如果想发邮件,你就大开邮件 APP,点击写邮件按钮,填写收件东说念主、主题、正文,点击发送。每一步都是事前想象好的,你只可在想象者行为的旅途上操作。

agent 的本体则是把主义交给系统,让系统临时组合用具、数据和界面来达成主义。

你告诉系统"给张三发一封邮件,告诉他方式程度",系统会我方决定用哪个邮件服务、如何措辞、什么时候发送。你不需要知说念邮件 APP 在那里,不需要知说念如何操作,你只需要抒发意图,系统负责奉行。

如果唐杰说的这个趋势建筑,软件的中心将从"大开哪个 APP "变成"告诉系统我要什么闭幕"。这将会颠覆现存的一切。

它挑战的是 80 年来的冯诺依曼架构,挑战的是通盘诡计机科学的产业基础。

当今的操作系统,不管是 Windows、macOS 照旧 Linux,本体上都是文献料理器加进程调理器。

它们料理的是数据在那里、规范如何运行、资源如何分派。用户需要知说念文献存在哪个文献夹,需要知说念用什么规范大开,需要知说念如何在不同规范之间复制粘贴数据。

LLM OS 的逻辑十足不同。

它料理的不是文献和进程,而是任务和权限。你不需要知说念数据存在那里,系统我方能找到需要的数据。你不需要知说念用什么规范,系统会我方调用相宜的用具。

你只需要告诉系统你要作念什么,然后恭候闭幕就可以了。

听起来可以,然则已毕起来极其困难。

用户说"我要作念什么",系统能准确接续吗?

天然谈话是暗昧的、多义的、依赖凹凸文的。不异一句话,在不同场景下可能有十足不同的含义。

是以模子不仅需要具备强盛的语义接续身手,还需要联接凹凸文、用户历史、现时景况来推断意图。

接续用户的意图以后,接下来就到了奉行任务。

一个高层主义需要剖析成些许个子任务,每个子任务用什么用具完成,任务之间有什么依赖关连。

"给张三发邮件"这个浅易任务,履行上包含了查找张三的邮箱地址、生成邮件内容、选拔发送时期、处剪发送失败等多个子任务。

再往底层看等于用具调用。

邮件是用具、写字用的输入法是用具、网页亦然用具。系统需要能调用千千万万个不同的用具和服务,每个用具有不同的 API、不同的参数、不同的颠倒处理方式。

唐杰在闭幕提到了监管问题。

他承认这个不可逆的进程照旧启动,但同期命令负责念念考如何监管。长周期任务和自主 agent 带来的监管挑战是前所未有的。

当 AI 孤独完成一个任务并形成耗损,背负应该由谁承担。开荒者、使用者,照旧 AI 本人?如果一个 AI 系统在奉行长周期任务时作念出了颠倒决策,导致企业耗损数百万,谁来负责?

2026 年 4 月,PocketOS 就遭逢过一次典型事故。

一个基于 Claude 的 Cursor 编程 agent,在处理环境问题时误删了公司的坐褥数据库和备份,通盘过程只用了几秒钟。

现存的法律框架还莫得准备好回复这个问题。

除此除外,当多半奉行层岗亭被 AI 替代,那么随之而来的等于悠闲潮。

但悠闲仅仅最容易被看见的闭幕,更深层的变化,是社会单干本人被重新改写。

当年,本事替代的通常是某个要道、某个用具、某种重叠作事;长周期 agent 要替代的,是"把事情鼓吹到闭幕"的整套奉行身手。

它一朝建筑,AI 就不再仅仅嵌在职责流里的赞成按钮,而会变成职责流本人的一部分。

唐杰以为,长周期任务不是 AGI 的一王人,但它可能是 AGI 第一次简直参加现实寰球、简直启动重构东说念主类社会的方式。当 AI 不再仅仅回复问题,而是启动承包闭幕,咱们就站在了一个历史性的篡改点上。