照片制作网站,商城手机网站建设多少钱,深圳建设局网站深业中城绿化项目,WordPress页面扩展过去两年#xff0c;AI 模型的发展叙事几乎被两大阵营主导#xff1a;无所不能的云端模型与充满想象的端侧模型。行业曾描绘一个诱人蓝图#xff1a;随着轻量化模型能力的提升#xff0c;AI 终将摆脱云端束缚#xff0c;在每个人的设备上实现永不离线的贴身智能。然而AI 模型的发展叙事几乎被两大阵营主导无所不能的云端模型与充满想象的端侧模型。行业曾描绘一个诱人蓝图随着轻量化模型能力的提升AI 终将摆脱云端束缚在每个人的设备上实现永不离线的贴身智能。然而喧嚣过后现实略显尴尬无论是近期爆火的 AI 玩具还是备受瞩目的 AI 眼镜其核心交互与智能依然高度依赖云端。即便是算力更强的手机和 PC真正实现离线 AI 能力的设备也凤毛麟角。技术演示中无所不能的端侧模型为何最终仍难摆脱网络依赖矛盾的核心在于用户对体验的极致追求即时响应、隐私保障、断网可用。而端侧设备却面临无法回避的“物理天花板”——有限的算力、功耗和内存如同无形壁垒阻碍了绝大多数高性能模型的落地。更深层的矛盾则源于商业引力。对掌握顶尖模型的巨头而言云端是技术领导力的标杆更是利润丰厚的收费站。当所有目光和资源聚焦云端时投入大、回报周期长且不明确的端侧领域自然成了被忽视的角落。那么那些执着推动“离线智能”的少数派在做什么在今年的世界人工智能大会WAIC上一家名为 RockAI 的公司给出了自己的答案。他们选择了一条少有人走的路并找到了破局之钥。以“让每台设备都拥有专属智能”为使命RockAI 团队深入底层技术甚至大胆舍弃主流的 Transformer 架构啃下了端侧部署这块“硬骨头”。早期他们的模型就能流畅运行在资源有限的树莓派上——这张卡片大小的电脑是端侧部署的严苛试金石多数同类模型在此仅能勉强输出几句话便告卡顿。今年 WAIC 推出的 Yan 2.0 Preview 仅 30 亿参数已实现多模态能力并在本地实现了真正的“记忆”模型可动态调整权重长期保留并更新用户偏好。这项“不可能的任务”并未止步于实验室演示。海内外市场的量产订单纷至沓来迅速将技术实力转化为商业价值。RockAI 的故事或许能解答那个根本问题在云端模型高歌猛进的时代为何以及如何实现真正的离线智能极客公园采访了 RockAI 联合创始人邹佳思探讨其背后的商业逻辑。01 为何永不下线的随身 AI 尚未普及问 整个行业包括苹果这样的巨头都将离线智能视为核心战略。为何从技术演示到消费者手中这“最后一公里”如此艰难
邹佳思 理想与现实之间横亘着两座大山算力与功耗。设备端运行大模型需高算力配置。当前许多 AI 公司的小型化模型仍需高端芯片如高通最新旗舰芯片16GB以上内存支撑。然而大多数智能设备不具备此等算力。这是最残酷的鸿沟再先进的 AI 技术若只能服务于少数顶配设备便失去了普惠价值。功耗则是另一座大山在手机上尤为突出。一旦尝试部署大模型设备便严重发热这是几乎所有基于传统 Transformer 架构模型的通病。主流手机厂商均向我们反馈此痛点皆被这堵“功耗之墙”所阻。硬件更新节奏缓慢是根源。大量在售设备配置陈旧芯片、存储、麦克风、摄像头等并非为当今大模型设计。将 Transformer 强行部署其上要么无法运行要么效果差强人意。即使上游推出新一代高端芯片集成到新产品线也需6-12个月产品热销、规模化普及还需额外1-2年。这是客观物理现实无法逾越。问 您提到算力功耗问题多源于Transformer 架构。它在云端表现出色为何在端侧水土不服
邹佳思 这触及了端侧部署的核心挑战。Transformer 的强大依赖于其革命性的注意力Attention机制但问题也在于此。传统 AI 模型像流水线工人顺序处理信息记忆力有限。Transformer 则像拥有超能力的指挥家让信息“排成方阵”要求每个字与其他所有字“全局握手”计算关联度。这种机制赋予其超凡理解力。在云端无限算力支撑这种计算。但手机芯片CPU/NPU设计更擅长高速顺序执行任务。突然要求其完成每增加一字计算量便指数级暴增的“全局握手”任务它便不堪重负。我们早期便关注此问题。业界现有改进方案如 Flash Attention、线性注意力只是在“指挥大厅”内小修小补未根本改变“全局握手”的高能耗模式。我们选择了一条更彻底的路保留 Transformer 强大的特征提取能力彻底摒弃高耗能的 Attention 机制代之以全新的、适配“流水线”运行的架构。同期国外的 Mamba 架构也看到了类似方向。我们不是改造不适合小路的 F1 赛车而是重新设计能在小路上疾驰的越野车。问 仅为在设备端运行就需重构架构离线智能真有此必要
邹佳思 非常必要且市场需求强劲。其价值无法被云端替代绝对隐私安全 这是苹果等公司投入端侧的核心。最敏感数据相册、健康信息、聊天记录根本不应离开设备这是原则问题。极致实时交互 许多场景需毫秒级响应。例如搭载 Yan 架构的无人机需瞬间响应“在我跳起时抓拍”指令。网络波动在此场景下可能是致命的无法依赖云端。未来的机器人也需基于其独特的硬件参数臂长、传感器进行精准实时控制必须由本地“大脑”完成。成本考量 云端 API 价格虽降但仍有成本。以亿级出货量的摄像头为例云端成本乘以海量基数仍是天文数字。离线智能则几乎无后续使用成本硬件投入已前置。海量设备本地部署是成本最优解。本地模型如同守在门口的聪明管家隐私安全、理解个性化需求。它或许无法解决所有复杂问题但能又快又安全地处理80%的日常事务启动应用、设置提醒、简单翻译、会议纪要等。对多数用户而言并非时刻需要处理复杂任务。设备端模型能以更快、更安全、更低成本满足大部分需求。02 实现离线智能的模型应如何设计问 为打造这辆“越野车”其核心引擎——新架构的机制是什么
邹佳思 核心创新在于摒弃 Transformer 高耗能的“全局握手” Attention 机制回归更轻量的“特征—抑制—激活”架构并引入分区激活技术将每次实际运算的参数量压缩至十分之一甚至更低算力需求降至五分之一以上功耗降至十分之一。标准 Transformer 中无论任务多小所有参数都需全量激活以获取高智能答案。但人脑并非如此运行。人脑约800-900亿“参数”神经元若全量激活功耗或达数千瓦而实际仅约30瓦。奥秘在于分区激活。我们的模型借鉴此机制。除了显著降低功耗新架构还使我们能在30亿参数的模型中实现多模态。不严谨地比喻当你看到鸟、听到鸟鸣、读到“鸟”字时大脑并非整体点亮而是在视觉、听觉、语言等特定分区激活小范围神经元。这种分区独立且重叠的激活高效对齐了形态、声音与词汇。30亿参数以下的 Transformer 因全局计算特性难以高效对齐多模态信息。而我们的类脑激活机制天然适配大脑分区处理模式不同模态输入激活不同分区使对齐更轻松精准。因此在3B规模下我们仍保有强大的文本、语音、视觉联合理解能力。问 “分区激活”思路巧妙。但人脑有近千亿参数“厚底子”支撑小范围激活。端侧模型仅数十亿参数已是“螺蛳壳里做道场”。小模型通过激活更小部分真能实现更好智能
邹佳思 您的问题触及了当前大模型范式的核心困境——压缩智能的局限。当前预训练大模型本质是将海量互联网数据压缩进千亿参数“容器”。参数量越大“海绵”越大容纳知识越多。但此范式处理多模态时存在弊端如同文件压缩1G文本压缩后远小于1G视频/图像后者本身体积大、压缩比低。因此小参数 Transformer 模型难以加入多模态能力。若规则仅是比拼“海绵”大小与“背书”厚度小模型确无前途。但我们认为真正的智能不应仅是压缩更应是成长与学习。这是我们的根本差异压缩智能 自主学习双线并行。分区激活的意义不仅在于节能更在于为成长提供可能。当前模型30亿参数通过精细的动态分区如分为100区一次仅激活约3000万参数。这意味着未来可在手机内存允许范围内将端侧模型总参数做大如百亿级但仅激活极小部分以维持低功耗。这颠覆了游戏规则。我们不再内卷于如何压缩大模型而是探索如何让端侧模型从小成长到大。当业界在压缩之路上内卷时我们通过 MCSD 架构、分区激活、记忆神经单元为端侧模型开辟了第二条、更符合生命本质的成长路径——可持续、低成本的自主学习。我们不仅在构建能跑在设备端的模型更在构建端侧 AI 未来所需的、可不断成长的“大脑底座”。问 如何理解 Yan 模型的“自主学习”它与云端模型的个性化有何不同
邹佳思 “自主学习”正是我们在 WAIC 展示的最令人兴奋的突破之一。当前云端大模型需通过预训练更新智能。模型真正的学习过程——理解用户反馈并体现于神经网络变化——依赖前向传播推理 和反向传播学习。反向传播极其耗能云端千亿模型一次反向传播需动用庞大 GPU 训练集群。因此所有基于 Transformer 的模型一旦部署到手机便沦为“只读存储器”——仅有前向传播能力丧失学习可能。所谓的“个性化”只是通过对话形成外挂知识库记忆偏好并非根本性学习。故用户即使多次强调偏好模型仍可能“自行其是”。我们的创新恰恰在最根本的物理限制上实现了突破首次让反向传播学习过程在端侧设备成为可能。得益于分区激活当模型需学习新知识如“喝咖啡不加糖”时无需撼动整个神经网络。架构能锁定与此新知识直接相关的、被激活的极小区块。在这个隔离的“微型战场”执行一次低功耗反向传播仅更新该分区内极少数权重参数将新知识直接、永久写入模型本体神经网络。通往个性化记忆和自主学习的大门由此开启。模型可边使用推理边学习训练将新习惯、新偏好直接写入本体获得真正的自主进化能力。03 离线智能何时赋能 AI 玩具问 从技术回到市场当业界追逐云端千亿模型时你们的技术已获真实订单。哪些玩家对离线智能最执着其商业驱动力何在
邹佳思 我们接触多领域客户其离线智能诉求背后皆有深刻商业逻辑。PC、平板和机器人是当前核心量产领域我们更关注广阔的中低算力市场。以某头部出海厂商合作为例。其核心诉求不仅是打造未来旗舰机的 AI 功能更是盘活手中数亿已售或正售的中低端设备。这关乎两条生命线存量设备激活 通过 OTA 为旧设备推送我们的 AI 模型可创造全新软件预装和增值服务收入极大提升品牌价值“几年前买的电脑竟能升级为 AI PC”。非旗舰新机赋能 品牌不能仅靠顶配 AI PC 生存真正销量利润源于中低端市场。但这些设备受限于芯片算力无法运行主流 Transformer 模型。我们的技术填补了巨大空窗期让厂商能立即而非苦等三年将 AI PC 卖到用户手中。此外我们也关注机器人和手机领域并与无人机公司合作。问 炙手可热的 AI 眼镜和 AI 玩具领域呢
邹佳思 这两类产品代表了端侧 AI 最性感的想象但也面临最骨感的现实根源问题是相同的——为极致成本控制和轻便性其内置芯片设计之初并非为运行 AI。AI 眼镜 主流方案使用高通 AR 芯片或恒玄等通信芯片任务聚焦蓝牙连接、信息投屏、简单翻译算力内存被严格限制。我们的模型在多数眼镜上尚难运行更遑论数十亿参数的 Transformer 模型。AI 玩具 市场对体验期望极高硬件现实却极残酷。面对此困境我们推进两条路径曲线救国当下务实 借助手机算力。正与头部眼镜厂商深入洽谈此方案。釜底抽薪面向未来 与影目科技INMO等伙伴尝试在下一代眼镜中换装更强“大脑”芯片。虽面临功耗和工业设计挑战但一旦成功将打造出真正离线智能的差异化产品如无网环境下的高质量即时翻译。因此对眼镜和玩具市场我们有务实当下方案也有着眼未来的终极目标。爆发需等待技术与硬件完美共振。问 国内 AI 硬件赛道火热但多依赖云端。观察到你们客户主要销往海外。离线智能需求在海外是否更旺盛
邹佳思 您观察到的“温度差”正是我们当前战略核心。海外智能硬件市场提供了一片更广阔的蓝海源于三个国内相对不敏感的痛点文化驱动的隐私执念 欧美用户对数据隐私的重视深入骨髓且受法律保障。例如某头部玩具 IP 公司因不愿用户隐私上云而对我们的方案兴趣浓厚。客观存在的网络鸿沟 全球许多地区如非洲原野、东南亚岛屿网络环境不稳定离线模型是确保可靠体验的“救命稻草”。高人力成本催生的效率需求 海外用机器替代人力的意愿更强对无需联网的7x24小时服务如接待员、导游需求更直接迫切。因此我们战略清晰——“借船出海”赋能优秀的中国出海企业将技术带给全球对离线智能有真实、强烈需求的C端用户。问 前景激动人心但需直面现实一方面手机巨头重兵自研端侧 AI另一方面硬件遵循摩尔定律飞速发展。两三年后当手机芯片能轻松运行更大模型时你们“小而美”的优势是否仍在RockAI 的核心护城河是什么
邹佳思 此问题点出了我们每日思考的两大挑战。首先硬件变强对我们有利高端硬件普及需至少2-3年窗口期此间我们是解决海量存量及中端设备 AI 化的最优解。硬件底座变强后不仅能运行更大的 Transformer也能运行我们从小长大的 Yan 架构大模型如10B。我们独特的自主学习、低功耗等优势依然存在。更深层的护城河关乎公司灵魂。团队源于一个始于2015年未竟的智能硬件梦类似小爱同学因当时AI技术不成熟而失败。看到 Transformer 潜力后我们重聚创业却痛苦发现将这台“云端猛兽”塞入设备在工程上走不通。当时有两条路跟随主流优化 Transformer更易行、易获投资认可。选择更艰难孤独之路承认此路不通从零构建全新的端侧原生架构。我们选择了后者。支撑我们的并非资金、算力或团队光环而是一种近乎“信念”的坚持。我们笃信模型必须运行于端侧设备必须拥有自身智能。正是这份执念让我们在别人追逐云端风口时甘坐两年多“冷板凳”在实验室反复“炼丹”最终炼成 Yan 架构这颗“丹”。因此我们的护城河非单一技术点聪明团队众多而是因坚持而积累的深刻认知、趟过的深坑以及从第一天起就为端侧智能而生的创新基因。