网站首页详细设计wordpress 08影院主题

张小明 2026/1/9 14:23:55
网站首页详细设计,wordpress 08影院主题,网页设计师女生工资,.net 网站开发权限设计原问题#xff1a;LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA#xff0c;有哪些信息值得关注#xff1f;大语言模型#xff08;LLM#xff09;是目前 AI 领域的显学#xff0c;相比之下#xff0c;LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJE…原问题LeCun 在官宣即将离开 Meta 后发表论文 LeJEPA有哪些信息值得关注大语言模型LLM是目前 AI 领域的显学相比之下LeCun 一直力推的 JEPA 关注的人并不多。最近 LeCun 团队新发的 LeJEPA 论文是对 JEPA 的一个改进考虑到 JEPA 本身了解的人可能并不多直接解读 LeJEPA 受众会很窄这篇文章就尝试用一个更科普的视角梳理一下 JEPA 和 LeJEPA 思想的来龙去脉并和大家相对熟悉的 LLM 做一些对比。从 NLP 领域的自监督学习SSL说起所谓自监督学习核心思想是从数据中获取监督信息核心是利用数据自身结构或信息来生成伪标签pseudo-labels避免了监督学习对人工标注的依赖。NLP 领域的自监督学习典型的思路有「预测下一词」NTP和「掩码词预测」MLMGPT预测下一个词可以理解为「文章接龙」给它我大意了没有__它需要预测闪。BERT掩码词预测可以理解为「完形填空」给它我 [MASK] 了 [MASK] 闪它需要预测大意和没有。共同的思想是让模型用一部分数据去预测另一部分数据。为了能正确预测模型「被迫」学会了语法、语义和上下文。这个范式造就了当前炙手可热的 LLM 领域。在计算机视觉CV领域科学家们也一直在探索 SSL 的路径。我们来介绍其中的三个主要的分支以及其思想的来龙去脉。分支一对比学习SimCLR 代表的对比学习 (Contrastive Learning)家族走了一条和「完形填空」不同的路。它的哲学是我不需要知道「这是什么」我只需要知道「这两张图是不是一回事」。举个例子拿一张「猫」的照片锚点。对它进行两次随机 P 图比如一次裁剪 变色一次旋转 模糊。这两张 P 过的图我们叫它正样本因为它们本质上还是那只猫。再从数据集中随机拿一堆其他照片比如狗、车、房子。这些叫负样本。训练目标强迫模型编码器在抽象的「特征空间」里把两个「正样本」的特征向量拉得越近越好同时把所有「负样本」的特征向量推得越远越好。这完全是 CV 领域「土生土长」的 SSL 思想。它不依赖「预测」而是依赖相似性和不变性Invariance。模型被迫学会忽略那些 P 图带来的「表面差异」颜色、角度去捕捉「猫」这个不变的核心语义。和 LLM 的核心区别在于LLM 是在「预测」一个具体的内容下一个词。SimCLR 是在「对比」一个抽象的关系A 和 B 相似A 和 C 不相似。分支二MAE掩码自编码器MAE 是何恺明的杰作它代表了生成式/掩码式 (Masked Modeling)学习。它的哲学是如果你能把这幅图的 75% 都画出来你一定懂了这幅图。这是对 NLP 领域中 BERT 思想的致敬。BERT 遮住 15% 的单词去预测而 MAE 遮住了图像的 75% 去预测这是因为图像包含信息的冗余度更高。就好像在做拼图游戏把一张图比如一只狗切成 100 块小拼图。随机扔掉 75 块。只把剩下的 25 块连同它们的位置信息交给模型编码器。训练目标模型必须在像素级别上把那 75 块被扔掉的拼图一模一样地画重建出来。为了能「凭空」画出狗的耳朵、身体和尾巴模型必须从那 25% 的碎片中学到关于「狗」这个物体的「整体概念」和「结构知识」。它被迫学到了高级的语义信息。分支三JEPA联合嵌入预测架构这是今天的主角。LeCun 提出的 JEPA。试图融合前两种思想的优点并摒弃它们的缺点。SimCLR 的缺点太依赖「P 图」数据增强。我们必须手动告诉模型「旋转和裁剪」是不重要的。但万一很重要呢它天生更适合做「分类」而不是理解这个动态的世界。MAE 的缺点强迫模型去预测每一个像素比如狗身上的毛的精确颜色和纹理是没必要的而且非常难。人类也不会去记这些细节。JEPA 的哲学是我们应该像 MAE 一样做「完形填空」掩码但我们不应该预测「像素」太低级而应该像 SimCLR 一样在「抽象特征空间」里进行预测。同样拿一张图分成「上下文」Context模型能看到的和「目标」Target模型看不到的被遮挡的。关键区别JEPA 不要求模型去「画出」目标的像素。训练目标JEPA 要求模型根据「上下文」的特征去预测「目标」的「抽象特征」Representation。实现细节它通过一个「慢速更新」的目标编码器来获得「目标」的真实特征。总结一下这几种分支SimCLR (对比):在 CV 领域开创了「对比相似性」的道路。核心是「不变性」。MAE (掩码):成功地将 LLMBERT的「完形填空」思想搬到 CV。核心是「重建」。JEPA (预测抽象特征):吸收了MAE 的「掩码 - 预测」框架认为这比对比学习更通用。SimCLR 的「特征空间」思想认为预测抽象特征比预测像素更高效、更智能。为什么 LeCun 认为 JEPA 更接近「世界模型」JEPA 被 LeCun 认为是通向「世界模型」World Model的更优路径因为它鼓励模型去学习这个世界的抽象规律而不是去记忆那些无关紧要的像素细节。对比一下本文提到的这几种范式的主要特点方法预测什么保留信息学到的结构世界模型潜力SimCLR不预测只对比丢信息不变性 最弱MAE像素太多细节纹理、局部结构⚠️ 弱LLMtoken语言压缩语言统计⚠️ 中但偏离世界JEPA抽象表征保留关键变量世界状态/因果/物体/动态✅ 强目标就是世界模型JEPA 的潜在问题所有不使用「负样本」像 SimCLR 那样的 SSL 方法包括 JEPA都有一个表征坍塌 (Representation Collapse)的问题。具体来说模型的目标是「预测」目标块的特征。它可能很快就发现一个完美的作弊方法我编码器不管你给我什么图片猫、狗、车我一律输出0或者任何一个固定的常数。这样一来我的上下文特征是0我要预测的目标特征也是0。预测0去匹配0我的预测损失L2 Loss永远是零完美也就是所有的输入都被压扁Collapse到了空间中的同一个点一个常数解。这个模型学到了一个完美的损失但它什么也没学到它的表征是完全无用的。通常大家包括 I-JEPA、BYOL、MoCo 等是怎么「逼」模型不偷懒的呢他们用的是一系列复杂的、像「炼丹」一样的启发式技巧 (Heuristics)。比如 Teacher-Student 网络 Stop-Gradient。打个比方我们不让模型学生自己预测自己这太容易作弊了。我们复制一个学生的副本叫教师。学生的任务是预测教师的输出。Stop-Gradient我们规定教师的输出是固定的梯度不能传回给教师。好比教师给学生划重点学生不能反过来质疑或改变老师的答案。EMA 动量更新教师不是一成不变的它会非常缓慢地用「动量」复制学生的最新参数。好比教师在学生期末考后才会慢慢更新自己的教学大纲。这种「非对称」结构打破了「自己预测自己」的循环。学生编码器必须不断追赶一个「缓慢变化」且「无法被它直接控制」的目标教师。这使得「全部输出 0」这个捷径不再有效。但这种做法的缺点是整个训练过程变得非常脆弱。你需要精心调整教师更新的「动量」比如 0.999 还是 0.9995、需要 Stop-Gradient 这种奇怪操作、需要复杂的超参数调度。它能用但我们不知道它为什么能用得这么好而且缺乏坚实的理论基础。LeJEPA 的改进LeCun 团队说我们受够了这种炼丹式的防守。与其被动地防止坍塌我们为什么不主动地去定义一个「好」的表征空间应该是什么样子关于什么是好的表示空间LeJEPA 的答案是为了在未来所有未知的下游任务上都表现最好这个空间必须是一个各向同性高斯分布 (Isotropic Gaussian)。我们略去理论证明简单理解一下「各向同性高斯分布」这个抽象的概念表征坍塌 (Collapse)所有数据都被拍扁在空间的一个点或一个低维平面上。信息丢失了。各向异性 (Anisotropic)数据在某些方向上被拉得很长但在另一些方向上被压得很扁。信息有偏见它过度放大了某些特征。各向同性高斯分布 (LeJEPA 的目标)像个「棉花糖」一样数据均匀、蓬松地分布在所有方向上没有偏见信息量最大。有了理论目标之后怎么在训练中「检查」你那几千维的嵌入空间符合我们的预期呢这就是「维度灾难」问题。LeJEPA 的方案是使用 SIGReg 这个工具我不需要检查整个棉花糖而是用一个统计工具从上千个随机角度投影去切片Slicing这个棉花糖。核心原理是 Cramér-Wold 定理如果每一个角度切下来的一维切片1D projection都看起来像一个标准的一维高斯分布正态分布那么整个高维的棉花糖必定是那个「完美的各向同性高斯分布。SIGReg 的具体步骤随机产生 1024 个「切片方向」。把一批batch数据沿着这 1024 个方向「压扁」成 1024 组一维数据。用一个稳定可微的统计检验Epps-Pulley来计算这 1024 组数据有多像正态分布。这个「不像的程度」就是SIGReg 损失。现在LeJEPA 的最终损失函数就变成了总损失预测损失损失总结梳理自监督学习在 NLP 与 CV 的三条主线NLP 的预测范式GPT/BERT、CV 的对比学习SimCLR与掩码重建MAE指出前者依赖相似性不变性、后者受像素级重建牵制。JEPA 的核心是沿用掩码 - 预测框架但把预测目标从像素提升为抽象表征用上下文表征去预测被遮挡区域的表征以更贴近世界建模所需的高层变量与动态规律但无负样本方法容易表征坍塌常依赖 Teacher-Student、EMA、Stop-Grad 等启发式稳定训练。LeJEPA 提出以 SIGReg 显式约束表征几何通过随机投影和正态性检验让嵌入接近各向同性高斯从而在不丢关键信息的前提下避免坍塌并与预测损失联合优化。总体看JEPA/LeJEPA 试图在「少依赖增强、少卷入像素细节、强调抽象可预测性」的方向上为通向通用世界模型提供更稳健与高效的自监督路线。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

在线切图网站有没有个人做试卷网站的

网络模型与协议详解 1. OSI 模型概述 OSI(Open Systems Interconnection)模型是一个用于理解和描述计算机网络通信的概念框架,它将网络通信划分为七个不同的层次,每个层次都有特定的功能和职责。以下是各层的详细介绍: 1.1 数据链路层(Layer 2) 数据链路层主要负责定…

张小明 2025/12/29 0:46:40 网站建设

做小说网站做国外域名还是国内的好网页设计居中代码

网络与加密技术:路由管理与GPG使用指南 在网络管理和数据安全领域,路由管理和数据加密是至关重要的两个方面。本文将详细介绍路由表的查看与操作、地址解析协议(ARP)的使用,以及GNU Privacy Guard(GPG)的相关知识和操作方法。 路由表查看与操作 路由表输出分析 示例…

张小明 2025/12/29 0:46:37 网站建设

白山网站制作集约化网站建设的函

作为技术从业者,在构建或选型企业级自动化工具时,安全性与稳定性是不可逾越的红线。特别是在招聘领域,面对BOSS直聘、猎聘等平台日益严苛的风控(Anti-Scraping)机制,传统的基于浏览器插件(DOM注…

张小明 2025/12/29 0:46:35 网站建设

网站建设类公司排名wordpress 阅读权限

Unix系统文件管理与命令使用全解析 1. Unix文件所有权与隐私问题 在Unix系统中,文件权限对文件和目录的读写执行访问起着关键的控制作用。通过合理选择文件权限,用户能够且应该控制谁可以访问自己的文件。 umask命令 :这是访问控制的重要工具,它限制了后续创建的所有文…

张小明 2025/12/31 11:26:56 网站建设

网站后台修改不了wordpress中设置方法

PostfixAdmin是一个基于Web的虚拟用户管理界面,专门为Postfix邮件服务器设计。通过这个强大的工具,管理员可以轻松管理域名、邮箱账户、邮件转发规则等核心功能,无需深入命令行操作即可完成复杂的邮件服务器配置任务。 【免费下载链接】postf…

张小明 2026/1/8 19:24:18 网站建设

做网站能接到模具单吗做游戏的网站

LX Music Desktop:重新定义免费音乐播放的颠覆性选择 【免费下载链接】lx-music-desktop 一个基于 electron 的音乐软件 项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop 厌倦了音乐平台的会员订阅制?渴望一个既保护隐私又功…

张小明 2025/12/29 0:46:28 网站建设