开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口

你的位置:开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口 > 新闻资讯 > 开云体育(中国)官方网站更多祥和到 3D 关键语义-开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口
开云体育(中国)官方网站更多祥和到 3D 关键语义-开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口
发布日期:2026-04-23 06:32    点击次数:162

开云体育(中国)官方网站更多祥和到 3D 关键语义-开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口

无编码器多模态大模子被拓展到 3D 鸿沟——

3D 编码器的功能被融入 LLM 本人,无编码器 3D LMM 得当不同的点云分辨率,解脱预检修编码器的依赖。

来自上海 AI Lab、西北工业大学、香港中语大学、清华大学等冷落ENEL,在预检修阶段探索了若何使用自监督亏本将 3D 编码器的功能整合到 LLM 本人,在教导调优阶段冷落了一种档次几何团聚政策,基于 PointLLM 初度全面照顾了无编码器架构在 3D 多模态大模子中的后劲。

在 Objaverse 基准测试中,ENEL 进展隆起,性能上杰出现在 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性

针对 3D 大型多模态模子(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率规则。3D 编码器频繁在固定分辨率的点云数据上进行预检修(如 PointBERT 中的 1024 个点)。但是在推理经过中,点云的分辨率可能发生变化(举例,8192 或 512 个点),这导致检修与推理分辨率不一致,从而在索取 3D 镶嵌时丢失空间信息,影响 LLM 的相识身手,如图 ( a ) 所示。

(2)镶嵌语义各异。3D 编码器频繁罗致自监督学习措施(如掩码自编码器和对比学习)进行预检修,但其检修辩论与 LLMs 的语义需求可能作假足一致,因此无法捕捉 LLMs 相识 3D 物体所需的关键语义信息,如图 ( b ) 所示。

浅近的 MLP 频繁也难以结束充分的语义调度。从上图可见,ENEL 的无编码器架构提供了更高的生动性和更强的泛化性,更多祥和到 3D 关键语义。

应用自监督亏本将 3D 编码器纳入 LLM 本人

无编码器结构当先濒临的问题是若何索取高级次 3D 语义信息,幸免模子难以捕捉 3D 点云的复杂空间结构。不错不雅察到从 PointLLM 中拿掉 Encoder 后,模子性能显赫下落。

PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息亏本并提供致密的局部特征,团队罗致了一个来自 Point-PN 的轻量化变体袖珍收集。

具体而言,关于点云团队通过 FPS 进行下采样,罗致 knn 进行局部团聚,并使用可学习的线性层进行特征编码。终端标明团队遐想的 embedding 模块比拟不错带来较着的性能教育。

为了让 LLM 进一步承担 encoder 的编码功能,在预检修阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,终端发现较小的学习率未必带来更好的终端。

通过以上两种改换,无编码器结构也曾与基于编码器的 PointLLM 在姿色任务上抓平。

现时的 3D 编码器大多依靠自监督亏本学习索取并编码高级次 3D 语义信息 , 主要分为掩藏建模亏本 ( a ) 、重建亏本 ( b ) 、对比亏本 ( c ) 和常识蒸馏亏本 ( d ) 。

基于编码器架构的 3D LMM 在检修时依靠对翰墨部分应用自追想亏本进行学习,那是否能同期对点云部分应用自监督亏本,将 3D 编码器的身手整合进 LLM 本人?

团队在预检修阶段结束并评估了这些亏本对无编码器 3D LMM 的影响。

具体而言,掩藏建模损成仇重建亏本分辩对点云掩码 token 的部分进行复原和对合座点云 token 进行重建,而常识蒸馏亏本罗致 uni3d-L 在特征层面进行蒸馏。

终末团队冷落了一种羼杂语义亏本,先对点云 token 进行马上掩码,然后将 mask token 拼接在 visible token 的背面以得当自追想逻辑,同期对 visible token 计议重建亏本,这种羼杂措施不仅未必灵验地将高级次语义信息镶嵌 LLM 中,还能确保在所有这个词点云学习经过中,几何信息的一致性得以保抓。

从践诺终端中不错不雅察到,自监督学习亏本在无编码器 3D LMM 中频繁具有积极影响,通过经心遐想的任务促使 LLM 在学习经过中捕捉潜在的几何联系以及深档次的语义信息。

其中,掩藏建模亏本展现出最为显赫的性能教育。

相较之下,常识蒸馏亏本的教育后果较为有限,进展失色于前两种亏本类型。

档次几何团聚政策感知 3D 局部细节

传统的 3D 编码器频频通过将显式的归纳偏置镶嵌其架构中,缓缓捕捉多档次的 3D 几何特征。举例,像 Point-M2AE 这么的模子罗致了局部到全局的档次结构,这一结构在 2D 图像照料中常见于卷积层。比拟之下,无编码器架构的 LLM 莫得明确的局部建模模块,主要依赖自抽象力机制来建模全局交互。

因此,若何将归纳偏置灵验地整合到 LLM 中,以增强其对 3D 几何结构的感知身手,成为一个遑急问题。

基于冷落的羼杂语义亏本,在教导调优阶段,团队探索了若何促使 LLM 主动感知 3D 局部细节,同期补充其已学习的全局语义信息。为此,团队遐想了档次几何团聚政策。

具体来说,从 LLM 的第二层初始,通过最远点采样将输入点云 token 下采样,将令牌数目减少至 M/2 并考中局部中心。接着,愚弄 k-NN 算法得到周边点,并通过门控自抽象力机制捕捉局部几何信息。

最终,通过池化操作和会周边点特征,得到 M/2 长度的特征示意,并叠加 l-1 次,完成几何团聚。通过多层 LLM 层后,再通过 l 次几何传播将团聚后的特征从局部中心传播至周边点,最终复原为长度为 M 的点云特征,增强模子对局部和全局几何结构的感知。

践诺终端:定性定量分析

定性践诺中,团队可视化了 PointLLM 和 ENEL 终末一层中,平均文本 token 与点云 token 之间的抽象力得分。

团队采用了三种物体类别:椅子、飞机和台灯。

图中红色示意较高的抽象力得分。

终端清晰,ENEL 行动无编码器架构,未必结束两种模态特征之间的高计议性,平均文本 token 聚焦于物体的关键几何结构。

在 Objaverse 基准测试中,ENEL-7B 在姿色和分类任务上杰出了同等鸿沟甚而 13B 的模子。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管检修数据零落空间和具身交互信息,ENEL 仍取得了 42.7% 的 GPT 得分,向上 PointLLM-7B 1.5%。

定性定量终端考证了羼杂语义损成仇档次几何团聚政策在无编码器架构中的灵验性。

代码不竭:

https://github.com/Ivan-Tang-3D/ENEL.

论文不竭:

https://arxiv.org/pdf/2502.09620v1

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿骨子‍

附上论文 / 风光主页不竭,以及计议边幅哦

咱们会(尽量)实时回话你

一键祥和 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「注重心」

宽待在挑剔区留住你的念念法!开云体育(中国)官方网站



上一篇:开云体育请发言东谈主对十项战略标准作进一步评释-开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口
下一篇:云开体育伶仃是 21 世纪的麻风病-开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口
友情链接:

Powered by 开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口 @2013-2022 RSS地图 HTML地图