Valse会议(2024-重庆)

重庆的老城区真是野呀。

具体我也没有学到很多东西,许多知识都是浮光掠影一下过去了,而我对于AI则不是太了解, 所以最终只是学会了几个名词,顺便了解了一下现在别人都在做些什么。

主旨报告

主旨报告-1

在第一个主旨报告(香港科技大学-沈向洋)中就讲述到了从 Internet-AIEmbodied-AI的希望, 大会中也有许多关于具身智能的 workshop。具体来说,就是希望能用 AI 完成和现实世界的交互。 这一交互必定是多模态的,那么必定需要借助 scaling law 和大量多模态数据来进行训练。

报告中还提到了 DreamLLM 这一使用多模态语料库训练的大模型,详见知乎精读Arxiv论文

在最后的思考中,沈老师还提到智能的本质是 of everything,还是仅仅 anything就行呢。

主旨报告-2

Data-Algorithm-Frame-GPU的四架马车

主旨报告-3

经典柏拉图洞穴隐喻,纯纯讲故事的水王。

年度CV-ML进展

  • 自动驾驶
  • 3D资产成为重要财富
  • 大模型微调技术持续发展
  • 缺失(7)
  • SAM出现,X anything范式开始流行
  • 以 autoGPT 为代表的 AI agent 范式开始流行
  • 高效大语言模型持续出现,新型CV架构持续涌现(Mamba,retention,RWKV)
  • 具身智能在大模型下显著扩展其范畴,CV与环境交互愈发丰富
  • 多模态语言模型的进化,带来视觉理解的外延
  • 高清图像和视频生成技术快速发展,基础模型涌现物理世界建模能力

年度进展评述

1. 符号知识与大模型

常识的覆盖度是很重要的基础,但现有的互联网语料可能并不是以此为基础的。

知识如何表达?在传统的符号AI中,如果使用复杂的结构化表示,那么推理能力增强; 但是知识获取困难,知识规模则难以增加。这也反映了当前大模型的某些困境。

可能的一些解决方法比如使用代码语言(更有逻辑性和结构性), 更多研究表明在预训练阶段引入不同的内外部信号均有助于提升模型性能: 如在蛋白质语言训练中引入蛋白质之间PPI交互信息的外部结构信号增强(Structure-inducing Pre-training) 和在句子预训练中,扩展句子样本中的实体之间的关联信息的内部结构信号增强(reStructured Pre-training)。

RAG降低噪音等。此类为知识监督的可靠生成,有 hallucination Detection,Knowledge Editing,约束和监督多模态生成。

最终提到了知识解耦,能否从语言模型中分离“知识”。 将 Intelligence 分解为 Knowledge+Inference。 后续的模型可能会很难继续通过 scaling law 获取规模红利, 必须考虑底层机制,通过 prompt,更好的语料以及规则的表达来产生“表示红利”。

3. 视觉通用人工智能

数学表述,给定状态空间S,动作集A,定义转移函数$e:S\times A\to A$; 定义奖励函数$S\times A\to R$, 找到通用策略函数$\pi:S\to A$,使得 累计奖励最大: \(\overline{R} = E\{\sum S\times \pi(S)\}\)

而 CV 落后 NLP 的重要原因就是缺失了转移函数。 CV面对维度众多的真实场景,无法拥有与之匹敌的维度规模。

6. 神经形态相机

事件相机,当$\Delta pixel > setted_value$时,产生一个事件记录。 相比于传统的光感相机,事件相机主要记录差分信息。

大会特邀报告

1. 图像生成和视频生成的若干前沿技术探索

  1. JourneyDB 数据集

Human Preference Score 评测模型打分,通过四十万人工标注数据训练人的喜好。 来调整SDXL。

  1. 完全开源的 Lumina-T2X 模型

传播,细节补充等。。。

2. 混合模型驱动的内容生成与具身智能

试图通过混合模型来解决多模态的痛点。

3. 多模态视觉融合方法:是否存在性能极限

4. 三维场景理解的前世今生和未来

数据难以获得,能够通过2D升3D。

AI for Art

1. 舞蹈创作与情感表达

舞蹈创作的形式:

  • pose + static -> dynamic
  • music -> 3D cartoon dance
  • text -> 3D action (motion diffusion)

主要有 action/music/emotion/text -> action 的生成。

2. 智能篆刻

汉字的风格融合和字体表达。

更适用于 PPT 表达的汉字字体。

BM Theory

知识表示

How is knowledge stored in LLMs?

具身智能

1. Embodied Multimodel Foundational Model

以google 的 RT-2 为例。

其最大的问题就是无法泛化,耗费巨大的资金采集小小的、特定的厨房中的数据。 不比 Tesla 的车载数据记录,抓取等行为本身就不好采集数据。而且设备设施也过于昂贵,没有像车一样带来便利。

这就是第一个问题:Data Hungry & Limited Scene Generalization

第二个问题则是演示的速度,一个55B的模型,只能有1-3Hz的响应率。这是非常缓慢的速度。

对此,给出的解决方案为:3D synthetic Data—-Sim2Real。 利用仿真数据训练,从而得到大量的数据支持。

2. Human-Robot Interaction

脑启发

1. SNN 的超低功耗

缺陷:规模和性能受限,缺乏适配的算法。

2. 事件相机

对事件相机传统的积分获取原图像有巨大的噪声。

考虑到突然照亮这一事件中的频率特点,可以分离出多种颜色的光。 另一方面,光强也能反映出depth,从而获取更多信息。

3. SNN 的建模要素

SNN中有哪些重要的建模要素,需要有更多动力学的评价,体现出 Neural Dynamics 的优势。