他们使用GeoCLIP对MP-16中的300万张户外图像进行过滤,保留了可地理定位的图像,并使用S2-Cells技术确保全球覆盖的均衡性。 元数据整合:为每张图像添加了丰富的元数据,包括: 生成38.5万个知识驱动的长问答对,增强模型的细粒度推理能力 GAEA-1.6M数据集覆盖了 ...