业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 科学探索>科技前沿

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

新智元 2024/1/14 14:34:11 责编：问舟

评论：

在社交媒体上发照片要谨慎了，AI 工具一眼就能识破你的位置！随手在网络上发布的一张照片，能暴露多少信息？

外国的一位博主 @rainbolt 就长年接受这种「照片游戏」的挑战，网友提供照片，他来猜测照片的具体拍摄地，有些照片甚至还能猜到具体的航班细节。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

是不是细思极恐？

但「照片挑战」也同样抚慰了很多人心中的遗憾，比如拿着一张父亲年轻时候拍的照片，却不知道在哪里，借助 rainbolt 和广大网友的力量，最终完成了心愿。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

我花费了 6 个月和 300 多个小时试图找到一位粉丝父亲生前照片的位置，但没有结果，我放弃了；在发布到 YouTube 上的一小时后，我们找到了。

光是想想，就能知道「从照片猜位置」这个过程的艰辛和难度，其中涉及到大量的地理、历史专业知识，从路标、交通方向、树木种类、基础设施等蛛丝马迹中不断找到真相。

在计算机领域，这一任务也被称为图像地理定位（image geolocalization），目前大多数方法仍然是基于手工特征和检索的方法，没有使用 Transformer 等深度学习架构。

最近斯坦福大学的研究团队合作开发了一款 AI 工具 PIGEON，将语义地理单元创建（semantic geocell creation）与标签平滑（label smoothing）相结合，对街景图像进行 CLIP 视觉转换器的预训练，并使用 ProtoNets 在候选地理单元集上细化位置预测。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

论文链接：https://arxiv.org/ abs / 2307.05845

PIGEON 在「照片猜国家」的子任务上实现了 91.96% 的正确率，40.36% 的猜测在距离目标 25 公里以内，这也是过去五年来第一篇没有军事背景资助的、最先进的图像地理定位相关的论文。

GeoGuessr 是一个从街景图像中猜测地理位置的游戏，全球拥有 5000 万玩家，前面提到的 rainbolt 就是该游戏的忠实粉丝，也是公认的最强玩家之一。

而 PIGEON 模型在 GeoGuessr 中对人类玩家呈碾压优势，在六场比赛中连续击败 rainbolt，全球排名前 0.01%.

PIGEON 的进步还启发了开发人员创建另一个模型 PIGEOTTO，使用 Flickr 和维基百科的 400 万张图像进行训练，输入任意图像而非街景全景图，就能定位出图像的位置，功能更加强大。

在此类任务的测试中，PIGEOTTO 的性能最佳，将中位偏差降低了 20%-50%，在城市粒度上的预测超过了之前的 SOTA 高达 7.7 个百分点，在国家粒度上超过了 38.8 个百分点。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

2016 MediaEval 数据集的样本图像用于训练 PIGEOTTO

从技术上来说，该工作的最重要的结果之一就是证明了预训练的 CLIP 模型 StreetCLIP 域泛化及其对分布变化的鲁棒性，能够以零样本的方式将 StreetCLIP 应用于分布外基准数据集 IM2GPS 和 IM2GPS3k，并取得了最先进的结果，击败了在 400 多万张分布内（in-distributions）图像上微调的模型。

并且，实验结果也证明了对比预训练是一种有效的图像地理定位元学习技术，在 StreetCLIP 预训练中没见过的国家预测上，准确率比 CLIP 提高了 10 个百分点以上。

由于图像地理定位数据集在地理分布方面差异很大，结果也证明了将 StreetCLIP 应用于任何地理定位和相关问题的有效性。

由于这项技术目前仍然可以用于不良目的，所以开发人员决定暂时不公布模型权重。

实验数据集

虽然大多数图像地理定位方法都依赖于公开的数据集，但目前还没有公开的、全地球范围下的街景（Street View）数据集。

所以研究人员决定在原始数据集上创建，主动联系了 Geoguessr 的首席技术官 Erland Ranvinge，获得了该游戏中竞争对决模式下使用的 100 万个地点的数据集，再随机采样 10% 数据点，对每个数据点下载 4 张图片，最终获得 40 万张图片。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

方法架构

1. Geocell Creation（地理单元生成）

先前的研究尝试过直接对输入图像来预测经纬度，但结果证明无法取得 sota 性能，所以目前的方法大多依赖于生成 geocells，把坐标回归问题离散化，再转成分类问题，所以 geocell 的设计至关重要。

这篇论文的一个创新点就是语义地理单元（semantic geocells），可以根据训练数据集样本的地理分布自动适应，因为图像中的视觉特征通常与国家（道路标记）、地区（基础设施质量）或城市（街道标志）有关；并且国家或行政边界往往遵循自然边界，如河流或山脉的流动，这反过来又影响植被类型，土壤颜色等自然特征。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

研究人员设计的地理单元有三个级别：国家、admin 1、admin 2，从最细粒度级别（admin 2）开始，算法会逐步合并相邻的 admin 2 级别多边形，其中每个 geocell 包含至少 30 个训练样本。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

2. 标签平滑（label smoothing）

语义地理单元创建过程来离散化图像地理定位问题，可以在粒度和预测准确性之间寻求平衡：地理单元的粒度越大，预测就越精确，但由于基数 (cardinality) 更高，分类问题就会变得更加困难。

为了解决这个问题，研究人员设计了一个损失函数，基于预测的、到正确的地理单元之间的距离进行惩罚，可以更高效地对模型进行训练。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

使用两点之间 Haversine 距离的一个优势是基于地球的球面几何，能够精确估计两点之间的距离。

3. Vision Transformer（CLIP）

研究人员使用预训练的视觉 Transformer，架构为 ViT-L / 14，然后对预测 header 进行了微调，并且对最后一个视觉 Transformer 层进行解冻。

对于具有多个图像输入的模型版本，将四个图像的 embedding 进行平均；在实验中，平均 embedding 比通过多头注意力或额外的 Transformer 层组合 embedding 表现得更好。

基于先验知识和专业 GeoGuessr 玩家通常观察到的策略，图像定位任务有各种相关特征，例如，植被、道路标记、路标和建筑。

多模态模型对图像有更深语义理解的 embedding，使其能够学习这些特征，实验中也证明了，CLIP 视觉 Transformer 比类似的 ImageNet 视觉 Transformer 有明显的进步，并且使用注意力 map 能够以可解释的方式展示模型学习到的策略。

4. StreetCLIP 对比预训练

受 CLIP 对比预训练的启发，研究人员设计了一个对比预训练任务，在学习 geocell 预测头之前，也可以使用它来微调 CLIP 基础模型。

使用地理、人口统计和地质辅助数据来增强街景数据集，使用基于规则的系统为每个图像创建随机描述，例如：

地点：南非东开普省地区的街景照片。
Location: A Street View photo in the region of Eastern Cape in South Africa.

气候：该地区为温带海洋性气候。
Climate: This location has a temperate oceanic climate.

方向：这张照片是朝北的。
Compass Direction: This photo is facing north.

季节：这张照片是在 12 月拍摄的。
Season: This photo was taken in December.

交通：在这个位置，人们在道路的左侧行驶。
Traffic: In this location, people drive on the left side of the road.

相当于是一个隐式的多任务，可以确保模型保持丰富的数据表示，同时调整街景图像的分布并学习与地理位置相关的功能。

5. 多任务学习

研究人员还尝试通过为辅助气候变量、人口密度、海拔和一年中的月份（季节）创建特定于任务的预测 header 来明确多任务设置。

6. ProtoNet Refinement

为了进一步完善模型在 geocell 内的猜测并提高街道和城市级别的性能，研究人员使用 ProtoNets 执行 geocell 内的细化，将每个单元的单元内细化作为一个单独的 few shot 分类任务。

再次使用 OPTICS 聚类算法，其中 minsample 参数为 3，xi 参数为 0.15 来聚类 geocell 内的所有点，从而提出在 cell 内分类设置中学习的类别。

每个聚类由至少三个训练样本组成，形成一个原型，其表征通过对原型中所有图像的 embedding 进行平均来计算。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

大洛杉矶都市区的可视化 ProtoNet 集群

为了计算原型 embedding，使用与 geocell 预测任务相同的模型，但删除预测 header 并冻结所有权重。

在推理过程中，首先计算并平均新位置的嵌入，采用平均图像嵌入与给定 geocell 内的所有原型之间的欧几里得距离，选择具有最小欧几里得图像嵌入距离的原型位置作为最终的地理定位预测。

实验结果

性能最好的 PIGEON 模型实现了 91.96% 的国家准确率（基于政治边界），40.36% 的猜测都在距离正确位置 25 公里以内，中位公里误差为 44.35 公里，GeoGuessr 平均得分为 4525 分。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

在增强数据集上的多任务模型的结果显示，模型可以从街景图像中推断出地理、人口和地质特征。

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

参考资料：

https://the-decoder.com/this-ai-knows-where-you-took-which-photo
https://www.researchgate.net/publication/372313510_PIGEON_Predicting_Image_Geolocations

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

看图猜位置：斯坦福最新 AI 模型 PIGEON 准确率超 90%

2016 MediaEval 数据集的样本图像用于训练 PIGEOTTO

实验数据集

方法架构

实验结果

相关文章