大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?

投稿日:

多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。

続きを読む...

Source: GIGAZINE(ギガジン) 最新情報

-その他趣味
-

Copyright© スマホ トレンド(Trend)情報サイト , 2025 AllRights Reserved.