大規模言語モデルの性能は日々向上し続けていますが、複数の大規模言語モデルを一定の基準で評価するベンチマークツールの性能が大規模言語モデルそのものの性能に追いつかなくなってきているため、性能を正確に測定するツールの開発が急務となっています。そこで、AI企業Anthropicの研究者らが、ゲーム「Factorio」を使ったベンチマーク環境を構築し公開しました。
Source: GIGAZINE(ギガジン) 最新情報
投稿日:
大規模言語モデルの性能は日々向上し続けていますが、複数の大規模言語モデルを一定の基準で評価するベンチマークツールの性能が大規模言語モデルそのものの性能に追いつかなくなってきているため、性能を正確に測定するツールの開発が急務となっています。そこで、AI企業Anthropicの研究者らが、ゲーム「Factorio」を使ったベンチマーク環境を構築し公開しました。
Source: GIGAZINE(ギガジン) 最新情報
Copyright© スマホ トレンド(Trend)情報サイト , 2025 AllRights Reserved.