「Factorio」でAIモデルの性能を評価する学習環境「Factorio Learning Environment(FLE)」が登場

投稿日：2025年3月13日

大規模言語モデルの性能は日々向上し続けていますが、複数の大規模言語モデルを一定の基準で評価するベンチマークツールの性能が大規模言語モデルそのものの性能に追いつかなくなってきているため、性能を正確に測定するツールの開発が急務となっています。そこで、AI企業Anthropicの研究者らが、ゲーム「Factorio」を使ったベンチマーク環境を構築し公開しました。

続きを読む...

Source: GIGAZINE（ギガジン）最新情報

-その他趣味
-Affiead

おすすめ記事一覧

: 「Galaxy S24/S24＋」の海外レビューまとめ、優秀なAI機能「Galaxy AI」が称賛されるもディスプレイに問題アリとの報告も

Samsungが2024年1月に発表した「Galaxy S24/S24＋」の海外メディアによるレビュー記事が一斉に公開されています。毎年何台ものスマートフォンをレビューしているレビュアーによるSams ...

: Google社員は「Bard」の性急すぎる発表に不満を抱いている

2023年2月7日、GoogleはチャットAIのChatGPTに対抗するべく、会話型AIサービスの「Bard」を発表しました。この発表について、Google社内では「急ぎすぎて失敗した」などの批判的な ...

: 半導体メーカーのTSMCとGlobalFoundriesがCHIPS法に基づく補助金助成について商務省と合意

半導体メーカーとして業界1位のTSMCと業界3位のGlobalFoundriesが、アメリカ国内の半導体産業支援・振興を目的としたCHIPS法に基づいた補助金の助成について、商務省との交渉で「拘束力の ...

: 「iPhone 14 Pro」のカメラ性能をプロ向けカメラアプリ開発者が徹底検証した結果とは？

iOS向けカメラアプリ「Halide」の開発者であるセバスティアン・デ・ウィズ氏が、2022年9月に発売した「iPhone 14 Pro」のカメラ性能を詳しい検証結果を公開しています。iPhone 1 ...

: 「週末に手術を受けると死にやすい」といううわさは本当だということが判明

医師といえど人間なので、週末の予定やレジャーの計画で頭がいっぱいになると手元がおろそかになってしまうかもしれませんし、連休が近づくと医師たちが休みをとってしまって優秀な人材が不足するかもしれません。週 ...

: 「ゼルダの伝説ティアーズオブザキングダム」は任天堂のNintendo Switchタイトル史上最大のファイルサイズになることが明らかに

Nintendo Switchのローンチタイトルとして登場した「ゼルダの伝説ブレスオブザワイルド」の続編として2023年5月12日に発売される「ゼルダの伝説ティアーズオブザキングダム」 ...

PREV: 米Nianticが「ポケGO」など売却　サービスは継続　「モンハンNow」「ピクミンブルーム」も
NEXT: 【やじうまミニレビュー】人気左手デバイス「TourBox」のiPad対応版。動画編集で期待していたけど……

Copyright© スマホトレンド（Trend）情報サイト , 2025 AllRights Reserved.