AIは人間科学者を超えたか——研究の加速と「焦点の縮小」が同時進行
Natureに掲載された最新研究で、AIは複雑タスクで依然として人間科学者に及ばないと示される一方、AIを使う科学者は論文数3倍・被引用数5倍に。研究の加速と科学的多様性の喪失が表裏一体で進んでいる。
1. Nature:複雑タスクでAIエージェントは依然として人間科学者に劣る
Natureに掲載された最新研究「Human scientists trounce the best AI agents on complex tasks」は、現在の最先端AIエージェントが複雑な科学的タスクにおいて人間の専門家に及ばないことを示した。研究チームは実際の研究プロセスを模した多段階タスクを設計し、最高水準のAIエージェントと人間の科学者を比較。AIは個別のサブタスクでは優れた結果を出すものの、複数のステップにわたる推論の連鎖や予期せぬ問題への対処において人間に大きく劣ることが確認された。
この研究は「AI Scientistモデル」などAIが科学研究を自動化できるという楽観論に対する重要な反論として位置づけられる。特に仮説の立案・実験設計の変更・異常データの解釈といった「メタ認知」を要する場面での差が顕著だった。一方でAIは反復的な文献調査・データ整理・コード生成においては人間よりも速く高精度であることも確認された。
筆者らは「AIは科学者を置き換えるツールではなく、特定のルーティン作業を高速化するツールとして位置づけるべき」と結論し、AIと人間の役割分担を明確にした研究設計の重要性を強調した。現時点ではAIを「ジュニア研究アシスタント」として扱い、人間の科学者が方向性と判断を担う体制が最も有効だという見解が示されている。
2. Humanity’s Last Exam:Gemini 3 Deep Thinkが48.4%——人類知識の最難関テスト
「Humanity’s Last Exam(HLE)」は、数学・人文学・自然科学など数十分野にわたる2,500問のエキスパートレベルのマルチモーダルベンチマークとして設計された、現在最難関のAI評価テストだ。テスト公開時にOpenAIのo1モデルが8.3%を記録したが、最新のGoogle Gemini 3 Deep Thinkが48.4%という記録的スコアに達した。これはわずか数ヶ月で約6倍のスコア向上を意味し、AIの能力向上速度の速さを如実に示している。
HLEが設計された背景には、既存のベンチマーク(GRE、GSM8K、MMLU等)がすでに飽和しAIの能力向上を測定できなくなってきたという問題意識がある。人間の専門家でも解けない問題を集めた「人類の知識の最前線」を評価する試みとして、AI安全性研究コミュニティが主導した。48.4%という数値はいまだ合格ラインを大きく下回るが、その伸びのペースから、1〜2年以内に専門家水準に近づく可能性が議論されている。
HLE以外にも、国際数学オリンピック(IMO)相当の問題でGoogle Gemini Deep Thinkが金メダル水準のスコアを獲得したことが昨年報告されており、AIが「博士レベルの数学的推論」という従来のボトルネックを突破しつつある段階に来ている。ただしHLEの正答率48.4%は、残り50%超の問題が未解決であることも意味し、「知識の最前線」はまだ人間が保持している。
Humanity’s Last Examagi.safe.ai
3. AI Scientist-v2、査読プロセスを通過した初の完全AI生成論文を発表
Sakana AIが開発する「AI Scientist」シリーズの最新版「AI Scientist-v2」が、厳格な人間による査読プロセスを通過した世界初の完全AI生成論文を発表した。このシステムは仮説立案・実験計画・コード実行・結果分析・論文執筆までの研究フロー全体を自律的に実行し、その成果物が査読者から正式に受理された。これは科学的コミュニティが「AIが生成した研究」を品質基準において認証した歴史的な出来事と言える。
AI Scientist-v2はv1と比べ実験の信頼性・反復可能性・論文の論理一貫性が大幅に改善されたと報告されている。v1では実験コードにバグが混入したり、架空の引用が生成されるなどの問題があったが、v2では内部の自己検証ループとファクトチェック機構が強化された。特に機械学習分野の実験的なサブ領域において、人間の初期仮説から数時間で論文草稿を完成させる能力が示された。
この成果は科学研究の生産性を劇的に高める可能性を示す一方、「AIが論文を量産することで科学誌が飽和するリスク」「AI生成研究の品質担保のための査読負担増大」など新たな課題を提示している。Nature誌はAI生成コンテンツの透明性確保を求める社説を掲載しており、今後の学術出版のルール整備が急務となっている。
4. AI活用で論文数3倍・被引用数5倍——しかし科学的多様性は4.63%低下
AIツールの科学研究への影響を大規模データで分析した研究が発表された。AIを活用した研究者は、非活用の研究者と比較して論文数が3.02倍、被引用数が4.84倍に増加し、研究プロジェクトのリーダーへの昇進も平均1.37年早まることが示された。個人レベルでの生産性向上の恩恵は明確だ。
しかし集合的な観点では逆の効果が確認された。AI採用によって科学的に研究されるトピックの総量が4.63%縮小し、科学者同士の交流・共同研究が22%減少したという。AIが「効果的にリサーチできるトピック」に研究者が集中する傾向が生まれ、AIが苦手とする分野・新興分野・境界領域への挑戦が相対的に減少していることが示唆されている。
この発見は「AIが科学を加速する」という命題の解像度を上げるものだ。AIは既存の枠組みの中での研究速度を大幅に高めるが、パラダイムシフトを伴う革新的研究——本質的に新しい問いを立てる作業——においては貢献が限定的である可能性がある。研究機関・ファンディング機関がAIツールを活用しながら科学的探索の多様性をいかに維持するかが政策的課題として浮上している。
5. Hugging Face週間トレンド:ワールドモデルの分類体系と文書変換モデルが注目
Hugging Face Papersの2026年第18週(4月26日〜5月2日)のトレンド論文として、スタンフォード大学・Microsoft Research・OpenDataLabなどの研究機関からの論文が上位に入った。特に「ワールドモデルの分類体系」に関する研究が注目を集めており、AIエージェントの環境認識モデルを「能力レベル3段階・法則体系4種」で系統的に整理するフレームワークが提案された。エージェントAI開発の理論的基盤を整備する試みとして評価されている。
また「SmolDocling」と呼ばれる256Mパラメータの軽量ビジョン言語モデルが、PDFや複雑な文書を端から端まで変換する実用的なモデルとして高い評価を受けた。従来の大規模モデルに依存していた文書処理タスクをエッジデバイス上で実行できる可能性を開くものだ。さらに「SignRoundV2」という後訓練量子化フレームワークが、LLMの超低ビット量子化(1〜2bit)での高精度維持を実現し、モデル展開コストの削減に貢献する研究として注目された。
Hugging Faceのオープンソース動向をまとめた「Spring 2026レポート」も公開され、オープンウェイトモデルのエコシステムが2025年末から急拡大していることが示された。DeepSeek V4やMeta Muse Sparkなどのリリースを受け、研究者コミュニティでのオープンモデル活用が加速しており、クローズドモデルとの性能差が特定タスクでは消失しつつある実態が示されている。
6. 生成AIの倫理的課題:14産業セクターにわたる系統的分析論文
Humanities and Social Sciences Communicationsに掲載された研究が、生成AI・LLMの14産業セクター(医療・法律・教育・金融・製造等)における指針・政策声明をテキストマイニングで分析し、「イノベーション促進と倫理的説明責任・公平なアクセス確保のバランス」をとることの複雑さを明らかにした。106件の研究を対象にしたシステマティックレビューでは、倫理的懸念の具体的内容と緩和戦略がドメインごとに大きく異なり、汎用的なガイドラインだけでは不十分なことが示された。
医療分野ではプライバシー・誤診リスク・説明可能性の欠如が最大の懸念として挙げられたのに対し、法律分野では生成AI出力の法的責任の所在の不明確さが問題視された。教育分野では学習の真正性・著作権・格差拡大リスクが主な懸念だった。いずれのセクターでも「人間の監督の維持」が緩和策として共通して提案されたが、その実装形態の具体的な合意形成は各分野で独立に行われている現状が浮き彫りになった。
並行してScienceDirectに掲載されたシステマティックマッピング研究では、生成AIの倫理的懸念として「バイアス・公平性・プライバシー・透明性・説明可能性」の5軸が最頻出テーマとして同定され、それぞれの緩和技術の成熟度が評価された。2026年時点ではプライバシー保護技術(差分プライバシー・フェデレーテッドラーニング)が最も成熟しており、説明可能性(XAI)がその次に位置している。