2025年から生成AIは「会話」から「作業」へ変わってきました

2025年1月から2026年5月10日までの生成AIの動きを見ていると、かなり大きく変わったなと思います。2024年までは、ChatGPTに聞いて文章を書いてもらう、画像を作る、コードを少し直してもらう、という使い方が中心でした。もちろんそれだけでも十分すごかったのですが、2025年以降は少し違います。

AIがブラウザを操作する。
AIが調査してレポートを作る。
AIがコードを書くだけでなく、実際に修正してテストする。
AIがExcel、PowerPoint、PDF、スライド、動画、音声まで扱う。

このあたりが一気に進みました。

なので、2025年から2026年前半の生成AIを一言で見るなら、「答えるAI」から「作業するAI」へ変わってきた時期だったと思います。

OpenAI / ChatGPTの動き
Anthropic / Claudeの動き
Google / Geminiの動き
xAI / Grokの動き
DeepSeek、Meta、Perplexity、Mistralの動き
2025年以降に変わったところ
競争軸も変わってきました
気をつけたいところ
2025年から2026年前半の生成AIはこう見ています

OpenAI / ChatGPTの動き

OpenAIは、この期間に一番動きが分かりやすかった会社だと思います。

ChatGPTが単に会話するだけでなく、ブラウザを操作したり、深く調査したり、コードを書いたり、資料を作ったりする方向へ進みました。

時期	モデル・機能	内容
2025年1月	Operator / Computer-Using Agent	ChatGPTが自分のブラウザを使って、クリックや入力をしながら作業するOperatorを発表
2025年1月	o3-mini	数学、科学、コーディング向けの低コスト・低遅延な推論モデル
2025年2月	deep research	複数ステップのWeb調査を行い、資料を読みながらレポートを作る機能
2025年2月	GPT-4.5	会話の自然さ、知識、意図理解、ハルシネーション低減を重視した研究プレビュー
2025年3月	GPT-4o画像生成 / 新音声モデル	画像生成、文字入り画像、画像編集、音声エージェント向けモデルを強化
2025年4月	GPT-4.1 API / o3 / o4-mini	API向けGPT-4.1、ChatGPT向けo3・o4-miniを展開。画像を見ながら考える方向も強化
2025年5〜6月	Codex	コーディング支援を本格化。コード生成だけでなく、実務開発に近い作業へ
2025年7月	ChatGPT agent	Operatorとdeep researchの流れをChatGPT内に統合。仮想PCで作業するagent modeへ
2025年8月	GPT-5	即答と深い推論を切り替えるモデルとして登場
2025年9月	Sora 2	動画と音声生成を強化。物理的一貫性や音声同期が話題に
2025年11月	GPT-5.1	InstantとThinkingを投入。会話の自然さ、指示追従、複雑タスクへの粘りを強化
2025年12月	GPT-5.2 / GPT-5.2-Codex	Instant、Thinking、Proを展開。Codex系は大規模コード修正や移行作業に強くなった
2026年2〜3月	Codex app / GPT-5.3-Codex / GPT-5.4	CodexアプリやGPT-5.4が登場。専門業務、コーディング、ツール利用を強化
2026年4〜5月	GPT-5.5 / GPT-5.5 Instant	実務のための知能として、調査、データ分析、文書、表計算、ソフト操作を重視

Operatorが出たのは、今見ると大きかったですね。

それまでは、AIに「このサイトを見て予約して」と言っても、結局は人間が操作する必要がありました。Operatorは自分のブラウザを使って、ページを見て、クリックして、入力するという方向を見せました。その後、2025年7月にChatGPT agentが出て、Operatorとdeep researchがつながりました。つまり、調べるだけでもなく、操作するだけでもなく、調べて、判断して、操作して、資料まで作る方向になったわけです。

Codexも同じ流れですね。コードを聞くAIから、リポジトリを読んで、修正して、テストして、説明するAIに近づいています。これは開発者にとってはかなり大きい変化だと思います。

GPT-5.5では、OpenAI自身も「real work」という言い方をしています。文章がうまいとか、知識があるとかではなく、実際の仕事をどれだけ進められるかが中心になってきました。

Anthropic / Claudeの動き

Claudeは、2025年以降かなり「コーディング」と「長時間作業」に寄せてきた印象があります。

特にClaude Codeは存在感が大きかったです。Claudeは文章が読みやすいという印象がありましたが、2025年以降はエージェント型コーディングの会社という色も強くなりました。

時期	モデル・機能	内容
2025年2月	Claude 3.7 Sonnet / Claude Code	ハイブリッド推論モデルとしてClaude 3.7 Sonnetを発表。Claude Codeも登場
2025年5月	Claude Opus 4 / Sonnet 4	Claude 4世代を発表。コーディング、エージェント、長時間タスク、ツール利用を強化
2025年8月	Claude Opus 4.1	Opus 4の改良版。エージェントタスクや実務コーディングを改善
2025年9月	ファイル作成・編集 / Claude in Xcode	Excel、文書、PowerPoint、PDFなどの作成・編集に対応。Xcode統合も進む
2025年9月	Claude Sonnet 4.5	コーディング、エージェント、コンピュータ操作に強いモデルとして登場
2025年10月	Claude Haiku 4.5	小型・高速・低コストモデル。Sonnet 4に近いコーディング性能を安く速く
2025年11月	Claude Opus 4.5	コーディング、エージェント、深い調査、スライド、表計算に強い上位モデル
2026年2月	Sonnet 4.6	コーディング、コンピュータ操作、長文推論、1Mトークン文脈ベータが話題
2026年4月	Claude Opus 4.7	高度なソフトウェアエンジニアリング、長時間タスク、視覚理解、資料作成を強化
2026年5月	計算資源・利用上限の拡大	モデル性能だけでなく、大量に使えるインフラ競争も見えるように

Claude 3.7 Sonnetの時点で、即答と拡張思考を切り替える「ハイブリッド推論」という考え方が出てきました。これは2025年のAI全体の流れをよく表していると思います。つまり、常に長く考えるのではなく、簡単なものはすぐ返す。難しいものはしっかり考える。人間でも同じですが、AIもそういう方向に進みました。

Claude Codeは、開発者向けではかなり大きかったですね。単にコードを生成するのではなく、エディタ、GitHub Actions、JetBrains、VS Codeなど、実際の開発環境に入っていく流れです。また、ClaudeがExcel、PowerPoint、PDFなどのファイル作成・編集に対応し始めたのも大きいです。AIが文章を書くだけでなく、成果物そのものを作るようになってきました。

2026年のSonnet 4.6やOpus 4.7では、1Mトークン文脈や長時間タスク、コンピュータ操作、視覚理解がさらに強化されています。Claudeも、完全に「実務で使うAI」へ寄ってきた感じです。

Google / Geminiの動き

Googleは、Gemini 2.0から2.5、3系へと進めながら、マルチモーダルと検索、動画、音声、開発者向けAPIを広げてきました。

Googleはもともと検索、YouTube、Android、Workspace、Cloudを持っているので、AIが入る場所が多いです。そこが強みですね。

時期	モデル・機能	内容
2025年1〜2月	Gemini 2.0 Flash / 2.0ファミリー	高速応答、マルチモーダル入力、ネイティブツール利用、1Mトークン文脈などを展開
2025年3月	Gemini 2.5 Pro Experimental	thinking modelとして登場。複雑な問題、推論、コード生成を強化
2025年4月	Gemini 2.5 Flash	高速・低コストながら、推論をオン/オフできるハイブリッド推論モデル
2025年5月	Google I/O 2025 / Deep Think / Project Mariner	Deep Think、ネイティブ音声出力、コンピュータ操作能力を持つProject Marinerが話題
2025年5月	Veo 3 / Imagen 4 / Flow	動画生成、画像生成、AI映像制作ツールを発表
2025年7〜9月	Gemini APIの実務強化	Batch Mode、Flash、Flash-Liteなどで大量処理や低コスト処理を強化
2025年11月	Gemini 3	推論、マルチモーダル理解、コーディングを強化した新世代
2025年12月	Gemini 3 Pro Vision / Gemini 3 Flash	視覚・空間推論、文書、画面、動画理解を強化
2026年2月	Gemini 3.1 Pro / Deep Think強化	Gemini API、Vertex AI、Geminiアプリ、NotebookLMなどへ展開
2026年3月	Gemini Embedding 2 / Gemini 3.1 Flash Live	テキスト、画像、動画、音声、PDFを扱う埋め込みとリアルタイム音声対話を強化
2026年4月	Gemini 3.1 Flash TTS	表現力のある音声合成を強化

Googleで目立ったのは、Gemini 2.5の「thinking model」という打ち出しです。OpenAIのo系、Claudeのハイブリッド推論と同じように、AIに考えさせる方向がはっきりしました。

また、Project Marinerも重要です。これは、AIがブラウザやPC上の操作をする方向のプロジェクトです。OpenAIのOperatorやChatGPT agentと同じく、AIが実際の画面を扱う流れですね。

Veo 3、Imagen 4、Flowも大きいです。文章やコードだけでなく、動画制作や画像制作の道具としてAIを使う方向です。特に動画は、2025年からかなり競争が激しくなった分野だと思います。

GoogleはGemini単体というより、Search、Workspace、YouTube、Android、Cloudにどう入れていくかが大きいですね。AIモデルだけを比べるより、周辺のサービスまで含めて見る必要があります。

xAI / Grokの動き

xAIのGrokも、2025年から2026年にかけて一気に動きました。

GrokはXとのつながりが強いので、リアルタイム情報やX検索を使うAIという印象があります。そこにコード実行、Web検索、Agent Tools API、音声、動画生成が加わってきました。

時期	モデル・機能	内容
2025年2月	Grok 3 Beta	Grok 3とGrok 3 miniを発表。大規模学習、推論エージェント、Thinkボタンが話題
2025年7月	Grok 4 / Grok 4 Heavy	ネイティブツール利用、リアルタイム検索、コード実行、Web閲覧、X検索を統合
2025年8〜9月	Grok Code Fast 1 / Grok 4 Fast	エージェント型コーディング向けの高速・低コストモデルを展開
2025年11月	Grok 4.1	クリエイティブ、感情的対話、協働的なやり取りを重視
2025年11月	Grok 4.1 Fast / Agent Tools API	2Mコンテキスト、X検索、Web検索、コード実行、ファイル検索、MCPなどを含むAPI
2025年12月	Grok Voice Agent API / Collections API / Business	音声エージェント、RAG的なCollections、企業向けGrok Businessへ展開
2026年1月	大型資金調達 / Grok Imagine API	画像から動画、テキストから動画、編集、スタイル変更などを拡張
2026年4〜5月	音声API / Custom Voices / Connectors	STT/TTS、音声クローン、メール、スライド、カレンダー、スプレッドシート連携を発表

Grok 4.1 FastとAgent Tools APIは、方向性がかなり分かりやすいです。

2Mコンテキスト、X検索、Web検索、コード実行、ファイル検索、MCPなどを組み合わせることで、Grokも単なるチャットAIではなく、エージェント基盤になろうとしています。

xAIはXとの接続があるので、リアルタイム性では強みがあります。ただ、仕事で使う場合は、情報の正確性や出典確認も大事になります。このあたりは、使う側がちゃんと見ないといけないですね。

DeepSeek、Meta、Perplexity、Mistralの動き

OpenAI、Anthropic、Google、xAI以外にも大きな動きがありました。

時期	企業・モデル	内容
2025年1月	DeepSeek-R1	オープンソースの推論モデルとして大きな話題に。低コスト・高性能モデル競争を加速
2025年4月	Meta Llama 4	ScoutとMaverickを発表。オープンウェイト、マルチモーダル、MoE構造、長文脈が注目
2025年7月	Perplexity Comet	AIブラウザCometを発表。検索AIからブラウザ上のパーソナルアシスタントへ
2025〜2026年	Mistral / Le Chat	Deep Research、Voice、Projects、画像編集、コーディングエージェントなどを強化

DeepSeek-R1は、2025年の最初にかなりインパクトがありました。オープンな推論モデルで、低コストでも高性能なモデルが作れるという見方が広がりました。

MetaのLlama 4も、オープンウェイトの流れでは重要です。巨大企業だけが閉じたモデルを提供するのではなく、開発者や企業が自分たちで使えるモデルも強くなってきました。

PerplexityのCometは、AIブラウザという方向です。検索して答えるAIから、ブラウザ上で調査、メール、カレンダー、買い物などを支援する方向に進んでいます。

MistralもLe Chat、Deep Research、Voice、Projects、画像編集、コーディングエージェントなどを広げています。欧州系のAI企業として、独自の位置を作っていますね。

2025年以降に変わったところ

この16か月ぐらいで変わったところを、少し整理してみます。

まず、AIは「考えるモデル」になりました。

OpenAIのo3、o4-mini、GPT-5系。Claude 3.7以降。Gemini 2.5以降。Grok 3以降。各社が、ただ文章を返すのではなく、難しい問題ではしっかり推論する方向に進みました。

次に、AIはエージェントになりました。

Operator、ChatGPT agent、Claude Code、Project Mariner、Grok Agent Tools API。どれも、AIが外部ツールや画面を使って作業する方向です。

さらに、AIはファイルを扱うようになりました。

文章を書くところから、Excel、PowerPoint、PDF、スライド、表計算、コードベース、画像、動画、音声へ広がっています。これはかなり大きいです。人間が最後に整えるだけでなく、AIが成果物そのものを作るようになってきました。

また、マルチモーダルも当たり前になりました。

テキストだけでなく、画像を見て考える。動画を作る。音声で話す。PDFを読む。画面を見て操作する。こういうことが普通になってきています。

最後に、企業利用と開発者利用がかなり進みました。

Codex、Claude Code、Gemini API / Vertex AI、Grok API、Mistral Vibeなどを見ると、個人がチャットで使うだけでなく、仕事の中にAIを組み込む方向が進んでいます。

競争軸も変わってきました

2024年ぐらいまでは、「どのAIが一番賢いか」という見方が多かったと思います。

もちろん今もモデル性能は大事ですが、2025年以降は競争軸が少し分かれてきました。

競争軸	代表例
深い推論	OpenAI o3 / GPT-5系、Claude 3.7以降、Gemini 2.5以降、Grok 3以降
エージェント化	ChatGPT agent、Claude Code、Project Mariner、Grok Agent Tools
実務ファイル操作	ClaudeのExcel・PowerPoint編集、ChatGPTの表計算・スライド・文書作業
マルチモーダル	GPT-4o画像生成、Sora 2、Gemini Veo 3 / Imagen 4、Grok Imagine
企業・開発者利用	Codex、Claude Code、Gemini API / Vertex AI、Grok API、Mistral Vibe
低コスト・高速化	o3-mini、Gemini Flash、Claude Haiku、Grok Fast、DeepSeek系

AIモデルの名前だけを追っていると分かりにくいですが、実際には「何をさせたいか」で選ぶ時代になってきました。

調査ならdeep research系。
コードならCodexやClaude Code。
動画ならSora、Veo、Grok Imagine。
仕事の資料ならChatGPT agentやClaude。
大量処理ならGemini APIや軽量モデル。

そういう使い分けになってきています。

気をつけたいところ

便利になった一方で、気をつけるところもあります。

まず、AIが作業するようになると、間違えた時の影響も大きくなります。文章を少し間違えるだけなら直せばいいですが、ブラウザ操作、ファイル編集、コード修正、メール送信、予約、購入まで進むと、確認が必要です。

次に、情報の鮮度です。

2025年以降はモデル更新が早すぎて、少し前の情報がすぐ古くなります。GPT-5.4が出たと思ったらGPT-5.5、Claude Sonnet 4.5が出たと思ったら4.6、Opus 4.7。追いかけるだけでも大変です。

それから、ベンチマークだけでは分からないところもあります。

数字が高いモデルでも、自分の仕事に合うとは限りません。文章の好み、ファイル操作の安定性、ツール連携、料金、速度、文脈長、出力の癖など、実際に使うと違いがあります。

ゴルフクラブと同じで、スペックだけ見ても合うかどうかは分からないですね。AIも実際に使ってみて、自分の作業に合うかどうかを見るのが大事だと思います。

2025年から2026年前半の生成AIはこう見ています

2025年1月から2026年5月10日までの生成AIは、会話の相手から実務の相棒へ変わってきた時期だったと思います。

最初は、OperatorやClaude Codeのように「AIが作業する」入口が見えてきました。そこから、ChatGPT agent、GeminiのProject Mariner、Grok Agent Tools APIのように、画面やツールを使うAIが増えていきました。

同時に、Sora 2、Veo 3、Imagen 4、Grok Imagineのように、動画や画像の生成も進みました。音声も、会話するだけでなく、音声エージェントやTTS、STT、カスタムボイスの方向へ広がっています。

2026年に入ると、モデル単体の性能だけでなく、どれだけ実際の仕事を進められるかが重要になってきました。GPT-5.5、Claude Opus 4.7、Gemini 3.1、Grok 4.1 Fastあたりを見ると、完全にそちらの方向です。

これからは、「どのAIが賢いか」だけでなく、「どのAIに何を任せるか」が大事になると思います。

文章を書くAI。
調査するAI。
コードを書くAI。
ブラウザを操作するAI。
資料を作るAI。
音声や動画を作るAI。
会社の中のデータにつながるAI。

それぞれ得意なところが違います。

2025年は、生成AIが会話相手から実務パートナーへ変わった年。
2026年は、そのAIがブラウザ、コード、資料、音声、動画まで動かし始めた年。

そう見ておくと、流れが分かりやすいと思います。

参考
Introducing Operator – OpenAI
Introducing ChatGPT agent – OpenAI
Introducing GPT-5.5 – OpenAI
GPT-5.5 Instant – OpenAI
Introducing GPT-5.4 – OpenAI
Introducing GPT-5.3-Codex – OpenAI
Claude Sonnet 4.6 – Anthropic
Claude Opus 4.7 – Anthropic
Grok 4.1 Fast and Agent Tools API – xAI

2025年〜2026年前半の生成AIは何が変わったのか