はじめに
生成AI(Generative AI)の急速な発展により、多くの新しい用語や概念が登場しています。この用語集では、AI初心者からビジネス利用者まで幅広く役立つ情報を網羅し、生成AIを理解するための基礎知識を提供します。
生成AIとは、既存のデータから学習し、新たなコンテンツを創造する人工知能の一種です。テキスト、画像、音声、動画などさまざまな形式のコンテンツを生成することができ、現在はビジネス、教育、クリエイティブ分野など多岐にわたる領域で活用されています。
基本概念・用語
人工知能(AI: Artificial Intelligence)
人間の知的行動を模倣し、学習、問題解決、パターン認識などを行うコンピュータシステム。生成AIはその一種です。
機械学習(Machine Learning)
データからパターンを学習し、明示的なプログラミングなしに予測や判断を行うAIの一分野。アルゴリズムを使用してデータから学習し、将来のデータに対する予測や分類を行います。
ディープラーニング(Deep Learning)
多層(深層)のニューラルネットワークを使用した機械学習の手法。人間の脳の神経回路を模倣し、大量のデータから特徴を自動的に抽出して学習します。生成AIの基盤技術の一つです。
生成AI(Generative AI)
既存のデータを学習し、新たなコンテンツ(テキスト、画像、音声、動画など)を創造するAIの一種。大規模言語モデル(LLM)や拡散モデルなどの技術が使われています。
教師あり学習(Supervised Learning)
入力と正解(ラベル)のペアからなるデータセットを使って学習する方法。例えば、画像と「猫」「犬」などのラベルを与えることで画像分類を学習させます。
教師なし学習(Unsupervised Learning)
正解(ラベル)なしのデータからパターンや構造を見つけ出す学習方法。クラスタリングや次元削減などに使われます。
ニューラルネットワーク(Neural Network)
人間の脳の神経細胞(ニューロン)を模倣した構造を持つ機械学習モデル。入力層、隠れ層(中間層)、出力層から構成され、複雑なパターンを学習できます。
大規模言語モデル関連
大規模言語モデル(LLM: Large Language Model)
膨大なテキストデータで学習した自然言語処理モデル。数千億のパラメータを持ち、テキスト生成、質問応答、要約など様々なタスクを実行できます。ChatGPT、Claude、Geminiなどがこれに該当します。
トークン(Token)
言語モデルが処理する最小の単位。英語では単語や単語の一部、日本語では文字や短い単語がトークンとなります。多くのLLMでは、入力と出力の合計トークン数に基づいて利用料金が計算されます。
エンベディング(Embedding)
単語や文章を数値ベクトルに変換する技術。意味の近い言葉は数値空間でも近くに配置されるため、AIが言葉の意味を理解するために重要です。検索や類似性の判断にも使われます。
コンテキストウィンドウ(Context Window)
言語モデルが一度に処理できるテキストの最大長。例えばGPT-4は32kトークン(約6万単語相当)、Claude 3 Opusは約20万トークンのコンテキストウィンドウを持ちます。長い文書の処理や複雑な会話には大きなコンテキストウィンドウが有利です。
ハルシネーション(Hallucination)
生成AIが事実に基づかない情報や存在しない情報を生成する現象。モデルが「幻覚」を見ているかのように、もっともらしく見えるが誤った情報を出力することを指します。ビジネス利用における重大なリスクの一つです。
トランスフォーマー(Transformer)
2017年にGoogleが発表した自然言語処理のための革新的なモデルアーキテクチャ。「Attention」機構を使って文脈を理解し、並列処理ができるため高速です。現代のほとんどの大規模言語モデルはこのアーキテクチャに基づいています。
自己回帰(Autoregressive)
モデルが前に生成した出力を次の入力として使用する生成方法。言語モデルがテキストを生成する際、一度に一つの単語/トークンを生成し、それを使って次の単語/トークンを予測します。
技術用語
プロンプトエンジニアリング(Prompt Engineering)
AIから望ましい結果を得るための効果的な指示(プロンプト)を設計する技術や方法論。適切な言葉遣い、構造、コンテキストの提供などを通じて、AIの出力の質と精度を向上させます。
プロンプト(Prompt)
AIモデルに与える指示や質問のこと。プロンプトの書き方によって、AIの回答の品質や方向性が大きく変わります。画像生成AIでは「咒語(じゅもん)」とも呼ばれることがあります。
ファインチューニング(Fine-tuning)
事前学習済みの大規模モデルを、特定のタスクや領域に適応させるために追加学習させること。例えば医療分野専用のAIモデルを作るために、医療データで追加学習させるなどです。
RAG(検索拡張生成 / Retrieval-Augmented Generation)
生成AIが外部の知識ソースから情報を検索し、その情報を基に回答を生成する手法。モデルが学習していない最新情報や専門知識を扱う際に有効で、ハルシネーションの低減にも役立ちます。企業の内部文書と組み合わせた社内AIチャットボットなどに使われています。
転移学習(Transfer Learning)
あるタスクで学習したモデルの知識を別のタスクに転用する手法。例えば一般的な言語モデルを特定の業界用途に転用するなど、少ないデータで効率的に学習できます。
ゼロショット学習(Zero-shot Learning)
特定のタスクについて直接学習していなくても、そのタスクを実行できる能力。例えば、日本語の文章分類を学習していなくても、指示によって日本語の文章を分類できるなど。
フューショット学習(Few-shot Learning)
少数の例示だけを見せることでタスクを実行する能力。例えば、プロンプト内で2-3個の例を示すだけで、AIがパターンを理解し同様の処理ができるようになります。
ベクトルデータベース(Vector Database)
テキストや画像などをベクトル(数値の配列)として保存し、類似性に基づいて検索できるデータベース。RAGシステムで外部知識を管理する際によく使用されます。
主要サービス(テキスト生成AI)
ChatGPT
OpenAIが開発した対話型AIサービス。GPTシリーズのモデル(GPT-3.5、GPT-4など)を搭載し、自然な対話、質問応答、文章作成、コーディングなど幅広いタスクに対応します。無料版と有料版(ChatGPT Plus)があります。
GPT-4
OpenAIの最新の大規模言語モデル。複雑な指示の理解、より長いコンテキストの処理、推論能力の向上などの特徴があります。GPT-4oでは画像認識機能も強化され、マルチモーダルな処理が可能になりました。
Claude
Anthropic社が開発した大規模言語モデル。安全性と倫理性を重視した設計で、長文の処理に強いという特徴があります。Claude 3シリーズ(Haiku、Sonnet、Opus)では異なる性能とコストのバランスが提供されています。
Gemini
Googleが開発した大規模言語モデル。以前はBardと呼ばれていました。テキスト、画像、音声、動画など複数のモダリティを理解できるマルチモーダルAIとして設計されています。Gemini Ultra、Pro、Nanoなど異なるサイズのモデルがあります。
Microsoft Copilot
MicrosoftとOpenAIの協業によるAIアシスタント。WindowsやOffice製品群に統合され、文書作成、プレゼンテーション、スプレッドシート分析などの業務を支援します。旧称はBing Chatです。
GitHub Copilot
GitHubとOpenAIが共同開発したコーディング支援AI。プログラマーが書いたコードやコメントを基に、コードの提案や補完を行います。様々なプログラミング言語やフレームワークに対応しています。
画像生成AI
Midjourney
テキストプロンプトから高品質な画像を生成するAIサービス。Discordを通じて利用でき、芸術的で創造的な画像生成に優れています。詳細な指示により細かいコントロールが可能で、商用利用も可能です。
Stable Diffusion
オープンソースの画像生成AIモデル。個人のPCでもローカル実行が可能で、カスタマイズ性が高いのが特徴です。様々なUI(AUTOMATIC1111など)を通じて利用でき、LoRAなどの追加学習も可能です。
DALL-E
OpenAIが開発した画像生成AI。テキスト説明から多様なスタイルの画像を生成できます。最新版のDALL-E 3はChatGPTと統合され、より詳細なプロンプトを自動的に生成する機能があります。
拡散モデル(Diffusion Model)
画像生成AIの主要技術の一つ。ノイズを少しずつ取り除きながら画像を生成するプロセスを使います。Stable Diffusion、Midjourneyなどはこのアプローチをベースにしています。
LoRA(Low-Rank Adaptation)
既存の拡散モデルを少量のデータで効率的に微調整する技術。特定のスタイルや被写体に特化した画像生成が可能になります。Stable Diffusionなどで広く使われています。
インペインティング(Inpainting)
画像の一部を選択し、その部分のみを再生成する技術。既存の画像の一部を変更したり、不要な部分を除去したりする際に使用されます。
アウトペインティング(Outpainting)
既存画像の境界を越えて画像を拡張する技術。例えば、ポートレート写真の周囲を追加して風景を含む全身像にするなどの用途があります。
音声・音楽生成AI
ElevenLabs
高品質な音声合成AIサービス。様々な言語や感情表現に対応し、自然で表現力豊かな音声を生成できます。カスタム音声クローンの作成も可能です。
Suno
テキスト指示から完成度の高い楽曲を生成するAIサービス。歌詞、メロディ、伴奏、ボーカルを含む完全な楽曲を短時間で生成できます。
VALL-E
Microsoftが開発した音声合成AI。わずか3秒程度の音声サンプルから話者の声を学習し、その人の話し方や感情表現を模倣した音声を生成できます。
MusicLM
Googleが開発した音楽生成AI。テキスト説明から多様なジャンルやスタイルの音楽を生成できます。現在はGoogle AIスタジオ内のImageFXに統合されています。
ビジネス活用関連用語
AIアシスタント
ビジネスプロセスや日常タスクを支援するAIツール。文書作成、情報検索、スケジュール管理などをサポートします。Microsoft Copilot、Notion AIなどが該当します。
エンタープライズAI
組織内で特定の業務用途に最適化されたAIソリューション。社内データに基づいて学習され、企業特有のニーズに対応します。セキュリティやプライバシーにも配慮した設計が特徴です。
AI倫理
AIの開発と使用における倫理的原則。公平性、透明性、プライバシー保護、説明可能性などが含まれます。ビジネスでAIを活用する際には、これらの倫理原則に基づいた運用が重要です。
AIガードレール
AIシステムに設けられる安全対策や利用制限の仕組み。不適切な内容の生成を防いだり、AIの使用範囲を制限したりするために使用されます。企業の方針やコンプライアンスに沿った利用を促進します。
プロンプトライブラリ
組織内で効果的なAIプロンプト(指示)を共有・管理するためのリポジトリ。業務効率を高めるために、部門や用途ごとに最適化されたプロンプトを蓄積し再利用できます。
倫理・法律関連
AIバイアス
AIモデルが学習データに含まれる偏見を反映し、特定の集団に不公平な結果を生成する問題。性別、人種、年齢などに関する偏見が含まれることがあります。
説明可能性(Explainability)
AIの判断や出力の理由を人間が理解できるように説明できる性質。特に重要な意思決定を行うAIシステムでは、なぜその結果になったのかを説明できることが重要です。
著作権問題
AIが生成したコンテンツの著作権に関する法的問題。AIが学習に使用したデータの著作権や、AIが生成した作品の権利帰属が議論されています。各国で法的枠組みの整備が進められています。
プライバシー保護
AIシステムにおける個人情報の適切な取り扱いと保護。特に生成AIでは、学習データに含まれる個人情報の漏洩リスクや、機密情報の扱いが重要な課題です。
AI規制
各国・地域で進められているAI技術の規制や法整備。EUのAI規制法(AI Act)、中国のAI規制、アメリカのAI法令(AI Bill of Rights)など、様々な規制の枠組みが検討されています。
まとめ
本用語集では、生成AIに関する基本概念から最新技術、主要サービスまで幅広く解説しました。これらの用語を理解することで、生成AIをより効果的に活用することができるでしょう。
生成AI技術は急速に進化しており、新しい概念や用語が次々と登場しています。常に最新情報にアクセスし、知識をアップデートすることが重要です。
ビジネスでの活用や個人的な利用を問わず、生成AIの可能性と限界を理解し、適切に活用することで、より創造的で効率的な成果を生み出すことができるでしょう。
コメント