Session 01 · AI Basics

AIってそもそも
何者?

なぜAIはそんなに賢いのか — 仕組みから理解する

知識ゼロから始める AI入門
© 2026 AI講座1
今日の5テーマ
この回を終えると「AIが何をしているか」が腑に落ちる
1
AIの歴史 — なぜ今なのか
70年の試行錯誤と2020年代の爆発的進化
2
LLMの仕組み — 確率とトークン
テキストが数字になり、確率で「次の言葉」を選ぶ
3
ハルシネーション — なぜ嘘をつくのか
3つのメカニズムと実例・対策
4
Temperature — 答えが変わる理由
「ランダム性」のパラメータを理解する
5
ChatGPT / Claude / Gemini の違い
3大モデルを比較して使い分けを学ぶ
© 2026 AI講座2
AIの70年史①:夢と挫折の繰り返し
1950年代から2010年代——「冬の時代」を2回経た長い旅
1956AI命名ダートマス会議 1974第1次AIの冬予算凍結 1980sエキスパートシステム全盛 1987第2次AIの冬維持コスト問題 2006深層学習Hinton復活 2012AlexNet衝撃画像認識革命 ←冬の時代→ ←冬→
© 2026 AI講座3
AIの70年史②:2017〜2025 爆発期
Transformerの発明から始まった「LLM革命」
2017
Transformer 誕生
「Attention Is All You Need」Google論文。これが全ての基盤。
2020
GPT-3 登場
1750億パラメータ。「文章を書くAI」の衝撃。研究者が震撼。
2022.11
ChatGPT 公開
5日で100万人。2ヶ月で1億ユーザー。史上最速普及。
2023
GPT-4 / Claude 2
司法試験トップ10%合格水準。マルチモーダル対応。
2024
GPT-4o / Claude 3.5
リアルタイム音声対話。コーディング能力が劇的向上。
2025
Claude 4 / o3
AIエージェント時代。自律的なタスク実行が現実に。
© 2026 AI講座4
なぜ「今」なのか:3つの収束
計算力・データ・アルゴリズムが2020年代に揃った
3つが同時に揃ったのは人類史上初めて
計算力
GPU/TPUの進化でAI用途の計算コストが過去10年で1,000分の1に低下。大規模な学習が現実的なコストで可能に
📊
データ
Web上のテキストデータが爆増。2020年時点で4.4兆GB超。これを学習データとして活用できる環境が整った
🧠
アルゴリズム
Transformerによるアーキテクチャの革新とRLHFによる人間フィードバック学習。「賢く・安全に」する方法が確立
© 2026 AI講座5
LLMとは何か
Large Language Model — 大規模言語モデルの正体
「次のトークンを予測する」マシンに過ぎない
「東京の LLM 確率計算 7000億パラメータ 首都: 85% 駅: 8% 天気: 4% その他: 3% →「首都」を選択
本質を一言で
AIは「思考」も「理解」もしていない。膨大なテキストから統計的なパターンを学び、「次に来やすい言葉」を確率で選んでいるだけ
それなのに賢い理由
Web上の人類の知識の大部分を「次の言葉の確率」として圧縮・記憶している。その圧縮精度が異常に高いため、賢く見える
© 2026 AI講座6
トークン — テキストが数字になる
AIはテキストをそのまま処理しない。まず「トークン」に分割する
例:「東京は日本の首都です」→ トークン分割
東京 日本 首都 です
→ 数値ID: [20929, 1180, 30661, 380, 39591, 2053] として処理
日本語は非効率
英語は1単語≈1トークン。日本語は1文字〜2文字が1トークンになることが多く、同じ内容でも約3倍のトークン数を消費
料金の単位
APIの課金はトークン数で決まる。Claude Sonnetは入力1Mトークン≈$3。長い会話ほど高コスト
コンテキスト上限
AIが一度に「覚えられる」量の上限。Claude 3.5は200,000トークン≈本1冊分を一気に処理できる
© 2026 AI講座7
Transformerとは — 「注意」する機構
2017年のGoogle論文「Attention Is All You Need」が現代AIの基盤
「東京の天気は晴れです。東京の人口は…」 東京の 天気は 晴れです 東京の 人口は Attention 0.92 0.05 「東京」に最注目 文脈から関連語を重み付け → 「東京=大都市」の文脈を正確に捉えて次の語を生成
Attentionの革命
従来のRNNは文章を「順番に」処理。Transformerは全ての単語の関係を「同時に」計算。並列処理が可能になり大規模化が実現
なぜ文脈を理解できるか
「東京の天気…東京の人口」という文で2つ目の「東京」が何を指すか、Attentionスコアで正確に特定できる
スケールの効果
パラメータ数が増えるほど、より複雑な関係パターンを記憶できる。GPT-3は1750億、最新は数兆規模
© 2026 AI講座8
スケーリング則:大きいほど賢い
パラメータ数・学習データ・計算量を増やすほど能力が伸びる法則
能力 パラメータ数 → GPT-1 117M GPT-2 1.5B GPT-3 175B GPT-4 ~1T+
なぜこれが重要か
「もっと大きく」「もっと多くのデータで」という方向が正しいと数学的に証明。これがLLM開発競争の根拠
「創発」という現象
一定規模を超えると突然「推論・多言語・コード生成」などが出現。これは設計されたものでなく自然発生
限界もある
大きくするだけでは解決しない問題も。「正確性」「最新情報」「推論の整合性」は別のアプローチが必要
© 2026 AI講座9
RLHF — AIを「人間らしく」する技術
Reinforcement Learning from Human Feedback:人間のフィードバックで強化学習
プレトレーニング済み GPT-3ベース SFT 人間の回答例で微調整 強化学習 良い回答に報酬 人間アノテーター:回答AとBどちらが良い? → この選好データで報酬モデルを訓練 結果:有害コンテンツを避け、 人間にとって「良い」回答を生成
なぜ必要か
プレトレーニングだけだと「確率的に正しい」が「役に立つ」ではない。人間の価値観にアラインする必要がある
ChatGPTの差別化点
GPT-3にRLHFを適用したのがChatGPT。「会話らしく」「有用に」「安全に」という3要件をRLHFで実現
© 2026 AI講座10
Temperature — 答えが変わる理由
「ランダム性」のパラメータ。0〜1(または2)の数値で制御する
Temperature = 0.1(低い) 首都 92% 駅 5% 3% → 毎回ほぼ同じ「首都」を選ぶ。安定・予測可能 Temperature = 1.0(高い) 首都 55% 駅 28% 天気 → ランダム性が高まり「駅」や「天気」も選ばれうる 低い(0)← 決定論的 創造的 → 高い(2) コード生成: 0.1-0.3 一般会話: 0.7 創作・詩: 1.0-1.5
なぜ毎回答えが違うのか
AIは確率分布からサンプリングしている。Temperatureがゼロでなければ、同じ質問でも毎回違う「くじ引き」をしている状態
実用的な使い方
事実確認・コード生成 → 低く設定。アイデア出し・物語 → 高く設定。ChatGPTの「デフォルト」は約0.7
© 2026 AI講座11
ハルシネーション — なぜAIは嘘をつくのか
作り話を自信満々に語る理由は構造的な問題
AIは「正確かどうか」より「それっぽいか」を優先する
Mechanism 1
確率的な補完
「それっぽい続き」を確率で選ぶため、事実確認プロセスがない。「東京の人口は1600万人」が統計的に自然なら生成してしまう
Mechanism 2
知識の混濁
学習データ中の複数の情報が混ざる。「A社のCEO」を聞いたとき、似た文脈のB社やC社の情報が混入して誤答を生む
Mechanism 3
カットオフ後の情報
学習データには期限がある。2024年以降の情報を聞かれると、古い情報や「それっぽい推測」で答えてしまう
© 2026 AI講座12
ハルシネーションの実例4パターン
「知っているふり」をするケースを把握しておく
Pattern A · 架空の引用
存在しない論文・書籍を引用
「Smith et al. (2019)によると…」と自信を持って答えるが、その論文は存在しない。著者名・雑誌名・DOIまで作る
対策:学術引用は必ず原文を確認。AIに「論文を探して」ではなく「テーマを説明して」と聞く
Pattern B · 数値の偽造
統計データを自然に作り出す
「日本の〇〇の市場規模は2023年に約3.4兆円」などの数値を自信たっぷりに生成する。ソースなし
対策:数値は必ず公的機関・一次情報で確認。「出典を教えて」と追加で聞く
Pattern C · 人物情報の混濁
経歴・発言を間違える
著名人の経歴を混在させる。「〇〇氏は△△大学出身で…」という紹介に他の人物の情報が混入
対策:人物情報はWikipedia・公式プロフィールで確認。AIの経歴説明を鵜呑みにしない
Pattern D · 法律・規制の誤り
古い・不正確な法的情報
法改正後の正確な条文を答えられない。「〇〇は違法です」という断言が不正確なことがある
対策:法律・税務・医療情報は専門家へ。AIは「概要理解」の補助に限定する
© 2026 AI講座13
コンテキストウィンドウ — AIの「作業記憶」
一度に処理できるトークン数の上限。これを超えると「忘れる」
Context Window (200,000 tokens) System Prompt(指示・役割設定) 会話履歴(ユーザー↔AI の往復) 過去のやりとりが全てここに蓄積される 現在の質問 + 添付資料(PDF・コードなど) ↑ 200,000トークン ≈ 日本語で約30〜40万文字 ≈ 本1〜2冊分
長い会話で「忘れる」理由
コンテキストが上限を超えると古い会話から削除される。「さっき言ったこと」が消えてしまう現象はこれが原因
モデル別コンテキスト比較
ChatGPT GPT-4o:128K
Claude 3.5 Sonnet:200K
Gemini 1.5 Pro:1M(100万)
実践Tips
長いドキュメントをそのまま貼れる。PDF・コードも可。新しいタスクは新しいチャットから始めるのが効率的
© 2026 AI講座14
ChatGPT / Claude / Gemini — 3大モデル比較
それぞれの強みと使い分けを理解する
ChatGPT
OpenAI
Claude
Anthropic
Gemini
Google
コーディング
★★★★★
★★★★★
★★★★☆
長文理解
★★★★☆
★★★★★
★★★★★
日本語品質
★★★★☆
★★★★★
★★★★☆
最新情報
★★★★☆
★★★☆☆
★★★★★
無料枠
GPT-3.5無料
Claude 3 無料
Gemini無料
© 2026 AI講座15
企業のAI活用:業種別浸透度
2025年現在、どの業種がどれだけAIを使っているか
業種別 AI業務活用率(2025年調査) IT・ソフトウェア 88% 金融・保険 68% 医療・製薬 58% 製造・物流 52% 小売・EC 44% 教育 35% 飲食・サービス 24%
日本の特殊事情
米国・中国に比べて全業種で5〜15%低い。セキュリティ懸念・ガイドライン不足・リスク回避文化が主な理由
使われている用途TOP3
① 文書作成・メール補助(79%)
② データ分析・レポート(61%)
③ コード生成・レビュー(48%)
© 2026 AI講座16
AIが「できること」と「まだ難しいこと」
過大評価も過小評価もせず、正確に把握する
✓ AIが得意なこと
大量テキストの要約・分類・翻訳
コード生成・デバッグ・リファクタリング
アイデアのブレスト・構造化
文章の校正・スタイル調整
パターン認識・異常検知(大量データ)
24時間対応のカスタマーサポート
複数言語での同時対応
✗ まだ難しいこと
リアルタイムの最新情報の取得(Web検索なし)
長期記憶(会話をまたいだ文脈保持)
物理世界との直接インタラクション
因果推論の確実性(相関は見えるが因果は難しい)
完全な数値計算精度(複雑な算術は誤る)
独自の創造(ゼロから革新的アイデアを生む)
責任の引き受け・倫理的な最終判断
© 2026 AI講座17
AIを使う際の3つのリスク
リスクを知って、賢く使う。無知が最大のリスク
01
著作権・知的財産
AIが生成したコンテンツが既存著作物に類似する可能性。学習データの著作権問題も未解決
対策:生成物の二次利用は確認。商用利用の場合は特に慎重に。AIの説明した「事実」は独自に確認
02
個人情報・機密情報
AIへの入力は学習に使われる可能性がある(サービスによる)。顧客情報・社外秘情報を貼り付けると情報漏洩リスク
対策:機密情報は匿名化・抽象化してから入力。API利用またはプライベートモードを活用
03
依存・スキル退化
AIに頼りすぎると、自分で考える・書く・判断するスキルが低下する。批判的思考力の退化が最大の長期リスク
対策:AIの出力を検証する習慣を持つ。「なぜその答えか」を問い続ける。補助として使い、思考を委ねない
© 2026 AI講座18
🔬 Workshop — 同じ質問を3つのAIに投げる
自分の目で違いを確認する(30分)
質問A — 事実確認型
「日本の2024年のGDPは何位ですか?」
→ 正確性・情報の新鮮さ・引用の有無を比較
質問B — 文章生成型
「新入社員への歓迎メールを書いてください」
→ 文体・長さ・丁寧さ・独自性を比較
質問C — 推論型
「ペットボトルのリサイクル率を上げるには?」
→ 思考の深さ・構造・独自性を比較
質問D — 自分の課題
「自分が今抱えているビジネス課題を入力」
→ 最も役に立ったのはどれか
📝 記録シート:各AIの回答に点数(1-5)をつけ、「どこが違うか・なぜ違うか」を書く
© 2026 AI講座19
第1回まとめ:今日の5つのキーテイクアウェイ
この5つを理解した人は、AIを「怖いもの」から「使えるもの」に変換できた
01
AIは「次のトークンを予測する確率マシン」
思考・理解はしていない。だからこそハルシネーションが起きる
02
Transformerとスケーリング則が「今のAI」を生んだ
3つの収束(計算力・データ・アルゴリズム)が2020年代に初めて揃った
03
Temperatureが「毎回違う答え」を生む
ランダム性パラメータを理解すれば用途別に使い分けできる
04
ハルシネーションは「構造的な欠陥」
パターンを知っていれば被害を防げる。検証習慣が最大の対策
05
ChatGPT / Claude / Gemini — 使い分けが重要
コーディング・長文・最新情報でそれぞれ得意不得意がある。次回→上手な話し方を学ぶ
© 2026 AI講座20