🔹 事前学習だけのモデル = 「実地経験がないインテリ」
事前学習(Pre-training)されたモデルは、大量の文章を読んで知識を持っているけれど、実際の指示にどう対応すればいいのかはよく分かっていない。
📚 事前学習のみのモデルの特徴
✅ 知識は豊富(大量のテキストから学んでいる)
❌ 実際のタスクのやり方がわからない(要約、翻訳などのタスクを明示的に指示されたことがない)
❌ 指示のバリエーションに対応できない(「要約して」「簡潔にまとめて」「ポイントを3つ挙げて」などに柔軟に対応できない)
例えば、こういうイメージ:
🧠 事前学習モデル
「『要約して』と言われたけど、今まで本で読んだことがあるフレーズから考えると、どういう反応をすればいいんだろう…? まあ、たぶん要約っぽいものを出せばいいのかな…?」
📌 問題点
要約タスクのトレーニングをしていないので、品質にバラつきがある。
「要約して」と言われても、安定して要約ができるとは限らない。
どんなフォーマットで答えればいいのかも学んでいない。
🔹 Instruction Tuning を受けたモデル = 「実地経験のある専門家」
Instruction Tuning を施すことで、モデルは「要約」「翻訳」「分類」などの具体的なタスクのやり方を学習し、指示を理解して実行するスキルが身につく。
📝 Instruction Tuning を受けたモデルの特徴
✅ 実践経験がある(「要約して」と言われたら、どう動けばいいのか明確にわかっている)
✅ 指示のバリエーションを理解できる(「短くまとめて」「ポイントを挙げて」などにも対応可能)
✅ 出力の品質が安定する(必ず適切なフォーマットで答えられる)
例えば、こういうイメージ:
👨🏫 Instruction Tuning 済みのモデル
「『要約して』って指示がきたね! これは過去の学習でたくさん練習したタスクだから、適切なフォーマットで答えればいいんだな!」
📌 メリット
- 「要約して」と言われたら、確実に要約するように学習されている。
- 「要約してください」「ポイントを3つ挙げて」などの多様な言い方にも対応できる。
- 一貫したフォーマットで安定した出力を返せる。
🔹 Instruction Tuning = 先輩のやり方を見て、実地経験を積む
→ 「この仕事は、こういう指示が来たら、こうやって対応するんだよ!」と、先輩の実例を見ながら学ぶ。
- 例えば、「要約して」と言われたら、どういう形で要約を出せばいいのかを学ぶ。
- 事前学習で知識はあるけど、実際にどう行動すればいいかをトレーニングする。
- 先輩のやり方(過去の指示と正解データのペア)をたくさん見て、「こうすればいいんだ!」と学習する。
📌 例え
- 新入社員(事前学習済みモデル)が入社する。
- 仕事の知識はあるが、実際にどう動くべきかはわかっていない。
- 先輩の仕事のやり方(指示と対応のペア)を見て、「こうやればいいんだ!」と学習する。
- 結果: ちゃんと指示に従って仕事ができるようになる。
✅ Instruction Tuning をすると、モデルは「指示されたら何をすべきか」が分かるようになり、タスク遂行能力が向上する。
🔹 RLHF = 各部署のこだわりを学ぶ
→ 「うちの部署ではこういうやり方の方が好ましいから、こうやって対応してね!」と、上司や同僚のフィードバックを受けて学ぶ。
- 例えば、営業部署では「お客様に優しい言葉遣い」を重視するが、法務部署では「正確な表現」を優先する。
- RLHF は、「こういう回答の方が好ましいよ!」とフィードバックを受けて、それに合わせて対応を最適化するプロセス。
- 単に「指示に従う」だけでなく、「どの答えが人間にとって最適か」を学ぶ。
📌 例え
- 仕事に慣れてきた新人(Instruction Tuning 済み)が、いろいろな部署で経験を積む。
- 各部署の上司や先輩が、「うちの部署ではこのやり方の方がいい」とフィードバックする。
- そのフィードバックを学習し、状況に応じて最適な対応をできるようにする。
- 結果: 「この場面ではこう対応した方がいい!」と、より適切な判断ができるようになる。
✅ RLHF をすると、モデルは「人間にとって好ましい答え方」や「コンテキストに応じた適切な応答」ができるようになる。