こんにちは。クラウドエンジニアのmoriです。
久しぶりの投稿となります。この記事はD-make Advent Calendar 2025の2日目の記事です。
私事ですが、先日、AWS認定試験 AWS Certified AI Practitioner(AIF)を取得しました。
結果は1000点満点で合格することができましたので、その勉強方法を紹介したいと思います。

背景:インフラエンジニアとしてのキャリアとAIへの挑戦
私はこれまでインフラエンジニアとしてキャリアを積んできました。
そのため、機械学習(ML)などのAI分野については、実務での経験も知識もほとんどありませんでした。
とはいえ、昨今の生成AIの台頭に伴い、AIを使って業務をすることがもはや必須になってきているのをひしひしと感じます。
キャッチアップとしてAWS Bedrockなどについてはオンラインセミナーなどを受けていましたが、体系的な知識を得るために、ちょうどPractitioner系のAWS認定の半額キャンペーンがあったのを機に取得してみることにしました。
直面した壁:専門外の分野での苦戦
プラクティショナーは初級者向けということもあり、簡単に取れるだろうと高を括っていました。
SAP(Solutions Architect Professional)は取得しており、弊社のメンバーのAWS資格10冠達成のブログでも紹介していたCloud Licenceを私も同様に利用して勉強を始めました。
しかし、問題を解き始めてすぐに、Amazon SageMakerと機械学習(ML)回りが圧倒的に弱点であることに気が付きました。
SAPやSAAなどの試験では、インフラや開発(DevOps)がメイン領域だったため、間違えた箇所も解説や参考リンクを確認すれば、これまでの経験則や知識と結びつけて理解することができていました。
しかし、今回はBedrock以外の分野(特に機械学習)の知識が全くなく、解説を読んでもそこに出てくるML専門用語(ハイパーパラメータ、F1スコア、ROUGEなど)の意味自体が理解できず、解説が解説として機能しないという事態に陥り、非常に苦戦しました。
今回実践した新しい勉強法:生成AIとの壁打ち
そこで、これまでの「問題を解く→解説を読む→理解する」というサイクルだけでは通用しないと判断し、新しい勉強方法を取り入れました。
それは、生成AIを使って壁打ち勉強をするという方法です。
具体的には、Gemini先生にCloud Licenceで間違えた問題や、解説を読んでわからない単語を質問して、さらに「中学生にもわかるように解説してください」と指示をだし、噛み砕いて説明してもらうことで理解を深めました。
具体的な学習プロセス
実際にどのようなやり取りをしていたか、例を紹介します。
Q: ROUGEスコアとはなんですか。中学生にもわかるように説明してください。
A:
ROUGE(ロージュ)スコアは、AIが作った文章の要約が、どれだけ人間の作ったお手本(正解)の要約と似ているかを点数で評価するためのものです。
ROUGEスコアの仕組み 📝
ROUGEスコアは、AIが生成した要約文と、人間が作成した正解の要約文を比較し、単語や文がどれだけ重なっているかを基準に点数をつけます。重なりが多ければ多いほど、AIの要約は「良い」と判断されます。
たとえるなら「答え合わせ」
学校のテストで、先生が用意した模範解答と自分の答えを比べるようなものです。
- 模範解答: 人間が作った要約
- 自分の答え: AIが作った要約
- 答え合わせ: ROUGEスコアの計算
自分の答えに、模範解答と同じキーワードがたくさん入っていれば、高い点数がもらえますよね。ROUGEスコアもそれと同じで、AIの要約にお手本となる単語や文がたくさん含まれているほど、スコアが高くなります。
ROUGEスコアの種類
ROUGEスコアにはいくつか種類がありますが、代表的なものを2つ紹介します。
1. ROUGE-N: 単語の一致を見ます。「N」には数字が入り、ROUGE-1なら1つの単語、ROUGE-2なら2つの単語のペアがどれだけ一致しているかを数えます。
- ROUGE-1の例:
- お手本: 「今日は良い天気です」
- AI要約: 「今日は良い天気ですね」
- →「今日」「良い」「天気」という3つの単語が一致しているので、スコアが高くなります。
2. ROUGE-L: 文の中で、単語が順番も含めてどれだけ長く一致しているか(最長共通部分列)を見ます。語順が違っていても、共通する部分が長ければ長いほどスコアが上がります。
- ROUGE-Lの例:
- お手本: 「猫はこたつで丸くなる」
- AI要約: 「犬は外で遊び、猫はこたつで丸くなる」
- →「こたつで丸くなる」という文が丸ごと一致しているので、高いスコアになります。
まとめ
ROUGEスコアは、AIが作った文章の「質」を、お手本と比べることで客観的に測るための便利な道具です。特に、ニュース記事の要約や、長い文章を短くまとめるAIの性能を評価するのによく使われています。
—
Q: ROUGEスコアとBLEUの違いを教えて
A:
ROUGEスコアとBLEU(ブルー)スコアは、どちらもAIが作った文章の良さを点数で評価するためのものですが、何に重点を置いているかと主な使い道が大きく異なります。
一言でいうと、ROUGEは「網羅性」を、BLEUは「正確性」を評価するのに向いています。
ROUGEスコア = キーワード採点方式
先生が「このキーワードは絶対に入れてね」と指定した言葉が、あなたの答えにどれだけ漏れなく入っているかを見ます。多少言い回しが違っても、大事な言葉が入っていれば点数がもらえます。
- 評価ポイント: 再現率 (Recall) といって、「お手本に含まれる重要な単語を、どれだけ拾えているか」を重視します。
BLEUスコア = 減点方式に近い採点
あなたの答えの中に、お手本にはない余計な言葉や間違った言い回しがどれだけ少ないかを見ます。短くても、お手本に忠実で正確な文章だと高得点になります。
- 評価ポイント: 適合率 (Precision) といって、「AIが生成した単語が、どれだけお手本と一致しているか」を重視します。
それぞれの得意なこと
この採点方法の違いから、それぞれ得意な分野が分かれています。
- ROUGEが得意なこと:文章の要約
- 目的: 元の文章の大事なポイントを、漏れなく短い文章にまとめること。
- なぜROUGE?: 要約では、細かい言い回しよりも「必要な情報(キーワード)がちゃんと含まれているか」が重要だからです。ROUGEは、この「網羅性」を評価するのが得意です。
- 名前の由来: Recall-Oriented Understudy for Gisting Evaluation(要点の評価を目的とした、再現率重視の控え選手)
- BLEUが得意なこと:機械翻訳
- 目的: ある言語の文章を、別の言語で正確かつ自然に言い換えること。
- なぜBLEU?: 翻訳では、間違った単語や不自然な言い回しがあると意味が変わってしまいます。「AIが作った訳文が、どれだけ人間の正しい訳文に近いか」という正確性が非常に重要だからです。
- 名前の由来: BiLingual Evaluation Understudy(バイリンガル評価の控え選手)
このように、ROUGEとBLEUはどちらが優れているというわけではなく、評価したい文章の目的によって使い分けられる、大切な評価指標です。
—
こんな感じで、自分の中で腹落ちするまでやり取りをします。
定着させるための「3回ルール」
私には「何事も3回やれば身につく」という経験則があります。
最初は「なんとなく」でも、繰り返すうちに「理解」へと変わり、最後には「自信」を持って使えるようになるからです。
ですので、試験対策も同様に問題集を3回繰り返すことをなるべく実践しています。
3回解くことで自分の中で理解し、自信をもって問題を解くことができたのが、今回の1000点満点に繋がったと思っています。
まとめ
AWS認定試験に受かることがゴールではなく、実際に使えるようになることが大事だと思っています。
とはいえ、AWSのサービスをすべて実践していくのは現実的ではありません。
資格を取るために勉強することで、知識の幅とアンテナを広げることができると思っています。
よく「車を買うとその車ばかり目につくようになる」という法則(カラーバス効果)がありますが、それと同じです。
一度勉強して知識として知っていると、日々の業務やニュースの中で関連する情報が自然と目に留まり、「あ、これはあのサービスで解決できそうだ」と気付けるようになります。
エンジニアにとって、日々が勉強の連続です。
実務での経験はもちろん重要ですが、資格勉強を通して技術を体系的に理解することは、自身の知識の地図を広げ、より強固な土台を築くために不可欠です。
そして何より、資格取得という「結果」は、自分自身のスキルへの確かな「自信」となり、周囲への強力な「アピール」にもなります。
この自信を糧に、これからも変化の激しい技術の世界を楽しんでいきたいと思います。
ではでは、明日以降のD-make Advent Calendar 2025もお楽しみに!
