Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

Amazon Bedrock の新モデル Amazon Nova の精度を確認してみた

はじめに

急に冬らしい寒さを感じるようになってきました。
データ分析エンジニアの木介です。

Amazon Bedrock Advent Calendar 2024 シリーズ2の16日目のブログ記事になります。

qiita.com

今回は12月のAWS re:Invent 2024にて発表のあったAWSの最新LLMモデルAmazon Novaを触っていきたいと思います。

www.aboutamazon.com

概要

Novaとは

Amazon Novaは12月に発表されたAmazonが新たに提供する新たな生成AIモデルファミリーです。
テキスト、画像、動画といったマルチモーダルなコンテンツの入力が可能なモデルと、画像や動画の生成が可能なモデルが発表されています。
AWSの生成AIプラットフォームであるAmazon Bedrockを通じて利用することができます。

aws.amazon.com

Novaで出来ること

Amazon Novaの生成AIモデルファミリーとして現状6種類が発表されており、それぞれ以下の形で、マルチモーダル対応のテキストの生成、画像・動画の生成などを行うことができます。

モデル名 入力可能なデータ 出力データ 概要
Amazon Nova Micro テキスト テキスト テキスト生成に特化し、迅速な応答と低コストを実現。
Amazon Nova Lite テキスト、画像、動画 テキスト マルチモーダル対応のモデルで、経済的な選択肢。
Amazon Nova Pro テキスト、画像、動画 テキスト 精度、速度、価格のバランスが取れたマルチモーダルモデルで、多様なタスクに対応。
Amazon Nova Premier - - より複雑な推論タスクに対応できるモデル。現在も学習中であり2025年に提供予定とのこと。
Amazon Nova Canvas テキスト 画像 テキストプロンプトから画像を生成し、透かし機能で責任あるAIの使用を促進。
Amazon Nova Reel テキスト、画像 動画 テキストや画像から6秒間の動画を生成し、製品紹介などに活用可能。

aws.amazon.com

使い方

Amazon Bedrockのコンソール画面より利用したいモデルのアクセス権を申請することで利用することが可能です。
執筆時(2024年12月)ではus-east-1のみで利用可能なようです。

docs.aws.amazon.com

利用方法としては、API 呼び出しでテキスト・画像・動画生成のすべてが可能となっています。
Pythonでは以下の形で実装を行うことで呼び出すことができます。

import boto3
import json

client = boto3.client("bedrock-runtime")

system = [{ "text": "あなたは便利なAIアシスタントです。" }]

messages = [
    {"role": "user", "content": [{"text": "世界で一番高い山は?"}]},
]

inf_params = {"maxTokens": 300, "topP": 0.1, "temperature": 0.3}

additionalModelRequestFields = {
    "inferenceConfig": {
         "topK": 20
    }
}

model_response = client.converse(
    modelId="us.amazon.nova-lite-v1:0", 
    messages=messages, 
    system=system, 
    inferenceConfig=inf_params,
    additionalModelRequestFields=additionalModelRequestFields
)

print("\n[Full Response]")
print(json.dumps(model_response, indent=2))

print("\n[Response Content Text]")
print(model_response["output"]["message"]["content"][0]["text"])

InvokeModel、ConverseModeに対応しているため他のBedrockの基盤モデルと同様に簡単に呼び出すことができます。

また、以下のAmazon BedrockのPlaygroundで手軽に試してみることもできます。


他モデルとの比較

以下の表がAmazon Novaのモデルファミリーと他モデルとの簡単な比較になります。

テキスト生成モデル

モデル名 入力コスト 出力コスト 画像入力 動画入力
Nova Micro $0.035/1M token $0.140/1M token × ×
Nova Lite $0.060/1M token $0.240/1M token
Nova Pro $0.800/1M token $3.200/1M token
gpt-4o-mini $0.150/1M token $0.600/1M token ×
gpt-4o $2.500/1M token $10.000/1M token ×
Claude 3.5 Sonnet $3.000/1M token $15.000/1M token ×
Claude 3.5 Haiku $0.800/1M token $4.000/1M token ×
Claude 3 Ops $15.000/1M token $75.000/1M token ×
Gemini 1.5 Flash $0.075/1M token $0.300/1M token
Gemini 1.5 Pro $1.250/1M token $5.000/1M token

画像・動画生成モデル

モデル名 生成コスト
Nova Canvas $0.04~0.06 / image
Nova Reel $0.08 / second

aws.amazon.com

Nova ProでもClaude 3.5 Haikuと同程度のコストで扱うことが出来るので、コストパフォーマンスでは群を抜いている形となっています。

また、入力のモーダルとして動画を取り扱っているのもGeminiとAmazon Novaのみであるため、動画の要約などを行う場合には選択肢として上がるのではないでしょうか?

Amazon Nova の精度を確認してみる

では次に実際にAmazon Novaモデルを使ってみましょう。
今回はテキスト生成モデルとしてNova MicroとNova Proを、画像生成、動画生成を試すためにNova Canvas、Nova Reelを利用しました。

また、比較のためにClaude 3.5 Sonnet、GPT 4o、Gemini Proでのテキスト生成例も見ていきたいと思います。

実験環境としては以下のPlaygroundでそれぞれ検証を行いました。

モデル Playground
Amazon Nova Amazon Bedrock Playground
Claude 3.5 Sonnet Amazon Bedrock Playground
GPT 4o OpenAI Platform
Gemini Pro Google AI Studio

1.特殊な日本語の理解

さて、ではまず以下の簡単な質問でAmazon Novaで日本語の回答が出来るかを確認してみます。

質問

世界で一番高い山は?

Nova Micro

世界で最も高い山はエベレスト峰(Mount Everest)です。エベレストはヒマラヤ山脈にあり、ネパールと中国(チベット自治区)の国境にまたがっています。エベレストの標高は約8,848.86メートル(29,031.7フィート)で、地球上の最も高い地点として知られています。エベレストの登頂は多くの登山家にとって挑戦的な目標であり、その登山には高度病、悪天候、そして厳しい環境条件に対処する必要があるため、多くの準備と専門的なトレーニングが必要です。

Nova Pro

世界で一番高い山は、エベレスト山(Mount Everest)です。その標高は8,848.86メートルで、ヒマラヤ山脈に位置しています。エベレスト山はネパールとチベット(中国)の国境にまたがっており、ネパール側ではサガルマタ(Sagarmatha)、チベット側ではチョモランマ(Qomolangma)と呼ばれています。
エベレスト山は地球上で最も高い峰であり、多くの登山者にとって究極の挑戦とされています。しかし、その高さゆえに登頂は非常に危険を伴い、厳しい気象条件や高所障害などのリスクが常に存在します。

日本語での質問に対しても正しく返答出来ていることが分かります。

では難易度を上げて以下の質問をしてみましょう
こちらについては他のモデルとの比較も行ってみます。

質問

回文を1つ作成して

Nova Micro

回文例:「さくらさく」。

Nova Pro

もちろんです。以下は回文の例です:
「さけますけさ」
これは前後対称の文字列で、回文の条件を満たしています。


Claude 3.5 Sonnet

はい、以下の回文を作成しました:
「なるとるなる」
これは前から読んでも後ろから読んでも同じ言葉になります。

GPT 4o

もちろんです!こちらが回文です:
たけやぶやけた
この文は前から読んでも後から読んでも同じです。

Gemini Pro

たけやぶやけた

GPT 4o、Gemini Proのみが正しく回答出来ていて、他の問題では回文になっていませんでした。
何度か試しましたが、Nova Micro , Proでは回文は作成できませんでした。

また、以下が上記の回答を得るのにかかった時間になります。

モデル 回答時間(ms)
Nova Micro 208
Nova Pro 669
Claude 3.5 Sonnet 1447
GPT 4o 919
Gemini Pro 700

環境にもよると思いますが、Nova Microが最も早く、次点でNova Pro、Gemini Proと続く形でした。

2.画像認識

次に画像を入力して説明をさせてみた結果です。
以下が入力した画像になります

上記の画像を説明させた結果が以下になります。

Nova Pro

"この画像は、牧草地で放牧されている馬の群れを捉えた風景写真です。以下に画像の詳細な説明を示します:

画像の要素
馬の群れ:

画像の中央から右側にかけて、複数の馬が放牧されています。
馬の毛色は様々で、白、黒、芦毛(あしげ、薄茶色)、鹿毛(かげ、茶色)などがあります。
馬たちは草を食べており、お互いに近い距離で放牧されています。
牧草地:

馬がいる場所は広大な牧草地で、緑の草が豊かに生えています。
地面は平坦で、特に目立った障害物や起伏はありません。
背景:

牧草地の背後には、低い山が広がっています。山の斜面は緑の植生で覆われています。
山の頂上付近には雲がかかっており、青空とのコントラストが美しいです。
木々:

山の麓には、密集した木々が生えており、牧草地を囲むように立っています。
木々の種類は特定できませんが、葉が緑で、比較的高さのある木々です。
建物:

左側の背景には、赤い屋根の小さな建物が一つ見えます。これはおそらく農家や牧場の建物でしょう。
空:

空は青く、いくつかの白い雲が浮かんでいます。雲は主に山の頂上付近に集中しており、空の残りの部分は比較的澄んでいます。
雰囲気
この画像は、のどかな田舎の風景を捉えており、馬の群れが牧草地で自由に過ごしている様子が伝わってきます。
自然の美しさと馬の優雅な姿が調和しており、平和で穏やかな雰囲気を醸し出しています。"


Claude 3.5 Sonnet

この画像は美しい田舎の風景を捉えています。
前景には、広々とした緑の牧草地があり、そこで数頭の馬が放牧されています。馬たちは様々な色をしており、白、茶色、黒などの馬が見られます。馬たちは草を食べたり、のんびりと過ごしているように見えます。
中景には、豊かな緑の木々が生い茂る森があります。左側には赤い屋根の小さな納屋または小屋が見えます。
背景には、雄大な山が見えます。山の斜面は緑に覆われており、自然の豊かさを感じさせます。
空は明るい青色で、白い綿のような雲が浮かんでいます。全体的に、この風景は平和で牧歌的な雰囲気を醸し出しています。自然の美しさと静けさが印象的な画像です。

GPT 4o

この画像には、緑豊かな牧草地で草を食べる数頭の馬が写っています。背景には緑の木々と山が見え、青い空に白い雲が浮かんでいます。景色はとても穏やかで自然の美しさを感じさせます。左側には赤い屋根の小さな建物もあります。

Gemini Pro

"この写真は、牧歌的な田園風景に馬の群れが放牧されている様子を写したものです。

前景: 草の茂った緑の牧草地には、様々な色の馬が数頭います。白、茶、黒の馬が草を食べている様子が写っています。

中景: 牧草地と背景の森との間に、フェンスらしきものが見えます。

背景: 緑が生い茂った木々のラインが見えます。木々の色は濃い緑で、健康で豊かな印象を与えます。遠くには大きな山があり、緑の斜面が青く澄んだ空に映えています。空には、白い綿雲が浮かんでいます。左側には、赤い屋根の小さな小屋または納屋が見えます。

全体的な印象: この写真は静かで平和な田園風景を捉えています。鮮やかな緑の草、健康な木々、青い空、そして自由に草を食む馬たちは、のどかで牧歌的な雰囲気を作り出しています。自然光が十分に降り注ぎ、シーン全体に暖かみと生命力をもたらしています。

写真から読み取れるその他の詳細:

時間帯: 空の青さと雲の様子から、おそらく日中の晴れた日でしょう。

場所: 山と牧草地の風景から、おそらく山間部か高原地域でしょう。

雰囲気: 写真全体から、静寂、自然、調和といった雰囲気が伝わってきます。

この写真は、自然の美しさと動物たちの平和な共存を美しく捉えた一枚と言えるでしょう。"

Amazon Novaでも画像の内容を説明できていますが、他モデルと比べても、内容が詳細に説明されていました。
逆に、GPT 4o は、間違いはないですが、だいぶ内容が薄い結果となりました。

3.画像生成

次にAmazon Novaの画像生成モデルであるNova Canvasを試していきたいと思います。

こちらは、テキストもしくは画像を入力することで画像を生成することが可能です。

docs.aws.amazon.com

今回はテキストでの指示で画像を生成してみました。
残念ながらプロンプトは英語のみを受け付けるとのことですので、以下のプロンプトを入力として生成を行いました。

プロンプト

A tranquil riverside at dawn, shrouded in soft morning mist. The crystal-clear water flows gently, creating ripples that expand across the surface. Above, a flock of birds soars in graceful arcs, their reflections dancing on the water below. The surrounding trees sway softly in the breeze, embodying the rhythm of nature.

生成された画像が以下になります。

指示通りの風景を良い感じに生成することが出来ました。

4.動画生成

最後に動画生成モデルであるAmazon Nova Reelを使っていきます。
制限として以下のモノがありました。

  • プロンプト:英語のみ、512文字以内
  • ファイル形式:png,jpeg
  • その他: pngではアルファチャネルの対応不可
  • 動画時間:最大9秒

docs.aws.amazon.com

こちらの画像と以下のプロンプトを入力することで動画を作成することが出来ました。

入力した画像

プロンプト

Create a short video of several horses grazing peacefully in a lush green meadow under a clear blue sky, with gentle wind moving the grass.

動画はS3バケットに出力される形となっています。
自然な形の動画に仕上がっていました。


※容量の関係でサイズを縮小して表示しています。

まとめ

re: Invent 2024で発表のあったAmazon Novaについて紹介をしました。
マルチモーダルなテキスト生成から画像・動画生成まで一通りのニーズには対応しているモデルであり、コストパフォーマンスのよいものとなっていることが分かりました。
2025年にはさらに音声などにも対応するとのことですので、今後の発表にも注目していきたいですね。



Acroquest Technologyでは、キャリア採用を行っています。
  • Azure OpenAI/Amazon Bedrock等を使った生成AIソリューションの開発
  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • マイクロサービス、DevOps、最新のOSSクラウドサービスを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
www.wantedly.com