マルチモーダルに対応したGoogleの生成AI「Gemini」の詳細を発表

 Googleは2023年12月06日、生成AI「Gemini」の詳細を発表した。Gemini は、Alphabet社の中でも最大かつ最も有能な AI モデルとのこと。このAIモデルは3種類に分けられる。

・Gemini Ultra…非常に複雑なタスクに対応する、当社最大かつ最も有能なモデル。

・Gemini Pro…幅広いタスクに対応するための最良のモデル。

・Gemini Nano…オンデバイス タスク向けの最も効率的なモデル。

データセンターだけではなく、Gemini Nanoに至ってはスマホなどでも動くので、幅広いハードウェアで使用可能なAIとなっている。

また、GoogleのDeep Mindのデミス・ハサビスCEOは「マルチモーダルになるようにゼロから構築されており、テキスト、コード、オーディオ、画像、ビデオなどのさまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。」と語っている。

Gemini Ultraのスコアは90.0%で、数学、物理学、歴史、法律、医学、倫理など57の科目を組み合わせて世界知識と問題解決能力の両方をテストするMMLU(大規模マルチタスク言語理解)において、人間の専門家を上回った最初のモデルとのこと。

Gemini 1.0の洗練されたマルチモーダル推論機能は、複雑な文字情報や視覚情報を理解するのに役立つ。そのため、膨大なデータの中から見分けることが難しい知識を発見することに長けている。

また、テキスト、画像、音声などを同時に認識し、理解するように訓練されているため、ニュアンスの異なる情報をよりよく理解し、複雑なトピックに関する質問に答えることができる。そのため、数学や物理のような複雑な科目の推論を説明するのが特に得意なんだとか。

それだけではなく、Geminiの最初のバージョンはPython、Java、C++、Goといった世界で最も人気のあるプログラミング言語を理解し、説明し、高品質のコードを生成することができる。言語を越えて動作し、複雑な情報を推論するその能力は、コーディングのための世界有数の基礎モデルとなっている。

併せて12月06日、Googleは公式ブログ内にてPixel 8 ProにGemini nanoを搭載することを発表した。

■参照

Introducing Gemini: Google’s most capable AI model yet

マルチモーダルに対応したGoogleの生成AI「Gemini」の詳細を発表」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です