マルチモーダルAI「Google Gemini(ジェミニ)」【機能と特徴紹介】

お役立ち情報

マルチモーダルAI「Google Gemini(ジェミニ)」【機能と特徴紹介】

公開日 2024.2.7

良かったら”♥”を押してね！

本ブログでは、AIの動向に目を向けてよく記事にしています！

【超便利⁉】今話題のChat（チャット）GPTとは？【実際に使ってみた】

Google Bard(グーグルバード)とは？登録方法から使い方まで解説【日本語対応？】

【使ってみた】Microsoft Copilot(旧:Bing Chat)とは？話題のAI！機能検証！

そんな中、米国Googleは、高性能なAIモデル「Gemini(ジェミニ)」を12月6日(現地時間)に発表しました。

今回は「Gemini(ジェミニ)」についてご紹介したいと思います。

1 「Gemini(ジェミニ)」とは？
2 AIの種類
3 Geminiの特徴
4 まとめ

「Gemini(ジェミニ)」とは？

(引用元：https://japan.googleblog.com/2023/12/gemini.html)

「Gemini」とはGoogleが開発したマルチモーダルAIです。

マルチモーダルAIとは、複数の異なる情報源（モーダリティ）からの情報を統合して処理する人工知能（AI）システムを指します。

「Gemini」マルチモーダルAIですので簡単に言うと、テキスト、画像、音声、動画、プログラミングコードなど複数の情報をシームレスに理解することができます。

つまり、人間のように複数の情報を一度に理解することができると言えます。

AIの種類

先ほどマルチモーダルAIについては、「複数の情報を統合して処理することが出来るAI」とざっくり説明しましたが、「じゃあ、他のAIとはどう違うの？」と思った方も多いかもしれません。

ということで、「Gemini」について、詳しくお伝えする前に、いくつかAIの種類についてご紹介しますね。

自然言語処理AI

自然言語処理（Natural Language Processing, NLP）AIは、人間が使う自然言語（日本語、英語など）を理解し、解釈するための人工知能システムです。

この技術は、テキストデータを扱い、そのデータから意味を理解し、情報を抽出したり生成したりします。

代表的なものには、テキスト作成してくれるチャットシステム「ChatGPT」のGPT-4が挙げられます。

機械学習AI

機械学習（Machine Learning）は、コンピューターシステムがデータからパターンを学習し、そのパターンを用いて未知のデータを予測したり、意思決定したりする能力をもつ人工知能です。

機械学習では、プログラムが人間による厳密な規則や手順ではなく、データから自動的に学習するところが特徴です。

コンピュータビジョンAI

コンピュータビジョン（Computer Vision）は、コンピューターシステムが視覚情報を理解し、解釈する人工知能です。

画像や動画などの視覚データを解析し、その中から意味や特徴を抽出します。

分かりやすい例でいうと、カメラで人の顔を認識するシステムもこれにあたります。

自動運転、医療診断、監視システム、映像処理、ロボット工学など、多くの分野で応用されています。

マルチモーダルAI

さて、お待たせしました！

今回のテーマ、「Gemini」はマルチモーダルAIですね。

マルチモーダルAIとは、複数の異なる情報源（モーダリティ）からの情報を統合して処理する人工知能（AI）システムを指します。

簡単に言ってしまえば、人間のように様々な情報を総合して処理する能力があります。

この章でご紹介してきた様々なAIは、特定分野のデータ処理に特化していますが、マルチモーダルAIは複数のデータを組み合わせて一度に処理するところが大きな違いです。

例えば、動画内の音声と映像からの情報を組み合わせて何が起きているかを理解することができます。

マルチモーダルAIとは反対に一つの情報の処理に特化した知能は、シングルモーダルAIと呼ばれます。

Geminiの特徴

ざっくりとマルチモーダルAIのことが分かってきたところで、「Gemini」の特徴をご紹介していきます。

3つのモデル

Geminiには３つのモデルがあります。

■Gemini Ultra ：非常に複雑なタスクに対応する、高性能かつ最大のモデル

■Gemini Pro ：幅広いタスクに対応する最良のモデル

■Gemini Nano ：デバイス上のタスクに最も効率的なモデル

Gemini UltraとGemini Proは今年公開されます。

最上位モデルのGemini Ultraは2024年に公開予定とのことです。

マルチモーダルかつ論理的な判断が可能

Geminiがマルチモーダルだということをお伝えしてきましたが、その上、論理的な判断が可能であると評価されています。

Googleが公式に発表したデモ動画では、描いた絵に合った音楽が生成されるデモが公開されました。

例えば、ギターの絵を描いた場合、アコースティックギターだと判断し、そこにアンプの絵を描くとエレキギターだと判断しました。さらに、ヤシの木を足すと南国風の音楽を鳴しました。

もちろん画家が描いたようなリアルな絵ではなくて、簡単なイラストから判断しているので見事ですよね！

このように、Geminiは推論に優れていて、論理的な判断ができます。

「Google Pixel」に搭載Gemini Nano

Gemini Nanoはスマートフォンで活用することを想定して開発されています。

Gemini NanoはGoogleのスマートフォン、「Google Pixel」に搭載されます。ネットワークがなくてもAI機能を使うことができるようになるとのことです。

まずは、「Pixel 8 Pro」限定のアップデートが行われ、「要約」機能を搭載するそうです。搭載される「要約」機能は、音声から文字起こしをして、さらに「要約」までしてくれるという機能です。会議などで大活躍しそうな予感です！

しかも、スマートフォンに高性能なAIを搭載するのは、他社との差別化を図るという点でもとても有効ですよね。

「Google Bard」の精度を高くするGemini Pro

Gemini Proは会話型AIの「Google Bard」に組み込まれ、「Google Bard」の精度をさらに高くするとのことです。

Gemini ProがGoogle Bardに組み込まれると以下のような作業の効率が上がります。

・理解と要約

・推論

・ブレインストーミング

・文章編集

・計画の立案　など

現在、Gemini Proが組み込まれたGoogle Bardは、英語での会話のみ対応しているそうです。

今後数カ月以内に、新しい場所や言語のサポートを追加するとのことですので、日本語の対応が待ち遠しいですね！

まとめ

■「Gemini」は複数の情報を総合的に判断することができるマルチモーダルAI

■推論にも優れているので、色々な場面で活躍しそう

■スマートフォンにも搭載される予定

人間が自然とできる「推論」ですが、AIにはとても難しいことだと言われていました。

しかし、「Gemini」には優れた「推論」能力があるとのことです。

私たちから見たら短期間ですごく大きく発展していますよね！すごいです！

WWGブログ編集部では、これからもAIの進化を紹介していく予定です。

良かったら”♥”を押してね！

shoppingmode関連タグ

おすすめ記事のご紹介

各種SNSでも情報発信中♪

WWGスペース名古屋のホームページ制作会社が発信するオウンドメディア無限の情報が集う星

検索