ほんの 10 年前までは、機械学習の小さな部分が私たち全員のデジタル生活に静かに浸透していました。
私たちは主に、次のような小さな「トリック」について話しています。被験者の特定カメラや文の定式化有用性が疑わしい。
今日、私たちが生成人工知能の頂点に近づくにつれ、それに関する噂がますます大きくなってきています。 Google が Gemini と呼ばれる新しい「マルチモーダル」モデルで水準を引き上げるのは、このシナリオです。
Google は 2023 年 12 月 6 日に Gemini をデビューさせ、次の 3 つのサイズを提供しました。ウルトラより強力であり、今のところ広範な商用利用は控えられていますが、プロeナノ後者はモバイルデバイスでの実装に特化しています。
近年、この検索大手は、OpenAI、GPT、および AI を利用したサービスが中核事業にもたらす潜在的な脅威をめぐる誇大広告への対応に苦戦してきた。
を管理する能力があれば、インターネットから得られる膨大な情報、ユーザーは 1 つの Web ページ上の 1 つの質問で必要な回答を得ることができました。
何よりも、Google 検索よりもすべてが簡単かつ迅速になります。
この考えはマウンテンビュー地域で懸念を引き起こしており、特に顧客が多額の費用を払っている広告から逃れる可能性のある多数の視線を考慮すると、懸念が高まる。
神話と偽りの神々の間で
現在までのモデルは、大規模な言語モデルLLM は、入力メディアを分析して、特定のタイプの言説を特定のメディア形式に拡張することによって機能します。
たとえば、OpenAI の Generative Pretrained Transformer または GPT モデル ハンドルは、テキスト間の交換一方、DALL-E はテキスト プロンプトを画像に変換します。
各 LLM は、1 種類の入力と 1 種類の出力に合わせて調整されます。
ここでマルチモダリティの話が登場します。Gemini はテキスト (コードを含む)、画像、ビデオ、オーディオを受信し、何らかの指示があれば、これらの形式のいずれかで新しいものを返すことができます。
言い換えれば、マルチモーダル LLM は理論的には、複数の専用の単一専門 LLM のタスクを実行できます。
このプレゼンテーションで得られるのは、考え方のニュアンスこのタイプの適切にトレーニングされたモデルを使用すると、どれほど洗練されたインタラクションが可能になるか。
ただし、問題のビデオ、そして何よりもそのエレガントな編集は誤解を招きやすいため、警告する価値があります。
実際には、これらのやり取りはどれもそれほど早くは起こりません画面に表示されているとおりです。
Googleも認めているように、ビデオデモは音声による提案を伴ってリアルタイムで実行されたわけではありません。代わりに、生の映像からの静止フレームが使用され、その後ジェミニが応答するテキストの提案が挿入されました。
彼の目的は、画像認識に基づいて音声による会話の提案を行う生来の能力を含む、ジェミニのマルチモーダルな能力を紹介することでした。
これは、他のチャットボットと比較した場合、Google の提案と大きく異なる点となります。
ユニークなのは、それが提供する未来の視点です。つまり、個人がジェミニと滑らかな音声会話を行い、周囲で何が起こっているかを観察し、リアルタイムで応答を得ることができる機能です。
小さなプレビュー
Gemini Pro と呼ばれるこのモデルのバリエーションが現在リリースされていますBard チャットボット内に統合。
GoogleのスマートフォンであるPixel 8 Proを所有するユーザーは、すでにGeminiのバージョンであるNanoを使用して、WhatsApp上で人工知能が提案するテキスト応答を生成できるようになっているが、間もなくカリフォルニアの企業が開発した仮想キーボードであるGboard上でも利用できるようになる。
現時点では、Bard で利用できるのは 1 つだけです短縮版Gemini のバージョンですが、テキスト入力に限定されていたオリジナルの Bard と比較すると、依然として大きな進歩を示しています。
現在、Gemini は英語でのみ利用可能ですが、Google は近い将来他の言語のサポートを導入する予定であることに注意してください。
Google の以前の生成 AI アップデートと同様に、Gemini Pro は欧州連合ではまだ利用できません。
Gemini Pro にアクセスするには、米国やオーストラリアなど、Gemini がすでに使用可能な国の IP アドレスを提供する VPN を使用する必要があります。その時点で必要なのは Google アカウントだけです。