OpenAI が GPT-4o を発表: 今後、ChatGPT はますます「彼女」に似てくるでしょう

OpenAI は、同社の主力製品を支える有名なモデルの新バージョンである GPT-4o を発表しました。チャットGPT。

昨日のライブ発表で、同社の最高技術責任者（CTO）であるミラ・ムラティ氏は、アップデートされたモデルが「著しく高速」であることを強調し、名前の「o」がどのように「」を表しているかを説明した。オムニ」と、マルチモダリティの進歩と「テキスト、ビデオ、オーディオを扱うスキル」の向上を示しています。

OpenAIは、GPT-4oの機能は「順次展開される」と発表したが、そのテキストと画像の機能はChatGPTですぐに利用可能になり、すべてのユーザーが無料でアクセスでき、有料ユーザーは「最大5倍の機能を楽しむことができる」としている。無料ユーザー。」

GPT-4o は、優れた応答性と画像、外国語、感情認識を処理する能力を特徴としており、過去の会話を「記憶」しながら、より流動的でパーソナライズされた人間と機械の対話を実現するように設計されています。

スカーレット、あなたですか？

OpenAI の CEO である Sam Altman 氏は、GPT-4o を次のように説明しました。ネイティブにマルチモーダル」。

この新しいモデルは、コンテンツを生成したり、音声、テキスト、画像を通じてコマンドを理解したりする能力が向上しており、何よりも優れています。音声モードの新機能ChatGPT で。
チャットボットが音声アシスタントとして機能できるようになりましたリアルタイムで応答する周囲の環境を観察すること。スカーレット・ヨハンソンが同様の特性を持つ AI に声を貸す映画「Her」への言及を即座に呼び起こす能力です。

以前は、モデルの音声モードは制限されており、一度に 1 つのプロンプトに応答でき、聞くことが許可されている内容に基づいてのみ動作できました。音声転写と音声合成に別のモデルを使用する必要があるため、平均 2.8 秒 (GPT-3.5) または 5.4 秒 (GPT-4) の遅延が必要でした。
GPT-4o はこれらのプロセスを統合し、入力と出力のより効率的な管理を可能にします。遅延はわずか質問と回答の間は 232 ミリ秒、それは人間の時代にかなり近づきます。

ライブデモンストレーション中、GPT-4o は数学的問題について提案を提供し、コンピューターコードを分析し、表情から感情を読み解く。
画像の誤解や一方的な取り組みなどの小さな不都合にもかかわらず、GPT-4o の可能性は非常に最先端であることが証明されています。

でセキュリティ規約, OpenAI は、トレーニングデータのフィルタリングやトレーニング後のモデルの動作の改善など、予防策を設計に組み込んでいます。
さらに、同社は外部の専門家と協力して、音声出力などの新機能に関連するリスクを特定し、軽減しました。

より良い世界を目指す代表団

昨日の発表の前に、OpenAI が発表する内容に関する期待に関して矛盾した報道がありました。Googleと競合するAI検索エンジン、Perplexity の統合、または新しく改良されたモデル GPT-5 も含まれます。

とにかくOpenAIはそれを持っています戦略的に運営されるこれらのニュースは、マウンテンビュー大手企業のメインカンファレンスである Google I/O の直前に発表され、今日午後 7 時に予定されている Gemini チームによるさまざまな AI 製品の発表が予定されています。

ライブイベント後のブログ投稿で、Altman 氏は OpenAI の歩みを振り返り、同社のビジョンの変化を認めました。当初の目標は「世界にあらゆる種類の利益を生み出す」ことでしたが、アルトマン氏は、現在は先進的な AI モデルを有料 API 経由で開発者が利用できるようにし、サードパーティが「それらを使用してあらゆる種類の素晴らしいものを作成できるようにする」ことに焦点を当てていると述べました。私たち全員がその恩恵を受けることになります。」

GPT-4o 機能は ChatGPT に直接実装され、アルファ音声モードが間もなく ChatGPT Plus 加入者に利用可能になります。
アルトマン氏が付け加えた

GPT-4o に加えて、OpenAI は ChatGPT Web インターフェイスの改善と、アプリのデスクトップMac 用で、Windows バージョンも今年後半にリリースされる予定です。
さらに、GPT ストアにアクセスしてカスタムチャットボットを作成および共有する機会など、これまでプレミアム加入者向けに予約されていた一部の機能が無料で利用できるようになります。