OpenAI, dönüm noktası niteliğindeki bir gelişmeyle ses, görüntü ve metni aynı anda ve gerçek zamanlı olarak işlemek üzere tasarlanmış son teknoloji bir yapay zeka modeli olan GPT-4o’yu tanıttı. “Omni” için “o” olarak adlandırılan bu öncü model, insan-bilgisayar etkileşimi alanında önemli bir sıçramayı temsil ediyor.
Daha önce haber yaptığımız ses modelini sınırlı bir geliştirici grubuna açarak geri bildirim toplamıştı. Bu sefer ise zamanla tüm kullanıcılara açılacak.
Yeni model, 232 milisaniye gibi kısa bir sürede ses girdilerini yorumlama kabiliyetiyle hızlı yanıt verecek şekilde tasarlandı ve insan konuşma hızlarıyla karşılaştırılabilir durumda. Yeni model birden fazla dilde metin işleme konusunda öncekileri geride bırakarak üstünlük sağlarken ses ve görsel anlama konusunda da dikkate değer bir beceri sergiliyor.
Sesli etkileşimler için karmaşık ardışık düzenlere dayanan önceki modellerin aksine GPT-4o; metin, görüntü ve ses işlemeyi tek bir sinir ağında bütünleştiriyor. Bu entegrasyon, daha önce aktarılması zor olan ton ve bağlam gibi incelikleri yakalayarak daha iyi etkileşimlere olanak tanıyor.
Güvenlik açısından GPT-4o, çeşitli yöntemlerinde riskleri azaltmak, sorumlu ve güvenli kullanım sağlamak için yeni yerleşik önlemler içermekte. OpenAI, bu gelişmiş teknolojiyle ilişkili potansiyel riskleri belirlemek ve ele almak adına kapsamlı değerlendirmeleri elde edebilmek için gerekli çalışmaların yürütüldüğünü söylüyor.
GPT-4o bugün erişime açılıyor
Başlangıçta metin ve görüntü özelliklerine odaklanan ve yakın gelecekte ses işlevselliğini de aktifleştirmeyi planlayan OpenAI, yeni modeli kullanıma sunmaya bugün itibaren parça parça başlayacak. Geliştiriciler GPT-4o’ya API’ler aracılığıyla erişebilecek ve önceki modellere kıyasla daha yüksek verimlilik ve uygun fiyattan faydalanabilecek.
Yapay zeka ortamı gelişmeye devam ederken model, gelişmiş yapay zekayı daha geniş bir uygulama yelpazesi için erişilebilir ve pratik hâle getirme konusunda önemli bir ilerlemeyi temsil ediyor. Bu yenilik, gelişmiş kullanıcı deneyimlerinin önünü açıyor ve çeşitli platformlarda yapay zeka destekli etkileşimler için yeni olanaklar sunuyor.