Derinlemesine: GPT-4o hakkında merak edilen her şey ve daha fazlası

Posted by

ChatGPT ve Dall-E ile başlayan serüven Sora ile devam ederek büyüme devam ediyor. Bu yapay zeka araçlarının arkasında olan OpenAI ise araçlarına güç veren modellerini sürekli olarak geliştirmeyi sürdürüyor. Bu bağlamda yapay zeka devi kısa süre önce ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi GPT-4o‘yu resmen duyurdu. GPT-4o’nun ne olduğunu, bu modelin neler yapabileceği, yeteneklerini ve çok daha fazlasına değiniyoruz:

OpenAI GPT-4o nedir, ne yapar?

  • GPT-4 seviyesinde zeka deneyimi
  • Hem modelden hem de internetten yanıtlar alabilme
  • Verileri analizi ve grafik oluşturabilme
  • Çektiğiniz fotoğraflar hakkında sohbet edebilme
  • Video aracılığıyla sohbet edebilme
  • Gerçek zamanlı çeviri
  • İnsan benzeri ses, tonlama, mimiklendirme
  • Özetleme, yazma veya analiz yardımı için dosya yükleme
  • GPT Store erişimi ve GPT’leri kullanma
  • Memory (Önceki konuşulanları hatırlama) ile daha derin iletişim kurabilme

OpenAI’a göre GPT-4o, çok daha doğal insan-bilgisayar etkileşimine doğru atılmış bir adımdır; metin, ses ve görüntünün herhangi bir kombinasyonunu girdi olarak kabul bu model aynı şekilde metin, ses ve görüntü çıktılarının herhangi bir kombinasyonunu üretebiliyor. Bu arada isimlendirmedeki “o” harfi “omni” anlamına geliyor ve modelin metin, konuşma ve videoyu işleme yeteneğine atıfta bulunuyor.

Gelişmiş metin, ses ve görüntü muhakemesi

Temel anlamda GPT-4o, “GPT-4 düzeyinde” zeka sağlıyor ancak GPT-4’ün birden fazla modalite ve ortamdaki yeteneklerini geliştirmeyi amaçlıyor. Hatırlanacağı üzere GPT-4 Turbo, görüntü ve metin kombinasyonuyla eğitilmişti ve görüntülerden metin çıktısı üretmek ve bu görüntülerin içeriğini tanımlamak gibi görevleri yerine getirebiliyordu. GPT-4o ise sürece konuşmayı da ekliyor.
Dolayısıyla GPT-4o ile ChatGPT, dijital sesli asistan haline bürünmüş oluyor. “Peki bu tam olarak ne işimize yarayacak? Zaten ChatGPT konuşmuyor muydu?” dediğinizi duyar gibiyim. Evet, ChatGPT uzunca bir süredir sohbet robotunun yanıtlarını metinden sese modeli kullanan bir ses moduna sahipti ancak GPT-4o bunu güçlendirerek kullanıcıların ChatGPT ile bir asistan gibi etkileşime girmesine olanak tanıyor.
Örneğin, ChatGPT’ye bir soru sordunuz ve ChatGPT sorunuza cevap vermeye başladı ancak hemen soruya bir ek yapmak veya soruyu yanlış anlayan aracı düzeltmek istediniz. Bu senaryoda eskiden ChatGPT’nin yazmasının veya konuşmasının bitmesini beklemek gerekiyordur. Ancak GPT-4o destekli ChatGPT ile aracın sözünü kesebilir ve yeni bir etkileşim başlatabilirsiniz.

İnsan düzeyinde sesli yanıt

OpenAI, modelin “gerçek zamanlı” yanıt verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak “bir dizi farklı duygusal tarzda” (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak firma, ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebilir. Tek başına bu süre bir şey ifade etmiyor, o yüzden; bu, bir insanın ortalama yanıt süresiyle eş.

GPT-4o’dan önce, ChatGPT ile konuşmak için Ses Modunu ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikme süreleriyle kullanabiliyorduk. Bu eski modellerde Ses Modu için aslında üç ayrı modelden oluşan bir süreç kullanılıyordu: basit bir model sesi metne dönüştürüyor, GPT-3.5 veya GPT-4 metni alıyor ve metin çıktısı veriyor ve üçüncü bir basit model bu metni tekrar sese dönüştürüyordu. Haliyle bu süreçte bilgi kaybı fazla olurken aynı zamanda tonlamalar veya kahkaha, şarkı söyleme ve duygular ifade edilemiyordu.

Her şey için tek model

GPT-4o ile metin, görüntü ve seste uçtan uca tek model kullanılıyor, yani tüm girdiler ve çıktılar aynı sinir ağı tarafından işleniyor. Bu firma için de bir ilk zira daha öncekiler tüm bu modaliteleri birleştiremiyordu. Tüm bu gelişmeye rağmen OpenAI, modelin neler yapabileceğini ve sınırlarını keşfetme konusunda henüz başlangıç aşamasında olduklarını söylüyor.

Görüntü analizi ve cepte taşınan bir tercüman

GPT-4o, matematik sorularını da yapabiliyor.

GPT-4o ayrıca ChatGPT’nin görme yeteneklerini de geliştiriyor. Bir fotoğraf – ya da bir masaüstü ekranı – verildiğinde ChatGPT artık en detay sorulara (örneğin, “bu kişinin giydiği gömleğin markası ne?” gibi) hızlı yanıtlar verebiliyor. OpenAI CTO’su Mira Murati, bu özelliklerin gelecekte daha da gelişeceğini söylüyor.

An itibariyle GPT-4o farklı bir dildeki bir menünün resmine bakıp onu tercüme edebilirken, gelecekte bu model ChatGPT’nin örneğin canlı bir spor karşılaşmasını izleyip size kuralları açıklamasına olanak tanıyabilecek. Yani yanınızda bir nevi tercüman taşıyormuş gibi olacaksınız. Zira çeviriler, yukarıda da dediğimiz gibi anlık olarak gerçekleşiyor.

OpenAI, GPT-4o’nun daha çok dilli olduğunu ve 50 farklı dilde performansının arttığını da ekliyor. Şirket, OpenAI’ın API’sinde GPT-4o’nun GPT-4’ten (özellikle GPT-4 Turbo) iki kat daha hızlı, yarı fiyatına ve daha yüksek hız limitlerine sahip olduğunun altını çiziyor.

Ses şu anda tüm müşteriler için GPT-4o API’sinin bir parçası değil. OpenAI, kötüye kullanım riskini gerekçe göstererek, GPT-4o’nun yeni ses yeteneklerini önümüzdeki haftalarda bazı ortaklara sunmayı planladığını söylüyor.

Geleneksel ölçütlere göre GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performans gösterirken çok dilli, ses ve görüntü yeteneklerinde yeni yüksek puanlara erişiyor. Akıl yürütme performansında ise yeni bir barem (%88,7) belirliyor.

GPT-4o’nun kullanılabilirliği

OpenAI, GPT-4o’yu derin öğrenmenin sınırlarını bu kez pratik kullanılabilirlik yönünde zorlamak için atılan bir adım olarak görüyor ve aynı zamanda GPT-4o’nun yeteneklerinin yinelemeli olarak kullanıma sunulacağını söylüyor.

GPT-4o’nun metin ve görüntü özellikleri bugün ChatGPT’de kullanıma sunulmaya başlanıyor. GPT-4o’yu ücretsiz katmanda ve Plus kullanıcıları için ise 5 kata kadar daha yüksek mesaj limitleriyle kullanıma sunuluyor. Önümüzdeki haftalarda OpenaI, ChatGPT Plus’ta GPT-4o ile Ses Modu’nun yeni bir sürümünü alfa olarak kullanıma alacak.

Geliştiriciler de artık GPT-4o’ya API’de bir metin ve görüntü modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo’ya kıyasla 2 kat daha hızlı, yarı fiyatına ve 5 kat daha yüksek hız limitlerine sahip. GPT-4o’nun yeni ses ve video özelliklerine yönelik desteği önümüzdeki haftalarda API’deki küçük bir gruba sunulacak.

Filmlerin gerçekle buluşması

Bir AI ile duygusal bağ kuran bir kişiyi anlatan film, Her.

CEO Sam Altman, yaptığı açıklamada vurgulamak istediği ilk şeyin insanlara yetenekli yapay zeka araçlarını ücretsiz olarak sunmak olduğunu belirtti. Altman, istedikleri şeyin bir yapay zeka oluşturmak ve bunu insanların kullanımına sunarak onların yaratacakları şeyleri izlemek olduğunu aktarıyor. Bunu yaparken de ücretsiz kalınacağını söylüyor. Ancak yine de kendilerinin bir işletme olduğunu ve süreç içerisinde (ve mevcut durumda) ücretlendirilecek çok şeyin olacağının altını çiziyor.

Altman, yeni GPT-4o hakkında ise şimdiye kadar kullandığı iyi bilgisayar arayüzü olduğunu söylüyor. CEO, modellerinin filmlerdeki yapay zeka gibi hissettirdiğini ve bunun gerçekten yaşanıyor oluşunun şaşırtıcı olduğunu söylüyor. Altman’ın atıf yaptığı filmin “Her” olduğunu düşünüyorum.

GPT-4o ile yapılan örnekler

Teknik detaylar ve genel bilgilerden sonra şimdi de OpenAI’ın GPT-4o hakkında paylaştığı bazı örnek videolara göz atalım. Zira bu videolar yukarıda yazdıklarımızın tamamını en ideal şekilde sizlere gösteriyor. Örneğin hemen üstteki köpek videosu. Kullanıcı GPT-4o’ya köpeğini göstererek “seni birisiyle tanıştıracağım” diyor. GPT-4o’nun verdiği tepkiler ise bir insandan farksız, tonlamalar , benzetmeler yapıyor ve adını soruyor. Adını öğrendikten sonra ise ona adıyla seslenmeye devam ediyor.

Hemen üstteki bir diğer örnekte ise etkileşim kuran ve şarkı söyleyen iki GPT-4o’yu görüyoruz. Bunlardan birisi kamera aracılığıyla görebiliyor diyesi ise göremiyor. Görme yeteneğine sahip olan ise diğerine çevreyi yardımsever bir şekilde açıklayarak tanıtıyor. Ve evet, birlikte şarkı da söylüyorlar.

Bu, görme engelli bireyler için harika bir kullanım örneği olabilir gibi duruyor değil mi? Zaten OpenAI da bunu o amaçla kullanıyor. Firma, Be My Eyes girişimi ile bu konuda yakından çalışıyor.

GPT-4o ile gerçek zamanlı çeviri de artık bir “gerçeklik” haline geliyor. Yukarıdaki örnekte İngilizce-İspanyolca ve İspanyolca-İngilizce şeklinde anlık olarak doğal bir dilde ve insan gibi çeviri yaptığını görüyoruz.

Bir diğer örnekte ise GPT-4o ile ninniler ve fısıltıların nasıl işlediğini görüyoruz. Kullanıcı bir patates hakkında ninni anlatmasını istiyor, ardından bunu fısıltı tonuyla aktarmasını söylüyor. Hatta GPT-4o, anlatımında aşırı fısıltıya kaçtığında ise ona biraz daha yüksek tona çıkmasını söylüyor. Elbette tüm bunlar olurken verilen yanıtlar ve gülümseme ifadeleri de kullanıcıya aktarılıyor.

Evet, şaşırtıcı olmayacak şekilde GPT-4o aynı zamanda süper alaycı da olabiliyor.

GPT-4o’yu tek bir görüntünün birden fazla görünümünü oluşturmak için bile kullanılabilir ve bu görüntüler 3 boyutlu nesnelere dönüştürülebilirsiniz.
Benzer şekilde görsel anlatılar da oluşturmak mümkün. Üstelik bunu yaparken yinelemeli olarak yapabiliyorsunuz. Hemen üstteki görselde günlük yazan bir robotun birinci şahıs görünümü resmediliyor. Üç adımda günlük girişlerindeki ilerleyiş önceki temel alınarak devam ettirliyor.

Leave a Reply

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir