Meta’nın geliştirdiği güçlü yapay zeka dil modeli Llama 3.1 kullanıma sunuldu. Bu heyecan verici gelişmenin hemen ardından Intel (INTC); Gaudi, Xeon, Arc ve Core Ultra ürünlerinde Llama 3.1 modelini tam olarak destekleyeceğini duyurdu.
Intel’in CPU ve GPU’ları, Llama 3.1 büyük dil modeli ile geliştirilmiş yapay zeka performansı sunacak
Meta’nın (META) yeni büyük dil modeli (LLM) Llama 3.1, Nisan ayında çıkan Llama 3’ün yerini aldı. Bu bağlamda Intel; Gaudi, Xeon, Core işlemcileri ve Arc serisi ekran kartlarında Llama 3.1’in performans sonuçlarını paylaştı. Şirket, yapay zeka yazılım ekosistemi üzerinde çalışmaya devam ediyor. Yeni Llama 3.1 dil modeli; PyTorch, DeepSpeed, Hugging Face Optimum Libraries ve vLLM gibi çeşitli yazılım kütüphanelerinde destekleniyor. Bu sayede kullanıcılara veri merkezi, uç cihazlar ve istemci AI ürünlerinde Meta’nın büyük dil modeli için geliştirilmiş performans sunuluyor.
Llama 3.1, çok dilli büyük dil modelleri sunan bir koleksiyon olarak tasarlandı. Bu koleksiyon, farklı boyutlarda önceden eğitilmiş ve ayarlanmış modeller içeriyor. En büyük model olan 405 milyar parametreli versiyon; genel bilgi, yönlendirilebilirlik, matematik, araç kullanımı ve çok dilli çeviri gibi alanlarda en son teknolojileri sunuyor. 70 milyar parametreli model yüksek performans sağlarken 8 milyar parametreli model ise hızlı yanıt verme kapasitesiyle dikkat çekiyor.
Intel, Llama 3.1’in 405 milyar parametreli modelini Gaudi hızlandırıcıları üzerinde test etti. Bu hızlandırıcılar, maliyet etkin ve yüksek performanslı çıkarım işlemleri için özel olarak tasarlandı. Test sonuçları, farklı token uzunluklarında hızlı yanıtlar ve yüksek verim sağlandığını gösterdi ve Gaudi 2 hızlandırıcılarının performans yeteneklerini ortaya koydu. Ayrıca hızlandırıcılar, 70 milyar parametreli modelin 32k ve 128k token uzunluklarında daha hızlı performans sergiledi.
Test aşamasında 5. nesil Intel Xeon Scalable işlemci kullanıldı ve bu işlemci, çeşitli token uzunluklarında performans sergiliyor. 1K, 2K ve 8K token girişleriyle yapılan testlerde, gecikme süreleri genellikle BF16 ve WOQ INT8 testlerinde 40 milisaniye ile 30 milisaniyenin altında kalıyor. Bu, Intel Xeon işlemcilerin hızlı yanıt verme kapasitesini ve Intel AMX (Advanced Matrix Extensions) desteğiyle üstün yapay zeka performansı sunduğunu gösteriyor. 128K token girişlerinde ise gecikme süreleri her iki testte de 100 milisaniyenin altında kalıyor.
Intel Core Ultra işlemciler, özellikle Llama 3.1’in 8 milyar parametreli modelini oldukça hızlı bir şekilde işliyor. Core Ultra 7 165H işlemci, dahili Arc grafik kartlarıyla test edildiğinde 32, 256, 512 ve 1024 token girişlerinde gecikme süreleri 50 milisaniye ile 60 milisaniye arasında kalıyor. Ayrık bir GPU olan Arc A770 16GB Limited Edition ile yapılan testlerde ise her dört token giriş boyutunda da gecikme süresi yaklaşık 15 milisaniye civarında ölçülüyor bu da oldukça düşük bir seviyeyi gösteriyor.