Yapay zeka teknolojisi sürekli olarak gelişiyor. Birçok kişi, yapay zekanın ödevlerine yardımcı olması gibi alanlarda kullanımını deneyimlerken, yapay zeka çok daha fazla şey yapabilir hale geliyor. Google, yapay zekanın potansiyelini tam anlamıyla ortaya çıkarmak için uzun yıllardır çalışıyor. İnternet devi en son gelişmelerden biri de AudioPaLM adını taşıyan yeni bir dil modelini tanıttı.. Bu model, dinleyebilme, konuşabilme ve çeviri yapabilme yetenekleriyle benzeri görülmemiş bir doğruluk sunuyor.
Google araştırmacıları, AudioPaLM adı verilen yeni bir dil modelini tanıttı. Bu model, inanılmaz bir doğrulukla dinleyebilme, konuşabilme ve çeviri yapabilme yeteneklerine sahip. AudioPaLM, PaLM-2 ve AudioLM olmak üzere iki mevcut modelin güçlü yönlerini birleştiren bir çok modlu mimariye sahip.
İlginizi Çekebilir: Google YouTube’da Oyun İçin Kolları Sıvadı
PaLM-2, metin tabanlı bir dil modeli olup metne özgü dil bilgisini anlama konusunda iyi. Öte yandan AudioLM, hoparlör kimliği ve tonu gibi paralinguistik bilgileri koruma konusunda mükemmel performans gösteriyor. AudioPaLM, bu iki modelin birleştirilmesiyle, PaLM-2’nin dil uzmanlığından ve AudioLM’nin dilbilimsel bilgi korumasından faydalanarak hem metin hem de konuşmanın daha kapsamlı bir şekilde anlaşılmasına ve üretilmesine imkan sağlıyor.
AudioPaLM, hem konuşmayı hem de metni temsil etmek için sınırlı sayıda ayrık belirteç kullanır ve ortak bir kelime dağarcığına dayanıyor. Bu da, konuşma tanıma, metin okuma sentezi ve konuşmadan konuşmaya çeviri gibi görevlerin tek bir mimari ve eğitim süreci içinde birleştirilebilmesini sağlıyor.
AudioPaLM’nin konuşma çevirisi alanında mevcut sistemlere göre daha iyi performans sergilediği söyleniyor. Hatta daha önce hiç karşılaşılmamış dil kombinasyonları için bile zero-shot speech-to-text çevirisi yapabiliyor.. Ayrıca, AudioPaLM, kısa konuşulan cümlelere dayalı olarak farklı diller arasında ses aktarımı gerçekleştirebilir ve farklı dillerdeki çeşitli sesleri yakalayabilir ve yeniden üretebilir.