1.
(bkz: multimodal ai)
ilk olarak, bir önceki web tarayıcımın microsoft edge copilot mode'unda tanıştığım, sonrasında da şimdiki web tarayıcım norton neo'nun yapay zekasında da olduğunu öğrendiğim, google gemini'da da olduğunu öğrendiğim bir yz (yapay zeka) inovasyonudur. yani herhalde chatgpt'de de vardır ve belki de ilk orada çıkmıştır. yani geçmişini araştırmadım ama oldukça yeni bir gelişme sanırım. ekleme: şimdi neo'ya sordum; chatgpt'nin çok modlu özellikleri ilk duyurulanlardan biriymiş ama başka modellerde de bağımsız olarak geliştirilmiş. yani "mucidi openai'dır" diyemiyoruz sanırım. temelleri 2021-2022 gibi atılsa da 2023'ten sonra hızla yaygınlaşmış.
multimodal'ın kontekste göre farklı anlamları olabiliyor. [multimodality bakınız'ı da vereyim de diğer; öğretim, dil bilimi, edebiyat, iletişim, disiplinler arası çalışmalar gibi alanlarda da ne anlamlara geldiğini anlattığım başlığını açarım belki bir zaman.] yapay zeka bağlamında; metin, görsel, video, audio gibi data türlerini işleyebilen ve yerine göre kombine edebilen ve tek modluya göre kontekst farkındalığı yüksek yz'lere deniyor bu. örneğin, microsoft edge'deki copilot mode'da youtube videolarının içindeki konuşma bağlamını anlayabilen bir yz var artık. siz, "videodaki 2. dünya savaşı'ndan bahsedilen yerine git" dediğinizde bunu yapabiliyor. şu anda kullandığım tarayıcıdaki neo'ya (yapay zekasının adı) sen böyle bir şey yapabiliyor musun dediğimde, bağlamını özetleyebilirim, içinde neler konuşulduğunu falan sana iletebilirim, sanırım tahmini ve çok yakın sürelerini de söyleyebilirim gibi bir yanıt almıştım. yani bunlar farklı yz modelleri olduğundan tam aynı şeyler yapmalarını bekleyemeyiz, ki copilot'ın o ilgili dakikaya/saniyeye atlaması olayı da zekadan çok fonksiyon yazılımına bağlı olsa gerek. ayrıca zamanla da bu fonksiyonlara da eklemeler ve modifikasyonlar mutlaka yapılacaktır diye düşünüyorum. bu arada sadece "audio" değil, yani videolardaki konuşmalarla da sınırlı değil herhalde. mesela yarışmacıların şu dansı yaptığı kısım... falan diye de talepte bulunursanız bunları da görebilirler sanırım bu çok modlu yetenekleriyle.
görsellerde de bu çok modlu yz olayı büyük bir gelişim gibi görünüyor. mesela salonunuzun bir fotosunu yz'ye yüklediğinizde, mühendislik üzerine ona yüklenen veri setlerinden yardım alarak fotoyu mimari bir perspektifle inceleyip, sıcak su geçecek boruların odanın/salonun şu kısmına kurulması/yerleştirilmesi daha uygun olur gibi önerilerde bulunabiliyormuş çok modlu yz teknolojili yapay zeka modelleri. ancak bu hala epey sınırlıymış. giderek yaygınlaşıp gelişiyormuş ama bu tarz yz becerileri.
ilk olarak, bir önceki web tarayıcımın microsoft edge copilot mode'unda tanıştığım, sonrasında da şimdiki web tarayıcım norton neo'nun yapay zekasında da olduğunu öğrendiğim, google gemini'da da olduğunu öğrendiğim bir yz (yapay zeka) inovasyonudur. yani herhalde chatgpt'de de vardır ve belki de ilk orada çıkmıştır. yani geçmişini araştırmadım ama oldukça yeni bir gelişme sanırım. ekleme: şimdi neo'ya sordum; chatgpt'nin çok modlu özellikleri ilk duyurulanlardan biriymiş ama başka modellerde de bağımsız olarak geliştirilmiş. yani "mucidi openai'dır" diyemiyoruz sanırım. temelleri 2021-2022 gibi atılsa da 2023'ten sonra hızla yaygınlaşmış.
multimodal'ın kontekste göre farklı anlamları olabiliyor. [multimodality bakınız'ı da vereyim de diğer; öğretim, dil bilimi, edebiyat, iletişim, disiplinler arası çalışmalar gibi alanlarda da ne anlamlara geldiğini anlattığım başlığını açarım belki bir zaman.] yapay zeka bağlamında; metin, görsel, video, audio gibi data türlerini işleyebilen ve yerine göre kombine edebilen ve tek modluya göre kontekst farkındalığı yüksek yz'lere deniyor bu. örneğin, microsoft edge'deki copilot mode'da youtube videolarının içindeki konuşma bağlamını anlayabilen bir yz var artık. siz, "videodaki 2. dünya savaşı'ndan bahsedilen yerine git" dediğinizde bunu yapabiliyor. şu anda kullandığım tarayıcıdaki neo'ya (yapay zekasının adı) sen böyle bir şey yapabiliyor musun dediğimde, bağlamını özetleyebilirim, içinde neler konuşulduğunu falan sana iletebilirim, sanırım tahmini ve çok yakın sürelerini de söyleyebilirim gibi bir yanıt almıştım. yani bunlar farklı yz modelleri olduğundan tam aynı şeyler yapmalarını bekleyemeyiz, ki copilot'ın o ilgili dakikaya/saniyeye atlaması olayı da zekadan çok fonksiyon yazılımına bağlı olsa gerek. ayrıca zamanla da bu fonksiyonlara da eklemeler ve modifikasyonlar mutlaka yapılacaktır diye düşünüyorum. bu arada sadece "audio" değil, yani videolardaki konuşmalarla da sınırlı değil herhalde. mesela yarışmacıların şu dansı yaptığı kısım... falan diye de talepte bulunursanız bunları da görebilirler sanırım bu çok modlu yetenekleriyle.
görsellerde de bu çok modlu yz olayı büyük bir gelişim gibi görünüyor. mesela salonunuzun bir fotosunu yz'ye yüklediğinizde, mühendislik üzerine ona yüklenen veri setlerinden yardım alarak fotoyu mimari bir perspektifle inceleyip, sıcak su geçecek boruların odanın/salonun şu kısmına kurulması/yerleştirilmesi daha uygun olur gibi önerilerde bulunabiliyormuş çok modlu yz teknolojili yapay zeka modelleri. ancak bu hala epey sınırlıymış. giderek yaygınlaşıp gelişiyormuş ama bu tarz yz becerileri.
devamını gör...