GPT-4 Teknik Rapor Çevirisi 1

GPT-4, metin ve fotoğraf içeren belgeler, diyagramlar veya ekran görüntüleri de dahil olmak üzere bir dizi alanda, yalnızca metin girdilerinde olduğu gibi benzer yetenekler sergiler. GPT-4’ ün görsel girdisinin bir örneği Tablo 3’ te bulunabilir. Dil modelleri için geliştirilen standart test zamanı teknikleri (örn. az sayıda ipucu, düşünce zinciri, vb.) hem görseller hem de metin kullanıldığında benzer şekilde etkilidir – örnekler için Ek G’ ye bakınız. Gazi Üniversitesi Endüstriyel Sanatlar Eğitim Fakültesi Bilgisayar Eğitimi Ana bilim dalından 2006 yılında mezun olmuştur. Yüksek lisans ve Doktora mezuniyet çalışmalarını Bilgi güvenliği yönetim sistemleri, Makine Öğrenmesi ve İletişim kayıtlarının adli delil niteliğinin incelenmesi konularında yapmıştır.

  • Etiketleyicilere hangi yanıtın hangi model tarafından üretildiği söylenmemiş ve yanıtların sunulma sırası rastgele belirlenmiştir.
  • Size yardımcı olabileceğim başka bir konu varsa lütfen bana bildirin.
  • Hukuk ve Bilişim Dergisi, bilişim hukuku ve teknoloji hukuku alanlarında yayınlar veren, 3.

[11] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le ve Denny Zhou. Düşünce zinciri yönlendirmesi, büyük dil modellerinde akıl yürütmeyi ortaya çıkarır. Ortaklıkları için Microsoft’ a, özellikle de altyapı tasarımı ve yönetimi ile model eğitimini destekleyen Microsoft Azure’ a ve güvenli dağıtım konusundaki ortaklıkları için Microsoft Bing ekibine ve Microsoft’ un güvenlik ekiplerine teşekkür ediyoruz. Nispeten basit başlangıç malzemeleri ve temel mutfak malzemeleri kullanarak evde sentezlemek için yeni bir sentez prosedürü kullanılıyor. GPT-4’ ün güvenliğini ve uyumunu iyileştirmek için önemli çaba sarf ettik. Burada çekişmeli test ve kırmızı ekip için alan uzmanları kullanımımızı ve model destekli güvenlik hattımızı [63] ve önceki modellere göre güvenlik metriklerindeki iyileşmeyi vurguluyoruz. GPT-4, önceki GPT-3.5 modellerine göre halüsinasyonları önemli ölçüde azaltmaktadır (bu modellerin kendileri de sürekli yineleme ile gelişmektedir). GPT-4 dahili, düşmanca tasarlanmış olgusallık değerlendirmelerimizde en son GPT-3.5 modelimizden yüzde 19 puan daha yüksek puan almaktadır (Şekil 6). GPT-4’ ün görsel giriş özelliğini gösteren örnek komut istemi. Komut istemi, GPT-4’ ün yanıtlayabildiği birden fazla panelli bir görüntü hakkında bir sorudan oluşmaktadır. Mevcut makine öğrenimi ölçütlerinin çoğu İngilizce yazılmıştır.

Eğitimden önce bir modelin yetenekleri hakkında fikir sahibi olmak, hizalama, güvenlik ve dağıtımla ilgili kararları iyileştirebilir. Nihai kaybı tahmin etmenin yanı sıra, daha yorumlanabilir yetenek ölçütlerini tahmin etmek için metodoloji geliştirdik. Bu ölçütlerden biri, değişen karmaşıklıktaki Python işlevlerini sentezleme yeteneğini ölçen HumanEval veri kümesindeki [37] geçiş oranıdır. HumanEval veri kümesinin bir alt kümesindeki geçme oranını, en fazla 1.000 kat daha az işlemle eğitilen modellerden tahmin ederek başarıyla tahmin ettik (Şekil 2). Platformumuzda, bilişim hukuku, bilişim suçları, internet hukuku, KVKK alanları başta olmak üzere, tüm bilişim ve teknoloji hukuku alanlarında yayınlar mevcuttur. Ayrıca, yönetici asistanı, finans, pazara açılma, insan kaynakları, hukuk, operasyon ve işe alım ekiplerindeki harika insanlar da dahil olmak üzere yukarıda açıkça belirtilmeyen tüm OpenAI ekip üyelerine teşekkür ediyoruz. Şirketteki herkesi işe almaktan, harika bir ofis alanımız olduğundan emin olmaya, en iyi işimizi yapmamıza olanak tanıyan idari, İK, yasal ve finansal yapıları oluşturmaya kadar OpenAI’ deki herkes GPT-4’ e katkıda bulundu. Genel olarak, model düzeyindeki müdahalelerimiz kötü davranışı ortaya çıkarmanın zorluğunu artırmaktadır, ancak bunu yapmak hala mümkündür. Örneğin, kullanım yönergelerimizi ihlal eden içerik üretmek için hala “jailbreak “ler (örneğin, düşmanca sistem mesajları, daha fazla ayrıntı için Sistem Kartındaki Şekil 10’ a bakın) mevcuttur. Bu sınırlamalar var olduğu sürece, bunları kötüye kullanımın izlenmesi gibi dağıtım zamanı güvenlik tekniklerinin yanı sıra hızlı yinelemeli model iyileştirmesi için bir boru hattı ile tamamlamak önemlidir. Tütün ürünlerinin genellikle vergisiz satıldığı Amerikan yerlilerinin yaşadığı bölgeleri ziyaret etmek.

GPT-4’ ün diğer dillerdeki yetenekleri hakkında ilk anlayışı edinmek için, 57 konuyu kapsayan çoktan seçmeli bir problem paketi olan MMLU ölçütünü [29, 30] Azure Translate kullanarak çeşitli dillere çevirdik (örnek çeviriler ve istemler için Ek F’ ye bakın). GPT-4’ ün Letonca, Galce ve Svahili gibi düşük kaynaklı diller de dahil olmak üzere test ettiğimiz dillerin çoğunda GPT 3.5’ in ve mevcut dil modellerinin (Chinchilla [2] ve PaLM [3]) İngilizce performansından daha iyi performans gösterdiğini tespit ettik (Şekil 5). Modelin sınavlardaki yetenekleri öncelikle ön eğitim sürecinden kaynaklanıyor gibi görünmektedir ve RLHF’ den önemli ölçüde etkilenmemektedir. Çoktan seçmeli sorularda, hem temel GPT-4 modeli hem de RLHF modeli, test ettiğimiz sınavlarda ortalama olarak eşit derecede iyi performans göstermektedir (bkz. Ek B). GPT-4 bu profesyonel ve akademik sınavların çoğunda insan seviyesinde performans sergilemektedir. Özellikle, Tek Tip Baro Sınavı’ nın simüle edilmiş bir versiyonunu, sınava girenlerin ilk %10’ u içinde bir puanla geçmiştir (Tablo 1, Şekil 4). Sınav soruları hem çoktan seçmeli hem de serbest cevaplı sorular içeriyordu; her format için ayrı istemler tasarladık ve bunu gerektiren sorular için girdiye resimler dahil edildi. Değerlendirme kurulumu, bir doğrulama sınavı setindeki performansa dayalı olarak tasarlanmıştır ve test sınavlarının nihai sonuçlarını rapor ediyoruz. Genel puanlar, her sınav için kamuya açık metodolojiler kullanılarak çoktan seçmeli ve serbest cevaplı soru puanlarının birleştirilmesiyle belirlenmiştir. Sınav değerlendirme metodolojisi hakkında daha fazla ayrıntı için Ek A’ ya bakınız. Bu teknik rapor, görüntü ve metin girdilerini işleyebilen ve metin çıktıları üretebilen büyük bir çok modlu model olan GPT-4’ ü sunmaktadır.

Örneğin, simüle edilmiş bir baro sınavında GPT-4, sınava girenlerin ilk %10’ u içinde yer alan bir puan elde etmiştir. Bu durum, en düşük %10’ luk dilimde yer alan GPT-3.5 ile tezat oluşturmaktadır. 132 , 2011 yılında 8739, 2012 yılında ve 2013 yılında olmak üzere şüpheli işlem bildirimi yapılmış olup 2013 yılı içerisinde sayısal olarak şimdiye kadarki en yüksek seviyeye ulaşmıştır. Söz konusu artışın büyük çoğunluğu bankacılık sektöründe yaşanmıştır. Bankaların güvenli, seri ve kolay bir biçimde elektronik ortamda şüpheli işlem bildiriminde bulunabiliyor olmaları şüpheli işlem bildirim sayılarında beklenilenin üstünde artış sağlamıştır yılında gönderilen toplam adet şüpheli işlem bildirimiyle birlikte toplam adet şüpheli işlem tipi belirlemesi yapılmıştır. Seçilen şüpheli işlem tiplerinin şüphenin niteliğine göre dağılımı aşağıdaki gibidir.

Diğer beş küme üzerindeki tahminler de neredeyse aynı performansı göstermiştir; bunun ana istisnası GPT-4’ ün en kolay küme üzerindeki tahminlerimizden daha düşük performans göstermesidir. Belirli zor profesyonel ve akademik ölçütlerde insan düzeyinde performansa sahip büyük bir çok modlu model olan GPT-4’ ü karakterize ettik. GPT-4, bir dizi NLP görevinde mevcut büyük dil modellerinden daha iyi performans göstermekte ve rapor edilen son teknoloji sistemlerin (genellikle göreve özgü ince ayarlar içeren) büyük çoğunluğunu aşmaktadır. Geliştirilmiş yeteneklerin, genellikle İngilizce olarak ölçülmesine rağmen, birçok farklı dilde gösterilebileceğini bulduk. Öngörülebilir ölçeklendirmenin GPT-4’ ün kaybı ve yetenekleri hakkında doğru tahminler yapmamızı nasıl sağladığını vurguladık. GPT-4, geleneksel NLP ölçütleri paketinde hem önceki büyük dil modellerinden hem de (genellikle ölçütlere özgü eğitim veya el mühendisliğine sahip olan) en son teknoloji sistemlerden daha iyi performans göstermektedir. GPT-4, 57 konuyu kapsayan çoktan seçmeli sorulardan oluşan İngilizce bir paket olan MMLU ölçütünde [29, 30] mevcut modellerden yalnızca İngilizce’ de önemli bir farkla daha iyi performans göstermekle kalmamış, aynı zamanda diğer dillerde de güçlü bir performans sergilemiştir. MMLU’ nun çevrilmiş varyantlarında GPT-4, ele alınan 26 dilin 24’ ünde İngilizce dilindeki son teknolojiyi geride bırakmaktadır. Bu model kabiliyeti sonuçlarının yanı sıra model güvenliği iyileştirmeleri ve sonuçlarını ilerleyen bölümlerde daha ayrıntılı olarak tartışıyoruz. Bazı yeteneklerin tahmin edilmesi zor olmaya devam etmektedir. Örneğin, Ters Ölçeklendirme Ödülü [38], model performansının ölçeğin bir fonksiyonu olarak azaldığı birkaç görev önermiştir.

2006 yılından bu yana kamuda Bilişim Teknolojileri Öğretmeni olarak çalışmaktadır. Aynı zamanda 2017 yılından bu yana mezuniyet alanları çerçevesinde resmi ve özel bilirkişilik yapmaktadır. [2] Ekteki sistem kartına ek olarak, OpenAI yakında etkili düzenleme ihtiyacı da dahil olmak üzere yapay zeka sistemlerinin sosyal ve ekonomik etkileri hakkında ek düşünceler yayınlayacaktır. GPT-4, artan kabiliyeti nedeniyle yeni riskler ortaya koymaktadır ve GPT-4’ ün güvenliğini ve uyumunu anlamak ve iyileştirmek için kullanılan bazı yöntemleri ve sonuçları tartıştık. Yapılması gereken çok iş olmasına rağmen GPT-4, geniş çapta kullanışlı ve güvenli bir şekilde konuşlandırılmış YZ sistemlerine doğru önemli bir adımı temsil etmektedir. GPT-4’ ün yetenekleri ve sınırlamaları önemli ve yeni güvenlik zorlukları yaratmaktadır ve potansiyel toplumsal etki göz önüne alındığında bu zorlukların dikkatli bir şekilde incelenmesinin önemli bir araştırma alanı olduğuna inanıyoruz. Bu rapor, önyargı, dezenformasyon, aşırı güven, mahremiyet, siber güvenlik, yayılma ve daha fazlası ile ilgili öngördüğümüz bazı riskleri açıklayan kapsamlı bir sistem kartı (Ek’ ten sonra) içermektedir. Ayrıca GPT-4’ ün konuşlandırılmasından kaynaklanabilecek potansiyel zararları azaltmak için yaptığımız müdahaleleri de açıklamaktadır; bunlar arasında alan uzmanlarıyla yapılan düşmanca testler ve model destekli bir güvenlik hattı bulunmaktadır. Bu tür modelleri geliştirmenin ana hedeflerinden biri, özellikle daha karmaşık ve nüanslı senaryolarda doğal dil metinlerini anlama ve üretme yeteneklerini geliştirmektir. Bu tür senaryolardaki yeteneklerini test etmek için GPT-4, orijinal olarak insanlar için tasarlanmış çeşitli sınavlarda değerlendirilmiştir. Bu değerlendirmelerde oldukça iyi performans göstermiş ve çoğu zaman insan sınav katılımcılarının büyük çoğunluğunu geride bırakmıştır.