Biyoteknoloji Girişimi Profluent, Biyolojik Yapay Zekâda Ölçeklenme Yasalarını Kanıtladığını Söyledi

Profluent, protein tasarımı için yapay zekâ kullanan bir biyoteknoloji şirketi, biyoloji alanındaki yapay zekâ modellerinin performansında, daha önce dil işleme için geliştirilen yapay zekâ modellerinde gözlemlenenlere benzer “ölçeklenme yasalarını” ortaya koyduğunu söylüyor.

Bu bulgu, protein tasarımı için daha büyük yapay zekâ modelleri inşa etmenin ve bu modellere daha fazla veri sağlamanın, tahmin edilebilir şekilde daha iyi sonuçlar vereceği (ve küçük modellerin başaramadığı görevleri gerçekleştirme yeteneği kazandıracağı) anlamına geliyor.

Bu keşif, Profluent ve yatırımcılarına, şirketin nihai hedefi olan; bilim insanlarının doğal dil kullanarak bir proteinin sahip olmasını istedikleri özellikleri belirtip, modelin de tam olarak bu özelliklere sahip bir proteini oluşturacak DNA tarifini üretmesi vizyonuna ulaşabileceğine dair daha fazla güven verecek.

Profluent, bugüne kadar iki risk sermayesi turunda toplam 44 milyon dolar yatırım aldı. Yatırımcıları arasında Spark Capital, Insight Partners ve Air Street Capital bulunuyor. Şirketin mevcut değerlemesi ise açıklanmadı.

Profluent, büyük dil modellerinin arkasındaki teknikleri proteinlere uygulayan birçok girişimden sadece biri. Bunlar arasında en bilinenlerden biri, Google’ın ana şirketi Alphabet’in sahip olduğu ve Google DeepMind’dan ayrılan bir ilaç keşif girişimi olan Isomorphic Labs. DeepMind, DNA dizilimlerinden protein yapılarını tahmin etmek için yapay zekâ kullanımında öncülük etmişti. Diğer girişimler arasında ise EvolutionaryScale (Meta AI’dan ayrılan araştırmacılar tarafından kuruldu), Ginkgo Bioworks, Cradle Bio, Evozyne ve Protai yer alıyor.

Girişimler, yıllardır yeni ilaçların keşfini hızlandırmak ve ilaç geliştirme maliyetlerini düşürmek için yapay zekâyı bir araç olarak lanse ediyor. Ancak şu ana kadar, yapay zekâ ile keşfedilmiş hiçbir tedavi, insan klinik deneylerinin tamamını başarıyla geçerek pazara ulaşamadı. Bununla birlikte, artan sayıda aday, klinik deneylerin birinci ve ikinci aşamalarında yer alıyor. Ayrıca yapay zekâ, mevcut ilaçların farklı hastalıklar için yeniden kullanılmasında da başarıyla kullanıldı.

Şu anda, Profluent en son protein tasarım yapay zekâ modeli olan ProGen3‘ün, yalnızca tek bir giriş komutuyla, hedef proteinlere bağlanmada ticari olarak mevcut antikorlara eşit veya bazen çok daha etkili olan, yapısal olarak farklı ve mevcut patentleri ihlal etmeyen yeni antikorlar üretebildiğini gösterdi. Şirket bu antikorlara, açık kaynak yazılıma bir gönderme yaparak, “OpenAntibodies” adını verdi ve bunlardan 20’sinin DNA tariflerini tamamen telifsiz ya da tek seferlik bir lisans ücreti karşılığında kamuoyuna sunmayı planlıyor.

Şirket ayrıca ProGen3 kullanarak, Nobel Ödüllü CRISPR-Cas9 sisteminden daha kompakt ve potansiyel olarak kullanımı daha kolay gen düzenleme proteinleri tasarladığını belirtti. Cas9 proteini güçlü olsa da, oldukça büyük bir proteindir. Bu da, gen terapilerinin hastalara iletimi için kullanılan tasarlanmış virüslerin içine, Cas9’un yanı sıra gerekli diğer bileşenlerin de sığdırılmasını zorlaştırır ve Cas9’un yapabileceği düzenlemelerin kapsamını sınırlar. ProGen3 ile tasarlanan gen düzenleyiciler, şirketin ifadesine göre, bu sınırlamaların çoğunu aşmaktadır.

Profluent, geçen yıl OpenCRISPR-1 adını verdiği bir gen düzenleme proteinini yayımladı ve hem araştırmacılar hem de ticari uygulamalar için ücretsiz kullanılabilir hale getirdi. Bu protein, hâlihazırda birçok biyoloji araştırmacısı tarafından benimsenmiş durumda.

Şirket, bugün yaptığı duyuruyla birlikte çevrimiçi yayımladığı bir makalede, daha büyük “protein dil modellerinin” (temelinde büyük dil modellerine (LLM) benzer bir mimariye sahip olup, metin yerine protein verileriyle eğitilmiş modellerin) laboratuvar testlerinde işe yarayan, daha çeşitli protein setleri üretmede küçük modellere göre daha iyi performans gösterdiğini söyledi. Ayrıca, bu büyük modellerin, belirli özelliklere sahip proteinleri tercih eden araştırmacıların geri bildirimlerine daha hızlı uyum sağladığı ve böylece laboratuvar verilerine dayalı performanslarını çok daha hızlı geliştirdiği ifade edildi. Bu özellikler arasında proteinlerin ne kadar stabil olduğu ya da bir hedefe ne kadar hızlı ve sıkı bağlandıkları gibi özellikler bulunuyor.

Büyük dil modelleri (LLM’ler) (OpenAI’nin ChatGPT’si ve diğer üretken yapay zekâ sohbet robotlarının arkasındaki sistemler) için “ölçeklenme yasası” fikri ilk olarak 2020 yılında OpenAI araştırmacıları tarafından önerilmişti. Bu ölçeklenme yasaları, fizik yasaları gibi mutlak kurallar değil, deneysel verilerden elde edilen bir öneri niteliğindedir. Yapay zekâ ölçeklenme yasaları, bir dil modelinin parametre sayısını (yani ayarlanabilir düğümlerini) artırıp, ilk eğitim sürecinde ona çok daha fazla veri sağladığınızda, modelin performansının bu boyut artışıyla orantılı şekilde iyileşeceğini öne sürüyordu.

Bu ilk ölçeklenme yasalarının geçerli olduğu gözlemlenmişti, ta ki geçen yıla kadar. O dönemde birçok büyük yapay zekâ laboratuvarı, bir noktadan sonra model boyutunu artırmanın ve daha fazla veriyle eğitmenin getirilerinin azaldığını kabul etti. Çok daha büyük modeller, artık küçük öncüllerine kıyasla önemli ölçüde daha iyi değildi. OpenAI’nin eski baş bilim insanı Ilya Sutskever gibi bazı araştırmacılar, bunun nedeninin veri eksikliği olduğunu belirtti: Halihazırda tüm kamuya açık internet verilerinin taranmış olması ve ek olarak devasa veri setlerinin kullanılması nedeniyle, insan üretimi verilerin modellerin yeteneklerini daha fazla artıracak miktarda bulunmadığı ifade edildi.

Buna yanıt olarak, YZ şirketleri model eğitimi yerine “çalışma zamanı hesaplama” (test time compute) yöntemine yöneldi. Bu yöntem, eğitimli bir modele bir komut verildiğinde, modelin çok daha fazla olası çıktı üretmesi ve bu çıktılar arasından en iyi yanıtı seçmesi esasına dayanıyor. Bu süreç, eğitim sırasında modelin boyutunu artırmadan veya daha fazla veri gerektirmeden, modelin performansını artırmak için çıkarım (inference) anında daha fazla işlem gücü kullanıyor. OpenAI ve diğer araştırmacılar, “test anı hesaplama”nın da bir tür “ölçeklenme yasasına” uyduğunu, yani çıkarım anında daha fazla zaman veya işlem gücü kullanıldıkça performansın iyileştiğini söylüyor.

Profluent’ın biyolojik yapay zekâ modelleri için bulduğu ölçeklenme yasaları ise, Madani’ye göre, büyük ölçüde eğitimde kullanılan verilerin gücüyle ilgili. Madani, protein dil modellerinde, LLM’lerdeki gibi veri kaynağının tükenmesine henüz yaklaşılmadığını belirtiyor.

Örneğin, Google DeepMind’ın protein yapıları, protein-protein bağlanması ve küçük molekül-protein bağlanmasını tahmin edebilen AlphaFold 3 modeli, 214 milyon tam protein yapısı üzerinde eğitildi. Buna karşın Profluent, en büyük modelini yaklaşık 3,4 milyar protein dizisi üzerinde eğitti. Madani, bunun bir büyüklük mertebesi farkı olduğunu ifade ediyor. Ayrıca, LLM’lerden farklı olarak, kullanılabilecek çok daha fazla veri olduğunu söylüyor. Şu anda Profluent’ın yaklaşık 80 milyar protein dizisine erişimi olduğu ve bu miktarın yakında iki katına çıkmasının beklendiği belirtiliyor. Bu diziler hem kamuya açık hem de özel veri tabanlarından elde ediliyor.

Haberin Detayları İçin Tıklayınız.

Daha Fazla Benzer İçerik İçin Tıklayınız.

Hey merhaba
Tanıştığımıza memnun oldum.

Gelen kutunuza güncel içerikleri almak için kaydolun.

İstenmeyen posta göndermiyoruz! Daha fazla bilgi için gizlilik politikamızı okuyun.

Bir Cevap Yazın

Scroll to Top