Tehisintellekt (AI) on juba revolutsiooniliselt muutnud uuringuid selle kohta, kuidas valgud oma 3D-vorminguks kokku voltivad. Seda saavutust autasustati eelmise aasta Nobeli keemiaauhinnaga. Nüüd muudab tehisintellekt valkude järjestamist – identifitseerib valgud neid moodustavate aminohapete järjestusest. AI on sageli kiirem kui tavalised meetodid. Samuti võimaldab see teadlastel järjestada valke, mida nad pole kunagi varem näinud, mis on tavaline väljakutse meditsiinilises diagnostikas, keskkonnauuringutes ja arheoloogias.
Euroopa teadlased teatasid sel nädalal ajakirjas Nature Machine Intelligence, et InstaNova nime all tuntud tehisintellekt suudab tuvastada haavades patogeenseid valke ja mereveeproovides mikroobide pruulimisel toodetud tundmatuid valke. InstaNova pole üksi. Viimase 4 aasta jooksul on teadlased avalikustanud rohkem kui kaks tosinat valgu järjestuse AI-d. "Tundub selge, et see on koht, kuhu see valdkond läheb," ütleb Washingtoni ülikooli proteoomika AI arendaja William Noble.
Teiste valdkondade teadlased soovivad tööriistu innukalt rakendada. Näiteks evolutsioonibioloogid kasutavad neid iidsete valkude tuvastamiseks, mis võiksid paljastada tänapäeva inimeste ja meie väljasurnud sugulaste erinevusi. "See on juba kasulik," ütleb Kopenhaageni ülikooli paleoproteoomika ekspert Enrico Cappellini. "Ja see läheb lihtsalt paremaks ja paremaks."
Valkude maailm on palju keerulisem kui nende geneetiliste jooniste, DNA ja RNA maailm. Näiteks inimese genoom sisaldab ligikaudu 20 000 geeni, kuid need geenid võivad tekitada 10 miljonit erinevat valku, kuna DNA kopeeritakse RNA-ks või RNA transleeritakse valkudeks, mida saab lisada arvukate keemiliste modifikatsioonidega.
Bioloogid tuvastavad traditsiooniliselt valgud, jagades need lühikesteks fragmentideks, mida nimetatakse peptiidideks, millest igaüks koosneb viiest kuni 20 aminohappest. Seejärel kaaluvad teadlased need fragmendid massispektromeetris, viivad nende identiteedi kindlakstegemiseks kokku kümnetest andmebaasidest ühes teadaolevate peptiidide kaaludega ja ühendavad seejärel fragmendid täismolekuliks.
Kuid selle lähenemisviisiga on probleeme. Alustuseks võib öelda, et kuni 70% massispektroskoopia abil leitud peptiididest pole üheski andmebaasis. "Traditsiooniline proteoomika sarnaneb veidi Google'i otsinguga. Kui seda seal pole, siis te seda ei leia," ütleb Taani tehnikaülikooli proteoomikaekspert Timothy Patrick Jenkins. Ja kuna peptiidide andmebaasid kasvavad, kulub tabamuste leidmiseks arvutil üha rohkem aega.
Uued AI sekvenaatorid ei vaevu otsima vasteid tuntud peptiidide vahel. Selle asemel arvutavad nad välja kõigi potentsiaalsete peptiidifragmentide massid, mis võivad tuleneda teatud pikkusega peptiidi keemilistest modifikatsioonidest. Kui tehisintellekt leiab fragmente, mis vastavad tegeliku proovi fragmentidele, proovib ta need kokku panna täispikkadeks valkudeks.
Nende täpsuse suurendamiseks treenitakse valkude järjestamise AI-sid miljonite teadaolevate peptiidide ja nende kogunemise kohta teadaolevateks valkudeks. See võimaldab AI-del õppida kõige levinumaid aminohappeahelate kombineerimise viise. Jenkinsi sõnul sarnaneb lähenemisviis sellega, kuidas suured keelemudelid (LLM-id), nagu ChatGPT, treenivad süntaksireeglite õppimiseks tohutul tekstikogusel. Nii nagu LLM õpib, et "poiss põrkab palli" on tõenäolisemalt kehtiv lause kui "põrkab poisi palli", õpivad proteoomika algoritmid teatud tüüpi valgu süntaksit, mis annab antud peptiidide komplekti jaoks kõige tõenäolisema järjestuse.
2021. aastal avalikustasid Noble ja tema kolleegid Casanovo, esimese valkude järjestamise tehisintellekti, mis kasutab sügavat närvivõrku, nagu see, mis toidab ChatGPT-d. Ajakirjas Nature Communications 2024. aastal avaldatud artiklis teatas Noble'i meeskond, et tehisintellekt osutus osavaks uute peptiidide järjestuste tuvastamisel, mida koolitusandmetes ei olnud. Täiendavad katsed näitasid, et Casanovo identifitseeris suurepäraselt rakupinna peptiidid, mida immuunsüsteem vähki rünnates sihib, samuti tundmatuid valke mereveeproovides.
Nüüd on Jenkins ja tema kolleegid InstaNovaga nendele tulemustele tuginenud. Ka see kasutab sügava õppimisega närvivõrku. Kuid erinevalt varasematest tehisintellekti valkude järjestamise mudelitest lisab see strateegia, mida nimetatakse difusiooniks, lähenemisviisi, millel on ülelaetud tehisintellekti kujutise loomise mudelid, nagu DALL-E, ja valgu struktuuri mudelid, nagu RoseTTAFold või AlphaFold. Hajutusmudelid lisavad algselt sisendandmetele juhuslikku müra ja seejärel eemaldavad selle, et näha, kuidas protseduur väljundit teravdab. Tulemuse põhjal rakendavad nad müra eemaldamist laiemalt, et tulemust veelgi teravamaks muuta. Jenkins ja tema kolleegid teatavad oma Nature Machine Intelligence'i artiklis, et Casanovoga läbiviidud katses tuvastas InstaNova koos täiustusega InstanNova+ 42% rohkem peptiide üheksa organismi valkudest koosnevas laboris.
Kui meeskond rakendas oma tehisintellekti reaalses proteoomikas väljakutseid, leidis ta muude tulemuste hulgas, et tuvastas nakatunud jalahaavades 1225 peptiidi, mis on unikaalsed verevalgu albumiinile, mis on 10 korda rohkem kui tavaliste andmebaasiotsingutega. Nendest 254-st olid uued peptiidid, mida andmebaasides ei olnud. Teadlased kaardistasid ka teisi peptiide 52 bakterivalguga. Need ja teised tulemused näitavad, et InstaNova "suudab keerulisi proove analüüsida ja vastuseid leida," ütleb Catrine Soiberg, kes juhib Atlase Antikehade uurimis- ja arendustegevust – ettevõtet, mis aitab teadlastel kogu kudedes valke kaardistada. Noble, kes tutvus InstaNovaga varakult ja on selle juba läbi teinud, nimetab seda "tõeliseks edusammuks".
Teised jooksevad samuti sellega kaasa. Cambridge'i ülikooli proteoomika teadlane Matthew Collins on hiljuti katsetanud mitmeid tehisintellekti valkude järjestamise tööriistu, et analüüsida arheoloogilisi proove. Enamikul juhtudel on proovides sisalduvad valgud pärast eoneid maa all läbi teinud ulatuslikke keemilisi muutusi või on pärit väljasurnud taimedest ja loomadest, mistõttu on ebatõenäoline, et need on tavapärastes valkude ja peptiidide andmebaasides esindatud. Collinsi sõnul on mudelid eriti head räpane keskkonna jaoks, [kus] te ei tea, mis seal on.
Juba tehisintellekti tööriistad on võimaldanud tema meeskonnal tuvastada küülikuvalkude allkirju neandertallaste kohtades ja kala lihaste valke iidsetes Brasiilia pottides. "[Mudelid] on nii kasulikud, et oleme muutnud kõik oma uuringud nendega töötamiseks, " ütleb Collins. "Minu meelest on see samm muutus."
Lisateave: https://www.science.org/content/article/ai-revolution-comes-protein-sequencing
