Atvirojo kodo LLM pasiekė Europos skaitmeninį suvereniteto planą

Didelių kalbų modeliai (LLMS) praėjusią savaitę nusileido Europos skaitmeninio suvereniteto darbotvarkei su sprogimu, nes pasirodė naujos programos žinia, skirta sukurti „tikrai“ atvirojo kodo LLM, apimančias visas Europos Sąjungos kalbas.

Tai apima dabartines 24 oficialias ES kalbas, taip pat kalbas šalims, kurios šiuo metu derasi dėl patekimo į ES rinką, pavyzdžiui, Albaniją. Ateityje atsparios žaidimo pavadinimas.

„Openeurollm“ yra maždaug 20 organizacijų, kurioms vadovauja Janas Hajičas, skaičiavimo kalbininkas iš Charleso universiteto Prahoje, bendradarbiavimas ir Peteris Sarlinas, Suomijos AI laboratorijos siloso AI generalinis direktorius ir vienas iš įkūrėjų, kurį praėjusiais metais įsigijo už 665 milijonus dolerių už 665 milijonus dolerių .

Projektas tinka platesniam pasakojimui, kuriame Europa matė skaitmeninį suverenitetą kaip prioritetą, leidžiantį jam priartinti misiją kritinę infrastruktūrą ir įrankius. Daugelis debesų milžinų investuoja į vietinę infrastruktūrą, kad užtikrintų, jog ES duomenys išliktų vietiniai, o „Ai Darling Openai“ neseniai pristatė naują pasiūlymą, leidžiantį klientams apdoroti ir saugoti duomenis Europoje.

Kitur ES neseniai pasirašė 11 milijardų dolerių sandorį, kad sukurtų suverenios palydovo žvaigždyną konkuruojančiam Elono Musko „Starlink“.

Taigi „Openeurollm“ tikrai yra prekės ženklas.

Tačiau nurodytas biudžetas tik pačių modelių kūrimui yra 37,4 mln. EUR, o maždaug 20 mln. Faktinis biudžetas yra didesnis tada, kai jūs atsižvelgiate į finansavimą, skirtą tangentiniam ir susijusiam darbui, ir, be abejo, didžiausios išlaidos yra skaičiavimas. Į „Openeurollm“ projekto partnerius sudaro „EuroHPC“ superkompiuterių centrai Ispanijoje, Italijoje, Suomijoje ir Nyderlanduose – o platesnio „EuroHPC“ projekto biudžetas yra apie 7 milijardus eurų.

Tačiau didelis skaičius skirtingų dalyvaujančių šalių, apimančių akademinę bendruomenę, mokslinius tyrimus ir korporacijas, paskatino daugelį abejoti, ar jos tikslai yra įmanoma. Anastasia Stasenko, „LLM Company Pleias“ įkūrėjas, suabejojo, ar „daugiau nei 20 ir daugiau organizacijų konsorciumai“ galėtų būti tas pats išmatuotas namų išaugintos privačios AI firmos dėmesys.

„Naujausi Europos sėkmės AI spindi mažomis sutelktomis komandomis, tokiomis kaip„ Mistral AI “ir„ Lighton “ – įmonės, kurioms tikrai priklauso tai, ką jos kuria“, – rašė Stasenko. „Jie turi tiesioginę atsakomybę už savo pasirinkimą, tiek finansus, tiek rinkoje, ar reputaciją“.

Turinys:

Iki įbrėžimo

„OpeneUrollm“ projektas pradedamas nuo nulio arba jis turi pagrindinį pradžią – priklausomai nuo to, kaip į jį žiūrite.

Nuo 2022 m. „Hajič“ taip pat koordinuoja projekto „Aukštos kokybės kalbų technologijos“ (HPLT), kuris siekė kurti nemokamus ir daugkartinio naudojimo duomenų rinkinius, modelius ir darbo eigas, naudojant aukšto našumo skaičiavimą (HPC). Numatoma, kad šis projektas pasibaigs 2025 m. Pabaigoje, tačiau „Openeurollm“ teigimu, jis gali būti vertinamas kaip savotiškas „pirmtakas“, atsižvelgiant į tai, kad čia dalyvauja ir dauguma HPLT partnerių (išskyrus JK partnerius).

„Tai („ Openeurollm “) iš tikrųjų yra tik platesnis dalyvavimas, tačiau labiau orientuotas į generatyvines LLM“, – teigė Hajič. „Taigi tai nėra nuo nulio duomenų, kompetencijos, įrankių ir skaičiavimo patirties atžvilgiu. Mes surinkome žmones, kurie žino, ką daro – turėtume sugebėti greitai atsikelti. “

Hajičas teigė, kad tikisi, jog pirmoji (-ių) versija (-os) bus išleista iki 2026 m. Vidurio, o galutinė iteracija (-os) bus pateikta pagal projekto išvadą 2028 m. Tačiau šie tikslai vis tiek gali atrodyti kilnūs, kai manote, kad jūsų nėra daug. Norėdami kišti dar už plikų kaulų „GitHub“ profilį.

„Šiuo atžvilgiu mes pradedame nuo nulio – projektas prasidėjo šeštadienį (vasario 1 d.)“, – sakė Hajič. „Bet mes ruošėme projektą metams (konkurso procesas, atidarytas 2024 m. Vasario mėn.).“

Iš akademinės bendruomenės ir tyrimų organizacijos, apimančios Čekiją, Nyderlandus, Vokietiją, Švediją, Suomiją ir Norvegiją, yra „Openeurollm“ kohortos dalis, be „EuroHPC“ centrų. Iš korporatyvinio pasaulio Suomijos „AMD“ priklausė AI laboratorijos silo AI yra laive, kaip ir Aleph Alfa (Vokietija), Ellamind (Vokietija), „PromPSIT“ kalbų inžinerija (Ispanija) ir „Lighton“ (Prancūzija).

Vienas pastebimas sąrašo praleidimas yra prancūzų AI unicorn Mistral, kuris save kaip atvirojo kodo alternatyva tokiems rinkos dalyviams kaip „Openai“. Nors niekas iš „Mistral“ neatsakė į „TechCrunch“ komentuoti, Hajič patvirtino, kad jis bandė inicijuoti pokalbius su startuoliu, tačiau nesėkmingai.

„Aš bandžiau su jais kreiptis, tačiau tai nepadarė tikslingos diskusijos apie jų dalyvavimą“, – sakė Hajič.

Projektas vis dar galėtų surinkti naujus dalyvius kaip ES programos, teikiančios finansavimą, dalį, nors jis apsiribos ES organizacijomis. Tai reiškia, kad subjektai iš JK ir Šveicarijos negalės dalyvauti. Tai skrieja, priešingai nei „Horizont“ mokslinių tyrimų ir plėtros programa, kuri JK vėl prisijungė 2023 m. Po ilgo „Brexit“ aklavietės ir kuri suteikė finansavimą HPLT.

Sukurkite

Pagrindinis projekto tikslas, kaip numatyta jo etiketėje, yra sukurti: „Pamatinių modelių, skirtų skaidriai AI Europoje, serija“. Be to, šie modeliai turėtų išsaugoti visų ES kalbų kalbinę ir kultūrinę įvairovę – dabartinę ir ateitį.

Tai, ką tai reiškia rezultatų atžvilgiu, vis dar yra išlyginta, tačiau tai greičiausiai reikš pagrindinę daugiakalbę LLM, skirtą bendrosios paskirties užduotims, kur tikslumas yra svarbiausia. Tada taip pat mažesnės „kiekybinės“ versijos, galbūt skirtos „Edge“ programoms, kuriose yra svarbesnės efektyvumas ir greitis.

„Tai yra kažkas, apie ką mes vis dar turime sudaryti išsamų planą“, – sakė Hajič. „Mes norime, kad tai būtų kuo maža, bet kuo aukštesnė. Mes nenorime išleisti to, kas yra pusiau iškepta, nes iš Europos požiūrio tai yra didelė dalis, o Europos Komisija gaunama daug pinigų-valstybės pinigai “.

Nors tikslas yra padaryti modelį kiek įmanoma įgudusiu visomis kalbomis, norint įgyti lygybę visame pasaulyje, taip pat galėtų būti sudėtinga.

„Tai yra tikslas, tačiau tai, kaip sėkmingai galime būti su kalbomis, turinčiomis mažai skaitmeninių išteklių, yra klausimas“, – teigė Hajič. „Bet todėl mes norime turėti tikrus šias kalbas etalonus, o ne būti linkusiems į etalonus, kurie galbūt neatspindi kalbų ir kultūros už jų.“

Kalbant apie duomenis, čia daug HPLT projekto darbų pasirodys vaisingas, o jo duomenų rinkinio 2.0 versija išleista prieš keturis mėnesius. Šis duomenų rinkinys buvo apmokytas 4,5 petabaitų žiniatinklio nuskaitymų ir daugiau nei 20 milijardų dokumentų, o Hajič teigė, kad prie mišinio pridės papildomų duomenų iš „Common Crawl“ (atviros žiniatinklio duomenų duomenų saugyklos).

Atvirojo kodo apibrėžimas

Tradicinėje programinėje įrangoje daugiametis atvirojo kodo kova ir patentuota sukasi apie „tikrąją“ „atvirojo kodo“ prasmę. Tai galima išspręsti atidėjant oficialiam „apibrėžimui“, kaip nurodyta atvirojo kodo iniciatyvoje, pramonės valdytojai to, kas yra ir nėra teisėtos atvirojo kodo licencijos.

Visai neseniai OSI sudarė „atvirojo kodo AI“ apibrėžimą, nors ne visi yra patenkinti rezultatu. Atvirojo kodo AI šalininkai teigia, kad ne tik turi būti laisvai prieinami modeliai, bet ir duomenų rinkiniai, iš anksto paruošti modeliai, svoriai – visas šlapimas. Dėl OSI apibrėžimo mokymo duomenys nėra privalomi, nes sakoma, kad AI modeliai dažnai mokomi patentuotų duomenų ar duomenų su perskirstymo apribojimais.

Pakanka pasakyti, „Openeurollm“ susiduria su tais pačiais keblumais ir, nepaisant ketinimų būti „tikrai atviriems“, greičiausiai turės padaryti tam tikrus kompromisus, jei tai įvykdys savo „kokybiškus“ įsipareigojimus.

„Tikslas yra, kad viskas būtų atvira. Dabar, žinoma, yra keletas apribojimų “, – teigė Hajič. „Mes norime turėti aukščiausios kokybės modelius, ir, remdamiesi Europos autorių teisių direktyva, galime naudoti viską, ką galime susitvarkyti. Kai kurių jo negalima perskirstyti, tačiau kai kuriuos iš jų galima saugoti būsimam patikrinimui. “

Tai reiškia, kad „OpeneurollM“ projektui gali tekti saugoti kai kuriuos mokymo duomenis įvyniojant, tačiau jis bus prieinamas auditoriams paprašius-kaip reikalaujama didelės rizikos AI sistemoms pagal ES AI įstatymo sąlygas.

„Mes tikimės, kad dauguma duomenų (bus atviri), ypač duomenys, gaunami iš bendro nuskaitymo“, – teigė Hajič. „Mes norėtume, kad visa tai būtų visiškai atvira, bet pamatysime. Bet kokiu atveju turėsime laikytis PG taisyklių. “

Du vienam

Kita kritika, atsirandanti po oficialaus „Openeurollm“ atidengimo, buvo ta, kad Europoje pradėtas labai panašus projektas, pradėtas vos prieš keletą trumpų mėnesių. „Eurollm“, kuris rugsėjį išleido savo pirmąjį modelį, ir gruodžio mėn. Tolesnius veiksmus, kartu su devynių partnerių konsorciumu finansuoja kartu su devynių partnerių konsorciumu. Tai apima tokias akademines institucijas kaip Edinburgo universitetas ir tokios korporacijos kaip „Unfabel“, kurios pernai laimėjo milijonus GPU mokymo valandų ES superkompiuteriuose.

„Eurollm“ dalijasi panašiais tikslais kaip ir beveik „Namesake“: „Sukurti atvirojo kodo Europos didelės kalbos modelį, palaikantį 24 oficialias Europos kalbas, ir keletą kitų strategiškai svarbių kalbų“.

Andre Martins, „Unbabel“ tyrimų vadovas, ėmėsi socialinės žiniasklaidos pabrėžti šiuos panašumus, pažymėdamas, kad „Openeurollm“ yra jau egzistuojantis vardas. „Tikiuosi, kad skirtingos bendruomenės atvirai bendradarbiaus, pasidalys savo patirtimi ir nenuspręstų išradinėti rato kiekvieną kartą, kai bus finansuojamas naujas projektas“, – rašė Martinsas.

Hajič situaciją pavadino „apgailėtinu“, pridurdamas, kad jis tikėjosi, kad jie gali bendradarbiauti, nors ir pabrėžė, kad dėl jo finansavimo šaltinio ES, „Openeurollm“ yra apribotas bendradarbiavimo su ne ES subjektais, įskaitant JK, įskaitant JK, įskaitant JK, įskaitant JK, įskaitant JK Universitetai.

Finansavimo spraga

Kinijos „Deepseek“ atėjimas ir jo žadančių išlaidų ir efektyvumo santykis šiek tiek paskatino, kad AI iniciatyvos gali padaryti daug daugiau, turėdami daug mažiau, nei manyta iš pradžių. Tačiau per pastarąsias kelias savaites daugelis suabejojo tikromis išlaidomis, susijusiomis su „Deepseek“ kūrimu.

„Kalbant apie„ Deepseek “, mes iš tikrųjų labai mažai žinome apie tai, kas tiksliai reikėjo jį kurti“,-„TechCrunch“ pasakojo Peteris Sarlinas, kuris yra techninis „Openeurollm“ projekto vadovas.

Nepaisant to, Sarlinas mano, kad „Openeurollm“ turės prieigą prie pakankamai lėšų, nes tai dažniausiai siekia padengti žmones. Iš tiesų skaičiuojama didelė AI sistemų kūrimo išlaidų dalis, ir tai dažniausiai turėtų būti padengta bendradarbiaudama su „EuroHPC“ centru.

„Galima sakyti, kad„ Openeurollm “iš tikrųjų turi nemažą biudžetą“, – teigė Sarlinas. „„ EuroHPC “investavo milijardus į AI ir apskaičiuojamą infrastruktūrą ir įsipareigojo milijardams daugiau, kad tai išplėstų per ateinančius metus.“

Taip pat verta paminėti, kad „OpeneUrollm“ projektas nesukuria link vartotojo ar įmonės klasės produkto. Tai tik apie modelius, todėl Sarlinas mano, kad jo biudžetas turėtų būti gausus.

„Čia neketinama kurti pokalbių ar AI asistento – tai būtų produkto iniciatyva, reikalaujanti daug pastangų, ir būtent tai ir padarė„ ChatGpt ““, – teigė Sarlinas. „Tai, ką mes prisidedame, yra atvirojo kodo fondo modelis, kuris veikia kaip AI infrastruktūra Europos įmonėms. Mes žinome, ko reikia kuriant modelius, tai nėra kažkas, ko jums reikia milijardams. “

Nuo 2017 m. Sarlinas vadovavo „AI Lab Silo AI“, kuris, bendradarbiaudamas su kitais, įskaitant HPLT projektą, pradėjo „Poro“ ir „Viking Open“ modelių šeimą. Tai jau palaiko keletą Europos kalbų, tačiau dabar įmonė ruošiasi kitiems iteracijos „Europa“ modeliams, kurie apims visas Europos kalbas.

Ir tai susiejama su visa „nepradedu nuo nulio“, kurią palaiko Hajič, – jau yra žinių ir technologijų pagrindas.

Suvereni valstybė

Kaip pažymėjo kritikai, „Openeurollm“ turi daug judančių dalių – tai pripažįsta Hajič, nors ir teigiama.

„Aš dalyvavau daugelyje bendradarbiavimo projektų ir manau, kad jis turi savo pranašumų, palyginti su viena įmone“, – sakė jis. „Žinoma, jie padarė puikius dalykus, panašius į„ Openai “ir„ Mistral “, tačiau tikiuosi, kad akademinės kompetencijos ir įmonių dėmesio derinys gali atnešti ką nors naujo“.

Ir daugeliu atžvilgių nekalbama apie bandymą aplenkti „Big Tech“ ar milijardų dolerių vertės AI startuolius; Pagrindinis tikslas yra skaitmeninis suverenitetas: (dažniausiai) Atviras fondo LLM, kurį sukūrė ir Europai.

„Tikiuosi, kad taip nebus, bet jei galų gale mes nesame numeris vienas modelis ir turime„ gerą “modelį, tada vis tiek turėsime modelį su visais Europoje esančiais komponentais, – sakė Hajič. „Tai bus teigiamas rezultatas“.

Source link