Wikipedia tekee tietojensa helpommin AI -kehittäjille vapauttamalla koneoppimiseen optimoitu tietojoukko pyrkiessään vähentämään automatisoitujen AI -robotien aiheuttamia palvelimia ja rasitusta.

Wikimedia-säätiö on toiminut yhteistyössä Google-omistaman tietotekniikan yhteisöalustan Kagglen kanssa julkaistakseen beeta-tietojoukon strukturoidusta Wikipedia-sisällöstä englanniksi ja ranskaksi. Tämä tietojoukko on ”suunniteltu koneoppimisen työnkulkuilla mielessä”, mikä helpottaa kehittäjien pääsyä koneiden luettavissa oleviin artikkelitietoihin erilaisiin AI-sovelluksiin, mukaan lukien mallinnus, hienosäätö, vertailuanalyysi, kohdistus ja analyysi.

Tietojoukko sisältää erilaisia ​​sisältöjä, kuten tutkimusyhteenvedot, lyhyet kuvaukset, kuvalinkit, tietopakettitiedot ja artikkeli -osiot. Se sulkee kuitenkin pois viitteet ja kirjoittamattomat elementit, kuten äänitiedostot. Tiedot esitetään 15. huhtikuuta alkaen ”hyvin jäsennellyt JSON-esitykset”, joiden pitäisi olla houkuttelevampi kehittäjille kuin raaka-artikkeli-tekstin raapiminen tai jäsentäminen. Tämän muutoksen odotetaan lievittävän Wikipedian palvelimien rasitusta, joita automatisoitu AI BOT -toiminto kuluttaa tällä hetkellä voimakkaasti.

Wikimedia-säätiöllä on jo sisällönjakosopimuksia Googlen ja Internet-arkiston kanssa. Tämän kumppanuuden Kagglen kanssa pyritään kuitenkin tekemään tiedoista pienempien yritysten ja riippumattomien tietotieteilijöiden saatavuutta. Järjestelmää isännöimällä Kaggle on tärkeä rooli tietojen saatavuuden, saatavana olevan ja hyödyllisenä koneoppimisyhteisön kannalta.

”Kun koneoppimisyhteisö tulee työkaluille ja testeille, Kaggle on erittäin innostunut siitä, että hän on Wikimedia -säätiön tietojen isäntä”, kertoi Kaggle -kumppanuuksien johtama Brenda Flynn. ”Kaggle on innostunut siitä, että tämä tieto on saatavana, saatavana ja hyödyllisenä.”

Tietojoukon julkaisu julkistettiin 17. huhtikuuta 2025, mikä merkitsee merkittävää askelta Wikipedian pyrkimyksissä olla yhteydessä AI-kehittäjiin ja hallita AI-ohjatun liikenteen vaikutuksia sen alustalla.

Source: Wikipedia tarjoaa AI-valmiita tietoja kaapimisen hillitsemiseksi