Microsoft on ilmoittanut MAI-Image-1: n, sen ensimmäinen kuvanmuodostusmalli, joka on kehitetty kokonaan sisäisesti. Yhtiö totesi, että malli on saatavana Copilot- ja Bing Image Creator ”hyvin pian”, ja se on tällä hetkellä saatavana testattavaksi Lmarenassa, alustalla, jossa käyttäjät arvioivat kaksi tuntematonta chatboottia ja äänestävät parhaan vastauksen. Lmarenan tekstistä-kuva-tulostaululla Mai-Image-1 sijoittui yhdeksänneksi saavuttaen pistemäärän 1 096 pistettä. Vertailun vuoksi Googlen Gemini-2,5-flash, joka tunnetaan myös nimellä Nano-Banana, sai 1 154 pistettä ja otti toisen sijoituksen, kun taas Openain malli sai 1 123 pistettä seitsemänteen sijoitukseen. Tulostaulua johtaa Hunyuan-Image-3.0, malli, jonka on kehittänyt kiinalainen teknologiayritys Hunyuan. Microsoft totesi, että sen kehitysryhmä keskittyi toistuvien tai yleisesti tyyliteltyjen tulosten välttämiseen Mai-Image-1: llä. ”Esimerkiksi, priorisoimme tiukan tiedon valinnan ja vivahteena olevan arvioinnin, joka keskittyi tehtäviin, jotka heijastavat tiiviisti reaalimaailman luovan käyttötapauksia”, yritys selitti ja lisäsi, että se sisälsi palautetta luovan teollisuuden ammattilaisilta. Mallin on ilmoitettu erinomaisen maisemien ja fotorealististen kuvien luomisessa. Sen suorituskyky on tunnistettu yksityiskohtien, kuten valaistuksen, varjojen ja heijastusten, kaappaamisesta tarkasti verrattuna ”moniin suurempiin, hitaampiin malleihin”. MAI-Image-1: n lisäksi Microsoft on kehittänyt muita sisäisiä malleja, mukaan lukien Mai-Voice-1 luonnollisen puheentuotannon ja pienten kielimalleiden PHI-sarjan, joka on suunniteltu tehokkaisiin päättelytehtäviin. Tämä sisäinen kehitys tapahtuu yhtiön jatkuvan taloudellisen ja infrastruktuurin tuen rinnalla Openaille. AI -kuvan sukupolven kentällä on tällä hetkellä korkea aktiviteetti. Openain malli sai äskettäin virusta huomiota kyvystään jäljitellä Ghibli-taidetta, kun taas Googlen ”Nano-Banana” tunnustettiin edistyneistä muokkausominaisuuksistaan. LMARENA: n avulla AIM suoritti Microsoftin Mai-Image-1: n, Googlen Gemini-2,5-flashin ja Openain GPT-Image-1: n vertailun. Mallit testattiin kehotuksella, joka kuvaa kaksi ihmistä kahvilassa ikkunan vieressä myöhään iltapäivällä. Arvioinnissa keskityttiin siihen, kuinka kukin malli käsitteli sekoitettua valaistusta, heijastuksia ja varjojen realismia. Käyttäjät voivat käydä Lmarenassa testatakseen näitä malleja samanlaisilla kehotuksilla.

Source: Microsoft julkistaa Mai-Image-1: n kopilotille