A Microsoft AI objektumokat rajzol a szöveges leírásokból

A Microsoft kutatói által közzétett tudományos cikk szerint a Microsoftnál kifejlesztett új mesterséges intelligencia szoftver alapvetően bármit képes felhívni a szöveges leírásokból. Például, ha egy felhasználó azt kéri a számítógéptől, hogy "rajzoljon egy sárga madárt fekete szárnyakkal és egy kis csőrrel", akkor az eredményt fogja látni a képen.

Lehet, hogy ezek a madarak nem léteznek a való világban, csupán egy része a számítógépünk fantáziájának a madarakról.

„Ha megnyitja a Bing madárkeresést, látni fogja a madarak fényképeit. De itt a fényképeket a számítógép készíti, pixelről pixelre, a semmiből ”- kommentálta Xiaodong He, a Microsoft kutatási vezetője egy hivatalos Microsoft kiadványban. "Lehet, hogy ezek a madarak nem léteznek a való világban, csupán egy része a számítógépünk madárképzelődésének" - tette hozzá.

Azt is részletezi, hogy a számítógép jelenlegi eredményei nem tökéletesek, de közel állhatnak. Az ötlet az, hogy egy ilyen intelligens szoftver végül rajzsegédként szolgálhat a művészek vagy akár belsőépítészek számára is.

microsoft

A jövőben egy ilyen szakember fényképezhet egy otthoni környezetről, majd számítógépet kérhet: "Adjon hozzá egy modernista stílusú szürke kárpitozott fotelot a bal sarokba." A számítógép nemcsak a környezet megteremtésében segíthet, hanem bútorokat és egyéb elemeket is létrehozhat.

folyamat

A projekten dolgozó csoport kezdeti kutatása a Microsoftnál a CaptionBot-val történt, egy mesterséges intelligencia rendszerrel, amely bármilyen fényképhez leíró feliratokat írhat. Ezután egy másik AI szoftvert készítettek, amely megválaszolja az emberek fotóval kapcsolatos kérdéseit, a SeenAI-t, amely különösen hasznos lehet a látássérültek számára.

Végül a csoport kifejlesztett egy technológiát, amely képes ezeket a rajzokat szöveges leírásokból előállítani. Az első rész a Generating Adversarial Network (GAN), a képek előállítására szolgál, a második rész pedig „diszkriminátor”, a képek minőségét megítélő néven.

A figyelem emberi koncepció; a matematikát használjuk arra, hogy a figyelmet számítási koncepcióvá tegyük

Ezt a rendszert feliratozott képek párjával képzték, hogy a szoftver megértse, mely szavak melyik képhez illeszkednek. Később matematikai modellt kellett létrehozni, hogy a rendszer által kifejlesztett teremtésre összpontosítson. „A figyelem emberi koncepció; a matematikát használjuk arra, hogy a figyelmet számítástechnikai fogalommá alakítsuk ”- mondta.

A kutató úgy véli, hogy végül lehetséges lesz animációs filmeket készíteni olyan szkriptekből, amelyek ilyen rendszerekkel vannak írva, de nem tudjuk megjósolni, mikor lehetne ilyen jellegű tevékenységet alkalmazni bármely Microsoft termékre.

A Microsoft AI a „TecMundo” segítségével „rajzol” objektumokat a szöveges leírásokból