midjourney ai
Na czasie

Midjourney i DallE o minerałach, czyli jak sztuczna inteligencja widzi twoją kolekcję


„The world is changed. I feel it in the water. I feel it in the earth. I smell it in the air”
Rozmyślając jak rozpocząć ten wpis przypomniała mi się sekwencja otwierająca film Władca Pierścieni: Drużyna Pierścienia…dlaczego? bo jak się tak zastanowić, to te słowa brzmią jak przepowiednia naszych czasów. Ta zmiana jest wyczuwalna, tyle tylko, że nie w powietrzu czy ziemi, a na ekranie komputera. Mam na myśli AI, która coraz bardziej wkracza do naszego życia i zmienia bardzo wiele. Już dziś sztuczna inteligencja wspomaga przy pisaniu książek, diagnostyce medycznej czy sekwencjonowaniu ludzkiego genomu. Rozpoznaje mowę, wie czego chcemy i jakie są nasze pragnienia. Śledzę temat już od dłuższego czasu i kilka miesięcy temu po raz pierwszy usłyszałem o inteligentnym generatorze obrazów z tekstu, który tworzy grafikę na podstawie opisu który mu przedstawisz. Pomyślałem, że jest to strzał w dziesiątkę. Może akurat niektóre grafiki można by było wykorzystać przy tworzeniu ciekawych grafik na bloga czy w aplikacji Daj Kamienia. Tylko nasuwa się pytanie, czy AI jest w stanie dobrze wygenerować minerały? Sprawdźmy to!

midjourney robot

Jak to działa?
Do testów wybrałem dwa dostępne darmowo algorytmy sztucznej inteligencji: DallE oraz Midjourney. Oba programy potrzebują krótkiego opisu, na podstawie którego generują obrazki. Jedyna różnica polega na tym, że w przypadku DallE pożądaną frazę wpisujemy w pasek „wyszukiwania”, natomiast w Midjourney trzeba być najpierw zarejestrowanym na Discordzie i w oknie czatu którejś z grup newbie Midjourneya wpisać tekst do wygenerowania. Wpisać można pojedyncze słowo, całe frazy lub nawet bogaty opis. Możliwości są nieograniczone i tylko od AI zależy co on „wie” w danym temacie. Oba testowane przeze mnie programy to darmowe wersje beta. Oznacza to, że nie jest mi dane poznać możliwości wersji płatnych oraz w przypadku Midjourneya ilość darmowo generowanych obrazków jest ograniczona.

Midjourney
Jest to drugi z botów, który przetestowałem ale przedstawię jako pierwszy. W tym wypadku kolejność ma znaczenie. Po wpisaniu tekstu w okno czatu i odczekaniu kilkudziesięciu sekund otrzymujemy zestaw grafik. W przypadku DallE wybieramy z niego, która nam odpowiada, a w przypadku Midjourneya decydujemy czy konkretny obrazek ma być poprawiony czy uszczegóławiany. W tym wypadku Midjourney ma znaczną przewagę; otrzymane grafiki są w wyższej rozdzielczości oraz posiadają znacznie więcej szczegółów. Po za tym wizualnie są ciekawsze. Midjourney „wypluwa” takie małe dzieła sztuki, które mają za zadanie po prostu się podobać.

Test Midjourney #1. Wpisujemy: „amethyst_geode_in_melaphyre_quarry_ultra_realistic”

Zacznijmy od czegoś prostego. Każdy wie jak wygląda ametyst i chociaż trochę ma pojęcie czym jest geoda. Poniżej zestaw wygenerowanych grafik. Wynika z niego, że AI wie, że chodzi o minerał, że ametyst powinien być fioletowy, oraz mniej więcej o co chodzi z geodą. Z „melaphyre quarry” gorzej, całkowicie pominął żądana frazę.

midjourney images

Poniżej wybrana przeze mnie grafika. Powstał obraz który można by śmiało powiesić na ścianie, by cieszył oko. Niestety z ametystem nie ma wiele wspólnego. Ciężko mówić tutaj o pokroju kryształów. Jest to raczej zlepek czegoś, co przypomina bliżej nieokreśloną krystalizację.

midjourney image

Test Midjourney #2. Wpisujemy: „realgar_mineral_well_formed”
No dobra realgar jest czerwony, ale to tyle. Wyszła wesoła twórczość, której bliżej do Tolkienowskiej trylogii, niż dobrze wykształconych kryształów realgaru.

midjourney inteligencePoniżej wybrana z zestawu grafika. Jeśli to miała by być kawerna wypełniona przez kryształy realgaru, to ma to jakiś sens. Dalej jednak z rzeczywistością ma to niewiele wspólnego.

midjourney image

Test Midjourney #3. Wpisujemy: „sulphur mine, miners working hard to extract sulphur find huge crystals”
Dodajmy kolejne wątki: kopalnia siarki, górnicy, ciężka praca. Efekt jest zadowalający – przynajmniej jedna grafika stworzona przez algorytm SI zawiera to, co miałem na myśli.

midjourney generateSą duże kryształy, są górnicy (lub coś podobnego) pracujący przy eksploatacji siarki. Widać jednak, że program ma problem z generowaniem ludzi. Przedstawienie sposobu eksploatacji siarki jest nader interesujące.

midjourney ai

Test Midjourney #4. Wpisujemy: „encyclopedia illustrations:: page, parchement, papyrus:: crystals drawing::sketch by leonardo davinci:: full page scan detailed crystals pencil drawing”
Tym razem pojechałem po bandzie z ilością informacji. Wziąłem przykład z innych użytkowników, stąd takie nagromadzenie słów. Celem było zobaczenie czy bot jest w stanie stworzyć rysunek dowolnego kryształu. I co? Trzeba przyznać, że szkicować umie…nie za bardzo wie co, ale jako szkic – super.

midjourney beta

Test Midjourney #5. Wpisujemy: „Perisphinctes ammonite fossil found in jurrasic limestone”
No to próbujemy ze skamieniałościami. Wybierzmy coś prostego; Amonit Perisphinctes w jurajskim wapieniu powinien być idealny. W efekcie otrzymujemy wapień oraz coś przypominającego amonit, chociaż Perisphinctesem trudno go nazwać. Całość można traktowaćraczej jako wizję artystyczną.

midjourney mod

Test Midjourney #6. Wpisujemy: „outcrop of the Carpathian flysch geology”
Byłem ciekawy czy SI wie jak wyglądają skały fliszowe i tym razem również nie zawiódł. Algorytm nie dość, że pokazał czym jest odsłonięcie, to również wygenerował całkiem przyzwoite skały fliszowe. Przypomina mi się ściana kamieniołomu Huczwice – Drobny czy piaskowce w kamieniołomie Bóbrka nad Soliną.

midjourney geology

…ale początku plan był nieco inny. Próbowałem z żyłami kalcytu, ale jak widać poniżej trafiłem na zakaz. „Żyła” jest słowem zakazanym 🙂

midjourney

Test Midjourney #7. Wpisujemy: „superposition principle geology
Zasada superpozycji. Podstawa podstaw. „W serii niezaburzonych warstw (głównie osadowych), najstarsze znajdują się na spodzie sekwencji i są przykryte przez warstwy coraz młodsze”. Co sztucznie inteligentny autor miał w tym wypadku na myśli nie mam niestety pojęcia. Dwója!

midjourney image

Test Midjourney #8. Wpisujemy: „sunrise over the High Tatras sharp rocks wild nature”
Wygląda na to, że ostatnie było trochę zbyt trudna Wrzucam więc coś, z czym program na pewno sobie poradzi – już wcześniej wiedziałem, że widoczki to jest dla niego błahostka. Wschód nad Tatrami? Piękne!

midjourney graphics

DALL·E mini
Bot o którym głośno było już kilka miesięcy temu i to od niego rozpoczęła się cała akcja z AI generującym obrazy. Błyskawicznie zyskał ogromną popularność. Po wpisaniu tekstu otrzymujemy aż 12 obrazków z których można wybierać i je zapisywać na dysku. Jedyny minus jest taki, że obrazki są strasznie małe jak na dzisiejsze standardy. 256×256…taka rozdzielczość to by uszła, ale w latach 90tych.

Test Dall·E #1. Wpisujemy: „amethyst_geode_in_melaphyre_quarry_ultra_realistic”
Pierwsza próba i pierwszy strzał w dziesiątkę. DallE wygenerował geody ametystowe niczym te z Rio Grande do Sul.

dalle siPodobnie jak wcześniejszy kolega,„melaphyre quarry” bot pominął całkowicie. Skoro jednak wygenerowane grafiki przypominają choć trochę prawdziwe ametysty, to chcąc więcej zacząłem drążyć temat.
dalle graphic

Kolejna próba z kwarcem. Tym razem: „Quartz crystals in cavern, background quarry and sunset, ultra realistic”. Wynik mnie zaskoczył, otrzymałem to co chciałem. Jest szczotka kwarcowa, kawerna i wschód słońca.

dalle image

Test Dall·E #2. Wpisujemy: „realgar_mineral_well_formed”
No dobra, kwarc jest za prosty. Midjourney widział realgar jako zbitą czerwoną papkę, więc nie spodziewałem się również tutaj dużo lepszych wyników. Pozytywne zaskoczenie! Jest pokrój kryształów, a patrząc na szary matrix, przychodzą mi na myśl okazy z rumuńskiego Baia Sprie.

dalle ai

Zachwycony efektami spróbowałem z innymi minerałami na zasadzie np. „piryte crystals”. Szok! Ten bot naprawdę próbuje odwzorowywać pokrój kryształów i najczęściej mu to wychodzi. Założę się, że każdy bez problemu rozpozna przynajmniej trzy z poniższych „minerałów”. Program wie nawet, jak powinien wyglądać turmalin arbuzowy!

dalle image

Test Dall·E #3. Wpisujemy: „sulphur mine, miners working hard to extract sulphur find huge crystals”
No to wiemy jak się sprawy mają z minerałami. Dodajmy do tego ludzi. W tym wypadku efekty są podobne, co w Midjourney. Może nie ma ogromnych kryształów, ale mniej więcej taką grafikę chciałem otrzymać.

dalle miniLudzie to jednak nadal twory z deformowaną twarzą. Swoją drogą ciekawy ten żółty fraczek…do kopalni siarki pasuje idealnie 😉

dalle images

Test Dall·E #4. Wpisujemy: „encyclopedia illustrations:: page, parchement, papyrus:: crystals drawing::sketch by leonardo davinci:: full page scan detailed crystals pencil drawing”
To chyba jedyny przykład, gdzie moim zdaniem DallE nie postarał się względem Midjourney. Co prawda otrzymałem szkic, a ogólny koncept jest zachowany, jednak czegoś tu zabrakło. W moim odczuciu za mało szczegółów i niezbyt ciekawie.

dalle ai

Test Dall·E #5. Wpisujemy: „Perisphinctes ammonite fossil found in jurrasic limestone”
No to wracamy do formy, bo amonit wyszedł znacznie lepiej. Co prawda dalej nie jest to Perisphinctes, ale głowonóg na obrazku chociaż przypomina amonit, taki wypreparowany z wapienia.

dalle graphic

DallE z innymi skamieniałościami też sobie radzi, chociaż z różnych efektem.

Test Dall·E #6. Wpisujemy: „outcrop of the Carpathian flysch geology”
Co powiecie na takie odsłonięcie skał fliszowych? Wynik z Midjourney był na pewno ładniejszy, ale ten z DallE jest na pewno bliższy rzeczywistości. Można powiedzieć, że taki bardziej pospolity, przez co odwzorowanie jest zdecydowanie lepsze.

dalle bot

Test Dall·E #7. Wpisujemy: „superposition principle geology
Największe zaskoczenie tego zestawienia. Nie jest co prawda na tyle idealnie, by z grafiki wywnioskować, że to o zasadę superpozycji chodzi, ale coś na pewno jest na rzeczy. Są przedstawione warstwy skalne, czyli w którymś kościele dzwoni, tylko nie wiadomo jeszcze w którym.

dalle ai

Test Dall·E #8. Wpisujemy: „sunrise over the High Tatras sharp rocks wild nature”
Kończymy idyllicznym wschodem słońca nad Tatrami. Tutaj podobnie jak w poprzednich grafikach; może nie jest tak pięknie, ale za to bardziej w sedno. Są nawet skały przypominając granity tatrzańskie!

dalle si

Podsumowanie. Terminator ukryty w programie graficznym?
Efekty pracy obu programów robią piorunujące wrażenie. Nawet jeśli obrazy są jeszcze słabej rozdzielczości, a minerałom z grafik daleko do prawdziwych krystalizacji, to mamy tutaj do czynienia z solidnymi fundamentami. Trzeba również zdać sobie sprawę z faktu, że nie są to gotowe aplikacje, a AI nadal się uczy. Generowane grafiki mają swoje podstawy w ogromnej liczbie obrazków, które można znaleźć w internecie i to właśnie z nich korzysta algorytm. Te się cały czas zmieniają. Bardzo możliwe, że już teraz po wpisaniu podobnych fraz jak ja, otrzymacie inne, lepsze wyniki. Jestem przekonany, że jest to kwestią czasu, jak będzie można generować grafiki idealnie odwzorowujące rzeczywistość. Program będzie potrafił pokazać nam większość, jeśli nie wszystkie znane minerały takimi jakimi są (i to w wysokiej rozdzielczości). Trzeba sobie tylko zadać pytanie, czy mówimy tutaj o latach, miesiącach, a może już tylko tygodniach, gdy to nastąpi. Otrzymamy wszystko, co chcielibyśmy zobaczyć. Wszystko podane na talerzu, tylko jakim kosztem? Po co robić fotografie minerałów i jaki będzie sens wrzucania tego na blog czy media społecznościowe, kiedy AI stworzy to za nas szybciej i lepiej? Przyszłość wkracza tu i teraz…czy to aby na pewno dobrze? Ja mam wątpliwości.

Piotr Zając
realgarblog.com

Daj Kamienia
.

Poznaj pozostałe wpisy na blogu REALGAR:

#sztucznainteligencja #artificialintelligence #AI #SI #dalle #midjourney


Jeden komentarz

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

https://www.google.com/recaptcha/api.js?onload=wpcaptcha_captcha&render=6LdQw8QoAAAAALZwTeiXMCML4KpVthjVVJYkxD4j&ver=1.23