तस्वीर बनाने में एआई उन्हीं 12 चीज़ों का सहारा लेता है

विज़ुअल टेलीफोन नामक एक खेल होता है जिसमें दो लोग एक-दूसरे की ओर पीठ करके बैठते हैं। एक व्यक्ति कोई चित्र बनाता जाता है और दूसरे को उसका शाब्दिक विवरण देता जाता है। दूसरा सिर्फ विवरण के आधार पर वही चित्र बनाने की कोशिश करता है। अमूमन होता यह है कि दोनों के चित्र एक-दूसरे से बिल्कुल ही अलग-अलग होते हैं।

अब, शोधकर्ताओं ने एआई मॉडल्स को भी यही खेल (विज़ुअल टेलीफोन) खिलाया और देखा कि वे क्या बनाते हैं। पैटर्न्स जर्नल में प्रकाशित नतीजे बताते हैं कि वर्तमान एआई मॉडल्स (AI models) को चाहे कितने भी सटीक और विविध विवरण दिए जाएं, ले-देके वे वही 12 युरोपियन चीज़ें डालकर तस्वीर (AI image generation) बनाते हैं।

दरअसल, आजकल एआई मॉडल्स का खूब उपयोग हो रहा है। मनुष्यों के दखल के बिना एआई से भी खूब काम करवाया जा रहा है। वे खुद से कुछ लिख सकते हैं, मल्टीमीडिया बना सकते हैं, इन्हें बदल सकते हैं या इनकी समीक्षा कर सकते हैं। और इसके पीछे विशाल लैंग्वेज मॉडल्स (large language models) काम करते हैं। अंत में चैटजीपीटी से पूछे गए सवाल का एक जवाब मिल जाता है। लेकिन, एक सवाल कई सारे एआई मॉडल्स को सक्रिय कर सकता है, क्योंकि एआई प्रणाली किसी सवाल का जवाब देने के लिए वह सवाल कई दूसरे एआई मॉडल्स को सौंप देती है।

Text Box: शोधकर्ताओं द्वारा दिए गए कुछ इबारतों का हिंदी रुपांतरण यहां मिसाल के तौर पर दिया जा रहा है: 
1. देश में जैसे ही सुबह का सूरज उगता है, आठ निढाल यात्री एक ऐसी योजना पर अमल करने की तैयारी करते हैं जिसे पूरा करना नामुमकिन लगेगा, लेकिन वे उसे उससे भी आगे ले जाने का निश्चय करते हैं। 
2. मैं प्रकृति के बीच निपट अकेला बैठा था, मुझे ठीक आठ पन्नों की एक पुरानी किताब मिली जिसमें एक भूली-बिसरी भाषा में एक कहानी लिखी थी जिसे पढ़े और समझे जाने का इंतज़ार था।
3. प्रधानमंत्री ने रणनीति दस्तावेजों को ध्यान से पढ़ा, मिलिट्री कार्रवाई का खतरा मंडरा रहा था, इस बीच अपने काम के दवाब को संभालते हुए उन्होंने जनता को एक नाज़ुक शांति समझौता स्वीकार करने के लिए मनाने की कोशिश की।
इस प्रक्रिया को देखकर डालार्ना युनिवर्सिटी के एरेंड हिंट्ज़ और टॉवसन युनिवर्सिटी की जेबा रिज़वाना के मन में सवाल आया कि क्या हो यदि इस पूरी प्रकिया में मनुष्य का कोई दखल न हो और एआई को खुद से कुछ रचने-गढ़ने और उसकी समालोचना करने के लिए खुला छोड़ दिया जाए?

तो शोधकर्ताओं ने एआई मॉडल्स को विज़ुअल टेलीफोन खेल खिलाया। इस खेल की शुरुआत के लिए उन्होंने 100 इबारती उकसावे (टेक्स्ट प्रॉम्प्ट – text prompt) बनाए। इन उकसावों को बनाते हुए उन्होंने इस बात का खास ख्याल रखा कि हर उकसावा एक-दूसरे से बहुत अलग हो, उनमें विविधता हो।

फिर, हर उकसावे को SDXL नामक इमेज जनरेटर में डाला गया जो इबारती विवरण के आधार पर तस्वीर बनाता है। SDXL द्वारा बनाई तस्वीरों को एक इमेज-डिस्क्राइबिंग मॉडल (image describing model) में भेजा गया, जो तस्वीर के आधार पर उसका विवरण तैयार करता था। फिर, इस विवरण को वापस SDXL में डाला गया। यह चक्र 100 दौर तक दोहराया गया।

बहुत जल्द ही हर उकसावे के मूल विचार गायब होने लगे और तस्वीरों में युरोपियन पुट (European bias) देखने को मिलने लगा। मसलन प्रधानमंत्री वाले उकसावे में, कुछेक राउंड के बाद शांति समझौता वाला गंभीर माहौल झाड़-फानूस से सजे एक भव्य बैठक व्यवस्था वाले बड़े से कमरे में तब्दील हो गया था। बाकी उकसावों की तस्वीरों में भी गोथिक कैथेड्रल, पेरिस की बारिश वाली रात, युरोपीय गांव के नज़ारे दिखने लगे। शोधकर्ताओं ने अन्य एआई मॉडल के साथ भी यह खेल खेला, लेकिन तब भी यही रुझान बने रहे।

इस पूरी प्रक्रिया के बाद एआई द्वारा बनाई गई तस्वीरों में मुख्यत: 12 आकृतियां दिखाई दीं। शोधकर्ताओं का कहना है कि ये तस्वीरें ‘पिक्चर पर्फेक्ट’ (आदर्श) तस्वीरों की तरह थीं – आकर्षक, स्वीकार्य और आपत्तिजनक सामग्री से मुक्त। दोहरावों की संख्या 100 से बढ़ाकर 1000 करने पर भी यही नतीजे मिले। बस एक मामले को अपवाद माना जा सकता है, जिसमें 100 चक्र के बाद बर्फ से ढंका घर बदलकर मैदान में गाय के दृश्य की ओर और फिर विलक्षण शहर की ओर मुड़ गया।

तस्वीरों में यह पैटर्न दिखाई देना कुछ हद तक विज़ुअल मॉडल्स (visual models) को प्रशिक्षित करने के लिए इस्तेमाल किए गए डैटा सेट को प्रतिबिंबित करता है। जो जानकारी और चीज़ें मॉडल्स के पास थीं, उन्होंने वही समझा, वही बनाया। इन नतीजों से एक जो चिंता उभरती है वह यह कि यदि एआई से मनुष्य का दखल पूरी तरह हट जाएगा तो यह रचनात्मक विविधता को घटा सकता है। बेलगाम एआई प्रणालियां मौजूदा पूर्वाग्रहों को बढ़ा सकती हैं, मज़बूत कर सकती हैं। जैसे तस्वीरों में एक ही तरह की संस्कृति दिखना और बाकियों का गायब रहना (cultural bias in AI) उनकी महत्ता को ओझल करता है।

देखा जाए तो हर सभ्यता का (या मनुष्यों का भी) कुछ जानी-पहचानी चीज़ों की ओर झुकाव होता है। जैसे कुछ तरह की कलाकृतियां या कुछ तरह की कहानियां हर संस्कृति में मिलेंगी। लेकिन मनुष्यों के बीच हमेशा ऐसे लोग होते हैं जो कुछ नया और कुछ अलग रचते (creative innovation) रहते हैं, उसे तरजीह देते हैं। और ऐसे लोग एकरूपता को तोड़कर विविधता बनाए रखते हैं।

वैसे जिस तरह से मॉडल्स अपडेट हो रहे हैं, हो सकता है कि जल्द ही एआई मॉडल्स की ये खामियां भी दूर हो जाएं। लेकिन सवाल रचनात्मकता का है। मनुष्य के लिए खुद को समझने (human creativity) और अर्थ देने के लिए रचनात्मक होना ज़रूरी है। (स्रोत फीचर्स)

नोट: स्रोत में छपे लेखों के विचार लेखकों के हैं। एकलव्य का इनसे सहमत होना आवश्यक नहीं है।
Photo Credit : https://www.science.org/do/10.1126/science.zfglxgr/full/_20251218_on_ai_convergences_lede.jpg

प्रातिक्रिया दे