এমন এক যুগে যেখানে ম্যানিপুলেটেড ভিডিওগুলি বিশৃঙ্খলা ছড়িয়ে দিতে পারে, বুলি মানুষ এবং ক্ষতিগ্রস্থ ক্ষতি করতে পারে, ইউসি রিভারসাইড গবেষকরা এই নকলগুলি প্রকাশের জন্য একটি শক্তিশালী নতুন সিস্টেম তৈরি করেছেন।
বৈদ্যুতিক ও কম্পিউটার ইঞ্জিনিয়ারিংয়ের অধ্যাপক অমিত রায়-চোদুরি এবং ইউসিআর এর মারলান এবং রোজমেরি বোর্নস কলেজ অফ ইঞ্জিনিয়ারিং থেকে ডক্টরাল প্রার্থী রোহিত কুন্ডু উভয়ই ভিডিও টেম্পারিং সনাক্ত করে এমন একটি কৃত্রিম বুদ্ধিমত্তা মডেল বিকাশের জন্য গুগল বিজ্ঞানীদের সাথে জুটি বেঁধেছিলেন-এমনকি যখন ম্যানিপুলেশনগুলি মুখের সোয়াপস এবং পরিবর্তিত বক্তৃতা ছাড়িয়ে যায়। (রায়-চৌধুরী ইউসিআর রিভারসাইড কৃত্রিম বুদ্ধিমত্তা গবেষণা ও শিক্ষা (উত্থাপন) ইনস্টিটিউটের সহ-পরিচালক, ইউসিআর-এর একটি নতুন আন্তঃশৃঙ্খলা গবেষণা কেন্দ্র।)
টেম্পারড এবং সিন্থেটিক ভিডিওগুলি (ite ক্যবদ্ধ) সনাক্তকরণের জন্য ইউনিভার্সাল নেটওয়ার্ক নামে পরিচিত তাদের নতুন সিস্টেমটি ব্যাকগ্রাউন্ড এবং গতির নিদর্শন সহ কেবল মুখগুলি নয় পুরো ভিডিও ফ্রেম পরীক্ষা করে জালিয়াতি সনাক্ত করে। এই বিশ্লেষণটি এটিকে প্রথম সরঞ্জামগুলির মধ্যে একটি করে তোলে যা সিন্থেটিক বা ডক্টরড ভিডিওগুলি সনাক্ত করতে সক্ষম যা মুখের সামগ্রীর উপর নির্ভর করে না।
“ডিপফেকস বিকশিত হয়েছে,” কুন্ডু বলেছিলেন। “এগুলি আর কেবল মুখের অদলবদল নয় People লোকেরা এখন পুরোপুরি জাল ভিডিও তৈরি করছে – মুখ থেকে ব্যাকগ্রাউন্ড পর্যন্ত – শক্তিশালী জেনারেটর মডেলগুলি ব্যবহার করে। আমাদের সিস্টেমটি সমস্ত কিছু ধরার জন্য নির্মিত হয়েছে।”
ইউনিটের বিকাশ আসে কারণ পাঠ্য-থেকে-ভিডিও এবং চিত্র-থেকে-ভিডিও প্রজন্ম অনলাইনে ব্যাপকভাবে উপলব্ধ হয়ে উঠেছে। এই এআই প্ল্যাটফর্মগুলি কার্যত যে কাউকে অত্যন্ত দৃ inc ়প্রত্যয়ী ভিডিওগুলিকে বানোয়াট করতে সক্ষম করে, ব্যক্তি, প্রতিষ্ঠান এবং গণতন্ত্রের জন্য গুরুতর ঝুঁকি তৈরি করে।
কুন্ডু বলেছিলেন, “এই সরঞ্জামগুলি কতটা অ্যাক্সেসযোগ্য হয়ে উঠেছে তা ভীতিজনক।” “মধ্যপন্থী দক্ষতা সম্পন্ন যে কেউ সুরক্ষা ফিল্টারগুলি বাইপাস করতে পারে এবং জনসাধারণের ব্যক্তিত্বের বাস্তবসম্মত ভিডিও তৈরি করতে পারে যা তারা কখনও বলেনি।”
কুন্ডু ব্যাখ্যা করেছিলেন যে পূর্ববর্তী ডিপফেক ডিটেক্টরগুলি প্রায় পুরোপুরি মুখের সংকেতগুলিতে মনোনিবেশ করেছিল।
“যদি ফ্রেমে কোনও মুখ না থাকে তবে অনেক ডিটেক্টর কেবল কাজ করে না,” তিনি বলেছিলেন। “তবে বিশৃঙ্খলা বিভিন্ন রূপে আসতে পারে। একটি দৃশ্যের পটভূমি পরিবর্তন করা সত্যকে ঠিক সহজেই বিকৃত করতে পারে।”
এটি সম্বোধন করতে, ইউনিট ভিডিও ক্লিপগুলি বিশ্লেষণ করতে একটি ট্রান্সফর্মার-ভিত্তিক গভীর শিক্ষার মডেল ব্যবহার করে। এটি সূক্ষ্ম স্থানিক এবং অস্থায়ী অসঙ্গতিগুলি সনাক্ত করে – পূর্ববর্তী সিস্টেমগুলির দ্বারা প্রায়শই মিস করা সংকেতগুলি। মডেলটি সিগলিপ নামে পরিচিত একটি ফাউন্ডেশনাল এআই কাঠামোর উপর আঁকেন, যা নির্দিষ্ট ব্যক্তি বা অবজেক্টের সাথে আবদ্ধ নয় এমন বৈশিষ্ট্যগুলি বের করে। “মনোযোগ-বৈচিত্র্য হ্রাস” নামে একটি অভিনব প্রশিক্ষণ পদ্ধতি সিস্টেমকে প্রতিটি ফ্রেমের একাধিক ভিজ্যুয়াল অঞ্চলগুলি পর্যবেক্ষণ করতে অনুরোধ করে, এটি কেবল মুখের দিকে মনোনিবেশ করা থেকে বিরত রাখে।
ফলাফলটি একটি সর্বজনীন ডিটেক্টর যা সাধারণ মুখের অদলবদল থেকে জটিল, সম্পূর্ণ সিন্থেটিক ভিডিওগুলিতে কোনও বাস্তব ফুটেজ ছাড়াই উত্পন্ন হয়।
“এটি একটি মডেল যা এই সমস্ত পরিস্থিতি পরিচালনা করে,” কুন্ডু বলেছিলেন। “এটাই এটিকে সর্বজনীন করে তোলে।”
গবেষকরা টেনের ন্যাশভিলের কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন (সিভিপিআর) সম্পর্কিত হাই র্যাঙ্কিং 2025 সম্মেলনে তাদের অনুসন্ধানগুলি উপস্থাপন করেছিলেন। সহ-লেখকদের মধ্যে গুগল গবেষক হাও জিওনগ, বিশাল মোহান্তি এবং অ্যাথুলা বালচন্দ্র অন্তর্ভুক্ত রয়েছে। আইইইই কম্পিউটার সোসাইটি এবং কম্পিউটার ভিশন ফাউন্ডেশন দ্বারা সহ-স্পনসরিত, সিভিপিআর বিশ্বের সর্বোচ্চ-প্রভাব বৈজ্ঞানিক প্রকাশনার স্থানগুলির মধ্যে একটি।
গুগলের সাথে সহযোগিতা, যেখানে কুন্ডু ইন্টার্নড, মডেলটিকে পাঠ্য বা স্থির চিত্রগুলি থেকে উত্পন্ন ভিডিও সহ বিস্তৃত পরিসরে মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য প্রয়োজনীয় বিস্তৃত ডেটাসেট এবং কম্পিউটিং সংস্থানগুলিতে অ্যাক্সেস সরবরাহ করেছিল – ফর্ম্যাটগুলি যা প্রায়শই বিদ্যমান ডিটেক্টরগুলিকে স্টাম্প করে।
যদিও এখনও বিকাশে রয়েছে, ইউনিট শীঘ্রই ভিডিও বিশৃঙ্খলার বিরুদ্ধে রক্ষায় গুরুত্বপূর্ণ ভূমিকা নিতে পারে। সম্ভাব্য ব্যবহারকারীদের মধ্যে সোশ্যাল মিডিয়া প্ল্যাটফর্ম, ফ্যাক্ট-চেকার এবং নিউজরুমগুলি পরিচালনা করে যা ম্যানিপুলেটেড ভিডিওগুলি ভাইরাল হতে বাধা দিতে কাজ করে।
কুন্ডু বলেছিলেন, “তারা যা দেখছে তা আসল কিনা তা লোকেরা জানার যোগ্য।” “এবং এআই বাস্তবতা নকল করার ক্ষেত্রে আরও ভাল হওয়ার সাথে সাথে আমাদের সত্য প্রকাশে আরও ভাল হতে হবে।”