পোর ম্যাট ও’ব্রায়েন
কেমব্রিজ, ম্যাসাচুসেটস, মার্কিন যুক্তরাষ্ট্র (এপি) – ইন্টারনেটে যা বলা হয়েছে তা হ’ল মানবতা সম্পর্কে কৃত্রিম বুদ্ধিমত্তা শেখানোর শুরু। এখন প্রযুক্তি সংস্থাগুলি একটি পুরানো জ্ঞানের আমানত অবলম্বন করছে: গ্রন্থাগারগুলিতে বইয়ের তাক।
পঞ্চদশ শতাব্দীর পুরাতন যুগে এমনকি একটি যুগেও প্রকাশিত প্রায় এক মিলিয়ন বই – এবং 254 টি ভাষায় – এটি একটি হার্ভার্ড বিশ্ববিদ্যালয়ের সংগ্রহের অংশ যা সম্প্রতি গবেষকদের সাথে ভাগ করা হয়েছিল। শীঘ্রই, পুরানো সংবাদপত্র এবং সরকারী নথিগুলির ধনগুলি বোস্টন পাবলিক লাইব্রেরির দখলেও অন্তর্ভুক্ত করা হবে।
শতবর্ষের খণ্ডগুলিতে অ্যাক্সেস পাওয়ার জন্য ভল্টগুলি খোলার ফলে প্রযুক্তি সংস্থাগুলির জন্য ডেটা ভাগ্য হতে পারে যা novel পন্যাসিক, ভিজ্যুয়াল শিল্পী এবং অন্যদের কাছ থেকে দাবির মুখোমুখি হতে পারে যাদের সৃজনশীল কাজগুলি এআইয়ের চ্যাটবটগুলি প্রশিক্ষণ দেওয়ার জন্য তাদের সম্মতি ছাড়াই ব্যবহার করেছে।
মাইক্রোসফ্টের সাধারণ আইনজীবী বার্টন ডেভিস বলেছেন, “পাবলিক ডোমেন তথ্য দিয়ে শুরু করা একটি বুদ্ধিমান সিদ্ধান্ত, কারণ আপনার এখনও কপিরাইট রয়েছে এমন সামগ্রীর তুলনায় এই মুহুর্তে এটি কম বিতর্কিত।”
ডেভিস ইঙ্গিত দিয়েছিলেন যে গ্রন্থাগারগুলি “বিপুল পরিমাণে আকর্ষণীয় সাংস্কৃতিক, historical তিহাসিক এবং ভাষাগত ডেটা” রক্ষা করে, যা এআইয়ের চ্যাটবটগুলি বেশিরভাগ ক্ষেত্রে শিখেছে এমন অনলাইন মন্তব্যগুলির গত দশকগুলিতে অনুপস্থিত। তথ্যের বাইরে চলে যাওয়ার আশঙ্কাও এআইয়ের বিকাশকারীদের “সিন্থেটিক” ডেটা অবলম্বন করতে পরিচালিত করেছে, চ্যাটবটগুলি নিজেরাই তৈরি করেছে এবং নিম্ন মানের দ্বারা তৈরি করেছে।
“মাইক্রোসফ্ট এবং ওপেনএআই” সীমাহীন উপহার ” – চ্যাটজিপিটি প্রস্তুতকারক – হার্ভার্ড ভিত্তিক প্রাতিষ্ঠানিক ডেটা ইনিশিয়েটিভের সহায়তায় বিশ্বজুড়ে গ্রন্থাগার এবং যাদুঘরের সাথে তাদের historical তিহাসিক সংগ্রহগুলি এমনভাবে কীভাবে প্রস্তুত করা যায় সে সম্পর্কে কাজ করছে যাতে তারা যে সম্প্রদায়গুলিতে উপস্থিত হয় তাদেরও উপকৃত করে।
হার্ভার্ড আইন অনুষদের লাইব্রেরি ইনোভেশন ল্যাবরেটরিতে গবেষণা পরিচালিত অ্যারিস্টানা স্কুরতাস বলেছেন, “আমরা বর্তমানে এআইয়ের হাতে থাকা এই সংস্থাগুলিতে ফিরে আসা ক্ষমতার অংশটি স্থানান্তর করার চেষ্টা করছি।” “গ্রন্থাগারিকরা সর্বদা ডেটা এবং তথ্যের প্রশাসক হয়ে থাকে।”
ডেটা সেট করে যে হার্ভার্ড, ইনস্টিটিউশনাল বুকস 1.0, স্ক্যান করা কাগজের 394 মিলিয়নেরও বেশি পৃষ্ঠা রয়েছে। প্রাচীনতম রচনাগুলির মধ্যে একটি পঞ্চদশ শতাব্দীর: ফুল এবং গাছের চাষের বিষয়ে কোরিয়ান চিত্রশিল্পীর হাতে লেখা প্রতিচ্ছবি। কাজের সর্বাধিক ঘনত্ব উনিশ শতকে, সাহিত্য, দর্শন, আইন এবং কৃষিক্ষেত্রের মতো বিষয়গুলিতে, সমস্ত সাবধানতার সাথে গ্রন্থাগারিকদের প্রজন্মের দ্বারা সংরক্ষণ করা এবং সংগঠিত।
এটি তাদের সিস্টেমগুলির যথার্থতা এবং নির্ভরযোগ্যতা উন্নত করার চেষ্টা করে এআই বিকাশকারীদের পক্ষে খুব উপকারী হওয়ার প্রতিশ্রুতি দেয়।
সাইবারস্পেসের গবেষণার উপর দৃষ্টি নিবদ্ধ করা একটি জীব, বার্কম্যান ক্লেইন সেন্টারের ইন্টারনেট অ্যান্ড সোসাইটির জন্য বার্কম্যান ক্লেইন সেন্টারের প্রযুক্তির প্রধান গ্রেগ লেপার্ট গ্রেগ লেপার্ট বলেছেন, “এআই -তে প্রশিক্ষণে ব্যবহৃত অনেকগুলি তথ্যই মূল উত্স থেকে আসে না।” এই বইগুলির সংগ্রহটি “শারীরিক অনুলিপি যতক্ষণ না ইনস্টিটিউটগুলি স্ক্যান করেছিল তা আসলে এই উপকরণগুলি সংগ্রহ করেছিল,” তিনি যোগ করেন।
কৃত্রিম বুদ্ধিমত্তার কারণে চ্যাটজিপ্ট বাণিজ্যিক উন্মত্ততার সূত্রপাতের আগে, বেশিরভাগ এআই গবেষকরা উইকিপিডিয়া থেকে প্রাপ্ত পাঠ্য প্যাসেজগুলির উত্স সম্পর্কে খুব বেশি আগ্রহী ছিলেন না, রেডডিট এবং কখনও কখনও পাইরেট বইয়ের বিস্তৃত আমানতের মতো সামাজিক মিডিয়া ফোরাম। তাদের কেবল কম্পিউটার বিশেষজ্ঞরা টোকেনকে কল করার প্রয়োজন ছিল: ডেটা ইউনিট, যার প্রতিটি একটি শব্দের খণ্ডকে উপস্থাপন করতে পারে।
হার্ভার্ডের এআই -তে নতুন প্রশিক্ষণ সংগ্রহের অনুমান 242 বিলিয়ন টোকেন, এটি এমন একটি পরিমাণ যা মানুষের জন্য বোঝা কঠিন, তবে এটি সর্বাধিক উন্নত এআই সিস্টেমে যা চালু করা হচ্ছে তার একটি ড্রপ রয়ে গেছে। উদাহরণস্বরূপ, ফেসবুকের মূল সংস্থা মেটা বলেছে যে এআইয়ের বিস্তৃত ভাষার মডেলের সর্বশেষতম সংস্করণটি পাঠ্য, চিত্র এবং ভিডিওগুলি থেকে প্রাপ্ত 30 বিলিয়নেরও বেশি টোকেন সহ প্রশিক্ষিত হয়েছিল।
মেটা কৌতুক অভিনেতা সারা সিলভারম্যান এবং অন্যান্য লেখকদের দ্বারা প্রকাশিত রচনাগুলির সাথেও দাবি করেছেন যা সংস্থাটিকে পাইরেটেড ওয়ার্কসের “ঘোস্ট লাইব্রেরি” থেকে তাদের বই চুরির অভিযোগ করেছে।
এখন, কিছু সংরক্ষণের সাথে, বাস্তব গ্রন্থাগারগুলি তাদের শর্ত চাপিয়ে দিচ্ছে।
ওপেনাই, যিনি কপিরাইট লঙ্ঘনের জন্য একাধিক দাবির মুখোমুখি হচ্ছেন, তিনি এই বছর অক্সফোর্ড বিশ্ববিদ্যালয়ের অন্তর্ভুক্ত বোডলিয়ান লাইব্রেরি সহ একদল গবেষণা প্রতিষ্ঠানকে ৫০ মিলিয়ন ডলার দান করেছিলেন, যা অদ্ভুত বইগুলি ডিজিটালাইজ করছে এবং এআই ব্যবহার করে তাদের প্রতিলিপি ব্যবহার করে।
যখন সংস্থাটি প্রথম আমেরিকা যুক্তরাষ্ট্রের অন্যতম বৃহত্তম বোস্টন পাবলিক লাইব্রেরির সাথে যোগাযোগ করেছিল, তখন গ্রন্থাগারটি স্পষ্টভাবে উল্লেখ করেছে যে ডিজিটাইজড যে কোনও তথ্য সবার জন্য উপলব্ধ হবে, জেসিকা চ্যাপেল শেয়ার করেছেন, এর ডিজিটাল এবং অনলাইন পরিষেবাদির পরিচালক।
চ্যাপেল বলেছিলেন, “ওপেনাইয়ের প্রচুর পরিমাণে প্রশিক্ষণ ডেটাতে এই আগ্রহ ছিল। আমাদের প্রচুর পরিমাণে ডিজিটাল অবজেক্টের প্রতি আগ্রহ রয়েছে।
ডিজিটাইজেশন ব্যয়বহুল। উদাহরণস্বরূপ, বোস্টন লাইব্রেরির জন্য এটি ফরাসি নিউ ইংল্যান্ডে কয়েক ডজন সংবাদপত্রকে স্ক্যান করা এবং সংগঠিত করে যা কুইবেকের কানাডিয়ান অভিবাসীদের সম্প্রদায়ের মধ্যে 19 তম এবং বিংশ শতাব্দীর গোড়ার দিকে ব্যাপকভাবে বিতরণ করা হয়েছিল। এখন যেহেতু এই পাঠ্যটি এআই প্রশিক্ষণের জন্য ব্যবহৃত হয়, এটি গ্রন্থাগারিকরা যেভাবেই করতে চান এমন প্রকল্পগুলিকে অর্থায়ন করতে সহায়তা করে।
হার্ভার্ড সংগ্রহটি ইতিমধ্যে ২০০ 2006 সাল থেকে গুগলের অন্য একটি প্রযুক্তিগত জায়ান্ট, তার বিতর্কিত প্রকল্পে একটি অনলাইন লাইব্রেরি তৈরি করার জন্য 20 মিলিয়নেরও বেশি বইয়ের অনুসন্ধানের ক্ষমতা সহ একটি অনলাইন লাইব্রেরি তৈরি করতে ডিজিটাইজ শুরু করেছিল।
গুগল তার অনলাইন লাইব্রেরির জন্য লেখকদের দাবী থেকে নিজেকে রক্ষা করে বছরগুলি ব্যয় করেছে, যার মধ্যে অনেকগুলি নতুন এবং কপিরাইট অন্তর্ভুক্ত ছিল। অবশেষে এটি ২০১ 2016 সালে সমাধান করা হয়েছিল, যখন মার্কিন যুক্তরাষ্ট্রের সুপ্রিম কোর্ট নিম্ন আদালতের ব্যর্থতা অনুমোদন করেছে যা কপিরাইট লঙ্ঘনের জন্য দাবি প্রত্যাখ্যান করেছিল।
এখন, প্রথমবারের মতো, গুগল হার্ভার্ডের সাথে গুগল বইগুলি থেকে ভলিউমগুলি বের করতে এবং এআই বিকাশকারীদের সাথে ভাগ করে নেওয়ার উপায় সুগম করার জন্য কাজ করেছে। মার্কিন যুক্তরাষ্ট্রে কপিরাইট সুরক্ষা সাধারণত 95 বছর ধরে এবং সাউন্ড রেকর্ডিংয়ের জন্য আরও বেশি সময়।
নতুন উদ্যোগটি একই গ্রুপের দ্বারা প্রশংসা করা হয়েছিল যারা তাঁর বইয়ের প্রকল্পের জন্য গুগলের বিরুদ্ধে মামলা করেছিলেন এবং সম্প্রতি সম্প্রতি সংস্থাগুলিকে আদালতে নেতৃত্ব দিয়েছেন।
রাইটার্স অ্যাসোসিয়েশনের নির্বাহী পরিচালক মেরি রাসেনবার্গার বলেছেন, “এই শিরোনামগুলির মধ্যে অনেকগুলি কেবল মূল গ্রন্থাগারগুলির তাকগুলিতেই বিদ্যমান এবং এই ডেটা সেটটি তৈরি এবং ব্যবহার এই খণ্ডগুলিতে অ্যাক্সেস এবং তাদের যে জ্ঞান রয়েছে তার অ্যাক্সেসকে প্রসারিত করবে।” “সর্বোপরি, প্রশিক্ষণের জন্য আইনী তথ্যের একটি বিস্তৃত সেট তৈরি করা নতুন এআই মডেল তৈরির গণতান্ত্রিকীকরণ করবে।”
এআই সরঞ্জামগুলির পরবর্তী প্রজন্মের জন্য এই সমস্ত কী কার্যকর হবে তা এখনও দেখার বিষয়, কারণ ডেটা আলিঙ্গন ফেস প্ল্যাটফর্মে ভাগ করা হয়েছে, এতে ডেটা সেট এবং ওপেন সোর্স এআইয়ের মডেল রয়েছে যা যে কেউ ডাউনলোড করতে পারে।
বইয়ের সংগ্রহটি এআইয়ের বৈশিষ্ট্যযুক্ত তথ্যের উত্সগুলির চেয়ে ভাষাগতভাবে আরও বৈচিত্র্যময়। অর্ধেকেরও কম খণ্ড ইংরেজিতে রয়েছে, যদিও ইউরোপীয় ভাষাগুলি প্রাধান্য অব্যাহত রাখে, বিশেষত জার্মান, ফরাসী, ইতালিয়ান, স্পেনীয় এবং লাতিন।
লেপার্ট বলেছিলেন, উনিশ শতকের চিন্তার ইম্পুয়েডা বইয়ের সংকলনও প্রযুক্তি শিল্পের এআই এজেন্ট তৈরির চেষ্টা করার জন্য “অত্যন্ত গুরুত্বপূর্ণ” হতে পারে যা পরিকল্পনা এবং যুক্তিযুক্ত মানুষদের পাশাপাশি তৈরি করতে পারে, লেপার্ট বলেছিলেন।
“একটি বিশ্ববিদ্যালয়ে আপনার কাছে এটি কী বোঝায় তা সম্পর্কে অনেকগুলি শিক্ষাগত উপকরণ রয়েছে,” তিনি পর্যবেক্ষণ করেছেন। “কীভাবে প্রক্রিয়াগুলি সম্পাদন করা যায় এবং কীভাবে বিশ্লেষণ কার্যকর করা যায় সে সম্পর্কে আপনার কাছে প্রচুর বৈজ্ঞানিক তথ্য রয়েছে” “
একই সময়ে, বর্ণবাদী এবং colon পনিবেশিক আখ্যান পর্যন্ত কুখ্যাত বৈজ্ঞানিক ও চিকিত্সা তত্ত্ব থেকে শুরু করে অনেকগুলি অপ্রচলিত তথ্যও রয়েছে।
হার্ভার্ড লাইব্রেরি ইনোভেশন ল্যাবরেটরির সমন্বয়কারী ক্রিস্টি মুক্ক বলেছেন, “যখন কেউ ক্ষতিকারক বিষয়বস্তু এবং ভাষার আশেপাশে কিছু জটিল সমস্যা রয়েছে,” যখন বলেছিলেন যে এই উদ্যোগটি ডেটা ব্যবহারের ঝুঁকিগুলি হ্রাস করার জন্য এই উদ্যোগটি গাইডেন্স দেওয়ার চেষ্টা করছে এবং এইভাবে ব্যবহারকারীদের তাদের নিজস্ব অবহিত সিদ্ধান্তগুলি তৈরি করতে সহায়তা করে এবং একটি দায়বদ্ধ উপায় ব্যবহার করতে সহায়তা করে। “
————
অ্যাসোসিয়েটেড প্রেস এবং ওপেনএআইয়ের একটি লাইসেন্স এবং প্রযুক্তি চুক্তি রয়েছে যা ওপেনএকে এপি পাঠ্য ফাইলের অংশে অ্যাক্সেস করতে দেয়।
মূলত প্রকাশিত: