به گزارش خبرگزاری مهر، به گفته پردیس ثابتی دانشمند ایرانی دانشگاه هاروارد کاربردهای چنین ابزاری بی انتها خواهد بود، برای مثال می توان با استفاده از آن الگوهای چندگانه پنهانی در هر نوع مجموعه داده ها از قبیل داده های بهداشتی یا آمار مسابقات بیسبال را کشف کرد.
وی می گوید مجموعه داده های زیادی وجود دارند که محققان می خواهد در میان آنها به اکتشاف بپردازند و درون آنها ارتباطات زیادی وجود دارند که محققان می خواهند آنها را کشف کنند. چشم انسان بهترین ابزار برای یافتن این ارتباطات است اما مجموعه های داده ها به اندازه ای گسترده هستند که چشم در برابر آن ابزاری ضعیف به شمار می رود. از این رو این ابزار جدید می تواند راهکاری کاربردی را برای اکتشاف در میان داده ها و یافتن ارتباطات میان آنها در اختیار محققان قرار دهد.
ابزارهای کنونی داده کاوی زمانی که از آنها برای ردیابی الگوهای متعدد در میان مجموعه داده های بزرگ استفاده می شود کمبودهایی را از خود نشان می دهند. با این همه ابزار MINE می تواند این الگوها را به خوبی رتبه بندی کند، طیف گسترده ای از الگوها را رد یابی کرده و آنها را بر اساس تعداد عوامل متفاوتی که مورد توجه محقق قرار دارند مشخص کند.
ثابتی به همراه تیمی از محققان این ابزار را بر روی چندین مجموعه بزرگ داده ها از جمله مجموعه داده هایی در رابطه با تریلیونها ریزجاندارانی که درون روده زندگی می کنند، آزمایش کردند. این ابزار توانست در حدود 22 میلیون مقایسه را در میان داده های دریافتی انجام داده و الگوهای پنهان در آنها را به چند صد الگوی جالب توجه که پیش از این مورد مشاهده قرار نگرفته بودند، محدود سازد.
به گفته "مایکل میتزنماخر" استاد علوم رایانه ای دانشگاه هاروارد هدف از استفاده از چنین ابزاری بررسی بیشترین ابعاد ممکن در داده ها و بیشترین ارتباطات ممکن در میان آنها است تا در نهایت برترین داده ها انتخاب شوند. این ابزار جدید نوعی ابزار اکتشافی است که می تواند ارتباطات میان داده ها را کشف کرده و بر اساس اهمیت رتبه بندی کند.
بر اساس گزارش تی جی دیلی، ثابتی می گوید به این شکل امکان جستجو برای یافتن یک الگو در شرایطی که محقق هنوز نمی داند دقیقا در جستجوی چه چیزی است، به وجود خواهد آمد. MINE می تواند ایده های جدید و ارتباطاتی ایجاد کند که تا کنون کسی به فکر جستجو برای یافتن آنها نیفتاده است. به صورت ویژه این ابزار برای اکتشاف در میان مجموعه داده هایی مناسب است که می توانند حاوی بیش از یک الگوی مهم باشند.
نظر شما