پیام‌نما

الَّذِينَ أُخْرِجُوا مِنْ دِيَارِهِمْ بِغَيْرِ حَقٍّ إِلَّا أَنْ يَقُولُوا رَبُّنَا اللَّهُ وَ لَوْلَا دَفْعُ اللَّهِ النَّاسَ بَعْضَهُمْ بِبَعْضٍ لَهُدِّمَتْ صَوَامِعُ وَبِيَعٌ وَ صَلَوَاتٌ وَ مَسَاجِدُ يُذْكَرُ فِيهَا اسْمُ‌اللَّهِ كَثِيرًا وَ لَيَنْصُرَنَّ‌اللَّهُ مَنْ يَنْصُرُهُ إِنَّ‌اللَّهَ لَقَوِيٌّ عَزِيزٌ * * * همانان که به ناحق از خانه‌هایشان اخراج شدند [و گناه و جرمی نداشتند] جز اینکه می‌گفتند: پروردگار ما خداست و اگر خدا برخی از مردم را به وسیله برخی دیگر دفع نمی‌کرد، همانا صومعه‌ها و کلیساها و کنیسه‌ها و مسجدهایی که در آنها بسیار نام خدا ذکر می‌شود به شدت ویران می‌شدند؛ و قطعاً خدا به کسانی که [دین] او را یاری می‌دهند یاری می‌رساند؛ مسلماً خدا نیرومند و توانای شکست‌ناپذیر است. * * كسى كاو دهد يارى كردگار / بود ياورش نيز پروردگار

۲۰ شهریور ۱۴۰۱، ۱۱:۵۵

توسط محققان کشور؛

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

محققان کشور موفق به تهیه مجموعه پاک‌سازی شده پیکره بزرگ متنی و قابل استفاده ای در حوزه پردازش زبان طبیعی فارسی شدند.

به گزارش خبرنگار مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه «پیکره‌ متنی بزرگ» یکی از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبان‌های با منابع کمتر مانند فارسی بیشتر احساس می‌شود.

وی افزود: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانش‌بنیان برای این مساله راه‌حل پیکره ناب را معرفی کردند. این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.

حسینیان با بیان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

وی افزود: مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره می‌توان برای روان کردن مدل‌های زبانی، که در اصل برای زبان انگلیسی تهیه شده‌اند نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

کد خبر 5585977

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
  • نظرات حاوی توهین و هرگونه نسبت ناروا به اشخاص حقیقی و حقوقی منتشر نمی‌شود.
  • نظراتی که غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نمی‌شود.
  • captcha