به گزارش خبرگزاری مهر، کتاب «پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافتههای پژوهشی» با تحقیق و نگارش مهرنوش شمسیفرد عضو هیئت علمی دانشگاه شهید بهشتی و محمود بیجنخان عضو هیئت علمی دانشگاه تهران توسط سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) منتشر شد.
در جهان کنونی، هر روزه حجم زیادی از اطلاعات در قالب محتوای زبانی و مستندات متنی یا فایلهای صوتیِ گفتاری بر بستر وب و فضای مجازی عرضه میشود و به کمک ماشینهای هوشمند، پردازش شده در اختیار کاربران قرار میگیرد. تولید، مدیریت و به کارگیری این محتوا مستلزم بهرهمندی از دانش و فناوریهای مرتبط با پردازش زبان و گفتار است.
کتاب حاضر به منظور ارائه گزارشی جامع و روزآمد از وضعیت پژوهشیِ جاری در حوزه پردازش متن و گفتار فارسی، به قلم جمعی از متخصصان این حوزه، تدوین شده است. این کتاب دارای دو قسمت پردازش متن و پردازش گفتار است و هر قسمت با بخشِ مرور منابع و زیرساختهای دادهای آغاز میگردد و پس از بررسی کارهای انجامشده در توسعه ابزارها و پردازشهای پایه و میانی، به بخش کاربردهای سطح بالاتر ختم میشود. هر بخش شامل چند فصل است و هر فصل، به شکل یک مقاله مروری نوشته شده که ضمن مطالعه کارهای گذشته، به تحلیل وضعیت حال میپردازد و با بیان مسائل بازِ حوزه، دریچهای به آینده میگشاید.
محتوای کتاب طیف گستردهای از مطالب، از به کارگیری و تطبیق آخرین دستاوردهای جهانی این حوزه بر روی زبان و گفتار فارسی تا ابداع روشهای خاص زبان فارسی، و ازمبانی نظری تا نتایج کاربردی را پوشش میدهد. این کتاب میتواند منبع مناسبی برای تمامیِ دانشجویان و محققانی باشد که در زمینه تولید منابع، ابزارها و برنامههای کاربردی در حوزه پردازش متن و گفتار فارسی، پژوهش و فعالیت میکنند.
این کتاب در شش فصل از جمله منابع و دادگان های متن محور و مدخل محور، ابزارها و پردازشهای پایه و میانی متن، تحلیل لغوی، نحوی و معنایی متون، حوزههای کاربردی پردازش متن، منابع و ابزارهای پردازش گفتار، حوزههای کاربردی پردازش گفتار مطالبی را ارائه داده است.
در بخشی از این کتاب میخوانیم:
«این کتاب ابتدا در سه قسمت پردازش متن، پردازش گفتار و پردازش خط فارسی طراحی شد که در ویراست اول تنها دو قسمت از سه قسمت تدوین شده است. بدین ترتیب کتاب حاضر دارای دو قسمت پردازش متن و پردازش گفتار فارسی است و امید میرود قسمت پردازش خط و سایر موضوعاتی که به دلیل موانع موجود، در این ویراست، فصلی را به خود اختصاص ندادهاند، در ویراستهای بعدی، فصول جدید و مستقلی بیابند و به نسخه به روز شده فصول کنونی اضافه شوند.
در کتاب حاضر هر قسمت، با بخش زیرساختهای دادهای آغاز میگردد و پس از مرور کارهای انجام شده در توسعه ابزارها و پردازشهای پایه و میانی، به بخش کاربردهای سطح بالاتر ختم میشود. هر بخش شامل چند فصل است، و در هر فصل، سعی بر آن بوده تا ضمن بررسی وضعیت موجود و تحلیلی از آن، افقهای پیش رو و مسائل باز حوزه مربوط ترسیم و تبیین گردد. به بیان دیگر هر فصل که به شکل یک مقاله مروری درباره عنوان آن فصل، به قلم یکی از خبرگان و متخصصان موضوع نوشته شده، با مروری بر گذشته و تحلیلی بر حال، دریچهای به آینده میگشاید.
بخش اول کتاب که به منابع زبانی و دادگان های متن محور و مدخل محور در پردازش متن اختصاص یافته، شامل پنج فصل است. فصل اول نگاهی کلی به منابع زبانی و پیکرههای متنی و واژی دارد و جایی که به پیکرههای مورد توجه در فصول دیگر میرسد صرفاً به آنها ارجاع میدهد تا حتی الامکان از تکرار مطالب پرهیز شود. در واقع فصل اول علاوه بر معرفی حوزه کار، خود پیوند دهنده فصول دیگر و درآمدی برای ورود به فصول دو تا پنج نیز هست. پنج فصل نخست به معرفی دادگانها و منابع زبانی ای اختصاص داده شدهاند که در ادامه کتاب در فصول مختلف مورد استفاده قرار میگیرند. معرفی و تشریح پیکرده های متنی و واژی زبان فارسی که با نشانههای صرفی، نحوی سازهای و وابستگی، معنایی و گفتمانی غنی شدهاند، در این فصول صورت گرفته است.
در بخش دوم، ابزارها و پردازشهای پایه و میانی متن معرفی میشوند. پیش پردازشهای پایه که عمدتاً برای هر کاربردی از متن استفاده میشوند، مانند واحدسازی، هنجارسازی، تحلیل ساخت واژی، بن واژه یابی و ریشه یابی، در فصل ششم مورد مطالعه قرار میگیرند. این فصل ضمن بیان مبانی نظری در این حوزه به بررسی و مقایسه ابزارهای پیش پردازش موجود برای زبان فارسی خواهد پرداخت.
فصول هفتم تا دوازدهم به میان ابزارها یا (پیش) پردازشهای میانی اختصاص دارند. منظور از (پیش) پردازشهای میانی پردازشهایی هستند که معمولاً نه به عنوان یک کاربرد مستقل، بلکه به عنوان یک زیر وظیفه از وظایف یک برنامه کاربردی و در مراحل ابتدایی آن مورد استفاده قرار میگیرند، اما به اندازه پیش پردازشهای پایه، ابتدایی و سطح پایین نیستند و الزاماً در مراحل اولیه همه کاربردها، نیازی به آنها نیست. بازشناسی موجودیتهای نامدار جهت شناسایی اسامی افراد، سازمانها، مکانها، زمانها، و مانند آن در متن، بازشناسی همه مرجعها به منظور تشخیص مرجع ضمایر و همچنین شناسایی کلمات مختلفی که در متن به یک موجودیت واحد اشاره دارند، شناسایی اصطلاحات چند کلمهای برای شناسایی اصطلاحات چند کلمهای برای شناسایی افعال و کلمات مرکب و چند واحدی و اصطلاحات و عبارات زبانی و در آخر رده بندی متون در این دسته قرار میگیرند. همچنین فرایندهایی مانند تعبیه کلمات و ساخت بردار جاسازی آنها در فضای برداری معنایی و استخراج مدل زبانی و همایندها نیز وظایفی هستند که در این بخش به آنها توجه میشود و برای بسیاری از کاربردهای ضروری اند.
در بخش سوم به تحلیلهای لغوی، نحوی و معنایی متون پرداخته شده و فصولی در مورد خطایابی متن، تجزیه سازهای و وابستگی جملات و معناشناسی رایانشی را دربرگرفته است. فصل سیزده که به خطایابی و استانداردسازی متون تخصیص یافته، به بررسی نظری و کاربردی خطایابی در زبان فارسی و معرفی و مقایسه سامانههای تهیه شده جهت ویرایش متون، استانداردسازی، خطایابی و اصلاح آنها میپردازد. فصول چهارده تا شانزده به تجزیه نحوی جملات فارسی اختصاص دارند و به ترتیب تجزیه سازهای، تجزیه سطحی (چانکینگ) و تجزیه وابستگی زبان را مورد مطالعه قرار میدهند. بررسی مبانی نظری و الگوریتمهای معرفی شده در سطح جهانی و نحوه انطباق آنها برای زبان فارسی از مباحث مورد بحث در این فصول هستند. در آخرین فصل از بخش سوم به تحلیلهای معنایی پرداخته میشود و طیف وسیعی از مباحث مطرح در معناشناسی رایانشی از بازنمایی معنایی و رفع ابهام معنایی کلمات تا شباهت سنجی معنایی کلمات و جملات و بازنمایی معنای سازههای بزرگتر از کلمه در دو حالت ترکیب پذیر و غیرترکیب پذیر را شامل میشود. مباحثی مثل دگرنویسی، شناسایی نقشهای موضوعی، استلزامات متنی و شناسایی استعاره در این فصل مورد بحث قرار میگیرند.
در نهایت در بخش چهارم، شش مهارت تخصصی زبان در چارچوب شش حوزه کاربردی خلاصه سازی متن، مشابهت یابی و کشف تقلب، احساس کاوی، ترجمه ماشینی، سامانههای پرسش و پاسخ و سامانههای جستجوگر معرفی میشوند.
بخش پنجم و ششم به پردازش گفتار اختصاص دارد. در این قسمت نیز سیر حرکت از دادگانها و منابع زبانی آغاز میشود و سپس ابزارهای پایه و میانی پردازش گفتار فارسی معرفی میشوند و در نهایت کاربردها معرفی خواهند شد. بنابراین بخش پنجم به معرفی پیکرهها و ابزارهای پایه پردازش گفتار فارسی اختصاص یافته است و سرانجام در بخش ششم فصول ۲۶ تا ۲۹ پردازشهای میانی در حوزه گفتار (که البته در اینجا خود میتوانند کاربرد نهایی نیز باشند) مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بازیابی اطلاعات گفتاری و بازشناسی گفتاری معرفی میشوند و در فصل آخر به چند مهارت تخصصی گفتاری زبان فارسی در چارچوب برنامههای کاربردی پردازش گفتار پرداخته میشود.
این کتاب به قیمت ۳۹۳ هزار تومان عرضه شده است.
نظر شما