به گزارش خبرگزاری مهر، آرش محمدی فارغ التحصیل کارشناسی ارشد و مجری طرح گفت: سیستم های خودکار بازشناسی گفتار امروزه کاربردهای زیادی در محیط های واقعی و شرایط عملی پیدا کرده اند و این لزوم بهبود عملکرد این سیستم ها را در محیط های واقعی ایجاد می کند.
وی هدف از اجرای این پروژه را بازسازی و مقاوم سازی گفتار از دست رفته بر اثر نویز در محیط های واقعی ذکر کرد و گفت: در روشهایی که تاکنون وجود داشته اغلب تلاش بر این بوده که پارمترهای طیفی و آمار نویز به گونه ای تخمین زده شده و از این طریق نویز از روی گفتار سیگنال حذف و بازشناسی را بهبود داده شود.
این محقق ادامه داد: از سال 2000 تا 2005 یک سری روش های جایگزین بر پایه افزونگی اطلاعات در سیگنال گفتار ارائه شد. در این روشها با توجه به این نکته که نویز به صورت محلی در حوزه فرکانس عمل می کند و تنها بعضی از قسمتهای سیگنال را تخریب می ند، بازشناسی تنها به وسیله گفتار باقیمانده و بازسازی گفتار از دست رفته بهبود داده می شود.
محمدی اضافه کرد: در این پژوهش اطلاعات گفتار حذف شده با توجه به افزونگی اطلاعاتی در قسمت های موجود بازسازی می شود که این کار بر روی دادگان فارسی و انگلیسی انجام شد.
مجری طرح در ادامه خاطر نشان کرد: جهت بازسازی پس از پیاده سازی الگوریتمهای پیشنهادی در کارهای پیشین سه ایده جدید ارائه شد. نخست استفاده از خوشه بندی آوایی جهت بهبود روش خوشه بندی معمولی، مدل سازی بردارهای طیفی با استفاده از توزیع لاپلاس و تخمین ویژگی های از دست رفته ایده دوم این پایان نامه بوده و در نهایت سومین ایده، بهره گیری از همبستگی های زمانی جهت بازسازی اسپکتروگرام ناقص با استفاده از کالمن فیلتر است.
نظر شما