اخیراً اكثر تكنیك هایی كه برای فشرده سازی سیگنال گفتار بكار میروند، براساس پیش بینی خطی ساختار یافته اند. سیگنال گفتار بعنوان یك ابزار مهم در ارتباطات انسان در فناوری های دیجیتالی مورد توجه خاص قرار گرفته است. نرخ بیت سیگنال گفتار ارسال شده باید كاهش یابد. سیگنال گفتار یك سیگنال پیوسته و غیرخطی بوده كه بصورت فیزیكی توسط لوله صوتی انسان تولید و شكل داده میشود، بنابراین ویژگی های سیگنال گفتار به حركات لوله صوتی در طول زمان و همچنین مشخصات گوینده بستگی دارد. تبدیل پارامترهای LPC به LSP كارایی كدكننده های با نرخ بیت كم را بهبود میبخشد.
پارامترهای LSP فركانس های فرمنت لوله صوتی را بصورت ریاضی مدلسازی میكنند. ازسوی دیگر شبكه های عصبی به عنوان ابزاری موفق تاكنون در كاربردهای گوناگونی از پردازش گفتار و زبان مورد استفاده قرار گرفته اند. در این راستا كاربردهای بازشناسی خودكار گفتار (ASR)، سنتز گفتار طبیعی و پردازش زبان طبیعی (NLP) به عنوان نمونه هایی كه توسط مؤلف برای زبان فارسی تجربه شده اند، قابل ذكر است. برای كدكننده های گفتار نیز شبكه های عصبی در حوزه كاری مورد استفاده قرار گرفته اند: پیش بینی كننده های نورونی برای بهبود كیفیت و كاهش پیچیدگی محاسباتی در كدكننده ها. در این تحقیق یك روش جدید برای كد كردن گفتار با نرخ بیت كم معرفی میشود كه از پارامترهای LSP برای استخراج و نگاشت ویژگیهای سیگنال گفتار با استفاده از نوعی شبكه عصبی مصنوعی بنام شبكه خود سازمانده (SOM) استفاده میكند. استفاده از این روش نرخ بیت گفتار بازسازی شده را كاهش می دهد، در حالی كه كیفیت سیگنال تفاوت آشكاری با گفتار اصلی ندارد. برای اندازه گیری كیفیت گفتار سنتز شده از معیار میانگین امتیاز آرا داده شده (MOS) استفاده می شود.
فصل اول: كلیات
1-1) هدف
یكی از ابزارهای ارتباطی انسان، گفتار است. سیستمهای ارتباطی نوین و پیشرفته بطور گستردهای براساس پردازش و ارسال گفتار بنا نهاده شده اند. خطوط تلفن دیجیتال، شبكه های اینترنت، ویدیو كنفرانسها و پیام های صوتی تنها تعدادی از كاربردهای روزمره چنین سیستمهایی است. با وجود چنین كاربردهای وسیعی، ناگزیر نیاز به گفتاری باكیفیت بالا در پهنای باند ارسال كمتر وجود دارد. كار اصلی كدكننده های گفتار پیشرفته، رقمی كردن سیگنال گفتار آنالوگ با استفاده از فرآیند نمونه برداری است. بنابراین یك كدكننده برای تولید شكل كدشده از یك سیگنال گفتار، یك دنباله ی عددی را پردازش میكند. گفتار كد شده بسته به كاربردی كه دارد، ارسال یا ذخیره میشود. كار هر واكدكننده نیز بازسازی گفتار اصلی از دنباله های كدشده است. كد كردن گفتار یك فشرده سازی همراه با اتلاف است، یعنی مقداری از كیفیت سیگنال گفتار اصلی در طی عملیات فشرده سازی به ازای كاهش حجم اطلاعات و افزایش سرعت ارسال، كاسته میشود. برای بهبود كیفیت گفتار فشرده شده روشهای مختلفی وجود دارد، در این تحقیق، از یك شبكة عصبی با قابلیت خودسازماندهی برای این كار استفاده شده است. از این شبكه عصبی مصنوعی همان گونه كه توضیح داده خواهد شد، برای دسته بندی بردارهای حاصل از پردازش گفتار استفاده میشود. دسته بندی بردارهای بدست آمده از پردازش و چندیسازی گفتار باعث كاهش بیت های بكار رفته در گفتار كد شده و در نتیجه فشرده سازی بیشتر آن میشود، در حالی كه كیفیت گفتار حاصل بر اساس معیارهای MOS حفظ می شود.
فرم در حال بارگذاری ...