جداسازی منابع صوتی با استفاده از شبکه عصبی عمیق   

جداسازی منابع صوتی با استفاده از شبکه عصبی عمیق


جداسازی منابع صوتی یکی از موضوعات مورد علاقه در زمینه‌ی پردازش سیگنال در سال‌های اخیر می‌باشد. جداسازی منبع در یک زمینه صوتی می¬تواند به عنوان استخراج یا ایزوله کردن یک سیگنال از مخلوطی از سیگنال¬ها تعریف شود. جداسازی کور یکی از روش¬هایی است که در طی دو دهه اخیر توجه بسیاری به آن شده است. هدف از انجام این عمل، جداسازی منابع از مخلوط آن¬ها است به طوری که هیچ اطلاعاتی از نحوه اطلاعات اولیه منابع ، چگونگی ترکیب منابع و تعداد سنسور¬ها و¬... وجود ندارد. تنها اطلاعاتی که موجود است، فقط سیگنال مخلوط می باشد. تاکید این پژوهش برروی سیگنال¬های موسیقی و صدا خواننده می¬باشد. از آنجا که شبکه¬های عصبی بازگشتی برای داده¬هایی متغیر در زمان مناسب هستند و صوت نیز سیگنالی است که در طول زمان در حال تغییر بوده و همچنین طی بررسی¬های روش های پیشین از شبکه های عصبی بازگشتی GRU عملکرد بهتری داشتند بر همین اساس طی فرایندی ابتدا سیگنال پنجره گذاری شده و با استفاده از ابزار تبدیل فوریه از حوزه زمان به حوزه فرکانس انتقال داده می شود اسپکتروگرام¬هایی که در این قسمت تولید شده به عنوان ورودی به شبکه ارسال شده و درنهایت طبق معیار¬های تخمین سیگنال، نتایج مورد ارزیابی قرار می¬گیرد. با توجه به نتایج به دست آمده بهترین نتیجه مربوط به سیگنال Bass بوده که مقدار معیارهای SDR ، SIR و SAR در آن به ترتیب برابر 14/7 ، 38/17 و 68/7 می¬باشد. نتایج ارزیابی¬ها، بهبود عملکرد GRU را نسبت به شبکه¬های کانولوشنی و BLSTM نشان می¬دهد

فهرست مطالب شماره صفحه
1- فصل اول: کلیات تحقیق 1
1-1- مقدمه 2
1-2- بیان مسئله 3
1-3- اهداف و فرضیه‌ها 4
1-3-1- اهداف پژوهش 4
1-3-1-1- هدف اصلی 4
1-3-1-2- اهداف فرعی 4
1-3-1-3- اهداف کاربردی 4
1-3-2- فرضیه‌ها 4
1-4- ضرورت پژوهش 5
1-5- روش تحقیق 5
1-6- ساختار پایان‌نامه 5
2- فصل دوم: پیشینه پژوهش 6
2-1- مقدمه 7
2-2- مخلوط صدا 7
2-3- پردازش سیگنال مبتنی بر بهسازی گفتار 8
2-4- تجزیه‌وتحلیل صحنه‌های شنیداری محاسباتی (CASA) 9
2-5- جداسازی گفتار مبتنی بر مدل 11
2-6- تجزیه و تحلیل مولفه مستقل 12
2-7- روش های مبتنی بر فاکتورسازی ماتریس نامنفی (NMF) 13
2-8- جداسازی صوت تحت نظارت 15
2-8-1- جداسازی صوت مبتنی بر یادگیری عمیق 16
2-8-2- جداسازی صوت مبتنی بر شبکه های عصبی بازگشتی 19
3- فصل سوم: مروری بر ادبیات تحقیق 22
3-1- مقدمه 23
3-2- مروری بر مفاهیم سیگنال 23
3-2-1- مفهوم تعداد دفعات نمونه‌برداری و فرکانس 23
3-2-2- قضیه نایکوئیست 24
3-2-3- دامنه سیگنال 24
3-3- اندام‌های گفتار 24
3-4- انتقال صوت 25
3-5- سیگنال صوتی ازنظر صدا شناسی 26
3-6- سیگنال موسیقی 26
3-7- مقایسه سیگنال موسیقی و گفتار 26
3-7-1- گام در موسیقی و گفتار 26
3-7-2- پهنای باند 27
3-7-3- فرکانس پایه 27
3-7-4- سرعت عبور از صفر 27
3-8- آشنایی با پنجره گذاری صوت 27
3-8-1- انواع پنجره گذاری سیگنال 27
3-8-1-1- پنجره مستطیلی 28
3-8-1-2- پنجره هنینگ 28
3-8-1-3- پنجره همینگ 29
3-8-2- پاسخ فرکانسی 29
3-9- تبدیل فوریه 30
3-10- ویژگی‌های مورداستفاده در تحلیل صوت 30
3-10-1- ویژگی‌های زمانی – آماری 30
3-10-1-1- انرژی سیگنال 30
3-10-1-2- نرخ عبور از صفر Zero Crosing rate 31
3-10-2- ویژگی‌های طیفی 31
3-10-2-1- آنالیز کپسترال 31
3-10-2-2- استفاده از مقیاس MEL 31
3-10-2-3- اسپکتروگرام 32
3-11- شبکه‌های عصبی 33
3-11-1- آموزش شبکه‌های عصبی 37
3-11-2- انتخاب تابع هزینه 38
3-11-3- بهینه‌سازی 39
3-11-3-1- الگوریتم‌های بهینه‌سازی 39
3-12- یادگیری عمیق 39
3-13- شبکه‌های عصبی بازگشتی 40
3-13-1- مدل‌های RNN 42
3-13-2- آموزش شبکه‌های RNN 43
3-13-3- محاسبه خطا در شبکه‌های RNN 43
3-13-4- مرحله بهینه سازی 43
3-13-5- مراحل مشتق گرفتن نسبت به w 44
3-14- شبکه LSTM 45
3-14-2- LSTM با گیت فراموشی 47
3-14-3- ویژگی های LSTM 47
3-15- شبکه GRU 48
4- فصل چهارم: پیاده سازی روش پیشنهادی 50
4-1- مقدمه 51
4-2- دیتاست 51
4-3- پیش‌پردازش سیگنال و استخراج ویژگی 52
4-4- فرایند استخراج اسپکتروگرام صوت 53
4-5- معماری شبکه پیشنهادی 55
4-6- ورودی شبکه 56
4-7- تابع هزینه MSE 57
4-8- تابع بهینه‌ساز 58
4-9- نتایج 58
4-10- ارزیابی عملکرد جداسازی منبع 58
4-11- معیارها 58
4-11-1- معیار SNR 58
4-11-2- معیار SDR 59
4-11-3- معیار SIR 59
4-11-4- معیار SAR 59
4-12- اجرای برنامه و گرفتن خروجی 59
5- فصل پنجم: نتیجه‌گیری و پیشنهاد‌ها 62
5-1- مقدمه 63
5-2- مقایسه معیار SDR درروش پیشنهادی با روش‌های قبل 63
5-3- بررسی فرضیه‌ها 66
5-4- نتیجه‌گیری 67
5-5- پیشنهاد‌ها 68
6- منابع 69

سونا عباسی :نویسنده
دکتر سودابه پورذاکر عربانی :استاد راهنما
دکتر محمدحسن خوبکار :استاد مشاور
۱۳۹۷/۱۲/۰۸ :تاریخ دفاع
۱۰۰ صفحه :تعداد صفحات
مهندسی کامپیوتر-نرم افزار :رشته
یادگیری عمیق-یادگیری عمیق-شبکه های عصبی بازگشتی جی آر یو-جداسازی صوت-اسپکتروگرام :کلمات کلیدی فارسی
Deep learning-Deep learning-GRU Recurrent Neural Networks-Sound separation-Spectrogram :کلمات کلیدی انگلیسی
© Copyright 2020 - All Rights Reserved