هوش مصنوعی صدا را به یک فرد لال برگرداند!

سیستم هوش مصنوعی به گونه‌ای توسعه یافته است که می تواند تحلیل و بازیابی یک صدای به خصوص را ظرف چند روز با هزینه بالغ بر ۵۰۰ پوند انجام دهد و افراد فقط نیازمند آن هستند تا یک متن کوتاه را روی سایت اینترنتی مربوطه با صدای بلند بخوانند تا سیستم هوشمند تمام فعالیت‌های لازم را به تنهایی انجام دهد.

موبنا – یکی از خبرنگاران رادیویی آمریکا که حدود دو سال قبل صدای خود را به طور کامل از دست داده بود و طی این دوره زمانی قدرت تکلم نداشت، به کمک هوش مصنوعی به زودی صدای خود را پس می‌گیرد و بار دیگر می‌تواند با تن صدای قبلی با مردم صحبت کند.

«جِیم دوپری» ۵۴ ساله که در «گروه رسانه‌ای کوکس» خبرنگار رادیو سیاسی محسوب می‌شود و در دوران کاری خود شهرت فراوان داشته است، به دلیل ابتلا به یک عارضه عصبی نادر قدرت تکلم خود را به طور کامل از دست داده است و قادر به صحبت کردن نیست.

سیستم «سیِرپراک» با تعریف یک پروژه منحصر به فرد شبکه عصبی ویژه‌ای را به کمک هوش مصنوعی طراحی کرده است که نشان می‌دهد آقای دورپری چگونه می‌تواند بار دیگر با صدای اصلی خود صحبت کند. سیستم مذکور در این روش از صداهای اصلی دورپری که پیش‌تر ضبط شده بود نمونه‌برداری کرده است و آنها را به دقت تحلیل می‌کند تا بار دیگر بتواند از رزونانس‌های به دست آمده، برای این خبرنگار صدای واقعی بسازد.

دورپری در این خصوص گفت: «این اتفاق فناورانه و منحصر به فرد باعث شد شغل خود را از دست ندهم تا من و خانواده‌ام از مشکلات اقتصادی پس از بیکاری در امان بمانیم».

هوش مصنوعی صدا را به یک فرد لال برگرداند!

در حالت کلی گفته می‌شود که برای ایجاد صدای یک شخص می‌بایست فرد مورد نظر یک متن مشخص را به مدت ۳۰ ساعت قرایت کند تا سیستم هوشمند داده‌های مورد نیاز خود را از این طریق به دست آورد. سپس از هوش مصنوعی وارد کار می‌شود و تمامی کلمات را به صورت جداگانه از فایل صوتی استخراج می‌کند و پس از تحلیل جزء به جزء، بار دیگر آنها را متصل می‌کند و در کنار یکدیگر قرار می‌دهد. این فناوری به منظور پیش‌بینی و تقلید الگوهای گفتاری افراد بیمار مورد استفاده قرار می‌گیرد. به کارگیری این روش ده‌ها هزار دلار هزینه دارد و بنابراین به عنوان یک روش معمول بین عموم مردم مورد استفاده قرار نمی‌گیرد. همچنین باید توجه داشت تولید، تحلیل و بازیابی صدا از این طریق چندین ماه به طول می‌انجامد.

مرکز «سیِرپراک» به منظور توسعه این فرآیند و ارایه روش‌های مقرونه به صرفه در درمان بیماران مبتلا به اختلالات تکلم در سال ۲۰۰۶ میلادی برای نخستین بار پلتفرم هوشمند خود را ارایه کرد که این سیستم مبتنی بر شبکه‌های عصبی ویژه آن فعالیت می‌کرد.

امروزه سیستم هوش مصنوعی به گونه‌ای توسعه یافته است که می تواند تحلیل و بازیابی یک صدای به خصوص را ظرف چند روز با هزینه بالغ بر ۵۰۰ پوند انجام دهد و افراد فقط نیازمند آن هستند تا یک متن کوتاه را روی سایت اینترنتی مربوطه با صدای بلند بخوانند تا سیستم هوشمند تمام فعالیت‌های لازم را به تنهایی انجام دهد.

شبکه‌های عصبی که هر کدام از آنها بین ۶ تا ۱۰ لایه مجزا را شامل می‌شوند، کار خود را از طریق برش صدای یک کلمه و تبدیل آن به فونتیک‌های کوچک دنبال می‌کنند. سیستم هوش مصنوعی در این زمینه هر کلمه‌ای که به صورت صوتی خوانده شده است را به ۱۰۰ بخش کوچک تقسیم می‌کند و این اتفاق برای تمام کلمات معمول که فرد از آنها استفاده می‌کند، تکرار می‌شود تا در نهایت فونتیک‌های پایه در سیستم صوتی فرد شناسایی شود و هوش مصنوعی بتواند کوچک‌ترین اجزا در فرآیند ادای صوتی یک کلمه را به دست آورد.

هوش مصنوعی صدا را به یک فرد لال برگرداند!

شبکه عصبی قادر است صداهای خود را تولید کند و پیش‌بینی کند که فرد مورد نظر کلماتی که پیش‌تر مورد تحلیل قرار نگرفته‌اند را در یک گفتگوی رسمی یا سمینار چگونه و با چه صوتی ادا می‌کند. بسیاری از محققان علوم رایانه در سراسر جهان تلاش می‌کنند با آموزش شبکه‌های عصبی در راستای شناخت بهتر تصاویر، فرآیندهای مغزی برای تولید صدا توسط انسان را تکثیر کنند. ولی سیستم «سیِرپراک» به گونه‌ای ساخته شده است که بسیار ساده‌تر عمل می‌کند و بر اساس آن هوش مصنوع می‌تواند به راحتی نحوه ادا کردن تمام کلمات توسط فرد را پیش‌بینی کند.

«کریس پیدکاک» مدیر فنی مرکز «سیِرپراک» و یکی از بنیانگذاران این مرکز گفت: «تکنیک‌های هوش مصنوعی نشان داده‌اند که در مورد مسایل کوچک و تحلیل‌های موشکافانه بسیار خوب عمل می‌کنند و یادگیری مدل گفتاری نکته‌ای است که شبکه‌های عصبی عمیق می‌توانند به خوبی آن را انجام دهند».

آقای دورپری طی ۳۵ سال گذشته تمام اخبار سیاسی مربوط به کاخ سفید و کنگره آمریکا را پوشش داده است. او به عنوان یکی از مشهورترین تولیدکنندگان محتوای خبری در شش شبکه رادیویی فعالیت داشته است و صدای او مهم‌ترین ابزار برای ادامه فعالیت‌هایش محسوب می‌شود. او از سال ۲۰۱۶ به بعد متوجه شد در حال از دست دادن صدای خود است و بررسی‌های پزشکی نشان داد در حالی که تارهای صوتی در حنجره وی مشکلی ندارد، وی به دلیل ابتلا به نوعی اختلال عصبی نادر به زودی به طور کامل لال می‌شود.

با این تشخیص او دچار نگرانی فراوان شد و از پزشکان متخص در بیمارستان‌های گوناگون سراسر آمریکا کمک گرفت. در نهایت آقای دورپری متوجه شد به اختلالی موسوم به «پیشروی دیستونی زبان» مبتلا شده است. این مسئله در اصل یک بیماری عصبی بسیار نادر است که باعث رشد زبان و بیرون زدگی آن از دهان می‌شود و هر زمان که شخص می‌خواهد صحبت کند، این کار را برای او غیرممکن می‌سازد تا وی نتواند بیشتر از دو یا سه کلمه حرف بزند.

هوش مصنوعی صدا را به یک فرد لال برگرداند!

آقای دورپری به جای آنکه شغل خود را کنار بگذارد طی دو سال گذشته همچنان سعی کرد با سیاستمداران آمریکایی مصاحبه بگیرد و از طریق یک دستگاه رایانه لوحی سوالات خود را به آنها اعلام کند. او در این مدت پاسخ‌های داده شده را ضبط کرد و با حضور در مجلس سنا و سناتورها، از این طریق به فعالیت های خود ادامه داد تا شغلش را از دست ندهد. اگرچه او همچنان به نوشتن مقالات سیاسی و متن‌های خبری ادامه می‌دهد، ولی از زمانی که قابلیت تکلم را از دست داده است نمی‌تواند گزارش‌های صوتی خود را برای مردم قرایت کند و تقریبا شغل اصلی خود را کنار گذاشته است.

به هر حال، دسامبر گذشته او با یکی از اعضای کنگره آمریکا در مجلس نمایندگان این کشور صحبت می‌کرد و این فرد سیاسی که ارتباط نزدیکی با دورپری داشت تصمیم گرفت به او کمک کند تا بار دیگر به چرخه طبیعی زندگی خود برگردد و پس از گذشت ۳۰ سال بار دیگر بتواند از طریق رادیو بین مردم باشد. همین مسئله باعث شد که سناتور مذکور دورپری را به یکی از سیستم‌های پزشکی نوین معرفی کند.

با گذشت شش ماه از زمان آغاز درمان‌های جدید دورپری، او سرانجام از هفته جاری توانست به کمک شبیه‌سازی‌های صوتی صورت گرفته و صداسازی‌های رایانه‌ای سیستم «سیِرپراک» بار دیگر از طریق شبکه صوتی «دبلیو.اس.بی آتلانتا» با مردم حرف بزند و گروه شبکه‌های رسانه‌ای کاکس در اورلاندو، جکسونویل، دیتون و تولسا صدای او را به گوش مردم برساند.

دورپری با صدای جدید خود می‌تواند مثل گذشته متن‌های خبری را بنویسد و سپس از نرم‌افزار هوشمند تبدیل متن به صورت موسوم به «بالابولکا» روی لپ‌تاپ خود استفاده کند تا صدای وی به راحتی ضبط شود. اگر یک کلمه یا عبارت هنگام ضبط صوتی مناسب ادا نشده باشد، او می‌تواند هماهنگی‌های جزئی و ویژه انجام دهد تا کلمه مذکور دوباره اا شود و از این طریق داستان مربوطه به صورت کامل با صدای واقعی در رادیو پخش شود. این صدا و سیستم نرم‌افزاری به صورت ویژه برای دورپری طراحی شده است و او صدای مذکور را به صورت اختصاصی برای خود می‌داند.

نوشته های مشابه

دکمه بازگشت به بالا