گزارش تحول جهانی صنعت کتاب صوتی

چگونه هوش مصنوعی در حال بازتعریف صنعت کتاب صوتی است

15 ژانویه 2026

0 364 خواندن این مطلب 58 دقیقه زمان میبرد

این مطلب ترجمه گزارش «تحول جهانی صنعت کتاب صوتی» است که توسط نمایشگاه کتاب فرانکفورت در سال ۲۰۲۴ منتشر شده است. در این گزارش ایده‌های جدیدی درباره کاربرد ابزارهای هوش مصنوعی برای رشد کسب‌وکار صوتی به فعالان حوزه نشر ارائه شده و با به اشتراک گذاشتن دیدگاه‌های کافی از سوی سایر متخصصان این صنعت، آن‌ها را به استقبال از تحولات پیش روی این حوزه ترغیب کند.

هوش مصنوعی و کتاب صوتی

مقدمه: خلاصه مدیریتی

امروزه دیگر به هوش مصنوعی به چشم یک فناوری نوظهور نگاه نمی‌شود، بلکه این ابزارها به بخشی جدایی‌ناپذیر از فرآیندهای کاری تبدیل شده‌اند. در چنین فضای تحول‌آفرینی، صنعت نشر به دوره‌ای از تغییرات بی‌سابقه قدم می‌گذارد؛ دوره‌ای که در آن، فناوری‌های هوش مصنوعی سرعت تولید محتوای صوتی را افزایش و هزینه‌های آن را کاهش می‌دهند، امکان خلق کاتالوگ‌های چندزبانه را گسترش داده و دسترسی به محتوا را برای مخاطبان وسیع‌تری در سرتاسر جهان فراهم می‌کنند.

اکثر متخصصان حوزه نشر که سال گذشته در «گزارش تحول جهانی صنعت کتاب صوتی» (منتشر شده توسط نمایشگاه کتاب فرانکفورت، ۲۰۲۴) با آن‌ها مصاحبه شد، اعلام کردند که در مورد ابزارهای هوش مصنوعی نگرشی «تردیدآمیز» دارند؛ این نگرش به این معنا بود که با وجود پیگیری اخبار و تحولات، هنوز به این فناوری اعتماد نکرده‌اند. با این حال، در کمتر از یک سال، جامعه نشر به «رویکردی عمل‌گرایانه و محتاط» تغییر موضع داده است، که نشان می‌دهد اغلب آن‌ها در حال حاضر مشغول آزمایش و ارزیابی انواع گوناگون ابزارهای هوش مصنوعی هستند.

هوش مصنوعی به هیچ وجه یک مفهوم جدید نیست و بشر حداقل پنج دهه است که روی آن کار و تحقیق می‌کند. اما در چند سال گذشته، دو عامل کلیدی باعث شکوفایی ناگهانی هوش مصنوعی شده‌اند: دسترسی به حجم عظیمی از داده‌های انسانی (کلان‌داده‌ها) و افزایش فوق‌العاده قدرت محاسباتی. به همین دلیل، هوش مصنوعی دیگر یک مفهوم صرفاً علمی نیست، بلکه به یک واقعیت اجتماعی تبدیل شده که زندگی روزمره ما، از جمله نحوه دسترسی و استفاده از محتوای فرهنگی را تغییر می‌دهد.

درست مانند برق در اواخر قرن نوزدهم، هوش مصنوعی نیز در آستانه تبدیل شدن به یک فناوری زیرساختی است که بر اکثر فعالیت‌های اقتصادی و مدل‌های کسب‌وکار انواع شرکت‌ها تأثیر می‌گذارد. به عبارت دیگر، هوش مصنوعی آماده است تا صنعت نشر را، همانند سایر بخش‌های اقتصاد دیجیتال، متحول سازد.

برای کمک به درک بهتر این شرایط جدید، تیم نمایشگاه کتاب فرانکفورت از وب‌سایت Dosdoce.com خواست تا گزارش تحلیلی (وایت پیپر) جدیدی تهیه کند. هدف از این گزارش، شناسایی ابزارها و خدمات اصلی مبتنی بر هوش مصنوعی در صنعت صوت و همچنین بررسی همه‌جانبه فرصت‌ها و چالش‌های ناشی از ظهور این فناوری در ابعاد گوناگون، از جمله تولید، توزیع، بازاریابی و حتی خلق محتوای صوتی است.

برای دستیابی به این هدف، گزارش حاضر به سه بخش اصلی تقسیم شده است. بخش اول به تحلیل مجموعه رو به رشد ابزارها و خدمات هوش مصنوعی می‌پردازد که امروزه به طور گسترده توسط متخصصان صنعت صوت در سراسر جهان استفاده می‌شوند. وب‌سایت Dosdoce با تحقیقی گسترده، بیش از ۱۶۰ مجموعه فعال مبتنی بر هوش مصنوعی صوتی را شناسایی کرده است؛ این مجموعه‌ها طیف وسیعی را شامل می‌شوند، از شرکت‌های سازنده موتورهای صدای مصنوعی و ابزارهای ترجمه همزمان کتاب‌های صوتی و پادکست‌ها به زبان‌های گوناگون گرفته تا فناوری‌های توسعه‌یافته برای بازاریابی و تبلیغات محتوای صوتی و اپلیکیشن‌هایی برای خودکارسازی انواع فرآیندها در مراحل پیش‌تولید و پس‌تولید به کمک هوش مصنوعی.

یکی از نکات کلیدی این گزارش این است که ابزارهای هوش مصنوعی با حذف وظایف تکراری و خسته‌کننده، به متخصصان این قدرت را می‌دهند که زمان خود را روی جنبه‌های خلاقانه‌تر و پیچیده‌تر کارشان سرمایه‌گذاری کنند. خاویر سلایا، شریک بنیان‌گذار Dosdoce.com و نویسنده «نقشه جهانی ابزارها و خدمات هوش مصنوعی صوتی» در این باره می‌گوید: «بیش از ۱۶۰ راهکار و سرویس هوش مصنوعی شناسایی‌شده در این نقشه، قرار نیست جایگزین متخصصان صوت شوند، بلکه به ابزاری مکمل برای بهبود بهره‌وری و خلاقیت آن‌ها تبدیل خواهند شد. زمانی که همه متخصصان از ابزارهای هوش مصنوعی یکسانی استفاده کنند، الهام و خلاقیت انسانی وجه تمایز اصلی خواهد بود».

یکی دیگر از یافته‌های کلیدی گزارش این است که ابزارهای هوش مصنوعی، امکان خودکارسازی ارزشمند فرآیندها را فراهم کرده و سطح جدیدی از بهره‌وری و کاهش هزینه‌ها را به ارمغان می‌آورند. بی‌شک، هوش مصنوعی می‌تواند یک کتاب صوتی کامل را به جای چند هفته، تنها در چند روز تولید کند و هزینه‌ها را در مقایسه با صدای انسان، ظاهراً تا ۵۰ درصد کاهش دهد. اما این صرفه‌جوییِ ادعاشده در زمان و هزینه، به سرعت محقق نمی‌شود. همانطور که در ادامه گزارش به تفصیل خواهیم دید، یک منحنی یادگیری و نیاز به انطباق فرآیندها وجود دارد که این امر ممکن است حداقل دو تا سه سال زمان ببرد.

بخش‌های دوم و سوم این گزارش، دیدگاه‌های بیش از ۴۰ متخصص جهانی این صنعت را گرد هم آورده است؛ متخصصانی از انتشارات‌های پیشرو، استودیوهای تولید صوت، شرکت‌های توزیع و پلتفرم‌های استریم که با سخاوت، بینش خود را در مورد فرصت‌ها و چالش‌های کلیدی ناشی از ظهور هوش مصنوعی در عرصه‌هایی چون تولید، توزیع، تبلیغات و خلق محتوا، به اشتراک گذاشته‌اند.

خوانندگان متوجه خواهند شد که طبق گفته متخصصان، یکی دیگر از دستاوردهای کلیدی هوش مصنوعی، توانایی آن در مدیریت فرآیندهای پیچیده‌ای است که قبلاً به هماهنگی زیاد انسانی نیاز داشت؛ مانند غنی‌سازی فراداده‌ها، تولید متن جایگزین برای تصاویر یا تنظیم نمایه‌ها. این ابزارها در کارهای زمان‌بر ویراستاری نیز بسیار کارآمد هستند؛ کارهایی مانند ارزیابی اولیه کتاب، ویرایش فنی و زبانی و بازخوانی نهایی ترجمه‌ها. با این حال، همین مدیران تأکید دارند که اغلب این ابزارها برای تأیید و اعتبارسنجی نهایی، همچنان به بازبینی دقیق توسط یک انسان نیازمندند.

در نتیجه این تغییرات، جای تعجب نیست که طی دو سال گذشته، در صنعت نشر، آگهی‌های شغلی نیازمند متخصصان هوش مصنوعی مولد بسیار بیشتر شده است؛ این خود نشانه‌ای واضح از یک تحول بزرگ در بازار کار است. تقاضا برای متخصصانِ این ابزارها سر به فلک کشیده، چون شرکت‌ها به چشم خودشان تأثیر مستقیم آن‌ها را بر افزایش بهره‌وری می‌بینند. مهم‌ترین مهارت‌هایی که بازار به دنبال آن است عبارتند از: تولید محتوا به کمک هوش مصنوعی، بازاریابی بر اساس داده، طراحی استراتژی صوتی با هوش مصنوعی و مدیریت پروژه‌های مرتبط با آن؛ البته همه این مهارت‌ها به توانایی بالای تحلیل و برنامه‌ریزی راهبردی نیاز دارند.

یکی از حیاتی‌ترین تصمیم‌ها در ابتدای هر پروژه هوش مصنوعی، تدوین یک راهبرد مشخص برای آموزش مهارت به تیم‌های صوتی انتشارات است. موفقیت نهایی راهبرد هوش مصنوعی شما، به جلب تعهد و مشارکت جدی متخصصان آگاه و باتجربه‌تان در حوزه نشر بستگی دارد. ما دیگر درباره یک فناوری نوظهور صحبت نمی‌کنیم، بلکه با مجموعه‌ای از ابزارها و خدمات روبرو هستیم که شیوه کار ما را متحول می‌کنند؛ موضوعی که در ادامه این گزارش بیشتر به آن خواهیم پرداخت.

یکی دیگر از نکات مشترک در میان دیدگاه‌های مدیران صنعتی که در این گزارش با آن‌ها مصاحبه شده، این است که هوش مصنوعی به احتمال زیاد در دهه آینده، شیوه دسترسی و مصرف انواع محتوای فرهنگی را به طور بنیادین دگرگون خواهد کرد؛ این تحول، هنجارهای دیرینه در حوزه کپی‌رایت و پرداخت دستمزد را به چالش می‌کشد. نگرانی جدی در بخش نشر وجود دارد که بنیادهای اقتصادی مترجمان، صداپیشگان و استودیوهای تولید به دلیل این تغییرات تضعیف شود. برای سازگاری با این شرایط، صنعت نشر باید با همکاری بخش فناوری، مدل‌های نوآورانه‌ای برای مدیریت آثار اشتقاقی و پرداخت‌ها ایجاد کند که شامل ساختارهای منصفانه حق امتیاز برای محتوای خلق‌شده یا بهبودیافته با هوش مصنوعی باشد؛ موضوعی که در ادامه گزارش بیشتر بررسی خواهد شد.

در گفتگو با این متخصصان، آن‌ها هوش مصنوعی را همزمان بزرگ‌ترین چالش و بزرگ‌ترین فرصت تجاری این حوزه دانستند. مطالعه بخش‌های دوم و سوم نشان می‌دهد که چگونه دیدگاه‌ها و نقل‌قول‌های جمع‌آوری‌شده، از یک سو پتانسیل فوق‌العاده این فناوری را در زمینه رشد، نوآوری و دسترس‌پذیری آشکار می‌سازند و از سوی دیگر، به مسائل مهمی چون تنوع فرهنگی، کنترل کیفیت، و مهم‌تر از همه، حقوق پدیدآورندگان و اعتماد مصرف‌کننده اشاره دارند.

امیدواریم این گزارش هم ایده‌های جدیدی درباره کاربردهای ممکن ابزارهای هوش مصنوعی برای رشد کسب‌وکار صوتی به فعالان حوزه نشر ارائه دهد و هم با به اشتراک گذاشتن دیدگاه‌های کافی از سوی سایر متخصصان این صنعت، آن‌ها را به استقبال از تحولات پیش روی این حوزه ترغیب کند.

بخش 1 - نقشه جهانی ابزارهای هوش مصنوعی برای صنعت صوت

به نظر می‌رسد در یک نقطه عطف قرار داریم؛ جایی که راهکارهای نشر مبتنی بر هوش مصنوعی به ناشران کمک می‌کنند تا تولید کتاب صوتی را افزایش دهند، فرصت‌های توزیع را گسترش بخشند و منابع درآمدی جدیدی خلق کنند. همزمان، این ابزارها به پدیدآورندگان و تولیدکنندگان در تمام مراحل، از نوشتن متن و تولید صدا گرفته تا ویرایش صوتی، طراحی جلد، ترجمه به زبان‌های مختلف و حتی پیشنهاد سوژه‌های جدید، کمک می‌کنند. مرز میان محتوای صوتی که توسط انسان یا ماشین تولید شده، به سرعت در حال محو شدن است.

برای آنکه جامعه نشر بتواند مزایای بالقوه استفاده از انواع راهکارها و خدمات مبتنی بر هوش مصنوعی را بهتر درک کند، وب‌سایت Dosdoce تحقیقی گسترده را برای شناسایی اصلی‌ترین راهکارهای فناورانه و خدمات مرتبط با دنیای صوت انجام داده است. این تحقیق، طیف وسیعی از موضوعات را، از ساخت صداهای مصنوعی و راهکارهایی برای ترجمه همزمان کتاب‌های صوتی و پادکست‌ها به زبان‌های مختلف گرفته، تا پیشرفت‌های فناورانه با هدف بازاریابی محتوای صوتی و اپلیکیشن‌هایی برای خودکارسازی فرآیندها در مراحل پیش‌تولید و پس‌تولید به کمک هوش مصنوعی، پوشش می‌دهد.

در پایان یک دوره تحقیقاتی سه‌ماهه (از ژوئن تا اوت ۲۰۲۵)، ما بیش از ۱۶۰ ابزار کاربردی را انتخاب کردیم. این مجموعه ابزار می‌تواند برای تمام فعالان این صنعت، از گروه‌های انتشاراتی و شرکت‌های تولید صوت گرفته تا پلتفرم‌های پخش آنلاین و حتی خودِ پدیدآورندگان و گویندگان، بسیار مفید باشد.

دسته‌بندی ابزارها و خدمات هوش مصنوعی

راهکارها و خدمات هوش مصنوعی که در «نقشه جهانی ابزارها و خدمات صوتی مبتنی بر هوش مصنوعی» گردآوری شده‌اند، بر اساس فعالیت‌های تجاری کلیدی در صنعت صوت، به شش دسته تقسیم می‌شوند:

مدل‌های صدای هوش مصنوعی: شرکت‌هایی که موتور فناوری تولید صدای اختصاصی خود را توسعه داده‌اند و همچنین مجموعه‌هایی که چندین مدل از این موتورهای شخص ثالث را تجمیع می‌کنند.
استودیوها و خدمات تولید محتوای صوتی: مجموعه‌هایی که با استفاده از ابزارهای متعدد مبتنی بر هوش مصنوعی، خدمات ارزش افزوده‌ای را پیرامون فرآیندهای تولید خود ارائه می‌دهند.
خدمات ترجمه: ابزارهای ترجمه چندزبانه که با بهره‌گیری از هوش مصنوعی، به ایجاد کاتالوگ‌های بین‌المللی برای توزیع در سراسر جهان کمک می‌کنند.
کانال‌های توزیع و فروش محتوای صوتی: پلتفرم‌های توزیعی که برای ارائه خدمات بهتر در کانال‌های فروش خود، به استفاده از هوش مصنوعی روی آورده‌اند.
طراحی صدا: ابزارهایی که با استفاده از هوش مصنوعی، فرآیندهای طراحی صدای محصولاتی چون کتاب صوتی، پادکست و داستان صوتی را غنی‌تر می‌سازند.
بازاریابی و تبلیغات: ابزارهای مبتنی بر هوش مصنوعی که برای بهبود فرآیندهای ترویج محتوای صوتی و در نتیجه، افزایش دیده‌شدن آن‌ها در بازار به کار می‌روند.

باید توجه داشت که در بسیاری از موارد، اختصاص دادن تنها یک دسته‌بندی به برخی از این مجموعه‌ها دشوار است، زیرا بسیاری از آن‌ها چندین فعالیت تجاری مکمل و مرتبط با هوش مصنوعی را همزمان پیش می‌برند.

برای مثال، شرکت «واندرکرفت» ابزاری برای ساخت تبلیغات با هوش مصنوعی است، اما همزمان در زمینه تولید پادکست نیز فعالیت می‌کند. این مجموعه برای اجرای این وظایف، تا شش مدل «موتور صدا» را تجمیع می‌کند. از آنجا که فعالیت تجاری اصلی این شرکت بر «تبلیغات مبتنی بر هوش مصنوعی» متمرکز است، ما آن را در دسته «بازاریابی» طبقه‌بندی کرده‌ایم.

همین وضعیت در مورد شرکت «اینگرام»، یکی از پلتفرم‌های توزیع پیشرو در ایالات متحده، نیز صدق می‌کند. ما این شرکت را نیز در دسته «بازاریابی» قرار داده‌ایم، زیرا آن‌ها مجموعه گسترده‌ای از خدمات بازاریابی مبتنی بر هوش مصنوعی را برای ناشران توسعه داده‌اند؛ برای نمونه، سرویس «تولید متن و تصویر تبلیغاتی با هوش مصنوعی» که به طور خودکار و بر اساس فراداده‌های کتاب، تصاویر و تیترهای تبلیغاتی بهینه‌سازی‌شده‌ای خلق می‌کند.

این موضوع در مورد بسیاری از مجموعه‌های دیگر نیز صادق است و نشان می‌دهد که ابزارها و خدمات هوش مصنوعی به شکلی روزافزون در حال نفوذ به فرآیندها و وظایف گوناگون در تمام سازمان‌های فعال در دنیای کتاب هستند.

رقابت جهانی هوش مصنوعی: خاستگاه ابزارها و خدمات

هوش مصنوعی در حال دگرگون کردن توازن قدرت در سراسر جهان است و رقابتی فناورانه و سرنوشت‌ساز را میان کشورهای پیشرو به راه انداخته است. در این میان، ایالات متحده، اتحادیه اروپا و چین، هر یک راهبردهای نظارتی خاص خود را دنبال می‌کنند که این راهبردها بازتابی از اولویت‌ها، اهداف و اصول بنیادین آن‌هاست.

برخلاف مدل‌های پیشین هوش مصنوعی که عمدتاً بر تحلیل داده‌ها و شناسایی الگوها متمرکز بودند، هوش مصنوعی مولد توانایی خلق محتوای کاملاً جدید —از متن، صدا و تصویر گرفته تا کدهای نرم‌افزاری— را دارد. همین ویژگی، آن را به یک کاتالیزور تحول‌آفرین برای نوآوری در صنایع گوناگون، از جمله نشر و رسانه، تبدیل کرده است.

در ایالات متحده، رویکردی بازارمحور حاکم است که در آن، شرکت‌های خصوصی، پیشرانِ نوآوری و پیشرفت محسوب می‌شوند و دخالت دولت به حداقل ممکن رسیده است. اتحادیه اروپا مسیر متفاوتی را در پیش گرفته و از طریق قوانین جامع، مانند «قانون هوش مصنوعی»، «هوش مصنوعیِ اخلاق‌مدار» را در اولویت قرار داده است. هدف از این قانون، ترویج شفافیت، تضمین پاسخگویی و مدیریت ریسک‌هاست؛ موضوعی که در ادامه گزارش با جزئیات بیشتری به آن خواهیم پرداخت. در مقابل، چین دیدگاه خود مبنی بر «حاکمیت دیجیتال» را از طریق کنترل شدید دولتی پیش می‌برد تا تضمین کند که توسعه هوش مصنوعی در خدمت اهداف ملی، از جمله گسترش اقتصادی، انسجام اجتماعی و مقاصد راهبردی نظامی قرار می‌گیرد.

با توجه به این چشم‌انداز در جغرافیای سیاسی، تصمیم گرفتیم خاستگاه جغرافیایی ابزارهای هوش مصنوعی را تحلیل کنیم، زیرا این موضوع پیامدهایی جدی در زمینه‌هایی چون حریم خصوصی، حاکمیت داده و سوگیری الگوریتمی در پی دارد. همان‌طور که جدول نشان می‌دهد، خاستگاه جغرافیایی ابزارهای گردآوری‌شده در «نقشه جهانی ابزارها و خدمات صوتی مبتنی بر هوش مصنوعی»، تمرکز قابل توجهی در بازارهایی نشان می‌دهد که طی چند سال گذشته، سرمایه‌گذاری گسترده‌ای روی توسعه ابزارهای صوتی جدید مبتنی بر فناوری‌های گوناگون هوش مصنوعی انجام داده‌اند.

همان‌طور که نمودار نشان می‌دهد، ایالات متحده با ۴۰ درصد از کل نمونه مورد بررسی، به عنوان مقر اصلی این ابزارها و خدمات، در صدر رده‌بندی قرار دارد و اروپا با ۳۸ درصد، با فاصله‌ای بسیار کم، جایگاه دوم را به خود اختصاص داده است.

قاره آسیا با سهمی ۱۰ درصدی، با وجود فاصله قابل توجه از دو رتبه نخست، با سرعتی بالا در حال رشد است و در جایگاه سوم قرار دارد. پس از آن نیز آمریکای لاتین با ۷ درصد از کل مجموعه‌های مورد تحلیل، در رتبه بعدی جای می‌گیرد.

قاره آفریقا و دیگر مناطق و بازارهای نوظهور، حضور کمرنگی در این نقشه دارند. اما این وضعیت می‌تواند به سرعت دگرگون شود، زیرا ابزارها و خدمات جدیدی با درک عمیق‌تر از ظرایف زبانی و فرهنگی در حال ورود به بازار هستند؛ نمونه این طرح‌ها، «لاتام-جی‌پی‌تی»، یک مدل زبانی کاملاً بومی برای آمریکای لاتین، و «ماساکانه» در آفریقا هستند.

همان‌طور که در بخش بعدی گزارش تحلیل خواهیم کرد، ایالات متحده با سهم ۵۸ درصدی از کل مجموعه‌های مورد بررسی، خاستگاه اصلی «موتورهای صدا» به شمار می‌رود و پس از آن، اروپا با ۲۸ درصد (که عمدتاً شامل بریتانیا می‌شود) در رتبه دوم قرار دارد. کنترل بر مالکیت و مدیریت مدل‌های صوتی و زبانی، نقشی حیاتی در شکل‌دهی به آینده فرهنگ جهانی، به‌ویژه در بازارهای نوظهور، ایفا خواهد کرد.

برای مثال، زبان سواحلی تنها در چند سال، از جایگاهی «نامرئی در دنیای دیجیتال» به جایگاهی «اجتناب‌ناپذیر برای الگوریتم‌ها» رسیده است. بر اساس داده‌های اخیر، این زبان که بیش از ۱۰۰ میلیون گویشور بومی و غیربومی در شرق و مرکز آفریقا دارد، اکنون در میان ۱۰ زبان برتری قرار گرفته که در سیستم‌های هوش مصنوعی جهانی ادغام شده‌اند. غول‌های فناوری —از گوگل و متا گرفته تا هواوی— این زبان را در مدل‌های چندزبانه خود گنجانده‌اند که این امر نشان‌دهنده به رسمیت شناختن بازار دیجیتال رو به رشد آفریقاست.

با این حال، پشت تصویر خوشایندی که از گنجاندن این زبان ارائه می‌شود، واقعیتی هشداردهنده‌تر نهفته است: هوش مصنوعی مبتنی بر زبان سواحلی، با وجود بومی‌سازی شدن، همچنان از خارج کنترل می‌شود. برآوردها حاکی از آن است که کمتر از ۵ درصد از داده‌های آموزشی هوش مصنوعی که زبان‌های آفریقایی را در بر می‌گیرند، توسط خود نهادهای آفریقایی تأمین یا مدیریت می‌شوند. این عدم تقارن ساختاری، خطر تداوم وابستگی دیجیتال آفریقا را به همراه دارد.

در تأیید این دیدگاه، «آما دادسون»، بنیان‌گذار و مدیرعامل «آکوبوکز» و سفیر بخش صوتی فرانکفورت، اظهار می‌دارد که: «هوش مصنوعی می‌تواند به همگانی کردن داستان‌سرایی کمک کند و از طریق زبان، کشف پذیری و قالبهای خلاقانه جدید، به صداهای آفریقایی دسترسی جهانی ببخشد. از طرف دیگر، اگر ما از مالکیت زیرساختها کنار گذاشته شویم، این فناوری می‌تواند نابرابریها را عمیق‌تر سازد. سه سال آینده تعیین می‌کند که ما کدام آینده را می‌سازیم.»

برای ساختن یک صنعت صوتی واقعاً فراگیر، ضروری است اطمینان حاصل کنیم که زبانها و داستانهای بازارهای صوتی نوظهور از زیرساخت و داده های آموزشی هوش مصنوعی کنار گذاشته نمی‌شوند. همان‌طور که در ادامه این گزارش خواهیم دید، اگر تنها زبانها و روایتهای غالب در اولویت قرار گیرند، این خطر وجود دارد که از نقش‌آفرینی صداهای گوناگون در شکل‌دهی به چشم انداز دیجیتال جلوگیری کرده و به نابرابریهای جهانی دامن بزنیم. این مسئله ارتباط تنگاتنگی با جلوگیری از تعمیق شکاف دیجیتال دارد؛ شکافی که در آن «جنوب جهانی» نه به عنوان یک هم‌آفرین، بلکه صرفاً به مصرف کننده هوش مصنوعی تبدیل می‌شود. با به رسمیت شناختن غنای فرهنگی و زبانی زبانهای کمتر بازنمایی‌شده در صنعت صوت و با ادغام آنها در سیستمهای نوین هوش مصنوعی، می‌توانیم آینده دیجیتال عادلانه‌تری را پرورش دهیم که در آن، نوآوری و خلاقیت از تمام نقاط جهان جاری باشد.

همان‌طور که در بخش دوم این گزارش خواهیم دید، پلتفرمهای پخش آنلاین، کانالهای فروش محتوای صوتی و سیستمهای کتابخانه‌ای باید خلق راهکارهای هوش مصنوعی را در دستور کار خود قرار دهند؛ راهکارهایی که در خط مقدم طراحی آنها، یک ذهنیت متنوع‌تر و حقیقتاً جهانی در حوزه صوت قرار داشته باشد.

رتبه‌بندی فعالیتهای تجاری در چشم انداز هوش مصنوعی

شرکتها و خدمات تولید محتوای صوتی با در اختیار داشتن ۴۴ درصد از کل مجموعه‌ها، رتبه نخست فعالیتهای تجاری اصلی این صنعت را به خود اختصاص داده‌اند و پس از آنها، شرکتهای «موتور صدا» با ۲۷ درصد در جایگاه بعدی قرار دارند.

یکی از جالب‌ترین نتایج این مطالعه نشان می‌دهد که تعداد روزافزونی از استودیوهای تولید محتوای صوتی، در حالی که همچنان به تولید محتوا با صدای انسان ادامه می‌دهند، به طور همزمان در حال به کارگیری ابزارهای گوناگون هوش مصنوعی هستند تا خدمات ارزش افزوده‌ای را پیرامون فرآیندهای مختلف تولید ارائه دهند.

در چشم انداز تولید محتوا، ما دریافته‌ایم که در هر کشور دست کم سه یا چهار استودیو تولیدی وجود دارد که از ابزارهای گوناگون هوش مصنوعی در فرآیندهای خود بهره می‌برند؛ از جمله این استودیوها می‌توان به «ایرسلکت» در سوئد، «فلایت‌استوری» در ایالات متحده، «گوآدیو» در آلمان، «می‌ووز» در اسپانیا و «عربوک‌ورس» در مصر اشاره کرد.

هدف این استودیوها، توانمندسازی متخصصان از طریق رها کردن آنها از شر وظایف تکراری و خسته‌کننده در فرآیند تولید است؛ وظایفی مانند آماده‌سازی اولیه دست‌نویس، بازبینی خودکار پس از تولید، و بررسی نهایی با مشارکت نیروی انسانی برای تضمین دقت، کیفیت و یکپارچگی. این امر به متخصصان اجازه می‌دهد تا تجربه و خلاقیت خود را صرف جنبه‌های پیچیده‌تر و انسانی‌تر کارشان کنند.

در جایگاه دوم رتبه‌بندی فعالیتهای تجاری، با ۲۷ درصد از کل نمونه، دو گروه از شرکتها قرار دارند:

گروه اول، مجموعه‌هایی هستند که موتور فناوری تولید صدای اختصاصی خود را توسعه داده‌اند، مانند «الون‌لبز»، «ام‌اس اژور» و گوگل.

گروه دوم نیز شرکتهایی را شامل می‌شود که چندین مدل از این موتورهای شخص ثالث را تجمیع می‌کنند.

در این بخش، ایالات متحده با در اختیار داشتن ۵۸ درصد از کل مجموعه‌های مورد تحلیل، به عنوان خاستگاه اصلی «موتورهای صدا» پیشتاز است و پس از آن، اروپا با ۲۸ درصد (عمدتاً از طریق بریتانیا) قرار دارد.

این جایگاه برتر کشورهای انگلیسی زبان، به خوبی نشان‌دهنده شکاف فناوری در زمینه موتورهای صدا بین مناطق مختلف است. این وضعیت، همان‌طور که قبلاً در تحلیل «رقابت جهانی هوش مصنوعی» بیان شد، فرصت‌هایی برای رشد در زبان‌های دیگر را نوید می‌دهد.

در جایگاه سوم، با سهم ۱۳ درصدی، مجموعه‌هایی قرار دارند که از هوش مصنوعی برای غنی‌تر کردن فرآیند طراحی صدای کتابهای صوتی و پادکستها استفاده می‌کنند.

یکی دیگر از یافته‌های کلیدی این مطالعه نشان می‌دهد که با رونق چشمگیر تولید «داستان صوتی»، استفاده از این ابزارها نیز رو به افزایش است. دلیل این امر، تلاش برای جذب مخاطبان جدیدی است که می‌خواهند داستانهای صوتی را با جلوه‌های ویژه‌ای بشنوند که حس و حال تماشای یک سریال یا انجام یک بازی ویدیویی را برایشان تداعی کند.

در جایگاه چهارم، با سهم ۷ درصدی از کل، ابزارهای نوآورانه بازاریابی و تبلیغات قرار دارند؛ ابزارهایی مانند «شیمر»، «واندرکرفت» و «کلوب دی آتورس» و خدمات دیگر. این ابزارها به ناشران و نویسندگان کمک می‌کنند تا با بهبود فرآیندهای ترویج محتوای صوتی خود، دیده‌شدن محصولاتشان را در بازار افزایش داده و تعامل مخاطبان را بیشتر کنند.

یکی از مزایای اصلی استفاده از هوش مصنوعی در بازاریابی پادکست، توانایی آن در خودکارسازی کارهای تکراری است. این قابلیت، ساعت‌های ارزشمندی را به شما بازمی‌گرداند تا بتوانید آنها را به ایده‌پردازی خلاقانه یا برقراری ارتباط با مخاطبانتان اختصاص دهید. اما کاربرد هوش مصنوعی فراتر از یک خودکارسازی ساده است؛ این فناوری منبع الهام قدرتمندی برای بازاریابان نیز محسوب می‌شود. در زمان‌هایی که خلاقیت به بن‌بست می‌رسد، ابزارهای هوش مصنوعی می‌توانند ایده‌های جدیدی را جرقه بزنند و راه‌های نوآورانه‌ای برای بازتعریف و استفاده مجدد از محتوای موجود پیشنهاد دهند. با ابزار مناسب بازاریابی مبتنی بر هوش مصنوعی، محتوای صوتی بدون از دست دادن «حس انسانی» ضروری، جذاب‌تر، مرتبط‌تر و تأثیرگذارتر می‌شود.

در جایگاه پنجم، با سهم ۵ درصدی از کل مجموعه‌های تحلیل‌شده در این نقشه، شرکت‌های توزیع محتوای صوتی، پلتفرم‌های پخش آنلاین و کانال‌های فروش به چشم می‌خورند که برای ارائه خدماتی بهتر در پلتفرم‌های خود، از هوش مصنوعی بهره می‌برند؛ خدماتی که از بهبود تجربه شنیداری تا خلق محتوا با صداهای مصنوعی به زبان‌های مختلف را شامل می‌شود.

پلتفرم‌هایی مانند استوری‌تل و اسپاتیفای قراردادهای همکاری استراتژیکی را با یکی از مدل‌های پیشرو، یعنی الون‌لبز (ElevenLabs) ، امضا کرده‌اند، در حالی که پلتفرم آدبل که اخیراً بر تعهد قوی خود به تولید محتوای صوتی با صداهای مصنوعی تأکید کرده، از موتور فناوری شرکت مادر خود، آمازون، استفاده می‌کند.

یکی دیگر از منحصربه‌فردترین پیشرفت‌هایی که در این دسته شناسایی کرده‌ایم، قابلیت تغییر صدا استوری‌تل است که در پلتفرم آن ارائه می‌شود و به شنوندگان اجازه می‌دهد محتوا را به‌صورت «بر حسب تقاضا» گوش دهند. کاربران می‌توانند صدای مصنوعی مورد علاقه‌شان را انتخاب کرده و آن را برای هر کتاب صوتی که قبلاً با صدای انسان ضبط شده، تغییر دهند. به عبارت دیگر، آن‌ها می‌توانند به نسخه اصلی که با صدای انسان ضبط شده گوش دهند یا آن را به یکی از صداهای مصنوعی موجود تغییر دهند.

در نهایت، در جایگاه آخر و با سهم ۴ درصدی از کل مجموعه‌های موجود در نقشه، ابزارهای ترجمه چندزبانه مانند آنیاارای.وان، دیپ‌ال و نوآنکسد قرار دارند. همان‌طور که در ادامه گزارش به تفصیل خواهیم دید، این ابزارها به ناشران و پلتفرم‌های استریم کمک می‌کنند تا کاتالوگ‌های چندزبانه ایجاد کرده و مخاطبان بین‌المللی را به سمت آثار نویسندگان خود جذب کنند.

ابزارهای ترجمه مبتنی بر هوش مصنوعی نقشی حیاتی در آینده صنعت نشر ایفا خواهند کرد. این فناوری‌ها با ترکیب یادگیری ماشینی پیشرفته و پردازش زبان طبیعی، به ناشران و تولیدکنندگان محتوا اجازه می‌دهند تا به راحتی کتاب‌های صوتی، نمایش‌های صوتی، و پادکست‌ها، و همچنین مطالب بازاریابی خود را به زبان‌های مختلف ترجمه کنند، بدون اینکه ظرافت‌های معنایی و بافت فرهنگی از بین برود.

همان‌طور که در ادامه این گزارش خواهیم دید، این ابزارها نه تنها محتوا را برای مخاطبان بیشتری در سراسر جهان در دسترس قرار می‌دهند، بلکه زمان و هزینه‌های معمول ترجمه را نیز کاهش می‌دهند. با افزایش روزافزون شنوندگان بین‌المللی محتوای صوتی، ترجمه مبتنی بر هوش مصنوعی به ابزاری ضروری برای ناشرانی تبدیل خواهد شد که به دنبال گسترش بازارهای خود و اطمینان از تأثیرگذاری داستان‌هایشان در زبان‌ها و فرهنگ‌های مختلف هستند.

تحول مدرن فناوری تبدیل متن به گفتار

در کمتر از یک سال، فناوری‌های مدرن تبدیل متن به گفتار (TTS) پیشرفت چشمگیری داشته‌اند و اکنون قادر به تولید گفتاری هستند که بسیار شبیه به صدای گویندگان انسانی است.

ابزارهایی مانند شبیه‌سازی صدا (که به آن‌ها صدای نمونه نیز گفته می‌شود) و ترکیب هوشمندانه احساسات، امکان تولید گفتاری را فراهم می‌کنند که با لحن، سرعت و حتی صدای خاص شخصیت‌ها مطابقت دارد و به این ترتیب، تجربه‌های شنیداری غنی‌تر و متنوع‌تری را رقم می‌زند.

بیش از ۵۰ درصد از ابزارهای تحلیل‌شده در نقشه، به کاربران اجازه می‌دهند تا صدای نمونه سفارشی خود را طراحی کنند. این قابلیت به گویندگان حرفه‌ای امکان می‌دهد با استفاده از فناوری‌های مختلف هوش مصنوعی، یک پروفایل صدای نمونه از خود بسازند.

از سوی دیگر، ۶۰ درصد از این ابزارها گزینه‌هایی برای ویرایش و تعدیل ویژگی‌های صدای انتخابی دارند که امکان تنظیم دقیق صدا را مطابق با ترجیحات خاص هر پروژه صوتی فراهم می‌کند.

این تحول سریع در فناوری‌های صدای هوش مصنوعی، فرصت‌های تجاری بی‌سابقه‌ای را برای ناشران فراهم کرده تا با ایجاد فهرست‌های چندزبانه، گستره فعالیت جهانی خود را افزایش دهند. علاوه بر این، همان‌طور که در ادامه گزارش خواهیم دید، این فناوری امکان خلق روایت‌های صوتی فراگیر و جدیدی را فراهم می‌کند که امروزه به دلیل محدودیت‌های عملیاتی یا مالی، دست‌یافتنی نیستند.

سازمان‌های جمعی و مردمی، از جمله اتحادیه‌های کارگری، اتحادیه جوانان کمونیست، فدراسیون زنان، فدراسیون محافل ادبی و هنری، انجمن نویسندگان، انجمن علم و فناوری، فدراسیون افراد دارای معلولیت و مانند آن‌ها، با توجه به ویژگی‌های خود در ترویج خواندن همگانی فعالیت می‌کنند.

منحنی یادگیری، کاهش هزینه و زمان ورود به بازار

یکی دیگر از یافته‌های کلیدی این گزارش این است که با وجود اینکه گویندگی مصنوعی گزینه‌های تولید محتوا را به طور چشمگیری گسترش می‌دهد، (به ویژه برای فهرست‌های تخصصی و قدیمی)، اما از نظر اقتصادی، گزینه‌ای مناسب برای تولید محتوای با کیفیت بالا نیست. این امر به دلیل نیاز به صرف زمان قابل توجهی برای پس‌تولید دقیق توسط انسان است.

هوش مصنوعی می‌تواند یک کتاب صوتی کامل را به جای چند هفته، در عرض چند روز تولید کند. اما بیشتر شرکت‌های تولید محتوا که با آن‌ها تماس گرفته شده، تخمین می‌زنند که در مقایسه با تولیداتی که با صدای انسان انجام می‌شود، تولید کتاب صوتی با هوش مصنوعی در ابتدای پروژه (سال دوم) حدود ۵۰ درصد و در مراحل بعدی (از سال سوم به بعد) تا ۸۰ درصد از هزینه‌های تولید را کاهش می‌دهد.

برای شتاب بخشیدن به منحنی یادگیری هوش مصنوعی و جلوگیری از اشتباهاتی که قبلاً رخ داده است، به ناشران به‌شدت توصیه می‌کنیم ابتکارات همسایگان صنعت محتوای صوتی خود را به دقت تحلیل کنند. این همسایگان شامل پلتفرم‌های پادکست، استودیوهای فیلم و رسانه‌های بزرگ هستند که در بخش ۲ این گزارش به تفصیل به آن‌ها پرداخته شده است.

استفاده اخلاقی و جبران خسارت

در حوزه ابزارها و خدمات هوش مصنوعی صوتی جهانی که در نقشه تحلیل شده‌اند، استفاده اخلاقی از هوش مصنوعی یک نگرانی مهم برای شرکت‌هایی است که شفافیت، رضایت و استفاده مسئولانه را در اولویت قرار می‌دهند. بسیاری از این شرکت‌ها در بیانیه مأموریت وب‌سایت خود، بر تعهد عمیق به شیوه‌های اخلاقی در توسعه فناوری‌های هوش مصنوعی تأکید می‌کنند.

این شرکت‌ها به دقت از داده‌های اختصاصی خود برای آموزش مدل‌های هوش مصنوعی استفاده می‌کنند، که در آن‌ها هر گوینده پیش از ضبط، رضایت آگاهانه خود را اعلام کرده و غرامت دریافت کرده است.

آن‌ها بر این باورند که ابزارهای هوش مصنوعی برای ارتقای کار متخصصان و گویندگان طراحی شده‌اند، نه جایگزینی آن‌ها. هدف این ابزارها رها کردن آن‌ها از کارهای تکراری و خسته‌کننده گویندگی و فراهم کردن امکان کسب درآمد جانبی از طریق اعطای مجوز استفاده از صدایشان است. این کار به آن‌ها اجازه می‌دهد زمان، تخصص و خلاقیت خود را صرف جنبه‌های پیچیده‌تر کارهایشان کنند.

در همین راستا، ماتی استانیسفسکی، یکی از بنیان‌گذاران و مدیرعامل الون‌لبز، در یک گفت‌وگوی غیررسمی با جرمی کان، سردبیر بخش هوش مصنوعی مجله فورچون، در رویداد SXSW لندن (ژوئن ۲۰۲۵) اشاره کرد که «در کمتر از دو سال، گویندگان مجموعاً ۵ میلیون دلار از طریق کتابخانه صوتی الون‌لبز درآمد کسب کرده‌اند».

هرچند این رقم پیشرفت قابل‌توجهی را نشان می‌دهد، اما بسیاری از رهبران صنعت که برای این گزارش با آن‌ها مصاحبه شده، تأکید می‌کنند که حق‌الزحمه‌های فعلی مرتبط با هوش مصنوعی برای تأمین معاش جامعه حرفه‌ای گویندگان کافی نیست. این جامعه در پنج سال گذشته سالانه بیش از ۵۰ میلیون یورو از پلتفرم‌ها و ناشران اروپایی برای حمایت از تولید، بازاریابی و تبلیغ کتاب‌های صوتی دریافت کرده است. در آینده، شفافیت بیشتر در مورد حق‌الزحمه‌ها ضروری خواهد بود. ما در ادامه این گزارش به این مسائل حساس بیشتر خواهیم پرداخت.

با افزایش چشمگیر حجم محتوای صوتی مبتنی بر هوش مصنوعی، ناشران و پلتفرم‌های فروش کتاب‌های صوتی اکنون بیش از تولید محتوا، با چالش انتخاب و پالایش آن روبرو هستند. همان‌طور که در بخش ۳ این گزارش خواهیم دید، تمام پلتفرم‌های توزیع و فروش محتوای صوتی باید به خود متعهد شوند که استانداردهای شفافی برای برچسب‌گذاری آثار تولیدشده با هوش مصنوعی در نظر بگیرند تا شنوندگان اطلاعات لازم برای تصمیم‌گیری آگاهانه را داشته باشند.

بخش ۲ - فرصت‌های تجاری ناشی از هوش مصنوعی

این بخش نظرات بیش از ۴۰ متخصص صنعت را از سراسر جهان، از ناشران پیشگام تا استودیوهای تولید محتوای صوتی، و همچنین توزیع‌کنندگان و پلتفرم‌های استریم، گردآوری کرده است. این متخصصان با سخاوت، دیدگاه‌های خود را درباره فرصت‌های تجاری اصلی ناشی از ظهور هوش مصنوعی در ابعاد مختلف، از جمله تولید، توزیع، بازاریابی و حتی خلق محتوای صوتی، ارائه کرده‌اند.

یک صنعت صوتی متنوع‌تر و واقعاً جهانی

در ۱۵ سال گذشته، بازار جهانی کتاب صوتی رشد چشمگیری داشته و به صنعتی تبدیل شده که ارزش سالانه آن در سراسر جهان به نزدیک ۷ میلیارد دلار (حدود ۳۵۰ هزار میلیارد تومان) می‌رسد. از این میزان، ۲.۶ میلیارد دلار (حدود ۱۳۰ هزار میلیارد تومان) از آمریکای شمالی، نزدیک ۱.۵ میلیارد دلار (حدود ۷۵ هزار میلیارد تومان) از اروپا، ۱.۰ میلیارد دلار (حدود ۵۰ هزار میلیارد تومان) از چین و نزدیک ۲.۰ میلیارد دلار (حدود ۱۰۰ هزار میلیارد تومان) از سایر نقاط جهان به دست می‌آید.

منابع متعددی نشان می‌دهند که این بازار با توجه به تولید روزافزون هزاران کتاب صوتی جدید با استفاده از ابزارهای هوش مصنوعی به زبان‌هایی که کمتر مورد توجه قرار گرفته‌اند (مانند چینی، هندی، اسپانیایی، ایتالیایی، فرانسوی، عربی، سواحلی و پرتغالی)، تا سال ۲۰۳۰ به رشد خود ادامه داده و به ۳۵ میلیارد دلار (حدود ۱۷۵۰ هزار میلیارد تومان) خواهد رسید.

یکی از موضوعات تکراری در دومین دوره PAX Audio Day7 (که توسط FGSR در مادرید برگزار شد) این بود که رشد صنعت صوتی در جهان به افزایش دسترسی به محتوای صوتی بستگی دارد. به طور طبیعی، بزرگ‌ترین فهرست‌ها متعلق به پررونق‌ترین بازارها هستند: تقریباً ۸۰۰,۰۰۰ کتاب صوتی به زبان انگلیسی و نزدیک به ۳۰۰,۰۰۰ کتاب به زبان آلمانی وجود دارد. در مقابل، در بازارهای نوظهور مانند فرانسه، ایتالیا، پرتغال یا اسپانیا، فهرست‌ها هرچند به طور پیوسته در حال رشد هستند، اما همچنان محدود باقی مانده‌اند.

در حال حاضر، بازار کتاب صوتی اسپانیایی‌زبان حدود ۴۵٬۰۰۰ عنوان، بازار فرانسه ۲۵٬۰۰۰ عنوان و بازار ایتالیایی‌زبان نزدیک به ۲۰٬۰۰۰ عنوان کتاب دارد.

همراستا با این دیدگاه، بسیاری از مدیران صنعتی که در این گزارش با آن‌ها گفتگو شده، اشاره کرده‌اند که عرضه کتاب‌های صوتی بیشتر به زبان‌های گوناگون، به شنیده شدنِ بیشترِ این آثار در سراسر جهان منجر خواهد شد. ظهور هوش مصنوعی، موانع موجود در تولید محتوای صوتی را به شکل چشمگیری کاهش می‌دهد و این امکان را برای ناشران فراهم می‌کند — به‌ویژه در مناطق نوظهورِ حوزه صوت مانند آمریکای لاتین، آفریقا و بازارهای عرب‌زبان — که کتاب‌های صوتی را با لهجه‌ها و زبان‌های محلی متعدد و بدون نیاز به سرمایه‌گذاری‌های کلان تولید کنند. این فناوری همچنین انتشار همزمان آثار در مناطق مختلف را تضمین کرده و به این ترتیب، تأثیر جهانی آن را افزایش می‌دهد. میشل کاب، ناشر مجله «آدیوفایل»، در این باره می‌گوید: «هزاران اثر وجود دارد که هرگز با صدای گویندگان انسانی تولید نشده‌اند و صداهای هوش مصنوعی این فرصت را فراهم می‌کنند که آن عناوین برای همگان دسترس‌پذیرتر شوند.»

همانطور که «ویدل بار کار»، معاون بخش صوت شرکت «بوک‌وایر»، در رویداد DPR’s AudioNext Summit (مه ۲۰۲۵) اشاره کرد، تقریباً ۹۵ درصد از کتاب‌های الکترونیکی هنوز به نسخه صوتی تبدیل نشده‌اند؛ یعنی ۵.۱ میلیون کتاب که نسخه کتاب صوتی ندارند. این وضعیت، فرصتی تکرارنشدنی برای سرمایه‌گذاری ناشران فراهم می‌کند. با توجه به تقاضای روزافزون برای دسترس‌پذیری و نیاز به گسترش کاتالوگ کتاب‌های صوتی در زبان‌ها و بازارهای گوناگون، شکی نیست که کتاب‌های صوتی روایت‌شده با هوش مصنوعی، نقشی مهم و رو به رشد ایفا خواهند کرد.

اریک بارتولتی، مدیر توسعه کسب‌وکار شرکت، تأکید کرد: «برای پر کردن شکاف‌های فهرست، در دسترس قرار دادن محتوای بیشتر برای شنوندگان و حل چالش “کشف‌پذیری”، باید از راه‌حل‌های ارائه‌شده توسط هوش مصنوعی بهره برد. تولید و ترجمه با هوش مصنوعی یک لایه کاملاً جدید به کسب‌وکار موجود اضافه خواهد کرد و به ایجاد سریع‌تر فهرست‌ها کمک می‌کند. همزمان، فناوری‌های جدید توصیه‌گر مبتنی بر هوش مصنوعی، با انطباق دادن بهترین کتاب بعدی برای هر شنونده، شکاف کشف‌پذیری را از بین می‌برند.»

اینکه بیشتر کتاب‌ها در یکی دو سال اول پس از انتشار تنها چند صد نسخه می‌فروشند، یک واقعیت پذیرفته‌شده است. این آمار فروش محدود، هزینه‌های تولید یک کتاب صوتی با صدای انسان را توجیه نمی‌کند، زیرا این فرآیند به گوینده، تهیه‌کننده و استودیوی ضبط نیاز دارد. آیا این به معنای آن است که این کتاب‌ها باید برای خوانندگانی که گوش دادن را به خواندن ترجیح می‌دهند، غیرقابل دسترس باقی بمانند؟

در همین راستا، راشل گیازا، مدیر ارشد محتوای آدبل، اشاره کرد که «برآوردها نشان می‌دهد حدود ۹۷ درصد از کتاب‌ها هنوز به صورت صوتی در دسترس نیستند و این شکاف برای عناوین غیرانگلیسی‌زبان حتی بزرگ‌تر است. آدبل از اینکه هوش مصنوعی به خالقان محتوا کمک می‌کند تا داستان‌های خود را به صورت صوتی به اشتراک بگذارند، استقبال می‌کند. میلیون‌ها عنوان هرگز به کتاب صوتی تبدیل نمی‌شوند و این امر دلایل مختلفی از جمله توانایی، زمان یا هزینه دارد.»

در همین حال، مردم بیش از هر زمان دیگری به کتاب‌های صوتی گوش می‌دهند و ما معتقدیم گویندگی هوش مصنوعی می‌تواند در کنار سرمایه‌گذاری ما بر گویندگی حرفه‌ای و محتوای اصلی، به این علاقه رو به رشد پاسخ دهد. ما می‌خواهیم به خالقان محتوا روش‌های مختلفی ارائه دهیم تا آثار خود را از طریق قالب صوتی زنده کنند؛ چه بخواهند خودشان تولید با هوش مصنوعی را مدیریت کنند و چه بخواهند آدبل کل فرآیند را از ابتدا تا انتها اداره کند.

ما در سرویس ترجمه خود، بازبینی اختیاری توسط انسان را برای حفظ ظرافت‌های فرهنگی و تضمین کیفیت گنجانده‌ایم. با نگاه به آینده، قصد داریم زبان‌ها، لهجه‌ها و اجرای شخصیت‌های بیشتری را به ابزارهای هوش مصنوعی خود اضافه کنیم تا بتوانیم خدمات بهتری به مخاطبان متنوع در سراسر جهان ارائه دهیم.

جهش فناوری هوش مصنوعی، فرصت‌های جدیدی برای تولید و توزیع گسترده‌تر کتاب‌های جدید ایجاد کرده است. این موضوع به‌ویژه برای کتاب‌هایی صدق می‌کند که روی نویسندگان و موضوعات محلی تمرکز دارند و پیش از این، تولید نسخه صوتی آن‌ها مقرون‌به‌صرفه نبود. اما با کمک هوش مصنوعی، این کتاب‌ها برای اولین بار به نسخه صوتی مجهز می‌شوند و در نتیجه، به راحتی پیدا خواهند شد. این اتفاق، فرصت‌های تجاری جدیدی ایجاد می‌کند و به شکل‌گیری یک صنعت صوتی متنوع‌تر و واقعاً جهانی کمک می‌کند.

در همین راستا، آن-سوفی اشتاینلین، مدیرعامل یوسکرایب، اظهار داشت: «هوش مصنوعی موانع تولید محتوای صوتی را به شکل چشمگیری کاهش می‌دهد و ناشران و حتی نویسندگان، به ویژه در آفریقا و سایر بازارهای نوظهور، را قادر می‌سازد تا بدون نیاز به زیرساخت‌های گران‌قیمت، کتاب‌های صوتی را به زبان‌های مختلف تولید و توزیع کنند. ترجمه فوری و تولید صدای طبیعی ممکن است به زودی هر کتابی را به هر زبانی در دسترس قرار دهد و مخاطبان جهانی را به خود جذب کند. این نوع تولید محتوای صوتی بدون مانع، ارزش اقتصادی و مخاطبان جدیدی به وجود می‌آورد، و همزمان صدای فرهنگ‌ها و اقلیت‌هایی را که کمتر دیده شده‌اند، تقویت می‌کند. در یوسکرایب، ما معتقدیم هوش مصنوعی می‌تواند یک عامل مؤثر و واقعی برای فراگیری و تنوع زبانی باشداین فناوری به ما کمک می‌کند تا مأموریت خود را برای در دسترس قرار دادن مطالعه برای همه از طریق محتوای بومی و سازگار با موبایل، محقق کنیم.»

در راستای همین دیدگاه، لور ساگت، مدیرعامل آودیولیب از گروه هاشِت، تأکید می‌کند: «در بازار فرانسه، جایی که برای انتشار کتاب‌های صوتی هنوز با انتخاب‌های دشوار روبرو هستیم، با استفاده از هوش مصنوعی می‌توانیم استراتژی‌های بهتری برای نشر و ویرایش کتاب‌ها داشته باشیم. به لطف هوش مصنوعی، هزینه‌های تولید در مراحل پیش‌تولید و پس‌تولید و همچنین زمان تولید کاهش می‌یابد. این کاهش زمان به هماهنگ‌تر شدن تاریخ انتشار کتاب‌های صوتی کمک می‌کند.

در فرانسه، چالش اصلی، رشد فهرست کتاب‌های به زبان فرانسوی است. سهم کتاب‌هایی که به صورت صوتی تولید می‌شوند، هنوز بسیار کم است و به همین دلیل نمی‌توان گسترده‌ترین فهرست ممکن را به مخاطبان ارائه داد. چالش مهم دیگر برای فهرست کتاب‌های صوتی فرانسه، گسترش محتوای صوتی در تمام مناطق فرانسوی‌زبان مانند کشورهای آفریقایی است.»چالش مهم دیگر برای فهرست کتاب‌های صوتی فرانسه، گسترش محتوای صوتی در تمام مناطق فرانسوی‌زبان مانند کشورهای آفریقایی است.»

دیدگاهی مشابه نیز از بازارهای زبان عربی به گوش می‌رسد. احمد رویحل، یکی از بنیان‌گذاران و مدیر ارشد کسب‌وکار عربوکورس، اعلام می‌کند که هوش مصنوعی فرصت‌های جدید و جذابی برای صنعت کتاب صوتی عربی فراهم کرده است؛ از جمله توصیه کتاب‌های مناسب به شنونده‌ها بر اساس علاقه‌شان، تولید سریع‌تر و ارزان‌تر کتاب صوتی با صدای هوش مصنوعی، و کمک به داستان‌های عربی برای رسیدن به مخاطبان جهانی، حتی با ژانرها و لهجه‌های کمتر رایج. او اضافه کرد: «این امر یکی از فرصت‌های تجاری اصلی در این منطقه به شمار می‌آید. در حال حاضر، صدای عربی تولید شده با هوش مصنوعی بی‌نقص نیست، اما ما مطمئنیم که با سرمایه‌گذاری بیشتر شرکت‌های بزرگ فناوری در پشتیبانی از زبان عربی، این صداها بسیار بهتر خواهند شد.»

فرآیند تولید بهینه

یک دیدگاه مشترک در میان رهبران صنعت که برای تهیه این گزارش با آن‌ها مصاحبه شده بود، این است که قابلیت‌های خودکارسازی هوش مصنوعی باعث کاهش زمان و هزینه‌ها در فرآیند تولید می‌شود و به این ترتیب، وقت و پول بیشتری برای خلاقیت انسان فراهم می‌کند. در راستای همین دیدگاه، هلنا گوستافسون، مدیر ارشد محتوا و نشر در استوریتل، اظهار داشت: «هوش مصنوعی به سرعت در حال متحول کردن صنعت کتاب است و ابزارهای ارزشمندی برای افزایش کارایی و کاهش هزینه ارائه می‌دهد. با این حال، قدرت واقعی در همکاری یکپارچه نهفته است: هوش مصنوعی می‌تواند فرآیندها را بهبود ببخشد و ساده‌سازی کند، اما خالقان انسانی باید دیدگاه، هوش هیجانی و قضاوت انتقادی را برای خلق محتوای جذاب و تأثیرگذار ارائه دهند. برای ناشران و خالقان محتوا، آینده به معنای استفاده از هوش مصنوعی برای تقویت نبوغ انسانی است، نه جایگزینی آن. این ادغام استراتژیک برای موفقیت در عرصه رقابتی نشر جهانی ضروری است.»

در این شرایط کاری جدید، بسیاری از متخصصان صنعت نشر اعلام کرده‌اند که فرایندهای کاری ترکیبی (هیبریدی) در حال شکل‌گیری است؛ به این معنا که هوش مصنوعی نقش حمایتی دارد و جایگزین نبوغ انسانی نمی‌شود. بسیاری از ابزارهایی که در نقشه جهانی ابزارها و خدمات هوش مصنوعی صوتی به نمایش گذاشته شده‌اند، با ارائه بازخورد لحظه‌ای در طول ضبط صدا یا مشخص کردن ناسازگاری‌ها و خطوط فراموش‌شده، به متخصصان کمک می‌کنند تا فرآیند تصحیح سریع‌تر انجام شود و کارایی کلی بهبود یابد.

این ترکیب از توانایی‌های انسان و ماشین، به طور گسترده‌ای به عنوان بهترین الگو برای حفظ همزمان کیفیت و بهره‌وری در نظر گرفته می‌شود. همسو با این رویکرد، آماندا داسیِرنو، رئیس و ناشر جهانی پی‌آر‌اچ آدیو، می‌گوید که آن‌ها ابزارهایی را توسعه داده‌اند تا کارهایی مانند رونویسی و ویرایش را ساده‌تر کرده، هشدارهای مربوط به روند کار را خودکار کنند و پیش‌نویس مطالب آماده‌سازی مانند راهنماهای تلفظ و مشخصات شخصیت‌ها را تهیه کنند. او اضافه کرد: «در هر مورد، ما از یک اصل مهم پیروی می‌کنیم: «با یک انسان آغاز و با یک انسان پایان دهیم»، که این شامل بازبینی دقیق توسط یکی از کارمندان می‌شود.» این ناشر یکی از پیشگامان صنعت است که با یک فهرست جهانی شامل بیش از ۵۰,۰۰۰ کتاب صوتی به زبان‌های مختلف علاوه بر انگلیسی (مانند اسپانیایی، آلمانی، چینی و غیره)، به شدت در این قالب سرمایه‌گذاری می‌کند.

ابزارهای هوش مصنوعی با اقتباس از فیلم‌نامه، اختصاص شخصیت به گوینده و حتی طراحی جلوه‌های صوتی ویژه، تولیدات پیچیده‌ای را که پیش از این به دلیل محدودیت‌های هزینه ممکن نبودند، تسهیل می‌کنند. این ابزارها با کاهش هزینه‌های فرآیندهای لجستیکی و زمان‌بر، مانند مدیریت رزرو استودیوهای داخلی و بین‌المللی، ضبط مجدد صدای گوینده، اصلاح اشتباهات تلفظ و زمان‌بندی طولانی پس‌تولید، به ناشران امکان می‌دهند تا تولیدات انسانی را بهبود بخشند؛ کاری که تنها چند سال پیش از نظر اقتصادی غیرممکن بود.

در راستای این رویکرد، جیمز لانگ، مدیر ارشد محتوای شرکت پن مک‌میلان، می‌گوید که هوش مصنوعی به تولید کتاب‌های صوتی در مقیاس وسیع کمک می‌کند و این امکان را فراهم می‌سازد که مجموعه گسترده‌تری از کتاب‌ها برای اولین بار به صورت صوتی منتشر شوند و به ما کمک می‌کند تا به شنوندگان بیشتری دسترسی پیدا کنیم. او اضافه کرد: «اصل اساسی ما همیشه این خواهد بود که تنها از فناوری صدای هوش مصنوعی با مجوزهای اخلاقی استفاده کنیم. ما انتظار داریم که فناوری پیشرفته صدای هوش مصنوعی هزینه‌ها را کاهش دهد، به زمان تولید سرعت ببخشد و در نهایت، دامنه مخاطبان را گسترش دهد. در عین حال، امکانات جدیدی از طریق نوآوری‌های صوتی مبتنی بر هوش مصنوعی در حال ظهور است که تجربه‌های شنیداری منحصربه‌فرد و غنی را فراهم می‌کند.» با این حال، لانگ همچنین اضافه کرد که «چالش‌های کلیدی جهانی در مدیریت تأثیر هوش مصنوعی بر نیروی کار خلاق، به ویژه برای هنرمندان صدا و متخصصان تولید مستقل، نهفته است. ایجاد یک چارچوب اخلاقی و تجاری قوی برای حقوق صدا، حیاتی است.»

به عنوان خلاصه‌ای از این بخش، استفاده از هوش مصنوعی برای کارهای پیش‌تولید و پس‌تولید، مانند حذف صداهای پس‌زمینه، صداهای نفس کشیدن، شناسایی خطاها یا ایجاد فهرست‌های تلفظ، در بسیاری از خانه‌های نشر و استودیوهای تولید که این ابزارهای جدید را پذیرفته‌اند، در حال انجام است. این پیشرفت‌های عملیاتی، هم به صرفه‌جویی در هزینه و هم به انعطاف‌پذیری بیشتر منجر می‌شود و به ویژه برای کتاب‌هایی با مخاطبان خاص، کتاب‌های میانی فهرست و کتاب‌های کم‌مخاطب مفید است که در گذشته توجیه اقتصادی برای تولید نسخه صوتی با صدای انسان نداشتند.

ترجمه با هوش مصنوعی: گوش دادن بدون مانع

ابزارهای ترجمه مبتنی بر هوش مصنوعی، با بهره‌گیری از الگوریتم‌های پیشرفته و مدل‌های زبانی بزرگ، حجم عظیمی از متن را پردازش کرده و ترجمه‌های تقریباً فوری را به ده‌ها زبان ارائه می‌دهند. این ابزارها در سرعت، مقرون‌به‌صرفه بودن و یکپارچگی برتری دارند و به همین دلیل برای ناشرانی که فهرست‌های بزرگی را مدیریت می‌کنند یا به دنبال گسترش سریع جهانی هستند، بسیار ارزشمند هستند. مایکل تامبلین، مدیرعامل کوبو، یادآور شد: «فرصت برای گسترش بی‌سابقه ترجمه و گویندگی می‌تواند آثار را به دست مخاطبان بیشتری برساند و ما را با غنای نویسندگان جهانی که تا پیش از این به بازارهای کوچک‌تر محدود بودند، آشنا کند. همین فرصت‌ها، چالش‌هایی را نیز به وجود می‌آورند. در سطح فردی، معیشت گویندگان و مترجمان به خطر می‌افتد. در سطح صنعت نیز، چالش اصلی تمرکز حقوق و توزیع در دست چند پلتفرم قدرتمند است که می‌توانند هوش مصنوعی را در مقیاس وسیع به کار بگیرند.»

با این حال، هوش مصنوعی به تنهایی کلید حل همه مشکلات نیست. با اینکه ترجمه‌های تولیدشده با هوش مصنوعی در روانی و انتقال مفهوم به شکل چشمگیری بهبود یافته‌اند، بازبینی، نمونه‌خوانی و ویرایش نهایی توسط انسان همچنان ضروری است؛ به‌ویژه برای گروه‌های انتشاراتی که در بازار برای تولید کتاب‌های باکیفیت، صرف‌نظر از قالب آن‌ها (چاپی، الکترونیکی یا صوتی) شهرت دارند.

یک ترجمه ضعیف می‌تواند به سرعت به اعتبار و شهرت یک برند انتشاراتی که طی سال‌ها به دست آمده، آسیب بزند. برای رفع این مسائل، ابزارهای ترجمه هوش مصنوعی نسل جدید، فرایندهای کاری ترکیبی انسان و ماشین را فراهم می‌کنند؛ به این صورت که هوش مصنوعی تنها نقش حمایتی دارد و جایگزین تخصص و معیارهای انسانی نمی‌شود.

همانطور که در طول این گزارش تحلیل کردیم، محتوای صوتی هر روز بیشتر در سراسر جهان در حال انتشار است. به همین دلیل، نمایندگان و ناشران به دنبال خدمات ویرایشی و راه‌حل‌های فناورانه جدیدی هستند تا بتوانند با کمک هوش مصنوعی، آثار نویسندگان را به چندین زبان ترجمه، تولید و توزیع کرده و به مخاطبان جهانی دسترسی پیدا کنند. ریچارد لاندبرگ، مدیرعامل آنیارا.وان، یک پلتفرم جدید نشر است که سیستمی هوشمند ساخته تا با کمک هوش مصنوعی و دخالت انسان، آثار را مطابق با ژانرها و نویسندگان خاص به هشت زبان ترجمه کند. او می‌گوید: «ما شاهد افزایش تدریجی حجم تولید خواهیم بود و در جهانی زندگی خواهیم کرد که ترجمه‌ها و اقتباس‌ها می‌توانند در عرض یک دقیقه تولید شوند. نرخ افزایش تولید از نرخ افزایش مصرف بیشتر خواهد بود (که پیش از این در دنیای پادکست دیده شده است). امروز، برجسته شدن و دیده شدن داستان شما سخت است. فردا، وضعیت کاملاً متفاوت خواهد بود. اگر شما یک داستان‌گو یا ناشر هستید، باید داستان‌هایتان و همچنین داستان پشت داستان‌هایتان را بهتر کنید.» این پلتفرم تنها یک سال است که فعالیت می‌کند و همین حالا قراردادهایی با ۳۸ نویسنده از شش کشور، دو نماینده و چهار ناشر امضا کرده است. این کار، فهرست کتاب‌های قدیمی یک نویسنده را به یک موفقیت بالقوه بین‌المللی تبدیل کرده و باعث ایجاد انقلابی در فرآیندهای سنتی نشر و کاهش هزینه‌های تولید تا ۸۵ درصد شده است.

این تحول اساسی، ادبیات را به معنای واقعی کلمه بدون مرز خواهد کرد و به ناشران اجازه می‌دهد تا دامنه نفوذ خود را بسیار فراتر از مخاطبان زبان مادری‌شان گسترش دهند. در همین راستا، ریچارد چارکین، بنیان‌گذار انتشارات منش پابلیشینگ، این سؤالات را مطرح می‌کند: «چقدر آسان می‌توان فایل‌های انگلیسی‌زبان را به صورت مقرون‌به‌صرفه به زبان‌های دیگر تبدیل کرد؟ ناشران جهانی انگلیسی‌زبان تا چه اندازه ممکن است ناشران محلی با زبان‌های دیگر را تضعیف کنند؟»

توزیع و گسترش جهانی

هوش مصنوعی در حال از بین بردن موانع قدیمی بر سر راه دسترسی بین‌المللی و تنوع زبانی است. شانتال رستیفو-آلسی، مدیرعامل بین‌المللی زبان‌های خارجی و مدیر ارشد دیجیتال در هارپرکالینز، می‌گوید که می‌توان فهرست‌های صوتی بین‌المللی را به سرعت گسترش داد و محتوایی را که قبلاً در بازارهای نوظهور و کوچک‌تر در دسترس نبود، ارائه کرد.

رستیفو-آلسی در ادامه می‌گوید: «من گسترش فهرست‌های صوتی برای بازارهای بین‌المللی را روی محتوایی می‌بینم که از نظر اقتصادی امکان تولید نسخه صوتی آن‌ها وجود نداشت؛ مانند کتاب‌های سریالی ما. بدون فهرست‌های بزرگ، توسعه بازار صوتی برای برخی بازارها دشوار است. اما اگر یک فهرست تکمیلی با ترکیب صدای هوش مصنوعی و تولیدات صوتی باکیفیت انسانی بسازیم، می‌توانیم عرضه را سریع‌تر افزایش دهیم. در نتیجه، انتخاب‌های بیشتری برای مصرف‌کنندگان و فرصت‌های بیشتری برای همه طرف‌های درگیر ایجاد خواهد شد.» او اضافه کرد: «باید تمرکز خود را روی کیفیت و شفافیت در برابر مصرف‌کنندگان و نویسندگان حفظ کنیم. همچنین، لازم است مطمئن شویم که کارشناسان انسانی در هر شرایطی، مسئولیت تضمین کیفیت محصول را بر عهده دارند.»

دسترسی آسان به تولید محتوا با هوش مصنوعی، موانع ورود به بازار را برای ناشران کوچک و نویسندگان مستقل پایین می‌آورد. این اتفاق، فضای رقابتی را برابر کرده و به دموکراتیک شدن خلق و توزیع محتوای صوتی کمک می‌کند.

با این حال، جورج واکلی، مدیر شرکت آوت‌ساید کانتکست، یادآور شد: «بسیاری از ابزارهای هوش مصنوعی ارتباط نزدیکی با فروشگاه‌های بزرگ یا پلتفرم‌های فناوری دارند. از این رو، تردیدهای بزرگی وجود دارد که آیا توزیع گسترده به طیف وسیعی از پلتفرم‌ها با کمک هوش مصنوعی امکان‌پذیر خواهد بود یا خیر. در حال حاضر نیز تعداد زیادی از کتاب‌های صوتی در انحصار قراردادهای توزیع اختصاصی هستند و اگر هوش مصنوعی این روند را بدتر کند، یک فرصت از دست رفته خواهد بود. همچنین، ناشران صوتی باید بین مزایای تولید با هوش مصنوعی و ترجیحات مصرف‌کننده و منافع گویندگان، مهندسان صدا و دیگر افراد خلاق انسانی، تعادل برقرار کنند.»

اجتناب از یکنواختی در فضای خلاق جهانی

هوش مصنوعی دیگر فقط یک ابزار کمکی نیست، بلکه به یک حضور دائمی در زندگی روزمره ما تبدیل شده است. با این حال، گروهی از دانشمندان آلمانی تأثیر بسیار عمیق‌تری را شناسایی کرده‌اند: انسان‌ها دارند دقیقاً مثل هوش مصنوعی صحبت می‌کنند. گزارش اخیر مؤسسه ماکس پلانک آلمان (مربوط به توسعه انسانی) نشان می‌دهد که واژگان روزمره مردم در سراسر جهان در حال تغییر است و مدل‌های زبانی بزرگ، مانند چت‌جی‌پی‌تی، عامل این تحول هستند.

محققان بیش از ۲۸۰ هزار ویدئوی انگلیسی‌زبان یوتیوب را از بیش از ۲۰ هزار کانال آموزشی و آکادمیک تحلیل کردند و متوجه شدند که استفاده از کلماتی که هوش مصنوعی معمولاً برای بهبود متن انتخاب می‌کند، به میزان قابل توجهی افزایش یافته است. کلماتی مانند “delve” (عمیق شدن)، “meticulous” (دقیق)، “underscore” (تأکید کردن)، “realm” (قلمرو) و “groundbreaking” (پیشگامانه) که قبلاً در این نوع محتواهای آکادمیک کمتر رایج بودند، پس از عرضه چت‌جی‌پی‌تی شروع به گسترش کردند. بر اساس این پژوهش، میزان استفاده از آن‌ها در پادکست‌ها، ویدئوها و ارائه‌های شفاهی، در برخی موارد بیش از ۴۰ درصد رشد داشته است. بنابراین، فرضیه محققان ساده است: کاربران با مصرف محتوایی که توسط هوش مصنوعی تولید یا تحت تأثیر آن قرار گرفته، ناخودآگاه شروع به تقلید از آن سبک می‌کنند.

برای پلتفرم‌هایی که به مخاطبان گوناگون خدمت‌رسانی می‌کنند، ارائه محتوا با صداهایی که برای شنوندگان محلی آشنا هستند، ضروری است. همچنین، ایجاد یک اکوسیستم عادلانه و فراگیر، به این بستگی دارد که راه‌حل‌های هوش مصنوعی با همکاری یک صنعت صوتی متنوع و واقعاً جهانی طراحی شوند. سوزان گالوِز، مدیر بخش ویراستاری کتاب‌های صوتی و نشر اسپاتیفای، در همین راستا می‌گوید: «این صنعت باید با همکاری یکدیگر اطمینان حاصل کند که ابزارهای هوش مصنوعی به ایجاد یک رونق فزاینده کمک کنند. این کار باید همراه با یک تعهد اخلاقی برای حمایت و حفاظت از کار شگفت‌انگیز نویسندگان، گویندگان و ناشران انجام شود. استفاده مسئولانه از ابزارهای هوش مصنوعی فرصتی واقعی برای از بین بردن نابرابری در صنعت جهانی و ایجاد انقلابی در تجربه مطالعه برای دوستداران کتاب دارد. فناوری هوش مصنوعی امکانات بیشتری را برای افزایش نوآوری در تجربیات خواندن و شنیدن بین قالب‌های مختلف به ارمغان می‌آورد. من فکر می‌کنم این فناوری می‌تواند به کاهش شکاف میان فهرست کتاب‌های الکترونیکی و صوتی کمک کند. همچنین، دوست دارم شاهد مردمی‌سازی بیشتر خلق و دسترسی به کتاب‌های صوتی در اقتصادهای نوظهور و تبادل آسان‌تر محتوای بین‌فرهنگی باشم.»

قابلیت کشف در بحبوحه فراوانی محتوا

بازاریابی و کیوریتوری (انتخاب و ساماندهی محتوا) به لطف خودکارسازی و شخصی‌سازی مبتنی بر هوش مصنوعی، در حال تجربه یک تغییر اساسی هستند. سیل محتوای تولیدشده با هوش مصنوعی، کانال‌های فروش و به‌زودی پلتفرم‌ها را زیر بار خود خواهد برد و غربال کردن گزینه‌ها را برای خوانندگان دشوار می‌سازد. همین امر باعث می‌شود که آن‌ها در برابر این فراوانی محتوا، دچار سردرگمی و فلج فکری شوند. چالش اصلی این خواهد بود که چگونه به مخاطبان کمک کنیم تا در میان این عرضه فراوان، محتوایی را پیدا کنند که واقعاً متناسب با علاقه آن‌هاست. مدیران ارشد صنعت که در این مصاحبه‌ها شرکت داشتند، به طور مستمر بر این نکته تأکید کردند که باید اشکال جدیدی از اطلاع‌رسانی ایجاد کنیم؛ مانند محتوای تبلیغاتی تولیدشده توسط هوش مصنوعی و تجربه‌های تعاملی، که می‌تواند به ساخت برندهای متمایز در این فضای شلوغ کمک کند.

در بخش بازاریابی، هوش مصنوعی ابزارهای قدرتمندی در اختیار ناشران قرار می‌دهد تا مخاطبان هدف خود را مؤثرتر جذب کنند و با آن‌ها ارتباط برقرار سازند. تحلیل‌های مبتنی بر هوش مصنوعی، می‌تواند دید عمیقی از رفتار مصرف‌کننده ارائه دهد و امکان اجرای کمپین‌های بازاریابی بسیار هدفمند را فراهم کند. علاوه بر این، هوش مصنوعی می‌تواند تولید محتوای بازاریابی، مانند خبرنامه‌های شخصی‌سازی‌شده، پست‌های شبکه‌های اجتماعی و تبلیغات هدفمند را خودکارسازی و بهینه کند و مطمئن شود که این محتواها برای بخش‌های خاصی از مخاطبان جذابیت دارند.

استفاده از هوش مصنوعی برای خودکارسازی و بهبود فراداده‌ها (داده‌های مربوط به داده‌ها)، به کشف هوشمندتر محتوا و بازاریابی منجر شده است. سانتوس پالازی، مدیر بخش بازارهای عمومی و دیجیتال انتشارات اِدیتوریال پِلانِتا، بر بهبود قابلیت کشف فهرست کتاب‌ها از طریق فراداده‌های غنی‌شده تأکید می‌کند. این کار به نوبه خود، سیستم‌های پیشنهادی دقیق‌تری را پشتیبانی کرده و یافتن ژانرهای خاص و لهجه‌های منطقه‌ای را آسان می‌سازد.

پالازی در این باره می‌گوید: «در درجه اول باید مطمئن شویم که کیفیت روایت مناسب است و ارزش این حوزه را پایین نمی‌آورد. پس از تأیید این موضوع، باید نویسندگان و ایجنت‌ها را متقاعد کنیم که اجازه دهند از این صداها برای روایت محتوایشان استفاده شود. در مرحله دوم، با توجه به هجوم عناوین جدید، داشتن کمپین‌های تبلیغاتی و ترویجی هدفمند بسیار حیاتی است تا شنوندگان کتاب‌های ما را انتخاب کنند. استفاده از صدای شبیه‌سازی‌شده گویندگان حرفه‌ای می‌تواند به عنوان ابزاری برای تمایز و برجسته شدن عمل کند.»

دیدگاه رایجی که مدیران ارشد صنعت در این گزارش مطرح کرده‌اند، این است که ابزارهای بازاریابی مبتنی بر هوش مصنوعی می‌توانند محتوای مختص هر پلتفرم را تولید کنند که توجه مخاطبان را در تمام شبکه‌های اجتماعی جلب کند. این ابزارها قادرند بخش‌های کلیدی یک کتاب صوتی را به پست‌های جذاب تبدیل کنند؛ مثلاً با برجسته‌سازی نقل‌قول‌های به یاد ماندنی، نمایش بینش‌های ارزشمند، یا طرح سؤالات تأمل‌برانگیز که باعث تعامل می‌شوند. با زمان‌بندی استراتژیک این محتواهای تبلیغاتی که توسط هوش مصنوعی ساخته شده‌اند، ناشران می‌توانند دامنه دسترسی خود را به حداکثر رسانده، تعامل مخاطبان را تقویت کنند و جریان کاری بازاریابی را بهینه سازند.

بهبود فراداده‌ها امکان انتخاب و سازماندهی دقیق‌تر متون را فراهم می‌کند تا بتوان مواد بازاریابی دیجیتال را به صورت بسیار هدفمند توزیع کرد و اطمینان یافت که هر کتاب صوتی، خواننده خود را پیدا می‌کند. برَد رُز، معاون بخش راهبرد محتوا در هوُپلا، تأکید می‌کند که استانداردسازی فراداده‌ها در سطح صنعت ضروری است تا سردرگمی در بازارهای مصرف‌کننده و کتابخانه‌ها کاهش یابد.

فراداده‌های دقیق برای متمایز کردن فهرست کتاب‌ها و تضمین بقای آن‌ها در بازار رو به جهانی‌شدن، نقشی حیاتی دارند. بِرَد رُز، معاون بخش راهبرد محتوا در هوپلا، می‌گوید: «از آنجایی که استفاده از هوش مصنوعی در تولید متن و صدا افزایش یافته است، ما قویاً از صنعت می‌خواهیم فراداده‌ها را استانداردسازی کنند و این درخواست را از ناشران همکارمان داریم.» او افزود: «همکاری با تمام ناشران و نویسندگان برای تضمین شفافیت داده‌ها ضروری است، زیرا این شفافیت برای مشتریان کتابخانه‌ای ما اهمیت زیادی دارد. با وجود پیشرفت‌های چشمگیر صنعت، ما همچنان از ناشران می‌خواهیم که در بحث صدای هوش مصنوعی در فراداده‌ها، دستورالعمل‌های انجمن ناشران صوتی را رعایت کنند.»

ادغام ابزارهای هوش مصنوعی در بازاریابی می‌تواند برای متخصصان حوزه نشر که به دنبال متمایز شدن هستند، تحول‌آفرین باشد. این فناوری با خودکارسازی کارهای زمان‌بر مانند نوشتن توضیحات کتاب، شناسایی کلمات کلیدی و فراداده‌ها، یا ساخت پست‌های شبکه‌های اجتماعی، بسیاری از فرآیندهای بازاریابی را ساده می‌کند و به اعضای تیم اجازه می‌دهد تا روی تولید محتوای خلاقانه و باکیفیت بالا تمرکز کنند.

مرز بعدی پیشرفت، در گرو پالایش بیشتر الگوریتم‌ها و خلق تجربیاتی است که همچنان جذاب، متنوع و سازماندهی‌شده باقی بمانند. بخشی از حل این چالش، نیازمند سرمایه‌گذاری عظیمی از سوی پلتفرم‌های پیشرو در پخش و توزیع محتوای صوتی است. هدف از این سرمایه‌گذاری، ایجاد سیستم‌های پیشرفته، عادلانه و فراگیری است که با ابزارهای توصیه‌گر هوش مصنوعی، شنوندگان را به سمت شخصی‌ترین محتوای ممکن هدایت کنند. بدون این سرمایه‌گذاری، تجربه مصرف‌کننده تکه‌تکه می‌شود و محتوای باارزش ممکن است در این آشفته‌بازار گم شود.

الگوبرداری از ابتکارات هوش مصنوعی در سایر صنایع خلاق

در جریان تلاش‌های پژوهشی انجام‌شده برای این پروژه، ما بسیاری از طرح‌های هوش مصنوعی را کشف کردیم که توسط نهادهای فعال در صنایع خلاق هدایت می‌شدند؛ از جمله اپلیکیشن‌های پادکست، پلتفرم‌های پخش محتوا و شرکت‌های بزرگ رسانه‌ای. این طرح‌ها می‌توانند به عنوان مطالعات موردی در سایر کسب‌وکارهای محتوایی و سرگرمی، الگوبرداری و تکرار شوند.

برای شتاب بخشیدن به منحنی یادگیری هوش مصنوعی و اجتناب از تکرار اشتباهاتی که پیش‌تر رخ داده است، ما قویاً به ناشران توصیه می‌کنیم که ابتکارات همسایگان خود در زمینه محتوای صوتی را با دقت بررسی کنند. ما بیش از بیست مورد از بهترین اقدامات را شناسایی کرده‌ایم، اما برای اینکه از تهیه یک گزارش صد صفحه‌ای خودداری کنیم، چهار پروژه نوآورانه اما با قابلیت توضیح آسان را برای ارائه چندین مثال با شما به اشتراک خواهیم گذاشت.

پلتفرم پاکت اف‌ام

پلتفرم سرگرمی صوتی پاکت اف‌ام، هزینه‌های تولید خود را از طریق سیستم‌های اختصاصی هوش مصنوعی‌اش به طور چشمگیری کاهش داده است. این پلتفرم پیشرو در حوزه پادکست، یک زیرساخت هوش مصنوعی سفارشی ایجاد کرده است که تولیدکنندگان را در تمام مراحل؛ از فیلمنامه‌نویسی و تولید صدا گرفته تا طراحی صدا و بومی‌سازی چندزبانه، توانمند می‌سازد.

روهان نایاک، هم‌بنیان‌گذار و مدیرعامل پاکت اف‌ام، اظهار داشت: «در قلب این تحول، همکاری بی‌نقصی میان خلاقیت انسانی و دقت هوش مصنوعی قرار دارد که ما را قادر می‌سازد داستان‌های عالی را در مقیاس وسیع و بدون کاهش کیفیت تولید کنیم. هوش مصنوعی به ما کمک می‌کند تا محتوای باکیفیت را سریع‌تر و کارآمدتر از همیشه ارائه دهیم. هزینه‌های محتوای ما به طور چشمگیری کاهش یافته است، در حالی که کارایی سازندگان محتوا ده برابر افزایش پیدا کرده است.»

نتفلیکس

در همین چارچوب، نتفلیکس شروع به ادغام هوش مصنوعی مولد در تولیدات اصلی خود کرده است. تد ساراندوس، مدیرعامل مشترک نتفلیکس، در آخرین کنفرانس گزارش مالی سه‌ماهه دوم اعلام کرد که سریال «ال اترنآوتا» شامل «اولین فیلم نهایی تولیدشده با هوش مصنوعی مولد در صفحه نمایش» است که اشاره به صحنه تخریب یک ساختمان داشت. به گفته ساراندوس، این صحنه ده برابر سریع‌تر و با هزینه کمتری نسبت به جلوه‌های بصری سنتی تکمیل شد. او تأکید کرد که هوش مصنوعی جایگزین هنرمندان نیست، بلکه ابزاری بهتر در دست آن‌هاست. هوش مصنوعی همچنین در مرحله پیش‌تصویرسازی، برنامه‌ریزی صحنه‌ها و جلوه‌هایی مانند جوان‌سازی که قبلاً محدود به فیلم‌های پرهزینه بود، کمک می‌کند. گرگ پیترز، دیگر مدیرعامل مشترک، افزود که نتفلیکس استفاده از هوش مصنوعی را به جستجو، شخصی‌سازی و هدف‌گیری تبلیغات گسترش می‌دهد و قصد دارد امسال تبلیغات تعاملی را راه‌اندازی کند. استفاده آرام و تدریجی نتفلیکس از هوش مصنوعی در یک سریال علمی-تخیلی بزرگ، نشانه‌ای از مسیر آینده است.

هوش مصنوعی همچنین در حال متحول کردن حفظ و نگهداری فیلم‌ها و تاریخ سینما است. چندین فعال صنعت فیلم، از ابزارهای هوش مصنوعی برای تبدیل فیلم‌های قدیمی به آثار باکیفیت بالا استفاده می‌کنند. استودیوها از هوش مصنوعی برای بازسازی جلوه‌های صوتی، بهبود رزولوشن و ترمیم آسیب‌های موجود بهره می‌برند. ناشران نیز باید با الگوبرداری از این ابتکار، استفاده از هوش مصنوعی را برای دمیدن روحی تازه در کتاب‌های صوتی کلاسیکی که دهه‌ها پیش تولید شده‌اند، در نظر بگیرند تا تجربه‌ای پیشرو از شنیدن را برای کاربران فراهم کنند.

نیویورک تایمز

نیویورک تایمز این امکان را فراهم کرده است که مشترکان بتوانند به محض انتشار، بیشتر مقالات را گوش کنند؛ این کار باعث افزایش دسترسی و ایجاد راهی جدید برای تعامل با محتوای آن‌ها می‌شود. اما این قابلیت از یک صدای خودکار استفاده می‌کند که ممکن است گهگاه در تلفظ، لحن یا احساس، با خطاهایی همراه باشد.

پادکست دفتر خاطرات یک مدیر عامل

پادکست «دفتر خاطرات یک مدیر عامل» با اجرای استیون بارتلت، از هوش مصنوعی برای تولید پادکست جدید خود با عنوان «۱۰۰ مدیر عامل» استفاده می‌کند و صدای او را برای ساخت یک مجری شبیه‌سازی کرده است. بارتلت تنها فیلمنامه را نوشته و بقیه کارها را به هوش مصنوعی سپرده است. این فرآیند شامل شبیه‌سازی صدای او برای اجرای برنامه، ساخت استوری‌بورد و تبدیل آن به یک ویدئوی انیمیشنی بوده است. این برنامه که در پلتفرم‌هایی مانند یوتیوب و اپل پادکست در دسترس است، در توضیحات آن به عنوان محصول ساخته شده با هوش مصنوعی مشخص شده است.

بلینکیست

بلینکیست یک سرویس اشتراکی خلاصه‌سازی کتاب است که در برلین آلمان مستقر است و تا سال ۲۰۲۳، ۲۳ میلیون بار دانلود شده است. این پلتفرم پخش محتوا، فرآیند تولید صوتی «بلینک‌ها» (محتوای صوتی طولانی‌تر خود) را خودکار کرده است. در نتیجه، توانسته بیش از ۲۰۰ بلینک به زبان‌های انگلیسی و آلمانی را با هزینه بسیار کمتری تولید کند و در زمان (ده برابر) و منابع (بیست برابر) صرفه‌جویی کند.

این شرکت همچنین قابلیت جدیدی به نام «بلینکیست هوش مصنوعی» راه‌اندازی کرده است که در واقع ابزاری درون پلتفرم بلینکیست است و از هوش مصنوعی برای خلاصه کردن محتواهای متنوعی از جمله مقالات، پادکست‌ها و حتی ویدئوهای یوتیوب استفاده می‌کند. این قابلیت به کاربران اجازه می‌دهد تا به سرعت، نکات کلیدی و اصلی را از منابع گوناگون (اخبار، پادکست‌ها، ویدئوهای یوتیوب و غیره) استخراج کنند و تنها محدود به خلاصه‌سازی کتاب‌ها نباشند.

بخش ۳. چالش‌های ناشی از هوش مصنوعی

در بخش بعدی این گزارش، ما چالش‌های اصلی ناشی از ورود ناگهانی هوش مصنوعی را تحلیل خواهیم کرد. دیدگاه‌ها و نقل‌قول‌هایی که از بیش از ۴۰ کارشناس صنعت گردآوری شده است، مسائلی نظیر اجتناب از ذهنیت‌های ریسک‌گریز، نیاز به تقویت تنوع فرهنگی، تضمین کنترل کیفیت و حقوق خالقان، و مهم‌تر از همه، جلب اعتماد مصرف‌کننده را برجسته می‌سازد.

کتاب‌های صوتی با صدای هوش مصنوعی به زودی از تولید انسانی پیشی می‌گیرند

در حال حاضر، میانگین تولید کتاب‌های صوتی با صدای گویندگان انسانی به زبان انگلیسی، حدود ۷۵ هزار عنوان جدید در سال است. یکی از پیامدهای جانبی رقابت در تولید محتوا با هوش مصنوعی این است که پیش‌بینی می‌شود تا پایان سال جاری، تعداد کتاب‌های صوتی تولیدشده با صدای هوش مصنوعی در این زبان، از تعداد عناوین تولیدشده توسط انسان بیشتر شود.

دو سال پیش، آمازون از راه‌اندازی یک طرح آزمایشی (بتا) خبر داد که به نویسندگان کی‌دی‌پی اجازه می‌داد با استفاده از روایت صدای مجازی که یک فناوری بسیار ساده تبدیل متن به گفتار بود، به سرعت و به آسانی یک نسخه صوتی از کتاب الکترونیکی خود تولید کنند. بر اساس گزارش بلومبرگ، در کمتر از یک سال، بیش از ۴۰ هزار عنوان کتاب صوتی با صدای هوش مصنوعی از طریق آدیبل در دسترس قرار گرفت. امسال، آدیبل برنامه‌های خود را برای استفاده از فناوری هوش مصنوعی در روایت کتاب‌های صوتی و به دنبال آن ترجمه مبتنی بر هوش مصنوعی اعلام کرده است. آدیبل از طریق سرویس «سرتاسری» خود، کل فرآیند تولید کتاب صوتی را مدیریت می‌کند و هر مرحله، از دریافت متن اولیه تا انتشار نهایی، را با بیش از ۱۰۰ صدای تولیدشده با هوش مصنوعی در زبان‌های انگلیسی، اسپانیایی، فرانسوی و ایتالیایی، همراه با گزینه‌های لهجه و گویش متنوع، انجام می‌دهد.

در این چشم‌انداز جدید صوتی، بسیاری از متخصصان نشر نسبت به شکل‌گیری احتمالی یک بازار دوقطبی ابراز نگرانی کرده‌اند: با بهبود روایت‌های تولیدشده توسط هوش مصنوعی، تفاوت میان صدای گویندگان ممتاز و «سطح بالا» و گزینه‌های مصنوعی ارزان‌تر، روز به روز کمتر خواهد شد. در چنین شرایطی، سرویس‌های توزیع باید میان گسترش دسترسی به فهرست کتاب‌ها با محتوای هوش مصنوعی و حفظ کیفیت، تعادل ایجاد کنند؛ همه این‌ها در حالی است که باید زمینه‌های غنی فرهنگی و تأثیر عاطفی را که فقط روایت انسانی می‌تواند منتقل کند، حفظ نمایند.

یک ذهنیت جدید نسبت به هوش مصنوعی

برخی از بازیگران کلیدی هوش مصنوعی که در «نقشه جهانی ابزارها و خدمات صوتی مبتنی بر هوش مصنوعی» گنجانده شده‌اند، به وضوح نشان داده‌اند که یکی از چالش‌های اصلی پیش رو، مدیریت مشترک دوره تحول‌آفرین و بزرگی است که صنعت نشر با آن روبه‌رو است. لاس کورسمان هورن، مدیر انتشارات ساگا و لیندِرت و رینگهاف، پیشگام این دیدگاه است و می‌گوید: «کتاب‌های صوتی تولیدشده با هوش مصنوعی خبر خوبی برای خوانندگان هستند، چرا که تمام کتاب‌های جهان در قالبی جدید در دسترس قرار می‌گیرند. اما به باور من، این اتفاق زنگ پایان مدل کسب‌وکار ناشران کتاب صوتی را به صدا در می‌آورد. دیگر منطقی نیست که یک ناشر، مجوز کتاب صوتی را به ناشر دیگری بفروشد. در عوض، ممکن است رونقی در روایت‌های صوتی اختصاصی ایجاد شود که فراتر از تبدیل مکانیکی و صرف کلمات به صوت است. هوش مصنوعی پایان دهنده دیجیتالی شدن کلاسیک بازار کتاب است؛ کسب‌وکاری که به تبدیل متن از یک قالب به قالب دیگر وابسته بود و اکنون ماشین‌ها این کار را انجام می‌دهند.»

در تکمیل این دیدگاه، جان رومَن، مدیرعامل مشترک و هم‌بنیان‌گذار بوکوایر، اظهار داشت: «تغییر در راه است، چه بخواهیم چه نخواهیم. حیاتی است که در شکل‌دهی این تغییر نقشی فعال داشته باشیم. ناشران، کانال‌های توزیع، تولیدکنندگان، گویندگان و نویسندگان؛ همه ما در یک کشتی نشسته‌ایم. این وضعیت نیازمند اتحاد، گفتگو و شجاعت برای ایجاد مسیرهای جدید است. هوش مصنوعی می‌تواند ابزاری باشد که ما را قوی‌تر کند؛ البته اگر آماده باشیم مسئولیت بپذیریم و آگاهانه بر کیفیت‌های خلاقانه و انسانی صنعت خود تمرکز کنیم.»

همانطور که یورای فلیکس، مدیرعامل فِیم‌پلی، مشاهده می‌کند، این بخش در حال گذر از یک «لحظه گوتنبرگ» است که اساساً نحوه مشارکت و مقیاس فعالیت فعالان صنعت را دگرگون می‌کند. او می‌گوید: «وقتی صحبت از دگرگونی‌های زیستی ما می‌شود، پیشرفت ما به طرز شگفت‌انگیزی کند است—به خصوص در مقایسه با روند شتابان و فزاینده پیشرفت فناوری امروز. در نتیجه، بزرگ‌ترین مانع در قوانين و محدودیت‌هایی نهفته است که ما به عنوان یک گونه کسب‌وکاری، بر خودمان تحمیل می‌کنیم.» در تکمیل این دیدگاه، رابرت کاستن کارلبرگ، مدیرعامل و هم‌بنیان‌گذار نوانکست، معتقد است: «برای همه ما مهم است که این واقعیت را بپذیریم که هر چه می‌درخشد طلا نیست، بنابراین، تلاش برای جدا کردن هیجان از واقعیت، یک چالش اساسی است و خواهد ماند. آزمایش و خطای زیادی در پیش خواهیم داشت و امیدواریم تعداد محدودی از موفقیت‌ها به قدری بزرگ باشند که بتوانند شتاب مثبت زیادی را برای کل صنعت فراهم کنند.»

در همین راستا، ریکاردو آلمیدا، بنیان‌گذار و مدیرعامل «کلوپ نویسندگان»، قویاً معتقد است که: «امروز، صنعت نشر به شدت نیازمند فرآیندهای کارآمدتر است. در این راستا، فرصت‌هایی برای خدمات هوش مصنوعی در تقریباً هر چیزی که شامل یک داستان خوب می‌شود، وجود دارد؛ از جمله ویراستاری متنی، ترجمه، تحلیل داستان، طراحی جلد، توزیع و سازماندهی محتوا. حالا تنها به این بستگی دارد که ناشران، تعصبات قوی و معمول خود را علیه هر نوع نوآوری کنار بگذارند و یک واقعیت جدید را بپذیرند که می‌تواند کسب‌وکار آن‌ها را متحول کند. کسانی که این کار را به خوبی انجام دهند، پیشرفت خواهند کرد؛ کسانی که انجام ندهند، به احتمال زیاد کنار خواهند رفت. موضوع به همین سادگی است.»

مطالعات متعددی به طور مداوم نشان می‌دهند که شکاف استعداد و تخصص، یکی از دلایل اصلی شکست پروژه‌های هوش مصنوعی است. بسیاری از کارکنان معتقدند که این شکاف مهارتی، ناشی از کمبود سرمایه‌گذاری در آموزش هوش مصنوعی و برنامه‌های ارتقای مهارت داخلی است و این امر مشکل را تشدید می‌کند. لوئیس گونزالس، مدیر عامل FGSR، در تأیید این دیدگاه، به قابلیت‌های مورد نیاز هوش مصنوعی از متخصصان نشر اشاره کرد و گفت: «اولویت اول، درک پیامدهای آن برای سال‌های آینده و تعریف مشخصات حرفه‌ای افراد بر اساس ارزش منحصر به فردی است که انسان‌ها در هدایت فرآیندها در محیطی با کاربرد روزافزون هوش مصنوعی به ارمغان می‌آورند. اولویت دوم، آموزش متخصصان برای استفاده از هوش مصنوعی در زمینه‌هایی مانند تولید، بازاریابی و ارتباطات، مدیریت داده، طراحی و بهینه‌سازی زنجیره تأمین است—که هدف از آن، هم صرفه‌جویی قابل توجه در هزینه‌ها و هم ارتقای تجربه ارزشمند کتاب‌خوانی است.»

قابلیت کشف: هوش مصنوعی در بازاریابی و سازماندهی محتوا

در تمامی گفتگوهایی که با متخصصان صنعت صوت برای تهیه این گزارش داشتیم، یک کلمه بزرگ‌ترین چالش ما را خلاصه می‌کند: «قابلیت کشف». بسیاری تأکید کردند که بزرگ‌ترین کمک هوش مصنوعی به بخش نشر، نه در تولید سریع‌تر صوت که هزینه و زمان ورود به بازار را بدون لطمه به هنر کاهش می‌دهد، بلکه در «کشف هوشمندانه‌تر» محتوا است تا به شنوندگان کمک کند از کتاب صوتی بعدی خود لذت ببرند.

اکثر پاسخ‌دهندگان توافق داشتند که در سه سال آینده باید نحوه کشف داستان‌ها توسط مخاطبان را بازنگری و نوآوری کنیم. به عنوان شنونده، کم و بیش همه ما قبول داریم که روش کشف محتوای جدید دارای اشکال است؛ بسیاری از الگوریتم‌های پیشنهاددهنده همچنان از دسته‌بندی‌های کلیشه‌ای و منسوخ استفاده می‌کنند و صرفاً آنچه را که قبلاً پرفروش بوده یا محبوب است، تبلیغ می‌کنند. بر اساس این نوع تفکر، دن ویدراسکو، بنیان‌گذار و مدیرعامل وُکسا، اظهار داشت: «ما در حال ساخت یک «گراف شنیداری» هستیم: سیستمی که روز، حال و هوا و موقعیت شما را درک می‌کند و صدایی، ریتمی و داستانی را پیشنهاد می‌دهد که خودتان هم نمی‌دانستید به آن نیاز دارید. با ادغام هوش مصنوعی در هوشمندی شنیداری خود، ما تجربه‌های شخصی‌سازی‌شده‌ای را در لحظه ارائه می‌دهیم که تجربه کاربر، میانگین طول مصرف، ماندگاری و ارزش طول عمر مشتری را بهبود می‌بخشد. هوش مصنوعی همچنین رفتار شنوندگان را در مناطق مختلف تحلیل می‌کند تا پیشنهاد دهد که عناوین بعدی را بر اساس ترجیحات ژانر، سرعت روایت و عادات شنیداری، در کدام مناطق بومی‌سازی کنیم. ما دیگر حدس نمی‌زنیم که چه چیزی را اقتباس کنیم—بلکه می‌دانیم.»

با ورود موج عظیمی از محتوای تولیدشده توسط هوش مصنوعی به بازار، این سؤال مطرح می‌شود که چگونه ناشران و پلتفرم‌ها می‌توانند خوانندگان را راهنمایی کنند تا در میان این حجم بالا، آنچه واقعاً با سلیقه آن‌ها ارتباط برقرار می‌کند را پیدا کنند؟ چندین متخصص صنعت نشان دادند که این مسئولیت ماست تا رویکردهای اخلاقی، فراگیر، و دارای تنوع زبانی را در سیستم‌های پیشنهاددهنده، آموزش، و برچسب‌گذاری آثار ساخته‌شده با هوش مصنوعی در اولویت قرار دهیم.

تسلط کنونی زبان‌های اصلی، به ویژه انگلیسی، در توسعه و آموزش هوش مصنوعی، این خطر را دارد که زبان‌ها و لهجه‌های مغفول مانده در سراسر جهان را تحت‌الشعاع قرار دهد. خطر هجوم محتوای تکراری و مشابه، بدون احساس یا پر از خطا وجود دارد که می‌تواند اعتماد مخاطبان را از بین ببرد و در نهایت، اطمینان مصرف‌کنندگان به فرمت کتاب صوتی را تضعیف کند. کریس کنلی، میزبان پادکست دنیای گفتاری، نسبت به یک «سونامی» قریب‌الوقوع از محتوای صوتی ضعیف یا بی‌کیفیت هشدار می‌دهد و می‌گوید: «با آسان شدن فرآیند تولید، چالش حفظ کیفیت و قابلیت کشف در بازاری که به سرعت در حال اشباع شدن است، افزایش می‌یابد و این امر می‌تواند اعتماد کلی به این فرمت را کاهش دهد.»

اصالت صدا

یک موضوع مشترک در میان رهبران صنعت که برای این گزارش با آن‌ها مصاحبه شد، ارزش غیرقابل جایگزین خلاقیت و ارتباط انسانی در آثار روایی است. اگرچه روایت مصنوعی (تولیدشده توسط هوش مصنوعی) به میزان زیادی گزینه‌ها را برای عناوین فرعی و کتاب‌های قدیمی‌تر افزایش می‌دهد، اما وقتی هدف حفظ کیفیت بالا باشد، این فرآیند «ارزان» نیست؛ زیرا همچنان به زمان قابل توجهی برای پسا-تولید دقیق نیاز دارد.

علی‌رغم پیشرفت‌های چشمگیر در سال‌های اخیر، صداهای تولیدشده با هوش مصنوعی همچنان با چالش اصالت و انتقال احساسات، به ویژه در ژانرهایی که نیازمند روایت احساسی هستند، روبه‌رو هستند. مدل‌های کنونی هوش مصنوعی غالباً دچار خطا، اشتباهات تلفظی، یا فقدان تأکید مناسب می‌شوند، به خصوص در محتواهای پیچیده یا فنی. این امر مستلزم صرف زمان زیادی برای پسا-تولید دستی است که بخشی از مزایای مورد انتظار در کارآمدی را از بین می‌برد. رابرت هولمستروم، مدیر عامل ایرسِلکت، اشاره کرد که: «هوش مصنوعی ممکن است برای داستان، خودیاری یا رمان عاشقانه—ژانرهایی با زبان نسبتاً ساده—عالی باشد، اما در مورد کتاب‌های غیرداستانی اوضاع پیچیده می‌شود. این کتاب‌ها اغلب شامل اصطلاحات پیچیده، نام‌ها و عبارات علمی هستند که هوش مصنوعی در آن‌ها لنگ می‌زند—و طنز ماجرا این است که این‌ها همان کتاب‌هایی هستند که می‌خواهیم ارزان‌تر تولید کنیم. اما بدون ویرایش سنگین پس از تولید، خطر غلط بودن وجود دارد که اعتماد شنونده را از بین می‌برد.»

با گسترش روزافزون ارائه فهرست‌های محتوایی توسط هوش مصنوعی، مفاهیم عمیقی مانند سلیقه، اصالت و انسانیت—ویژگی‌هایی که به هنر و خلاقیت روح می‌بخشند—ممکن است تحت‌الشعاع قرار گیرند. در این شرایط، ارزش داستان‌سرایی انسانی، تولید باکیفیت و محتوای صوتی احساسی به شدت افزایش خواهد یافت. ندیم صادق، بنیان‌گذار و مدیرعامل شیمر، اشاره کرد: «بزرگ‌ترین چالش حفظ صمیمیت تکاملی داستان‌سرایی انسان است، زمانی که داستان‌گو به یک الگوریتم تبدیل می‌شود. ما در معرض از دست دادن اعتمادی هستیم که از صداهای اصیل نشأت می‌گیرد؛ زیرا ما به صداها بیش از متن اعتماد داریم، چرا که آن‌ها قصد و احساس واقعی را آشکار می‌کنند. خطر این است که جهانی مملو از صوت مصنوعی خلق کنیم که ترجیح ذاتی ما را برای تجربیات شنیداری معنادار زیر سؤال می‌برد.»

در بدترین سناریو، جایی که تقریباً همه صداها شبیه به هم باشند، چیزهایی که حس متفاوتی ایجاد می‌کنند، اهمیت بسیار بیشتری خواهند یافت. کالین هاور، مدیرعامل هوربوخ هامبورگ، در تأیید این تفکر اشاره می‌کند: «ما باید به خودمان و یکدیگر، کیفیتی را که نماینده آن هستیم یادآوری کنیم و مطمئن شویم که همچنان آن را به مخاطبانمان ارائه می‌دهیم. من معتقدم که تعهد به تولیدات باکیفیت، نظارت و هسته انسانی، تأثیر زیادی بر نرخ پذیرش کتاب‌های صوتی، حتی در بازارهای کمتر توسعه‌یافته خواهد داشت. آیا کار کردن با متخصصان گران‌تر از صرفاً کلیک کردن یک دکمه است؟ بله، اما در درازمدت نتیجه خواهد داد. ما به عنوان یک صنعت باید هوشیار بمانیم و با فرصت‌های جدید آشنا شویم، اما در عین حال، نباید وسوسه شویم که کنترل را رها کنیم.»

کیفیت، اعتماد و شفافیت

توانایی هوش مصنوعی در شبیه‌سازی و تولید صدا، معضلات اخلاقی و حقوقی جدیدی را به همراه آورده است که به طور خاص شامل رضایت (مجوز)، جبران خسارت و مدیریت حقوق می‌شود. بسیاری از متخصصان نشر بر پرداخت‌های شفاف و عادلانه به گویندگانی که صدای آن‌ها شبیه‌سازی می‌شود، پافشاری کرده‌اند؛ این امر بدون توجه به مشارکت مستقیم یا عدم مشارکت آن‌ها در فرآیندهای تولید است.

همچنین، نبود پروتکل‌های واضح در سطح صنعت، خطر آسیب به اعتبار و درگیری‌های حقوقی بالقوه را افزایش می‌دهد، چرا که قوانین برای مقابله با نفوذ هوش مصنوعی در صنایع خلاق، به‌ویژه برداشت غیرمجاز صدا یا محتوا، در حال تکامل هستند و این امر نیازمند تدابیر حفاظتی قوی‌تر و همکاری میان تولیدکنندگان و پلتفرم‌ها است. نگرانی‌هایی نیز در مورد از دست رفتن شغل و کم ارزش شدن مهارت‌های خلاقانه وجود دارد؛ اگرچه اکثر متخصصان نشر، هوش مصنوعی را مکمل می‌دانند، تهدید علیه نقش‌های تثبیت‌شده در روایت و تولید، واقعی است. میل سیری‌ناپذیر خوانندگان به راحتی در هنگام جستجو در پلتفرم‌های استریم، این خطر را دارد که تصمیمات فرهنگی را به طور فزاینده‌ای یکنواخت و غیرقابل تشخیص کند. در چنین شرایطی، فعال‌سازی مهارت‌های خلاقانه متخصصان نشر، پرورش حس سلیقه پالایش‌یافته‌ای که در برابر یکسان‌سازی مقاومت می‌کند و از صداهای فرهنگی اصیل و متنوع حمایت می‌کند، بیش از هر زمان دیگری اهمیت دارد.

در راستای این دیدگاه، لیزا فاجا، مدیر لیزی آدیو از انتشارات ادیتیس، تأکید کرد:

«اصلی‌ترین دارایی یک انتشارات، حقوق آثار آن است. در یک دنیای جهانی‌شده که هوش مصنوعی تولید اثر به زبان‌های مختلف را ممکن می‌سازد، چالش اصلی، دفاع جهانی از حق نشر خواهد بود. در بازارهای نوپا، بسیار مهم است که عرضه بی‌رویه صداهای هوش مصنوعی با کیفیت پایین، باعث دلسردی و عدم استقبال مخاطبان از این فرمت نشود. این امر نیازمند برچسب‌گذاری دقیق صدای هوش مصنوعی و صدای انسانی و همچنین شفافیت در تمام طول زنجیره تولید است. مطمئناً صنایع فناوری به این بازار علاقه‌مند خواهند شد، بنابراین ضروری است که قوانین توسط همه رعایت شوند، تا منافع هم بازیگران صنعت صوت و هم رشد بازار حفظ شود.»

در راستای این دیدگاه، جان وات، مدیر بخش صوتی و توسعه کسب‌وکار بونیِر انگلستان، تأکید کرد: «چالش‌های اصلی جهانی برای صنعت ما در رابطه با روایت هوش مصنوعی، کیفیت، اعتماد و شفافیت است. این سه مورد به‌طور جدایی‌ناپذیری به هم مرتبط هستند. ناشران و خرده‌فروشان باید اخلاقی عمل کنند، از کیفیت تولید و انتظارات شنونده محافظت کنند و در برچسب‌گذاری محصولات روایت‌شده با هوش مصنوعی، شفاف و صادق باشند تا به مصرف‌کنندگان اجازه دهند انتخاب آگاهانه داشته باشند و از آسیب رساندن به قابلیت کشف جلوگیری شود.»

توجه به این نکته مهم است که جان وات، به عنوان رئیس گروه ناشران صوتی در انجمن ناشران بریتانیا، یک کارگروه را با هدف ایجاد استانداردهای بین‌المللی برای طبقه‌بندی محصولات صوتی روایت‌شده با هوش مصنوعی رهبری کرده است؛ هدف از این کار، یکسان‌سازی اصطلاحات و جلوگیری از سردرگمی در بازار است. در نتیجه این کارگروه، انجمن مذکور مجموعه‌ای از دستورالعمل‌های برچسب‌گذاری را با همکاری بازیگران کلیدی صنعت در ایالات متحده، کانادا، بریتانیا و اروپا تدوین کرده است. هدف از آن، ایجاد شفافیت و وضوح برای مصرف‌کنندگان، بدون قضاوت ارزشی در مورد استفاده از هوش مصنوعی در روایت است.

از جمله توصیه‌های اصلی این راهنما، پیشنهاد می‌شود که کتاب‌های صوتی با صدای تولیدشده کاملاً مصنوعی، با عنوان «صدای هوش مصنوعی» و آن‌هایی که از روی صدای یک انسان خاص تولید شده‌اند، با عنوان «نسخه مجاز صدای گوینده» برچسب‌گذاری شوند. از نظر وات، ایجاد یک زبان مشترک برای تمایز انواع روایت ضروری است تا ناشران و خرده‌فروشان این اطلاعات را به وضوح به مصرف‌کنندگان برسانند. او معتقد است که بیش از خود فناوری، این کمبود اطلاعات است که باعث نگرانی کاربران می‌شود.

در راستای این دیدگاه، ماتیلد داویگنیون، مدیر توسعه کتاب صوتی در گروه مادریگال، اشاره کرد: «یکی از اصلی‌ترین چالش‌های جهانی برای ما، یعنی تولیدکنندگان کتاب صوتی به همراه پلتفرم‌ها، این خواهد بود که تفاوت بین کتاب‌های ضبط‌شده با هوش مصنوعی و با صدای انسان را برای کاربر کاملاً روشن و واضح کنیم.»

در همین راستا، اطلاعات یک عامل کلیدی است. همچنین، ما تولیدکنندگان، باز هم در کنار پلتفرم‌ها، باید همکاری کنیم تا جلوی «برداشت صدا» را بگیریم و با آموزش هوش مصنوعی [غیرمجاز] مبارزه کنیم.»

طبق گزارش رشد جهانی کتاب صوتی (نمایشگاه کتاب فرانکفورت ۲۰۲۴)، مصرف محتوای صوتی کودکان در حال حاضر حدود ۳ درصد از کل شنوندگان در بازارهای انگلیسی‌زبان را تشکیل می‌دهد. یکی از محرک‌های اصلی رشد چشمگیر در رده کتاب‌های صوتی کودکان، ظهور دستگاه‌های گوش دادن به محتوای صوتی (مانند Yoto، Tonies، MyCube Histories و غیره) است که به کودکان خردسال امکان می‌دهد بدون نیاز به واسطه بزرگسالان به کتاب‌های صوتی خود دسترسی پیدا کنند؛ اما دیگر محرک اصلی رشد، همانطور که در بخش ۲ این گزارش اشاره شده است، افزایش تولید هزاران عنوان جدید کتاب صوتی کودک با ابزارهای هوش مصنوعی به زبان‌هایی است که کمتر مورد توجه قرار گرفته‌اند، مانند اسپانیایی، ایتالیایی، فرانسوی، عربی و پرتغالی.

با بررسی عمیق‌تر این پتانسیل رشد، جس تارانت، مدیر محتوای یوتو، اظهار داشت: «ما از روش‌هایی که هوش مصنوعی می‌تواند به ما کمک کند تا سریع‌تر به کودکان بیشتری در سراسر جهان دسترسی پیدا کنیم، هیجان‌زده هستیم. ما در حال حاضر در حال آزمودن یک همکاری هستیم. این همکاری، دسترسی ما به بهترین ابزارهای ترجمه هوش مصنوعی و فناوری صدای دیجیتال را فراهم می‌کند تا تولید عناوین اصلی یوتو به زبان‌های جدید را افزایش دهیم؛ زیرا تولید آن‌ها بدون هوش مصنوعی، از نظر اقتصادی برای ما مقرون‌به‌صرفه نخواهد بود.» اما او همچنین خاطرنشان کرد که هوش مصنوعی می‌تواند تهدیدی برای اعتماد مصرف‌کنندگان باشد، اگر تولید بی‌رویه محتوای کم‌کیفیت صوتی و موسیقی هوش مصنوعی با سرعت کنونی ادامه پیدا کند. یوتو به دلیل کیفیت محتوای صوتی کودکان شناخته شده است، به همین دلیل ما بدون افشای استفاده از هوش مصنوعی یا بررسی کامل خروجی آن، آن را در دسترس جامعه خود قرار نخواهیم داد. اهمیت حفاظت از حق نشر نویسندگان و هنرمندان بیش از حد است؛ ما باید ضمن پذیرش هوش مصنوعی برای بهبود سرعت کار و دسترسی به محتوایمان، همچنان از نبوغ و خلاقیت استثنایی انسانی که در قلب صنعت ما قرار دارد، حمایت کنیم.

به طور خلاصه، پیشرفت‌ها در شبیه‌سازی صدا خطرات قابل توجهی مانند سرقت هویت، تقلید صدای نویسندگان در خوانش و اطلاعات نادرست تولیدشده مصنوعی را به همراه دارند. همزمان با نزدیک شدن صداهای مصنوعی به واقع‌گرایی صدای انسان، اعتماد به محتوای صوتی بیش از هر زمان دیگری حیاتی خواهد بود. مسئولیت صنعت فناوری، سازمان‌های دولتی و نهادها این خواهد بود که اصالت را تضمین کنند—با استفاده از فناوری‌هایی مانند واترمارک‌های دیجیتال، مشخص کردن دقیق منبع صدا، و برچسب‌گذاری صریح محتوای تولیدشده با هوش مصنوعی و راهکارهای مؤثر دیگر—تا از نویسندگان، گویندگان و شنوندگان محافظت شود.

بازتعریف حقوق و جبران خسارت

اکثر متخصصان صنعت که با آن‌ها مصاحبه شد، اظهار داشتند که گسترش هوش مصنوعی در حال به چالش کشیدن هنجارهای دیرینه در زمینه‌های حق نشر، توزیع و جبران خسارت است. منسوخ شدن مدیریت حقوق مبتنی بر جغرافیا و ترجمه، یک چالش ساختاری و حقوقی بزرگ ایجاد کرده است. تد مک‌ایلروی، مدیر آینده نشر، هشدار داد: «سیستم حقوقی موجود بر اساس فروش حق نشر به سازمان‌های انتشاراتی به صورت کشور به کشور بنا شده است. این سیستم در عصر ترجمه‌های هوش مصنوعی کتاب‌ها، چه چاپی، چه دیجیتال و چه صوتی، منسوخ شده است.» از نظر او، بیشتر پلتفرم‌های توزیع دیجیتال بر این فرض کار می‌کنند که محتوای بارگذاری‌شده، به زبان اصلی کشور مبدأ کاربر خواهد بود.

این پلتفرم‌ها برای شرایطی که یک نویسنده یا ناشر بخواهد یک کتاب را همراه با سی نسخه ترجمه‌شده آن، برای هر دو قالب کتاب الکترونیکی و صوتی بارگذاری کند، طراحی نشده‌اند. پلتفرم‌های استریم و همچنین سایر کانال‌های توزیع فروش، باید خود را با بازاری تطبیق دهند که در آن، عرضه جهانی، چندزبانه و بر اساس تقاضا، محدودیت‌های سنتی مبتنی بر قلمرو جغرافیایی را دور می‌زند.

همچنین، نگرانی واقعی در میان بخش نشر وجود دارد که مترجمان، گویندگان و استودیوهای تولید، ممکن است شاهد از بین رفتن بنیان‌های اقتصادی خود باشند. برای سازگاری با این شرایط، صنعت نشر، همراه با بخش فناوری، باید مدل‌های نوآورانه جدیدی برای مدیریت آثار مشتق‌شده و جبران خسارت ایجاد کند؛ این مدل‌ها شامل ساختارهای حق امتیاز عادلانه برای محتوایی است که توسط هوش مصنوعی تولید یا تقویت شده است.

ائتلافی گسترده از نویسندگان، اجراکنندگان، ناشران، تولیدکنندگان و دیگر سازمان‌های دارنده حقوق در اروپا و جهان، نارضایتی خود را به طور رسمی ابراز کرده‌اند. این ائتلاف شامل فدراسیون ناشران اروپایی نیز می‌شود؛ این فدراسیون نماینده سی و یک انجمن ملی ناشران کتاب، نشریات علمی و مواد آموزشی در تمامی قالب‌ها در اروپا است و نارضایتی آن‌ها نسبت به انتشار اخیر اقدامات اجرایی قانون هوش مصنوعی که توسط کمیسیون اروپا تصویب شده، است.

این ائتلاف در بیانیه‌ای که ژوئیه گذشته منتشر شد، اعلام کرد که علی‌رغم مشارکت گسترده، بسیار دقیق و با حسن نیت جوامع دارنده حقوق در طول این فرآیند، نتایج نهایی قانون هوش مصنوعی اتحادیه اروپا نتوانسته است به نگرانی‌های اصلی آن‌ها رسیدگی کند. این نگرانی‌ها از سوی بخش‌هایی مطرح شده بود که نماینده میلیون‌ها تولیدکننده و شرکت فعال در اروپا هستند. آن‌ها افزودند: «نتیجه، یک سازش متوازن نیست؛ این یک فرصت از دست رفته برای ارائه حفاظت معنادار از حقوق مالکیت فکری در زمینه هوش مصنوعی مولد است و به وعده‌های خود قانون هوش مصنوعی اتحادیه اروپا نیز عمل نمی‌کند.»

«بخش‌های فرهنگی و خلاق موفق و صنایع مبتنی بر حق نشر در اروپا سهم اقتصادی بسیار بزرگی دارند؛ این صنایع تقریباً ۷ درصد از تولید ناخالص داخلی اتحادیه اروپا را تأمین می‌کنند، نزدیک به ۱۷ میلیون متخصص را به کار گرفته و سهمی بزرگ‌تر نسبت به صنایع دارویی، خودروسازی یا فناوری پیشرفته اروپا دارند. اما امروز، با بسته اجرایی کنونی قانون هوش مصنوعی اتحادیه اروپا، این بخش‌ها به نفع ارائه‌دهندگان مدل‌های هوش مصنوعی مولد در حال قربانی شدن هستند. همانطور که چندین متخصص نشر در طول گفتگوی صورت‌گرفته برای تهیه این گزارش نیز اشاره کردند، این بیانیه مشترک هشدار داد که «استقرار مدل‌های هوش مصنوعی مولد و سیستم‌های تولید محتوا که از برداشت گسترده داده استفاده می‌کنند، در حال انجام است. آسیب و رقابت ناعادلانه با بخش‌های فرهنگی و خلاق هر روز مشاهده می‌شود.»

بخش‌های فرهنگی و خلاق باید مورد حفاظت قرار گیرند، چرا که آن‌ها زیربنای فرهنگی ما و بازار واحد اروپا هستند.

دانمارک در آستانه تبدیل شدن به اولین کشور اروپایی است که با هدف مبارزه با جعل عمیق (دیپ‌فیک) هوش مصنوعی، حق نشر (کپی‌رایت) صورت، صدا و بدن را به خود افراد واگذار می‌کند و این پیام روشن را می‌فرستد که هر کس مالک حقوق صورت و صدای خود است. بسیاری از کارشناسان این اقدام را گامی بزرگ برای بازگرداندن کنترل به مردم در دورانی می‌دانند که هوش مصنوعی به راحتی می‌تواند صدا، چهره و حتی حرکات کامل بدن را شبیه‌سازی کند. این طرح، قانون حق نشر را تغییر می‌دهد تا افراد بتوانند حق و حقوق خود را بر ظاهر فیزیکی و صدایشان ادعا کنند و در نتیجه، اگر کسی بدون اجازه، محتوای جعلی با استفاده از شباهت شما بسازد، می‌توانید درخواست حذف آن را بدهید و حتی غرامت دریافت کنید. اگر پلتفرم‌های فناوری هنگام درخواست، این محتوا را حذف نکنند، با جریمه‌های سنگینی روبرو خواهند شد.

در مجموع، نتیجه مذاکرات قانون هوش مصنوعی اتحادیه اروپا و همچنین هر قانون‌گذاری آتی در کشورهای مختلف، حیاتی است؛ زیرا بخشی از یک رقابت گسترده‌تر هستند که زیربنای انقلاب صنعتی بعدی را تعریف خواهد کرد. شرکت‌های فناوری هوش مصنوعی در مقیاس وسیعی هزینه می‌کنند و هدف آن‌ها تنها کسب دستاوردهای کوتاه‌مدت نیست، بلکه در حال ساخت زیرساخت‌ها و پلتفرم‌هایی هستند که می‌توانند نحوه عملکرد کل صنایع، از جمله بخش نشر، را در دهه آینده تعریف کنند.

نوآوری و مشارکت‌ها

اگرچه بعید است هوش مصنوعی جایگزین خلاقیت انسانی شود، اما به عنوان یک ابزار ارزشمند برای افزایش بهره‌وری و نوآوری در فرآیند نشر عمل می‌کند. هوش مصنوعی در تولید محتوای نوشتاری جدید، از مقالات خبری گرفته تا کمک به نویسندگی خلاقانه، پیشرفت چشمگیری داشته و به نویسندگان در ویرایش، ایده‌پردازی و حتی پیش‌نویس کمک می‌کند.

هوش مصنوعی اکنون قادر است کتاب‌های طولانی را به بخش‌های صوتی کوتاه‌تر و اپیزودیک تبدیل کند، که این امر آن‌ها را برای مصرف موبایلی و همچنین برای کسانی که سطح سواد پایین‌تری دارند، ایده‌آل می‌سازد. این قابلیت نه تنها شکاف میان پادکست‌ها و کتاب‌های صوتی سنتی را پر می‌کند، بلکه نیازهای شنوندگان جوان‌تر و کسانی که اولویتشان موبایل است را نیز برآورده می‌سازد. همانطور که لوسیانو بانکرو، یکی از بنیانگذاران و مدیر ارشد خلاقیت پوستا، اشاره می‌کند: «ممکن است به زودی با «لجن صوتی بی‌انتها و بی‌روح» احاطه شویم که این امر ارزش و تقاضا برای محتوایی که به خاطر اصالت و طنین عاطفی خود برجسته است را بیشتر می‌کند. ما می‌دانیم که هوش مصنوعی بخشی از جعبه‌ابزار خلاقیت است، اما همچنین می‌دانیم که شنوندگان با یک ابزار ارتباط برقرار نمی‌کنند؛ آن‌ها با یک صدا، با داستان‌ها و با انسان‌ها ارتباط برقرار می‌کنند. هوش مصنوعی شاید بتواند پادکست تولید کند، اما نمی‌تواند احساسی را خلق کند که شما را وادار به بازگشت کند.»

ایجاد برندهای قوی و پایدار و حفظ استانداردهای بالا در محیطی که دائماً در حال تغییر است، نیازمند نوآوری مستمر از طریق مشارکت‌ها خواهد بود. تینا یورگنز، مدیر عامل مشترک زبرالویشن جی‌ام‌بی‌اچ، اظهار داشت: «در حالی که فناوری‌های تولید پیشرفت زیادی کرده‌اند، بزرگ‌ترین چالش برای ناشران طی سه سال آینده، جلب توجه، قابلیت کشف، دسترسی و تبدیل مخاطب خواهد بود. اما همگام شدن با سرعت پیشرفت‌های هوش مصنوعی، نیازمند چیزی بیش از تلاش‌های محدود داخلی است؛ بلکه مستلزم مشارکت‌های قوی، تخصص مشترک و ابزارهای هوشمندی است که به صنعت کمک می‌کند با هم به جلو حرکت کند.»

آرانزا لاراوری، مدیر اروپا و آمریکای لاتین دمرک، اشاره کرد: «جهش کلیدی، گذر از هوش مصنوعی مولد به هوش مصنوعی عامل است—یعنی سیستم‌هایی که توانایی‌های فنی حافظه، استدلال و عمل را دارند—و نحوه کار صنعت کتاب را برای ایجاد جریان‌های درآمدی جدید و ارائه خدمات پویاتر و متناسب‌تر، متحول می‌کنند. با ادغام عوامل هوش مصنوعی در کل زنجیره ارزش، سازمان‌ها می‌توانند خدمات جدیدی برای تعامل با مشتریان و کاربران ایجاد کرده و تجربه‌های شخصی‌تر، تطبیق‌پذیر و با ارزش افزوده‌ بالاتری ارائه دهند.»

علاوه بر این، هوش مصنوعی شخصی‌سازی تجربه‌های شنیداری را نیز تقویت خواهد کرد. چندین متخصص نشر آینده‌ای را متصورند که در آن مصرف‌کنندگان صدای دلخواه خود را برای خواندن متون انتخابی‌شان انتخاب می‌کنند و این امر، مجوزدهی صدا را به یک مسیر تجاری جدید و مهم تبدیل می‌سازد. ریکارد فیدئو از دیجیتال بوستر در اورانو ورلد، پیش‌بینی می‌کند: «صداهای تولیدشده توسط هوش مصنوعی امکان فرا-شخصی‌سازی را فراهم خواهند کرد؛ کاربران قادر خواهند بود پروفایل‌های صوتی و سبک‌های روایت دلخواه خود را انتخاب کرده و حتی سرعت یا لحن عاطفی روایت را تنظیم کنند و تجربه شنیدن را به چیزی شخصی‌سازی‌شده و تعاملی تبدیل سازند.»

از آنجایی که رمان‌ها، فیلمنامه‌ها و روایت‌های فراگیر تولیدشده توسط هوش مصنوعی، دیدگاه‌های تازه‌ای ارائه داده و دنیای داستان‌سرایی را غنی می‌سازند، تولیدکنندگان محتوای جدیدی در بخش نشر ظهور می‌کنند.

خاویر دل پوئرتو، بنیان‌گذار کوآلیا—که مأموریتش کاوش و گسترش پتانسیل خلاقانه هوش مصنوعی با هدایت آن برای تولید آثار هنری اصیل، معنادار و جذاب است—اشاره کرد: «چالش اصلی صنعت نشر، محدود کردن داستان‌های خود به قالب‌های موجود کتاب/کتاب صوتی است. یا بهتر است بگوییم، یافتن راهی برای کسب درآمد از “سرریز شدن” کتاب‌های فعلی آن‌ها به شکل‌ها و کانال‌های دیگر. منظورم قصه‌های فرعی دلخواه بر اساس تقاضا، پادکست‌های کتاب که به سرعت تولید می‌شوند، تعاملات بی‌درنگ با شخصیت‌های کتاب که برای خودشان جان می‌گیرند و با طرفدارانشان صحبت می‌کنند، و خدا می‌داند چه چیزهای دیگری است. چگونه برای این‌ها قیمت‌گذاری کنیم؟ مالک آن‌ها کیست؟ ما باید چشمانمان را کاملاً باز نگه داریم، گوش‌هایمان را تیز کنیم و از همه سخت‌تر، ذهنمان را برای احتمالات جدید باز بگذاریم.»

در پایان این بخش، ابزارهای ترجمه هوش مصنوعی نسل بعدی به زودی به شنوندگان این امکان را می‌دهند که از کتاب‌های صوتی به هر زبان دلخواهی، با ترجمه‌های صوتی تقریباً فوری و واقعی، لذت ببرند. با ترکیب ابزارهای ترجمه هوش مصنوعی با فناوری تبدیل متن به گفتار در لحظه، کتاب‌های صوتی تعاملی‌تر و تطبیق‌پذیرتر شده و خواندن و شنیدن را بر اساس ترجیحات فرهنگی کاربر ادغام می‌کنند. ماریبل ریازا، کارشناس تاریخ خوانش شفاهی و نویسنده کتاب «صدای کتاب‌ها»، اظهار داشت: «ما در حال مشاهده مفهوم‌سازی مجدد محصول اصلی تجاری صنعت خود هستیم: کتاب. طی چندین قرن، ما داستان‌ها را شفاهی منتقل می‌کردیم؛ سپس روی سنگ، پاپیروس و طومارهای پوستی نوشته شدند؛ کُدکس رومی و همچنین ماشین چاپ اختراع شد. در پنجاه سال اخیر، علاوه بر کتاب‌های چاپی، به لطف دیجیتالی شدن و فناوری‌های ضبط صدا، کتاب‌های دیجیتال و صوتی نیز ظهور کردند. اکنون، با هوش مصنوعی، شاهد ادغام رسانه‌های دیجیتال و صوتی خواهیم بود، با تمام پیامدهایی که این امر برای تجربه کاربری و همچنین چالش‌هایی که برای مدیریت حق نشر ایجاد خواهد کرد.»

به این مقاله اینگونه استناد کنید: هوش مصنوعی و کتاب صوتی. گزارش تحول جهانی صنعت کتاب صوتی. (منتشر شده توسط نمایشگاه کتاب فرانکفورت ۲۰۲۴). ترجمه ماشینی با ویرایش و مدیریت راضیه کاهه. کاغذک. https://kaghazak.com/fbm_dosdoce_whitepaper_audio_2025/

برچسب ها

15 ژانویه 2026

0 364 خواندن این مطلب 58 دقیقه زمان میبرد

گزارش تحول جهانی صنعت کتاب صوتی

چگونه هوش مصنوعی در حال بازتعریف صنعت کتاب صوتی است

هوش مصنوعی و کتاب صوتی

فهرست مطالب

مقدمه: خلاصه مدیریتی

بخش 1 - نقشه جهانی ابزارهای هوش مصنوعی برای صنعت صوت

دسته‌بندی ابزارها و خدمات هوش مصنوعی

رقابت جهانی هوش مصنوعی: خاستگاه ابزارها و خدمات

رتبه‌بندی فعالیتهای تجاری در چشم انداز هوش مصنوعی

تحول مدرن فناوری تبدیل متن به گفتار

منحنی یادگیری، کاهش هزینه و زمان ورود به بازار

استفاده اخلاقی و جبران خسارت

بخش ۲ - فرصت‌های تجاری ناشی از هوش مصنوعی

یک صنعت صوتی متنوع‌تر و واقعاً جهانی

فرآیند تولید بهینه

ترجمه با هوش مصنوعی: گوش دادن بدون مانع

توزیع و گسترش جهانی

اجتناب از یکنواختی در فضای خلاق جهانی

قابلیت کشف در بحبوحه فراوانی محتوا

الگوبرداری از ابتکارات هوش مصنوعی در سایر صنایع خلاق

پلتفرم پاکت اف‌ام

نتفلیکس

نیویورک تایمز

پادکست دفتر خاطرات یک مدیر عامل

بلینکیست

بخش ۳. چالش‌های ناشی از هوش مصنوعی

کتاب‌های صوتی با صدای هوش مصنوعی به زودی از تولید انسانی پیشی می‌گیرند

یک ذهنیت جدید نسبت به هوش مصنوعی

قابلیت کشف: هوش مصنوعی در بازاریابی و سازماندهی محتوا

اصالت صدا

کیفیت، اعتماد و شفافیت

بازتعریف حقوق و جبران خسارت

نوآوری و مشارکت‌ها

مطالعه بعدی

هوش مصنوعی مولد و آیندۀ خدمات کتابخانه‌ای

آیا هوش مصنوعی می‌تواند کتاب بنویسد؟

هوش مصنوعی مولد و آیندۀ خدمات کتابخانه‌ای

آیا هوش مصنوعی می‌تواند کتاب بنویسد؟

دیدگاهتان را بنویسید لغو پاسخ

هوش مصنوعی و کتاب صوتی

فهرست مطالب

مقدمه: خلاصه مدیریتی

بخش 1 - نقشه جهانی ابزارهای هوش مصنوعی برای صنعت صوت

دسته‌بندی ابزارها و خدمات هوش مصنوعی

رقابت جهانی هوش مصنوعی: خاستگاه ابزارها و خدمات

رتبه‌بندی فعالیتهای تجاری در چشم انداز هوش مصنوعی

تحول مدرن فناوری تبدیل متن به گفتار

منحنی یادگیری، کاهش هزینه و زمان ورود به بازار

استفاده اخلاقی و جبران خسارت

بخش ۲ - فرصت‌های تجاری ناشی از هوش مصنوعی

یک صنعت صوتی متنوع‌تر و واقعاً جهانی

فرآیند تولید بهینه

ترجمه با هوش مصنوعی: گوش دادن بدون مانع

توزیع و گسترش جهانی

اجتناب از یکنواختی در فضای خلاق جهانی

قابلیت کشف در بحبوحه فراوانی محتوا

الگوبرداری از ابتکارات هوش مصنوعی در سایر صنایع خلاق

پلتفرم پاکت اف‌ام

نتفلیکس

نیویورک تایمز

پادکست دفتر خاطرات یک مدیر عامل

بلینکیست

بخش ۳. چالش‌های ناشی از هوش مصنوعی

کتاب‌های صوتی با صدای هوش مصنوعی به زودی از تولید انسانی پیشی می‌گیرند

یک ذهنیت جدید نسبت به هوش مصنوعی

قابلیت کشف: هوش مصنوعی در بازاریابی و سازماندهی محتوا

اصالت صدا

کیفیت، اعتماد و شفافیت

بازتعریف حقوق و جبران خسارت

نوآوری و مشارکت‌ها

مطالعه بعدی

هوش مصنوعی مولد و آیندۀ خدمات کتابخانه‌ای

آیا هوش مصنوعی می‌تواند کتاب بنویسد؟

هوش مصنوعی مولد و آیندۀ خدمات کتابخانه‌ای

آیا هوش مصنوعی می‌تواند کتاب بنویسد؟

آیین‌نامه «ترویج خواندن همگانی» چین

نوشته های مشابه

نشر و قدرت نرم

دیدگاهتان را بنویسید لغو پاسخ