پیشنوشت صفر – تاریخچه متن
بخش اول در تاریخ ۴ مرداد ۱۴۰۳ نوشته شده / سپس در تاریخ ۱۵ مرداد ۱۴۰۳ بخشهایی به آن افزوده شده است.
پیشنوشت یک: تا به حال دومرتبه دو مطلب درباره چت جی پی تی (و در واقع دربارهٔ مدل های بزرگ زبانی) نوشتهام که البته هر دو نیمهکاره ماندهاند:
علیالقاعده این مطالب باید با هم ترکیب میشدند (بشوند) و آنچه الان مینویسم هم باید بخشی از همان نوشته باشد (بشود). اما با هدف فاصله گرفتن از کمالگرایی، فعلاً این نکته را هم در همینجا مینویسم.
متخصصان هوش مصنوعی بسیار بهتر از من میدانند که این بحث، سر دارد و ته ندارد و به علتی که در ادامه خواهم گفت، جزو سوالاتی است که به گمانم – برخلاف بسیاری از سوالات و ابهامهای دیگر دربارهٔ مدل های زبانی – تا سالهای سال دربارهاش بحث و ابهام وجود خواهد داشت. چون پاسخش تکنیکال نیست و بنمایهٔ فلسفی دارد.
فعلاً فقط یک گزارش کوتاه از یک اتفاق بامزه مینویسم و رد میشوم.
پیشنوشت دو: پیشنهاد میکنم حتماً پیش از خواندن این نوشته، مطلبی را که با عنوان سگ سینوسکی (نگو که تو هم حرفشو باور کردی!) نوشتهام بخوانید. هم فضای بحث را شفافتر میکند و هم یادآوری مناسبی است که از چنین بحثی چه انتظاراتی باید داشت و در پی چه چیزی باید بود.
پیشنوشت سه: در این نوشته با دو کلمه زیاد کار داریم. هالوسینیشن (توهم) و هالوسایتیشن (توهم در نقل). دیکتهشان را یک بار درشت مینویسم تا – اگر با این بحث آشنا نیستید – بهنر در ذهنتان بماند.
کتاب فرزندپروری مدرن نوشته محمدرضا شعبانعلی!
ماجرا از جایی شروع شد که یک نفر به پشتیبانی متمم پیام داد که «من به سرعت به کتاب فرزندپروری مدرن محمدرضا شعبانعلی نیاز دارم. لطفاً بگویید چگونه هزینهاش را پرداخت کنم. میخواهم آن را به آدرس زیر بفرستید. هزینهٔ ارسال را هم اعلام کنید.»
فرزندپروری مدرن؟ شعبانعلی؟ برایمان عجیب بود. به ایمیل پاسخ دادیم و پرسیدیم که چه کسی این کتاب را به ایشان پیشنهاد داده.
متوجه شدیم که در سایت یک آقای دکتر روانشناس مطلبی درباره والدگری مدرن بوده و در انتهای مطلب چند منبع معرفی شده که یکی از آنها کتاب فرزندپروری مدرن نوشته محمدرضا شعبانعلی است (+). چون ممکن است بعداً آن صفحه تغییر کند، فایل PDF را هم برای دانلود در همینجا قرار میدهم.
خب. احتمالاً تا همینجا حدس میزنید چه اتفاقی افتاده. یک آقای دکتر تصمیم گرفته سایت داشته باشد و چون وقت یا حوصله نداشته خودش برای سایتش مطلبی بنویسد، از «تولیدکننده محتوا» خواسته برایش محتوا تولید کند. تولیدکنندهٔ محتوا هم سراغ یکی از همین LLMها و احتمالاً چت جی پی تی رفته و کار را به او واگذار کرده است. ترکیب معجزهآسای «حماقت طبیعی» و «هوش مصنوعی» همین چیزی میشود که شده.
به چتجیپیتی ۴.۰ سر زدم و از او پرسیدم که:
«آیا کتاب فرزندپروری مدرن نوشته محمدرضا شعبانعلی را برای پرورش کودکان زیر هفت سال توصیه میکنی؟ یا این کتاب برای نوجوانان مناسبتر است؟»
چت جی پی تی معتقد بود که کتاب من بیشتر مناسب نوجوانان است و برای کودکان زیر هفت سال چندان مناسب نیست. چند منبع را هم اضافه کرده بود:
«کتاب “فرزندپروری مدرن” نوشته محمدرضا شعبانعلی به طور کلی به اصول و روشهای کلی پرورش کودکان و نوجوانان میپردازد. با این حال، به نظر میرسد این کتاب بیشتر مناسب والدینی باشد که به دنبال راهنماییها و استراتژیهایی برای پرورش نوجوانان هستند. بنابراین، اگر به دنبال منابعی برای پرورش کودکان زیر هفت سال هستید، ممکن است کتابهای دیگری که به طور خاص به نیازهای این گروه سنی پرداختهاند، مفیدتر باشند.
برای مثال، کتاب “کودک کامل – مغز” نوشته دانیل جی سیگل و تینا پین برایسون به استراتژیهای عملی برای والدین جهت کمک به رشد عاطفی، اجتماعی و شناختی کودکان میپردازد و برای کودکان زیر هفت سال مناسب است. همچنین، کتاب “چگونه با کودکان صحبت کنیم تا گوش دهند و چگونه گوش دهیم تا کودکان صحبت کنند” نوشته ادل فابر و الین مازلیش میتواند به والدین کمک کند تا ارتباط موثرتری با فرزندانشان برقرار کنند و این کتاب نیز برای کودکان زیر هفت سال توصیه میشود【۸†source】【 (Solaleh) (Digikala) (خرید و دانلود کتاب متنی، صوتی با فیدیبو).»
کسانی که مدل های زبانی بزرگ (LLM یا Large Language Models) و اساساً هوش مصنوعی مولد (Generative AI) را میشناسند، اصلاً از جواب چت جی پی تی تعجب نمیکنند. این پدیدهای است که با عنوان توهم هوش مصنوعی شناخته میشود. و جالب اینجاست که برخلاف تصور عامهٔ مردم، نباید آن را نقطه ضعف هوش مصنوعی مولد در نظر گرفت.
توهم هوش مصنوعی از کجا میآید؟
اول از همه بگویم که بهتر است از اصطلاح «توهم هوش مصنوعی مبتنی بر مدل های زبانی» یا «توهم هوش مصنوعی مولد» استفاده کنیم. چون همهٔ انواع هوش مصنوعی لزوماً چنین مشکلی ندارند. اما من فقط برای کوتاهتر شدن جملهها، در اینجا از همان اصطلاح غیردقیق توهم هوش مصنوعی استفاده میکنم.
مسئله این است که مدل های زبانی به شکلی که امروز در قالب چت جی پی تی و سیستمهای مشابه رواج یافته، یک ماشین منطقی نیستند؛ بلکه یک سیستم پیشبینیکنندهٔ سریالی هستند.
ماشین منطقی چنین چیزی است:
- شما به ماشین منطقی تعدادی گزاره میدهید.
- در کنار گزارهها تعدادی قوانین استنتاجی میدهید.
- سپس گزارههای جدیدی در اختیار ماشین منطقی قرار میدهید و از آن میخواهید درست و غلط آنها را ارزیابی کند.
کسانی که با زبانهای برنامهنویسی منطقی کار کردهاند، تصور شفافتری از این نوع سیستمها دارند. در گذشتههای دور زبان برنامه نویسی Prolog چنین ساختاری داشت. بعداً زبانهای دیگری مانند Logtalk و Mercury هم بر پایهٔ همان ساختار ایجاد شدند.
این چند خط برنامهٔ ساده را – که به شکل نمادین میتواند در یک زبان مبتنی بر منطق نوشته شده باشد – بخوانید:
parent(“ali”, “maryam”)
parent(“ali”, “saman”)
parent(“raha”, “maryam”)
parent(“raha”, “saman”)
sibling(X, Y) :- parent(P, X), parent(P, Y), X \= Y
if sibling(“maryam”, “saman”) then do something
ما ابتدا رابطهای به اسم والد (parent) بودن تعریف کردهایم. گفتهایم علی والد مریم است. علی والد سامان است. رها والد مریم است. رها والد سامان است. بعد هم رابطهای به اسم خواهر و برادری (sibling) تعریف کردهایم و گفتهایم اگر دو موجود X و Y باشند که P والد هر دو آنها باشد، آن دو موجود خواهر و برادرند.
بعد هم مثلاً میگوییم که اگر مریم و سامان خواهر و برادر هستند فلان کار را بکن.
کم نیستند کسانی که فرض میکنند مدلهای زبانی، چیزی از همین جنس هستند. با این تفاوت که مثلاً به جای چهار چیز (علی و مریم و رها و سامان) چهار میلیارد «چیز» در آنها ثبت شده و به جای دو نوع رابطه (parent و sibling) دو میلیون یا فرضاً بیست میلیون رابطه در آن تعریف شده و به جای چهار گزاره (که چه کسی والد چه کسی است) دهها میلیارد گزاره در آن ثبت شده و احتمالاً به جای منطق دوگانهٔ درست-غلط یک منطق فازی یا شبهفازی هم دارد (که میتواند درستی گزارهها را چیزی در فاصلهٔ درست و غلط هم برآورد کند).
این تصور چندان هم دور از واقعیت نیست. تا همین چند سال پیش، بسیاری از کسانی که در زمینه پردازش زبان طبیعی (Natural Language Processing) کار میکردند، به سراغ رویکردهایی از این دست میرفتند. آن زمان به جای اصطلاح Generative AI که این روزها مد است، بیشتر از اصطلاح Generative Grammar استفاده میشد. اکثر ترجمههای ماشینی هم در سالهای گذشته به همین شیوه انجام شدهاند.
اما این رویکرد چیزی نبود که ما را به نقطهای که امروز هستیم برساند. اگر قرار بود پردازش زبان طبیعی و هوش مصنوعی فقط بر همین تکنولوژی generative grammar سوار شوند، محال بود ما دستاوردهایی به بزرگی دستاوردهای امروز را در هوش مصنوعی مولد ببینیم.
حتی نرمافزارها و الگوریتمهایی که این نوع سیستمها را با تحلیلهای آماری ترکیب کردند، با وجودی که در زمان خودشان عملکرد چشمگیری داشتند، هر یک در مرحلهای متوقف شدند.
بزرگترین اتفاقی که در ترکیب شدن یادگیری ماشین و شبکههای عصبی چندلایه با پیکرهٔ زبانی روی داد، رهایی از زنجیر صلب این قواعد بود.
چت جی پی تی و سایر سیستمهای مبتنی بر ترنسفورمر که اخیراً رواج یافتهاند، به جای این که به سراغ «پردازش گزارههای منطقی» بروند، بنای خود را بر «پردازش زنجیرهای از نمادها» گذاشتهاند. کاری که میتوان آن را sequence processing و sequence transformation نامید (حرف T در جی پی تی هم از همین خانواده آمده).
در این نوع مدل زبانی، حاصل همهٔ «پردازشهای چندلایهای و درهمتنیده و توزیعشدهٔ الهام گرفته از شبکهٔ نورونهای مغز» این است که «کدام زنجیره از نمادها محتملتر است؟»
Generation یا Creation؟
شاید تا به حال دقت کرده باشید که – حداقل تا این لحظه – در فضای هوش مصنوعی اصطلاح generation (تولید) را بیشتر از creation (خلق) میخوانیم و میشنویم.
ما از Generative AI حرف میزنیم و حرف جی در چت جی پی تی هم از کلمهٔ generative گرفته شده است. این واژهگزینی کاملاً آگاهانه بوده است.
کلمهٔ generate یا تولید به «خروجی حاصل از یک فعالیت یا فرایند کاملاً مکانیکی با خروجی تعریفشده» اشاره میکند. مثلاً در برنامهنویسی از اصطلاح random number generator استفاده میشود. در مدارهای الکترونیک هم اصطلاح noise generator رواج دارد.
با وجودی که برنامهنویس نمیداند در هر لحظه چه عددی از تابع مولد اعداد تصادفی دریافت خواهد کرد، میداند که این عدد چه ویژگیها و محدودیتهایی دارد. مثلاً میداند که نهایتاً عددی بین صفر و یک دریافت میکند. و نیز میداند که خروجی تابع مولد، توزیع کاملاً یکنواخت (flat) خواهد داشت.
بنابراین اصطلاح generate تعبیر بسیار ظریفی است. هم چیزی تولید شده و هم آنچه تولید شده، خارج از چارچوبی کاملاً مشخص و برنامهریزیشده نیست. generatorها سازندگان خود را شگفتزده نمیکنند.
در مقابل، اصطلاح create به معنای خلقِ چیزی از هیچ است. چیزی که قبلاً وجود نداشته و چارچوبپذیر هم نیست. مثلاً برای ما عجیب نیست که یک هنرمند، اثری خلق کند که ما هرگز با آن مواجه نشدهایم. یا هر لحظه در گوشهای از این سیاره ممکن است انسانی فحشی به دیگری بدهد که هرگز پیش از این هیچکس در هیچجا چنین فحشی به کسی نداده باشد. این یعنی خلق یا creation.
تولید یا خلق؟ هوش مصنوعی کجای این طیف قرار میگیرد؟
هوش مصنوعی در حوزهٔ زبانی در شکل خستهکنندهٔ خود بیشتر به تولید نزدیک خواهد بود. یعنی توجه به این که فقط چیزی را بگوید که با «فکتهای در دسترس» و «گزارههای تأییدشده» همخوان هستند.
مدلهای زبانی هوشمند اگر قرار باشد به «تولید / generation» محدود بمانند، از ظرفیت بالقوه انجام فعالیتهایی از جنس موارد زیر بهرهمند هستند:
- ترجمه ماشینی (ترجمه از یک زبان به زبان دیگر)
- جستجوی یک متن و پاسخ به سوالات کاربر بر اساس متن
- خلاصه سازی متن
- جستجوی وب و ارائه گزارشی از محتوای وب در پاسخ به یک سوال مشخص
به این فهرست میتوانید موارد دیگری هم اضافه کنید. اما ویژگی همهٔ آنها این است که هوش مصنوعی «نباید» چیزی از خودش خلق کند. بلکه قرار است بر پایهٔ دادههای در دسترس، پاسخ سوال کاربر (یا دقیقتر بگوییم: ادامه پرامپت کاربر) را تولید و ارائه کند.
حالا سوال اینجاست که آيا هوش مصنوعی با تکیه بر مدل های زبانی نمیتواند چیزی خلق کند؟ یعنی چیزی بگوید که پیش از این هیچکس نگفته و درباره موضوعی اظهارنظر کند که تا کنون هیچکس اظهارنظر نکرده است؟
این کار، حتی اگر از لحاظ تکنولوژیک در این لحظه با کیفیت عالی امکانپذیر نباشد، دیر یا زود امکانپذیر خواهد شد. بسیاری از اهل فکر و صاحبنظران معتقدند که خلق به معنایی که ما فکر میکنیم (به وجود آوردن چیزی از هیچ) تقریباً وجود ندارد. فقط فرایند ترکیب در ذهن انسان انقدر پیچیده است که به سادگی نمیتوان ریشه خلاقیتها را یافت.
کسی مثل پیکاسو که ما او را به خلاقیت میشناسیم، میگوید که «هنرمندان کوچک کپی میکنند و هنرمندان بزرگ، میدزدند.» بیتردید منظور او سرقت به معنای رایج نیست. بلکه حرفش این است که بسیاری از ایدههایی که ما در کار هنرمندان میبینیم، از جای دیگری آمدهاند و پس از ترکیب با ذهن هنرمند در رنگ و قالب تازهای عرضه شدهاند. او خلق را انکار نمیکند. اما یادآوری میکند که خلق در ذهن هنرمند ممکن است با تکیه بر ورودیهای قبلی باشد. گوته هم (بعداً باید یادداشتم را پیدا کنم) جایی دربارهٔ اقتباس همین را میگوید و تأکید میکند که اصلاً مگر میشود اقتباس را از اهل هنر گرفت؟ (اگر درست یادم باشد جایی در دفتر یادداشتهای امرسون این حرفش را خواندم). او توضیح میدهد که (نقل به مضمون) همانطور که قهرمانهایی فیزیکی غذا میخورند و قهرمان میشوند، قهرمانهای فرهنگی هم خوراک بسیار داشتهاند که توانستهاند آن را هضم و جذب کنند و تحویل دهند.
این بحث پیچیدگیها و جزئيات بسیاری دارد. اما فعلاً حرفم این است که حرکت کردن هوش مصنوعی از generation به creation چندان دشوار و غیرقابلتصور نیست.
چنان که همین الان Copilot Designer دکمهٔ Create دارد و از اصطلاح generate استفاده نمیکند. چرا؟ چون در خلق کار گرافیکی، قید و بندهای زبانی را نداریم. اغلب کارهای گرافیکی تولیدشدهٔ هوش مصنوعی را نمیتوان «غلط» دانست. بلکه میشود از زشتی و زیبایی آنها حرف زد.
اما در LLMها مخاطب انتظار دارد پاسخی که میبیند در چارچوبهای مشخص از پیشتعیینشدهای بگنجد. بسیاری از پاسخهای متنی هوش مصنوعی نهایتاً از نظر خواننده «درست» یا «غلط» ارزیابی خواهند شد. بنابراین طراحان سیستمهای هوش مصنوعی مبتنی بر مدلهای زبانی بزرگ باید تصمیم بگیرند که تا چه حد افسار اسبی را که ساختهاند در دست بگیرند و چقدر آن را در پیمودن سرزمینهای ناپیموده محدود کنند.
ادامه دارد… (به زودی مینویسم)
سلام محمدرضا،
قبلا یه بار خودت به ویتگنشتاین و ارتباطی که می تونه به این بحث داشته باشه اشاره کردی در مطلب مربوط به کشتی تئوسئوس، زیر این مطلبت هم به عنوان کسی که هردوی شما رو دوست دارم می خوام یه یادی بکنم از ویتگنشتاین.
آخر رساله یه کوت مشهور داره دیگه:
"درباب آنچه نمی توان از آن سخن گفت باید سکوت کرد."
من فرصت داشتم یه جلسه تفکر نقادانه رو در خدمت دکتر اکبرسلطانی باشم.
ایشونم به این موضوع اشاره کرد که کارکرد تفکر نقادانه اساسا تکست بیس هست و کارایی اصلی خودش رو در زمینه هایی از مفاهیم بهتر نشون میده که در فضای زبانی و در قالب نوشتاری قابل صورت بندی باشند.
می خوام از این دو ادعا به تکینگی کورزویل برسم و نشون بدم که منطقی فرای منطق امروزی ماهم میتونه وجود داشته باشه که هوش مصنوعی احتمالا به اون خواهد رسید.
اگر دریافت های آدمی رو به دو دسته تقسیم کنیم:
۱- اونهایی که با تعقل و استدلال بهشون رسیده
۲- اونهایی که شهود کرده.
یه دسته بندی دیگه هم وجود داره اونم خود و دیگری هست:
۱- ما یا خودمون تعقل می کنیم و با استدلال به نتیجه ای می رسیم یا به نتیجه تعقل و استدلال کسان دیگری اعتماد می کنیم فرضا جامعه علمی.
۲- یا خودمون شهود می کنیم و یا به شهودهای پیامبرانه دیگران باورمند می شیم.
قبول داری عمده کارکرد منطق در زمینه بخش اول یعنی مواردی هست که خودمون مستقیما با تعقل و استدلال بهش میرسیم؟
و کمی هم استفاده تعلیمی که فرضا در خوندن یه متن فلسفی، مقاله یا پیگیری یه مباحثه روشمند برای ما امکان دسترسی به ریشه های شکل گیری یک ایده و مراحل تطور و پخته شدن اون در ذهن فرد دیگه ای ایجاد میشه و میتونیم مراحل ریزنینگ رو به صورت درونی شده برای خودمون مرحله به مرحله باز سازی کنیم.
در زمینه شهودهای خودمون و یا باور به شهودهای طرف مقابل قبول داری منطق کارکردی نداره؟
خب حالا اگر به توزیع هالوسینیشن در هر کدوم از این بخش ها توجه کنیم مسئله روشن تر میشه.
به نظرت میشه گفته عمده هالوسینیشن های مدل در مواردی هست که به شهود خودش و یا شهود فرد دیگری (انسانی که شهود خودش رو درون محتوایی که اون به عنوان ورودی گرفته تنیده) اتکا می کنه اتفاق می افته.
فکر می کنم ما بیش از اندازه به منطق خودمون اعتقاد داریم که عمده تلاش مون برای حذف هالوسینشن کار کردن روی سایتیشن مدل و قابلیت های ریزنینگ به نحوی هست که از نتیجه نهایی بشه مجدد تمامی مراحل استدلال رو برگشت تا به ابتدا کار می کنیم.
از این نظر شاید به قول تو، مدل های هوش مصنوعی زبانی موجود صرفا در فضای تصویر بتونند به اصطلاح خلق (یا شهود) انجام بدن و از مقدمات موجود به نتایج جدید و متفاوتی برسند.
"چون قوائد منطق و روابط استدلال در فضای تصویر میتونه الزاما همون قوائد و روابط حاکم بر استدلال زبانی در متن نباشه".
احتمالا با این چالش مدل های زبانی موجود مواجه شدی که وقتی ازشون می پرسی یه ظرف داریم توش ۵ تا سیب هست ظرف رو برمیگردونیم و یه سیب دیگه بهش اضافه می کنیم حالا در مجموع چندتا سیب داریم؟
عمدتا جواب میدن ۶ تا!
همونطور که خودت بهش اشاره کردی، مدل های موجود درواقع تصویر رو تبدیل به بردار میکنند و از طریق فرآیند انکدینگ و دیکدینگ و در یک فضای متناظر ساختارمند تصاویر رو پردازش می کنند و یا تصاویر جدیدی رو جنریت می کنند و بعد مجددا بازنمایی اون رو در فضای تصویری خلق می کنند.
انگار در این فرآیند اگر خلقی به وقوع می پیونده در مرحله بازنمایی به وقوع می پیونده که به قول تو درواقع خلق نیست بلکه نوعی جنریشن هست که در اون ارتباط بین داده های ورودی و خروجی مدل اونقدر پیچیده میشه که علی رغم اینکه جنریشن اتفاق افتاده از دید ناظر بیرونی اونقدر پرش بلندی در استدلال به وقوع پیوسته که به نظر خلق جدیدی انجام شده.
تمام تلاشم اینه که بگم به نظر من چالش اصلی که منجر به هالوسینیشن میشه همین محدود نگهداشتن منطق هوش مصنوعی به منطق گذاره ای و زبانی خودمون هست.
درحالی که ما خودمون فقط گذاره ای و زبانی ریزنینگ نمی کنیم ما یه منطق تصویری و رسوب حافظه ای هم داریم که باعث میشه وقتی تصویر برگشتن سبد رو تصور میکنیم متوجه ریختن سیب ها بشیم چون جاذبه رو فرض گرفتیم و موسیقی رو می فهمیم.
حتی اگر نخوایم اجازه بدیم هوش مصنوعی به منطق های جدید برسه که فکر می کنم می رسه باید قبول کنیم که حداقل معنی و کارکرد زبان برای ما خیلی گسترده تر از چیزی هست که به مدل ها آموزش دادیم.
و حتی اگر به منطق کاملا جدیدی فرضا منطق کوانتمی نرسه هوش مصنوعی، من اطمینان دارم حداقل به منطق پشت اون بخش از شهودهای ما که هالوسینیشن نیستند پی می بره به زودی.
و اون زمان مدلی که ما بخاطر حدود ۵ درصد هالوسنیت عمدتا مربوط به سایتیشنش ادعاهایی که خودمون بهش داده بودیم اینقدر بهش سخت می گرفتیم، ما رو با چیزی حدود ۵۰ درصد هالوسینیشن باید تحمل بکنه و این مصداق تکینگی میتونه باشه از نظر من.
یه مقدار داشتم راجب هالوسینشن مدل بیشتر تحقیق کردم متوجه شدم انگار جی پی تی بخاطر اینکه تکست جنریتور هست هم امکان هالوسینیت داره به این معنی که واقعا نمی دونه ولی دنباله کلمه رو جنریت میکنه فقط.
بهترکه خوندم دیدم بهش اشاره کرده بودی من متوجه نشده بودم.
من این حالت رو درنظر نگرفته بودم خلاصه ببخشید.
سلام محمدرضا. وقتت بخیر. امیدوارم که حال دلت خوب باشه.
چند وقتی هست موضوعاتی ذهنم رو مشغول کرده و گفتم حالا که پستی نزدیک نوشتی، چند تا از سؤالاتم رو ازت بپرسم:
اولی بحثی هست که تو این مطلب بهش اشاره کردی که «توهم LLMها ضعف حساب نمیشه». این که توهم در ذات مدل هست و به این سادگیها قابل برطرف شدن نیست، کاملاً معتبره. اما حداقل مقالات آکادمیک رو که میبینم توهم رو به Limitationهای LLMها نسبت دادند. شاید هم Limitation رو جدا از Weakness بدونی که در اون صورت هم دوست دارم نظرت رو بدونم. چون شاید تو نقاشی توهمزدن مصداق خلاقیت باشه؛ اما اگر بخوایم از منظر کاربردهای مختلف (مثل خلاصهسازی) نگاه کنیم، ضعف حساب میشه.
دومین مورد روند عجیبی هست که در صنعت نرمافزار میبینم. روندی که به نظر معکوس فرآیند تخصصیشدن کارهاست.
جرقهای که این ایده رو بهم داد از این پست / ویدئو همراهش میاد و از اونوقت مصداقهای متعددی راجع بهش دارم میبینم. ایده اینه که کارهای مرتبط با تکنولوژی دارند سادهتر میشن و آدمها برای این که بتونند تو اکوسیستم زنده بمونند به تدریج باید مهارتهای متنوعتری رو کسب کنند.
مثلاً قبلاً از یه نیروی فرانت انتظار میرفت که یه کتابخانه سمت فرانت بلد باشه و همون رو بزنه. الان پوزیشنهای زیادی دارند به این سمت میرن که Back-end رو هم خودش انجام بده. DevOps هم حالا اگر بلد بود چه بهتر.
قبلاً کسی که UI/UX انجام میداد فقط باید رابط کاربری جذاب طراحی میکرد. الان ابزارهایی مثل Figma دارند به این سمت میرن که کد فرانت رو هم تحویل بدن.
همین طور Data Scientist فقط کارش مدلسازی بود و سرش تو لاک خودش بود. الان احتمالاً باید Model Serving و Data Scraping و کلی کارهای دیگه هم انجام بده.
نتیجهاش میشه این که اگر قبلاً چند تا پوزیشن شغلی تحت عنوان ML Engineer و Data Scientist و Data Engineer و Data Analyst داشتیم، شاید چند سال دیگه همه اینها یکی بشن.
نه که آدمها بیشتر کار کنند. انقدر ابزارهای متعدد و Copilotهای مختلف اومدند (و خواهند اومد) که کاری که چند نفر انجام میدادند رو یک نفر هم میتونه با همون کیفیت (!) انجام بده. احتمالاً همه اینها به این معناست که آدمها نیازه عمق درکشون در تکنولوژیها و ابزارهایی که استفاده میکنند، کمتر باشه.
به شخصه این برام پیش اومده که میبینم تسکی که قبلاً پیادهسازیش یک روز طول میکشید رو الان به توابع کوچکتر با ورودی خروجی مشخص میشکنم و میدم به Claude. هم کد تمیزتری نسبت به من مینویسه و هم دهها تست برای اون تکه کدی که تولید کرده مینویسه. عملاً به این شکل کمکم کدنویسی از بین میره و چیزی که «فعلاً» باقی میمونه، طراح و یا معمار سیستم هست. (این توئیت از راسل کاپلان و این پستها (+و+) هم به حرفی که میزنم مرتبط هستند).
سومین مورد این که به نظرم میاد بازی هوش مصنوعی در سطح دنیا کاملاً داره تغییر میکنه. تا الان اینطوری بوده که افراد و شرکتها هر کدوم مدلهای خودشون رو با دادههای خودشون آموزش میکردند و تیم ML بخشی از شرکت بود که راهحلهایی مخصوص اون شرکت ارائه بده.
مثلاً برای تسک «دستهبندی» و «تشخیص موجودیتهای نامدار» هر کدوم یک مدل ML مجزا آموزش میدادند و استفاده میکردند. الان واقعاً نیازی به این کار نیست. میشه به سادگی از API مدل ChatGPT استفاده کرد و با پرامپت مناسب همون خروجی رو گرفت.
عملاً کل کارهایی که قبلاً برای NLP انجام میشد، دیگه انجام دادنشون چندان معنایی نداره و برای اکثر تسکها همون مدلهای زبانی بزرگ کافین. این اتفاق میتونه برای جاهای دیگه (مثل Vision و Speech) هم بیفته. تا جایی که دیگه کلاً تسکهای اون حوزهها هم با یک سری مدل بزرگ انجام بشن.
نتیجهاش این میشه که فقط دو دسته آدم در زمینه ML باقی میمونند. یک دسته خیلی خیلی محدود تو شرکتهای بزرگ کار میکنند که مدلهای Multi-Modal بزرگ رو بسازند و بقیه هم میشن صرفاً استفاده کننده این مدلها (API Engineerها).
اتفاقی که یک نمونه کوچیکش برای NLP افتاده. بخشی از مسئله هم بزرگشدن مدلهاست که باعث میشه حتی Fine-tuning هم چندان امکانپذیر و منطقی نباشه و اکثر شرکتها با Prompt Engineering درست، کارشون رو انجام میدن. خصوصاً این که الان مدلهای متنباز مثل Llama انقدری خوب هستند که واقعاً نیازی هم به تغییرشون نیست.
ببخشید. خیلی طولانی شد. من تا جایی که میتونستم حذف کردم که کوتاهتر بشه ولی کمتر این بلد نبودم چیزهایی که تو ذهنمه رو منتقل کنم. در کل دنیای جالبی هست. یک زمانی فکر میکردم که کارهای مرتبط با برنامهنویسی و خصوصاً هوشمصنوعی آخرین کارهایی هستند که از بین میرن ولی الان دارم به این نتیجه میرسم که احتمالاً اولین کارهایی که به شدت تغییر میکنند یا نابود میشن، همینها هستند.
پینوشت: فکر میکنم در جمله «هوش مصنوعی در حوزهٔ زبانی در شکل خستهکنندهٔ خود بیشتر به خلق نزدیک خواهد بود.» منظورت از خلق، تولید بوده و اشتباه تایپی اتفاق افتاده.
امیر جان ببخش کامنتت تأیید نشده بود. البته مطمئنم میدونستی که علتش اینه که توش لینک بوده و دلیل دیگهای نداشته.
اون خطایی رو که تذکر دادی در متن اصلاح کردم.
بقیهٔ پاسخ به کامنتت رو هم چون میخوام در متن اضافه کنم، اینجا نمینویسم. بعد که به متن اضافه شد، اگر دیدی مفهوم نیست. یا ربط نداره. یا میشه سرش بحث کرد و از زوایای دیگه بهش نگاه کرد، بعداً برام بنویس.
فقط عصارهٔ حرف من اینه که توهم یه طیف داره. از «کاملاً غلط» تا «آزمونناپذیر». الان بخش بزرگی از باورهای متافیزیکی انسان، «توهم هوش طبیعی» محسوب میشه. و اگر این توهم رو از مغز بگیری، کارهای روزمره رو هم نمیتونه انجام بده. در واقع «خلاقیت» و «خرافات» دو روی یک سکه هستند که وجود یکی بدون وجود اون یکی غیرقابلتصوره (چون پیکاسو هست، طالبان هم هست و برعکس).
فردا به تفصیل داخل متن مینویسم.
هوش مصنوعی عجب گافی داده! کتاب فرزندپروری مدرن که از دکتر محسن رنانی هست که در اون به خوبی توضیح میده چطور فرزندپروری مدرن باعث توسعه اقتصادی در غرب شده.
این کتاب در کنار کتابهای «تنظیم خانواده» دکتر فاضلی، «سی ویژگی پدر موفق سنگاپوری» دکتر سریعالقلم و «بیست عامل عقبماندگی خانواده ایرانی» مصطفی ملکیان از کتابهای خوب در بحث خانواده و فرزندآوری هستند و لازمه هر فرد مجرد ایرانی اینها رو بخونه.
دکتر زیباکلام هم یک کتاب داره به اسم «ما چگونه ما شدیم؟» که به خوبی توضیح میده چطور ایشون و خانمش بعد از ازدواج از «من» به «ما» تبدیل شدند.
سلام محمدرضا جان، یک نکته کوچک و کم اهمیت که منبعی هم براش ندارم صرفاً نظر خودمه.
فکر میکنم تلفظ halucitation، هالوسیتیشن باشه. بهتر از من میدونی یه سری الگوهای آواشناختی هم داریم که طبق اونها میدونیم مثلاً کلمهای مثل Phightation که وجود نداره به احتمال زیاد (نه قطعاً) تلفظش میشه فایتیشن. در واقع تلفظش به این شکل راحتتره. خیلی وقتها تلفظ راحتتر باعث شده که کلمات و عبارات رو به یک شیوه خاصی تلفظ کنیم.
عذر میخوام که وسط این صحبت مهم، شدم ملانقطی.
خودم چند هفتهای هست در مورد موضوع Hallucinationها جستجو میکنم. فکر میکنم ما به ویژه اگر گرفتار تنبلی و شختگی و کمسوادی بشیم، چنین توهماتی را از LLM ها میکشیم بیرون یا توهم بودنشون رو هم تشخیص نمیدیم.
بعضی از اینها رو هم دیدم به عنوان سوتیهای chatGPT وایرال شدن. در حالیکه مسئولیت تولید و تشخیص اینها با خود ماست. نمیتونیم از chatGPT بخواهیم شعر حافظ بخونه و منتور ما بشه بعد بخندیم بگیم شعر شهرام شب پره تحویل مون داد و گفت سیگار نکش.
خوشبختانه تکنیکهای جالبی هم برای تشخیص و پیشگیری از این توهمات وجود داره. البته قبل از اون باید ماهیت این سیستمها رو درک کنیم (که قبلاً در موردش نوشتی)
سلام هیوا جان.
در مورد تلفظ، من اصرار خاصی به هالوسایتیشن ندارم. این تلفظ رو به علل زیر به کار بردم:
۱) تلفظ هالوسایتیشن رو اولین بار از یه آمریکایی در دیدار رودررو شنیدم (چند بار در یک گفتگوی طولانی). همینطوری در ذهنم مونده.
۲) معمولاً در زبانشناسی میگن یکی از معیارهای ارزشگذاری واژههای نوساخته اینه که افرادی که اون واژه رو نشنیدهان، در اولین لحظهای که میشنون بتونن معنیش رو با خطای کم حدس بزنن. یک انگلیسیزبان به نظرم اگر هالوسیتیشن بشنوه، فکر میکنه یعنی «هالوسیته شدن» و بعد چون این مفهوم رو نمیشناسه، نمیتونه معنیش رو حدس بزنه؛ حتی اگر کناره هالوسینیشن بشنوه. اما هالوسایتیشن این مزیت رو داره که بدون توضیح هم – خصوصاً اگر در کنار هالوسینیشن بیاد – معنیش رو میشه حدس زد.
اما از همهٔ اینها که بگذریم، به هر حال میدونیم که واژههای نوساخته به این شکل، تلفظ «درست» و «غلط» ندارن و تلفظ «رایج» دارن. باید دید کدوم تلفظ به تدریج بیشتر رواج پیدا میکنه. اگر تو توی پادکستها، مصاحبهها یا هر جای دیگه، هالوسیتیشن شنیدی، لطفاً دوباره اینجا به من بگو. راستش من هنوز توی پادکست و مصاحبه و … این کلمه رو نشنیدهام (با هیچیک از این دو تلفظ). از خانم Kate Crowford هم که ظاهراً اولین کسیه که این ترکیب رو به کار برده، محتوای صوتی نشنیدهام که ببینم خودش کدوم رو ترجیح میده.
پینوشت: در مورد نکته آخر که گفتی، اتفاقاً حرف من هم همینه. دو تا نکته وجود داره که گوشهٔ ذهنم هست. یکی خطای متخصصان نرمافزار و یکی خطای عام.
من فکر میکنم توهم هوش مصنوعی فقط یه بحث تکنیکی نیست. بلکه یه بحث فلسفی جدی پشتش هست. با این فرض من، به نظرم خطای متخصصانی که بیشتر درگیر کد زدن و استفاده از Library های هوش مصنوعی هستند، میتونه این باشه که به اشتباه فکر کنن دربارهٔ این حوزه میتونن نظر نهایی بدن، احتمالاً دارن خطا میکنن. مگر این که جداگانه، بحثهای فلسفی پشت مدلسازی سمبلیک رو هم مطالعه کرده باشن و بدونن (همونطور که یه پزشک به خاطر تخصصش در شناخت مغز انسان لزوماً نمیتونه دربارهٔ کارکردهای مفید و غیرمفید مذهب نظر بده).
و نکتهٔ دوم همین چیزی که تو گفتی. خطای عام. این که مردم یادشون بره که «هوش مصنوعی» یه اسم تجاریه و اسم واقعی این چیزی که دارن باهاش حرف میزنن «مدل زبانی» هست. و بین مدل زبانی تا هوش مصنوعی درهٔ بزرگی هست که با مسائلی مثل verification و validation و alignment و governance و … پر میشه. از مدل زبانی، بیش از هر چیز، حرف زدن انتظار میره نه لزوماً «درست حرف زدن».
در مورد یک مطلب کوچیک جداگانه نوشتم: ماجرای سگ سینوسکی
سلام
با توجه به اینکه هم خیلی دلم میخواست اولین کامنتم رو اینجا بنویسم هم بیسوادی زیاد بهم جسارت و اجازهاش رو نمیداد، خواستم از این فرصت استفاده کنم که سد خودمو بشکنم، بنابراین معذرت میخوام که بیدعوت وارد مکالمه میشم.. اپیزود اگوست ۲۰۲۳ پادکست Why Is This Happening یه مکالمه بین کریس هیز و کیت کراوفورده با عنوان Unpacking AI: "an exponential disruption" که حرفهای جالبی برای من داشت از مرور تاریخچه هوش مصنوعی از ماقبل تاریخش تا امروز، آموزش دادن هوش مصنوعی توسط خودش گرفته تا همین توهم هوش مصنوعی و این چیزها که حتما برای شما نکته جدیدی نداره، فقط اینکه دقیقه ۴۶امش خانم کرافورد از تلفظ "هالوسایتیشن" استفاده میکنه.
لیلا جان. میدونی که من معمولاً سعی میکنم اولین کامنتهای بچهها در روزنوشته بیپاسخ نمونه (و رویام اینه که اساساً هیچ کامنتی بیپاسخ نمونه). روزی که کامنتت رو خوندم، توی ذهنم بود که یه چیزی اینجا بنویسم برات. و جالبه که فکر میکردم نوشتهام.
الان دیدم جواب ندادم. یه علتش قاعدتاً گیج بودن منه. اما علت دومش اینه که همیشه و هر روز اسم تو رو توی متمم میبینم. حرفهات رو میخونم. اون کنار میبینم داری به بعضیها ریپلای میزنی یا به یه کامنتهایی امتیاز میدی. انقدر تو رو نزدیک و کنار دست خودم حس میکنم، تصور ذهنیم همیشه اینه که یه مکالمهٔ دائمی بین ما در جریانه.
خلاصه. به رغم همهٔ این توجیهها، ببخش که انقدر با فاصله اینجا یه کامنت در جوابت نوشتم. همون لحظه که کامنتت رو دیدم، برام جالب بود که این بحث رو با چنین دقت و حوصلهای دنبال کردی. و البته دیدهام که در بحثهای دیگه هم همین سطح از دقت و حوصله رو به خرج میدی.
راستی حتماً خودت دقت کردی که ده سال و یک فصل از عضویت تو توی متمم میگذره. خیلیه. خیلی طولانی. بودن خیلی از دوستان قدیمی مثل توئه که وقتی خارج از جمع خودمون با آدمها توی کوچه و خیابون حرف میزنم، غریبه بودن و فاصله داشتن رو به کاملاً شدید و پررنگ تجربه میکنم.
"فومو حسی است مربوط به اینکه فرد خود را جامانده از گروه دوستان یا آشنایانی ببیند، که در نظر او در حال انجام فعالیتهای جالب و لذتبخش هستند. در این حس، فرد به این میاندیشد که دیگران ممکن است تجربههای پرارزشی داشته باشند که فرد از آنها جا مانده و غایب است." این تعریف ویکیپدیا از فومو، دلیل حضور همیشه و هر روز من تو متمم و این خونهست.
حالا که تولدتون هم هست بگم که توی این ده سال و یک فصلی که شما رو میشناسم اینجا با شما شاد شدم، غمگین شدم، تحسینتون کردم، تقلیدتون رو کردم، حسودیتون رو کردم، باهاتون موافق بودم، مخالف بودم، از دستتون عصبانی شدم، بهتون افتخار کردم، بسیار بسیار ازتون یاد گرفتم و در نهایت عمیقا سپاسگزار وجودتون هستم. تو آخرین کامنتتون گفتید میخواید درباره حسابداری ذهنی حرف بزنید.. دربارهی غریبه بودن آدمهای اطرافمون نسبت به جمع اینجا، برای من واقعا این روزها "مطلوبیت معامله"ی اغلب همصحبتیهای اطرافم منفیه وقتی با "هزینه فرصت" نبودن در اینجا مقایسه میکنم 🙂
سلام محمدرضای عزیز.
وقت بخیر.
امیدوارم حالتون خوب باشه.
اولش بگم که نمی دونم این حرفی که می خوام بزنم، چقدر ربط داره به موضوع ای که نوشته اید.
دیشب داشتم یک چرخی در سایتِ انتشاراتِ Routledge می زدم.
به کتاب جالب و کم حجمی راجع به هوش مصنوعی برخوردم که همین چند روز پیش منتشر شده.
(کتابِ The Psychology of Artificial Intelligence )
با خودم گفتم بذار یک سرچی بزنم ببینم در کشور ما، کارگروهی، قرارگاهی، چیزی داریم راجع به هوش مصنوعی؟
به یک مورد جالب برخوردم:
سند ملی هوش مصنوعی!
طبق این سند، ما باید ظرف نه سال آینده، بین "10 کشور برتر دنیا" در مقوله ی هوش مصنوعی باشیم!
من فکر می کنم این "بیماریِ چشم انداز نویسی"_ که سه سال پیش راجع به اون نوشتید و حدوداً از دو دهه پیش راجع به اون در کلاس های استراتژی تون می گفتید_ داره بیماریِ مهلک تری میشه.
نمی دونم واقعاً این "نابینایی مطلقی" که _به زعم من_ این آقایون دارن نسبت به درک و فهم محیط اطرافشون رو، چه جوری میشه تعبیر کرد.