شرکتهای تابعه گوگل یعنی Google Research و DeepMind بهتازگی از مجموعهای متنباز از مدلهای هوش مصنوعی با نام MedGemma رونمایی کردند؛ این مدلها بهطور ویژه برای کاربردهای پزشکی توسعه داده شدهاند. خانواده MedGemma شامل یک مدل ۴ میلیارد پارامتری چندحالته (متن، تصویر یا ترکیبی از هر دو) و نسخه بزرگتر ۲۷ میلیارد پارامتری در قالبهای متنی و چندحالته است.
مدلهای MedGemma با تمرکز بر تخصصهایی مانند رادیولوژی، پوست، آسیبشناسی بافتی و چشمپزشکی طراحی شدهاند. بهگفته گوگل، این مدلها میتوانند بهعنوان پایهای برای ساخت ابزارهای جدید پزشکی مبتنیبر هوش مصنوعی مورد استفاده قرار گیرند؛ چه بهصورت مستقل و چه بهعنوان بخشی از سامانههای عاملمحور.
بر اساس گزارش فنی ارائهشده، MedGemma در مقایسه با مدلهای پایه با اندازه مشابه، عملکرد بهمراتب بهتری دارد. برای نمونه:
تا ۱۰ درصد بهبود در دقت پاسخگویی به پرسشهای چندحالته پزشکی
۱۵.۵ تا ۱۸.۱ درصد بهبود در دستهبندی تصاویر رادیولوژی
افزایش ۱۰.۸ درصدی در ارزیابیهای پیچیده با استفاده از عاملها
در آزمون MedQA (سؤالات آزمونهای پزشکی)، نسخه ۴B مدل به دقت ۶۴.۴ درصد دست یافته، درحالیکه مدل پایه فقط ۵۰.۷ درصد دقت دارد. نسخه ۲۷B نیز به دقت ۸۷.۷ درصد رسیده که در مقایسه با دقت ۷۴.۹ درصدی مدل پایه، پیشرفت قابلتوجهی محسوب میشود.
در آزمون مجموعهداده MIMIC-CXR که شامل تصاویر و گزارشهای پزشکی است، مدل MedGemma 4B به امتیاز F1 برابر با ۸۸.۹ دست یافته، درحالیکه مدل پایه فقط ۸۱.۲ امتیاز گرفته بود.
درکنار مدل MedGemma، گوگل همچنین از MedSigLIP رونمایی کرده است؛ رمزگشای تصویری با ۴۰۰ میلیون پارامتر که بر پایه فناوری SigLIP توسعه یافته است. این سیستم به MedGemma امکان میدهد تصاویر پزشکی را با دقت بالاتر و پیوند منطقی با متن پزشکی تحلیل کند.
MedSigLIP با وضوح ۴۴۸ در ۴۴۸ پیکسل فعالیت میکند که نسبت به نسخه با وضوح بالاتر ۸۹۶ در ۸۹۶ پیکسل، کارایی بالاتری دارد. این رمزگشا با بیش از ۳۳ میلیون جفت تصویر–متن آموزش دیده است، از جمله:
۶۳۵ هزار نمونه تخصصی از رشتههای مختلف پزشکی
بیش از ۳۲ میلیون قطعه بافتشناسی
در استفاده واقعی، مدلهای MedGemma بهبودهای قابلتوجهی نشان دادهاند:
در تشخیص پنوموتوراکس (ریزش ریه)، دقت از ۵۹.۷ درصد به ۷۱.۵ درصد رسیده است.
در طبقهبندی بافت در آسیبشناسی، امتیاز F1 از ۳۲.۸ به ۹۴.۵ افزایش یافته است.
در تولید گزارش خودکار رادیولوژی، امتیاز RadGraph F1 از ۲۹.۵ به ۳۰.۳ ارتقاء یافته است.
در تحلیل سوابق الکترونیکی سلامت، استفاده از یادگیری تقویتی باعث کاهش ۵۰ درصدی خطا در بازیابی اطلاعات شده است.
مدلهای MedGemma درحالحاضر روی پلتفرم Hugging Face در دسترس هستند. مجوز استفاده از این مدلها شامل اهداف پژوهشی، توسعه و کاربردهای عمومی هوش مصنوعی است، اما کاربرد مستقیم برای تشخیص یا درمان پزشکی تنها با تأیید نهادهای نظارتی مجاز است. استفاده تجاری نیز مجاز است، مشروط بر رعایت این محدودیتها.
سخن پایانی
مدلهای جدید MedGemma گامی مهم در مسیر دموکراتیزهکردن فناوری هوش مصنوعی پزشکی هستند. بااینحال، باید درنظر داشت که عملکرد عالی در بنچمارکها همیشه بهمعنای موفقیت در محیطهای واقعی بالینی نیست. گوگل با متنباز کردن این مدلها، امکان توسعه و تطبیق آنها برای کاربردهای گستردهتری را فراهم کرده، اما همچنان نیاز به نظارت دقیق، تستهای میدانی و تعامل انسانی هوشمندانه در محیطهای درمانی وجود دارد.
نظر شما درباره مدل هوش مصنوعی با کاربرد پزشکی گوگل MedGemma چیست؟