حساب کاربری ندارید؟ ثبت نام کنید

سامسونگ از بنچمارک اختصاصی خود برای ارزیابی عملکرد هوش مصنوعی با نام TRUEBench رونمایی کرد

نوشته

2 روز قبل | بدون دیدگاه | بنچمارک، سامسونگ، هوش مصنوعی

سامسونگ به‌عنوان اولین برندی که مجموعه جامعی از قابلیت‌های هوش مصنوعی را در گوشی‌های هوشمند خود معرفی کرد، اکنون در اقدامی جالب، از ابزار بنچمارک عملکرد هوش مصنوعی خود با نام TRUEBench رونمایی کرده است.

خلاصه و نکات کلیدی

  • 🔹 سامسونگ از ابزار بنچمارک اختصاصی خود با نام TRUEBench برای ارزیابی عملکرد مدل‌های هوش مصنوعی در سناریوهای واقعی رونمایی کرد.
  • 🔹 این ابزار برای رفع نواقص بنچمارک‌های موجود، مانند تمرکز بر زبان انگلیسی و ساختارهای پرسش‌وپاسخ ساده، طراحی شده است.
  • 🔹 TRUEBench شامل ۲,۴۸۵ مجموعه تست در ۱۰ دسته‌بندی و ۱۲ زبان مختلف است و وظایفی مانند خلاصه‌سازی و تحلیل داده را ارزیابی می‌کند.
  • 🔹 نمونه‌های داده و جدول امتیازات این بنچمارک در پلتفرم متن‌باز Hugging Face در دسترس عموم قرار گرفته است.

چرا سامسونگ ابزار بنچمارک هوش مصنوعی خود را ساخت؟

سامسونگ اعلام کرد که ابزار بنچمارک اختصاصی هوش مصنوعی خود را با نام کامل Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench) توسعه داده است. این ابزار توسط مرکز تحقیقات سامسونگ و پس از آن ساخته شد که این شرکت به وجود شکاف‌هایی در ابزارهای بنچمارک AI موجود پی برد. به‌گفته سامسونگ، اکثر ابزارهای فعلی دارای محدودیت‌های زیر هستند:

  • تمرکز بیش از حد بر زبان انگلیسی.
  • محدود بودن به ساختارهای پرسش‌وپاسخ تک‌مرحله‌ای و ساده.
بنچمارک هوش مصنوعی سامسونگ

بنچمارک هوش مصنوعی سامسونگ

TRUEBench چگونه عملکرد AI سامسونگ و دیگران را ارزیابی می‌کند؟

سامسونگ می‌گوید TRUEBench شامل آزمون‌هایی است که سناریوهای گفتگوی متنوع و شرایط چندزبانه را در بر می‌گیرد. این بنچمارک بر اساس استفاده داخلی خود سامسونگ از هوش مصنوعی برای بهره‌وری، عملکرد AI را بر پایه ده مورد از رایج‌ترین وظایف سازمانی، مانند تولید محتوا، تحلیل داده، خلاصه‌سازی متن و ترجمه، ارزیابی می‌کند.

این ابزار دارای ۲,۴۸۵ مجموعه تست است که در ۱۰ دسته‌بندی، ۴۶ زیرمجموعه و ۱۲ زبان مختلف توزیع شده‌اند. طول تست‌ها از ۸ کاراکتر تا بیش از ۲۰,۰۰۰ کاراکتر متغیر است که وظایف ساده تا خلاصه‌سازی اسناد طولانی را شبیه‌سازی می‌کند.

سیستم امتیازدهی و دسترسی عمومی

گفته می‌شود TRUEBench به‌لطف یک سیستم ارزیابی خودکار مبتنی‌بر هوش مصنوعی که با همکاری و اصلاح توسط انسان و هوش مصنوعی طراحی شده، دارای یک سیستم امتیازدهی قابل‌اعتماد است. نمونه‌های داده و جدول‌های امتیازات (leadership boards) این ابزار در Hugging Face، که یک پلتفرم متن‌باز است، در دسترس عموم قرار دارد. این به افراد اجازه می‌دهد تا حداکثر پنج مدل هوش مصنوعی را آزمایش کرده و آن‌ها را از نظر عملکرد و کارایی مقایسه کنند.

نقل قول از مدیر ارشد فنی سامسونگ

پال چئون، مدیر ارشد فنی بخش DX در سامسونگ الکترونیکس و رئیس مرکز تحقیقات سامسونگ، گفت:

مرکز تحقیقات سامسونگ از طریق تجربه واقعی خود در زمینه هوش مصنوعی، تخصص عمیق و یک مزیت رقابتی را به ارمغان می‌آورد. ما انتظار داریم TRUEBench استانداردهای ارزیابی برای بهره‌وری را تعیین کرده و رهبری فناورانه سامسونگ را مستحکم‌تر کند.

به‌نظر شما، آیا ارائه یک ابزار بنچمارک چندزبانه و مبتنی‌بر کاربرد واقعی توسط یک شرکت بزرگ مانند سامسونگ، می‌تواند به ایجاد استانداردهای جدید و عادلانه‌تر برای ارزیابی مدل‌های AI در سراسر جهان کمک کند؟

اشتراک در
اطلاع از
0 Comments
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
رپورتاژ آگهی پربازده
رپورتاژ آگهی پربازده
امیرحسین ملکی