سامسونگ بهعنوان اولین برندی که مجموعه جامعی از قابلیتهای هوش مصنوعی را در گوشیهای هوشمند خود معرفی کرد، اکنون در اقدامی جالب، از ابزار بنچمارک عملکرد هوش مصنوعی خود با نام TRUEBench رونمایی کرده است.
سامسونگ اعلام کرد که ابزار بنچمارک اختصاصی هوش مصنوعی خود را با نام کامل Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench) توسعه داده است. این ابزار توسط مرکز تحقیقات سامسونگ و پس از آن ساخته شد که این شرکت به وجود شکافهایی در ابزارهای بنچمارک AI موجود پی برد. بهگفته سامسونگ، اکثر ابزارهای فعلی دارای محدودیتهای زیر هستند:
سامسونگ میگوید TRUEBench شامل آزمونهایی است که سناریوهای گفتگوی متنوع و شرایط چندزبانه را در بر میگیرد. این بنچمارک بر اساس استفاده داخلی خود سامسونگ از هوش مصنوعی برای بهرهوری، عملکرد AI را بر پایه ده مورد از رایجترین وظایف سازمانی، مانند تولید محتوا، تحلیل داده، خلاصهسازی متن و ترجمه، ارزیابی میکند.
این ابزار دارای ۲,۴۸۵ مجموعه تست است که در ۱۰ دستهبندی، ۴۶ زیرمجموعه و ۱۲ زبان مختلف توزیع شدهاند. طول تستها از ۸ کاراکتر تا بیش از ۲۰,۰۰۰ کاراکتر متغیر است که وظایف ساده تا خلاصهسازی اسناد طولانی را شبیهسازی میکند.
گفته میشود TRUEBench بهلطف یک سیستم ارزیابی خودکار مبتنیبر هوش مصنوعی که با همکاری و اصلاح توسط انسان و هوش مصنوعی طراحی شده، دارای یک سیستم امتیازدهی قابلاعتماد است. نمونههای داده و جدولهای امتیازات (leadership boards) این ابزار در Hugging Face، که یک پلتفرم متنباز است، در دسترس عموم قرار دارد. این به افراد اجازه میدهد تا حداکثر پنج مدل هوش مصنوعی را آزمایش کرده و آنها را از نظر عملکرد و کارایی مقایسه کنند.
پال چئون، مدیر ارشد فنی بخش DX در سامسونگ الکترونیکس و رئیس مرکز تحقیقات سامسونگ، گفت:
مرکز تحقیقات سامسونگ از طریق تجربه واقعی خود در زمینه هوش مصنوعی، تخصص عمیق و یک مزیت رقابتی را به ارمغان میآورد. ما انتظار داریم TRUEBench استانداردهای ارزیابی برای بهرهوری را تعیین کرده و رهبری فناورانه سامسونگ را مستحکمتر کند.
بهنظر شما، آیا ارائه یک ابزار بنچمارک چندزبانه و مبتنیبر کاربرد واقعی توسط یک شرکت بزرگ مانند سامسونگ، میتواند به ایجاد استانداردهای جدید و عادلانهتر برای ارزیابی مدلهای AI در سراسر جهان کمک کند؟