
انواع داده ها
داده چیست؟
داده چیست؟دادهها عنصر محوری یادگیری ماشین هستند و ماشینها از دادهها یاد میگیرند، به این صورت که ما دادهها را به عنوان ورودی به الگوریتم میدهیم تا خروجی مورد نیازمان را دریافت کنیم. اما داده چیست؟ داده، در نتیجه مشاهدات و اندازهگیریها شکل میگیرد و توصیف این وضعیت مشاهده شده به شمار میآید. این توصیف میتواند اشکال گوناگونی داشته باشد. برای مثال دمایی که یک دماسنج نشان میدهد، توصیفی از گرمای هوا ارائه میدهد. توصیف دیگری میتواند به وسیله یک عکس که از قله یک کوه گرفته شده است فراهم آید و یا در قالب جملات کارشناس آب و هوای اخبار بیان شود. در هر کدام از این موارد با نوعی از داده سر و کار داریم. آنچه داده را ارزشمند میکند نمایندگی آن از واقعیت است و اطلاعاتی که درباره آن در اختیارمان میگذارد. همچنین به ما این اجازه را میدهد که درباره ارتباط بین توصیفات مختلف یک وضعیت بپرسیم و اطلاعاتی به دست آوریم. برای مثال میتوان پرسید آیا ارتباطی میان عکسی که از قله یک کوه گرفته شده و جملات کارشناس آب و هوا در همان روز وجود دارد؟ در ادامه به معرفی انواع داده ها میپردازیم.
کلمات (زبان طبیعی)

خب در بالا شما متوجه شدید که داده چیست؟ حالا یکی از شگفت انگیزترین تواناییهای انسان، استفاده از زبان طبیعی برای نگهداری و تبادل مفاهیم و اطلاعات است. تحقق توانایی پردازش زبان طبیعی برای ماشینها میتواند باعث تحول بزرگی شود. در آن صورت ماشینها به منبع بسیار بزرگی از اطلاعات که انسانها به زبان طبیعی تولید کردهاند دسترسی پیدا کرده و میتوانند به دانستههای انسان مجهز شوند. همچنین امکان برقراری ارتباط میان انسانها و ماشینها فراهم میشود. دادهای که پردازش زبان طبیعی با آن کار میکند، جملات و کلمات تولید شده توسط انسانها هستند، که ممکن است به صورت نوشتاری یا صوت در اختیار الگورتیمهای کامپیوتری قرار بگیرد. برخی از کاربردهای این حوزه عبارتند از:
- تشخیص گفتار: تشخیص گفتار، برقراری ارتباط با کامپیوترها را از طریق حرف زدن عادی ممکن میسازد و خود دریچهای به سایر کاربردهای هوش مصنوعی است. دستیارهای کامپیوتری مثل سیری یا دستیار گوگل نمونههایی از کاربرد این تکنولوژی هستند.
- دستهبندی نوشتارها یا نظرات: مثلاً در یک فروشگاه اینترنتی نظرات مثبت و منفی و نقاط قوت و ضعف هر کالا میتواند به این صورت دستهبندی شود. یا یک برند میتواند نظر عموم مردم را نسبت به خود از توییتهای آنان تشخیص دهد.
- پاسخ دادن به سوالات: چیزی که گاهی هنگام جستجو در گوگل با آن مواجه میشویم. یعنی گوگل پاسخ سؤالی که سرچ شده را از متنها استخراج کرده و بالاتر از نتایج جستجو سریع به ما نشان میدهد.
یکی از چالشهای اصلی پردازش متن، تفاوت زبان روزمره و رسمی است. همانطور که برای یادگیری زبانهای خارجی، درک جملات غیررسمی مشکلتر است، پردازش متنهایی که به زبان روزمره نوشته شدهاند نیز برای کامپیوتر چالش برانگیزتر است.
تصویر

از میان حوزههای مختلف یادگیری ماشین، بینایی ماشین پیشرفت خیرهکنندهای را در سالهای اخیر داشته و در تکنولوژیهای روزمره به صورت گسترده استفاده میشود.
برای آشنایی با یادگیری ماشین مقاله استفاده از یادگیری ماشین در صنعت معدن را مطالعه کنید
دادهای که در این قسمت با آن سر و کار داریم تصاویر ثبت شده توسط دوربینهای مختلف عکسبرداری یا فیلمبرداری هستند. شهرت بینایی ماشین عجیب نیست اگر به این نکته توجه کنیم که غنیترین منبع تجربه ما انسانها از واقعیت را قوای بیناییمان در اختیارمان قرار داده است. از این رو توانایی استخراج اطلاعات از داخل تصاویر امکان فوقالعادهای را در اختیار یک عامل هوش مصنوعی میگذارد و هدف معمولاً تشخیص شیء یا اشیای موجود در تصاویر است. یا ممکن است بخواهیم ناحیه وجود هر شیء در تصویر را نیز پیدا کنیم.
از کابردهای روزمره بینایی ماشین میتوان به تشخیص پلاک خودروها توسط پلیس، تشخیص اثر انگشت یا چهره برای باز کردن قفل گوشی یا کامپیوتر، جستجو میان تصاویر بر اساس اجسام موجود در عکس، پردازش تصاویر ماهوارهای برای هواشناسی یا تشخیص وقایع زیستمحیطی و ماشینهای خودران اشاره کرد.
همچنین بینایی ماشین در پزشکی نیز کاربرد دارد و مثلاً میتواند نیاز به متخصص رادیولوژی را برای بررسی تصاویر پزشکی اشعه ایکس، MRI یا سونوگرافی را کاهش دهد.
جداول
انواع داده ها که تا اینجا بیان شد را دادههای ساختار نیافته و نوع جدولی را داده ساختارمند مینامیم. این نوع داده در بسیاری از سیستمهای نرمافزاری یافت میشود. برای مثال یک بانک را در نظر بگیرید که نام و کدملی افراد، موجودی حسابهای آنها، مجموع مبلغ وامهایی که تا به حال دریافت کردهاند را در جدولی مشابه جدول زیر نگهداری میکند. بانک میتواند با کمک یادگیری ماشین از روی این دادهها پیشبینی کند که درخواست وام یک مشتری را قبول یا رد کند.
تعداد دیرکرد در پرداخت اقساط | مجموع مبلغ وامهای دریافتی | موجودی حسابها | نام و نامخانوادگی | کد ملی |
---|---|---|---|---|
۱ | ۵۰۰۰۰۰۰۰ | ۱۲۵۰۰۰۰۰۰ | علی دایی | ۱۲۳۴۵۶۷۸۹۰ |
۴ | ۲۰۰۰۰ | ۱۰۰۰۰۰۰۰۰ | عباس بوعذار | ۰۹۸۷۶۵۴۳۲۱ |
دادههای جدولی را میتوان به طور کلی به ۲ زیردسته تقسیمبندی کرد:
- دادههای عددی: مثل سن فرد یا موجودی حساب او
- دادههای دستهای: مثل جنسیت یا شهر محل زندگی فرد
مسائل متنوعی ممکن است روی این دادهها تعریف شود. علاوه بر مسائلی مشابه مثال بالا، مسأله سیستمهای توصیهگر نیز یک مساله پرکاربرد است. سیستمهای توصیهگر میتوانند به یک فروشگاه اینترنتی کمک کنند بر اساس خریدها و بازدیدهای یک فرد، کالاهایی که ممکن است یک فرد بخرد را به او پیشنهاد دهند و میزان فروش فروشگاه را زیاد کنند.
سری زمانی

در مورد بعضی از انواع داده، تغییرات آن و در نتیجه مقدار آن در طول زمان اهمیت ویژهای دارد. ماشین میتواند با دیدن تغییرات ویژگی مشخصی از یک داده در طول زمان، الگوی تغییرات آن را یاد بگیرد و به مسائلی که برحسب زماناند، مثل پیشبینی مقدار آن ویژگی در یک زمان مشخص پاسخ دهد. برای مثال اگر ارزش یک سهم در بازار بورس را در یک بازه زمانی در نظر بگیریم، اطلاعات بیشتری داریم که الگوی تغییرات آن را نیز در بر میگیرد. از نمونههای دیگر این نوع داده، نوار قلبی است. انواع داده ها ممکن است صورت یک سری زمانی را به خود بگیرند. برای مثال ممکن است در یک مسأله، خریدهای یک فرد یا تراکنشهای بانکی او را به صورت یک سری زمانی نگاه کنیم ولی در یک مسأله دیگر بعد زمان در مدلسازی ما اهمیت نداشته باشد و به خریدها یا تراکنشها مستقل از ترتیبشان نگاه کنیم.
قالبهای داده میتوانند انواع فراوان دیگری نیز داشته باشند و موارد بالا تنها نمونههایی پرکاربرد از آنها هستند که در تعریف قالبهای دیگر نیز به کار میروند. برای مثال صوت یک نوع داده است که با زبان طبیعی سر و کار دارد و فیلم یک نوع داده است که با مجموعهای از تصاویر ساخته میشود و هر دو نیز برحسب زمان هستند.
کلمات کلیدی:انواع داده ها،انواع داده،داده ها،داده چیست؟
یک دیدگاه