علوم داده

انواع داده ها

داده چیست؟

داده چیست؟داده‌ها عنصر محوری یادگیری ماشین هستند و ماشین‌ها از داده‌ها یاد می‌گیرند، به این صورت که ما داده‌ها را به عنوان ورودی به الگوریتم می‌دهیم تا خروجی مورد نیازمان را دریافت کنیم. اما داده چیست؟ داده‌، در نتیجه مشاهدات و اندازه‌گیری‌ها شکل می‌گیرد و توصیف این وضعیت مشاهده شده به شمار می‌آید. این توصیف می‌تواند اشکال گوناگونی داشته باشد. برای مثال دمایی که یک دماسنج نشان می‌دهد، توصیفی از گرمای هوا ارائه می‌دهد. توصیف‌ دیگری می‌تواند به وسیله یک عکس که از قله یک کوه گرفته شده است فراهم آید و یا در قالب جملات کارشناس آب و هوای اخبار بیان شود. در هر کدام از این موارد با نوعی از داده سر و کار داریم. آنچه داده را ارزشمند می‌کند نمایندگی آن از واقعیت است و اطلاعاتی که درباره آن در اختیارمان می‌گذارد. هم‌چنین به ما این اجازه را می‌دهد که درباره ارتباط بین توصیفات مختلف یک وضعیت بپرسیم و اطلاعاتی به دست آوریم. برای مثال می‌توان پرسید آیا ارتباطی میان عکسی که از قله یک کوه گرفته شده و جملات کارشناس آب و هوا در همان روز وجود دارد؟ در ادامه به معرفی انواع داده ها می‌پردازیم.

کلمات (زبان طبیعی)

خب در بالا شما متوجه شدید که داده چیست؟ حالا یکی از شگفت‌ انگیز‌ترین توانایی‌های انسان، استفاده از زبان طبیعی برای نگهداری و تبادل مفاهیم و اطلاعات است. تحقق توانایی پردازش زبان طبیعی برای ماشین‌ها می‌تواند باعث تحول بزرگی شود. در آن صورت ماشین‌ها به منبع بسیار بزرگی از اطلاعات که انسان‌ها به زبان طبیعی تولید کرده‌اند دسترسی پیدا کرده و می‌توانند به دانسته‌های انسان مجهز شوند. هم‌چنین امکان برقراری ارتباط میان انسان‌ها و ماشین‌ها فراهم می‌شود. داده‌ای که پردازش زبان طبیعی با آن کار می‌کند، جملات و کلمات تولید شده توسط انسان‌ها هستند، که ممکن است به صورت نوشتاری یا صوت در اختیار الگورتیم‌های کامپیوتری قرار بگیرد. برخی از کاربردهای این حوزه عبارتند از:

  • تشخیص گفتار: تشخیص گفتار، برقراری ارتباط با کامپیوترها را از طریق حرف زدن عادی ممکن می‌سازد و خود دریچه‌ای به سایر کاربردهای هوش مصنوعی است. دستیارهای کامپیوتری مثل سیری یا دستیار گوگل نمونه‌هایی از کاربرد این تکنولوژی هستند.
  • دسته‌بندی نوشتارها یا نظرات: مثلاً در یک فروشگاه اینترنتی نظرات مثبت و منفی و نقاط قوت و ضعف هر کالا می‌تواند به این صورت دسته‌بندی شود. یا یک برند می‌تواند نظر عموم مردم را نسبت به خود از توییت‌های آنان تشخیص دهد.
  • پاسخ دادن به سوالات: چیزی که گاهی هنگام جستجو در گوگل با آن مواجه می‌شویم. یعنی گوگل پاسخ سؤالی که سرچ شده را از متن‌ها استخراج کرده و بالاتر از نتایج جستجو سریع به ما نشان می‌دهد.

یکی از چالش‌های اصلی پردازش متن، تفاوت زبان روزمره و رسمی است. همان‌طور که برای یادگیری زبان‌های خارجی، درک جملات غیر‌رسمی مشکل‌تر است، پردازش متن‌هایی که به زبان روزمره نوشته شده‌اند نیز برای کامپیوتر چالش برانگیز‌تر است.

تصویر

از میان حوزه‌های مختلف یادگیری ماشین، بینایی ماشین پیشرفت خیره‌کننده‌ای را در سال‌های اخیر داشته و در تکنولوژی‌های روزمره به صورت گسترده استفاده می‌شود.

برای آشنایی با یادگیری ماشین مقاله استفاده از یادگیری ماشین در صنعت معدن را مطالعه کنید

داده‌ای که در این قسمت با آن سر و کار داریم تصاویر ثبت شده توسط دوربین‌های مختلف عکس‌برداری یا فیلمبرداری هستند. شهرت بینایی ماشین عجیب نیست اگر به این نکته توجه کنیم که غنی‌ترین منبع تجربه ما انسان‌ها از واقعیت را قوای بینایی‌مان در اختیارمان قرار داده است. از این رو توانایی استخراج اطلاعات از داخل تصاویر امکان فوق‌العاده‌ای را در اختیار یک عامل هوش مصنوعی می‌گذارد و هدف معمولاً تشخیص شیء یا اشیای موجود در تصاویر است. یا ممکن است بخواهیم ناحیه وجود هر شیء در تصویر را نیز پیدا کنیم.

از کابردهای روزمره بینایی ماشین می‌توان به تشخیص پلاک خودروها توسط پلیس، تشخیص اثر انگشت یا چهره برای باز کردن قفل گوشی یا کامپیوتر، جستجو میان تصاویر بر اساس اجسام موجود در عکس، پردازش تصاویر ماهواره‌ای برای هواشناسی یا تشخیص وقایع زیست‌محیطی و ماشین‌های خودران اشاره کرد.

همچنین بینایی ماشین در پزشکی نیز کاربرد دارد و مثلاً می‌تواند نیاز به متخصص رادیولوژی را برای بررسی تصاویر پزشکی اشعه ایکس، MRI یا سونوگرافی را کاهش دهد.

جداول

انواع داده ها که تا اینجا بیان شد را داده‌های ساختار نیافته و نوع جدولی را داده ساختارمند می‌نامیم. این نوع داده در بسیاری از سیستم‌های نرم‌افزاری یافت می‌شود. برای مثال یک بانک را در نظر بگیرید که نام و کدملی افراد، موجودی حساب‌های آن‌ها، مجموع مبلغ وام‌هایی که تا به حال دریافت کرده‌اند را در جدولی مشابه جدول زیر نگهداری می‌کند. بانک می‌تواند با کمک یادگیری ماشین از روی این داده‌ها پیش‌بینی کند که درخواست وام یک مشتری را قبول یا رد کند.

تعداد دیرکرد در پرداخت اقساطمجموع مبلغ وام‌های دریافتیموجودی حساب‌هانام و نام‌خانوادگیکد ملی
۱۵۰۰۰۰۰۰۰۱۲۵۰۰۰۰۰۰علی دایی۱۲۳۴۵۶۷۸۹۰
۴۲۰۰۰۰۱۰۰۰۰۰۰۰۰عباس بوعذار۰۹۸۷۶۵۴۳۲۱

داده‌های جدولی را می‌توان به طور کلی به ۲ زیردسته تقسیم‌بندی کرد:

  • داده‌های عددی: مثل سن فرد یا موجودی حساب او
  • داده‌های دسته‌ای: مثل جنسیت یا شهر محل زندگی فرد

مسائل متنوعی ممکن است روی این داده‌ها تعریف شود. علاوه بر مسائلی مشابه مثال بالا، مسأله سیستم‌های توصیه‌گر نیز یک مساله پرکاربرد است. سیستم‌های توصیه‌گر می‌توانند به یک فروشگاه اینترنتی کمک کنند بر اساس خریدها و بازدیدهای یک فرد، کالاهایی که ممکن است یک فرد بخرد را به او پیشنهاد دهند و میزان فروش فروشگاه را زیاد کنند.

سری زمانی

در مورد بعضی از انواع داده، تغییرات آن و در نتیجه مقدار آن در طول زمان اهمیت ویژه‌ای دارد. ماشین می‌تواند با دیدن تغییرات ویژگی مشخصی از یک داده در طول زمان، الگوی تغییرات آن را یاد بگیرد و به مسائلی که برحسب زمان‌اند، مثل پیش‌بینی مقدار آن ویژگی در یک زمان مشخص پاسخ دهد. برای مثال اگر ارزش یک سهم در بازار بورس را در یک بازه زمانی در نظر بگیریم، اطلاعات بیشتری داریم که الگوی تغییرات آن را نیز در بر می‌گیرد. از نمونه‌های دیگر این نوع داده، نوار قلبی است. انواع داده ها ممکن است صورت یک سری زمانی را به خود بگیرند. برای مثال ممکن است در یک مسأله، خریدهای یک فرد یا تراکنش‌های بانکی او را به صورت یک سری زمانی نگاه کنیم ولی در یک مسأله دیگر بعد زمان در مدل‌سازی ما اهمیت نداشته باشد و به خریدها یا تراکنش‌ها مستقل از ترتیبشان نگاه کنیم.

قالب‌های داده می‌توانند انواع فراوان دیگری نیز داشته باشند و موارد بالا تنها نمونه‌هایی پرکاربرد از آن‌ها هستند که در تعریف قالب‌های دیگر نیز به کار می‌روند. برای مثال صوت یک نوع داده است که با زبان طبیعی سر و کار دارد و فیلم یک نوع داده است که با مجموعه‌ای از تصاویر ساخته می‌شود و هر دو نیز برحسب زمان هستند.

کلمات کلیدی:انواع داده ها،انواع داده،داده ها،داده چیست؟

امیرحسین باقری

امیرحسین باقری هستم عاشق برنامه نویسی مخصوصا با python و همینطور طراح قالب و متخصص فرانت اند؛ از دانشی که تو این مدت بدست آوردم میشه به HTML, CSS, Bootstrap, Flexbox, SASS, Python, Django, DRF و هوش مصنوعی اشاره کرد.

دیدگاهتان را بنویسید

دکمه بازگشت به بالا