Apa itu Dataset ? Penjelasan dan Jenis-Jenis Dataset

by | Aug 24, 2023 | Artificial Intelligence, Blog, Computer Vision, Machine Learning | 2 comments

Sebuah dataset adalah kumpulan data yang disusun dalam format yang dapat digunakan untuk analisis, penelitian, atau pelatihan model machine learning. Dalam konteks ilmu data dan machine learning, dataset merupakan fondasi utama yang digunakan untuk mengidentifikasi pola, membangun model, dan mengambil wawasan dari data.

Apa itu Dataset ?

apa-itu-dataset

Penjelasan lebih lanjut tentang dataset dan jenis-jenisnya:

  1. Struktur Dataset:
    • Observasi (Rows): Setiap baris dalam dataset mewakili satu observasi atau data poin. – Fitur (Columns): Setiap kolom dalam dataset mewakili suatu fitur atau atribut dari data.

 

  • Jenis-Jenis Dataset:
    • Dataset Tabular: Dataset tabular adalah dataset yang disusun dalam bentuk tabel, mirip dengan spreadsheet. Setiap baris mewakili entitas atau observasi, sedangkan setiap kolom mewakili atribut. Contohnya adalah dataset Excel atau CSV.
    • Dataset Gambar: Dataset ini berisi gambar. Setiap observasi mungkin adalah sebuah gambar yang diwakili dalam bentuk matriks piksel.
    • Dataset Teks: Dataset teks berisi teks atau dokumen. Biasanya digunakan untuk analisis sentimen, klasifikasi teks, atau pemrosesan bahasa alami (NLP).
    • Dataset Waktu Seri: Dataset ini mengandung data yang diambil dari waktu ke waktu, seperti data saham, data cuaca, atau data suhu harian.
    • Dataset Grafik: Dataset ini berisi data yang merepresentasikan hubungan antara entitas dalam bentuk grafik atau jaringan.
    • Dataset Audio: Dataset ini berisi data audio, seperti rekaman suara, yang sering digunakan untuk pengenalan suara atau analisis audio.
    • Dataset Geospasial: Dataset ini berisi data yang berhubungan dengan lokasi geografis, seperti peta atau data GPS.

 

  • Sumber Dataset:
    • Sumber Umum: Dataset ini tersedia secara umum dan sering digunakan untuk latihan atau penelitian. Contohnya adalah dataset Iris atau dataset Titanic.
    • Sumber Proprietary: Dataset ini dimiliki oleh perusahaan atau organisasi tertentu dan biasanya digunakan untuk tujuan internal.
    • Sumber Publik: Dataset ini diperoleh dari sumber terbuka seperti situs web pemerintah atau lembaga riset.
    • Sumber Kreasi Sendiri: Anda juga bisa membuat dataset sendiri melalui survei, eksperimen, atau pengumpulan data lainnya.

Pemilihan jenis dataset yang tepat sangat tergantung pada tujuan analisis atau model machine learning yang ingin anda lakukan. Setiap jenis dataset memiliki karakteristik dan tantangan tersendiri dalam preprocessing, pemodelan, dan evaluasi.

Artikel Sebelumnya :

Referensi

2 Comments

  1. temp mail

    Simply desire to say your article is as surprising. The clearness in your post is simply excellent and i could assume you are an expert on this subject. Fine with your permission let me to grab your feed to keep up to date with forthcoming post. Thanks a million and please carry on the gratifying work.

    Reply
  2. orionservicee

    I do trust all the ideas youve presented in your post They are really convincing and will definitely work Nonetheless the posts are too short for newbies May just you please lengthen them a bit from next time Thank you for the post

    Reply

Submit a Comment

Your email address will not be published. Required fields are marked *