Janji Berlebih-lebihan Perlombongan Data Yang Tidak Dipanggil Yang Dipanggil


Pemenang hadiah Nobel Richard Feynman pernah meminta pelajar Caltechnya untuk mengira kebarangkalian bahawa, jika dia berjalan di luar kelas, kereta pertama di tempat letak kereta akan mempunyai plat lesen tertentu, katakan 6ZNA74. Dengan mengandaikan setiap nombor dan surat adalah sama dan ditentukan secara bebas, para pelajar menganggarkan kebarangkalian kurang daripada 1 dalam 17 juta. Apabila pelajar selesai pengiraan mereka, Feynman mendedahkan bahawa kebarangkalian yang betul adalah 1: Dia telah melihat plat lesen ini dalam perjalanan ke kelas. Sesuatu yang sangat tidak mungkin sama sekali tidak mungkin jika ia telah berlaku.

Data Feynman perangkap-ransacking untuk pola tanpa apa-apa idea yang terdahulu tentang apa yang dicari adalah adalah tumit Achilles berdasarkan kajian perlombongan data. Mencari sesuatu yang luar biasa atau mengejutkan selepas ia telah berlaku tidak luar biasa atau mengejutkan. Pola pasti dapat dijumpai, dan mungkin menyesatkan, tidak masuk akal, atau lebih buruk.

Dalam buku terlarisnya 2001 Baik untuk Hebat, Jim Collins membandingkan 11 syarikat yang telah mengatasi keseluruhan pasaran saham sepanjang 40 tahun yang lalu kepada 11 syarikat yang tidak. Beliau mengenal pasti lima sifat yang membezakan bahawa syarikat-syarikat yang berjaya mempunyai persamaan. "Kami tidak memulakan projek ini dengan teori untuk menguji atau membuktikan," kata Collins. "Kami berusaha membina teori dari bawah, diperoleh terus dari bukti."

Dia melangkah masuk ke perangkap Feynman. Apabila kita melihat kembali pada masa di mana-mana kumpulan syarikat, yang terbaik atau paling teruk, kita sentiasa dapat mencari beberapa ciri-ciri umum, sehingga mendapati mereka tidak membuktikan apa-apa pun. Berikutan penerbitan Baik untuk Hebat, prestasi 11 stok megah Collins telah agak biasa: Lima stok telah dilakukan lebih baik daripada pasaran saham keseluruhan, manakala enam telah menjadi lebih buruk.

Pada tahun 2011, Google mencipta program kecerdasan buatan yang dipanggil Google Flu yang menggunakan pertanyaan carian untuk meramalkan wabak selesema. Program penambangan data Google memandang 50 juta pertanyaan carian dan mengenal pasti 45 yang paling berkaitan dengan insiden selesema. Ini satu lagi contoh perangkap data-perlombongan: Kajian yang sah akan menentukan kata kunci terlebih dahulu. Selepas mengeluarkan laporannya, Google Flu mengatasi jumlah kes flu selama 100 minggu ke 108, dengan purata hampir 100 peratus. Selesema Google tidak lagi membuat ramalan selesema.

Seorang pemasar internet menyangka ia dapat meningkatkan pendapatannya dengan menukar warna laman web biru tradisionalnya kepada warna yang berbeza. Selepas beberapa minggu ujian, syarikat itu mendapati keputusan yang signifikan secara statistik: nampaknya England suka teal. Dengan melihat beberapa warna alternatif untuk seratus negara atau lebih, mereka menjamin bahawa mereka akan mendapat kenaikan hasil untuk beberapa warna untuk sesetengah negara, tetapi mereka tidak tahu lebih awal daripada masa sama ada teal akan menjual lebih banyak di England. Sebagaimana ternyata, apabila warna laman web England berubah menjadi kecil, pendapatan jatuh.

Percubaan neurosains piawai melibatkan menunjukkan sukarelawan dalam mesin MRI pelbagai imej dan bertanya soalan tentang imej. Pengukurannya berisik, mengambil isyarat magnet dari alam sekitar dan dari variasi ketumpatan tisu lemak di bahagian otak yang berlainan. Kadang-kadang mereka terlepas aktiviti otak; kadang-kadang mereka mencadangkan aktiviti di mana tidak ada.

Seorang pelajar siswazah Dartmouth menggunakan mesin MRI untuk mengkaji aktiviti otak ikan salmon kerana ia menunjukkan gambar dan bertanya. Perkara yang paling menarik tentang kajian ini bukanlah salmon yang dikaji, tetapi salmon itu telah mati. Yep, salmon mati yang dibeli di pasaran tempatan dimasukkan ke dalam mesin MRI, dan beberapa corak telah ditemui. Terdapat corak yang tidak dapat dielakkan – dan mereka tidak bermakna.

Pada tahun 2018, profesor ekonomi Yale dan pelajar siswazah menganggarkan korelasi antara perubahan harian dalam harga Bitcoin dan beratus-ratus pemboleh ubah kewangan lain. Mereka mendapati bahawa harga Bitcoin berkorelasi positif dengan pulangan saham dalam barangan pengguna dan industri penjagaan kesihatan, dan bahawa mereka berurusan secara negatif dengan pulangan saham dalam produk fabrikasi dan industri perlombongan logam. "Kami tidak memberi penjelasan," kata profesor itu, "kami hanya mendokumentasikan perilaku ini." Dengan kata lain, mereka mungkin juga melihat korelasi harga Bitcoin dengan beratus-ratus senarai nombor telefon dan melaporkan hubungan tertinggi.

Pengarah Makmal Makanan dan Jenama Cornell University telah menulis (atau mengarang semula) lebih daripada 200 karya yang disemak oleh rakan-rakan dan menulis dua buku populer, yang diterjemahkan ke lebih daripada 25 bahasa.

Dalam catatan blog 2016 yang bertajuk "The Grad Student Who Never Said No," dia menulis tentang seorang pelajar PhD yang telah diberikan data yang dikumpulkan di bufet Itali yang boleh dimakan.

Surat-menyurat e-mel muncul di mana profesor menasihati pelajar siswazah untuk memisahkan pengunjung ke "lelaki, perempuan, penonton makan tengah hari, penonton makan malam, orang duduk bersendirian, orang makan dengan kumpulan 2, orang makan dalam kumpulan 2+, orang yang memerintahkan alkohol , orang yang memesan minuman ringan, orang yang duduk dekat dengan bufet, orang yang duduk jauh, dan sebagainya … "Kemudian dia dapat melihat cara yang berbeza di mana subkumpulan ini mungkin berbeza:" # keping pizza, # perjalanan, mengisi tahap daripada plat, adakah mereka mendapat pencuci mulut, adakah mereka memesan minuman, dan sebagainya … "

Dia menyimpulkan bahawa dia harus "bekerja keras, memerah darah keluar dari batu ini." Dengan tidak pernah mengatakan tidak, pelajar itu mendapat empat kertas (kini dikenali sebagai "kertas pizza") yang diterbitkan dengan profesor Cornell sebagai pengarang. Kertas yang paling terkenal melaporkan bahawa lelaki memakan 93 peratus lagi pizza apabila mereka makan dengan wanita. Ia tidak berakhir dengan baik. Pada September 2018, jawatankuasa fakulti Cornell menyimpulkan bahawa dia telah "melakukan salah laku akademik dalam penyelidikannya." Beliau meletak jawatan, berkuatkuasa pada bulan Jun berikutnya.

Penyelidikan yang baik bermula dengan idea yang jelas tentang apa yang dicari dan dijangka dicari. Perlombongan data hanya mencari corak dan tidak dapat dielakkan.

Masalahnya telah menjadi endemik pada masa kini kerana komputer berkuasa sangat baik di Data Besar yang merampas. Penambang data telah menemui korelasi antara kata-kata Twitter atau pertanyaan carian Google dan aktiviti jenayah, serangan jantung, harga saham, hasil pilihan raya, harga Bitcoin, dan perlawanan bola sepak. Anda mungkin berfikir saya membuat contoh-contoh ini. Bukan saya.

Terdapat korelasi yang lebih kuat dengan angka rawak semata-mata. Ia adalah Big Data Hubris untuk berfikir bahawa korelasi yang ditambang data mesti bermakna. Mencari corak luar biasa dalam Data Big tidak lagi meyakinkan (atau berguna) daripada mencari plat lesen yang luar biasa di luar kelas Feynman.

Pendapat WIRED menerbitkan potongan yang ditulis oleh penyumbang luar dan mewakili pelbagai pandangan. Baca lebih banyak pendapat di sini. Hantar op-ed di opinion@wired.com


Lebih Banyak KERETAIAN WIRED