6. Veri Mahremiyetini Koruyucu Teknikler
15 Nisan 2022, Zümrüt MÜFTÜOĞLU anlatımı ve Dr. Merve Ayyüce KIZRAK yazımıyla
Last updated
15 Nisan 2022, Zümrüt MÜFTÜOĞLU anlatımı ve Dr. Merve Ayyüce KIZRAK yazımıyla
Last updated
Zümrüt MÜFTÜOĞLU Hakkında
Bu hafta dersimizde Cumhurbaşkanlığı Dijital Dönüşüm Ofisinde görev alan ve veri mahremiyeti konusunda uzman olan Zümrüt Müftüoğlu’nu ağırladık. Bizlere mahremiyet ve güvenlik arasındaki dengeden ve mahremiyeti artırıcı teknolojilerden bahsetti.
“Veri, Bilgi Çağı’nın toplumsal sorunudur ve mahremiyeti korumak çevresel bir zorluktur.” — Bruce Schneier
Örnek olarak; Bir sosyal medya gönderisindeki beğeni sayısı, tek bir veri unsurudur. Bu, takipçiler, yorumlar ve paylaşımlar gibi diğer sosyal medya katılım istatistikleriyle birleştirildiğinde, bir şirket, hangi sosyal medya platformlarının en iyi performansı gösterdiğini ve hedef kitlelerini daha etkin bir şekilde meşgul etmek için hangi platformlara odaklanması gerektiğini tahmin edebilir.
Carnegie Mellon Üniversitesi, bilgi güvenliği bağlamında verilerin hassasiyete dayalı sınıflandırılması için bir öneri sunuyor.
Konum Verileri — bir kişinin konum geçmişi,
Graf/Ağ Verileri — bir sosyal ağ, iletişim ağı veya fiziksel ağ ile ilgili veriler,
Zaman Serileri — Veri, nüfus sayımı bilgileri gibi zaman içinde güncellenen bir öğe içerir.
Gözetim: Perakende, e-ticaret vb. dahil olmak üzere birçok kuruluş, müşterilerinin satın alma alışkanlıklarını inceler ve çeşitli teklifler ve katma değerli hizmetler bulmaya çalışır.
Açıklama: Üçüncü taraf veri analisti, hassas bilgileri nüfus sayımı verileri gibi ücretsiz olarak kullanılabilen harici veri kaynaklarıyla eşleyebilir.
Ayrımcılık: Ayrımcılık, bir kişinin bazı özel bilgileri ifşa edildiğinde meydana gelebilecek önyargı veya eşitsizliktir.
Kişisel kucaklama ve suistimal: Bir kişinin bazı özel bilgileri ifşa edildiğinde, kişisel olarak kabul veya istismara bile yol açabilir.
Devletler ve düzenleyici kurumlar konu hakkında en sorumlu kurumlar olarak lanse edilebilir. Çünkü devletler mahremiyet düzenlemeleri uygulayabilirler ve veri paydaşlarının bu düzenlemelere uymasını sağlama yetenekleri vardır. Facebook, Instagram vb. gibi sosyal medya uygulamalarının uygunsuz kullanımı ile kullanıcılar ayrıca kişisel verileri kamuya açık alana yüklemekte ve bu da mahremiyet tehditlerine yol açmaktadır. Mahremiyet tehditlerinin artması ve oluşan sonuçlar sayesinde kullanıcılar arasında farkındalık arttı. Buna bağlı olarak mahremiyetin korunması talebini artırdı. Bu sayede ülkeler mahremiyet yasalarının ve düzenlemelerinin oluşturmaya başladılar. Bunlar arasında en öne çıkanları, Avrupa Birliği’nin GDPR’si (Genel Veri Koruma Yönetmeliği) ve Hindistan’ın Kişisel Verilerin Korunması yasasıdır. Uygulamalardan bazıları mahremiyet riski ile birlikte aşağıdaki tabloda gösterilmektedir.
Güvenlik, verilerin korunmasıyla ilgilidir. Verilere yetkisiz erişime karşı koruma anlamına gelir. Bilgilere kimlerin erişebileceğini sınırlamak için güvenlik kontrolleri uyguluyoruz.
Mahremiyet, kullanıcı kimliğinin korunmasıyla ilgilidir, buna rağmen bazen tanımlaması zordur.
Yine de iki kavramın örtüştüğü alanlarla da karşılaşmaktayız.
Bir örnekle farkı netleştirmeye çalışalım. Alışveriş yaptığınız bir şirket sizin pek çok kişisel verinize erişebilmektedir. Bunun üçüncü taraflar ve sistemlere karşı güvenli şekilde saklanması veya izin verdiyseniz işlenmesi konusunda güvenli sistemlerin ve yazılımların tercih edilmesi givi tedbirler güvenlik başlığı altında incelenir. Ancak bu şirketin çalışanları kasa görevlileri vb. personellerin bu verilere erişim şartlarının belirlenmesi, mahremiyet başlığı altında incelenebilir.
Yapılan bir araştırma, Vietnam’daki 300'den fazla HIV polikliniklerinin güvenlik ve mahremiyet uygulamaları incelenmiştir. Araştırmadan çıkan sonuç; “çoğu personelin veri güvenliğini sağlamak için uygun önlemlere ve uygulamalara sahip olduğunu; ancak, özellikle veri erişimi, paylaşımı ve aktarımı için hasta mahremiyetinin korunması konusunda hala iyileştirmelere ihtiyaç vardır.”*
Massachusetts Health Records(1990s)
AOL Search Logs(2006)
Netflix Prize(2007)
Facebook Ads(2010)
New York City Taxi Trips(2014)
Diferansiyel mahremiyet, veri seti içindeki bireylere ait bilgileri saklarken veri kümesinin kapsadığı grup/gruplar hakkında genel örüntüleri paylaşmak için tasarlanan sistemdir. Diferansiyel mahremiyet bir algoritma değildir. Daha etkin bir veri mahremiyeti sağlayan bir sistem ya da frameworktür. Diferansiyel mahremiyet yaklaşımını basitçe şöyle anlatabiliriz. Bir grup bireyin cebinde +100/-100 aralığında rastgele gürültü var. Biz kimin cebinde ne var bilmek istemiyoruz. Bize bu grubun ceplerindeki toplayınca elimizde ne kaldığını bilmek istiyoruz. Örneğin gruptaki kişilerden birinin cebinde 55$ var ve bunun yanında -15 gürültüsü var. Bu demek oluyor ki (55+(-15))=40$ sonucunu elde ederiz ve kişinin mahremiyetini korumuş oluruz. Aynı paraya fakat farklı rastgele gürültüye sahip kişilerinde birbirileri arasında düzenli bir ilişki oluşmamış olur. Bu gürültü sistemin girişinde veya çıkışında eklenebilir. Aslında buradaki sihirli iksir; olasılık ve istatistikteki büyük sayılar yasasıdır. Yasaya göre örneklem boyutu büyüdükçe ortalamasının tüm popülasyonun ortalamasına yaklaştığıdır. Yani diğer bir deyişle veri setinde yeterince fazla birey varsaistatistiksel olarak toplanan bu verilerin ortalaması alındığında gürültünün ortadan kalktığı ve elde edilen ortalamanın gerçek ortalamaya yakın olduğu görülmektedir. Sonuçta gürültü eklemeden önceki verilerin toplamıda bir rastgele sayıdır. Böylece bireyin cebinde olan ortalama miktar hakkında bilgimiz vardır. Ancak aynı zamanda bireylerin tek tek cebindeki miktarı bilmeyiz. Yani mahremiyeti korumuş oluruz. Aynı şeyi cebindeki para miktarı değil şekilde gösterildiği gibi kanser ve sağlıklı hastalar için de düşünebiliriz. Konuyla ilgili daha derine dalmak isteyenler şeklin referansını kontrol etsin.
Kaynak: Öğrencilerin derste sorduğu sorualara istinaden bıraktığım kaynaklardan biri de Nicolas Papernot ve Ian Goodfellow tarafından yayınlanan blog yazısı: “Mahremiyetve makine öğrenmesi: beklenmedik iki müttefik mi?”
Yapay zekâ için girdi mahremiyetini sağlana bir başka yöntemdir. Homomorfik şifreleme, şifrelenmiş veriler üzerinde hesaplamaya izin veren bir şifreleme türüdür. Homomorfik şifreleme veri sahiplerini korumak için değil, model sahiplerini ve kullanıcıların verileriyle ilgili olarak yaptıkları değerli fikri mülkiyerleri konusunda mahremiyet endişeleri barındırmaktadır. Bu yüzden güvenilir olmayan bir ortamda model kullanılacaksa parametrelerini şifreli tutmak için tercih edilir.
Avantajlar:
Şifrelenmiş veriler üzerinde çıkarım yapabilir, böylece model sahibi asla müşterinin özel verilerini görmez ve bu nedenle bunları sızdıramaz veya kötüye kullanamaz.
Hesaplamayı gerçekleştirmek için veri ve model sahipleri arasında etkileşim gerektirmez.
Dezavantajları:
Yüksek hesaplama gücüne ihtiyaç duyar.
Belirli hesaplama türleriyle sınırlıdır.
Kaynak: Daha derine inmek istiyorsanız, Andrew Trask’ın mahremiyeti koruyan güvenlik hakkındaki makalesine bir gözatın.
Yapay zekâ için ihtiyaç duyulan büyük veri miktarının paylaşılması ve işlenmesi çoğunlukla mahremiyet ve güvenlik riskleri oluştturur. Bu zorlukların üstesinden gelmek için diğer bir yöntem ise Federe Öğrenmedir.
Federe Öğrenme, verileri koda götürmek yerine veriye kodu getirme yaklaşımıdır. Böylece veri mahremiyeti, sahipliği ve yerelliği gibi sorunları ele alır.
Model güncellemelerini sıkıştırmak için belirli teknikler kullanılır.
Basit gradyan adımları yerine kalite güncellemeleri yapar.
Bir bireyin öğrenilen model üzerindeki etkisini gizlemek için toplama gerçekleştirmeden önce sunucu tarafından gürültü eklenir.
Eğer gradyan güncellemeleri çok büyükse kırpılır.
Federe öğrenme, merkezi olmayan hesaplamadan farkları:
Akıllı telefonlar gibi istemci cihazlar sınırlı ağ bant genişliğine sahiptir.
Büyük miktarda veri aktarma yetenekleri zayıftır. Genellikle yükleme hızı indirme hızından daha düşüktür.
Bir eğitim ortamına katılmak için istemci cihazlar her zaman uygun olmayabilir. İnternet bağlantısı kalitesi, şarj durumu vb. koşulların uygun olması gerekir.
Cihazda bulunan veriler hızla güncellenir ve her zaman aynı değildir.
İstemci cihazlar için eğitime katılmamak da bir seçenektir.
Mevcut istemci cihazlarının sayısı çok fazla ancak tutarsızdır.
Federe öğrenme, büyük bir popülasyon genelinde dağıtılmış eğitim ve toplama ile mahremiyetin korunmasını sağlar.
Veriler kullanıcıya özel olduğundan veoto-korela olduğundan genellikle dengesizdir.
Dersimize konuk olan Zümrüt Müftüoğlu kapanışta, mahremiyet ve veri paylaşımı arasında bir ödünleşim olduğuna vurgu yaptı. Gelecek hafta dersimizde Nesnelerin İnterneti uygulamalarında hukuki vakaları ve yaklaşımları tartışacağız.