基因檢測(cè)日益普及,通過少量的血液或唾液樣本,人們?cè)噲D了解自己的祖先是誰,身體是否有健康隱患等。
但美國(guó)科學(xué)院院士、“科學(xué)怪才”克雷格?文特爾(Craig Venter)本周發(fā)表在《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)的論文給基因檢測(cè)行業(yè)的隱私安全扔下一顆“炸 彈”:從DNA序列中,通過機(jī)器學(xué)習(xí)的算法,人們可以反推知道,這份DNA序列的擁有者是什么膚色,有著什么顏色的瞳孔,甚至聲音如何。
而過去,像美國(guó)基因檢測(cè)公司23andMe和藥企合作,根據(jù)海量消費(fèi)者的基因數(shù)據(jù)進(jìn)行疾病基礎(chǔ)研究時(shí),做出保證,消費(fèi)者的基因信息都是匿名化的,不會(huì)泄露隱私。在文特爾看來,這些承諾都是“虛假的”,他呼吁更全面的措施來監(jiān)管基因檢測(cè)中的個(gè)人隱私問題。
盡管,他作為聯(lián)合創(chuàng)始人的“人類長(zhǎng)壽公司(Human Longevity Inc)”也涉及基因測(cè)序業(yè)務(wù),收集了大量基因組數(shù)據(jù)。此次論文的第一完成機(jī)構(gòu)也是“人類長(zhǎng)壽公司”。
在社交媒體推特(Twitter)上,文特爾團(tuán)隊(duì)的文章引起波瀾。當(dāng)?shù)貢r(shí)間9月6日,另一家美國(guó)DNA檢測(cè)公司MyHeritage的首席科學(xué)家、哥倫比亞大學(xué)計(jì)算機(jī)學(xué)助理教授Yaniv Erlich將質(zhì)疑文發(fā)至無需同行評(píng)議的預(yù)印本網(wǎng)站bioRxiv,指出文特爾團(tuán)隊(duì)論文的“主要錯(cuò)誤”,認(rèn)為其實(shí)際上并沒有利用全基因組信息中的標(biāo)記物來識(shí)別身份。
隨后,文特爾團(tuán)隊(duì)中完成該論文的第一作者Christoph Lippert在推特上回復(fù):“(這是)數(shù)字時(shí)代的同行評(píng)議。我們正在準(zhǔn)備相應(yīng)的答復(fù)。”
算法來預(yù)測(cè)DNA背后的人像
文特爾團(tuán)隊(duì)在發(fā)表于當(dāng)?shù)貢r(shí)間9月5日的論文中表示,他們實(shí)現(xiàn)“身份反推”所依靠的是基于機(jī)器學(xué)習(xí)的算法。他們搜集了1061個(gè)樣本進(jìn)行訓(xùn)練,建立起基因信息和面部特征、聲音等的關(guān)系,并搭建了模型來預(yù)測(cè)DNA背后的三維面部結(jié)構(gòu)、年齡、身高、體重、膚色、瞳孔顏色和聲音。
三幅人臉對(duì)比中,左側(cè)為真實(shí)人臉,右側(cè)為算法預(yù)測(cè)的人臉。
為了測(cè)試這套算法,研究人員選取了10位來自不同種族志愿者的圖像和基因信息,并打亂,然后讓計(jì)算機(jī)進(jìn)行配對(duì)。結(jié)果顯示,計(jì)算機(jī)的配對(duì)正確率是80%。但如果測(cè)試對(duì)象是來自同一個(gè)種族,比如歐洲裔或非洲裔,配對(duì)的正確率會(huì)有所下降,為50%。
文特爾團(tuán)隊(duì)表示,就目前而言,這一算法對(duì)膚色、瞳孔顏色等簡(jiǎn)單特征已有較高的預(yù)測(cè)準(zhǔn)確率,但在聲音等復(fù)雜特征上還有些困難,也無法準(zhǔn)確預(yù)測(cè)DNA擁有者是不是禿頭,有沒有雀斑等。
但研究人員表示,目前算法還僅基于千余個(gè)樣本的訓(xùn)練,隨著樣本的增加,準(zhǔn)確率會(huì)得到改善。
通過DNA數(shù)據(jù)來預(yù)測(cè)擁有者的面部特征是文特爾近兩年的主要工作之一。文特爾被冠以“科學(xué)怪才”的稱呼,他曾成立公司與“人類基因組計(jì)劃(HGP)”的六國(guó)科學(xué)家公開競(jìng)爭(zhēng),并因開發(fā)新的測(cè)序技術(shù)成功追趕,后和六國(guó)科學(xué)家合作,完成該項(xiàng)目。此外,他還先后完成全球第一個(gè)人工合成生命體和最簡(jiǎn)單的人工合成生命體。
質(zhì)疑:只是根據(jù)人口統(tǒng)計(jì)學(xué)上的平均值來進(jìn)行了預(yù)測(cè)
但“怪才”的名號(hào)沒有為文特爾避免此次的學(xué)術(shù)爭(zhēng)議。
美國(guó)DNA檢測(cè)公司MyHeritage的首席科學(xué)家、哥倫比亞大學(xué)計(jì)算機(jī)學(xué)助理教授Yaniv Erlich毫不客氣地將質(zhì)疑文發(fā)表在預(yù)印本網(wǎng)站bioRxiv,認(rèn)為文特爾團(tuán)隊(duì)論文存在幾大“錯(cuò)誤”。
其中,Erlich指出的一點(diǎn)是,他通過仔細(xì)查看論文圖表后發(fā)現(xiàn),文特爾團(tuán)隊(duì)從基因數(shù)據(jù)中并不是挖掘出了與面部特征有關(guān)的標(biāo)記點(diǎn),而只是從中知道了DNA所有者的祖源和性別信息。“原作者并不知道某位特定個(gè)體的身高或者面部結(jié)構(gòu),他們只是根據(jù)人口統(tǒng)計(jì)學(xué)上的平均值來進(jìn)行了預(yù)測(cè)。”Erlich說。
在推特上,Erlich還翻出了自己一年前的推特。當(dāng)時(shí),文特爾根據(jù)自己的DNA“預(yù)測(cè)”出了一張側(cè)臉三維圖像,并在推特上發(fā)表了虛實(shí)對(duì)比圖。但這遭到Erlich的“吐槽”,他隨即找出了美國(guó)影星布萊德利?庫(kù)珀(Bradley Cooper)的側(cè)面照,表示:“很多白人男性在相同的拍攝角度下,看起來都很像預(yù)測(cè)出的這張臉。”
左側(cè)為克雷格?文特爾(Craig Venter)的真人照,中間為預(yù)測(cè)圖,右側(cè)為布萊德利?庫(kù)珀(Bradley Cooper)真人照。
“如果文特爾的方法真的那么棒,為什么他們不在獲得允許的情況下,從公開的基因數(shù)據(jù)庫(kù)中直接挑一個(gè)基因樣本,看看能不能識(shí)別背后的身份?”Erlich在質(zhì)疑文的末尾寫道。
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com