基因組數據共享將生物醫學(xué)研究推向快車(chē)道,但向公共領(lǐng)域發(fā)布的現有數據指南一方面承認免費和無(wú)條件使用數據的重要性,另一方面還未能解決這種重要性與數據生產(chǎn)者首次發(fā)布數據的“權利”之間的關(guān)系。
在美國能源部聯(lián)合基因組研究所負責人Nikos Kyrpides看來(lái),這種自相矛盾導致了數據生產(chǎn)者和數據使用者對公共數據的使用有著(zhù)不同的解釋和持續的爭論。
“根源在于缺乏數據使用的明確指導原則。”在接受《中國科學(xué)報》采訪(fǎng)時(shí),Kyrpides再次強調,公共數據應該被視為開(kāi)放資源,不受限制地被用于分析、解釋和發(fā)布。相關(guān)論文近日在線(xiàn)發(fā)表于《科學(xué)》。
時(shí)不時(shí)遇到“軟障礙”
公共基因組數據使用自由是國際生命科學(xué)研究領(lǐng)域的傳統與共識,自人類(lèi)基因組計劃實(shí)施以來(lái),大量的開(kāi)放共享基因組數據信息極大地促進(jìn)了生物醫學(xué)研究的進(jìn)步。
1990年啟動(dòng)并有我國參與的人類(lèi)基因組計劃被看成科學(xué)史上的偉大工程,3年前,該計劃負責人Eric Green、James Watson和Francis Collins在《自然》上撰文總結了人類(lèi)基因組計劃的6點(diǎn)經(jīng)驗,其中之一是數據共享化。
正是人類(lèi)基因組計劃改變了生物醫學(xué)研究的數據共享原則,促成了1996年百慕大原則,即同意將超過(guò)一定規模的基因組測序數據在產(chǎn)生后的24小時(shí)內提交到公共數據庫。
一直以來(lái),促進(jìn)數據共享仍在繼續并有新的變化。2003年勞德代爾堡協(xié)定重申和擴大了百慕大原則,認為大規模基因組序列數據的預發(fā)布對科學(xué)界有巨大的益處,同時(shí)指出數據共享限定在團體資源項目。
自該協(xié)定簽署以來(lái),實(shí)現更廣泛、更快速、更有效的數據共享成為學(xué)界反復討論的主題。
在數據共享大背景下,學(xué)術(shù)論文在發(fā)表時(shí),一般都會(huì )公開(kāi)并共享相關(guān)的基因組數據。“但是政府資助的各類(lèi)科研項目產(chǎn)出的基因組數據,數量更為廣泛,在論文發(fā)表前共享程度極低。”中國科學(xué)院—馬普學(xué)會(huì )計算生物學(xué)伙伴研究所研究員張國慶告訴《中國科學(xué)報》。
張國慶使用國際基因組數據時(shí)曾被要求填寫(xiě)申請,“但由于審核機制不透明,導致時(shí)不時(shí)地遇到‘軟障礙’”。
“數據共享政策并不是一成不變的,許多資助機構已經(jīng)對政策進(jìn)行了微調。”Kyrpides介紹,比如2014年美國國立衛生研究院制定的基因組數據共享政策,正在創(chuàng )造一個(gè)更完善的數據共享生態(tài)系統,“這是以前協(xié)定所沒(méi)有的”。
“這不是自相矛盾嗎”
事態(tài)的發(fā)展“證明勞德代爾堡協(xié)定已過(guò)時(shí),需要對其修訂以反映科技現狀”,Kyrpides認為,協(xié)定通常局限于良好的團隊資源項目,但不包括所有測序項目。
在接受《中國科學(xué)報》采訪(fǎng)時(shí),Kyrpides還指出勞德代爾堡協(xié)定的矛盾之處。根據協(xié)定,向公共領(lǐng)域發(fā)布的數據是任何人都應該且能夠不受任何限制地使用的,并且規定這些數據要在出版之前發(fā)布,以便讓整個(gè)團體從中受益。
這些年,基因測序產(chǎn)生了無(wú)數的數據集,其中許多數據集在沒(méi)有出版的情況下公開(kāi)發(fā)布。但協(xié)定同時(shí)又提到,“想要使用未公布的公共數據的人應首先得到數據生產(chǎn)者的許可”,Kyrpides表示,“這不是自相矛盾嗎”。
研究人員也提到了贊成限制公共基因組數據使用的人通常有兩個(gè)理由,一是未驗證的預發(fā)布數據可能包含錯誤,二是生成新的數據往往需要耗費很長(cháng)時(shí)間。
在張國慶看來(lái),數據使用受限主要原因是數據的相關(guān)權益不清晰,難以保證樣品提供、數據產(chǎn)出、數據管理、數據分析等各方的利益。
此外,基因組數據相關(guān)的個(gè)人信息的安全管理要求不清晰也是一方面原因,比如敏感數據。
“我們承認,對于現有的敏感人類(lèi)基因數據,一些限制可能是適當的。”Kyrpides也表示。
不過(guò),研究人員發(fā)現對分享敏感數據的抵制正逐漸得到緩解。縱觀(guān)整個(gè)生物醫學(xué)文獻,2015年至2017年,約有1/5已發(fā)表的文章共享原始數據,較前幾年大幅度增加。
確定使用原則
“不受限制地使用公共數據應該與學(xué)術(shù)界的獎勵制度保持一致。”Kyrpides認為,資助機構需要認識到數據共享的意義,并向生成數據的科學(xué)家授予適當的榮譽(yù)。
同樣重要的是,“要確定有效的方法,為描述數據生成后,協(xié)議以及特定數據集的生成提供支持”。Kyrpides告訴記者,更要重新審視資助機構和期刊出版商的數據發(fā)布策略。
研究人員認為,期刊出版商需要重新考慮出版政策,即在手稿提交出版時(shí)數據的可用性。Kyrpides等人建議,序列數據及其相關(guān)的元數據需要在手稿提交同行評審時(shí)與詳細協(xié)議一起免費提供,而不是在發(fā)表后。
“要推進(jìn)基因組學(xué)領(lǐng)域的發(fā)展,就需要制定強有力的政策,促進(jìn)開(kāi)放和不受限制的數據共享,促進(jìn)包容性的團體驅動(dòng)的研究和培訓。”Kyrpides說(shuō)。
點(diǎn)擊下圖,預登記觀(guān)展
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com