大海撈針的技術

假設你是一個農業專家,花了很多的時間培育出一種特別的果樹,這個果樹的特別之處乃是在於它比較不怕某一種植物的傳染病。這個品種當然是非常有價值的,在政府單位有登記。問題是,假如別的樹苗農場販賣這個品種的樹苗,會不會有問題?也就是說,買家當然希望可以確定他所買的樹苗的確是這個品種。

photo credit:John Goode via flickr CC BY 2.0

 

我們要知道,這不是一個容易的事。雖然這是一個新的品種,但是它和其他樹苗品種的外觀是差不多的,它的DNA和別的品種的DNA是非常相像的,因此我們要用一個方法來找出這個品種在DNA上的特徵。

先說DNA,DNA究竟是什麼,我沒有辦法在這裡講清楚,這是相當複雜而有趣的東西。簡單來說,它是存在細胞裡頭的一個很長的東西。這個東西是一連串的化合物,大自然在幾億年前就合成了四種化合物給DNA使用。我們通常將這四種化合物用a,c,g,t來代表。以下就是一段生物的DNA。

accgttccgtaccgtagttcttaatacctaataagttctgtatagtcgatctggtacggtaggtccatg

現在我們看另外一段DNA:

accgtgttccgtaccgtaatacctaataatacctaataagttctgtatagtcgatctggtacgg

這兩段DNA看上去是有點相像,可是中間有一個特別的地方,那就是在上面一段DNA有以下的字串:
P字串:gtaccgtagttcttaatacctaa

第二段DNA有以下的字串:
Q字串:gtaccgtacctaa

兩者有什麼關係呢?它們有一個有趣的關係,我們將這些字串分成三種字串:
A字串: gtaccgt
B字串: agttcttaat
C字串: acctaa

因此第一個P字串gtaccgtagttcttaatacctaa是ABC,而後一個Q字串gtaccgtacctaa是AC。這你們要仔細看一下就會同意我的說法。

也就是說,第一個物種和第二個物種有99%是相似的,可是仍然會有特別不同的地方。我們所講的DNA,大概是有5.23億個字,假設我們有XDNA和YDNA,長度都是5.23億個字,我們的任務是要在XDNA和YDNA中找出A和C,而A和C的長度都一定要是18~22個字。也要找到一個B字串,它的長度是大於50個字。ABC存在於XDNA,AC存在於YDNA。我們可以說這種特色就是我們物種的特色,別的物種不會有完全一樣的特色。

現在我再舉一個例子:
XDNA:  accgtttgaggtcgat cgtattgaccgtggttcgtaaa actgactgacttagcatcaaatg atcatgactgcgtactaaggttcaatccatg acggtgccatgccatgggtccc gttaaacgtacgacg

YDNA:
Cggtagtaaacgttagtcgtacat cgtattgaccgtggttcgtaaa acggtgccatgccatgggtccc
tggtaacggttacgatgcgtaactgcgcgtcgtaaccgtatgccgtagttacggtaaatcctatgcgta

以上的DNA中有空格,這是因為我們要方便搞清楚所謂的ABC字串。其中的ABC字串如下:

A  cgtattgaccgtggttcgtaaa
B  actgactgacttagcatcaaatgatcatgactgcgtactaaggttcaatccatg
C  acggtgccatgccatgggtccc

我們可以看出來,在XDNA中有ABC,YDNA中有AC。

假設我們要知道所買的苗種是否真的,我們可以查它的DNA。它的DNA可以叫做XDNA,和別的苗種相比,XDNA一定有以上的特色。如果沒有,就不是我們所要的苗種。

這個問題主要是要靠電腦的演算法來解決,因為XDNA和YDNA的長度都是5.5億左右,雖然工作人員還有一些資訊,這個工作仍然幾乎是大海撈針,如果沒有好的演算法,那是絕對沒有辦法解決這個問題的。值得慶幸的是,台灣有相當多的教授是演算法的專家,所以我們有不少的軟體工程師不是只會寫簡單程式的,而是可以設計程式,解決相當困難的問題。我們最近已經成功地發展了這個程式,而且實驗證明這個程式的確解決了這個問題。

當然,這個程式也可以保護智慧財產權,如果有人侵權的話,可以用這種方法來判斷。

我也希望我們的資訊系同學都應該多學演算法,因為很多非常值錢的程式都使用了相當巧妙的演算法。

 

 

(本文經李家同教授同意授權轉載「大海撈針的技術」)

 

如需轉載、引用本篇文章,請先與我們連絡呦!
每一個都是支持「工業技術研究院」持續創作的能量!感謝您!!
※文章內容為作者個人觀點,不代表本站立場

關閉

兩階段藥物釋放技術

兩階段控制釋放之口服傳輸技術開發之劑型,乃指在產品中含有2個以上不同的控制釋放速率機制,治療慢性病時,需要保持血中藥物濃度的穩定,維持一段時間。現有產品以多重包覆圓粒或以2種以上之不同控制釋放粉體顆粒所組成,本技術以1種2層包覆之圓粒即可達到兩階段控制釋放之功能…

閱讀更多 »

FinTech:全球發展的下一波熱潮

FinTech發展焦點,已由過去金融產業應用領域逐漸轉向非金融產業的多元樣態,結合區塊鏈、大數據分析、機器學習、生物辨識、人工智慧等關鍵技術,發展具未來潛力之應用服務。

閱讀更多 »

車聯網成標準配備 顛覆未來汽車產業

研究機構BI Intelligence預估,從2016年起全球擁有車聯網功能的汽車,將以年複合成長率35%激增,預估至2021年有超過9,400萬輛、約82%的汽車具有車聯網功能。未來車載連網裝置將成為標準配備,宣告車聯網時代的來臨,並促使汽車產業從傳統以引擎、化油器等「硬體」為主,邁入以「軟體」趨動「硬體」的時代,並以「智慧化」與「自動化」概念,翻轉汽車產業整體發展。

閱讀更多 »

ICT產業團體戰 互利雙贏攻南向

台灣最具世界競爭力的應屬ICT產業,若能透過創新智能系統,推動智慧城市等相關創新應用服務,與「新南向」當地政府發展技術合作關係,包括技術研發、種子人員培訓、場域驗證等計畫,既可深入瞭解目標國未來建設規劃及當地需求,協助其進行未來規劃,也可藉由技術合作,協助台灣業者發展適地化系統技術與服務。

閱讀更多 »
close-link