如何應對數據科學的「負擔症候群」

摘要:為什麼「負擔症候群」在數據科學中如此流行,我個人是如何處理這個問題的?應該如何鼓勵那些正在受影響的人?本文對此進行了詳細的闡述。

「負擔症候群」為何在數據科學中如此盛行?其原因如下:

(1)數據科學是一個全新的領域。

2011年,DJ Patil和JeffHammerbacher首次被冠名為「數據科學家」。從那時起,我們一直都想弄明白數據科學到底是什麼?「數據科學」的不同定義導致了我們對數據科學家應該是什麼感到困惑。在此之前,由於「數據科學」也未曾在大學里教過,絕大多數的數據科學家並沒有「數據科學」文憑,他們中的大部分也都是來自其他領域。

(2)數據科學是一些領域的綜合。

數據科學家可以是分析員/統計師/工程師/機器學習專家/可視化專家/資料庫專家/業務專家的組合。他們每個人都在自己的領域具有很資深的地位,從上述任一領域來到數據科學領域的人跟其他人會有明顯的差距,這也是完全合理的。

Advertisements

(3)採用新技術,數據科學的範圍正在不斷的擴大。

隨著計算機內存變得越來越便宜,開源代碼也越來越流行,越來越多的人對學習數據科學及其相關領域感興趣,和數據科學相關得技術也在健康的發展。這對於社區和效率來說都是好事,也為數據科學家們提供了大量的新技術來學習。

具有不同背景的人來到一個新的有許多實際應用的領域時,這個新領域的界限也並沒有很明確的定義(從而不可避免的導致他們對整個領域的知識存在空白),其技術的發展速度使人們很難跟上。這是數據科學家在2018年所面臨的困境,也是為什麼有這麼多人會受到「負擔症候群」的影響。

應對「負擔症候群」的秘訣

我了解的每位數據科學家都在不斷的學習,它可能是個很小的東西(一個工具或是快捷鍵)或者是更大的東西(一個新演算法或編程語言),但是我們都在不斷的學習,這很重要。對於我來說,每個人都在學習的這個領域讓我感到興奮的同時,同樣也產生一種恐懼感(如果我學到的知識是別人已經知道了呢?),這種恐懼感就是「負擔症候群」。

Advertisements

我處理「負擔症候群」的方法是:我知道永遠無法學習到數據科學中所有的知識——我永遠不會了解每一個演算法,每一種技術,每個包,甚至是每一種語言,這都沒有關係。在這個多元化的領域,最偉大的事情就是沒有人會知道所有的這些事情。

同樣,我也會知道別人所不了解的知識。我已經為幾十所大學和非盈利組織構建了預測模型,具有成功創建和分析A/B測試所需要的經驗,並且正在學習如何在實際生產中使用機器學習模型。這些並不是每個人都有的技能,有些人比我更了解計算機科學或機器學習,又或者是Macbook快捷鍵。沒關係,多樣性是件好事,我也可以從這些人那學習他們的技能。強大的Venn圖可以闡述你與其他人的關係,以及如何重疊的。你所了解的知識很少是其他人了解的子集,而是重疊關係,這也會使你與別人不同。

社區內降低「負擔症候群」

如果我們一致認為數據科學家都在工作中不斷的學習,那麼我認為,為了在更大的數據科學社區降低「負擔症候群」影響,我們能做的就是公開認可它並致力於建立一個健康的學習環境。

·適應「I don』t know」。

當人們說「我不知道」的時候,需要很大的勇氣承認,我很尊敬這樣做的人。讓人們更加適應「我不知道」,一種方法就是建立良好的社會規則(當有人不知道時,不要假裝驚訝,而是將他當做倖存者之一)。

·不要「假裝成功」

有信心當然是好事,但是「imposter」實際上就是欺騙,而且我認為,想要成為更好的數據科學家,我們可以做的比「偽裝」更好。「偽裝」很有壓力,如果你陷入一個謊言,可能會造成長期的傷害和失去其他人對你的信任。

·鼓勵提問

勇於提出問題有兩個好處:一是通過圍繞問題的對話獲取知識;二是公開提問可以鼓勵他人提問。提出問題正是數據科學家應該做的事情,我們應該鼓勵。

·分享你所學到的知識

當我看到其他人在分享他們正在學習的知識時,這也有助於從自己的角度看待我自己的學習情況——而且我對於該話題是否了解的比較多,也激勵著我去了解這個對於他們來說是新知識的話題。

以上為譯文。

本文由阿里云云棲社區組織翻譯。

文章原標題《imposter syndrome in data science》,譯者:Mags,審校:袁虎。

Advertisements

你可能會喜歡