字體:小 中 大 | |
|
|
2022/06/03 08:39:25瀏覽3057|回應3|推薦34 | |
我過去研究大數據分析的時候,很重要的一項研究內容就是言語分析,而且我研究的方向就是模糊語言分析。通俗來講,某人講一件事,說的內容都是非量化的詞彙,那我的工作就是從中分析再通過算法得出量化的數據。 「多」與「少」就是非量化的詞彙,每個人對不同事物的多少的看待會各不相同,甚至對同一事物也會隨著條件的改變而改變,這就是一種主觀看法。而主觀看法,是沒有辦法用來定罪的。比如對販賣毒品定罪,就要精確到具體種類、重量。僅僅靠多少這種主觀詞彙,是沒有辦法定罪的。 我的工作,有一部分就是去量化這些主觀的詞彙,這就要依靠大數據分析,去判斷多和少的具體數量。 比如對於孩子因為疫情走了。有的人會認為即使一個都是太多了,這個原因有很多。或許因為現在少子化嚴重,每一個孩子都很寶貴;或許是同情心,認為誰都不應該因為疫情走了。也有的人認為即使死十几上百成千上萬個也不夠多,因為他們不在乎這些。 如果在日常生活中,遇到你非常了解的人,他說的非量化的詞彙,你肯定能得出量化的數據,量化的準確度就在於你對他的了解度。如果換成大數據分析,那就是通過電腦來代替人去分析這些數據,通過算法得到量化的數據。 假如你有一位好朋友,很富有同情心,那麼對於孩子因為疫情走了這件事,如果他對此評價是「太多」,那麼你對此量化的數據一定不會太高,可能個位數的數字就是太多了。反之如果是個冷血的人,他對此評價是「不夠多」,那麼可能量化的數據就是成百上千。相處越長,了解也多,那麼得到量化的數據也會越準確。 想像一下如果隱蔽條件,「很多」的量化數據不到10,而「不夠多」的量化數據是成百上千。如此的數字和描述讓人覺得顛倒得不可思議,這就是主觀。而有些人又恰恰喜歡以自身的主觀去看待別人,這些遠沒有用電腦分析來得公正。 過去有個笑話,一個人在大街上罵某個政黨,執政黨的官員發現後就說我要把你法辦。此人說,你怎麼知道我罵的是執政黨。官員說,是不是我還不知道嗎? 其實這就是一種由於主觀而導致的現象。有的人認為孩子走了成百上千都不算多,現在才走了10個,遠遠不到成百上千的地步,你就說已經走了「很多」,這不是造謠還能是什麼? 不僅僅是量化,還有定性,同樣是研究的課題。比如「走私」和「超買」、「施壓」和「強烈建議」、「抄襲」和「抄錄不當」、「核食」和「福食」諸如此類的詞彙如何定性,這些詞彙明明背後指向的都是同一件事情,但是不同的人使用的詞彙卻有所不同。 |
|
( 時事評論|政治 ) |