網路城邦
上一篇 回創作列表 下一篇   字體:
我開始玩辨識票據了!
2024/05/26 05:15:59瀏覽719|回應0|推薦8

最近剛剛洽談好一項大工程,要與另兩家公司一起合作開發具有影像辨識功能的會計軟體,我當然就是負責影像辨識核心開發的部分!事實上之前主導此專案的公司已經有類似功能的軟體,但是辨識率不夠高,經過評估我有把握大幅提升他們舊有的辨識率,就開始給我一些資料開工了!

因為需要辨識的票據有數十種之多,我們平常接案辨識的標的大概只會有三五種格式,所以我保守的估計是大約要一年時間才能完成。而且資料多數牽涉到個資,我大概無法任性的隨時跟讀者分享進度與研發成果,上例的高鐵票是其中最簡單的一種,裡面也不牽涉到個資,就拿出來跟大家報告一下我的新工作!

好消息是這些票據中只需要辨識少數幾個關鍵資訊,譬如高鐵票只要辨識日期與金額,麻煩一點的發票也只需要辨識包括統編等幾個英數字格式的字串,中文資訊是不必辨識的!手寫部分則由另一家合作公司尋求其他資源辨識,據說有很多機器學習模式開發的軟體辨識率也不錯,我做的辨識率也不會更好,就不勉強親自操刀了!那種真的很不穩定的資料確實應該使用機器學習,但不是表示他們可以做到很精準,頂多就是七八成正確而已!

這種票據辨識其實就是典型的OCR(光學字元辨識)的工作!也是我們公司最擅長的技術,在自然環境影像中辨識車牌就是最困難的OCR了,我們都可以做得很好,當然有能力把一般現有的文件類辨識率大幅提升!國內目前碰到這類問題,你找其他所謂的影像辨識廠商他們也只能尋求國外既有的「通用OCR軟體為核心,包裝一下給客戶使用!

那些外來的OCR軟體當然不是為他們的客戶需要客製化最佳化設計的!所以碰到影像品質稍差時辨識率就欠佳了!我們則是真的落實客製化,一一根據各種票據的格式、特性與列印品質做最佳化的辨識處理,目前國內還確實沒聽說除了我們之外有別家公司可以在如此基礎的層次自行開發辨識核心的!合作夥伴也是做了好多功課才終於找到我的!

有趣的是:找到我的那家公司老闆居然曾經跟也是開軟體公司很成功的我哥哥合作過!那大約是三十幾年前的事了!他自己當時都還沒創業,是學術界(台大某系)研究團隊的成員之一!他很誇張的說:當時我哥哥對他們的軟體研發團隊來說就像是神一樣的存在?實在太厲害了!幾乎無所不能!居然可以在沒有滑鼠功能的舊作業系統上自己寫出滑鼠的功能?讓他們都嚇呆了!後來他自己也創業做軟體研發生意數十年,對我哥的崇拜有增無減!

他剛找到我時也不知道我們是親兄弟,只是覺得名字好像(張慧中/張逸中),跟我聊天之後更覺得兩人說話語氣有點神似?一問之下果然是他心目中那位大神的親弟弟!讓他信心度更高了!我們是同一品牌出產的嘛!可惜我哥56歲(約九年前)就英年早逝了,他的軟體事業也驟然中斷!他過世時剛好是我創業之初,希望我的表現可以讓他在天之靈得到安慰,少一點未竟之志的遺憾!當然我必須努力活久一點才行!這是起碼的要求。

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=180653148