Terobosan Revolusioner Homsh: ViT+ArcFace
Akurasi pengenalan iris mencapai level teratas dunia
Dengan Tingkat Kesalahan yang Sama (EER) hanya 0,29% dan ROC AUC mendekati batas teoritis —
Kami telah mendefinisikan ulang batas pengenalan iris dengan Vision Transformer
▲ Vision Transformer mendefinisikan ulang paradigma dasar ekstraksi fitur iris
I. Kali Ini, Bukan Sekadar Kemajuan — Ini Pergeseran Paradigma
Jika Anda bertanya kepada seorang insinyur yang telah bekerja di bidang pengenalan iris selama dua dekade: "Masalah tersulit apa yang pernah Anda hadapi?"
Dia mungkin akan berhenti sejenak, lalu berkata: "Karet Lembaran."
Sejak John Daugman mengusulkan algoritma IrisCode pada tahun 1993, proses "membuka gulungan Karet Lembaran" telah menjadi seperti mantra yang terukir dalam DNA sistem pengenalan iris di seluruh dunia. Membuka gulungan iris melingkar menjadi gambar persegi panjang, lalu mengekstrak tekstur menggunakan filter Gabor... alur kerja ini telah digunakan selama tiga dekade, dan tidak ada yang mempertanyakannya.
Sampai kami memutuskan untuk membuangnya.
II. Mengapa Karet Lembaran Berhenti Bekerja?
Vision Transformer (disingkat ViT) adalah salah satu terobosan teknologi paling cemerlang di bidang deep learning selama tiga tahun terakhir. Ia memotong gambar menjadi sejumlah "patch" 16×16, menggunakan mekanisme perhatian diri dari model bahasa untuk memahami struktur global gambar, dan mengungguli jaringan saraf konvolusional (CNN) yang mendominasi selama bertahun-tahun dalam berbagai tugas visual tingkat atas.
Ketika kami pertama kali mencoba menerapkan ViT pada pengenalan iris, hasil awalnya mengecewakan: Tingkat Kesalahan yang Sama (EER) setinggi 4,65%, jauh di bawah harapan.
Tim dengan cepat mengidentifikasi akar masalahnya: Karet Lembaran "meratakan" iris anular 64 × 512 piksel menjadi persegi panjang, yang kemudian diskalakan ke input 224 × 224 yang dibutuhkan oleh ViT — peregangan vertikal 3,5x dan kompresi horizontal 2,3x. Struktur tekstur radial/sirkumferensial alami iris sangat terdistorsi, membuatnya tidak mungkin bagi mekanisme perhatian patch ViT untuk memahami semantik di dalamnya.
Dengan kata lain: kami telah memberi makan model terpintar dengan cara yang salah.
Solusinya terdengar sederhana, namun membutuhkan keberanian untuk memecah konvensi — tinggalkan Karet Lembaran dan beralih ke pemotongan melingkar ROI: dengan pusat iris sebagai titik asal, potong area persegi (2,5x radius) untuk mempertahankan simetri spasial alami iris, lalu langsung ubah ukurannya menjadi 224×224 dan masukkan ke ViT. Dengan cara ini, setiap patch 16×16 dapat memahami tekstur iris yang otentik dan tidak terdistorsi.
III. Metrik Kunci: EER = 0,29%, ROC AUC = 0,9999
Mengubah satu langkah pra-pemrosesan ini membawa perbedaan besar:
| Solusi |
EER |
Keterangan |
| Babak 1: ViT + Karet Lembaran |
4,65% |
Alur kerja tradisional |
| Babak 2: CNN + Karet Lembaran |
2,80% |
Penggantian backbone dengan peningkatan terbatas |
| Babak 3: ViT + Pemotongan ROI |
~0,12%* |
Terobosan penting |
| Versi Akhir: ViT-S/16 + ROI + Regularisasi |
0,29% |
Solusi tingkat produksi |
*Hasil Babak 3 tidak tunduk pada verifikasi statistik yang ketat dan mengandung bias optimis.
Sistem akhir yang dirilis mengadopsi ViT-S/16 (22,1 juta parameter) + kerugian margin sudut ArcFace, dilatih pada gabungan 8 dataset publik (total 4.480 identitas / 67.704 gambar). Setelah verifikasi statistik yang ketat, hasilnya adalah sebagai berikut:
● EER = 0,29% (Equal Error Rate)
● Interval Kepercayaan 95%: [0,21%, 0,40%] (200 putaran resampling Bootstrap)
● ROC AUC = 0,9999 (skor hampir sempurna)
● Rata-rata kesamaan pasangan asli: 0,8742 (konsistensi tinggi untuk individu yang sama)
● Rata-rata kesamaan pasangan penipu: 0,0450 (pemisahan fitur lengkap untuk individu yang berbeda)
● Pada FRR=1%, FAR = 0,00% (nol pengenalan palsu pada titik operasi keamanan tinggi)
▲ Kurva ROC (AUC=0,9999) dan Distribusi Skor Asli/Penipu — Dua Puncak Terpisah Sepenuhnya
IV. Data Pelatihan: Tidak Hanya Besar, Tetapi Beragam
Studi ini menggabungkan 8 dataset publik, termasuk dua skenario paling menantang di industri:
Data Kembar (CASIA-Iris-Twins)
Data iris dari 200 pasang kembar — bahkan dengan gen yang hampir identik, tekstur iris benar-benar berbeda. Ini adalah "ujian pamungkas" untuk memverifikasi kekuatan diskriminatif algoritma.
Skenario Tanpa Batasan Cahaya Tampak (UBIRIS.v2)
518 identitas dengan lebih dari 11.000 gambar, diambil di bawah pencahayaan alami dengan blur gerakan, distorsi out-of-focus, dan variasi pencahayaan — ini adalah dataset yang paling mendekati skenario penerapan dunia nyata.
Pelatihan selesai pada Apple Silicon M2 Ultra (Mac Studio) dalam waktu sekitar 12,3 jam (90 epoch pelatihan), dengan latensi inferensi puncak hanya ~35ms (termasuk pemotongan ROI dan ekstraksi fitur).
V. Perbandingan Horizontal dengan Karya Industri Teratas
| Metode |
Backbone |
Pra-pemrosesan |
EER |
| Daugman IrisCode |
Gabor |
Karet Lembaran |
~0,10% (Lingkungan Terkendali) |
| UniqueNet (2016) |
Siamese CNN |
Karet Lembaran |
0,18% |
| IrisFormer (2023) |
ViT-B/16 |
Karet Lembaran |
0,22% |
| PolyIRIS (2021) |
CNN Multi-skala |
Karet Lembaran |
(Dataset Tunggal) |
| Homsh ViT+ArcFace (Rilis Ini) |
ViT-S/16 |
Pemotongan ROI |
0,29% (8 Dataset) |
▲ Dari 4,65% menjadi 0,29% EER: Jalur Evolusi Teknologi Empat Babak Iterasi
VI. Langkah Selanjutnya
1. Evaluasi Independen Lintas Dataset
Pengujian buta pada dataset IIT Delhi yang tidak terlibat dalam pelatihan untuk memverifikasi kemampuan generalisasi dunia nyata.
2. Integrasi Deteksi Liveness
Gabungkan respons kilat multi-frame atau analisis tekstur untuk bertahan dari serangan pemutaran foto dan membangun sistem anti-spoofing yang lengkap.
3. Pengenalan Iris Jarak Menengah dan Jauh
Perkenalkan data jarak menengah (3m) untuk memperluas ke skenario dengan jarak tangkapan yang lebih besar — lautan biru berikutnya untuk implementasi komersial.
4. Peringanan dan Penyebaran Sisi Tepi
Distil model ViT-S/16 menjadi <5 juta parameter untuk beradaptasi dengan perangkat tepi yang terbatas sumber daya (NPU/FPGA).
Kesimpulan: Konvensi Tiga Puluh Tahun Layak Diperiksa Ulang
Karet Lembaran Daugman adalah solusi optimal pada masanya. Tetapi esensi teknologi adalah ini: ketika alat yang lebih baik muncul, paradigma lama harus menyingkir.
Vision Transformer telah mengubah logika dasar pengenalan gambar. Melalui empat putaran eksperimen dan empat bulan eksplorasi, kami telah menemukan cara yang benar bagi ViT untuk benar-benar membuka potensinya dalam pengenalan iris — bukan untuk membuat ViT beradaptasi dengan alur kerja lama, tetapi untuk merancang paradigma pra-pemrosesan baru yang disesuaikan untuk ViT.
EER sebesar 0,29% hanyalah sebuah angka, tetapi juga sebuah pernyataan:
Pengenalan iris telah memasuki era Transformer, dan Homsh berada di garis start.
Tentang Homsh
WuHan Homsh Technology Co., Ltd. (HOMSH), didirikan pada tahun 2011, adalah salah satu dari sedikit perusahaan teknologi tinggi di dunia yang memiliki hak kekayaan intelektual independen untuk algoritma dan chip pengenalan iris inti. Algoritma Phaselirs™ intinya dan chip cerdas Qianxin Series FPGA/ASIC untuk pengenalan iris telah banyak digunakan dalam pengumpulan keuangan, bea cukai, penerbitan sertifikat pemerintah, keamanan militer, dan bidang lainnya.