Ny Google Chrome-förlängning låter dig kopiera och ta bort text i bilder

Anonim

Ny Google Chrome-förlängning låter dig kopiera och ta bort text i bilder

datorer

Stu Robarts

25 april 2014

En ny Chrome-tillägg kallad Project Naptha tillåter användare att kopiera och radera text från bilder

Det är allmänt accepterat att den text som är inbäddad i bilder på webben är otillgänglig. Eftersom bilder görs som ett enda lager, är det precis som det är ... eller var, eftersom en ny tillägg till Google Chrome kallad Project Naptha nu tillåter användare att markera och kopiera text från bilder.

Det första att säga är att denna funktionalitet existerar någon annanstans. Vissa mjukvaror, till exempel Microsoft OneNote, Google Drive och Google Street View, använder optisk teckenigenkänning (OCR) för att identifiera text inom bilder.

Projekt Naptha använder å andra sidan en metod kallad Stroke Width Transform (SWT) som utvecklades av Microsoft Research. Otillfredsställd med OCR-algoritmerna med öppen källkod som fanns tillgängliga, använde utvecklaren Kevin Kwok tid att försöka hitta en lösning. Han berättar Gizmag att han tillbringade veckor på att titta på bokstäver som "kryptogrampussel " och känna igen text med en avancerad språkmodell, liksom fler veckor "försöker bygga en typ av brute force text recognizer. "

I slutändan bestämmer han sig för att använda SWT. Detta tillvägagångssätt använder bredden på de linjer som utgör bokstäver som ett sätt att identifiera element som kan vara text istället för att försöka hitta förutbestämda separata funktioner som en markör för text. Detta ger vissa fördelar framför OCR.

"[Stroke Width Transform] kan identifiera områden av text på ett språk-agnostiskt sätt", förklarar Kwok. "På ett visst sätt är det som en människa kan göra, vi kan känna igen att ett tecken bär skrivet språk utan att veta vilket språk det är skrivet i, bry dig inte om vad det betyder. "

SWT kan också upptäcka vinklad text och text i foton och var faktiskt utformad för den senare. Det betyder att det inte är begränsat till att skapa text i skanningar av tryckta bokstäver eller skärmdumpar från webben, där förekomsterna tenderar att bli mer bekanta med det som produceras av datorer och därmed lättare att välja ut.

Kwok förklarar till Gizmag att Project Naptha var något han ursprungligen arbetade som en del av en hackathon på MIT (där han vann 2: a plats). "Val av text i bilder var något som var ganska genomförbart på en teknisk nivå, det vill säga den teknik som den behöver för att fungera finns, och har gjort det ganska länge", förklarar han. "Men för något slags oförklarlig anledning hade det inte blivit gjort förut. Allt annat, transkriptionen, översättningen, textraderingen och modifieringen kom bara som en uppenbar och trivial tillägg, när den första, typen av värdelös, del av idén uppnåddes. "

Kwok ger ett antal exempel källor som Project Naptha kan användas, inklusive skanningar, foton innehållande text, diagram med etiketter, skärmdumpar och bilder med textöverlagringar. Han demonstrerar också möjligheten för textöverlagringar att raderas från bilder och den återfyllda bilden, liksom för markerad text inom bilder som ska översättas. För att skapa en sömlös upplevelse för användaren spårar Naptha markörens rörelse och kontinuerligt extrapolerar en sekund framåt baserat på dess position och hastighet, så det kan börja bearbeta eventuell text som användaren kanske vill välja ut från en bild.

Kwok erkänner att mycket av funktionaliteten i Project Naptha behöver förbättras och föreslår att textigenkänning, översättning och borttagning med tiden kan utvecklas ytterligare (han säger faktiskt i en tweet att orsaken som han har lanserat nu är att använda av någon kredit som han har med Google som berodde på att hamna). Ändå är den grundläggande funktionaliteten mycket användbar och potentialen för den mer avancerade tekniken är spännande.

"Jag tror att det verkliga värdet som Naptha tillhandahåller är den erfarenhet som, så långt jag är medveten, är enastående, " muses Kwok. "När det gäller dess olika underkomponenter och algoritmer är det förmodligen ganska många år bakom den senaste tekniken, och en av de spännande sakerna skulle vara möjligheten för ett team att överbrygga det gapet mellan forskning och konsumentanvändning. "

Om du undrar, är namnet Naptha härlett från användningen av ett ämne som heter naptha i lättare bränslen och processen med högbelysningstext .

Du kan läsa mer om Project Naptha och prova en demo på Project Naptha hemsida.

Chrome förlängning: Projekt Naptha

En ny Chrome-tillägg kallad Project Naptha tillåter användare att kopiera och radera text från bilder