MyHeritage lägger till en enorm samling av historiska amerikanska stadskataloger

Kommentarer

Vi är glada över att kunna offentliggöra en enorm samling historiska amerikanska stadsbefolkningsregister – en satsning som har pågått i två år. Samlingen producerades exklusivt av MyHeritage från 25 000 offentliga amerikanska befolkningsregister, publicerade mellan 1860 och 1960. Den omfattar 545 miljoner aggregerade poster som har konsoliderats från 1,3 miljarder poster, av vilka många inkluderade liknande poster för samma person. Detta tillägg summerar det totala antalet historiska poster på MyHeritage till 11,9 miljarder poster.

Sök i amerikanska stadsbefolkningsregister

Den nya stadsbefolkningssamlingen på MyHeritage är en rik informationskälla för alla som vill lära sig mer om sin familj i USA i mitten av 1800-talet till mitten av 1900-talet. Registret innehåller värdefull insikt om det amerikanska vardagslivet som sträcker sig över perioden från inbördeskriget till Civil Rights Movement.

Vad är stadsbefolknignsregister?

Städer i USA har sedan 1700-talet producerat och distribuerat kataloger som en aktuell resurs för att hjälpa invånarna att hitta lokala individer och företag. Stadskataloger listar vanligtvis namn (och makar), adresser, yrken och arbetsplatser. Ibland innehåller de ytterligare information.

Exempel: Sidor från Nashville City Directory 1888 (klicka för zoom)

Tack vare sin detaljnivå kan befolkningsregister för städer ge ett livskraftigt alternativ till amerikanska folkräkningsuppgifter under icke-folkräkningsår, eftersom federala folkräkningar görs var tionde år, och i många fall publicerades stadsbefolkningsregister årligen. De kan också fylla i luckorna i situationer där folkräkningsuppgifterna förlorades eller förstördes. 1921 förstörde en brand vid det amerikanska handelsdepartementet de flesta register från folkräkningen 1890. Trots förlusten av anteckningarna i elden kan mycket av uppgifterna rekonstrueras med befolkningsregister från 1890 på MyHeritage, som består av kataloger från 344 städer i hela landet, inklusive 88 av de 100 mest befolkade städerna under det året.

Unik bearbetning av MyHeritage

Stadskatalogerna i denna samling publicerades av tusentals kommuner och städer över hela USA, och varje katalog formateras annorlunda. Den enorma mängden innehåll och dess mångfald gjorde projektet mer utmanande och krävde utveckling av specialteknik för att bearbeta stadskatalogerna.

Vi använde först Optical Character Recognition (OCR) för att konvertera de skannade bilderna från katalogerna till text. Den här processen kan resultera i fel i utdata, och vi skapade algoritmer för att upptäcka och korrigera några av dessa fel.

Sedan behövde vi analysera posterna för att identifiera de olika fälten i varje post: namn, yrken, adresser och mer. Skillnaderna i formateringen mellan olika register gav en extra utmaning. Vårt team använde metoder som Name Entity Recognition (NER) och Conditional Random Field (CRF) för att utbilda en algoritm med hjälp av en per-katalogmodell – vilket innebär att vi för var och en av de 25 000 böckerna manuellt märkte ett urval av posterna och använde det att träna algoritmen hur man analyserar den katalogen. Med denna modell kunde algoritmen para hela katalogen till ett strukturerat index med värdefull historisk information.

I exemplet nedan med en stadskatalogpost för Ralph McPherran Kiner, en amerikansk Major League-basebollspelare och -programledare, ser vi hur vårt system övervann och korrigerade ett OCR-fel. Den felaktiga adressen i posten från 1957 är 55801 Yorkshire avenue, medan 1958 och 1960-uppgifterna listar adressen som h5801 Yorkshire avenue, och ”h” innebär att Ralph är husägare. Vi drar slutsatsen att den första ”5”an i den första posten var ett OCR-fel och faktiskt borde vara ett ”h”, och därför kunde vi fastställa att Ralph bodde på samma adress under dessa år.

Exempel på en post med ett OCR-fel som har övervunnits (klicka för zoom)

Konsolidera poster och skapa ett sökbart index

När all information var analyserat, konsoliderade posterna på ett aldrig tidigare skådat sätt. Vi identifierade poster som tänkte beskriva samma person som bodde på en viss adress under flera år, som publicerades i flera utgåvor av stadskatalogerna. Sedan konsoliderade vi alla dessa poster till en aggregerad post som täcker en viss tidsperiod. Detta minskade ”sökmotorföroreningar”, där en sökning efter en person skulle ha returnerat flera, mycket liknande poster från på varandra följande år, och dölja andra poster. Aggregeringen gör det lättare att upptäcka karriärförändringar, ungefärliga äktenskapsdatum, andragångsäktenskap och troliga dödsdatum. Så vitt vi vet är den algoritmiska slutledningen för äktenskap och dödshändelser från stadskataloger unikt för MyHeritage.

I exemplet nedan konsoliderade vi 31 (!) poster från åren 1912–1959 till en enda post. Baserat på den information som samlats in under åren är det troligt att Alfred och Mary Albert gifte sig cirka 1914. Vi kunde också fastställa att Alfred dog omkring 1959.

Exempel på en konsoliderad post (klicka för zoom)

Den aggregerade posten visar också att Alfred bytte yrke flera gånger under dessa år, från att vara konduktör, bytte han till snickare och senare till till motorman.

Detta är konsolideringens kraft: det konverterar många ”tråkiga” skivor till en enda rik biografi som berättar en livshistoria!

Exempel på utmanande problem – och hur vi löste dem

Flera poster

Många publicerade stadskataloger sparade typinställning (vilket var dyrt) och papper med hjälp av en symbol för att indikera att flera poster hade samma efternamn, till exempel ditto-märken eller streck. Vissa poster fortsatte på en andra rad, medan andra bara upptog en rad. Algoritmen var tvungen att förstå skillnaden mellan efternamnstext och texten som ofta visas direkt under den.

Till exempel, i exemplet nedan, drar algoritmen framgångsrikt slutsatsen att Bartsch är ett efternamn och att ditto-märket i nästa rad också betyder Bartsch.

Extraktionsalgoritm med efternamn från ditto-märken

Algoritmen bestämmer också var en post börjar och var den slutar. Exemplet nedan sträcker sig till exempel över en rad:

Denna post sträcker sig dock över två rader:

Om algoritmen inte hade dragit denna slutsats, skulle vi ha skapat en ytterligare post för ”Waller” och missat att identifiera den som gatunamnet i posten om Wm F. Medan denna process fungerar mycket bra finns det fortfarande några kataloger där typen av registerutdrag är inte 100% hållbar.

Förkortningar

En tabell med vanliga förkortningar visas i början av varje stadsbefolkningsregister, med förkortningar för namn, yrken, bostadsstatus och adresser som används i hela katalogen. Posterna är ofta svåra att dechiffrera utan att använda förkortningstabellerna.

Förkortningstabell från Jacksonville City Directory 1931-1932 (klicka för zoom)

För att integrera förkortningstabellerna i samlingen, drog vi manuellt in tabellen från varje bok och använde den för att utvidga förkortningarna i posterna.

Vår hantering av förnamnförkortningar i denna samling är särskilt användbar, eftersom om du söker efter en ”Patrick”, hittar vi honom åt dig även i poster där han är listad som ”Patk”, så att du inte behöver tänka på alla möjliga sätt att söka efter varje namn – vi har täckt det!

I följande exempel har vi utvidgat förkortningarna för yrket sten till stenograf, clk till kontorist (clerk), arbetsplatsen Fla Natl Bank till Florida National Bank och bostadsstatus r till hyror (rent). Detta förbättrar läsbarheten och möjliggör sökning och matchning av släktträd med mycket högre noggrannhet.

Viktiga insikter från samlingen

Betecknade livshändelser

Konsoliderade stadskatalogposter gjorde det möjligt för MyHeritage att automatiskt dra in datum för äktenskap eller död baserat på ändringar i postdata.

I exemplet nedan gifte sig Henry Bennett från Oakland, Kalifornien troligen i slutet av 1923 eller i början av 1924, och Oakland City Directory från 1924 visar Nancy som hans fru. Vi skapade därför en äktenskapshändelse med Nancy tydligt markerad som implicit, daterat cirka 1924.

Exempel på en slutsats om äktenskap (klicka för zoom)

I exemplet nedan listas Matthew och Sally Lewin som makar och bor tillsammans på 305 New Scotland Ave i Albany, New York fram till 1945. I listan 1946 står Sally som änka, så vi drar slutsatsen att Matthew dog omkring 1946.

Exempel på slutsats om dödsfall (klicka för zoom)

Ändring av status för husägare

Genom hela dokumenten kan vi se om personen som bodde på någon som helst adress var hyresgäst, betecknad med en ”r” (rent) i de flesta poster, om de var en inackorderade, betecknad med ”b” (boarder), eller om de var husägare, betecknade med en ”h”.

Genom att följa en konsoliderad post genom åren kunde vi se om någon ändrade från att hyra till att äga sitt hem på samma adress.

I det här exemplet ser vi att James Thompson var hyresgäst fram till 1921. Någon gång mellan 1921 och 1923 blev han ägaren till sin bostad.

Exempel på ändring i status för husägare (klicka för zoom)

Hitta andra som bodde på samma adress

Stadskatalogsamlingen gör det möjligt för användare att se vem som har bott på samma adress. Klicka bara på ”Se vilka andra bodde på den här adressen” på postsidan för att göra en sökning efter adress.

Den här funktionen kan vara användbar för att hitta förfäder, ättlingar eller andra familjemedlemmar till den person du forskar på, som bodde på samma adress under andra perioder. Ofta bodde flera generationer av en familj på samma adress, eller så kan ett familjehem överföras från en generation till nästa.

I följande exempel bodde James och Glenna Japhet på 623 W Olmos Drive i San Antonio, Texas.

Exempel från San Antonio, Texas, 1948 (klicka för zoom)

När vi kontrollerar vilka andra som bodde på samma adress i stadskatalogsregister ser vi att bortsett från James och Glenna, finns en annan person med efternamnet Japhet också listad i katalogerna som har bott på den adressen: en kvinna som heter Laverne Japhet

Resultat som visar andra som har bott på samma adress (klicka för zoom)

Det verkar som om Laverne antingen är James andra fru eller samma person som ”Glenna L”. Detta öppnar nya vägar för mer forskning.

Kostnad

Det är gratis att söka i amerikanska stadsbefolkningsregister, men det krävs ett abonnemang för att se posterna.

Användare med ett data- eller komplett abonnemang kan se hela posten inklusive högupplösta skanningar av de ursprungliga katalogerna, bekräfta Record Matches, extrahera information från posten direkt till sina släktträd och visa Relaterade poster för personen som visas i en historisk post som de för närvarande granskar.

Sammanfattning

U.S. City Directories collection på MyHeritage är en skattkista för alla som söker mer information om sina förfäder i USA. Vi har arbetat mycket hårt för att förbereda denna samling för våra användare och tror att den är den smartaste amerikanska stadskatalogsamlingen som någonsin har gjorts. Under de närmaste månaderna planerar vi att utöka denna viktiga samling ytterligare genom att publicera tusentals ytterligare stadsbefolkningsregister. Tillägget kommer att inkludera register från fler städer och kataloger publicerade före 1860 och efter 1960.

Sök i amerikanska stadsbefolkningsregister nu

Lycka till!

Lämna en kommentar

E-post addresen är privat och visas ej