중세 유대 사본의 디지털 혁명

  • 한 국제 프로젝트에서는 수십만 개의 중세 유대 사본을 자동으로 필사하는 것을 추진하고 있으며, 그 중심에는 카이로 게니자가 있습니다.
  • 이스라엘 국립도서관과 Ktiv 플랫폼은 유럽 연구 위원회의 자금 지원을 받아 텍스트의 디지털화와 공개 출판을 주도하고 있습니다.
  • MiDRASH 이니셔티브는 인공지능과 인문학을 결합하여 중세 유대 문학 문화를 재구성하고 새로운 학술 연구를 촉진합니다.
  • 협력적인 필사 및 검토 세션을 통해 AI 모델을 개선하고 전 세계의 연구자와 대중에게 보관 자료를 공개할 수 있습니다.

중세 유대인 사본

엄청난 컬렉션 중세 유대인 사본 카이로 게니자(Cairo Genizah)로 알려진 이곳은 인공지능 덕분에 중요한 전환점을 맞이하고 있습니다. 수십 년 동안 자료의 극히 일부만 쉽게 접근할 수 있었던 것과 달리, 대량 디지털화 그리고 텍스트 인식 시스템은 이 독특한 아카이브를 연구자와 일반 대중에게 공개하기 시작했습니다.

최근까지 언어학자와 역사가들에게 꿈처럼 보였던 것은 다음과 같습니다. 검색하고, 읽고, 비교하세요 수십만 개의 중세 히브리어 단편을 어떤 컴퓨터에서든 접근할 수 있도록 한다는 아이디어가 구체적인 프로젝트로 구체화되었습니다. 이스라엘 국립도서관의 Ktiv 플랫폼과 MiDRASH 프로그램을 통해 게니자 사본의 거의 모든 단편에 대한 예비 필사본이 생성되었으며, 현재 수정, 개선 및 공개 출판을 위한 준비가 진행 중입니다.

거대한 중세 기록 보관소, 마침내 읽을 수 있게 되다

중세 유대인 사본 모음

전화 카이로 게니자 이곳은 세계에서 가장 크고 다양한 중세 유대인 문서 컬렉션으로 손꼽힙니다. 거의 천 년 동안 이집트 수도의 유대인 공동체는 종교적, 법률적, 상업적, 문학적 문서들을 이곳에 보관해 왔는데, 신의 이름으로 문서를 파괴하지 않는다는 전통 때문에 쉽게 폐기할 수 없었습니다. 그 결과 오늘날 약 [누락된 문서 수]개에 달하는 컬렉션이 탄생했습니다. 조각 400.000 개이집트의 건조한 기후 덕분에 보존이 잘 되었습니다.

그 중요성에도 불구하고 이 컬렉션은 부분적으로만 활용되었습니다. 최근까지 자료의 3분의 1도 채 목록화되지 않았고 거의 활용되지 않았습니다. 10-15%는 성적증명서를 가지고 있었습니다. 나머지는 디지털화되어 이미지 형태로 접근 가능하지만, 중세 필기체나 반 필기체 히브리어 사본을 읽는 데는 상당한 경험과 시간이 필요하기 때문에 체계적으로 작업하기 어려웠습니다.

이 프로젝트의 새로운 단계는 이러한 상황을 변화시킵니다. 이스라엘 국립도서관이 관리하는 모든 히브리어 사본의 디지털 데이터베이스인 Ktiv의 인프라를 기반으로 국제 팀은 자동 전사 시스템 그 조각들을 변환할 수 있는 능력 검색 가능한 디지털 텍스트적어도 첫 번째 버전에서는 그렇게 되었고, 이후 개선될 것입니다.

기관에서 공개한 데이터에 따르면, 카이로 게니자의 거의 모든 요소에 대한 예비 사본이 이미 생성되었습니다. 수천 개의 추가 히브리어 사본 다른 중세 컬렉션에서 발췌했습니다. 한 세기 넘게 조각조각 작업해 온 분야로서, 그 규모의 비약은 아무리 강조해도 지나치지 않습니다.

MiDRASH: 히브리어 사본에 활용되는 AI와 인문학

이 변화의 중심에는 MiDRASH(히브리 문자로 된 중세 사본의 대규모 계산 분석을 통한 텍스트 및 서기관 전통의 마이그레이션)가 있습니다. 학제간 프로젝트 이스라엘과 유럽의 전문가들을 하나로 모으는 이 이니셔티브는 유럽연구위원회(ERC)가 6년간 지원한 1천만 유로 규모의 ERC 시너지(ERC Synergy) 보조금 덕분에 2023년에 시작되었으며, 이는 유대교 연구에 특화된 최초의 연구입니다.

MiDRASH의 목표는 단순히 오래된 텍스트를 필사하는 데 국한되지 않습니다. 이 연구의 책임자 중 한 명인 다니엘 스토클 벤 에즈라 교수는 다음과 같이 설명합니다. 책의 중세 유대 문학 문화 재구성어떤 저자가 다른 저자의 글을 인용했는지, 랍비의 주석(미드라심)이 무슬림과 기독교 공동체 사이에서 어떻게 유통되었는지, 또는 여러 세기에 걸쳐 기록된 전통이 어떻게 변형되었는지 추적합니다.

이를 실현하기 위해 팀은 오픈소스 플랫폼 내에서 작업하기로 결정했습니다. 스크립토리움사본과 비문의 자동 필사를 위해 설계된 이 시스템은 전문가들이 수년간 수작업으로 수집한 수천 건의 필사본을 기반으로 중세 히브리어 문자에 맞는 특정 모델을 개발합니다. 그 결과, 고대 이미지의 줄과 단어를 분할하여 편집 가능한 텍스트로 변환할 수 있는 시스템이 탄생했습니다.

담당자들은 초기 필사본에 오류가 포함되어 있지만(불규칙한 필체, 깨진 조각 또는 희미한 잉크로 인해 불가피한 일) 실용적인 유용성 정말 대단합니다. 이 앱을 사용하면 성경 구절, 탈무드의 일부, 편지, 계약서 또는 전례문 등을 빠르게 찾을 수 있는데, 이전에는 페이지마다 인내심을 가지고 읽어야 했던 내용입니다.

마이크로필름에서 오픈 플랫폼까지: 긴 여정

중세 유대인 사본의 디지털화

현재의 디지털 혁명 중세 유대인 사본 뜬금없이 생겨난 것이 아닙니다. 이스라엘 국립도서관은 1950년 초, 다비드 벤구리온 총리의 추진으로 마이크로필름 히브리어 사본 연구소가 설립되었다고 회상합니다. 모든 소장품을 예루살렘으로 물리적으로 옮기는 것은 현실적으로 불가능했기에, 가능한 한 많은 소장품을 마이크로필름에 촬영하여 대규모 영상 아카이브의 기반을 마련하는 것이 해결책이었습니다.

수십 년 동안 일부는 통합되었습니다. 컬렉션 1.500 개 다양한 출처에서 수집된 카이로 게니자 자료는 2006년부터 소위 프리드버그 게니자 프로젝트에 통합되어 체계적인 디지털화를 가속화했습니다. 2014년, 국립도서관은 사진 아카이브를 온라인으로 접근 가능한 디지털 컬렉션으로 전환하기 시작하여, 처음으로 모든 사용자가 수천 개의 히브리어 사본을 온라인으로 검색하고 열람할 수 있게 되었습니다.

MiDRASH는 이전 연구를 기반으로 구축되었습니다. 이미 알려진 히브리어 사본 대부분을 단일 데이터베이스로 통합한 Ktiv의 인프라를 활용하여 팀은 다음 알고리즘을 사용합니다. 기계 학습 문자, 단어, 그리고 텍스트 구조를 식별하는 것입니다. 중앙 집중식 아카이브와 첨단 컴퓨터 도구의 이러한 조합은 아랍어 사본 연구처럼 자료가 훨씬 더 분산되어 있는 다른 분야에서 발생하는 주요 문제 중 하나를 해결합니다.

국립도서관 연구 프로젝트 책임자인 Tsafra Siew 박사는 MiDRASH를 진정한 변곡점 중세 히브리어 사본을 다루는 모든 사람에게 말입니다. 그의 견해에 따르면, 이러한 도약은 단순히 접근을 용이하게 하는 것뿐만 아니라, 각 문서를 손으로, 그리고 거의 혼자서 읽어야 했던 당시에는 그 규모가 너무 커서 불가능했던 분석 유형을 가능하게 하는 것입니다.

국제 협력 및 필사 워크숍

MiDRASH 프로젝트는 기술적 전문성과 인문학적 전문성을 결합한 국제 컨소시엄으로 운영됩니다. 주요 연구자로는 나훔 데르쇼비츠 교수(텔아비브 대학교), 아비 슈미트만 박사(바르일란 대학교), 주디스 올쇼비-슐랑거 교수(옥스퍼드 대학교)가 있으며, 하이파 대학교, 이스라엘 국립도서관, 그리고 프린스턴 제니자 프로젝트마리나 루스토 교수가 감독을 맡았습니다.

이 이니셔티브는 실험실 연구에만 국한되지 않고 대중 참여의 길을 열어가고 있습니다. 11월 24일부터 27일까지 예루살렘에서 온라인 스트리밍으로 진행되는 대규모 행사가 개최되었습니다. "필사 마라톤" 중세 및 현대 히브리어 사본의 필기체 및 반필기체 사본에 초점을 맞춥니다. 이 세션에서는 훈련된 자원봉사자들이 AI가 생성한 필사본을 검토하고 교정합니다.

이러한 협력적 접근 방식은 두 가지 목표를 추구합니다. 한편으로는 품질과 정밀도 한편으로는 텍스트 자체를 분석하고, 다른 한편으로는 사람의 수정을 통해 인식 모델을 더욱 훈련시켜 향후 오류 수를 줄이고 가장 문제가 많은 손글씨도 더 잘 인식할 수 있도록 합니다. 이 시스템은 언어학자, 고문서학자, 그리고 히브리어 전문가들의 축적된 경험을 통해 조금씩 학습한다는 아이디어입니다.

이스라엘 국립도서관은 카이로 게니자의 최종 사본이 Ktiv에 통합되어 대중에게 공개될 것이라고 밝혔습니다. 원본 이미지 각 원고의. 이러한 방식으로 모든 연구자는 기계가 보는 것과 팩스에서 보이는 것을 비교하여 투명성을 유지하고 새로운 판독이나 향후 수정을 할 수 있습니다.

오래된 이야기에 대한 새로운 질문

대량 전사 단계가 완료되면, 프로젝트 리더들은 단순한 접근을 넘어 더 큰 목표를 추구합니다. 계획은 다음과 같습니다. 언어 및 텍스트 분석 대규모로: 인용문 체인 감지, 의역 식별, 사상의 여정 재구성, 수세기에 걸친 특정 신학적, 법적 모티프의 진화 추적.

실제로 이는 중세 유대인 사본이 단순히 선반이나 디지털 아카이브에 있는 고립된 조각이 아니라 다음과 같은 기능을 시작한다는 것을 의미합니다. 상호 연결된 텍스트 네트워크AI는 순전히 개인적인 독서에서는 놓칠 수 있는 패턴, 유사점, 반복을 찾는 데 도움이 되는 반면, 전문가는 그러한 연결이 의미하는 바를 해석할 수 있는 역사적, 언어학적 맥락을 제공합니다.

이 팀의 구체적인 관심사 중 하나는 무슬림과 기독교 지역의 유대인 공동체에 유포되었던 랍비의 서사시와 주석서인 미드라쉬의 흐름을 추적하는 것입니다. 같은 텍스트의 여러 버전이 지역이나 시대에 따라 어떻게 달라지는지 파악하는 것은...에 대한 더 나은 이해의 문을 열어줍니다. 문화적 접촉중세 시대에 일어난 내부 갈등과 교리적 재해석.

연구자들은 불완전함에도 불구하고 기계 필사 기술은 단지 시작에 불과하다고 주장합니다. 이러한 기반을 바탕으로 추가적인 발전이 가능할 것입니다. 비교 연구 어휘, 구문 또는 글쓰기 스타일뿐만 아니라 편지, 상업 계약 또는 법률 문서를 기반으로 한 사회적, 경제적 분석도 포함되는데, 지금까지 이러한 내용은 체계적으로 거의 탐구되지 않았습니다.

유럽의 세계적 영향과 기회

이 프로젝트는 이스라엘에서 시작되어 이스라엘에서 조정되었지만, 그 영향은 유럽 학계 전체에 미치고 있습니다. MiDRASH에 자금을 지원하는 ERC Synergy 보조금은 유럽 연합의 정책의 일부입니다. 디지털 인프라 지원 인문학을 전공했으며, 주요 연구자 중 몇몇은 프랑스, ​​영국 및 기타 국가의 대학에서 근무하고 있습니다.

지중해 역사, 중세 유대교, 또는 고전 이슬람을 연구하는 유럽 전문가들에게 이처럼 포괄적이고 검색 가능한 데이터베이스를 보유하는 것은 중대한 변화를 의미합니다. 지금까지 무슬림 거주 지역에 거주하는 유대인 공동체의 삶을 재구성하는 것은 복잡한 작업이었습니다. 무슬림들이 거주했던 지역도 마찬가지였습니다. 중세 유대인 인구의 90%— 이동이 필요했고 기록 보관소 접근도 제한적이었습니다. Ktiv가 점진적으로 개방됨에 따라, 대부분의 자료는 어느 캠퍼스나 연구 센터에서나 접근 가능합니다.

더욱이 MiDRASH에서 개발된 방법론은 라틴어 사본 컬렉션부터 공증 또는 종교 기록 보관소에 이르기까지 다른 유럽 문서 컬렉션으로 확장 가능한 모델을 제공합니다. 디지털화, 자동 필사, 그리고 공공 협업을 결합하는 아이디어가 떠오르고 있습니다. 복제 가능한 경로 악화 위험에 처한 다른 문화 유산지를 보존하고 연구합니다.

프로젝트 리더들은 동료 평가를 받는 과학 저널에 결과를 게재함으로써 이러한 접근 방식이 학문적 기준 내에서 확고히 자리매김할 수 있을 것이라고 확신합니다. 한편, 오픈 액세스 이러한 사진과 필사본은 이스라엘, 유럽, 미국의 대학 간 공동 연구를 촉진하고 중세 유대인 사본에 대한 보다 광범위한 연구 네트워크를 구축하는 데 도움이 될 것으로 기대됩니다.

카이로 게니자와 기타 히브리어 사본에 적용된 인공 지능의 발전은 거의 관리하기 힘든 기록 보관소를 다음과 같은 것으로 변환합니다. 살아있고 확장되는 소스예전에는 몇 년 동안 꼼꼼한 독서가 필요했던 것을 이제는 몇 초 만에 추적할 수 있게 되었고, 전문가의 작업의 중요성은 줄어들지 않았습니다. 오히려 그 반대입니다. 즉, 더 복잡한 질문을 하고 조금씩 숨겨진 보물이 아닌 전 세계적인 공유 자원이 되는 유산을 심층적으로 해석할 시간이 확보된 것입니다.

원고-0
관련 기사 :
역사적 사본 연구의 새로운 발견과 기술