1. Forum Libertarian ma swój regulamin.

Wolnościowa Biblioteka online

Temat na forum 'Inicjatywy wolnościowe' rozpoczęty przez niohnioh, 14 Październik 2015.

  1. niohnioh

    niohnioh Kucolibertarianin

    Posty:
    77
    Polubienia:
    157
  2. tosiabunio

    tosiabunio Grand Master Architect Członek Załogi

    Posty:
    6 479
    Polubienia:
    12 749
    Będę marudził - skany i pdfy ssą po same kule. 21 wiek mamy. Ja rozumiem, że to polska mowa, ale większość tych dzieł mam w oryginale w ładnych ebookach. Nie polecam.
     
  3. Tralalala

    Tralalala Guest

    A nie można z pdfa importować do tego formatu którego używasz na ebooku (epub?)?
    Ze skanów można zczytać znaki za pomocą jakiegoś programu do OCR, sam nie sprawdzałem jak to wychodzi ale ponoć całkiem dobrze jeżeli skany są w miarę ładnie zrobione, problem jest z tabelkami czy obrazkami.
     
  4. niohnioh

    niohnioh Kucolibertarianin

    Posty:
    77
    Polubienia:
    157
    Poza tym, dodam od siebie jedną książkę, której nie zdobędziecie nigdzie w internecie. Harmonie ekonomiczne Frederica Bastiata są dostępne w wersji pdf na stronie Instytutu Misesa. Jednak ja przerobiłem je na epub i mobi. Wysłałem te wersje do naszego instytutu, ale zweryfikowanie poprawności dodatkowych formatów nie jest dla nich priorytetem i weryfikacja stanęła w miejscu, więc dzieła nie zostały nikomu udostępnione.
     

    Załączniki:

  5. GoldenColt

    GoldenColt Well-Known Member

    Posty:
    821
    Polubienia:
    3 023
    No w sumie jest tu trochę towaru, którego póki co nie było nie żadnych chomikach, ale straaaaszna szkoda że większość fajnych pozycji jest w formie skanu. No ale darowanemu koniowi....
     
  6. GoldenColt

    GoldenColt Well-Known Member

    Posty:
    821
    Polubienia:
    3 023
    Ale się rozrośli przez ten czas. Praktycznie wszystkie istotne książki na składzie, format też poprawili, są pdf-y i epub-y itp. Jednak projekt wypalił, polecam zajrzeć kto jeszcze tego nie znał.
     
  7. kompowiec

    kompowiec Open Source Boy

    Posty:
    1 574
    Polubienia:
    1 461
    O ja pierdole, sumliński xD naprawdę?

    Ale po za tym to spoko PDFy, zassałem wszystko. Jak zacznę czytać (tj. robić z nich audiobooki) to może zrobi się z nich pastebki txt.
     
  8. kuguar

    kuguar Member

    Posty:
    31
    Polubienia:
    17
    Jak tak dalej pojdzie to Fijor niedlugo zawiesi dzialalnosc :)
     
  9. MaxStirner

    MaxStirner Well-Known Member

    Posty:
    2 315
    Polubienia:
    3 836
    Nieprawda, jeśli to Bastiat wszystkie książki są w necie (nieliczne tylko po francusku). Harmonie w wersji tekstowej są tu
    http://www.econlib.org/library/Bastiat/basHarCover.html. Tekst wystarczy skopiowac do pliku i tyle - puryści mogą próbowac formatować, mnie tam szkoda czasu. Pdf do epuba da sie przekonwertować w calibre, ale tylko nieskanowany tekst (tzn plik w którym użyto czcionki) Daje to różne efekty, na ogół tracisz jakiś element formatowania i ilustracje, można próbować sie samemu bawić z wyrażeniami regularnymi - jak mówiłem mnie też na to szkoda roboty. Ocr tak samo spowoduje że stracisz ilustacje i bardziej skomplikowane formatowanie np tabele. Wszystko zależy od pliku i jego budowy. Narzekania na brak epuba nie czaje bo pdfy gołe da sie wygodnie czytać w każdym programie który ma zwijanie tekstu i jest oparty o dobrą niezasobożerną biblioteke np Mupdf. Ja używam koreadera, choć to program jeszcze na dorobku, ale ma reflow. Nigdy nie przerabiam na Epub, nie mam potrzeby
    https://github.com/koreader/koreader/wiki/Download
     
  10. tolep

    tolep ChNiNK! ChP!

    Posty:
    7 610
    Polubienia:
    12 632
    Tyś chyba porządnego OCR-a nigdy nie używał.
     
  11. MaxStirner

    MaxStirner Well-Known Member

    Posty:
    2 315
    Polubienia:
    3 836
    Rzuc nazwą - przydałby sie taki który zostawia ilustracje.
     
  12. kompowiec

    kompowiec Open Source Boy

    Posty:
    1 574
    Polubienia:
    1 461
    może dlatego że epuby mają to od siebie, że epubami można łatwiej manipulować aniżeli zwykłym PDFem? PDF można potratkować raczej jako pliki "tylko do odczytu" gdy tymczasem epubowe teksty można kopiować, zmieniać na audiobooki i tak dalej.

    Po za tym, OCRy nie służą do zostawiania grafik i innych ozdobników, co najwyżej może wyciągnąć tekst znajdujący się na grafice.
     
  13. tolep

    tolep ChNiNK! ChP!

    Posty:
    7 610
    Polubienia:
    12 632
    Jakieś 10 lat temu bawiłem siędosyć mocno FineReaderem Pro i byłem zaskoczony jak zajebiście sobie radzi. Również z tabelami i ilustracjami.
     
  14. MaxStirner

    MaxStirner Well-Known Member

    Posty:
    2 315
    Polubienia:
    3 836
    Hmm nigdy go nie używałem, głownie Tesseracta i OCRopusa. Wypróbuję dzięki. W każdym razie jeśli ma taką opcję nigdzie nie chwalą sie tym w pomocy albo reklamach. Tak czy siak dzięki szukałem tego.
    komp - Niby masz racje, aczkolwiek wg mnie to troche przereklamowane. Jedyna przewaga epuba, z puntu widzenia usera to
    a) z reguły mniejszy rozmiar pliku, co przy dużej liczbie ebooków zaczyna mieć znaczenie
    b) Możliwość zmiany czcionki i stylu
    Tekst z pdfa nieskanowanego można przecież dowolnie kopiować, wysyłać do programów typu text to speech, itd
    Jeśli założysz sobie Ivonę, lub np Balabolkę (frontend do TTS) + Ivonę odczyta tekst z takiego PDFa bez kłopotu. Dodam jeszcze, że zastosowanie opcji reflow pozwala na zmianę rozmiaru czcionki w pdf.
     
    Ostatnia edycja: 3 Luty 2016
  15. Mad.lock

    Mad.lock barbarzyńsko-pogański stratego-decentralizm

    Posty:
    5 149
    Polubienia:
    4 586
    @MaxStirner a znasz jakiś sposób na kasację znaków końca linii, ale nie końców akapitu, z tekstu skopiowanego z PDF? Ale automatycznie, bez konieczności znajomości oryginału? Bez tego PDF będzie formatem stratnym dla treści przy próbach konwersji. Kto produkuje pliki PDF bez ważnej przyczyny (identyczność wyglądu, nie treści, wydrukowanych dokumentów, a komu naprawdę coś takiego jest potrzebne?) ten jest tylko ciemnym biurwem gorszego sortu.
     
  16. kompowiec

    kompowiec Open Source Boy

    Posty:
    1 574
    Polubienia:
    1 461
    @up - chyba to będzie odpowiednie:
    :%s/\n//g

    Przyda się także kasacja idiotycznych numerków stron, które znajdują się w nowym wierszu:
    :%s/^\d*// (więcej)
    na doczepiane cyferki pod koniec artykułu nie mam sposobu, zwykle robiłem hlsearch i przesuwałem się z prędkością światła, tak jak to w vimie możliwie.

    co do tekstu, jak napiszę sobie coś w latexie i przerobię na PDF to i owszem, albo gdy kupię ebooka w dobrej jakości. Pirackie, wtórne skany już wymagają trochę zachodu ;)

    Właśnie sobie skanuje OCRem moją ulubioną książkę którą mam w domu i piąty dzień ją skanuje, poprawiam tekst, łącze rozdziały w jeden plik, daję IVONĘ i jeszcze konwertuje na mp3 (bo AtVoice na androida obsługuje tylko .ogg a tego nie obsługuje mój discmen) i na koniec oczywiście udostępniłem. Wszystko na komórce bo nie umiem zainstalować syntezatora na debianie (espeak już mi się przejadł, do tego naprawdę nie da się przyzwyczaić).

    teraz szukam programu, który by mi pozwalał hurtowo zdjęcia przerabiać, bez pierdolenia się każdym z osobna ;)

    Czasem się zastanawiam, czy ktoś byłby zainteresowany takimi warezami na wzór projektu gutenberg (który ma nawet .txt bo się nadaje właśnie do audiobooków) Ciekawe czy jest polska wersja tego serwisu, jedyny jaki bym mógł w taki sposób określić to tylko wikiźródła.. ale tam usuwają masę licencji otwartych, o NC i BSD nie wspominając nawet.. dzisiaj jedynie co jest to najwyżej scribd, chyba największa biblioteka w necie jaka jest, ale wymagają jakiegoś abonamentu (30 dniowy trial).
     
  17. Mad.lock

    Mad.lock barbarzyńsko-pogański stratego-decentralizm

    Posty:
    5 149
    Polubienia:
    4 586
    Co to w ogóle jest?
     
  18. MaxStirner

    MaxStirner Well-Known Member

    Posty:
    2 315
    Polubienia:
    3 836
    Wyrażenie regularne (inaczej regex). Każdy edytor tekstu obsługuje manipulacje tekstem za pomocą tego. Część javaskryptu. Na usuwanie gołych pustych akapitów starcza mi ^\n (samo \n suwa wszystkie akapity w tekscie).
    Puste, nadmiarowe twarde spacje usunie [:space:]+
    . Wpisujesz to w pole znajdz i zamień (pole zamień na zostawiasz puste). Musisz miec zaznaczoną opcje "dopasuj jako wyrazenie rgularne"
    Wstępna lista tutaj, jest ich dużo wiecej
    https://help.libreoffice.org/Common/List_of_Regular_Expressions/pl
     
    Ostatnia edycja: 5 Luty 2016
    kompowiec lubi to.
  19. Mad.lock

    Mad.lock barbarzyńsko-pogański stratego-decentralizm

    Posty:
    5 149
    Polubienia:
    4 586
    W moim edytorze to nie działa. Zresztą nic nie zadziała, bo jak zaznaczę myszą i skopiuję z PDF-a tekst, to już na tym etapie mam tylko linie oddzielone znakami końca linii tam gdzie akurat się kończyły w PDF-ie. A akapitów nie odróżnię od nowych linii, które akurat zaczynają się od nowego zdania.

    PDF i akopiowany txt. Entery to wiem jak usunąć, ale wtedy będę miał jeden wielki akapit.

    [​IMG]
     
  20. kompowiec

    kompowiec Open Source Boy

    Posty:
    1 574
    Polubienia:
    1 461
    Każdy, bardziej zaawansowany od notatnika/leafpada. Gedit chyba z kilka lat temu używałem, nie pamiętam czy w ogóle potrafi obsługiwać regexy. Raczej nie, podobnie jest w oknie Gvim gdzie włączasz frontendowy :%s i nie obsługuje on też wszystkich (stąd też się nadaje do znaków, które w regexie są specjalne i nie znamy sposobu by to ominąć)

    mad, regex opisywałem dla vima. Skoro masz ubuntu to masz pewnie namiastkę vi nawet. Ale zainstaluj najlepiej normalnego vima bo nie wiem jak to jest z kompatybilnością poleceń i wejdź w linka do StackOverflow który podałem wyżej pod "więcej". Formatowanie tych enterów tutaj widzę że nie ma sensu (w audiobookach to nie przeszkadza) tylko te cyferki widzę że wkurwiają. Ale jeśli tak bardzo chcesz, można się pobawić zapewne ilością znaków w wierszu do słynnych 80 a potem wyjebać (nie testowałem): http://stackoverflow.com/questions/235439/vim-80-column-layout-concerns

    a jak nie chce ci się z tym pierdolić, masz http://chomikuj.pl/tuz-tuz/Kolekcja+S-F+++(TXT)/Douglas+Adams/Cykl+Autostopem+przez+Galaktyke cały cykl. Tylko widzę tu jakiś problem z Polskimi znakami :( sam jedną taką książkę ściągnąłem i nie potrafię przywrócić jej polskich znaków. Help anyone?

    A jak mimo wszystko nie potrafisz tego zrobić, zróbmy takiego deala: ty mi przywrócisz PL znaki z tego dokumentu: http://chomikuj.pl/Komputer-World/root/home/Documents/Audiobooki/samoleczenie+wzroku+dr.+batesa/src a ja poprawię twojego, usuwając wszelkie niepotrzebne ozdobniki.
     

Poleć forum

  1. Ta strona wykorzystuje ciasteczka (cookies) w celu: utrzymania sesji zalogowanego Użytkownika, gromadzenia informacji związanych z korzystaniem z serwisu, ułatwienia Użytkownikom korzystania z niego, dopasowania treści wyświetlanych Użytkownikowi oraz tworzenia statystyk oglądalności czy efektywności publikowanych reklam.Użytkownik ma możliwość skonfigurowania ustawień cookies za pomocą ustawień swojej przeglądarki internetowej. Użytkownik wyraża zgodę na używanie i wykorzystywanie cookies oraz ma możliwość wyłączenia cookies za pomocą ustawień swojej przeglądarki internetowej.